このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231127となっている論文です。

PDF登録状況(公開日: 20231127)

TitleAuthorsAbstract論文公表日・翻訳日
# C-ITS環境モデリングと攻撃モデリング

C-ITS Environment Modeling and Attack Modeling ( http://arxiv.org/abs/2311.14327v2 )

ライセンス: Link先を確認
Jaewoong Choi, Min Geun Song, Hyosun Lee, Chaeyeon Sagong, Sangbeom Park, Jaesung Lee, Jeong Do Yoo, Huy Kang Kim, (参考訳) テクノロジーが進歩するにつれて、都市はスマートシティへと進化し、大量のデータを処理する能力と、都市内のさまざまな要素の複雑さと多様化が増している。 スマートシティの中核となるシステムは、C-ITS(Cooperative-Intelligent Transport Systems)である。 C-ITSは、車両が道路沿いの交通状況、突然の停止、落下物、その他の事故リスクに関する情報をドライバーにリアルタイムに提供するシステムである。 道路インフラ、C-ITSセンター、車両ターミナルで構成されている。 しかし、スマートシティはネットワークや電子制御を通じて多くの要素を統合するため、サイバーセキュリティの問題の影響を受けやすい。 C-ITSのサイバーセキュリティ問題の場合、安全性の問題が発生する大きなリスクがある。 この技術文書は、スマートシティ環境でセキュリティインシデントが発生する可能性のある攻撃面を特定することを目的として、C-ITS環境とそれが提供するサービスをモデル化することを目的としている。 その後、特定された攻撃面に基づいて、文書は攻撃シナリオとその各ステージを構築することを目的としている。 この文書は、C-ITSの概念を記述し、続いて、私たちによって定義されたC-ITS環境モデル、サービスモデル、アタックシナリオモデルを記述する。

As technology advances, cities are evolving into smart cities, with the ability to process large amounts of data and the increasing complexity and diversification of various elements within urban areas. Among the core systems of a smart city is the Cooperative-Intelligent Transport Systems (C-ITS). C-ITS is a system where vehicles provide real-time information to drivers about surrounding traffic conditions, sudden stops, falling objects, and other accident risks through roadside base stations. It consists of road infrastructure, C-ITS centers, and vehicle terminals. However, as smart cities integrate many elements through networks and electronic control, they are susceptible to cybersecurity issues. In the case of cybersecurity problems in C-ITS, there is a significant risk of safety issues arising. This technical document aims to model the C-ITS environment and the services it provides, with the purpose of identifying the attack surface where security incidents could occur in a smart city environment. Subsequently, based on the identified attack surface, the document aims to construct attack scenarios and their respective stages. The document provides a description of the concept of C-ITS, followed by the description of the C-ITS environment model, service model, and attack scenario model defined by us.
翻訳日:2024-03-25 13:16:38 公開日:2023-11-27
# AIによるアタックグラフ生成

AI-based Attack Graph Generation ( http://arxiv.org/abs/2311.14342v2 )

ライセンス: Link先を確認
Sangbeom Park, Jaesung Lee, Jeong Do Yoo, Min Geun Song, Hyosun Lee, Jaewoong Choi, Chaeyeon Sagong, Huy Kang Kim, (参考訳) IoT技術の進歩により、多くの電子機器はネットワークを介して相互接続され、互いに通信し、特定の役割を果たす。 しかし、多くのデバイスがネットワークに加わると、サイバー攻撃の脅威もエスカレートする。 サイバー脅威の予防と検出は重要であり、そのような脅威を防ぐ方法の1つは攻撃グラフの使用である。 攻撃グラフはネットワーク内のセキュリティ脅威を評価するために広く利用されている。 しかし、ネットワークがスケールするにつれて、攻撃グラフを生成するのに時間がかかり、欠点が生じる。 この制限を克服するために、人工知能モデルを用いることができる。 AIモデルを利用することで、アタックグラフを短時間で作成し、最適な結果を近似することができる。 攻撃グラフ生成用に設計されたAIモデルは、強化学習アルゴリズムを使用してトレーニングされたエンコーダとデコーダで構成されている。 AIモデルをトレーニングした後、損失と報酬の値の変化を観察して、モデルの学習の有効性を確認した。 さらに、AIモデルによって生成されたアタックグラフと従来の手法によるアタックグラフを比較した。

With the advancement of IoT technology, many electronic devices are interconnected through networks, communicating with each other and performing specific roles. However, as numerous devices join networks, the threat of cyberattacks also escalates. Preventing and detecting cyber threats are crucial, and one method of preventing such threats involves using attack graphs. Attack graphs are widely used to assess security threats within networks. However, a drawback emerges as the network scales, as generating attack graphs becomes time-consuming. To overcome this limitation, artificial intelligence models can be employed. By utilizing AI models, attack graphs can be created within a short period, approximating optimal outcomes. AI models designed for attack graph generation consist of encoders and decoders, trained using reinforcement learning algorithms. After training the AI models, we confirmed the model's learning effectiveness by observing changes in loss and reward values. Additionally, we compared attack graphs generated by the AI model with those created through conventional methods.
翻訳日:2024-03-25 13:16:38 公開日:2023-11-27
# RTPS攻撃データセットの説明

RTPS Attack Dataset Description ( http://arxiv.org/abs/2311.14496v2 )

ライセンス: Link先を確認
Dong Young Kim, Dongsung Kim, Yuchan Song, Gang Min Kim, Min Geun Song, Jeong Do Yoo, Huy Kang Kim, (参考訳) 本稿ではRTPSデータセットについて概説する。 我々は、通常状態の無人地上車両(UGV)に攻撃データを注入することで、攻撃データと通常のパケットデータを収集する。 このデータセットを収集するために、UGV、コントローラ、PC、ルータからなるテストベッドを組み立てました。 テストベッド上で「コマンドインジェクション」と「ARPスポーフィング」の2種類の攻撃を行った。 データ収集時間は180、300、600、1200で、シナリオはコレクション時間毎に30である。 全240機。 このデータセットは、ROS2ネットワークやUGVのセキュリティ脅威問題に対処するために、異常検出などの技術の開発に寄与することを期待しています。

This paper explains all about our RTPS datasets. We collect attack and normal packet data by injecting attack data in an Unmanned Ground Vehicle (UGV) which is normal state. To collect this dataset, We assembled a test bed consisting of UGV, controller, PC, and router. We conducted two types of Attacks "Command Injection" and "ARP Spoofing" on the testbed. The data collection time is 180, 300, 600, and 1200, the scenario has 30 each on collection time. 240 total. We expect this dataset will contribute to the development of technologies such as anomaly detection to address security threat issues in ROS2 networks and UGVs.
翻訳日:2024-03-25 13:06:53 公開日:2023-11-27
# 適応型ニューロファジィ分類器とSDNによる実時間TCPシンフラッドDDoS対策に向けて

Toward a real-time TCP SYN Flood DDoS mitigation using Adaptive Neuro-Fuzzy classifier and SDN Assistance in Fog Computing ( http://arxiv.org/abs/2311.15633v1 )

ライセンス: Link先を確認
Radjaa Bensaid, Nabila Labraoui, Ado Adamou Abba Ari, Leandros Maglaras, Hafida Saidi, Ahmed Mahmoud Abdu Lwahhab, Sihem Benfriha, (参考訳) IoT(Internet of Things)の成長は、最近、私たちの日常生活に多くの影響を与えました。 その結果、大量のデータが生成され、短時間で処理する必要がある。 したがって、クラウドコンピューティングのような計算モデルの組み合わせが必要である。 クラウドプラットフォームの最大の欠点は、集中型のメインフレームのため、レイテンシが高いことだ。 幸いなことに、フォグコンピューティングとして知られる分散パラダイムがこの問題を克服するために登場し、多くのIoTアプリケーションシナリオをサポートするために、低レイテンシと高帯域幅のクラウドサービスを提供する。 しかし、フォグサーバに対するアタックは、フォグサービスの信頼性と可用性に大きな影響を及ぼすDistributed Denial of Service (DDoS)攻撃など、多くの形態を取ることができる。 これらの課題に対処するため、我々は、適応型ニューロファジィ推論システム(ANFIS)とSDN(Software Defined Networking)アシスタンス(FASA)を用いて、フォグコンピューティングに基づくシンフラッドDDoS攻撃の軽減を提案する。 シミュレーションの結果、FASAシステムは精度、精度、リコール、F1スコアで他のアルゴリズムよりも優れていた。 このことは、我々のシステムがTCP Synse floods DDoS攻撃の検出と緩和にいかに重要であるかを示す。

The growth of the Internet of Things (IoT) has recently impacted our daily lives in many ways. As a result, a massive volume of data is generated and needs to be processed in a short period of time. Therefore, the combination of computing models such as cloud computing is necessary. The main disadvantage of the cloud platform is its high latency due to the centralized mainframe. Fortunately, a distributed paradigm known as fog computing has emerged to overcome this problem, offering cloud services with low latency and high-access bandwidth to support many IoT application scenarios. However, Attacks against fog servers can take many forms, such as Distributed Denial of Service (DDoS) attacks that severely affect the reliability and availability of fog services. To address these challenges, we propose mitigation of Fog computing-based SYN Flood DDoS attacks using an Adaptive Neuro-Fuzzy Inference System (ANFIS) and Software Defined Networking (SDN) Assistance (FASA). The simulation results show that FASA system outperforms other algorithms in terms of accuracy, precision, recall, and F1-score. This shows how crucial our system is for detecting and mitigating TCP SYN floods DDoS attacks.
翻訳日:2024-03-18 15:42:08 公開日:2023-11-27
# 可逆系の非干渉解析:分岐二相性に基づくアプローチ

Noninterference Analysis of Reversible Systems: An Approach Based on Branching Bisimilarity ( http://arxiv.org/abs/2311.15670v1 )

ライセンス: Link先を確認
Andrea Esposito, Alessandro Aldini, Marco Bernardo, Sabina Rossi, (参考訳) 非干渉理論は、マルチレベルセキュリティシステムにおけるセキュアな計算の解析と実行を支援する。 非干渉に対する古典的同値性に基づくアプローチは、主に弱いバイシミュレーションのセマンティクスに依存している。 本手法は,可逆計算の存在下での隠蔽チャネルの同定に十分でないことを示す。 データベース管理システムの例で説明されているように、後ろ向きの計算の活性化は、標準の前方方向に進むと観測不可能な情報の流れを引き起こす可能性がある。 前後の計算の効果を捉えるためには、De Nicola, Montanari, Vaandrager の以前の研究で、相互に類似性を持つことが証明された、より表現力のある意味論に切り替える必要がある。 本稿では,分岐二相性に基づく非干渉特性の分類法とその保存・構成特性について検討し,弱二相性に基づく古典的階層と比較する。

The theory of noninterference supports the analysis and the execution of secure computations in multi-level security systems. Classical equivalence-based approaches to noninterference mainly rely on weak bisimulation semantics. We show that this approach is not sufficient to identify potential covert channels in the presence of reversible computations. As illustrated via a database management system example, the activation of backward computations may trigger information flows that are not observable when proceeding in the standard forward direction. To capture the effects of back and forth computations, it is necessary to switch to a more expressive semantics that, in an interleaving framework, has been proven to be branching bisimilarity in a previous work by De Nicola, Montanari, and Vaandrager. In this paper we investigate a taxonomy of noninterference properties based on branching bisimilarity along with their preservation and compositionality features, then we compare it with the classical hierarchy based on weak bisimilarity.
翻訳日:2024-03-18 15:42:08 公開日:2023-11-27
# 悲鳴チャンネルアタックにおける非ハーモニック周波数での攻撃

Attacking at non-harmonic frequencies in screaming-channel attacks ( http://arxiv.org/abs/2311.15832v1 )

ライセンス: Link先を確認
Jeremy Guillaume, Maxime Pelcat, Amor Nafkha, Ruben Salvador, (参考訳) スクリーミングチャネル攻撃は、従来のSCAよりも高いEMリークエネルギーのため、電磁界(EM)サイドチャネル攻撃(SCA)をより遠くで行うことができ、被害者に近寄ることの要求を緩和する。 この攻撃は、RF(Radio Frequency)モジュールをデジタル回路と同じダイに組み込んだデバイスに実装することができ、RFは意図せず捕捉し、変調し、増幅し、正統な信号と共に漏れを伝達することができる。 漏れはデジタルスイッチングのアクティビティから生じるため、以前の研究の仮説では、この漏れはデジタルクロック周波数の倍、すなわちハーモニクスに現れるというものだった。 この研究は、高調波だけでなく、非高調波の漏れを攻撃の成功に活用できることを示す。 実際、リーク信号による変換は、基板と電力および地上面の伝搬効果によって複雑になるため、他の周波数でも漏れが現れる。 まず、漏洩を含む周波数を検知し、非高調波周波数で現れることを示す2つの手法を提案する。 実験の結果,16バイトのAESキーを検索すると,非ハーモニック周波数での悲鳴チャネル攻撃はハーモニックスと同じくらいの成功を収めることがわかった。 RFスペクトルは干渉信号によって汚染されるため、マルチパスフェーディングと干渉によってハーモニック周波数が汚染されるより現実的でノイズの多い環境で実験を行い、攻撃に成功した。 非ハーモニック周波数でのこれらの攻撃は攻撃者が攻撃を成功させる可能性のある潜在的な頻度を増大させることで攻撃面を増加させる。

Screaming-channel attacks enable Electromagnetic (EM) Side-Channel Attacks (SCAs) at larger distances due to higher EM leakage energies than traditional SCAs, relaxing the requirement of close access to the victim. This attack can be mounted on devices integrating Radio Frequency (RF) modules on the same die as digital circuits, where the RF can unintentionally capture, modulate, amplify, and transmit the leakage along with legitimate signals. Leakage results from digital switching activity, so the hypothesis of previous works was that this leakage would appear at multiples of the digital clock frequency, i.e., harmonics. This work demonstrates that compromising signals appear not only at the harmonics and that leakage at non-harmonics can be exploited for successful attacks. Indeed, the transformations undergone by the leaked signal are complex due to propagation effects through the substrate and power and ground planes, so the leakage also appears at other frequencies. We first propose two methodologies to locate frequencies that contain leakage and demonstrate that it appears at non-harmonic frequencies. Then, our experimental results show that screaming-channel attacks at non-harmonic frequencies can be as successful as at harmonics when retrieving a 16-byte AES key. As the RF spectrum is polluted by interfering signals, we run experiments and show successful attacks in a more realistic, noisy environment where harmonic frequencies are contaminated by multi-path fading and interference. These attacks at non-harmonic frequencies increase the attack surface by providing attackers with an increased number of potential frequencies where attacks can succeed.
翻訳日:2024-03-18 15:42:08 公開日:2023-11-27
# IPv6 Bitcoin認証アドレス

IPv6 Bitcoin-Certified Addresses ( http://arxiv.org/abs/2311.15842v1 )

ライセンス: Link先を確認
Mathieu Ducroux, (参考訳) IPv6の重要な特徴は、ホストがネットワークにシームレスに統合できるプラグイン・アンド・プレイ機能である。 信頼できる権限やセキュリティインフラストラクチャがなければ、ホストの課題は、自身のアドレスを生成し、他者のオーナシップを検証することだ。 暗号的に生成されたアドレス (CGA) はIPv6アドレスをホストの公開鍵に結び付けてアドレスの所有権を証明することでこの問題を解決する。 CGA生成は、BitcoinのProof-of-Work(PoW)に似た暗号パズルを解き、アドレス偽造を防ぐ。 残念ながら、このパズルを解くことは、しばしば望ましくないアドレス生成遅延を引き起こすため、CGAの採用を妨げている。 本稿では,ホストの公開鍵にIPv6アドレスをバインドする新しい手法であるBitcoin認証アドレス(BCA)を提案する。 BCAは、Bitcoinノードによって計算されたPoWを使用してアドレスを生成する際の計算コストを削減する。 CGAと比較して、BCAはスプーフィング攻撃に対するより優れた保護を提供し、ホストのプライバシを改善する。 Bitcoinネットワークの分散性のため、BCAはCGAのような信頼できる権威への依存を避けている。 BCAは、Bitcoinノードによって計算されたPoWの再利用方法を示し、ホストのコストを削減し、Bitcoinマイニングをより効率的にする。

A pivotal feature of IPv6 is its plug-and-play capability that enables hosts to integrate seamlessly into networks. In the absence of a trusted authority or security infrastructure, the challenge for hosts is generating their own address and verifying ownership of others. Cryptographically Generated Addresses (CGA) solves this problem by binding IPv6 addresses to hosts' public keys to prove address ownership. CGA generation involves solving a cryptographic puzzle similar to Bitcoin's Proof-of-Work (PoW) to deter address spoofing. Unfortunately, solving the puzzle often causes undesirable address generation delays, which has hindered the adoption of CGA. In this paper, we present Bitcoin-Certified Addresses (BCA), a new technique to bind IPv6 addresses to hosts' public keys. BCA reduces the computational cost of generating addresses by using the PoW computed by Bitcoin nodes to secure the binding. Compared to CGA, BCA provides better protection against spoofing attacks and improves the privacy of hosts. Due to the decentralized nature of the Bitcoin network, BCA avoids reliance on a trusted authority, similar to CGA. BCA shows how the PoW computed by Bitcoin nodes can be reused, which saves costs for hosts and makes Bitcoin mining more efficient.
翻訳日:2024-03-18 15:42:08 公開日:2023-11-27
# サーバレスクラウドプラットフォームのためのAWS Firecracker VMMのマイクロアーキテクチャセキュリティ

Microarchitectural Security of AWS Firecracker VMM for Serverless Cloud Platforms ( http://arxiv.org/abs/2311.15999v1 )

ライセンス: Link先を確認
Zane Weissman, Thore Tiemann, Thomas Eisenbarth, Berk Sunar, (参考訳) Firecrackerは、サーバレスクラウドプラットフォーム用のAmazon Web Services(AWS)によって開発された仮想マシンマネージャ(VMM)である。 Firecrackerは、高速で軽量なVMを提供し、通常、小さなタスクを分離するために使用されるコンテナのスピードと、パフォーマンスの犠牲から分離する傾向にあるVMのセキュリティの組み合わせを約束する。 このセキュリティと効率の組み合わせにより、同じハードウェア上で異なるユーザから何千ものユーザタスクを実行することが可能であるだけでなく、ホストシステムはアクティブなタスクを頻繁に切り替えることが可能になる、とAWSは主張する。 AWSは、マイクロアーキテクチャ攻撃が脅威モデルに含まれると述べているが、この種の攻撃は、サーバーレスコンピューティングのスケーラビリティが前例のない数のユーザ間でハードウェアを共有することに依存するように、共有ハードウェアに直接依存する。 本研究では,ファイアクラッカーのマイクロアーキテクチャ攻撃に対する安全性について検討する。 まず、Firecracker氏の主張する分離モデルについてレビューし、デプロイメントのためのベストプラクティスを推奨し、サーバレスプラットフォームの潜在的な脅威モデルを特定し、潜在的な弱点を分析します。 次に、ファイアクラッカーが提供する分離をテストするためにマイクロアーキテクチャー攻撃証明を使用し、SpectreやMDS攻撃に対してほとんど防御を提供していないことを発見した。 特に2つの事件が発覚する。 1) Firecracker VMを脅かすが、外部で実行されるプロセスではなく、AWSが推奨するディフェンスによって緩和されないMedusaの亜種。 2) 推奨対策が実施され, SMT がシステム内で無効である場合でも, 利用可能なSpectre-PHT 変種 まとめると、AWSはFirecracker VMM固有のセキュリティをオーバーステートし、Firecrackerを使用するクラウドシステムを適切に保護するための不完全なガイダンスを提供する。

Firecracker is a virtual machine manager (VMM) built by Amazon Web Services (AWS) for serverless cloud platforms, services that run code for end users on a per-task basis, automatically managing server infrastructure. Firecracker provides fast and lightweight VMs and promises a combination of the speed of containers, typically used to isolate small tasks, and the security of VMs, which tend to provide greater isolation at the cost of performance. This combination of security and efficiency, AWS claims, makes it not only possible but safe to run thousands of user tasks from different users on the same hardware, with the host system frequently switching between active tasks. Though AWS states that microarchitectural attacks are included in their threat model, this class of attacks directly relies on shared hardware, just as the scalability of serverless computing relies on sharing hardware between unprecedented numbers of users. In this work, we investigate how secure Firecracker is against microarchitectural attacks. First, we review Firecracker's stated isolation model and recommended best practices for deployment, identify potential threat models for serverless platforms, and analyze potential weak points. Then, we use microarchitectural attack proof-of-concepts to test the isolation provided by Firecracker and find that it offers little protection against Spectre or MDS attacks. We discover two particularly concerning cases: 1) a Medusa variant that threatens Firecracker VMs but not processes running outside them, and is not mitigated by defenses recommended by AWS, and 2) a Spectre-PHT variant that remains exploitable even if recommended countermeasures are in place and SMT is disabled in the system. In summary, we show that AWS overstates the security inherent to the Firecracker VMM and provides incomplete guidance for properly securing cloud systems that use Firecracker.
翻訳日:2024-03-18 15:42:08 公開日:2023-11-27
# メモリ境界を持つデータストリームにおける局所的にプライベートな重ヒッタ検出

Local Differentially Private Heavy Hitter Detection in Data Streams with Bounded Memory ( http://arxiv.org/abs/2311.16062v1 )

ライセンス: Link先を確認
Xiaochen Li, Weiran Liu, Jian Lou, Yuan Hong, Lei Zhang, Zhan Qin, Kui Ren, (参考訳) データストリームマイニングの基本的なタスクは、アイテムの頻繁な検出である。 多くの有望なソリューションは、Top-k$アイテムを検出するための高い精度を維持しながら、メモリ効率を改善するために提案されている。 メモリ効率の懸念にもかかわらず、ユーザーは適切な保護なしにタスクに参加するとプライバシーを失う可能性がある。 しかし、既存のほとんどの研究は、メモリ効率の問題とプライバシの問題の両方に対処することにのみ焦点をあてているが、メモリ効率、プライバシ保護、検出精度の間の十分なトレードオフを達成できない、共同で行うことは滅多にない。 本稿では,厳密な局所差分プライバシ(LDP)保護を提供するとともに,メモリ使用量によるTop-k$アイテム検出を実現するための新しいフレームワークHG-LDPを提案する。 具体的には、タスクで自然に発生する2つの重要な課題を特定し、既存のLCP技術を直接適用することで、劣等な‘精度-プライバシ-メモリ効率’のトレードオフにつながることを明らかにする。 そこで我々は,項目領域の巨大化とメモリ容量の制限によるハードルに対処する,新しいLPPランダム化手法を設計することにより,この枠組みの下で3つの高度なスキームをインスタンス化する。 提案手法がより優れた‘精度-プライバシ-メモリ効率’のトレードオフを実現し,アイテムドメインサイズが41,270ドルの場合,ベースラインメソッドよりも2300\times$メモリを節約できることを示すため,合成データセットと実世界のデータセットの総合的な実験を行った。 私たちのコードはリンクを通じてオープンソース化されています。

Top-$k$ frequent items detection is a fundamental task in data stream mining. Many promising solutions are proposed to improve memory efficiency while still maintaining high accuracy for detecting the Top-$k$ items. Despite the memory efficiency concern, the users could suffer from privacy loss if participating in the task without proper protection, since their contributed local data streams may continually leak sensitive individual information. However, most existing works solely focus on addressing either the memory-efficiency problem or the privacy concerns but seldom jointly, which cannot achieve a satisfactory tradeoff between memory efficiency, privacy protection, and detection accuracy. In this paper, we present a novel framework HG-LDP to achieve accurate Top-$k$ item detection at bounded memory expense, while providing rigorous local differential privacy (LDP) protection. Specifically, we identify two key challenges naturally arising in the task, which reveal that directly applying existing LDP techniques will lead to an inferior ``accuracy-privacy-memory efficiency'' tradeoff. Therefore, we instantiate three advanced schemes under the framework by designing novel LDP randomization methods, which address the hurdles caused by the large size of the item domain and by the limited space of the memory. We conduct comprehensive experiments on both synthetic and real-world datasets to show that the proposed advanced schemes achieve a superior ``accuracy-privacy-memory efficiency'' tradeoff, saving $2300\times$ memory over baseline methods when the item domain size is $41,270$. Our code is open-sourced via the link.
翻訳日:2024-03-18 15:42:08 公開日:2023-11-27
# ダークネットトラフィック分析 : システム文献レビュー

Darknet Traffic Analysis A Systematic Literature Review ( http://arxiv.org/abs/2311.16276v1 )

ライセンス: Link先を確認
Javeriah Saleem, Rafiqul Islam, Zahidul Islam, (参考訳) 匿名ツールの主な目的は、強力な暗号化と難読化技術を実装することによって、ユーザの匿名性を保護することである。 その結果,これらのネットワーク上でのユーザ活動の監視と識別が困難になる。 さらに,このようなシステムには,交通特性の抽出やウェブサイトの指紋認証など,潜在的なリスクからユーザを保護する強力な防御機構が備わっている。 しかし、この強力な匿名性機能は、ネットワーク上で追跡されるのを避けることを目的とした不正活動に関わる人々の避難所としても機能する。 その結果、機械学習技術を用いて暗号化されたトラフィックを調査・分類するために、かなりの研究が進められている。 本稿では、匿名トラフィックの分類やダークネット内のネットワークトラフィックの暗号化に使われている既存のアプローチを網羅的に検討する。 また,本論文では,ダークネット内のトラフィック攻撃を監視し,識別するための機械学習技術を用いて,ダークネットトラフィックの手法を網羅的に分析する。

The primary objective of an anonymity tool is to protect the anonymity of its users through the implementation of strong encryption and obfuscation techniques. As a result, it becomes very difficult to monitor and identify users activities on these networks. Moreover, such systems have strong defensive mechanisms to protect users against potential risks, including the extraction of traffic characteristics and website fingerprinting. However, the strong anonymity feature also functions as a refuge for those involved in illicit activities who aim to avoid being traced on the network. As a result, a substantial body of research has been undertaken to examine and classify encrypted traffic using machine learning techniques. This paper presents a comprehensive examination of the existing approaches utilized for the categorization of anonymous traffic as well as encrypted network traffic inside the darknet. Also, this paper presents a comprehensive analysis of methods of darknet traffic using machine learning techniques to monitor and identify the traffic attacks inside the darknet.
翻訳日:2024-03-18 15:42:08 公開日:2023-11-27
# FHEmem: 完全同型暗号化のための処理インメモリ加速器

FHEmem: A Processing In-Memory Accelerator for Fully Homomorphic Encryption ( http://arxiv.org/abs/2311.16293v1 )

ライセンス: Link先を確認
Minxuan Zhou, Yujin Nam, Pranav Gangwar, Weihong Xu, Arpan Dutta, Kartikeyan Subramanyam, Chris Wilkerson, Rosario Cammarota, Saransh Gupta, Tajana Rosing, (参考訳) FHE(Fully Homomorphic Encryption)は、復号化を必要とせず、任意の計算を暗号化データ上で実行できる技術である。 しかし、FHE計算は、暗号化後のデータサイズの増加により、平易なデータの計算よりも大幅に遅い。 Processing In-Memory(PIM)は、広範な並列処理でデータ集約的なワークロードを高速化する、有望なテクノロジである。 しかし、FHEは、長いビット幅の乗算と複雑なデータ移動のために、PIM加速に挑戦している。 本稿では,PIMをベースとしたFHEアクセラレータFHEmemを提案する。 低レベルのハードウェア処理から高レベルのアプリケーションマッピングに至るまで,FHEmemハードウェアのスループットをフル活用したエンドツーエンド処理フローを提案する。 評価の結果、FHEmemは最先端のFHEアクセラレーターよりも大幅な高速化と効率の向上を実現している。

Fully Homomorphic Encryption (FHE) is a technique that allows arbitrary computations to be performed on encrypted data without the need for decryption, making it ideal for securing many emerging applications. However, FHE computation is significantly slower than computation on plain data due to the increase in data size after encryption. Processing In-Memory (PIM) is a promising technology that can accelerate data-intensive workloads with extensive parallelism. However, FHE is challenging for PIM acceleration due to the long-bitwidth multiplications and complex data movements involved. We propose a PIM-based FHE accelerator, FHEmem, which exploits a novel processing in-memory architecture to achieve high-throughput and efficient acceleration for FHE. We propose an optimized end-to-end processing flow, from low-level hardware processing to high-level application mapping, that fully exploits the high throughput of FHEmem hardware. Our evaluation shows FHEmem achieves significant speedup and efficiency improvement over state-of-the-art FHE accelerators.
翻訳日:2024-03-18 15:42:08 公開日:2023-11-27
# 企業データ漏洩の根本原因、継続的な困難、予防策、新たなトレンド

Root causes, ongoing difficulties, proactive prevention techniques, and emerging trends of enterprise data breaches ( http://arxiv.org/abs/2311.16303v1 )

ライセンス: Link先を確認
Rina Patil, Gayatri Pise, Yatin Bhosale, (参考訳) 現代のデジタル時代のデータ漏洩は、意図的または意図的な、招待されていない当事者への個人データの開示である。 今や企業は、データが重要な資産であると考えており、このデータの漏洩は、会社のブランドを傷つけ、損失をもたらすことを含む、恐ろしい影響をもたらす可能性がある。 今や企業は、データ量の増加とデータ漏洩の頻度の増加によるデータ損失の検出と防止に高いプレミアムを課している。 多くの研究があるにもかかわらず、機密データの保護は依然として難しい課題だ。 このレビューは、企業がデータ漏洩から直面するリスク、現在の発生、検出と防止のための最先端の方法、新しい困難、そして可能な解決策について学ぶことに興味のある人に洞察力のある情報を提供することを目的としている。

A data breach in the modern digital era is the unintentional or intentional disclosure of private data to uninvited parties. Businesses now consider data to be a crucial asset, and any breach of this data can have dire repercussions, including harming a company's brand and resulting in losses. Enterprises now place a high premium on detecting and preventing data loss due to the growing amount of data and the increasing frequency of data breaches. Even with a great deal of research, protecting sensitive data is still a difficult task. This review attempts to highlight interesting prospects and offer insightful information to those who are interested in learning about the risks that businesses face from data leaks, current occurrences, state-of-the-art methods for detection and prevention, new difficulties, and possible solutions.
翻訳日:2024-03-18 15:42:08 公開日:2023-11-27
# 暗号通貨取引とオンライン金融フォーラムの相互作用

Interplay between Cryptocurrency Transactions and Online Financial Forums ( http://arxiv.org/abs/2401.10238v1 )

ライセンス: Link先を確認
Ana Fern\'andez Vilas and Rebeca P. D\'iaz Redondo and Daniel Couto Cancela and Alejandro Torrado Pazos(参考訳) 暗号通貨とは、暗号技術を用いてセキュリティと匿名性を提供するデジタルマネーの一種である。 暗号通貨はブレークスルーであり、いくつかの重要な利益をもたらすが、その使用は監督機関や透明性の欠如によるリスクを生じさせる。 偽情報やボラティリティが個人投資家を妨げているため、オンライン利用者のコミュニティやフォーラムが増加し、ユーザーの不信を和らげる情報を共有する場所として仮想通貨が出現した。 この研究は、これらの暗号通貨フォーラム間の相互作用と暗号通貨の価値の変動の研究に焦点を当てている。 特に、最も人気のある暗号通貨bitcoin(btc)と関連する活発な議論コミュニティであるbitcointalkを分析している。 本研究は、Bitcointalkフォーラムの活動がBTCの価値の傾向と直接的に関係していることを示しているので、この相互作用の分析は、非規制市場における個人的投資を支援し、暗号通貨フォーラムがBTC値の異常な振る舞いを検知し、それらの価値を予測または推定する証拠を示すかどうかを確認するのに最適な基盤となる。 この実験は、フォーラムのデータが金融分野の特定の出来事を説明できる点を強調している。 また、(1)特定のトピックに関する投稿の集中度が高い場合、(2)BTC価格のピークが観測された場合、(3)BTC価格が徐々に下降し、ユーザーが販売しようとする場合、といった期間における引用(投稿に反応する正規のメカニズム)の関連性も強調する。

Cryptocurrencies are a type of digital money meant to provide security and anonymity while using cryptography techniques. Although cryptocurrencies represent a breakthrough and provide some important benefits, their usage poses some risks that are a result of the lack of supervising institutions and transparency. Because disinformation and volatility is discouraging for personal investors, cryptocurrencies emerged hand-in-hand with the proliferation of online users' communities and forums as places to share information that can alleviate users' mistrust. This research focuses on the study of the interplay between these cryptocurrency forums and fluctuations in cryptocurrency values. In particular, the most popular cryptocurrency Bitcoin (BTC) and a related active discussion community, Bitcointalk, are analyzed. This study shows that the activity of Bitcointalk forum keeps a direct relationship with the trend in the values of BTC, therefore analysis of this interaction would be a perfect base to support personal investments in a non-regulated market and, to confirm whether cryptocurrency forums show evidences to detect abnormal behaviors in BTC values as well as to predict or estimate these values. The experiment highlights that forum data can explain specific events in the financial field. It also underlines the relevance of quotes (regular mechanism to response a post) at periods: (1) when there is a high concentration of posts around certain topics; (2) when peaks in the BTC price are observed; and, (3) when the BTC price gradually shifts downwards and users intend to sell.
翻訳日:2024-02-11 17:48:12 公開日:2023-11-27
# 12誘導心電図による先天性心疾患の解剖学的診断のリーマン予測

Riemannian Prediction of Anatomical Diagnoses in Congenital Heart Disease based on 12-lead ECGs ( http://arxiv.org/abs/2312.09437v1 )

ライセンス: Link先を確認
Muhammet Alkan, Gruschen Veldtman, Fani Deligianni(参考訳) 先天性心疾患(英: Congenital heart disease、CHD)は、出生時の患者に影響を及ぼし、非常に異質な解剖学的、機能的欠陥をもたらす比較的稀な疾患である。 12誘導ECGシグナルは、疾患予後のための重要なバイオマーカーを提供するため、CHD患者で定期的に収集される。 しかし、大規模なデータセットがないため、正確な機械学習モデルの開発は困難である。 ここでは、ECG信号の空間共分散構造のリーマン幾何学を利用して分類を改善することを提案する。 まず,共分散拡張を用いて対応するクラス間のリーマン測地線にサンプルを混合する。 次に,共分散行列を各クラスリーマン平均に投影し,接空間射影による特徴抽出の質を高めることを提案する。 複数のアブレーション実験を行い,ecg時系列データを用いた従来の機械学習モデルやディープラーニングと比較して有意な改善を示した。

Congenital heart disease (CHD) is a relatively rare disease that affects patients at birth and results in extremely heterogeneous anatomical and functional defects. 12-lead ECG signal is routinely collected in CHD patients because it provides significant biomarkers for disease prognosis. However, developing accurate machine learning models is challenging due to the lack of large available datasets. Here, we suggest exploiting the Riemannian geometry of the spatial covariance structure of the ECG signal to improve classification. Firstly, we use covariance augmentation to mix samples across the Riemannian geodesic between corresponding classes. Secondly, we suggest to project the covariance matrices to their respective class Riemannian mean to enhance the quality of feature extraction via tangent space projection. We perform several ablation experiments and demonstrate significant improvement compared to traditional machine learning models and deep learning on ECG time series data.
翻訳日:2024-01-15 14:26:02 公開日:2023-11-27
# 粗粒度アドバイザリーオートノミーを用いた交通最適化のための時間伝達学習

Temporal Transfer Learning for Traffic Optimization with Coarse-grained Advisory Autonomy ( http://arxiv.org/abs/2312.09436v1 )

ライセンス: Link先を確認
Jung-Hoon Cho, Sirui Li, Jeongyun Kim, Cathy Wu(参考訳) 近年、コネクテッド・アンド・オートマチック・ビークル(CAV)技術が開発され、都市交通を最適化するための調査が進められている。 本稿では、リアルタイム運転アドバイザリをドライバーに発行するアドバイザリ自律性を考察し、CAVと人間ドライバーを融合させる。 交通システムの複雑さのため、最近のCAVのコーディネート研究は、深層強化学習(RL)を活用している。 諮問自治はゼロオーダー保持として形式化され、保持期間は0.1秒から40秒である。 しかし、CAV上の高頻度タスクの類似性にもかかわらず、ディープRLの直接適用はアドバイザリー自律タスクに一般化されない。 時間的伝達学習(TTL)アルゴリズムを導入し,時間的構造を体系的に活用してタスクの全範囲を解決する。 TTLは、タスク範囲のパフォーマンスを最大化するために最も適したソースタスクを選択する。 様々な混合トラフィックシナリオでアルゴリズムを検証することにより、ttlがベースラインよりも確実にタスクを解決できることを実証した。 本稿では,交通流最適化におけるTTLによる粗粒度アドバイザリ自律性の可能性を明らかにする。

The recent development of connected and automated vehicle (CAV) technologies has spurred investigations to optimize dense urban traffic. This paper considers advisory autonomy, in which real-time driving advisories are issued to drivers, thus blending the CAV and the human driver. Due to the complexity of traffic systems, recent studies of coordinating CAVs have resorted to leveraging deep reinforcement learning (RL). Advisory autonomy is formalized as zero-order holds, and we consider a range of hold duration from 0.1 to 40 seconds. However, despite the similarity of the higher frequency tasks on CAVs, a direct application of deep RL fails to be generalized to advisory autonomy tasks. We introduce Temporal Transfer Learning (TTL) algorithms to select source tasks, systematically leveraging the temporal structure to solve the full range of tasks. TTL selects the most suitable source tasks to maximize the performance of the range of tasks. We validate our algorithms on diverse mixed-traffic scenarios, demonstrating that TTL more reliably solves the tasks than baselines. This paper underscores the potential of coarse-grained advisory autonomy with TTL in traffic flow optimization.
翻訳日:2024-01-15 14:25:46 公開日:2023-11-27
# ロボット調理のためのタスクツリー検索

Task Tree Retrieval For Robotic Cooking ( http://arxiv.org/abs/2312.09434v1 )

ライセンス: Link先を確認
Chakradhar Reddy Nallu(参考訳) 本稿では,与えられた目標ノード(レシピ)のタスクツリー計画を生成する,異なるアルゴリズムの開発に基づく。 料理の知識表現をFOONと呼ぶ。 動作ノードにそれぞれ異なるオブジェクトとそれらの間のオブジェクトを含み、人間のマニピュレータに関するオブジェクトの状態の変化に気付き、フォオンのグラフィカルな表現を行う。 ロボットによって異なるレシピのために、FOONがどのように作られたかを探る。 タスクプランニングには未知の問題の探索が困難であり、その知識はフーンに限定されている。 与えられたレシピのタスクツリープランニングを得るために、ロボットはFOONと呼ばれる知識検索プロセスから異なる機能ユニットの情報を取得する。 したがって、生成されたサブグラフは、ロボットが必要な料理を調理できるようにする。 これにより、ロボットは指示の順序に従って所定のレシピを調理することができる。

This paper is based on developing different algorithms, which generate the task tree planning for the given goal node(recipe). The knowledge representation of the dishes is called FOON. It contains the different objects and their between them with respective to the motion node The graphical representation of FOON is made by noticing the change in the state of an object with respect to the human manipulators. We will explore how the FOON is created for different recipes by the robots. Task planning contains difficulties in exploring unknown problems, as its knowledge is limited to the FOON. To get the task tree planning for a given recipe, the robot will retrieve the information of different functional units from the knowledge retrieval process called FOON. Thus the generated subgraphs will allow the robot to cook the required dish. Thus the robot can able to cook the given recipe by following the sequence of instructions.
翻訳日:2024-01-15 14:25:27 公開日:2023-11-27
# DTP-Net:マルチスケール特徴再利用による時間周波数領域における脳波信号再構成学習

DTP-Net: Learning to Reconstruct EEG signals in Time-Frequency Domain by Multi-scale Feature Reuse ( http://arxiv.org/abs/2312.09417v1 )

ライセンス: Link先を確認
Yan Pei, Jiahui Xu, Qianhao Chen, Chenhao Wang, Feng Yu, Lisan Zhang and Wei Luo(参考訳) 脳波(EEG)信号は、様々なアーティファクトによって容易に破損し、疾患診断や脳-コンピュータインターフェース(BCI)などのシナリオにおいて、信号品質を改善するためにアーティファクトの除去が重要である。 本稿では、DTP(Densely Connected Temporal Pyramid)と呼ばれる完全な畳み込みニューラルアーキテクチャを、エンド・ツー・エンド脳波(EEG)復調のための学習可能な2つの時間周波数変換の間に挟み込んだ、DTP(Densely Connected Temporal Pyramid)で構成される。 提案手法は,まず任意の長さの単一チャネル脳波信号をエンコーダ層を介して時間周波数領域に変換する。 そして、DTPにより、眼や筋肉のアーチファクトなどのノイズを多種多様な方法で抽出し、低減する。 最後に、デコーダ層を用いて、アーティファクト縮小された脳波信号を再構成する。 さらに,DTP-Netにおける各モジュールの表現学習行動の詳細な解析を行い,その堅牢性と信頼性を実証する。 2つの公開セミシミュレーションデータセットで行った広範囲な実験は、最先端のアプローチを上回るdtp-netの効果的なアーティファクト除去性能を示している。 実験結果から, 提案モデルによる信号対雑音比 (snr) と相対根平均二乗誤差 (rrmse) のクリーナ波形と有意な改善が得られた。 さらに,提案するdtp-netを特定のbci下流タスクに適用し,生信号の分類精度を最大5.55%向上させ,脳波に基づく神経科学および神経工学の分野での応用可能性を検証する。

Electroencephalography (EEG) signals are easily corrupted by various artifacts, making artifact removal crucial for improving signal quality in scenarios such as disease diagnosis and brain-computer interface (BCI). In this paper, we present a fully convolutional neural architecture, called DTP-Net, which consists of a Densely Connected Temporal Pyramid (DTP) sandwiched between a pair of learnable time-frequency transformations for end-to-end electroencephalogram (EEG) denoising. The proposed method first transforms a single-channel EEG signal of arbitrary length into the time-frequency domain via an Encoder layer. Then, noises, such as ocular and muscle artifacts, are extracted by DTP in a multi-scale fashion and reduced. Finally, a Decoder layer is employed to reconstruct the artifact-reduced EEG signal. Additionally, we conduct an in-depth analysis of the representation learning behavior of each module in DTP-Net to substantiate its robustness and reliability. Extensive experiments conducted on two public semi-simulated datasets demonstrate the effective artifact removal performance of DTP-Net, which outperforms state-of-art approaches. Experimental results demonstrate cleaner waveforms and significant improvement in Signal-to-Noise Ratio (SNR) and Relative Root Mean Square Error (RRMSE) after denoised by the proposed model. Moreover, the proposed DTP-Net is applied in a specific BCI downstream task, improving the classification accuracy by up to 5.55% compared to that of the raw signals, validating its potential applications in the fields of EEG-based neuroscience and neuro-engineering.
翻訳日:2024-01-15 14:22:43 公開日:2023-11-27
# taming wave: 波動力学の制御を実現するための物理的解釈可能な機械学習フレームワーク

Taming Waves: A Physically-Interpretable Machine Learning Framework for Realizable Control of Wave Dynamics ( http://arxiv.org/abs/2312.09460v1 )

ライセンス: Link先を確認
Tristan Shah, Feruza Amirkulova, Stas Tiomkin(参考訳) 偏微分方程式によって制御される系は本質的に難しい問題である。 具体的には, 消散, 減衰, 反射, 散乱などの波動現象の物理的制約や本質的な性質により, 波動力学の制御は困難である。 本研究では, 作動型メタマテリアル設計による音波の制御に関する研究を目的とした環境について紹介する。 我々は,この環境を利用して,深層ニューラルネットワークに基づく新しい機械学習手法を開発し,サンプルから音響PDEの力学を効率的に学習する。 本モデルは完全に解釈可能であり,実音響環境の物理的制約と固有特性をその潜時情報表現にマッピングする。 モデル内では、トレーニング可能な完全整合層を用いて、音響エネルギー散逸の特性を明示的に学習する。 我々のモデルは散乱波エネルギーの予測と制御に利用できる。 本モデルの有効性は, 全散乱エネルギーの最小化である音響学において重要な問題である。 さらに, モデルによる散乱エネルギーの予測は時間的に一般化し, 長期水平線まで拡張可能であることを示す。 コードリポジトリを公開しています。

Controlling systems governed by partial differential equations is an inherently hard problem. Specifically, control of wave dynamics is challenging due to additional physical constraints and intrinsic properties of wave phenomena such as dissipation, attenuation, reflection, and scattering. In this work, we introduce an environment designed for the study of the control of acoustic waves by actuated metamaterial designs. We utilize this environment for the development of a novel machine-learning method, based on deep neural networks, for efficiently learning the dynamics of an acoustic PDE from samples. Our model is fully interpretable and maps physical constraints and intrinsic properties of the real acoustic environment into its latent representation of information. Within our model we use a trainable perfectly matched layer to explicitly learn the property of acoustic energy dissipation. Our model can be used to predict and control scattered wave energy. The capabilities of our model are demonstrated on an important problem in acoustics, which is the minimization of total scattered energy. Furthermore, we show that the prediction of scattered energy by our model generalizes in time and can be extended to long time horizons. We make our code repository publicly available.
翻訳日:2024-01-15 14:12:10 公開日:2023-11-27
# 近似ベイズ計算に基づく確率的ハイブリッドカー追従モデル

A Generic Stochastic Hybrid Car-following Model Based on Approximate Bayesian Computation ( http://arxiv.org/abs/2312.10042v1 )

ライセンス: Link先を確認
Jiwan Jiang, Yang Zhou, Xin Wang, Soyoung Ahn(参考訳) 車追従モデル(cfモデル)は、交通力学を記述するのに基本である。 しかし、人間のドライバのCF挙動は非常に確率的で非線形である。 その結果、数十年にわたる研究にもかかわらず、最高のcfモデルを特定することは困難で議論の的となっている。 cfコントローラはプロプライエタリのままだが、その動作は人間のドライバーとは異なるように見えるため、自動運転車の導入はこの問題をさらに複雑にしている。 本稿では,単一のモデルに頼るのではなく,複数のcfモデルを統合する確率的学習手法を提案する。 このフレームワークは、観測された振る舞いを記述する相対可能性に基づいてCFモデルのプールを確率的に結合する近似ベイズ計算に基づいている。 このアプローチは、データ駆動型ではあるが、物理的なトラクタビリティと解釈可能性を維持している。 2つのデータセットを用いた評価結果から,提案手法は,同一のcfモデルよりも,人間駆動車と自動走行車の両方の車両軌跡を再現できることがわかった。

Car following (CF) models are fundamental to describing traffic dynamics. However, the CF behavior of human drivers is highly stochastic and nonlinear. As a result, identifying the best CF model has been challenging and controversial despite decades of research. Introduction of automated vehicles has further complicated this matter as their CF controllers remain proprietary, though their behavior appears different than human drivers. This paper develops a stochastic learning approach to integrate multiple CF models, rather than relying on a single model. The framework is based on approximate Bayesian computation that probabilistically concatenates a pool of CF models based on their relative likelihood of describing observed behavior. The approach, while data-driven, retains physical tractability and interpretability. Evaluation results using two datasets show that the proposed approach can better reproduce vehicle trajectories for both human driven and automated vehicles than any single CF model considered.
翻訳日:2024-01-15 13:58:53 公開日:2023-11-27
# 流れの幾何学:マルチモデル機械学習による河川形状の予測の促進

The geometry of flow: Advancing predictions of river geometry with multi-model machine learning ( http://arxiv.org/abs/2312.11476v1 )

ライセンス: Link先を確認
Shuyu Y Chang, Zahra Ghahremani, Laura Manuel, Mohammad Erfani, Chaopeng Shen, Sagy Cohen, Kimberly Van Meter, Jennifer L Pierce, Ehab A Meselhe, Erfan Goharian(参考訳) 河川水文地形を記述する水理幾何学パラメータは洪水予測に重要である。 河川システムの理解や洪水浸水地図作成によく確立された水力幾何学曲線は,70年間にわたって広く用いられてきたが,これらのアプローチの限界に注目が集まっている。 本研究は, 従来の河川地形の力-法則関係を超越し, 川幅と深さの予測精度の向上を目的とした機械学習モデルの検証を行った。 本研究では,かつてない大規模な河川計測データセット(HYDRoSWOT)と流域予測データを用いて,連続したアメリカ合衆国(CONUS)の河川地形を推定する新しいデータ駆動手法を開発した。 我々のランダムフォレスト(Random Forest)、XGBoost(XGBoost)およびニューラル・ネットワーク・モデル(Neural Network Model)は、従来の地域電力法に基づく水理幾何学方程式を幅と深さの両方で上回り、R二乗値は幅が0.75、深さが0.67、R二乗値は幅が0.57、深さが0.18となっている。 また, 河川地形の予測可能性を最大化するために, 多モデルアプローチを用いて, 異なる機械学習モデルに対して, ストリームオーダと地理的領域にまたがる多様な性能結果を示す。 開発モデルは、新たに公開されたSTREAM-geoデータセットの作成に使用されており、このデータセットは、川幅、深さ、幅/深さ比、および川と川の表面積(%RSSA)を提供し、約270万のNHDPlusストリームが、連続したアメリカを横断する川と川に到達している。

Hydraulic geometry parameters describing river hydrogeomorphic is important for flood forecasting. Although well-established, power-law hydraulic geometry curves have been widely used to understand riverine systems and mapping flooding inundation worldwide for the past 70 years, we have become increasingly aware of the limitations of these approaches. In the present study, we have moved beyond these traditional power-law relationships for river geometry, testing the ability of machine-learning models to provide improved predictions of river width and depth. For this work, we have used an unprecedentedly large river measurement dataset (HYDRoSWOT) as well as a suite of watershed predictor data to develop novel data-driven approaches to better estimate river geometries over the contiguous United States (CONUS). Our Random Forest, XGBoost, and neural network models out-performed the traditional, regionalized power law-based hydraulic geometry equations for both width and depth, providing R-squared values of as high as 0.75 for width and as high as 0.67 for depth, compared with R-squared values of 0.57 for width and 0.18 for depth from the regional hydraulic geometry equations. Our results also show diverse performance outcomes across stream orders and geographical regions for the different machine-learning models, demonstrating the value of using multi-model approaches to maximize the predictability of river geometry. The developed models have been used to create the newly publicly available STREAM-geo dataset, which provides river width, depth, width/depth ratio, and river and stream surface area (%RSSA) for nearly 2.7 million NHDPlus stream reaches across the rivers and streams across the contiguous US.
翻訳日:2024-01-15 13:37:23 公開日:2023-11-27
# vTrain: コスト効率とコンピュータ最適大言語モデルトレーニングを評価するためのシミュレーションフレームワーク

vTrain: A Simulation Framework for Evaluating Cost-effective and Compute-optimal Large Language Model Training ( http://arxiv.org/abs/2312.12391v1 )

ライセンス: Link先を確認
Jehyeon Bang, Yujeong Choi, Myeongwoo Kim, Yongdeok Kim, Minsoo Rhu(参考訳) 大規模言語モデル(LLM)がさまざまなアプリケーションドメインで普及するにつれ、AIコミュニティが直面している重要な課題は、これらの大きなAIモデルをコスト効率よくトレーニングする方法である。 既存のLLM訓練計画では、LLM並列化の探索空間を徹底的に検討するよりも、経験的観察に基づくヒューリスティックな並列訓練戦略が一般的である。 このような制限は、既存のシステムに大きなパフォーマンスを残し、数百万ドル相当のトレーニングコストを無駄にします。 本稿では、プロファイリング駆動シミュレータvTrainを提案し、AI実践者が高速かつ正確なソフトウェアフレームワークを提供し、効率よく費用対効果の高いLCMトレーニングシステム構成を決定する。 例えば、トレーニング時間と関連するトレーニングコストのバランスをとる最適なトレーニング並列化戦略を効果的に評価し、複数のLLMトレーニングジョブをターゲットにした効率的なマルチテナントGPUクラスタスケジューラ、固定された計算予算を与えられた計算最適LLMモデルアーキテクチャを決定する。

As large language models (LLMs) become widespread in various application domains, a critical challenge the AI community is facing is how to train these large AI models in a cost-effective manner. Existing LLM training plans typically employ a heuristic based parallel training strategy which is based on empirical observations rather than grounded upon a thorough examination of the search space of LLM parallelization. Such limitation renders existing systems to leave significant performance left on the table, wasting millions of dollars worth of training cost. This paper presents our profiling-driven simulator called vTrain, providing AI practitioners a fast yet accurate software framework to determine an efficient and cost-effective LLM training system configuration. We demonstrate vTrain's practicality through several case studies, e.g., effectively evaluating optimal training parallelization strategies that balances training time and its associated training cost, efficient multi-tenant GPU cluster schedulers targeting multiple LLM training jobs, and determining a compute-optimal LLM model architecture given a fixed compute budget.
翻訳日:2024-01-15 13:29:10 公開日:2023-11-27
# オンラインオピニオン分極の解剖学的展開:ソーシャルネットワークにおけるスーパースプレッダーの役割

The Anatomy Spread of Online Opinion Polarization: The Pivotal Role of Super-Spreaders in Social Networks ( http://arxiv.org/abs/2401.01349v1 )

ライセンス: Link先を確認
Yasuko Kawahata(参考訳) 本研究は,A,B,Cの3つのタイプを区別し,ネットワーク内での意見形成における「上書き者」の役割を考察する。A型は意見形成に大きく影響し,B型はAと逆の働き,C型はメディアのような機能に相反し,客観的な視点を与え,AとBの影響を規制する可能性がある。 この研究は、信頼係数とzスコアを用いてスーパースプレッダーの行動を調査し、グループダイナミクスや環境要因を含む意見形成に影響を及ぼす条件に焦点を当てている。 この発見は、オンラインコミュニケーションのセキュリティを改善し、社会的影響を理解するための洞察を提供する。

The study investigates the role of 'superspreaders' in shaping opinions within networks, distinguishing three types: A, B, and C. Type A has a significant influence in shaping opinions, Type B acts as a counterbalance to A, and Type C functions like media, providing an objective viewpoint and potentially regulating A and B's influence. The research uses a confidence coefficient and z-score to survey superspreaders' behaviors, with a focus on the conditions affecting group dynamics and opinion formation, including environmental factors and forgetfulness over time. The findings offer insights for improving online communication security and understanding social influence.
翻訳日:2024-01-15 10:08:20 公開日:2023-11-27
# AudioMNIST: 単純なベンチマークによるオーディオ分析のための説明可能な人工知能の探索

AudioMNIST: Exploring Explainable Artificial Intelligence for Audio Analysis on a Simple Benchmark ( http://arxiv.org/abs/1807.03418v3 )

ライセンス: Link先を確認
S\"oren Becker, Johanna Vielhaben, Marcel Ackermann, Klaus-Robert M\"uller, Sebastian Lapuschkin, Wojciech Samek(参考訳) 説明可能な人工知能(XAI)は、モデルがどのように特徴の選択を行い、それらの分類決定を導出するかを理解することを目的としている。 本稿では,音声領域におけるディープニューラルネットワークの時間後説明について述べる。 本稿では,英語音声の音声サンプル3万点からなるオープンソースの音声データセットを提案する。 一般的なXAI技術であるLayer-wise Relevance Propagation (LRP)を用いて、データの波形またはスペクトログラム表現を処理する2つのニューラルネットワークアーキテクチャに関連する特徴を特定する。 LRPから得られる関連スコアに基づいて、ニューラルネットワークの特徴選択に関する仮説が導出され、その後、入力データの体系的な操作によってテストされる。 さらに、視覚的な説明を超えて、可聴ヒートマップを導入する。 人間のユーザ研究における視覚的説明よりも可聴説明の方が優れた解釈可能性を示す。

Explainable Artificial Intelligence (XAI) is targeted at understanding how models perform feature selection and derive their classification decisions. This paper explores post-hoc explanations for deep neural networks in the audio domain. Notably, we present a novel Open Source audio dataset consisting of 30,000 audio samples of English spoken digits which we use for classification tasks on spoken digits and speakers' biological sex. We use the popular XAI technique Layer-wise Relevance Propagation (LRP) to identify relevant features for two neural network architectures that process either waveform or spectrogram representations of the data. Based on the relevance scores obtained from LRP, hypotheses about the neural networks' feature selection are derived and subsequently tested through systematic manipulations of the input data. Further, we take a step beyond visual explanations and introduce audible heatmaps. We demonstrate the superior interpretability of audible explanations over visual ones in a human user study.
翻訳日:2023-12-11 04:02:36 公開日:2023-11-27
# REACT: あらゆるアクションを一度に認識する

REACT: Recognize Every Action Everywhere All At Once ( http://arxiv.org/abs/2312.00188v1 )

ライセンス: Link先を確認
Naga VS Raviteja Chappa, Pha Nguyen, Page Daniel Dobbs and Khoa Luu(参考訳) グループアクティビティ認識(GAR)はコンピュータビジョンの基本的な問題であり、スポーツビデオ分析、ビデオ監視、社会場面理解に様々な応用がある。 従来の行動認識とは異なり、GARは集団全体の行動を分類することを目的としており、その相互作用と時空間的関係を深く理解する必要がある。 GARの課題に対処するために,多モード性や時空間的特徴を含むビデオ内の複雑なコンテキスト関係を明示的にモデル化するトランスフォーマーエンコーダデコーダモデルにヒントを得た,REACT(\textbf{R}ecognize \textbf{E}very \textbf{Act}ion Everywhere All At Once)を提案する。 我々のアーキテクチャは、時間・空間・マルチモーダル相互作用モデリングのための最先端のVision-Language Encoderブロックを備えている。 このコンポーネントは、スパースサンプリングフレームであっても、時空間の相互作用を効率的に符号化し、必須のローカル情報を復元する。 私たちのアクションデコーダブロックは、テキストとビデオデータの共同理解を洗練し、バウンディングボックスを正確に検索し、セマンティクスとビジュアルリアリティーのリンクを強化する。 コアとなるアクタ融合ブロックはアクタ固有のデータとテキストの特徴の融合をオーケストレーションし、特異性とコンテキストのバランスを取ります。 提案手法は,グループ活動の認識と理解において優れた精度を示すとともに,最先端のGAR手法よりも優れた性能を示す。 私たちのアーキテクチャのポテンシャルは、様々な現実世界のアプリケーションにまで広がり、そのパフォーマンス向上の実証的な証拠を提供します。 この研究はグループ活動認識の分野を著しく進歩させ、ニュアンスドシーン理解のための堅牢な枠組みを提供する。

Group Activity Recognition (GAR) is a fundamental problem in computer vision, with diverse applications in sports video analysis, video surveillance, and social scene understanding. Unlike conventional action recognition, GAR aims to classify the actions of a group of individuals as a whole, requiring a deep understanding of their interactions and spatiotemporal relationships. To address the challenges in GAR, we present REACT (\textbf{R}ecognize \textbf{E}very \textbf{Act}ion Everywhere All At Once), a novel architecture inspired by the transformer encoder-decoder model explicitly designed to model complex contextual relationships within videos, including multi-modality and spatio-temporal features. Our architecture features a cutting-edge Vision-Language Encoder block for integrated temporal, spatial, and multi-modal interaction modeling. This component efficiently encodes spatiotemporal interactions, even with sparsely sampled frames, and recovers essential local information. Our Action Decoder Block refines the joint understanding of text and video data, allowing us to precisely retrieve bounding boxes, enhancing the link between semantics and visual reality. At the core, our Actor Fusion Block orchestrates a fusion of actor-specific data and textual features, striking a balance between specificity and context. Our method outperforms state-of-the-art GAR approaches in extensive experiments, demonstrating superior accuracy in recognizing and understanding group activities. Our architecture's potential extends to diverse real-world applications, offering empirical evidence of its performance gains. This work significantly advances the field of group activity recognition, providing a robust framework for nuanced scene comprehension.
翻訳日:2023-12-11 03:43:50 公開日:2023-11-27
# Elijah: 分散シフトによる拡散モデルによるバックドアの排除

Elijah: Eliminating Backdoors Injected in Diffusion Models via Distribution Shift ( http://arxiv.org/abs/2312.00050v1 )

ライセンス: Link先を確認
Shengwei An, Sheng-Yen Chou, Kaiyuan Zhang, Qiuling Xu, Guanhong Tao, Guangyu Shen, Siyuan Cheng, Shiqing Ma, Pin-Yu Chen, Tsung-Yi Ho, Xiangyu Zhang(参考訳) 拡散モデル (DM) は, 敵対的訓練を伴わずに, ノイズから高品質な画像を生成する能力により, 最先端の生成モデルとなっている。 しかし、最近の研究で報告されたようにバックドア攻撃に弱い。 データ入力(例えばガウスノイズ)にトリガー(例えば白いパッチ)が押されると、バックドアモデルは常にターゲット画像(例えば不適切な写真)を生成する。 しかし、DMからバックドアを緩和するための効果的な防衛戦略は未定である。 このギャップを埋めるために,DMの最初のバックドア検出・除去フレームワークを提案する。 DDPM, NCSN, LDMを含む3種類のDMを対象とし, 既存の3種類のバックドア攻撃に対して13のサンプリングを行った。 広範な実験により, モデルの有用性を著しく損なうことなく, 検出精度が100%に近く, バックドア効果がゼロに近くなることを示した。

Diffusion models (DM) have become state-of-the-art generative models because of their capability to generate high-quality images from noises without adversarial training. However, they are vulnerable to backdoor attacks as reported by recent studies. When a data input (e.g., some Gaussian noise) is stamped with a trigger (e.g., a white patch), the backdoored model always generates the target image (e.g., an improper photo). However, effective defense strategies to mitigate backdoors from DMs are underexplored. To bridge this gap, we propose the first backdoor detection and removal framework for DMs. We evaluate our framework Elijah on hundreds of DMs of 3 types including DDPM, NCSN and LDM, with 13 samplers against 3 existing backdoor attacks. Extensive experiments show that our approach can have close to 100% detection accuracy and reduce the backdoor effects to close to zero without significantly sacrificing the model utility.
翻訳日:2023-12-11 03:42:38 公開日:2023-11-27
# Tokenized Model: ブロックチェーンを活用した分散モデルオーナシップ検証プラットフォーム

Tokenized Model: A Blockchain-Empowered Decentralized Model Ownership Verification Platform ( http://arxiv.org/abs/2312.00048v1 )

ライセンス: Link先を確認
Yihao Li, Yanyi Lai, Tianchi Liao, Chuan Chen, Zibin Zheng(参考訳) 生成AIのような実用的なディープラーニングモデルの開発により、その優れたパフォーマンスは大きな経済的価値をもたらしました。 例えば、ChatGPTは3ヶ月で1億人以上のユーザーを獲得した。 モデルトレーニングは大量のデータと計算能力を必要とするため、優れたディープラーニングモデルは大きな努力とコストの背後にあります。 モデル所有者の利益を脅かすネットワークからの不正使用や乱用といった様々なモデル攻撃に直面し、法的な措置やその他の管理措置を考えることに加えて、モデルの著作権を技術的手段から守ることも同様に重要である。 モデル透かし技術を利用することで,モデル所有検証のための統一プラットフォームを構築する可能性を指摘する。 著作権検証におけるブロックチェーンの適用履歴と、集中型サードパーティの欠点を踏まえ、モデルウォーターマーキング技術とブロックチェーンを組み合わせて、統一されたモデル著作権保護プラットフォームを構築することを検討する。 Tokenized Modelと呼ばれる新しいソリューションによって、信頼性の高いオーナシップレコードと検証メカニズムによって、モデルの著作権を保護します。 また、モデルのトランザクションプロセスとモデルの貢献共有を構築することにより、モデルの財務的価値を促進する。 典型的なケーススタディでは,このプラットフォームの有効性を検証するために,通常のシナリオ下での各種性能についても検討する。

With the development of practical deep learning models like generative AI, their excellent performance has brought huge economic value. For instance, ChatGPT has attracted more than 100 million users in three months. Since the model training requires a lot of data and computing power, a well-performing deep learning model is behind a huge effort and cost. Facing various model attacks, unauthorized use and abuse from the network that threaten the interests of model owners, in addition to considering legal and other administrative measures, it is equally important to protect the model's copyright from the technical means. By using the model watermarking technology, we point out the possibility of building a unified platform for model ownership verification. Given the application history of blockchain in copyright verification and the drawbacks of a centralized third-party, this paper considers combining model watermarking technology and blockchain to build a unified model copyright protection platform. By a new solution we called Tokenized Model, it protects the model's copyright by reliable ownership record and verification mechanism. It also promotes the financial value of model by constructing the model's transaction process and contribution shares of a model. In the typical case study, we also study the various performance under usual scenario to verify the effectiveness of this platform.
翻訳日:2023-12-11 03:42:19 公開日:2023-11-27
# 認定に基づく質問・評価のためのチャットGPT

chatGPT for generating questions and assessments based on accreditations ( http://arxiv.org/abs/2312.00047v1 )

ライセンス: Link先を確認
Rania Anwar Aboalela(参考訳) 本研究は、同じプログラムの異なる学術認定と互換性のある学生評価を作成するために、人工知能技術を活用することを目的とする。 生成型人工知能技術を利用する可能性について研究し、サウジアラビア王国の国立学術認定センターと工学技術認定委員会(accreditation board for engineering and technology)の認定試験を行った。 テストで導入された質問を作成するために使われる動詞をマップするために、新しい方法が導入された。 この方法は、生成人工知能技術を用いて、教育成果を測定する質問の妥当性を作成、確認することができる。 教員が受験質問を作成するための生成型人工知能の使用が受理されることを保証するとともに、教員が提出した質問を検証し、アカデミック認定に従って修正する支援の受理について問う質問票が配布された。 質問票はサウジアラビアの大学における様々な専攻の教員に配布された。 85%の承認率で得られた1,20の回答は 生成人工知能による 完全な試験問題を生成するために 一方、90パーセントは、すでに存在する質問の編集と改善の承認率であった。

This research aims to take advantage of artificial intelligence techniques in producing students assessment that is compatible with the different academic accreditations of the same program. The possibility of using generative artificial intelligence technology was studied to produce an academic accreditation compliant test the National Center for Academic Accreditation of Kingdom of Saudi Arabia and Accreditation Board for Engineering and Technology. A novel method was introduced to map the verbs used to create the questions introduced in the tests. The method allows a possibility of using the generative artificial intelligence technology to produce and check the validity of questions that measure educational outcomes. A questionnaire was distributed to ensure that the use of generative artificial intelligence to create exam questions is acceptable by the faculty members, as well as to ask about the acceptance of assistance in validating questions submitted by faculty members and amending them in accordance with academic accreditations. The questionnaire was distributed to faculty members of different majors in the Kingdom of Saudi Arabias universities. one hundred twenty responses obtained with eight five percentile approval percentage for generate complete exam questions by generative artificial intelligence . Whereas ninety eight percentage was the approval percentage for editing and improving already existed questions.
翻訳日:2023-12-11 03:42:00 公開日:2023-11-27
# ニューノーマルにおける小売分析 : 人工知能とCovid-19パンデミックの影響

Retail Analytics in the New Normal: The Influence of Artificial Intelligence and the Covid-19 Pandemic ( http://arxiv.org/abs/2312.00046v1 )

ライセンス: Link先を確認
Yossiri Adulyasak, Maxime C. Cohen, Warut Khern-am-nuai, Michael Krause(参考訳) 新型コロナウイルス(COVID-19)パンデミックは小売業界を著しく混乱させ、革新的なテクノロジーの採用を加速させている。 顕著な例は、オンライン食料品注文の急増と、こうしたロジスティクスを促進するために展開された技術に関連している。 実際、多くの小売業者にとってこの混乱は、データ分析と人工知能(AI)のパワーを認識し始めた覚醒電話だった。 本稿では,新たな小売分野において,aiが小売業者に提供する機会について論じる。 説明されているいくつかのテクニックは、以前デプロイされたaiモデルを適応させるために大規模に適用されているが、他の例では、予期せぬパニックの購入、予測モデルの再トレーニング、オンライン-オフラインのシナジーの活用など、小売業者が最近の混乱に対処するために、新たなソリューションを開発する必要がある。

The COVID-19 pandemic has severely disrupted the retail landscape and has accelerated the adoption of innovative technologies. A striking example relates to the proliferation of online grocery orders and the technology deployed to facilitate such logistics. In fact, for many retailers, this disruption was a wake-up call after which they started recognizing the power of data analytics and artificial intelligence (AI). In this article, we discuss the opportunities that AI can offer to retailers in the new normal retail landscape. Some of the techniques described have been applied at scale to adapt previously deployed AI models, whereas in other instances, fresh solutions needed to be developed to help retailers cope with recent disruptions, such as unexpected panic buying, retraining predictive models, and leveraging online-offline synergies.
翻訳日:2023-12-11 03:41:41 公開日:2023-11-27
# Neural Markov Prolog

Neural Markov Prolog ( http://arxiv.org/abs/2312.01521v1 )

ライセンス: Link先を確認
Alexander Thomson and David Page(参考訳) 最近のAIの急速な進歩は、主にニューラルネットワークアーキテクチャの革新によって推進されている。 共通する懸念は、これらの結果のシステムを理解する方法である。 本稿では,より革新的なアーキテクチャの設計と,その構造のシンプルかつ正確なコミュニケーションを支援するツールを提案する。 我々は,1次論理とニューラルネットワークの設計を橋渡しし,画像,テキスト,関係データベース,その他の対象データタイプやそれらの混合のアーキテクチャを容易に生成・提示できるようにする手段として,markov logic と prolog の両方に基づく言語 neural markov prolog (nmp) を提案する。

The recent rapid advance of AI has been driven largely by innovations in neural network architectures. A concomitant concern is how to understand these resulting systems. In this paper, we propose a tool to assist in both the design of further innovative architectures and the simple yet precise communication of their structure. We propose the language Neural Markov Prolog (NMP), based on both Markov logic and Prolog, as a means to both bridge first order logic and neural network design and to allow for the easy generation and presentation of architectures for images, text, relational databases, or other target data types or their mixtures.
翻訳日:2023-12-11 03:32:45 公開日:2023-11-27
# FakeWatch ElectionShield: 信用できる米国の選挙のフェイクニュースを検出するベンチマークフレームワーク

FakeWatch ElectionShield: A Benchmarking Framework to Detect Fake News for Credible US Elections ( http://arxiv.org/abs/2312.03730v1 )

ライセンス: Link先を確認
Tahniat Khan, Mizanur Rahman, Veronica Chatrath, Oluwanifemi Bamgbose, Shaina Raza(参考訳) 今日の技術主導の世界では、特に選挙などの重要な出来事において、フェイクニュースの拡散が情報の完全性に挑戦している。 この課題に対処するために、偽ニュースを検出するために慎重に設計された革新的なフレームワークであるFakeWatch ElectionShieldを紹介する。 我々は,北米の選挙関連ニュース記事の新しいデータセットを,高度言語モデル (LM) と完全人間検証の混合により作成し,精度と妥当性を検証した。 我々は偽ニュースを識別するためのモデルハブを提案する。 本研究の目的は,誤情報の動的性質を認識できる,適応的で正確な分類モデルを提供することである。 我々のデータセットとベンチマークデータセットによる偽ニュース分類器の大規模な評価は、最先端のLMが従来のMLモデルよりわずかに優れている一方で、従来のモデルは精度、説明可能性、計算効率のバランスに競争力があることを示している。 この研究は、選挙に関する誤報に対処するための将来の研究の基礎を定めている。

In today's technologically driven world, the spread of fake news, particularly during crucial events such as elections, presents an increasing challenge to the integrity of information. To address this challenge, we introduce FakeWatch ElectionShield, an innovative framework carefully designed to detect fake news. We have created a novel dataset of North American election-related news articles through a blend of advanced language models (LMs) and thorough human verification, for precision and relevance. We propose a model hub of LMs for identifying fake news. Our goal is to provide the research community with adaptable and accurate classification models in recognizing the dynamic nature of misinformation. Extensive evaluation of fake news classifiers on our dataset and a benchmark dataset shows our that while state-of-the-art LMs slightly outperform the traditional ML models, classical models are still competitive with their balance of accuracy, explainability, and computational efficiency. This research sets the foundation for future studies to address misinformation related to elections.
翻訳日:2023-12-11 03:08:46 公開日:2023-11-27
# 認知的不協和:なぜ言語モデル出力は真性の内部表現と一致しないのか?

Cognitive Dissonance: Why Do Language Model Outputs Disagree with Internal Representations of Truthfulness? ( http://arxiv.org/abs/2312.03729v1 )

ライセンス: Link先を確認
Kevin Liu, Stephen Casper, Dylan Hadfield-Menell, Jacob Andreas(参考訳) ニューラルネットワークモデル(LM)は、事実文の真理を2つの方法で評価するために使用することができる。 過去の研究によると、これらの2つの手順は時折不一致であり、プローブはLM出力よりも正確である。 この結果、一部の研究者は、LMが非協力的なコミュニケーション意図を「十分」あるいは他の方法で符号化していると結論付けている。 これは今日のlmsの正確な説明なのか、それともクエリプロムの不一致が他の方法で発生するのか? 我々は,不一致の3つの異なるクラスを識別する。 多くの場合、プローブの優越性は、正しい高信頼の答えの少ない部分よりも、不確実な答えのキャリブレーションを改善するためにのみ寄与する。 場合によっては、クエリとプローブは入力の異なるサブセットでパフォーマンスが良くなり、この2つをセンスすることで精度がさらに向上する。 コードはgithub.com/lingo-mit/lm-truthfulnessで入手できる。

Neural language models (LMs) can be used to evaluate the truth of factual statements in two ways: they can be either queried for statement probabilities, or probed for internal representations of truthfulness. Past work has found that these two procedures sometimes disagree, and that probes tend to be more accurate than LM outputs. This has led some researchers to conclude that LMs "lie" or otherwise encode non-cooperative communicative intents. Is this an accurate description of today's LMs, or can query-probe disagreement arise in other ways? We identify three different classes of disagreement, which we term confabulation, deception, and heterogeneity. In many cases, the superiority of probes is simply attributable to better calibration on uncertain answers rather than a greater fraction of correct, high-confidence answers. In some cases, queries and probes perform better on different subsets of inputs, and accuracy can further be improved by ensembling the two. Code is available at github.com/lingo-mit/lm-truthfulness.
翻訳日:2023-12-11 03:08:29 公開日:2023-11-27
# 実際のカスタマイズか単なるマーケティングか - Chat GPTのカスタマイズバージョンは有用か?

Real Customization or Just Marketing: Are Customized Versions of Chat GPT Useful? ( http://arxiv.org/abs/2312.03728v1 )

ライセンス: Link先を確認
Eduardo C. Garrido-Merch\'an, Jose L. Arroyo-Barrig\"uete, Francisco Borr\'as-Pala, Leandro Escobar-Torres, Carlos Mart\'inez de Ibarreta, Jose Mar\'ia Ortiz-Lozano, and Antonio Rua-Vieites(参考訳) OpenAI ChatGPT-4 Turboのような大規模言語モデル(LLM)は、高等教育を含むいくつかの産業に革命をもたらしている。 この文脈では、LSMは、統計など特定の分野の生徒の要求を満たすための微調整プロセスを通じてパーソナライズすることができる。 最近、OpenAIは、自然言語Webインターフェースでモデルを微調整する可能性を開始し、特定のタスクの要求を満たすように意図的に調整されたカスタマイズされたGPTバージョンを作成することができるようになった。 本研究の目的は,OpenAI が最近立ち上げたカスタマイズ GPT の可能性を評価することである。 ポンティフィティア大学(Universidad Pontificia Comillas)の学生向けのビジネス統計仮想教授(Business Statistics Virtual Professor, BSVP)を開発した後、その振る舞いを評価し、ChatGPT-4 Turboと比較した。 その結果、いくつかの結論が得られた。 まず,コミュニケーションスタイルの大幅な変更が観察された。 訓練された指示に従って、bsvpはよりリラタブルでフレンドリーなトーンで応答を提供し、いくつかの小さなジョークも取り入れた。 第二に、これは関係性の問題であり、"r practice 4のようなプログラミングのエクササイズを実践したい"と明示的に尋ねられたとき、bsvpは、非常に優れたレスポンスを提供することができた: コンテキストのドキュメントにアクセスすることで、chatgpt-4 turboの能力を超えて、要求を満たすことができる。 マイナス面として、反応時間は概して高かった。 最後に,bsvpとchatgpt-4ターボの反応では,総合的な性能,品質,深さ,特定の内容との一致について統計的に有意な差は認められなかった。 教師が訓練したカスタマイズアシスタントは、学生のバーチャルエイズとしてメリットがあるが、ChatGPT-4 Turboよりも大幅に改善されているわけではない。

Large Language Models (LLMs), as the case of OpenAI ChatGPT-4 Turbo, are revolutionizing several industries, including higher education. In this context, LLMs can be personalized through a fine-tuning process to meet the student demands on every particular subject, like statistics. Recently, OpenAI has launched the possibility to fine-tune their model with a natural language web interface, enabling the possibility to create customized GPT version deliberately conditioned to meet the demands of a specific task. The objective of this research is to assess the potential of the customized GPTs that have recently been launched by OpenAI. After developing a Business Statistics Virtual Professor (BSVP), tailored for students at the Universidad Pontificia Comillas, its behavior was evaluated and compared with that of ChatGPT-4 Turbo. The results lead to several conclusions. Firstly, a substantial modification in the style of communication was observed. Following the instructions it was trained with, BSVP provided responses in a more relatable and friendly tone, even incorporating a few minor jokes. Secondly, and this is a matter of relevance, when explicitly asked for something like, "I would like to practice a programming exercise similar to those in R practice 4," BSVP was capable of providing a far superior response: having access to contextual documentation, it could fulfill the request, something beyond ChatGPT-4 Turbo's capabilities. On the downside, the response times were generally higher. Lastly, regarding overall performance, quality, depth, and alignment with the specific content of the course, no statistically significant differences were observed in the responses between BSVP and ChatGPT-4 Turbo. It appears that customized assistants trained with prompts present advantages as virtual aids for students, yet they do not constitute a substantial improvement over ChatGPT-4 Turbo.
翻訳日:2023-12-11 03:08:12 公開日:2023-11-27
# 低資源アラビア語における感情と憎悪行動の分析のためのコンテンツローカライズに基づくシステム:英語からレバンタ、湾

Content-Localization based System for Analyzing Sentiment and Hate Behaviors in Low-Resource Dialectal Arabic: English to Levantine and Gulf ( http://arxiv.org/abs/2312.03727v1 )

ライセンス: Link先を確認
Fatimah Alzamzami, Abdulmotaleb El Saddik(参考訳) オンラインソーシャルムーブメントは、ソーシャルメディア上で急速にバイラルになり得るが、言語は、基盤となるオンラインソーシャル行動(osb)をタイムリーに監視し分析するための障壁となり得る。 これは特に、方言アラビア語のようなソーシャルメディア上の非ソース言語に当てはまり、アラブ人がソーシャルメディアで使用する主要な言語である。 したがって、低リソース言語における言語依存OSB分析を解くために、高リソース言語からのリソースを効率的に活用するソリューションを提供することが重要である。 本稿では,高資源言語における資源の内容を,低資源アラビア語にローカライズすることを提案する。 コンテンツローカライゼーションは、ある言語から別の言語へテキストを変換するコンテンツ翻訳に留まらず、コンテンツローカライゼーションは、ある言語から特定の言語/方言への文化、言語ニュアンス、地域的嗜好に適応する。 自然で慣れ親しんだ日々の表現の理解を自動化することは、特にスマートシティにおいてOSBをより広く分析する鍵となる。 本稿では,コンテンツローカライズに基づくニューラルマシン翻訳を用いて,レバンティン方言とガルフ方言の感情・憎悪分類器を開発した。 これだけでなく、教師なし学習を活用して、対応するデータから隠れたトピックを推測し、それらのトピックを母国語/方言でコヒーレントに解釈することで、感情や憎悪の予測の分析を容易にする。 実データを用いた実験評価と概念実証実験により,本システムの有効性が検証され,レバンタイン方言とガルフアラビア語の両方において,感情を正確に識別し,ヘイトコンテンツを正確に識別した。 本研究は,同言語における方言の独特な性質を考察し,方言的側面を無視することの重要性を浮き彫りにした。

Even though online social movements can quickly become viral on social media, languages can be a barrier to timely monitoring and analyzing the underlying online social behaviors (OSB). This is especially true for under-resourced languages on social media like dialectal Arabic; the primary language used by Arabs on social media. Therefore, it is crucial to provide solutions to efficiently exploit resources from high-resourced languages to solve language-dependent OSB analysis in under-resourced languages. This paper proposes to localize content of resources in high-resourced languages into under-resourced Arabic dialects. Content localization goes beyond content translation that converts text from one language to another; content localization adapts culture, language nuances and regional preferences from one language to a specific language/dialect. Automating understanding of the natural and familiar day-to-day expressions in different regions, is the key to achieve a wider analysis of OSB especially for smart cities. In this paper, we utilize content-localization based neural machine translation to develop sentiment and hate classifiers for two low-resourced Arabic dialects: Levantine and Gulf. Not only this but we also leverage unsupervised learning to facilitate the analysis of sentiment and hate predictions by inferring hidden topics from the corresponding data and providing coherent interpretations of those topics in their native language/dialects. The experimental evaluations and proof-of-concept COVID-19 case study on real data have validated the effectiveness of our proposed system in precisely distinguishing sentiments and accurately identifying hate content in both Levantine and Gulf Arabic dialects. Our findings shed light on the importance of considering the unique nature of dialects within the same language and ignoring the dialectal aspect would lead to misleading analysis.
翻訳日:2023-12-11 03:07:39 公開日:2023-11-27
# 解釈モデル:その暗黙的道徳的判断に対する推論による文の社会的基盤化

Interpretation modeling: Social grounding of sentences by reasoning over their implicit moral judgments ( http://arxiv.org/abs/2312.03726v1 )

ライセンス: Link先を確認
Liesbeth Allein, Maria Mihaela Tru\c{s}c\v{a}, Marie-Francine Moens(参考訳) 人間のコミュニケーションの社会的かつ暗黙的な性質は、文章に対する読者の理解を損なう。 単一のゴールド標準解釈はほとんど存在せず、自然言語処理における従来の仮定に挑戦する。 この研究は、文の基本的意味論のいくつかの解釈を暗黙的な意味の層を掘り起こすための解釈モデリング(IM)タスクを導入する。 これを得るために、IMは、著者に対する読者の態度と、文中に微妙に埋め込まれた道徳的判断に対する理解によって近似された、複数の社会的関係と共通の根拠のアノテーションによってガイドされる。 本稿では,解釈の哲学的研究から着想を得た一対一および一対多の手法に基づくモデリング戦略を提案する。 実験と分析をサポートするために、最初のimデータセットがキュレートされる。 モデリングの結果はデータセットの精査と相まって、矛盾や複雑な解釈が社会的に妥当であるとして、IMの課題を浮き彫りにしている。 この多様な読解の相互作用は、生成された解釈の自動化と人間による評価によって確認される。 最後に、生成した解釈における毒性分析は、コンテンツのフィルタを精製し、オンライン談話の安全を守るためにコンテンツモデレーターを支援するためのIMの重要性を示す。

The social and implicit nature of human communication ramifies readers' understandings of written sentences. Single gold-standard interpretations rarely exist, challenging conventional assumptions in natural language processing. This work introduces the interpretation modeling (IM) task which involves modeling several interpretations of a sentence's underlying semantics to unearth layers of implicit meaning. To obtain these, IM is guided by multiple annotations of social relation and common ground - in this work approximated by reader attitudes towards the author and their understanding of moral judgments subtly embedded in the sentence. We propose a number of modeling strategies that rely on one-to-one and one-to-many generation methods that take inspiration from the philosophical study of interpretation. A first-of-its-kind IM dataset is curated to support experiments and analyses. The modeling results, coupled with scrutiny of the dataset, underline the challenges of IM as conflicting and complex interpretations are socially plausible. This interplay of diverse readings is affirmed by automated and human evaluations on the generated interpretations. Finally, toxicity analyses in the generated interpretations demonstrate the importance of IM for refining filters of content and assisting content moderators in safeguarding the safety in online discourse.
翻訳日:2023-12-11 03:07:05 公開日:2023-11-27
# SCStory: 自己管理と継続的オンラインストーリーディスカバリ

SCStory: Self-supervised and Continual Online Story Discovery ( http://arxiv.org/abs/2312.03725v1 )

ライセンス: Link先を確認
Susik Yoon, Yu Meng, Dongha Lee, Jiawei Han(参考訳) オンラインストーリー発見のためのフレームワークscstoryを提案する。これは、人間が注釈を使わずに、素早く公開されたニュース記事ストリームをリアルタイムで消化するのに役立つ。 ニュース記事ストリームをストーリーに整理するために、既存のアプローチは記事を直接エンコードし、表現の類似性に基づいてそれらをクラスタ化する。 しかし,これらの手法は,記事の要約的意味を効果的に反映せず,急速に発展するニュース記事ストリームに適応できないため,ノイズや不正確な記事発見結果をもたらす。 SCStoryは、ニュース記事ストリームのストーリー指向適応モデリングという新しいアイデアで、自己指導的かつ継続的な学習を採用している。 SCStoryは、まず文章表現と記事表現を学習する軽量な階層的な埋め込みモジュールを用いて、ニュース記事のストーリー関連情報を識別し、それらを用いて物語を発見する。 埋め込みモジュールは、ラベルの欠如とデータの不足という2つのユニークなテクニックによって支えられた、対照的な学習目標で、進化するニュースストリームに適応するために継続的に更新される。 リアルと最新のニュースデータセットに関する詳細な実験によると、SCStoryは教師なしのオンラインストーリー発見のための最先端のアルゴリズムより優れている。

We present a framework SCStory for online story discovery, that helps people digest rapidly published news article streams in real-time without human annotations. To organize news article streams into stories, existing approaches directly encode the articles and cluster them based on representation similarity. However, these methods yield noisy and inaccurate story discovery results because the generic article embeddings do not effectively reflect the story-indicative semantics in an article and cannot adapt to the rapidly evolving news article streams. SCStory employs self-supervised and continual learning with a novel idea of story-indicative adaptive modeling of news article streams. With a lightweight hierarchical embedding module that first learns sentence representations and then article representations, SCStory identifies story-relevant information of news articles and uses them to discover stories. The embedding module is continuously updated to adapt to evolving news streams with a contrastive learning objective, backed up by two unique techniques, confidence-aware memory replay and prioritized-augmentation, employed for label absence and data scarcity problems. Thorough experiments on real and the latest news data sets demonstrate that SCStory outperforms existing state-of-the-art algorithms for unsupervised online story discovery.
翻訳日:2023-12-11 03:06:47 公開日:2023-11-27
# DP-OPT:大きな言語モデルをプライバシ保護のプロンプトエンジニアに

DP-OPT: Make Large Language Model Your Privacy-Preserving Prompt Engineer ( http://arxiv.org/abs/2312.03724v1 )

ライセンス: Link先を確認
Junyuan Hong, Jiachen T. Wang, Chenhui Zhang, Zhangheng Li, Bo Li, Zhangyang Wang(参考訳) 大規模言語モデル(LLM)は、特に迅速なチューニングによって特定のターゲットに合わせて調整された場合、様々なタスクの主要なツールとして登場した。 それにもかかわらず、データプライバシに関する懸念は、調整されたプロンプトが機密情報に依存することによる障害をもたらす。 実用的な解決策は、ローカルllmをホストし、データをプライベートに使用するソフトプロンプトを最適化することだ。 しかし、モデルオーナシップが保護されると、ローカルモデルのホスティングが問題となる。 トレーニングのためにモデルのプロバイダにデータを送信するような代替手段は、信頼できないプロバイダが直面するこれらのプライバシの問題を強化する。 本稿では,DP-OPT(differially-Private Offsite Prompt Tuning)と呼ばれる新しい手法を提案する。 私たちのアプローチでは、クライアント側で個別のプロンプトをチューニングし、望ましいクラウドモデルに適用します。 LLM自体が提案するプロンプトは性能を著しく損なうことなく転送可能であることを示す。 プロンプトが個人情報を漏らさないことを保証するため,プライベートデモによるコンテキスト内学習の差分プライベート(dp)アンサンブルによる,最初のプライベートプロンプト生成機構を導入する。 DP-OPTでは、Vicuna-7bによるプライバシ保護プロンプトの生成は、GPT3.5やローカルプライベートプロンプトチューニングの非プライベートなインコンテキスト学習と比較して、競合的なパフォーマンスが得られる。 コードはhttps://github.com/VITA-Group/DP-OPT で公開されている。

Large Language Models (LLMs) have emerged as dominant tools for various tasks, particularly when tailored for a specific target by prompt tuning. Nevertheless, concerns surrounding data privacy present obstacles due to the tuned prompts' dependency on sensitive private information. A practical solution is to host a local LLM and optimize a soft prompt privately using data. Yet, hosting a local model becomes problematic when model ownership is protected. Alternative methods, like sending data to the model's provider for training, intensify these privacy issues facing an untrusted provider. In this paper, we present a novel solution called Differentially-Private Offsite Prompt Tuning (DP-OPT) to address this challenge. Our approach involves tuning a discrete prompt on the client side and then applying it to the desired cloud models. We demonstrate that prompts suggested by LLMs themselves can be transferred without compromising performance significantly. To ensure that the prompts do not leak private information, we introduce the first private prompt generation mechanism, by a differentially-private (DP) ensemble of in-context learning with private demonstrations. With DP-OPT, generating privacy-preserving prompts by Vicuna-7b can yield competitive performance compared to non-private in-context learning on GPT3.5 or local private prompt tuning. Codes are available at https://github.com/VITA-Group/DP-OPT .
翻訳日:2023-12-11 03:06:19 公開日:2023-11-27
# 分子コンバータフィールドの生成

Generating Molecular Conformer Fields ( http://arxiv.org/abs/2311.17932v1 )

ライセンス: Link先を確認
Yuyang Wang, Ahmed A. Elhag, Navdeep Jaitly, Joshua M. Susskind, Miguel Angel Bautista(参考訳) 本稿では,分子グラフを与えられた3次元空間における分子のコンフォメータ生成問題に取り組む。 これらを分子グラフから3次元空間内の点への要素を写像する連続関数としてパラメータ化する。 次に、分子適合体場(mcf)と呼ばれる拡散生成モデルを用いて、これらの関数上の分布を学習することで適合体を生成するための学習の問題を定式化する。 我々のアプローチは単純でスケーラブルであり、分子の明示的な構造(例えば、ねじれ角のモデリング)を仮定することなく、挑戦的な分子コンホメータ生成ベンチマークにおける最先端のパフォーマンスを達成する。 MCFは、概念的に単純でスケーラブルで効果的な方法で複雑な科学的問題を扱うために拡散モデルを拡張している。

In this paper we tackle the problem of generating conformers of a molecule in 3D space given its molecular graph. We parameterize these conformers as continuous functions that map elements from the molecular graph to points in 3D space. We then formulate the problem of learning to generate conformers as learning a distribution over these functions using a diffusion generative model, called Molecular Conformer Fields (MCF). Our approach is simple and scalable, and achieves state-of-the-art performance on challenging molecular conformer generation benchmarks while making no assumptions about the explicit structure of molecules (e.g. modeling torsional angles). MCF represents an advance in extending diffusion models to handle complex scientific problems in a conceptually simple, scalable and effective manner.
翻訳日:2023-12-01 19:52:42 公開日:2023-11-27
# 実画像からの移動可能部分のアクティブ粗粒分割

Active Coarse-to-Fine Segmentation of Moveable Parts from Real Images ( http://arxiv.org/abs/2303.11530v2 )

ライセンス: Link先を確認
Ruiqi Wang, Akshay Gadi Patil, Fenggen Yu, Hao Zhang(参考訳) 実屋内シーンのRGB画像から移動可能な部分の高精度なインスタンスセグメンテーションを実現するための,最初のアクティブラーニング(AL)フレームワークを提案する。 ALの成功の鍵となる基準は、ハイパフォーマンスを保ちながら人間の努力を最小限に抑えることである。 この目的のために,マスキング・アテンション機構を用いた変圧器を用いて,アクティブセグメンテーションの監視を行う。 移動可能な部品に合わせたネットワークを強化するため,まずオブジェクト認識型マスマスキングとポーズ認識型アプローチを導入し,その階層的性質と移動可能な部品とオブジェクトのポーズと相互作用方向の相関性を利用した。 本手法は,実画像上で意味ラベルを用いた完全な精度 (96%以上) のセグメンテーション結果が得られ,手作業で82%の時間を節約できる。 最終的に、2,550枚の実際の写真に注釈付き可動部品を付加し、現在のベストな代替品よりも優れた品質と多様性を示す。

We introduce the first active learning (AL) framework for high-accuracy instance segmentation of moveable parts from RGB images of real indoor scenes. As with most human-in-the-loop approaches, the key criterion for success in AL is to minimize human effort while still attaining high performance. To this end, we employ a transformer that utilizes a masked-attention mechanism to supervise the active segmentation. To enhance the network tailored to moveable parts, we introduce a coarse-to-fine AL approach which first uses an object-aware masked attention and then a pose-aware one, leveraging the hierarchical nature of the problem and a correlation between moveable parts and object poses and interaction directions. Our method achieves close to fully accurate (96% and higher) segmentation results, with semantic labels, on real images, with 82% time saving over manual effort, where the training data consists of only 11.45% annotated real photographs. At last, we contribute a dataset of 2,550 real photographs with annotated moveable parts, demonstrating its superior quality and diversity over the current best alternatives.
翻訳日:2023-12-01 04:02:15 公開日:2023-11-27
# セマンティクスセグメンテーションのための高レベル特徴誘導復号

High-level Feature Guided Decoding for Semantic Segmentation ( http://arxiv.org/abs/2303.08646v3 )

ライセンス: Link先を確認
Ye Huang, Di Kang, Shenghua Gao, Wen Li, Lixin Duan(参考訳) 既存のピラミッドベースのアップサンプラー(例:セマンティックFPN)は効率的ではあるが、同じバックボーンを使用する場合に比べて精度が低い。 これは、限られたデータでノイズの少ない低レベル機能と融合して微調整されているため、汚染された高レベル機能によって部分的に引き起こされる。 この問題に対処するため,我々は,事前学習された高レベル機能を指導(hfg)として活用し,アップサンプラーが堅牢な結果が得られるようにすることを提案する。 具体的には、 \emph{only} バックボーンのハイレベルな機能は、クラストークンのトレーニングに使用され、upsamplerによって分類に再利用され、upsamplerの機能をより識別可能なbackbone機能に導く。 HFGの1つの重要な設計は、バックボーンがアップサンプラーからのノイズ勾配に従って更新されないように、適切な停止段階の操作により、ハイレベルな特徴が汚染されることを防ぐことである。 HFGの上限を押し上げるために、低解像度の高レベル特徴に対して効率よく効果的に操作できる文脈拡張エンコーダ(CAE)を導入する。 我々は完全なソリューションをHigh-Level Features Guided Decoder (HFGD)と名付けた。 提案したHFGDをPascal Context,COCOStuff164k,Cityscapesの3つのベンチマークで評価した。 HFGDは、余分なトレーニングデータを使用しず、その有効性と一般化能力を示す手法の中で、最先端の結果を達成する。

Existing pyramid-based upsamplers (e.g. SemanticFPN), although efficient, usually produce less accurate results compared to dilation-based models when using the same backbone. This is partially caused by the contaminated high-level features since they are fused and fine-tuned with noisy low-level features on limited data. To address this issue, we propose to use powerful pre-trained high-level features as guidance (HFG) so that the upsampler can produce robust results. Specifically, \emph{only} the high-level features from the backbone are used to train the class tokens, which are then reused by the upsampler for classification, guiding the upsampler features to more discriminative backbone features. One crucial design of the HFG is to protect the high-level features from being contaminated by using proper stop-gradient operations so that the backbone does not update according to the noisy gradient from the upsampler. To push the upper limit of HFG, we introduce a context augmentation encoder (CAE) that can efficiently and effectively operate on the low-resolution high-level feature, resulting in improved representation and thus better guidance. We named our complete solution as the High-Level Features Guided Decoder (HFGD). We evaluate the proposed HFGD on three benchmarks: Pascal Context, COCOStuff164k, and Cityscapes. HFGD achieves state-of-the-art results among methods that do not use extra training data, demonstrating its effectiveness and generalization ability.
翻訳日:2023-12-01 04:01:33 公開日:2023-11-27
# ソフトクラスラベルの衝突クロスエントロピーとディープクラスタリング

Collision Cross-entropy for Soft Class Labels and Deep Clustering ( http://arxiv.org/abs/2303.07321v3 )

ライセンス: Link先を確認
Zhongwen Zhang, Yuri Boykov(参考訳) クラスラベルがソフトなカテゴリー分布yで表される場合,シャノンのクロスエントロピー(CE)損失に対する頑健な代替として「衝突クロスエントロピー」を提案する。 一般に、ソフトラベルは分類における曖昧な対象を自然に表すことができる。 特に自己ラベルクラスタリング手法には特に関係があり、潜在擬似ラベルはモデルパラメータと共同で推定され、不確実性が一般的である。 ソフトラベルの場合、ShannonのCEはモデル予測にトレーニング例ごとに不確実性を再現するように教え、モデルがこれらの例から学び、一般化する能力を阻害する。 代替的な損失として、予測クラスと未知真のクラスである2つの確率変数の等価性を最大化する「衝突確率」の負のログを提案する。 一般化された CE の性質を持つことを示す。 提案された衝突CEはシャノンのCEと1ホットラベルで一致しているが、ソフトラベルからのトレーニングが異なる。 例えば、シャノンのCEとは異なり、y が一様分布であるデータポイントはトレーニングへの寄与がゼロである。 衝突CEは、ソフト不確実な標的によって監督される分類を著しく改善する。 シャノンと異なり、衝突CEはyとネットワーク予測に対称であり、これらの分布が自己ラベルクラスタリングの文脈で推定されるときに特に関係がある。 自己ラベルとエントロピーに基づく損失が支配的な差別的深層クラスタリングに着目して,衝突CEの利用が最先端技術を改善することを示す。 また、衝突CEによる擬似ラベル推定を著しく高速化する効率的なEMアルゴリズムを導出する。

We propose "collision cross-entropy" as a robust alternative to Shannon's cross-entropy (CE) loss when class labels are represented by soft categorical distributions y. In general, soft labels can naturally represent ambiguous targets in classification. They are particularly relevant for self-labeled clustering methods, where latent pseudo-labels are jointly estimated with the model parameters and uncertainty is prevalent. In case of soft labels, Shannon's CE teaches the model predictions to reproduce the uncertainty in each training example, which inhibits the model's ability to learn and generalize from these examples. As an alternative loss, we propose the negative log of "collision probability" that maximizes the chance of equality between two random variables, predicted class and unknown true class. We show that it has the properties of a generalized CE. The proposed collision CE agrees with Shannon's CE for one-hot labels, but the training from soft labels differs. For example, unlike Shannon's CE, data points where y is a uniform distribution have zero contribution to the training. Collision CE significantly improves classification supervised by soft uncertain targets. Unlike Shannon's, collision CE is symmetric for y and network predictions, which is particularly relevant when both distributions are estimated in the context of self-labeled clustering. Focusing on discriminative deep clustering where self-labeling and entropy-based losses are dominant, we show that the use of collision CE improves the state-of-the-art. We also derive an efficient EM algorithm that significantly speeds up the pseudo-label estimation with collision CE.
翻訳日:2023-12-01 01:02:41 公開日:2023-11-27
# 時間変化磁場による荷電粒子の閉じ込め-核融合プラズマの非トーラス構成に向けて

Confining charged particles with time-varying magnetic fields: toward non-torus configuration of fusion plasmas ( http://arxiv.org/abs/2311.15488v1 )

ライセンス: Link先を確認
Shao-Wu Yao, Bo You, Yue-Hao Yin, Zhi-Yong Wu and Li-Xiang Cen(参考訳) 我々は、時間変化磁場を用いて荷電粒子を閉じ込めるプロトコルを開発し、単一粒子運動軌道の分布から生じる非トーラス構成を実証する。 この目的を達成するための2段階の戦略が提案されている: 予備プロトコルは磁力のみを考慮し、その後、誘導電場を考慮した運動方程式の数値解を用いて評価され、選択される。 核融合プラズマの閉じ込めシナリオを設計するための代替アプローチとして, 関連する電場が存在する場合でも, 微調整タンジェントパルスプロトコルは集中的な構成を維持することができる。

We develop protocols to confine charged particles using time-varying magnetic fields and demonstrate the possible non-torus configuration resulting from the distribution of single-particle motion orbits. A two-step strategy is proposed to achieve this goal: preliminary protocols are contrived by solely considering the magnetic force; afterwards they are evaluated and selected through numerical solutions to the equation of motion, taking into account inductive electric fields. It is shown that a fine-tuned tangent-pulse protocol can maintain its centralized configuration even in the presence of associated electric fields, which illuminates an alternative approach to designing the confinement scenario for fusion plasmas.
翻訳日:2023-12-01 00:31:40 公開日:2023-11-27
# 自律運転のための言語エージェント

A Language Agent for Autonomous Driving ( http://arxiv.org/abs/2311.10813v3 )

ライセンス: Link先を確認
Jiageng Mao and Junjie Ye and Yuxi Qian and Marco Pavone and Yue Wang(参考訳) 人間レベルの運転は、自動運転の究極の目標である。 従来のアプローチでは、認識予測計画の枠組みとして自律運転を定式化しているが、そのシステムは人間の固有の推論能力や経験的知識に乗じていない。 本稿では,人間のような知性を自律運転システムに統合する認知エージェントとして,Large Language Models (LLMs) を利用した現行のパイプラインからの基本パラダイムシフトを提案する。 agent-driverと呼ばれるこのアプローチは、関数呼び出しを通じてアクセス可能な汎用ツールライブラリ、意思決定のための常識と経験的知識の認知記憶、思考の連鎖推論、タスク計画、動き計画、自己回帰が可能な推論エンジンを導入することで、従来の自動運転パイプラインを変換します。 LLMによって駆動されるエージェントドライブには直感的な常識と頑健な推論能力が備わっており、自動運転に対する人間的なアプローチをより微妙に実現しています。 我々は,大規模なnuscenesベンチマークのアプローチを評価し,エージェントドライバが最先端の運転方法を大きく上回っていることを示す実験を行った。 また,本手法は,これらの手法に対して,優れた解釈可能性と少ない学習能力を示す。 コードはリリースされる。

Human-level driving is an ultimate goal of autonomous driving. Conventional approaches formulate autonomous driving as a perception-prediction-planning framework, yet their systems do not capitalize on the inherent reasoning ability and experiential knowledge of humans. In this paper, we propose a fundamental paradigm shift from current pipelines, exploiting Large Language Models (LLMs) as a cognitive agent to integrate human-like intelligence into autonomous driving systems. Our approach, termed Agent-Driver, transforms the traditional autonomous driving pipeline by introducing a versatile tool library accessible via function calls, a cognitive memory of common sense and experiential knowledge for decision-making, and a reasoning engine capable of chain-of-thought reasoning, task planning, motion planning, and self-reflection. Powered by LLMs, our Agent-Driver is endowed with intuitive common sense and robust reasoning capabilities, thus enabling a more nuanced, human-like approach to autonomous driving. We evaluate our approach on the large-scale nuScenes benchmark, and extensive experiments substantiate that our Agent-Driver significantly outperforms the state-of-the-art driving methods by a large margin. Our approach also demonstrates superior interpretability and few-shot learning ability to these methods. Code will be released.
翻訳日:2023-12-01 00:29:00 公開日:2023-11-27
# 大規模マルチモーダルモデルのためのコンポジションチェーン・オブ・サート・プロンプト

Compositional Chain-of-Thought Prompting for Large Multimodal Models ( http://arxiv.org/abs/2311.17076v1 )

ライセンス: Link先を確認
Chancharik Mitra, Brandon Huang, Trevor Darrell, Roei Herzig(参考訳) 強力な視覚バックボーンとLLM(Large Language Model)推論の組み合わせにより、LMM(Large Multimodal Models)が、幅広いビジョンと言語(VL)タスクの現在の標準となった。 しかし、近年の研究では、最も先進的なLMMでさえ、属性やオブジェクト間の関係といった構成的視覚的推論の側面を捉えるのに苦戦していることが示されている。 1つの解決策はシーングラフ(SG)を利用することだ。オブジェクトとその関係と属性は視覚領域とテキスト領域の間のブリッジとして広く利用されている。 しかし、シーングラフデータにはシーングラフアノテーションが必要である。 さらに、SGデータに基づくLMMの微調整は、事前学習対象を壊滅的に忘れてしまう可能性がある。 これを解決するために,LMMから合成知識を抽出するために,SG表現を利用した新しいゼロショット・チェーン・オブ・ソート・プロンプト法であるコンポジション・チェーン・オブ・ソート(CCoT)を提案する。 具体的には,まずLMMを用いてSGを生成し,そのSGをプロンプトに使用して応答を生成する。 広範にわたる実験により、提案手法は、複数の視覚および言語VL合成ベンチマークにおけるLMM性能を向上するだけでなく、一般的なマルチモーダルベンチマークにおけるいくつかのLMMの性能も向上することがわかった。

The combination of strong visual backbones and Large Language Model (LLM) reasoning has led to Large Multimodal Models (LMMs) becoming the current standard for a wide range of vision and language (VL) tasks. However, recent research has shown that even the most advanced LMMs still struggle to capture aspects of compositional visual reasoning, such as attributes and relationships between objects. One solution is to utilize scene graphs (SGs)--a formalization of objects and their relations and attributes that has been extensively used as a bridge between the visual and textual domains. Yet, scene graph data requires scene graph annotations, which are expensive to collect and thus not easily scalable. Moreover, finetuning an LMM based on SG data can lead to catastrophic forgetting of the pretraining objective. To overcome this, inspired by chain-of-thought methods, we propose Compositional Chain-of-Thought (CCoT), a novel zero-shot Chain-of-Thought prompting method that utilizes SG representations in order to extract compositional knowledge from an LMM. Specifically, we first generate an SG using the LMM, and then use that SG in the prompt to produce a response. Through extensive experiments, we find that the proposed CCoT approach not only improves LMM performance on several vision and language VL compositional benchmarks but also improves the performance of several popular LMMs on general multimodal benchmarks, without the need for fine-tuning or annotated ground-truth SGs.
翻訳日:2023-12-01 00:17:37 公開日:2023-11-27
# 人物再同定のための全体と構成要素に基づく意味表現の自己教師付き学習

Self-Supervised Learning of Whole and Component-Based Semantic Representations for Person Re-Identification ( http://arxiv.org/abs/2311.17074v1 )

ライセンス: Link先を確認
Siyuan Huang, Yifan Zhou, Ram Prabhakar Kathirvel, Rama Chellappa, Chun Pong Lau(参考訳) Segment Anything Modelのような対話型セグメンテーションモデル(ISM)は、様々なコンピュータビジョンタスクを大幅に改善してきたが、Person Re-identification(ReID)への応用は限定的である。 一方、ReIDの既存のセマンティック事前トレーニングモデルには、事前に定義された解析範囲や粗いセマンティクスのような制限があることが多い。 また、ReID と Clothes-Changing ReID (CC-ReID) はドメインによって別々に扱われることが多い。 本稿では,人間中心意味表現の高精度化がreid性能の向上と各種reidタスクの一般化に寄与するかどうかについて検討する。 本稿では,適応部分ベースセマンティック抽出にISMを利用する自己教師型ReIDモデルSemReIDを提案する。 SemReIDはさらに、イメージマスキングやKoLeo正規化といったテクニックを通じて、セマンティック表現を洗練している。 標準ReID、CC-ReID、制約なしReIDの3種類のReIDデータセットに対する評価は、最先端の手法と比較して優れたパフォーマンスを示している。 また,細粒度なセマンティクスを持つ大人数データセットの不足を認識し,ロバストな性能を実現するために,reid法を支援する新しいluperson-partデータセットを提案する。

Interactive Segmentation Models (ISMs) like the Segment Anything Model have significantly improved various computer vision tasks, yet their application to Person Re-identification (ReID) remains limited. On the other hand, existing semantic pre-training models for ReID often have limitations like predefined parsing ranges or coarse semantics. Additionally, ReID and Clothes-Changing ReID (CC-ReID) are usually treated separately due to their different domains. This paper investigates whether utilizing precise human-centric semantic representation can boost the ReID performance and improve the generalization among various ReID tasks. We propose SemReID, a self-supervised ReID model that leverages ISMs for adaptive part-based semantic extraction, contributing to the improvement of ReID performance. SemReID additionally refines its semantic representation through techniques such as image masking and KoLeo regularization. Evaluation across three types of ReID datasets -- standard ReID, CC-ReID, and unconstrained ReID -- demonstrates superior performance compared to state-of-the-art methods. In addition, recognizing the scarcity of large person datasets with fine-grained semantics, we introduce the novel LUPerson-Part dataset to assist ReID methods in acquiring the fine-grained part semantics for robust performance.
翻訳日:2023-12-01 00:17:08 公開日:2023-11-27
# ベイズニューラルネットワークを用いた実用的なレイアウト対応アナログ・ミキシング信号設計自動化

Practical Layout-Aware Analog/Mixed-Signal Design Automation with Bayesian Neural Networks ( http://arxiv.org/abs/2311.17073v1 )

ライセンス: Link先を確認
Ahmet F. Budak, Keren Zhu, and David Z. Pan(参考訳) 高いシミュレーションコストは実用的なアナログ/混合信号設計自動化のボトルネックとなっている。 多くの学習ベースのアルゴリズムは数千のシミュレーションデータポイントを必要とするが、回路をシミュレートするには高価ではない。 そこで本研究では,少ないデータ量で学習し,高価なシミュレーションでタスクにスケーラブルな学習アルゴリズムを提案する。 提案アルゴリズムは,シミュレーションが高価であることが知られているレイアウト後の性能最適化問題を解く。 我々の包括的な研究は、スキーマレベルのサイズ問題も解決する。 効率よく最適化するために,ベイズニューラルネットワークを回帰モデルとして利用して回路性能を近似する。 レイアウトアウェア最適化では,マルチ忠実度最適化問題としてこの問題を扱い,より安価な評価から相関を生かして効率を向上させる。 本稿では,アルゴリズムの効率性を示す3つのテストケースを提案する。 提案手法は従来のベースラインや最先端アルゴリズムよりも効率的であることを示す。

The high simulation cost has been a bottleneck of practical analog/mixed-signal design automation. Many learning-based algorithms require thousands of simulated data points, which is impractical for expensive to simulate circuits. We propose a learning-based algorithm that can be trained using a small amount of data and, therefore, scalable to tasks with expensive simulations. Our efficient algorithm solves the post-layout performance optimization problem where simulations are known to be expensive. Our comprehensive study also solves the schematic-level sizing problem. For efficient optimization, we utilize Bayesian Neural Networks as a regression model to approximate circuit performance. For layout-aware optimization, we handle the problem as a multi-fidelity optimization problem and improve efficiency by exploiting the correlations from cheaper evaluations. We present three test cases to demonstrate the efficiency of our algorithms. Our tests prove that the proposed approach is more efficient than conventional baselines and state-of-the-art algorithms.
翻訳日:2023-12-01 00:16:46 公開日:2023-11-27
# IGキャプタ:情報ゲインキャプタはゼロショットの強力な分類器

IG Captioner: Information Gain Captioners are Strong Zero-shot Classifiers ( http://arxiv.org/abs/2311.17072v1 )

ライセンス: Link先を確認
Chenglin Yang, Siyuan Qiao, Yuan Cao, Yu Zhang, Tao Zhu, Alan Yuille, Jiahui Yu(参考訳) 生成的トレーニングは視覚言語モデルを構築する上で強力であることが示されている。 しかし、ゼロショット判別ベンチマークでは、生成的および識別的目的でトレーニングされたモデルにはまだパフォーマンスギャップがある。 本稿では,分類タスクにおける生成訓練の効果を,微調整処理や追加モジュールを使わずに改善することで,このギャップを狭めることを目的とする。 具体的には、生成キャプタとCLIP分類器のギャップを狭めることに焦点を当てる。 まず、キャプションと分類器による予測を分析し、純粋なテキストモダリティで訓練された言語モデルからキャプション生成が分布バイアスを継承することを観察し、視覚信号の接地を少なくする。 この問題に対処するため,我々はキャプタの得点目標を再設計し,分布バイアスを緩和し,視覚入力による情報の獲得を計測することに集中する。 さらに,評価目標に適合する生成的学習目標を設計する。 我々は,新しい手法から学習し,評価したモデルをインフォメーション・ゲイン・キャプション(ig)と呼ぶ。 公開laion-5bデータセット上でモデルを事前トレーニングし,一連の識別評価を行う。 ImageNetのゼロショット分類では、IGキャプタは標準キャプタよりも$> 18\%$改善され、CLIP分類器で同等のパフォーマンスを達成する。 IGキャプタは、MSCOCOとFlickr30Kのゼロショット画像テキスト検索タスクにも強い性能を示した。 本稿では,視覚言語モデルにおける生成的・識別的訓練の統一に向けたさらなる研究を期待する。

Generative training has been demonstrated to be powerful for building visual-language models. However, on zero-shot discriminative benchmarks, there is still a performance gap between models trained with generative and discriminative objectives. In this paper, we aim to narrow this gap by improving the efficacy of generative training on classification tasks, without any finetuning processes or additional modules. Specifically, we focus on narrowing the gap between the generative captioner and the CLIP classifier. We begin by analysing the predictions made by the captioner and classifier and observe that the caption generation inherits the distribution bias from the language model trained with pure text modality, making it less grounded on the visual signal. To tackle this problem, we redesign the scoring objective for the captioner to alleviate the distributional bias and focus on measuring the gain of information brought by the visual inputs. We further design a generative training objective to match the evaluation objective. We name our model trained and evaluated from the novel procedures as Information Gain (IG) captioner. We pretrain the models on the public Laion-5B dataset and perform a series of discriminative evaluations. For the zero-shot classification on ImageNet, IG captioner achieves $> 18\%$ improvements over the standard captioner, achieving comparable performances with the CLIP classifier. IG captioner also demonstrated strong performance on zero-shot image-text retrieval tasks on MSCOCO and Flickr30K. We hope this paper inspires further research towards unifying generative and discriminative training procedures for visual-language models.
翻訳日:2023-12-01 00:16:32 公開日:2023-11-27
# 古典重力の量子後理論?

A postquantum theory of classical gravity? ( http://arxiv.org/abs/1811.03116v3 )

ライセンス: Link先を確認
Jonathan Oppenheim(参考訳) 重力の量子論を発見するための努力は、量子論と一般相対性理論の不整合を和らげる必要性によって動機づけられる。 ここでは、量子場理論に結合した古典重力の一貫した理論を構築することで、別のアプローチを提案する。 ダイナミクスは密度行列において線形であり、完全に正とトレース保存であり、古典極限におけるアインシュタインの一般相対性理論に還元される。 したがって、力学は期待値に基づく半古典的理論の病理学に苦しむことはない。 一般相対性理論が古典的であるという仮定は、量子力学の力学法則を必ずしも修正するものではない。 これにより、古典量子相互作用を禁止するいくつかのno-go定理を回避することができる。 量子力学の測定仮定は不要であり、量子自由度と古典的な時空との相互作用は、量子系におけるデコヒーレンスを必然的に引き起こす。 まず、古典量子力学の一般形式を導出し、その極限決定論的古典ハミルトン進化である実数化を考える。 形式主義は古典的時空計量と相互作用する場の量子論に適用される。 古典量子理論は、幾何学上の場のバック・リアクションを計算するのに有用な基本的あるいは効果的な理論であると見なすことができる。 両視点から多くのオープンな質問について論じる。

The effort to discover a quantum theory of gravity is motivated by the need to reconcile the incompatibility between quantum theory and general relativity. Here, we present an alternative approach by constructing a consistent theory of classical gravity coupled to quantum field theory. The dynamics is linear in the density matrix, completely positive and trace preserving, and reduces to Einstein's theory of general relativity in the classical limit. Consequently, the dynamics doesn't suffer from the pathologies of the semiclassical theory based on expectation values. The assumption that general relativity is classical necessarily modifies the dynamical laws of quantum mechanics -- the theory must be fundamentally stochastic in both the metric degrees of freedom and in the quantum matter fields. This allows it to evade several no-go theorems purporting to forbid classical-quantum interactions. The measurement postulate of quantum mechanics is not needed -- the interaction of the quantum degrees of freedom with classical space-time necessarily causes decoherence in the quantum system. We first derive the general form of classical-quantum dynamics and consider realisations which have as its limit deterministic classical Hamiltonian evolution. The formalism is then applied to quantum field theory interacting with the classical space-time metric. One can view the classical-quantum theory as fundamental or as an effective theory useful for computing the back-reaction of quantum fields on geometry. We discuss a number of open questions from the perspective of both viewpoints.
翻訳日:2023-11-30 18:21:29 公開日:2023-11-27
# ニューラディドン : ニューロイメージングレポートの運用的表現学習

Neuradicon: operational representation learning of neuroimaging reports ( http://arxiv.org/abs/2107.10021v2 )

ライセンス: Link先を確認
Henry Watkins, Robert Gray, Adam Julius, Yee-Haur Mah, Walter H.L. Pinaya, Paul Wright, Ashwani Jha, Holger Engleitner, Jorge Cardoso, Sebastien Ourselin, Geraint Rees, Rolf Jaeger and Parashkev Nachev(参考訳) 放射線学的報告は通常、定量的解析を妨げる非構造化形態のイメージング研究の内容と解釈を要約する。 これにより、無線サービスの監視は、コンテンツによって差別化されていないスループットに制限される。 本稿では,神経放射線学報告の定量的解析のための自然言語処理(NLP)フレームワークであるNeuradiconを紹介する。 我々のフレームワークは、神経学的報告を、操作指導に最適な簡潔で定量的に表現するためのルールベースと人工知能モデルのハイブリッドである。 我々は,Neuradiconを336,569件の報告コーパスの表現型化に応用し,時間と2つの独立した医療機関で優れた一般化性を示す。

Radiological reports typically summarize the content and interpretation of imaging studies in unstructured form that precludes quantitative analysis. This limits the monitoring of radiological services to throughput undifferentiated by content, impeding specific, targeted operational optimization. Here we present Neuradicon, a natural language processing (NLP) framework for quantitative analysis of neuroradiological reports. Our framework is a hybrid of rule-based and artificial intelligence models to represent neurological reports in succinct, quantitative form optimally suited to operational guidance. We demonstrate the application of Neuradicon to operational phenotyping of a corpus of 336,569 reports, and report excellent generalizability across time and two independent healthcare institutions.
翻訳日:2023-11-30 18:15:57 公開日:2023-11-27
# 低差分配列で生成された人工ニューラルネットワーク

Artificial Neural Networks generated by Low Discrepancy Sequences ( http://arxiv.org/abs/2103.03543v2 )

ライセンス: Link先を確認
Alexander Keller and Matthijs Van keirsbilck(参考訳) ニューラルネットワークはパスとして表現できる。 濃密なネットワークグラフ上のランダムなウォーキングとして生成されると、結果として生じるスパースネットワークは決定論的初期化や固定符号の重み付けが可能となる。 このようなネットワークは、スクラッチからスパースし、密集したネットワークを訓練し、その後圧縮する高価な手順を避けることができる。 少ないが、重みは連続したメモリブロックとしてアクセスされる。 さらに、ソボの配列のような決定論的低差分配列を用いて経路を列挙すると、プログレッシブな置換によって神経ユニットの層を繋ぐことになり、並列コンピュータハードウェアにおけるバンクの衝突を自然に回避する。 我々は,低差分シーケンスで生成された人工ニューラルネットワークが,より低い計算複雑性で,密度の高いニューラルネットワークの到達範囲内で精度を達成できることを実証した。

Artificial neural networks can be represented by paths. Generated as random walks on a dense network graph, we find that the resulting sparse networks allow for deterministic initialization and even weights with fixed sign. Such networks can be trained sparse from scratch, avoiding the expensive procedure of training a dense network and compressing it afterwards. Although sparse, weights are accessed as contiguous blocks of memory. In addition, enumerating the paths using deterministic low discrepancy sequences, for example the Sobol' sequence, amounts to connecting the layers of neural units by progressive permutations, which naturally avoids bank conflicts in parallel computer hardware. We demonstrate that the artificial neural networks generated by low discrepancy sequences can achieve an accuracy within reach of their dense counterparts at a much lower computational complexity.
翻訳日:2023-11-30 18:15:05 公開日:2023-11-27
# フェデレーション学習の新たな潮流:モデル融合からフェデレーションX学習へ

Emerging Trends in Federated Learning: From Model Fusion to Federated X Learning ( http://arxiv.org/abs/2102.12920v3 )

ライセンス: Link先を確認
Shaoxiong Ji and Yue Tan and Teemu Saravirta and Zhiqin Yang and Lauri Vasankari and Shirui Pan and Guodong Long and Anwar Walid(参考訳) フェデレーション学習(federated learning)は,マルチパーティ計算とモデル集約を通じてデータ収集とモデルトレーニングを分離する,新たな学習パラダイムである。 柔軟な学習環境として、連合学習は他の学習フレームワークと統合する可能性がある。 我々は、他の学習アルゴリズムとともに、フェデレーション学習を集中的に調査する。 具体的には,バニラフェデレーション平均化アルゴリズムの改良と適応アグリゲーション,正規化,クラスタ化法,ベイズ法などのモデル融合手法の見直しについて検討する。 また,近年のトレンドに続き,他の学習パラダイムと交差するフェデレーション学習,いわゆるフェデレーション学習,メタラーニング,トランスファーラーニング,教師なし学習,強化学習についても議論している。 本調査は,芸術の現状,課題,今後の方向性を概観する。

Federated learning is a new learning paradigm that decouples data collection and model training via multi-party computation and model aggregation. As a flexible learning setting, federated learning has the potential to integrate with other learning frameworks. We conduct a focused survey of federated learning in conjunction with other learning algorithms. Specifically, we explore various learning algorithms to improve the vanilla federated averaging algorithm and review model fusion methods such as adaptive aggregation, regularization, clustered methods, and Bayesian methods. Following the emerging trends, we also discuss federated learning in the intersection with other learning paradigms, termed federated X learning, where X includes multitask learning, meta-learning, transfer learning, unsupervised learning, and reinforcement learning. This survey reviews the state of the art, challenges, and future directions.
翻訳日:2023-11-30 18:14:20 公開日:2023-11-27
# 付加ガウス雑音に対する効率的な結合ボソニック符号

Efficient Concatenated Bosonic Code for Additive Gaussian Noise ( http://arxiv.org/abs/2102.01374v3 )

ライセンス: Link先を確認
Kosuke Fukui and Takaya Matsuura and Nicolas C. Menicucci(参考訳) ボソニック符号は量子情報処理にノイズレジリエンスを提供する。 優れたパフォーマンスは、しばしば複雑なデコードスキームの価格で得られ、実用性を制限する。 本稿では,ゴッテマン・キタエフ・プレスキル(GKP)符号を用いて,残差を処理するために量子パリティ符号と結合した誤り発生量子ビットを検出し,破棄する。 本手法は単純な線形時間デコーダを用いるが,標準デコーダに比べて性能が大幅に向上する。 我々の研究は、幅広い量子計算と通信シナリオに応用できるかもしれない。

Bosonic codes offer noise resilience for quantum information processing. Good performance often comes at a price of complex decoding schemes, limiting their practicality. Here, we propose using a Gottesman-Kitaev-Preskill (GKP) code to detect and discard error-prone qubits, concatenated with a quantum parity code to handle the residual errors. Our method employs a simple, linear-time decoder that nevertheless offers significant performance improvements over the standard decoder. Our work may have applications in a wide range of quantum computation and communication scenarios.
翻訳日:2023-11-30 18:14:05 公開日:2023-11-27
# カーネル回帰の次元化とワッサースタイン安定性

Dimensionality Reduction and Wasserstein Stability for Kernel Regression ( http://arxiv.org/abs/2203.09347v3 )

ライセンス: Link先を確認
Stephan Eckstein, Armin Iske, Mathias Trabs(参考訳) 高次元回帰(high-dimensional regression)フレームワークでは、まず入力変数の次元を減少させ、次に、還元された入力変数をカーネル回帰で出力変数を予測するnaive two-step手順の結果を調べる。 結果として生じる回帰誤差を分析するために、ワッサースタイン距離に関する核回帰に対する新しい安定性結果が導出される。 これにより、摂動入力データが回帰関数に適合する際に発生するエラーをバウンドすることができる。 一般安定性の結果を主成分分析(pca)に適用する。 主成分分析とカーネル回帰の両方に関する文献からの既知の推定結果から、2段階の手順の収束率を推定する。 後者は、半教師付き設定で特に有用であることが判明した。

In a high-dimensional regression framework, we study consequences of the naive two-step procedure where first the dimension of the input variables is reduced and second, the reduced input variables are used to predict the output variable with kernel regression. In order to analyze the resulting regression errors, a novel stability result for kernel regression with respect to the Wasserstein distance is derived. This allows us to bound errors that occur when perturbed input data is used to fit the regression function. We apply the general stability result to principal component analysis (PCA). Exploiting known estimates from the literature on both principal component analysis and kernel regression, we deduce convergence rates for the two-step procedure. The latter turns out to be particularly useful in a semi-supervised setting.
翻訳日:2023-11-30 18:07:36 公開日:2023-11-27
# ガウス過程補間における滑らか度パラメータ推定のための漸近境界

Asymptotic Bounds for Smoothness Parameter Estimates in Gaussian Process Interpolation ( http://arxiv.org/abs/2203.05400v5 )

ライセンス: Link先を確認
Toni Karvonen(参考訳) コンピュータ実験の出力のような決定論的応答関数をマット・エルン共分散核を持つガウス過程としてモデル化するのが一般的である。 mat\'ernカーネルの滑らかさパラメータは、応答関数に対する条件付き平均の収束率を含む、大きなデータ限界におけるモデルの多くの重要な特性を決定する。 滑らか度パラメータの最大推定値は、データが$\mathbb{R}^d$の固定有界部分集合上で得られるとき、漸近的に真理を過小評価することはできない。 すなわち、データ生成応答関数が Sobolev smoothness $\nu_0 > d/2$ を持つなら、滑らかさパラメータ推定は $\nu_0$ より漸近的に小さくならない。 下限は鋭い。 さらに,最大確率推定はコンパクトに支持される自己相似関数のクラスに対する真の滑らかさを回復することを示した。 クロスバリデーションに対しては、漸近下限 $\nu_0 - d/2$ が証明されるが、これはシャープではない。 結果はソボレフ空間の近似理論とパラメータ推定器が取り得る値の集合を制限するいくつかの一般定理に基づいている。

It is common to model a deterministic response function, such as the output of a computer experiment, as a Gaussian process with a Mat\'ern covariance kernel. The smoothness parameter of a Mat\'ern kernel determines many important properties of the model in the large data limit, including the rate of convergence of the conditional mean to the response function. We prove that the maximum likelihood estimate of the smoothness parameter cannot asymptotically undersmooth the truth when the data are obtained on a fixed bounded subset of $\mathbb{R}^d$. That is, if the data-generating response function has Sobolev smoothness $\nu_0 > d/2$, then the smoothness parameter estimate cannot be asymptotically less than $\nu_0$. The lower bound is sharp. Additionally, we show that maximum likelihood estimation recovers the true smoothness for a class of compactly supported self-similar functions. For cross-validation we prove an asymptotic lower bound $\nu_0 - d/2$, which however is unlikely to be sharp. The results are based on approximation theory in Sobolev spaces and some general theorems that restrict the set of values that the parameter estimators can take.
翻訳日:2023-11-30 18:07:24 公開日:2023-11-27
# ノックオフによる変数選択:コンポジットヌル仮説

Variable Selection with the Knockoffs: Composite Null Hypotheses ( http://arxiv.org/abs/2203.02849v4 )

ライセンス: Link先を確認
Mehrdad Pournaderi and Yu Xiang(参考訳) 固定Xノックオフフィルタは、任意の設計行列(全列ランク)を持つ線形モデルにおける偽発見率(FDR)制御による可変選択のための柔軟なフレームワークであり、ラッソ推定による有限サンプル選択推論を可能にする。 本稿では、ノックオフ手順の理論を、実世界の問題によく関係する複合的ヌル仮説を用いたテストに拡張する。 主な技術的課題は、任意の設計から依存した特徴と組み合わせて合成ヌルを扱うことである。 本研究では, 合成ヌルの下での試験統計の新たな構造特性を基盤として, 最小二乗シフト (S-OLS) と特徴応答型製品摂動 (FRPP) の2つの手法を開発した。 また,S-OLS法の2つのヒューリスティックな変種を提案し,この手法は複合ヌルに対する有名なBenjamini-Hochberg(BH)法よりも優れており,従属試験統計の下ではヒューリスティックなベースラインとして機能する。 最後に, 元のノックオフ手順を合成試験に適用した場合のFDRの損失を解析する。

The fixed-X knockoff filter is a flexible framework for variable selection with false discovery rate (FDR) control in linear models with arbitrary design matrices (of full column rank) and it allows for finite-sample selective inference via the Lasso estimates. In this paper, we extend the theory of the knockoff procedure to tests with composite null hypotheses, which are usually more relevant to real-world problems. The main technical challenge lies in handling composite nulls in tandem with dependent features from arbitrary designs. We develop two methods for composite inference with the knockoffs, namely, shifted ordinary least-squares (S-OLS) and feature-response product perturbation (FRPP), building on new structural properties of test statistics under composite nulls. We also propose two heuristic variants of S-OLS method that outperform the celebrated Benjamini-Hochberg (BH) procedure for composite nulls, which serves as a heuristic baseline under dependent test statistics. Finally, we analyze the loss in FDR when the original knockoff procedure is naively applied on composite tests.
翻訳日:2023-11-30 18:06:49 公開日:2023-11-27
# 相関スキームによる正則グラフからの部分因子

Subfactors from regular graphs induced by association schemes ( http://arxiv.org/abs/2201.07310v4 )

ライセンス: Link先を確認
Radhakrishnan Balu(参考訳) 正則グラフ上でのファッショニング量子ウォークを可能にする数学的構造と固有系におけるそれらの実現との関係を明らかにする。 我々の主人公は、下因子の正準構造を持つタイプII行列から合成できるアソシエーションスキームである。 このようにして、Fock空間と相互作用する関係スキームによって誘導される距離正則グラフの増大に量子ウォークを設定し、サブファクタによって記述される任意のシステムとそれらを関連付ける。 このアプローチで扱われる可能性のあるグラフの大規模なファミリーについて詳しく論じる。 関連スキームと実現可能なanyonシステムの分類は複雑な組合せ問題であり、量子ウォークアプリケーションに基づくアプローチでその一部に取り組む。

We clarify the relations between the mathematical structures that enable fashioning quantum walks on regular graphs and their realizations in anyonic systems. Our protagonist is association schemes that may be synthesized from type-II matrices which have a canonical construction of subfactors. This way we set up quantum walks on growing distance-regular graphs induced by association schemes via interacting Fock spaces and relate them to anyon systems described by subfactors. We discuss in detail a large family of graphs that may be treated within this approach. Classification of association schemes and realizable anyon systems are complex combinatorial problems and we tackle a part of it with a quantum walk application based approach.
翻訳日:2023-11-30 18:06:23 公開日:2023-11-27
# 階層LSTMを用いたネットワークレベルの短期旅行予測のためのビッグデータ分析

Big Data Analytics for Network Level Short-Term Travel Time Prediction with Hierarchical LSTM ( http://arxiv.org/abs/2201.05760v3 )

ライセンス: Link先を確認
Tianya T. Zhang(参考訳) 広範なトラフィック監視センサから収集された旅行時間データは、クエリ、視覚化、意味のあるトラフィックパターンを特定するためのビッグデータ分析ツールを必要とする。 本稿では,従来のデータ処理・モデリングツールのオーバーフローであるcaltrans performance measurement system (pems) システムからの大規模トラベリングタイムデータセットを利用する。 大量のデータの課題を克服するために、ビッグデータ分析エンジンのApache SparkとApache MXNetがデータラングリングとモデリングに使用される。 時系列データの動向を探索し可視化するために季節と自己相関を行った。 人工知能(AI)タスクにおける階層的アーキテクチャの成功に触発されて,低レベルから高レベルLSTMに渡される細胞と隠れた状態を,人間の知覚システムと同じような動作を注目して統合する。 設計した階層型lstmモデルは、ネットワークレベルの移動時間の空間-時間相関を捉えるために、異なる時間スケールでの依存関係を考慮できる。 別の自己注意モジュールはLSTM抽出された特徴を完全に接続された層に接続するように設計され、単一のリンク/ルートの代わりにすべての廊下の移動時間を予測した。 その結果,階層型LSTM(HierLSTMat)モデルでは30分と45分で最高の予測結果が得られ,異常な混雑を予測できた。 ビッグデータ分析ツールから得られる効率は、一般的なデータサイエンスやディープラーニングフレームワークと比較することで評価された。

The travel time data collected from widespread traffic monitoring sensors necessitate big data analytic tools for querying, visualization, and identifying meaningful traffic patterns. This paper utilizes a large-scale travel time dataset from Caltrans Performance Measurement System (PeMS) system that is an overflow for traditional data processing and modeling tools. To overcome the challenges of the massive amount of data, the big data analytic engines Apache Spark and Apache MXNet are applied for data wrangling and modeling. Seasonality and autocorrelation were performed to explore and visualize the trend of time-varying data. Inspired by the success of the hierarchical architecture for many Artificial Intelligent (AI) tasks, we consolidate the cell and hidden states passed from low-level to the high-level LSTM with an attention pooling similar to how the human perception system operates. The designed hierarchical LSTM model can consider the dependencies at different time scales to capture the spatial-temporal correlations of network-level travel time. Another self-attention module is then devised to connect LSTM extracted features to the fully connected layers, predicting travel time for all corridors instead of a single link/route. The comparison results show that the Hierarchical LSTM with Attention (HierLSTMat) model gives the best prediction results at 30-minute and 45-min horizons and can successfully forecast unusual congestion. The efficiency gained from big data analytic tools was evaluated by comparing them with popular data science and deep learning frameworks.
翻訳日:2023-11-30 18:06:10 公開日:2023-11-27
# 道路資産の予測保守計画のための深層強化学習モデル:LCCAとLCCAの統合

A deep reinforcement learning model for predictive maintenance planning of road assets: Integrating LCA and LCCA ( http://arxiv.org/abs/2112.12589v3 )

ライセンス: Link先を確認
Moein Latifi, Fateme Golivand Darvishvand, Omid Khandel, Mobin Latifi Nowsoud(参考訳) 道路維持計画は道路資産管理の不可欠な部分である。 メンテナンスとリハビリテーション(M&R)のプラクティスにおける大きな課題のひとつは、メンテナンスのタイプとタイミングを決定することです。 本研究では,Long Term Pavement Performance (LTPP)データベースに基づく強化学習(RL)を用いて,M&R実践のタイプとタイミングを決定するフレームワークを提案する。 予測型DNNモデルは、RLアルゴリズムの環境として機能する提案アルゴリズムで最初に開発された。 RLモデルのポリシー推定には、DQNモデルとPPOモデルの両方が開発された。 しかし、PPOは、収束性の向上と試料効率の向上により最終的に選択されている。 本研究で用いた指標は国際粗度指数(IRI)とラッティング深さ(RD)である。 当初,3番目の指標として亀裂量(CM)を検討したが,他の指標に比べてデータが少ないため除外され,結果の精度が低下した。 さらに,費用対効果計算(リワード)においては,M&R処理の経済的および環境的影響を考察した。 コストと環境への影響はpaLATE 2.0ソフトウェアで評価されている。 本手法は,暖かく湿潤な気候のテキサスに23kmの長さの6車線の高速道路を想定したケーススタディで検証した。 その結果,道路条件が良好な条件域に留まる20年間のM&R計画が提案された。 道路の初期の状態は十分なサービスレベルにあるため、最初の数年間で大規模な保守作業は不要である。 その後、重度のM&R作用の後、治療の必要のない1~2年が経過する。 これらの全ては、提案された計画に論理的な結果があることを示している。 意思決定者や交通機関は、このスキームを利用して、予算の無駄を防止し、同時に環境への影響を最小限に抑える、より良いメンテナンスの実践を行うことができる。

Road maintenance planning is an integral part of road asset management. One of the main challenges in Maintenance and Rehabilitation (M&R) practices is to determine maintenance type and timing. This research proposes a framework using Reinforcement Learning (RL) based on the Long Term Pavement Performance (LTPP) database to determine the type and timing of M&R practices. A predictive DNN model is first developed in the proposed algorithm, which serves as the Environment for the RL algorithm. For the Policy estimation of the RL model, both DQN and PPO models are developed. However, PPO has been selected in the end due to better convergence and higher sample efficiency. Indicators used in this study are International Roughness Index (IRI) and Rutting Depth (RD). Initially, we considered Cracking Metric (CM) as the third indicator, but it was then excluded due to the much fewer data compared to other indicators, which resulted in lower accuracy of the results. Furthermore, in cost-effectiveness calculation (reward), we considered both the economic and environmental impacts of M&R treatments. Costs and environmental impacts have been evaluated with paLATE 2.0 software. Our method is tested on a hypothetical case study of a six-lane highway with 23 kilometers length located in Texas, which has a warm and wet climate. The results propose a 20-year M&R plan in which road condition remains in an excellent condition range. Because the early state of the road is at a good level of service, there is no need for heavy maintenance practices in the first years. Later, after heavy M&R actions, there are several 1-2 years of no need for treatments. All of these show that the proposed plan has a logical result. Decision-makers and transportation agencies can use this scheme to conduct better maintenance practices that can prevent budget waste and, at the same time, minimize the environmental impacts.
翻訳日:2023-11-30 18:05:00 公開日:2023-11-27
# Mate! 本当に知ってるの? マルウェア検知器のロバスト性に関する説明可能性ガイドテストフレームワーク

Mate! Are You Really Aware? An Explainability-Guided Testing Framework for Robustness of Malware Detectors ( http://arxiv.org/abs/2111.10085v4 )

ライセンス: Link先を確認
Ruoxi Sun, Minhui Xue, Gareth Tyson, Tian Dong, Shaofeng Li, Shuo Wang, Haojin Zhu, Seyit Camtepe, Surya Nepal(参考訳) 多数のオープンソースおよび商用のマルウェア検知器が利用可能である。 しかし、その効果は新たな敵攻撃によって脅かされ、マルウェアは例えば特徴空間操作によって検出を回避しようとする。 本研究では,敵の攻撃に直面するマルウェア検知器のロバスト性について,説明可能でモデルに依存しないテストフレームワークを提案する。 このフレームワークは、Accrued Malicious Magnitude (AMM)という概念を導入し、どのマルウェア機能を操作すれば検出を回避できるかを最大化する。 次に、このフレームワークを使用して、操作されたマルウェアを検出する最先端のマルウェア検出機能をテストする。 私たちはそれを見つけ (i)市販抗ウイルスエンジンは、amm誘導試験例に脆弱である。 2) ある検知器を用いて発生した操作されたマルウェアが、他の検出器による検出を回避する能力(転送可能性)は、異なる検出器間で大きなAMM値を持つ特徴の重複に依存する。 3)AMM値は,特徴の脆弱性(つまり,予測結果を反転させる特徴空間操作能力)を効果的に測定し,回避攻撃に直面したマルウェア検知器の堅牢性を説明する。 我々の発見は、現在のマルウェア検知器の限界と、その改善方法に光を当てた。

Numerous open-source and commercial malware detectors are available. However, their efficacy is threatened by new adversarial attacks, whereby malware attempts to evade detection, e.g., by performing feature-space manipulation. In this work, we propose an explainability-guided and model-agnostic testing framework for robustness of malware detectors when confronted with adversarial attacks. The framework introduces the concept of Accrued Malicious Magnitude (AMM) to identify which malware features could be manipulated to maximize the likelihood of evading detection. We then use this framework to test several state-of-the-art malware detectors' abilities to detect manipulated malware. We find that (i) commercial antivirus engines are vulnerable to AMM-guided test cases; (ii) the ability of a manipulated malware generated using one detector to evade detection by another detector (i.e., transferability) depends on the overlap of features with large AMM values between the different detectors; and (iii) AMM values effectively measure the fragility of features (i.e., capability of feature-space manipulation to flip the prediction results) and explain the robustness of malware detectors facing evasion attacks. Our findings shed light on the limitations of current malware detectors, as well as how they can be improved.
翻訳日:2023-11-30 18:04:08 公開日:2023-11-27
# リアルタイム意味セグメンテーションのための拡張畳み込み再考

Rethinking Dilated Convolution for Real-time Semantic Segmentation ( http://arxiv.org/abs/2111.09957v3 )

ライセンス: Link先を確認
Roland Gao(参考訳) フィールド・オブ・ビューはセマンティックセグメンテーションのモデルの設計において重要な指標である。 視野を大きくするために、従来のアプローチでは、通常平均的なプールやストライド2の畳み込みで、解像度を急速に下方修正する。 我々は,バックボーン全体の拡張率が大きい拡張畳み込みを用いることで,拡張率を調整することでバックボーンの視野調整を容易に行えるようにし,既存のアプローチと競合することを示すことにより,異なるアプローチをとる。 拡張畳み込みを効果的に利用するために、畳み込み重み付けの間にギャップを残さないために、ダイレーションレートの単純な上限を示すとともに、2つの平行3倍の3$畳み込みを用いたSE-ResNeXtインスピレーションブロック構造を設計し、局所的な詳細を保存する。 各ブロックのディレーションレートを手動で調整することは難しいため、ディレーションレートを最適化するために勾配勾配を用いた微分可能なニューラルアーキテクチャ探索手法も導入する。 さらに、ローカル情報を一般的な代替手段よりもよく復元する軽量デコーダを提案する。 提案手法の有効性を示すため,我々のモデルであるRegSegは,リアルタイムCityscapesとCamVidデータセットの競合的な結果を得る。 混合精度のT4 GPUを使用して、RegSegはCityscapesテストセットの78.3mIOUを37ドルFPSで、CamVidテストセットの80.9mIOUを12ドルFPSで達成する。

The field-of-view is an important metric when designing a model for semantic segmentation. To obtain a large field-of-view, previous approaches generally choose to rapidly downsample the resolution, usually with average poolings or stride 2 convolutions. We take a different approach by using dilated convolutions with large dilation rates throughout the backbone, allowing the backbone to easily tune its field-of-view by adjusting its dilation rates, and show that it's competitive with existing approaches. To effectively use the dilated convolution, we show a simple upper bound on the dilation rate in order to not leave gaps in between the convolutional weights, and design an SE-ResNeXt inspired block structure that uses two parallel $3\times 3$ convolutions with different dilation rates to preserve the local details. Manually tuning the dilation rates for every block can be difficult, so we also introduce a differentiable neural architecture search method that uses gradient descent to optimize the dilation rates. In addition, we propose a lightweight decoder that restores local information better than common alternatives. To demonstrate the effectiveness of our approach, our model RegSeg achieves competitive results on real-time Cityscapes and CamVid datasets. Using a T4 GPU with mixed precision, RegSeg achieves 78.3 mIOU on Cityscapes test set at $37$ FPS, and 80.9 mIOU on CamVid test set at $112$ FPS, both without ImageNet pretraining.
翻訳日:2023-11-30 18:03:46 公開日:2023-11-27
# ユーティリティベース不足リスクのオンライン推定と最適化

Online Estimation and Optimization of Utility-Based Shortfall Risk ( http://arxiv.org/abs/2111.08805v3 )

ライセンス: Link先を確認
Vishwajit Hegde, Arvind S. Menon, L.A. Prashanth, and Krishna Jagannathan(参考訳) ユーティリティ・ベース・ショートフォール・リスク(ubsr: utility-based shortfall risk)は、特定の望ましい資産のために金融アプリケーションでますます人気が高まっているリスク指標である。 本稿では,UBSR を再帰的に推定する問題について考察する。 UBSR推定問題をルート探索問題とし,確率近似に基づく推定手法を提案する。 サンプル数における推定誤差の非漸近境界を導出する。 また,変数のパラメータ化クラスにおけるUBSR最適化の問題についても検討する。 ubsr最適化のための確率的勾配降下に基づくアルゴリズムを提案し,その収束に関する非漸近境界を導出する。

Utility-Based Shortfall Risk (UBSR) is a risk metric that is increasingly popular in financial applications, owing to certain desirable properties that it enjoys. We consider the problem of estimating UBSR in a recursive setting, where samples from the underlying loss distribution are available one-at-a-time. We cast the UBSR estimation problem as a root finding problem, and propose stochastic approximation-based estimations schemes. We derive non-asymptotic bounds on the estimation error in the number of samples. We also consider the problem of UBSR optimization within a parameterized class of random variables. We propose a stochastic gradient descent based algorithm for UBSR optimization, and derive non-asymptotic bounds on its convergence.
翻訳日:2023-11-30 18:03:13 公開日:2023-11-27
# 確率推定器としてのディープニューラルネットワークの評価

Assessing Deep Neural Networks as Probability Estimators ( http://arxiv.org/abs/2111.08239v2 )

ライセンス: Link先を確認
Yu Pan, Kwo-Sen Kuo, Michael L. Rilee, Hongfeng Yu(参考訳) ディープニューラルネットワーク(dnn)は、分類タスクで素晴らしい成果を上げています。 しかし、特定の用途に必要とされる分類の不確実性の特徴は不足している。 本研究では,条件付き確率を推定するDNNの能力を評価し,系統的不確実性評価のための枠組みを提案する。 入力サンプルをxとし、カテゴリをyとして、与えられた入力xにカテゴリyを割り当てる分類タスクを、ソフトマックス関数を用いてdnnにより近似された条件付き確率p(y|x)を推定するタスクに還元することができる。 softmax はすべての要素が区間 (0, 1) に落ちて 1 に和となるベクトルを与えるので、dnn の結果に対する確率論的解釈が示唆される。 合成および実世界のデータセットを用いて,dnnのp(y|x)の推定精度に対する確率密度f(x)およびカテゴリ間スパーシティの影響を調べ,確率確率密度とカテゴリ間スパーシティが,dnnの分類の不確実性に対する以前の確率よりも大きな影響を持つことを示す。

Deep Neural Networks (DNNs) have performed admirably in classification tasks. However, the characterization of their classification uncertainties, required for certain applications, has been lacking. In this work, we investigate the issue by assessing DNNs' ability to estimate conditional probabilities and propose a framework for systematic uncertainty characterization. Denoting the input sample as x and the category as y, the classification task of assigning a category y to a given input x can be reduced to the task of estimating the conditional probabilities p(y|x), as approximated by the DNN at its last layer using the softmax function. Since softmax yields a vector whose elements all fall in the interval (0, 1) and sum to 1, it suggests a probabilistic interpretation to the DNN's outcome. Using synthetic and real-world datasets, we look into the impact of various factors, e.g., probability density f(x) and inter-categorical sparsity, on the precision of DNNs' estimations of p(y|x), and find that the likelihood probability density and the inter-categorical sparsity have greater impacts than the prior probability to DNNs' classification uncertainty.
翻訳日:2023-11-30 18:03:01 公開日:2023-11-27
# 量子貯水池工学における非対角リンドブラッドマスター方程式

Non-diagonal Lindblad master equations in quantum reservoir engineering ( http://arxiv.org/abs/2111.04041v3 )

ライセンス: Link先を確認
Diego N. Bernal-Garc\'ia, Lujun Huang, Andrey E. Miroshnichenko, Matthew J. Woolley(参考訳) 貯水池工学は、貯水池とシステム-保存相互作用を適切に操作することで量子コヒーレンスを保ち、オープン量子システムを制御するための実用的なアプローチであることが証明されている。 この文脈では、異なる部分からなるシステムでは、システムの残りのコンポーネントを断熱的に除去することで、関心のサブシステムのダイナミクスを記述することが一般的である。 この手順はしばしば、ゴリニ・コサコフスキ・リンドブラド・スダルシャン・マスター方程式(ここでは対角リンドブラド形式と呼ばれる)の対角形でないサブシステムに対して有効なマスター方程式をもたらす。 代わりに、より一般的な構造(ここでは非対角形リンドブラッド形式と呼ばれる)を持ち、サブシステムの様々なコンポーネント間の散逸結合を明確に示す。 本研究では,線形ガウス系,ボソニック系,フェルミオン系の正準変数の第一モーメントと第二モーメントの力学方程式の集合を非対角形リンドブラドマスター方程式で記述する。 本手法は効率的であり,定常状態の解析解を得ることができる。 本研究は,共分散行列法を考察し,絡み合いの測定に焦点をあてた。 特に、我々の探索は驚くべき副産物となる: ボーソニック系に一般的に適用されるデュアン基準は、フェルミオン系にも等しく有効である。 我々は,2モードの機械的絡み合いをオプテメカルな設定で再考する実例で結論付けた。 時間依存ハミルトニアンが支配するシステムに対して断熱的除去を行うアプローチは,これまで検討されていない物理的レジームを検証するための扉を開く。

Reservoir engineering has proven to be a practical approach to control open quantum systems, preserving quantum coherence by appropriately manipulating the reservoir and system-reservoir interactions. In this context, for systems comprised of different parts, it is common to describe the dynamics of a subsystem of interest by performing an adiabatic elimination of the remaining components of the system. This procedure often leads to an effective master equation for the subsystem that is not in the diagonal form of the Gorini-Kossakowski-Lindblad-Sudarshan master equation (here called diagonal Lindblad form). Instead, it has a more general structure (here called non-diagonal Lindblad form), which explicitly reveals the dissipative coupling between the various components of the subsystem. In this work, we present a set of dynamical equations for the first and second moments of the canonical variables for linear Gaussian systems, bosonic and fermionic, described by non-diagonal Lindblad master equations. Our method is efficient and allows one to obtain analytical solutions for the steady state. We supplement our findings with a review of covariance matrix methods, focusing on those related to the measurement of entanglement. Notably, our exploration yields a surprising byproduct: the Duan criterion, commonly applied to bosonic systems for verification of entanglement, is found to be equally valid for fermionic systems. We conclude with a practical example, where we revisit two-mode mechanical entanglement in an optomechanical setup. Our approach, which employs adiabatic elimination for systems governed by time-dependent Hamiltonians, opens the door to examine physical regimes that have not been explored before.
翻訳日:2023-11-30 18:02:38 公開日:2023-11-27
# Auto-PINN:物理インフォームド・ニューラルアーキテクチャの理解と最適化

Auto-PINN: Understanding and Optimizing Physics-Informed Neural Architecture ( http://arxiv.org/abs/2205.13748v2 )

ライセンス: Link先を確認
Yicheng Wang, Xiaotian Han, Chia-Yuan Chang, Daochen Zha, Ulisses Braga-Neto, Xia Hu(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、ディープラーニングのパワーを科学計算にもたらし、科学と工学の実践に革命をもたらしている。 前方モデリング問題では、PINNはメッシュレス偏微分方程式(PDE)であり、不規則で高次元の物理領域を扱うことができる。 当然、ニューラルネットワークのハイパーパラメータは、pinnソルバの効率と精度に大きな影響を与えます。 しかし, 探索空間が大きく, pdesの適切な探索目標を特定することが困難であるため, オープンで困難な問題である。 本稿では,ニューラルネットワーク探索 (nas) 技術を用いたピン設計のための自動ハイパーパラメータ最適化手法であるauto-pinnを提案する。 Auto-PINNは、PINNに関連するハイパーパラメータ空間を手動または網羅的に検索することを避ける。 標準PDEベンチマークを用いた包括的事前実験により、PINNの構造と性能の関係を探索することができる。 異なるハイパーパラメータを分離でき、PINNのトレーニング損失関数が良い探索目的であることがわかった。 ベースライン法との比較実験により、Auto-PINNは、代替ベースラインよりも安定性と精度に優れたニューラルアーキテクチャを生成することを示した。

Physics-informed neural networks (PINNs) are revolutionizing science and engineering practice by bringing together the power of deep learning to bear on scientific computation. In forward modeling problems, PINNs are meshless partial differential equation (PDE) solvers that can handle irregular, high-dimensional physical domains. Naturally, the neural architecture hyperparameters have a large impact on the efficiency and accuracy of the PINN solver. However, this remains an open and challenging problem because of the large search space and the difficulty of identifying a proper search objective for PDEs. Here, we propose Auto-PINN, the first systematic, automated hyperparameter optimization approach for PINNs, which employs Neural Architecture Search (NAS) techniques to PINN design. Auto-PINN avoids manually or exhaustively searching the hyperparameter space associated with PINNs. A comprehensive set of pre-experiments using standard PDE benchmarks allows us to probe the structure-performance relationship in PINNs. We find that the different hyperparameters can be decoupled, and that the training loss function of PINNs is a good search objective. Comparison experiments with baseline methods demonstrate that Auto-PINN produces neural architectures with superior stability and accuracy over alternative baselines.
翻訳日:2023-11-30 17:53:55 公開日:2023-11-27
# はしごグラフ上のグローバーウォークの生存確率

Survival probability of the Grover walk on the ladder graph ( http://arxiv.org/abs/2205.13188v2 )

ライセンス: Link先を確認
E. Segawa, S. Koyama, N. Konno and M. Stefanak(参考訳) 本研究は,吸水シンクを用いたはしごグラフ上のグロバーウォークの生存確率の詳細な解析を提供する。 このモデルはMare\v s et al., Physで議論された。 A 101, 032113 (2020) は量子輸送における反直観的な振る舞いの例として、暗黒状態の数が増加するにもかかわらず、はしごの長さが$L$とすると生存確率が減少することを示した。 ダーク部分空間における正規直交基底が構築され、生存確率の閉公式を導出することができる。 l$の関数としての生存確率の経過は、ラダーの角の1つにループを付けるだけで、指数関数的に急速に増大し、減少し、$l^{-1}$のように収束することで変化することが示されている。 初期状態とグラフ構成との相互作用を調査した。

We provide a detailed analysis of the survival probability of the Grover walk on the ladder graph with an absorbing sink. This model was discussed in Mare\v s et al., Phys. Rev. A 101, 032113 (2020), as an example of counter-intuitive behaviour in quantum transport where it was found that the survival probability decreases with the length of the ladder $L$, despite the fact that the number of dark states increases. An orthonormal basis in the dark subspace is constructed, which allows us to derive a closed formula for the survival probability. It is shown that the course of the survival probability as a function of $L$ can change from increasing and converging exponentially quickly to decreasing and converging like $L^{-1}$ simply by attaching a loop to one of the corners of the ladder. The interplay between the initial state and the graph configuration is investigated.
翻訳日:2023-11-30 17:53:34 公開日:2023-11-27
# 数個の強相互作用粒子のエネルギー的自己組織化

Energetical self-organization of a few strongly interacting particles ( http://arxiv.org/abs/2203.13614v2 )

ライセンス: Link先を確認
Ioannis Kleftogiannis, Ilias Amanatidis(参考訳) 短距離相互作用が強い相互作用粒子の量子自己組織化について検討する。 物理系は2次元ハバード正方格子モデルを用いてモデル化され、強度uの近距離相互作用項と2番目の近距離ホッピングtを備える。 t=0 の場合、系のエネルギーはハバード格子内の隣接する部位に存在する粒子間の結合の数によって決定される。 この結合次数は、系の異なる充填状態において、強い相互作用強度のために、系の地面といくつかの励起状態に対して持続する。 実空間における粒子(フォック状態)によって形成されるネットワーク/グラフグリッド構造のオイラー特性を用いて,エネルギー的(結合)順序を定量化する。 整数オイラー数を持つ複数の基底状態と励起状態を見つけ、その値が$t=0$ の場合から持続し、強い相互作用は $u>>t$ である。 対応する基底状態の量子位相は、粒子が互いに離れている低充填状態の密度波次数(dwo)と、粒子がクラスターに凝縮するにつれて様々な構造を形成する高充填状態のクラスタリング次数(co)のいずれかを含む。 さらに、fuck状態の重ね合わせを含む様々な励起状態を見つけ、その確率振幅は$t=0$ の極限からオイラー特性の整数値を保存する方法で自己調整される。

We study the quantum self-organization of a few interacting particles with strong short-range interactions. The physical system is modeled via a 2D Hubbard square lattice model, with a nearest-neighbor interaction term of strength U and a second nearest-neighbor hopping t. For t=0 the energy of the system is determined by the number of bonds between particles that lie on adjacent sites in the Hubbard lattice. We find that this bond order persists for the ground and some of the excited states of the system, for strong interaction strength, at different fillings of the system. For our analysis we use the Euler characteristic of the network/graph grid structures formed by the particles in real space (Fock states), which helps to quantify the energetical(bond) ordering. We find multiple ground and excited states, with integer Euler numbers, whose values persist from the $t=0$ case, for strong interaction $U>>t$. The corresponding quantum phases for the ground state contain either density-wave-order(DWO) for low fillings, where the particles stay apart form each other, or clustering-order(CO) for high fillings, where the particles form various structures as they condense into clusters. In addition, we find various excited states containing superpositions of Fock states, whose probability amplitudes are self-tuned in a way that preserves the integer value of the Euler characteristic from the $t=0$ limit.
翻訳日:2023-11-30 17:51:20 公開日:2023-11-27
# 低次学習と多項式の計量エントロピー

Low-degree learning and the metric entropy of polynomials ( http://arxiv.org/abs/2203.09659v3 )

ライセンス: Link先を確認
Alexandros Eskenazis, Paata Ivanisvili, Lauritz Streck(参考訳) f:\{-1,1\}^n\to[-1,1]$ 任意の関数のクラスを $\mathscr{f}_{n,d}$ とする。 この論文の前半では、$\mathscr{F}_{n,d}$と$L_2$-accuracy$\varepsilon$が少なくとも$\Omega((1-\sqrt{\varepsilon})2^d\log n)$のクエリを必要とすることを証明し、このシャープネスをエスケナジスとイヴァニスヴィリの最近の上界の$n\to\infty$として確立する。 これを実現するために、$L_2$-packing number $\mathsf{M}(\mathscr{F}_{n,d},\|\cdot\|_{L_2},\varepsilon)$ of the concept class $\mathscr{F}_{n,d}$ satisfy the two-sided estimate $$c(1-\varepsilon)2^d\log n \leq \log \mathsf{M}(\mathscr{F}_{n,d},\|\cdot\|_{L_2},\varepsilon) \leq \frac{2^{Cd}\log n}{\varepsilon^4}$$$$$n for enough $n, $c, 0, $c, $0, $c, $0 を満足することを示した。 本論文の第2部では,フーリエスペクトルが少数の部分集合に集中する有界近似多項式のクラスにおけるランダム化クエリ複雑性に対する対数上界について述べる。 本研究では,与えられた次数の近似ジュンタ,急速に減衰するフーリエテール関数,所定の大きさの一定深さ回路を学習するのに必要なランダムクエリ数を新たに推定する。 最後に、多項式クラス $\mathscr{F}_{n,d}$ を学ぶのに必要なクエリ数について、クエリとランダムな例モデルでエラーのない境界を得る。

Let $\mathscr{F}_{n,d}$ be the class of all functions $f:\{-1,1\}^n\to[-1,1]$ on the $n$-dimensional discrete hypercube of degree at most $d$. In the first part of this paper, we prove that any (deterministic or randomized) algorithm which learns $\mathscr{F}_{n,d}$ with $L_2$-accuracy $\varepsilon$ requires at least $\Omega((1-\sqrt{\varepsilon})2^d\log n)$ queries for large enough $n$, thus establishing the sharpness as $n\to\infty$ of a recent upper bound of Eskenazis and Ivanisvili (2021). To do this, we show that the $L_2$-packing numbers $\mathsf{M}(\mathscr{F}_{n,d},\|\cdot\|_{L_2},\varepsilon)$ of the concept class $\mathscr{F}_{n,d}$ satisfy the two-sided estimate $$c(1-\varepsilon)2^d\log n \leq \log \mathsf{M}(\mathscr{F}_{n,d},\|\cdot\|_{L_2},\varepsilon) \leq \frac{2^{Cd}\log n}{\varepsilon^4}$$ for large enough $n$, where $c, C>0$ are universal constants. In the second part of the paper, we present a logarithmic upper bound for the randomized query complexity of classes of bounded approximate polynomials whose Fourier spectra are concentrated on few subsets. As an application, we prove new estimates for the number of random queries required to learn approximate juntas of a given degree, functions with rapidly decaying Fourier tails and constant depth circuits of given size. Finally, we obtain bounds for the number of queries required to learn the polynomial class $\mathscr{F}_{n,d}$ without error in the query and random example models.
翻訳日:2023-11-30 17:50:57 公開日:2023-11-27
# マルチロボット協調のための分散微分可能動的ゲーム

Distributed Differentiable Dynamic Game for Multi-robot Coordination ( http://arxiv.org/abs/2207.08892v3 )

ライセンス: Link先を確認
Xuan Wang, Yizhi Zhou, Wanxin Jin(参考訳) 本稿では,マルチロボット協調における前方および逆問題の効率よく解決できる分散微分可能動的ゲーム(D3G)フレームワークを開発する。 我々は,ロボットの動作が,他者の行動にも依存する自身のダイナミクスと目的によって決定される動的ゲームとして,マルチロボット協調を定式化する。 フォワード問題において、d3gは分散シューティングベースのnashソルバを開発することにより、すべてのロボットが分散的にゲームのnash平衡を求めることができる。 各ロボットが与えられたコーディネーションのデモンストレーションを模倣するために目的(およびダイナミクス)パラメータを見つけようとする逆問題において、d3gは微分ポントリャーギンの最大原理に基づく微分ソルバを提案し、各ロボットが分散し、調整された方法でパラメータを更新できるようにする。 タスク構成が異なる2種類のロボットを用いてD3Gをシミュレーションでテストする。 その結果, 従来の手法と比較して, 前方および逆問題の解法におけるD3Gの有効性が示された。

This paper develops a Distributed Differentiable Dynamic Game (D3G) framework, which can efficiently solve the forward and inverse problems in multi-robot coordination. We formulate multi-robot coordination as a dynamic game, where the behavior of a robot is dictated by its own dynamics and objective that also depends on others' behavior. In the forward problem, D3G enables all robots collaboratively to seek the Nash equilibrium of the game in a distributed manner, by developing a distributed shooting-based Nash solver. In the inverse problem, where each robot aims to find (learn) its objective (and dynamics) parameters to mimic given coordination demonstrations, D3G proposes a differentiation solver based on Differential Pontryagin's Maximum Principle, which allows each robot to update its parameters in a distributed and coordinated manner. We test the D3G in simulation with two types of robots given different task configurations. The results demonstrate the effectiveness of D3G for solving both forward and inverse problems in comparison with existing methods.
翻訳日:2023-11-30 17:42:05 公開日:2023-11-27
# 故障インジェクションによるCentOS系オペレーティングシステムの故障解析

Fault Injection based Failure Analysis of three CentOS-like Operating Systems ( http://arxiv.org/abs/2210.08728v2 )

ライセンス: Link先を確認
Hao Xu (1), Yuxi Hu (2), Bolong Tan (2), Xiaohai Shi (2), Zhangjun Lu (1), Wei Zhang (1) and Jianhui Jiang (1) ((1) Tongji University, (2) Alibaba Inc.)(参考訳) オペレーティングシステム(OS)の信頼性は、学界や業界において常に大きな関心事となっている。 本稿では,フォールトモードライブラリに基づくフォールトインジェクションによるos障害解析を行う方法について検討する。 まず,linuxの抽象階層構造解析に基づくフォールトモード生成手法を用いて,linuxライクなフォールトモードを体系的に定義し,linuxフォールトモードライブラリを構築し,フォールトモードライブラリ(fifml)に基づくフォールトインジェクションツールを開発する。 次に,3つの商用linuxディストリビューション (centos, anolis os, openeuler) 上で障害注入実験を行い,信頼性問題を特定し,改善提案を行う。 また,これら3つのOSの仮想ファイルシステムを実験対象とし,ライトレベルとノーマルレベルにおける障害注入を行い,障害注入前後の13のファイル操作の性能を測定した。

The reliability of operating system (OS) has always been a major concern in the academia and industry. This paper studies how to perform OS failure analysis by fault injection based on the fault mode library. Firstly, we use the fault mode generation method based on Linux abstract hierarchy structure analysis to systematically define the Linux-like fault modes, construct a Linux fault mode library and develop a fault injection tool based on the fault mode library (FIFML). Then, fault injection experiments are carried out on three commercial Linux distributions, CentOS, Anolis OS and openEuler, to identify their reliability problems and give improvement suggestions. We also use the virtual file systems of these three OSs as experimental objects, to perform fault injection at levels of Light and Normal, measure the performance of 13 common file operations before and after fault injection.
翻訳日:2023-11-30 17:31:45 公開日:2023-11-27
# 自己誘導拡散モデル

Self-Guided Diffusion Models ( http://arxiv.org/abs/2210.06462v3 )

ライセンス: Link先を確認
Vincent Tao Hu, David W Zhang, Yuki M. Asano, Gertjan J. Burghouts, Cees G. M. Snoek(参考訳) 拡散モデルは、特に生成過程を制御するためのガイダンスを使用する場合、画像生成品質の顕著な進歩を示した。 しかし、指導にはトレーニングのために大量の画像注釈ペアが必要であり、その可用性、正確性、偏りに依存する。 本稿では,自己誘導拡散モデルのためのフレームワークの設計に自己超越信号の柔軟性を活用することで,このようなアノテーションの必要性を解消する。 特徴抽出関数と自己アノテーション関数を活用することで,全体像のレベルからオブジェクトボックス,さらにはセグメンテーションマスクまで,さまざまな画像粒度のガイダンス信号を提供する。 シングルラベルおよびマルチラベル画像データセットを用いた実験により,自己ラベル誘導は,常にガイダンス無しの拡散モデルよりも優れており,特に不均衡データにおいて,接地ラベルに基づくガイダンスを超越する可能性も示された。 自己教師付きボックスやマスクプロポーザルを備える場合、クラス、ボックス、セグメントラベルアノテーションを必要とせず、視覚的に多様で意味的に一貫性のある画像を生成する。 自己誘導拡散はシンプルで柔軟性があり、大規模展開で利益を期待できる。 ソースコードは以下の通り。

Diffusion models have demonstrated remarkable progress in image generation quality, especially when guidance is used to control the generative process. However, guidance requires a large amount of image-annotation pairs for training and is thus dependent on their availability, correctness and unbiasedness. In this paper, we eliminate the need for such annotation by instead leveraging the flexibility of self-supervision signals to design a framework for self-guided diffusion models. By leveraging a feature extraction function and a self-annotation function, our method provides guidance signals at various image granularities: from the level of holistic images to object boxes and even segmentation masks. Our experiments on single-label and multi-label image datasets demonstrate that self-labeled guidance always outperforms diffusion models without guidance and may even surpass guidance based on ground-truth labels, especially on unbalanced data. When equipped with self-supervised box or mask proposals, our method further generates visually diverse yet semantically consistent images, without the need for any class, box, or segment label annotation. Self-guided diffusion is simple, flexible and expected to profit from deployment at scale. Source code will be at: https://taohu.me/sgdm/
翻訳日:2023-11-30 17:30:51 公開日:2023-11-27
# NEURAL MARIONETTE: トランスフォーマーを用いた多動作人体動作合成システム

NEURAL MARIONETTE: A Transformer-based Multi-action Human Motion Synthesis System ( http://arxiv.org/abs/2209.13204v2 )

ライセンス: Link先を確認
Weiqiang Wang, Xuefei Zhe, Qiuhong Ke, Di Kang, Tingguang Li, Ruizhi Chen, and Linchao Bao(参考訳) 本稿では,長期多動作人間の動作合成のためのニューラルネットワークベースシステムを提案する。 NEURAL MARIONETTEと呼ばれるこのシステムは、単純なユーザ入力からのスムーズな遷移を伴う高品質で有意義な動作を生成することができる。 我々のシステムの中核はトランスフォーマーに基づく新しいモーション生成モデル、すなわちMARIONETであり、与えられたアクションタグを多種多様なモーションを生成することができる。 既存のモーション生成モデルとは異なり、MARIONETは過去のモーションクリップと将来のアクションタグのコンテキスト情報を利用して、過去のアクションと将来のアクションをスムーズにブレンドできるアクションを生成する。 具体的には、MARIONETはまずターゲットアクションタグとコンテキスト情報をアクションレベルの潜在コードにエンコードする。 コードはタイムアンロールモジュールを介してフレームレベルの制御信号に展開され、ターゲットの軌道のような他のフレームレベルの制御信号と組み合わせられる。 モーションフレームは自動回帰的に生成される。 MARIONETを逐次適用することにより、NEURAL MARIONETTEは、2つの簡単なスキーム、すなわち「シャドウスタート」と「アクションリビジョン」の助けを借りて、長期間の多動作動作を堅牢に生成することができる。 新たなシステムとともに,アクションタグとコンテキスト情報の両方を含むマルチアクションモーション合成タスク専用のデータセットも提示する。 本システムにより生じる動作の動作精度,自然性,過渡的スムーズ性について,広範囲にわたる実験を行った。

We present a neural network-based system for long-term, multi-action human motion synthesis. The system, dubbed as NEURAL MARIONETTE, can produce high-quality and meaningful motions with smooth transitions from simple user input, including a sequence of action tags with expected action duration, and optionally a hand-drawn moving trajectory if the user specifies. The core of our system is a novel Transformer-based motion generation model, namely MARIONET, which can generate diverse motions given action tags. Different from existing motion generation models, MARIONET utilizes contextual information from the past motion clip and future action tag, dedicated to generating actions that can smoothly blend historical and future actions. Specifically, MARIONET first encodes target action tag and contextual information into an action-level latent code. The code is unfolded into frame-level control signals via a time unrolling module, which could be then combined with other frame-level control signals like the target trajectory. Motion frames are then generated in an auto-regressive way. By sequentially applying MARIONET, the system NEURAL MARIONETTE can robustly generate long-term, multi-action motions with the help of two simple schemes, namely "Shadow Start" and "Action Revision". Along with the novel system, we also present a new dataset dedicated to the multi-action motion synthesis task, which contains both action tags and their contextual information. Extensive experiments are conducted to study the action accuracy, naturalism, and transition smoothness of the motions generated by our system.
翻訳日:2023-11-30 17:28:56 公開日:2023-11-27
# ビジョンベース自動車両の効率的な認識・計画・制御アルゴリズム

Efficient Perception, Planning, and Control Algorithms for Vision-Based Automated Vehicles ( http://arxiv.org/abs/2209.07042v5 )

ライセンス: Link先を確認
Der-Hau Lee(参考訳) 自律走行車は計算資源が限られているため、制御システムは効率的でなければならない。 センサーのコストとサイズは、自動運転車の開発を制限している。 これらの制約を克服するために,この枠組みは単眼カメラと安価なレーダーのみを必要とする,視覚に基づく自動車両の運用のための効率的な枠組みを提案する。 提案アルゴリズムは、画像特徴を抽出するマルチタスクunet(mtunet)ネットワークと、迅速な動作計画と制御のための制約付き反復線形二次レギュレータ(cilqr)とビジョン予測制御(vpc)モジュールを備える。 MTUNetは228 x 228ピクセルのRGB入力画像に対して、車線分割、エゴ車両の方向角回帰、道路タイプ分類、および交通物体検出タスクを約40 FPS (frames per second) で同時に解くように設計されている。 CILQRコントローラは、MTUNet出力とレーダデータを入力として、横方向および縦方向の車両誘導のための運転指令をわずか1ミリ秒で生成する。特に、VPCアルゴリズムは、操舵指令遅延をアクチュエータレイテンシ以下に低減し、厳しい旋回中に自動運転車の性能低下を防止する。 VPCアルゴリズムは、MTUNetからの道路曲率データを用いて、ルックアヘッドポイントにおける現在の操舵角度の補正を推定し、回動量を調整する。 曲がりくねった道路上のVPC-CILQRコントローラにVPCアルゴリズムを含めると、CILQR単独よりも高い性能が得られる。 提案する自律走行システムは高精細マップを必要としないが,現行の自律走行車に適用可能であることを示す。

Autonomous vehicles have limited computational resources; hence, their control systems must be efficient. The cost and size of sensors have limited the development of self-driving cars. To overcome these restrictions, this study proposes an efficient framework for the operation of vision-based automatic vehicles; the framework requires only a monocular camera and a few inexpensive radars. The proposed algorithm comprises a multi-task UNet (MTUNet) network for extracting image features and constrained iterative linear quadratic regulator (CILQR) and vision predictive control (VPC) modules for rapid motion planning and control. MTUNet is designed to simultaneously solve lane line segmentation, the ego vehicle's heading angle regression, road type classification, and traffic object detection tasks at approximately 40 FPS (frames per second) for 228 x 228 pixel RGB input images. The CILQR controllers then use the MTUNet outputs and radar data as inputs to produce driving commands for lateral and longitudinal vehicle guidance within only 1 ms. In particular, the VPC algorithm is included to reduce steering command latency to below actuator latency to prevent self-driving vehicle performance degradation during tight turns. The VPC algorithm uses road curvature data from MTUNet to estimate the correction of the current steering angle at a look-ahead point to adjust the turning amount. Including the VPC algorithm in a VPC-CILQR controller on curvy roads leads to higher performance than CILQR alone. Our experiments demonstrate that the proposed autonomous driving system, which does not require high-definition maps, could be applied in current autonomous vehicles.
翻訳日:2023-11-30 17:28:02 公開日:2023-11-27
# 3状態量子ウォークの1パラメータファミリーの監視的再発

Monitored Recurrence of a One-parameter Family of Three-state Quantum Walks ( http://arxiv.org/abs/2212.00540v2 )

ライセンス: Link先を確認
Martin Stefanak(参考訳) 直線上の3状態量子ウォークの1パラメータ集合の監視再帰について検討した。 計算は、コイン空間の適切な基底を選択することで大幅に単純化される。 ポリア数(すなわち、サイト再帰確率)は、コインパラメータと、ウォーカーが最初に特定のコイン状態にある確率に依存しており、ウォークが確実に原点に戻ることを示す。 最後に,量子状態の再現性について簡単な考察を行った。

Monitored recurrence of a one-parameter set of three-state quantum walks on a line is investigated. The calculations are considerably simplified by choosing a suitable basis of the coin space. We show that the Polya number (i.e. the site recurrence probability) depends on the coin parameter and the probability that the walker is initially in a particular coin state for which the walk returns to the origin with certainty. Finally, we present a brief investigation of the exact quantum state recurrence.
翻訳日:2023-11-30 17:18:43 公開日:2023-11-27
# TetraSphere: O(3)-不変点雲解析のためのニューラルネットワーク記述子

TetraSphere: A Neural Descriptor for O(3)-Invariant Point Cloud Analysis ( http://arxiv.org/abs/2211.14456v4 )

ライセンス: Link先を確認
Pavlo Melnyk, Andreas Robinson, Michael Felsberg, M{\aa}rten Wadenb\"ack(参考訳) 多くの実用的応用において、3次元点雲解析は回転不変性を必要とする。 本稿では,最近導入された3次元球面ニューロンとベクトルニューロンを用いた3次元回転と反射,すなわちo(3)作用下での学習可能な記述子不変性について述べる。 具体的には,3次元球面ニューロンを4次元ベクトルニューロンに埋め込み,モデルのエンドツーエンドトレーニングを活用する。 提案手法では, ステアブルニューロンから構築された3次元入力の4次元への同変埋め込みであるTetraTransformを行い, ベクトルニューロンを用いたO(3)-同変の深い特徴を抽出する。 TetraTransformのVN-DGCNNフレームワークへの統合は、TetraSphereと呼ばれ、パラメータの数を0.0002%以下にすることが無視できる。 tetrasphereは、scanobjectnnの挑戦的なサブセットのランダムに回転した実世界のオブジェクトスキャンを分類する新しい最先端のパフォーマンスを設定する。 さらに、TetraSphereは、ModelNet40からのオブジェクトの分類とShapeNet形状のセグメンテーションといった、ランダムに回転した合成データ上で、すべての同変法より優れている。 そこで本研究では,3次元ユークリッド空間で学習する3次元球状ニューロンの実用的価値を明らかにした。

In many practical applications, 3D point cloud analysis requires rotation invariance. In this paper, we present a learnable descriptor invariant under 3D rotations and reflections, i.e., the O(3) actions, utilizing the recently introduced steerable 3D spherical neurons and vector neurons. Specifically, we propose an embedding of the 3D spherical neurons into 4D vector neurons, which leverages end-to-end training of the model. In our approach, we perform TetraTransform--an equivariant embedding of the 3D input into 4D, constructed from the steerable neurons--and extract deeper O(3)-equivariant features using vector neurons. This integration of the TetraTransform into the VN-DGCNN framework, termed TetraSphere, negligibly increases the number of parameters by less than 0.0002%. TetraSphere sets a new state-of-the-art performance classifying randomly rotated real-world object scans of the challenging subsets of ScanObjectNN. Additionally, TetraSphere outperforms all equivariant methods on randomly rotated synthetic data: classifying objects from ModelNet40 and segmenting parts of the ShapeNet shapes. Thus, our results reveal the practical value of steerable 3D spherical neurons for learning in 3D Euclidean space.
翻訳日:2023-11-30 17:18:16 公開日:2023-11-27
# ソボレフおよびベソフ空間上の深部ReLUニューラルネットワークの最適近似速度

Optimal Approximation Rates for Deep ReLU Neural Networks on Sobolev and Besov Spaces ( http://arxiv.org/abs/2211.14400v5 )

ライセンス: Link先を確認
Jonathan W. Siegel(参考訳) \omega = [0,1]^d$ を$\mathbb{r}^d$ の単位立方体とする。 パラメータ数の観点からは、ReLUアクティベーション関数を持つディープニューラルネットワークがソボレフ空間$W^s(L_q(\Omega))$とBesov空間$B^s_r(L_q(\Omega))$の関数に近似し、誤りを$L_p(\Omega)$のノルムで測定する。 この問題は、科学計算や信号処理を含む様々な分野におけるニューラルネットワークの応用を研究する際に重要であり、以前は$p=q=infty$であった。 我々の貢献は、対応するソボレフ空間やベッソフ空間がコンパクトに $l_p$ に埋め込み、すべての 1\leq p,q\leq \infty$ と $s > 0$ に対する完全な解を提供することです。 鍵となる技術ツールは、スパースベクトルを最適に符号化する新しいビット抽出技術である。 これにより、$p > q$ の非線形状態において鋭い上限を得ることができる。 また,$p < \infty$ の場合,vc-dimension に基づいて$l_p$-approximation 下限を導出する新しい方法を提案する。 以上の結果から,非常に深いReLUネットワークは,パラメータ数の観点から古典的近似法を著しく上回っているが,これはエンコード不可能なパラメータのコストが原因であることがわかった。

Let $\Omega = [0,1]^d$ be the unit cube in $\mathbb{R}^d$. We study the problem of how efficiently, in terms of the number of parameters, deep neural networks with the ReLU activation function can approximate functions in the Sobolev spaces $W^s(L_q(\Omega))$ and Besov spaces $B^s_r(L_q(\Omega))$, with error measured in the $L_p(\Omega)$ norm. This problem is important when studying the application of neural networks in a variety of fields, including scientific computing and signal processing, and has previously been solved only when $p=q=\infty$. Our contribution is to provide a complete solution for all $1\leq p,q\leq \infty$ and $s > 0$ for which the corresponding Sobolev or Besov space compactly embeds into $L_p$. The key technical tool is a novel bit-extraction technique which gives an optimal encoding of sparse vectors. This enables us to obtain sharp upper bounds in the non-linear regime where $p > q$. We also provide a novel method for deriving $L_p$-approximation lower bounds based upon VC-dimension when $p < \infty$. Our results show that very deep ReLU networks significantly outperform classical methods of approximation in terms of the number of parameters, but that this comes at the cost of parameters which are not encodable.
翻訳日:2023-11-30 17:17:56 公開日:2023-11-27
# FutureHuman3D:ビデオ観察による複雑な3次元人間行動の予測

FutureHuman3D: Forecasting Complex Long-Term 3D Human Behavior from Video Observations ( http://arxiv.org/abs/2211.14309v2 )

ライセンス: Link先を確認
Christian Diller, Thomas Funkhouser, Angela Dai(参考訳) 本稿では,2次元動作データからの弱い監視のみを必要とする3次元の長期的行動予測のための生成的手法を提案する。 これは多くのダウンストリームアプリケーションを可能にする基本的なタスクです。 必要な地上データは3d(mocapスーツ、高価なセットアップ)ではキャプチャが難しいが、2d(シンプルなrgbカメラ)では簡単に取得できる。 そこで,本手法は2d rgbデータのみを必要とするように設計し,人間の3d動き列を生成できる。 我々は,弱い監督のために自己回帰的に微分可能な2次元投影スキームと,3次元正則化のための逆損失を用いる。 本手法は,複数のサブアクションからなる長い複雑な行動列(調理,組立など)を予測する。 本研究では,高レベルの粗い行動ラベルと低レベルの微粒化を特徴的3次元人間のポーズとして共同で予測する。 これら2つの行動表現は自然に結合されており、協調予測は行動予測とポーズ予測の両方に有益である。 共同動作の相補的な性質と3次元ポーズ予測を実証し, 共同作業は各タスクを個別に比較し, より堅牢な長期シーケンス予測を実現し, 行動予測と特徴的3次元ポーズに対する代替アプローチよりも優れることを示した。

We present a generative approach to forecast long-term future human behavior in 3D, requiring only weak supervision from readily available 2D human action data. This is a fundamental task enabling many downstream applications. The required ground-truth data is hard to capture in 3D (mocap suits, expensive setups) but easy to acquire in 2D (simple RGB cameras). Thus, we design our method to only require 2D RGB data while being able to generate 3D human motion sequences. We use a differentiable 2D projection scheme in an autoregressive manner for weak supervision, and an adversarial loss for 3D regularization. Our method predicts long and complex behavior sequences (e.g. cooking, assembly) consisting of multiple sub-actions. We tackle this in a semantically hierarchical manner, jointly predicting high-level coarse action labels together with their low-level fine-grained realizations as characteristic 3D human poses. We observe that these two action representations are coupled in nature, and joint prediction benefits both action and pose forecasting. Our experiments demonstrate the complementary nature of joint action and 3D pose prediction: our joint approach outperforms each task treated individually, enables robust longer-term sequence prediction, and outperforms alternative approaches to forecast actions and characteristic 3D poses.
翻訳日:2023-11-30 17:17:23 公開日:2023-11-27
# 電磁キャビティに結合した半導体の1次元電子局在

One-dimensional electron localization in semiconductors coupled to electromagnetic cavities ( http://arxiv.org/abs/2211.13075v2 )

ライセンス: Link先を確認
Dmitry Svintsov, Georgy Alymov, Zhanna Devizorova, Luis Martin-Moreno(参考訳) 1次元(1d)の無秩序な固体の電気伝導度は、その長さとともに指数関数的に崩壊する。 本研究では,単モード電磁空洞内における1次元半導体の配置による局所導電率の変化について検討し,非縮退ドーピング法に着目した。 キャビティ励起状態の非摂動的説明のために修正されたグリーン関数法を用い、コヒーレントな電子キャビティ効果(すなわちゼロ点変動場の電子運動)とトンネルによる光子放出の非コヒーレントな過程の両方を含む。 キャビティ内の電子伝達のエネルギースペクトルは、仮想光子放出、共鳴レベルに沿った通過、光子再吸収に関連するファノ型共鳴を得る。 ファノ共鳴の品質因子は、中間状態が鉛と結合しているかどうかに依存し、この状態が障害電位の奥深くに局在している場合に最大値に達する。 キャビティへの結合はまた、浅い境界状態のエネルギーを上昇させ、伝導バンドの底にそれらを導く。 このような効果は低温伝導性の向上につながる。

Electrical conductivity of one-dimensional (1d) disordered solids decays exponentially with their length, which is a celebrated manifestation of the localization phenomenon. Here, we study the modifications of localized conductivity induced by placement of 1d semiconductors inside of single-mode electromagnetic cavities, focusing on the regime of non-degenerate doping. We use the Green's function technique modified for the non-perturbative account of cavity excited states, and including both coherent electron-cavity effects (i.e. electron motion in the zero-point fluctuating field) and incoherent processes of photon emission upon tunneling. The energy spectrum of electron transmission in the cavity acquires Fano-type resonances associated with virtual photon emission, passage along the resonant level, and photon re-absorption. The quality factor of the Fano resonance depends on whether the intermediate state is coupled to the leads, and reaches its maximum when this state is localized deep in the disorder potential. Coupling to the cavity also elevates the energies of the shallow bound states, bringing them to the conduction band bottom. Such an effect leads to the enhancement of the low-temperature conductance.
翻訳日:2023-11-30 17:16:38 公開日:2023-11-27
# スペクトルエンタングル光子における非直交符号化

Nonorthogonal coding in spectrally-entangled photons ( http://arxiv.org/abs/2211.11539v3 )

ライセンス: Link先を確認
N.-Y Tsai and H. H. Jen(参考訳) 絡み合った光子の連続スペクトルモードの制御と工学は、セキュアな量子通信への有望なアプローチの1つである。 原子アンサンブル中のカスケード励起双光子から発生する通信帯域を利用することで、伝送損失が少ないため、繊維ベースの長距離量子通信が可能となる。 多重光子対を用いて、スペクトルモードに非直交符号化方式を実装し、符号ワードの高容量転送を可能にする多重チャネルのアーキテクチャを提案する。 2次相関と関連する可視性およびコントラストの測定値を用いて、提案した非直交符号化方式の性能をさらに定量化する。 本研究は,直交符号化方式を超えて量子情報をエンコード・デコードする能力を示す。 提案手法は大規模かつ多ユーザな量子通信に適用可能であり,効率的な量子情報処理への道を開くことができる。

Controlling and engineering continuous spectral modes of entangled photons represents one of the promising approaches toward secure quantum communications. By using the telecom bandwidth generated from a cascade-emitted biphoton in atomic ensembles, a fiber-based long-distance quantum communication can be feasible owing to its low transmission loss. With multiplexed photon pairs, we propose to implement a nonorthogonal coding scheme in their spectral modes and present an architecture of multiple channels enabling a high-capacity transfer of codewords. Using the measures of the second-order correlations and associated visibility and contrast, we further quantify the performance of the proposed nonorthogonal coding scheme. Our results demonstrate the capability to encode and decode quantum information beyond the orthogonal coding scheme. The proposed scheme here can be applicable to a large-scale and multiuser quantum communication and pave the way toward an efficient and functional quantum information processing.
翻訳日:2023-11-30 17:16:16 公開日:2023-11-27
# ディープラーニングのための方向性プライバシ

Directional Privacy for Deep Learning ( http://arxiv.org/abs/2211.04686v3 )

ライセンス: Link先を確認
Pedro Faustini, Natasha Fernandes, Shakila Tonni, Annabelle McIver, Mark Dras(参考訳) Differentially Private Stochastic Gradient Descent (DP-SGD)は、ディープラーニングモデルのトレーニングにプライバシーを適用するための重要な方法である。 トレーニング中の勾配に等方性ガウスノイズを適用し、任意の方向に勾配を摂動させ、実用性を損なう。 しかし、メトリックDPは、ユーティリティの保存にもっと適した任意のメトリクスに基づいた代替メカニズムを提供することができる。 本稿では,von mises-fisher (vmf) 分布に基づく機構を用いて,von mises-fisher (vmf) 分布に基づく \textit{directional privacy} を適用し,グラデーション方向が広く保存されるように \textit{angular distance} を用いて勾配を摂動させる。 これは、gaussianメカニズムの$(\epsilon, \delta)$-privacyではなく、ディープラーニングトレーニングに$\epsilon$-dpと$\epsilon d$-privacyの両方を提供することを示している。 キーデータセットの実験は、VMFメカニズムがユーティリティとプライバシのトレードオフでガウシアンを上回っていることを示している。 特に,本実験は,再建と会員推測に対する防御能力の観点から,2つのアプローチ間のプライバシーの直接的な比較実験を行った。

Differentially Private Stochastic Gradient Descent (DP-SGD) is a key method for applying privacy in the training of deep learning models. It applies isotropic Gaussian noise to gradients during training, which can perturb these gradients in any direction, damaging utility. Metric DP, however, can provide alternative mechanisms based on arbitrary metrics that might be more suitable for preserving utility. In this paper, we apply \textit{directional privacy}, via a mechanism based on the von Mises-Fisher (VMF) distribution, to perturb gradients in terms of \textit{angular distance} so that gradient direction is broadly preserved. We show that this provides both $\epsilon$-DP and $\epsilon d$-privacy for deep learning training, rather than the $(\epsilon, \delta)$-privacy of the Gaussian mechanism. Experiments on key datasets then indicate that the VMF mechanism can outperform the Gaussian in the utility-privacy trade-off. In particular, our experiments provide a direct empirical comparison of privacy between the two approaches in terms of their ability to defend against reconstruction and membership inference.
翻訳日:2023-11-30 17:15:29 公開日:2023-11-27
# CHeart : 心臓解剖における条件時空間生成モデル

CHeart: A Conditional Spatio-Temporal Generative Model for Cardiac Anatomy ( http://arxiv.org/abs/2301.13098v2 )

ライセンス: Link先を確認
Mengyun Qiao, Shuo Wang, Huaqi Qiu, Antonio de Marvao, Declan P. O'Regan, Daniel Rueckert, Wenjia Bai(参考訳) 心画像解析における2つの重要な疑問は、画像から心臓の解剖と運動を評価することと、それが性別、年齢、疾患などの非画像的臨床因子とどのように関連しているかを理解することである。 第1の質問はしばしば画像分割とモーショントラッキングアルゴリズムによって解決されるが、第2の質問をモデル化して答える能力はまだ限られている。 本研究では,心臓の4次元時空間解剖とその非画像的臨床因子との相互作用を記述するための条件生成モデルを提案する。 臨床因子は生成モデリングの条件として統合され, これらの因子が心臓解剖にどのように影響するかを調べることができる。 主に解剖学的シーケンス完了とシーケンス生成の2つのタスクでモデル性能を評価する。 このモデルは解剖学的シーケンスの完成度において、他の最先端生成モデルに匹敵する高い性能を達成している。 臨床条件が与えられた場合、このモデルは、類似した分布を実際のデータと共有するリアルな4Dシーケンシャル解剖を生成できる。

Two key questions in cardiac image analysis are to assess the anatomy and motion of the heart from images; and to understand how they are associated with non-imaging clinical factors such as gender, age and diseases. While the first question can often be addressed by image segmentation and motion tracking algorithms, our capability to model and to answer the second question is still limited. In this work, we propose a novel conditional generative model to describe the 4D spatio-temporal anatomy of the heart and its interaction with non-imaging clinical factors. The clinical factors are integrated as the conditions of the generative modelling, which allows us to investigate how these factors influence the cardiac anatomy. We evaluate the model performance in mainly two tasks, anatomical sequence completion and sequence generation. The model achieves a high performance in anatomical sequence completion, comparable to or outperforming other state-of-the-art generative models. In terms of sequence generation, given clinical conditions, the model can generate realistic synthetic 4D sequential anatomies that share similar distributions with the real data.
翻訳日:2023-11-30 17:06:13 公開日:2023-11-27
# 超解像におけるトレーニング可能な損失重量

Trainable Loss Weights in Super-Resolution ( http://arxiv.org/abs/2301.10575v2 )

ライセンス: Link先を確認
Arash Chaichi Mellatshahi, Shohreh Kasaei(参考訳) 近年,超解像過程における損失関数の研究が限られている。 これらの研究の大部分は、従来の知覚的類似性のみを用いている。 これは、適切な損失の開発は、他の方法の品質も改善できる一方である。 本稿では,画素単位の損失に対する新たな重み付け法を提案する。 この方法の助けを借りて、画像の一般構造とその知覚的特徴に基づくトレーニング可能な重みを、画素単位での損失の利点を保ちながら使用することが可能である。 また、重みを畳み込みニューラルネットワークによって直接推定できるように損失重みを比較する基準を導入する。 また,本論文では,超解像ネットワークと重み付けネットワークの同時推定に期待最大化法を適用した。 さらに、「fixedsum」と呼ばれる新しいアクティベーション関数が導入され、出力成分を0と1の間に保ちながら、ベクトル定数のすべての成分の和を保持することができる。 実験結果から,提案手法による重み付き損失は,信号対雑音と知覚的類似感の両方の不確実性に基づいて,非重み付き損失と重み付き損失よりも良好な結果をもたらすことが示された。 コードはオンラインで入手できる。

In recent years, limited research has discussed the loss function in the super-resolution process. The majority of those studies have only used perceptual similarity conventionally. This is while the development of appropriate loss can improve the quality of other methods as well. In this article, a new weighting method for pixel-wise loss is proposed. With the help of this method, it is possible to use trainable weights based on the general structure of the image and its perceptual features while maintaining the advantages of pixel-wise loss. Also, a criterion for comparing weights of loss is introduced so that the weights can be estimated directly by a convolutional neural network. In addition, in this article, the expectation-maximization method is used for the simultaneous estimation super-resolution network and weighting network. In addition, a new activation function, called "FixedSum", is introduced which can keep the sum of all components of vector constants while keeping the output components between zero and one. As experimental results shows, weighted loss by the proposed method leads to better results than the unweighted loss and weighted loss based on uncertainty in both signal-to-noise and perceptual similarity senses on the state-of-the-art networks. Code is available online.
翻訳日:2023-11-30 17:05:36 公開日:2023-11-27
# KEWS: マイクロサービスにおけるワークロードシミュレーションのKPIに基づく評価フレームワーク

KEWS: A KPIs-Based Evaluation Framework of Workload Simulation On Microservice System ( http://arxiv.org/abs/2301.06530v3 )

ライセンス: Link先を確認
Pengsheng Li, Qingfeng Du, Shengjie Zhao(参考訳) ワークロードのシミュレーションは、ユーザのプライバシを保護しながら現実的なワークロードを拡大する上で、マイクロサービスシステムにとって不可欠な手順です。 このようなシミュレーションの有効性は、その動的評価に依存する。 これに対する単純で効率的なアプローチは、オリジナルのワークロードと、システムの状態をキャプチャするKey Performance Indicator(KPI)を使用したシミュレーションワークロードを比較することである。 しかしながら、kpiのボリュームと複雑さのため、それらを完全に評価することは不可能であり、その類似性を測定することは大きな課題となる。 本稿では,KPIの類似度測定アルゴリズムである拡張形状ベース距離(ESBD)を導入し,形状と強度の類似度を計測する。 さらに,前処理,圧縮,評価の3つのモジュールからなるKPIベースのワークロードシミュレーション評価フレームワーク(KEWS)を提案する。 これらの手法は, KPIsの特性の悪影響を効果的に抑制し, 全体的評価を提供する。 実験結果はESBDとKEWSの有効性を裏付けるものである。

Simulating the workload is an essential procedure in microservice systems as it helps augment realistic workloads whilst safeguarding user privacy. The efficacy of such simulation depends on its dynamic assessment. The straightforward and most efficient approach to this is comparing the original workload with the simulated one using Key Performance Indicators (KPIs), which capture the state of the system. Nonetheless, due to the extensive volume and complexity of KPIs, fully evaluating them is not feasible, and measuring their similarity poses a significant challenge. This paper introduces a similarity metric algorithm for KPIs, the Extended Shape-Based Distance (ESBD), which gauges similarity in both shape and intensity. Additionally, we propose a KPI-based Evaluation Framework for Workload Simulations (KEWS), comprising three modules: preprocessing, compression, and evaluation. These methodologies effectively counteract the adverse effects of KPIs' characteristics and offer a holistic evaluation. Experimental results substantiate the effectiveness of both ESBD and KEWS.
翻訳日:2023-11-30 17:04:43 公開日:2023-11-27
# DSI++: 新しいドキュメントでトランスフォーマーメモリを更新

DSI++: Updating Transformer Memory with New Documents ( http://arxiv.org/abs/2212.09744v2 )

ライセンス: Link先を確認
Sanket Vaibhav Mehta, Jai Gupta, Yi Tay, Mostafa Dehghani, Vinh Q. Tran, Jinfeng Rao, Marc Najork, Emma Strubell, Donald Metzler(参考訳) Differentiable Search Indices (DSI)は、文書のコーパスをモデルパラメータにエンコードし、同じモデルを使用してユーザクエリに直接応答する。 DSIモデルの性能は高いが、コーパスを再インデックスするにはモデルを再トレーニングする必要があるため、コーパスが時間とともに変化する状況にデプロイする。 そこで本研究では,DSI++を提案する。DSIが新たなドキュメントをインクリメンタルにインデクシングする上で,従来と新たにインデックス付けされたドキュメントの両方に関するクエリに回答することができる。 異なるモデルスケールと文書識別子の表現において、新しい文書の連続的なインデックス付けは、以前インデックスされた文書をかなり忘れてしまうことを示す。 また、モデルがトレーニング中にイベントを忘れていることを仮定し、検証することで、不安定な学習につながります。 これらの問題を緩和するため、我々は2つのアプローチを調査した。 ひとつは、トレーニングダイナミクスの変更だ。 フラットなミニマは暗黙的に忘れを和らげるので、よりフラットな損失盆地を最適化し、モデルがもっとドキュメントを安定して記憶することを示す(+12\%$)。 次に,文書の疑似クエリをサンプリングし,連続インデックス化時に補完する生成メモリを導入し,検索タスクの忘れることを防止する。 NQ (Natural Questions) とMS MARCO (MS MARCO) に基づく新しい連続的索引付けベンチマークの広範な実験により,提案手法は忘れを著しく軽減することを示した。 具体的には、NQの競争ベースラインよりも平均Hits@10を$+21.1\%改善し、シーケンス内の5つのコーパスをインクリメンタルにインデックスするDSIモデルを再トレーニングするのに比べて6倍のモデル更新が必要になる。

Differentiable Search Indices (DSIs) encode a corpus of documents in model parameters and use the same model to answer user queries directly. Despite the strong performance of DSI models, deploying them in situations where the corpus changes over time is computationally expensive because reindexing the corpus requires re-training the model. In this work, we introduce DSI++, a continual learning challenge for DSI to incrementally index new documents while being able to answer queries related to both previously and newly indexed documents. Across different model scales and document identifier representations, we show that continual indexing of new documents leads to considerable forgetting of previously indexed documents. We also hypothesize and verify that the model experiences forgetting events during training, leading to unstable learning. To mitigate these issues, we investigate two approaches. The first focuses on modifying the training dynamics. Flatter minima implicitly alleviate forgetting, so we optimize for flatter loss basins and show that the model stably memorizes more documents ($+12\%$). Next, we introduce a generative memory to sample pseudo-queries for documents and supplement them during continual indexing to prevent forgetting for the retrieval task. Extensive experiments on novel continual indexing benchmarks based on Natural Questions (NQ) and MS MARCO demonstrate that our proposed solution mitigates forgetting significantly. Concretely, it improves the average Hits@10 by $+21.1\%$ over competitive baselines for NQ and requires $6$ times fewer model updates compared to re-training the DSI model for incrementally indexing five corpora in a sequence.
翻訳日:2023-11-30 17:03:13 公開日:2023-11-27
# NeRFlame: FLAMEによる3次元顔レンダリングのためのNeRFの条件付け

NeRFlame: FLAME-based conditioning of NeRF for 3D face rendering ( http://arxiv.org/abs/2303.06226v2 )

ライセンス: Link先を確認
Wojciech Zaj\k{a}c, Joanna Waczy\'nska, Piotr Borycki, Jacek Tabor, Maciej Zi\k{e}ba, Przemys{\l}aw Spurek(参考訳) 従来の3D顔モデルはテクスチャ付きメッシュ表現に基づいている。 最も重要なモデルの1つはFLAME (Faces Learned with an Articulated Model and Expressions)であり、完全に制御可能な人間の顔のメッシュを生成する。 残念ながら、このようなモデルは幾何学的および外観的詳細を捉えるのに問題がある。 メッシュ表現とは対照的に、ニューラルレイディアンス場(NeRF)は極めてシャープなレンダリングを生成する。 しかし、暗黙のメソッドはアニメーション化が難しく、見当たらない表現にうまく一般化できない。 顔操作を得るために、NeRFモデルを効果的に制御することは簡単ではない。 本稿では,NeRF法とFLAME法の両方の長所を組み合わせた新しい手法NeRFlameを提案する。 本手法は,FLAMEと同様の視覚的外観を完全に制御しながら,高品質なNeRFレンダリング機能を実現する。 RGB色と体積密度モデリングにニューラルネットワークを用いる従来のNeRF構造とは対照的に,本手法ではFLAMEメッシュを異なる密度ボリュームとして利用する。 したがって、色値はFLAMEメッシュの近傍にのみ存在する。 このFLAMEフレームワークは,RGB色を予測するためのNeRFアーキテクチャにシームレスに組み込まれ,ボリューム密度を明示的に表現し,RGB色を暗黙的にキャプチャする。

Traditional 3D face models are based on mesh representations with texture. One of the most important models is FLAME (Faces Learned with an Articulated Model and Expressions), which produces meshes of human faces that are fully controllable. Unfortunately, such models have problems with capturing geometric and appearance details. In contrast to mesh representation, the neural radiance field (NeRF) produces extremely sharp renders. However, implicit methods are hard to animate and do not generalize well to unseen expressions. It is not trivial to effectively control NeRF models to obtain face manipulation. The present paper proposes a novel approach, named NeRFlame, which combines the strengths of both NeRF and FLAME methods. Our method enables high-quality rendering capabilities of NeRF while also offering complete control over the visual appearance, similar to FLAME. In contrast to traditional NeRF-based structures that use neural networks for RGB color and volume density modeling, our approach utilizes the FLAME mesh as a distinct density volume. Consequently, color values exist only in the vicinity of the FLAME mesh. This FLAME framework is seamlessly incorporated into the NeRF architecture for predicting RGB colors, enabling our model to explicitly represent volume density and implicitly capture RGB colors.
翻訳日:2023-11-30 16:54:41 公開日:2023-11-27
# 量子確率熱力学:位相空間における半古典理論

Quantum stochastic thermodynamics: A semiclassical theory in phase space ( http://arxiv.org/abs/2303.05935v4 )

ライセンス: Link先を確認
Zhaoyu Fei(参考訳) 量子多体系の定式化は相空間における半古典的処理によって提案され、量子統計学を取り入れた確率的熱力学を確立できる。 具体的には, 確率的フォッカー・プランク方程式をメゾスコピックレベルでのダイナミクスとして用いる。 ここで、フラックス密度の変動を特徴付ける雑音項は、系と貯水池の間のランダム衝突の有限$N$効果を説明する。 したがって、定常解は標準系における準平衡状態である。 位相空間分布の軌跡に基づいて確率的熱力学量を定義する。 したがって、エネルギーの保存則、$H$定理、およびゆらぎ定理が得られる。 我々の研究は、2点測定スキームに依存しない量子確率熱力学の代替形式を定めている。 多数の量子系の射影測定は、将来実験的な検証を期待する相空間分布のサンプリングによって置き換えられる。

A formalism for quantum many-body systems is proposed through a semiclassical treatment in phase space, allowing us to establish a stochastic thermodynamics incorporating quantum statistics. Specifically, we utilize a stochastic Fokker-Planck equation as the dynamics at the mesoscopic level. Here, the noise term characterizing the fluctuation of the flux density accounts for the finite-$N$ effects of random collisions between the system and the reservoir. Accordingly, the stationary solution is a quasi-equilibrium state in a canonical system. We define stochastic thermodynamic quantities based on the trajectories of the phase-space distribution. The conservation law of energy, $H$ theorem and fluctuation theorems are therefore obtained. Our work sets an alternative formalism of quantum stochastic thermodynamics that is independent of the two-point measurement scheme. The numerous projective measurements of quantum systems are replaced by the sampling of the phase-space distribution, offering hope for experimental verifications in the future.
翻訳日:2023-11-30 16:54:22 公開日:2023-11-27
# 完全接続量子コンピュータにおける時間最適量子状態移動

Time optimal quantum state transfer in a fully-connected quantum computer ( http://arxiv.org/abs/2303.04804v2 )

ライセンス: Link先を確認
Casey Jameson, Bora Basyildiz, Daniel Moore, Kyle Clark, and Zhexuan Gong(参考訳) 相互作用する粒子の系における量子状態移動(QST)の速度制限は、量子情報処理において重要であるだけでなく、量子多体物理学の様々な側面を理解するのに不可欠なリーブ・ロビンソン型境界に直接関連している。 完全接続量子コンピュータのような強長距離相互作用系では、そのような速度制限はまだ不明である。 ここでは、ハミルトニアンに不等式制約を組み込むことができる新しい量子ブラヒストローネ法を開発した。 この方法により、完全連結量子コンピュータにより実験的に実現可能なハミルトン群のサブクラスにおいて、QSTの速度に厳密な束縛を証明できる。

The speed limit of quantum state transfer (QST) in a system of interacting particles is not only important for quantum information processing, but also directly linked to Lieb-Robinson-type bounds that are crucial for understanding various aspects of quantum many-body physics. For strongly long-range interacting systems such as a fully-connected quantum computer, such a speed limit is still unknown. Here we develop a new Quantum Brachistochrone method that can incorporate inequality constraints on the Hamiltonian. This method allows us to prove an exactly tight bound on the speed of QST on a subclass of Hamiltonians experimentally realizable by a fully-connected quantum computer.
翻訳日:2023-11-30 16:54:10 公開日:2023-11-27
# ニューラルネットワークにおける可塑性の理解

Understanding plasticity in neural networks ( http://arxiv.org/abs/2303.01486v4 )

ライセンス: Link先を確認
Clare Lyle, Zeyu Zheng, Evgenii Nikishin, Bernardo Avila Pires, Razvan Pascanu, Will Dabney(参考訳) 深層強化学習システムの適応性と頑健性には,ニューラルネットワークが新たな情報に応答して予測を迅速に変化させる能力である可塑性が不可欠である。 深層ニューラルネットワークは、比較的単純な学習問題であっても、トレーニングの過程で可塑性を失うことが知られているが、この現象を駆動するメカニズムはまだよく分かっていない。 本稿では, 可塑性損失の系統的解析を行い, この現象を機械的に理解し, 対象とするソリューションの今後の発展を導くことを目的とする。 可塑性の喪失は, 損失地形の曲率の変化と深く関係していることがわかったが, 飽和単位が欠如している場合が多い。 この知見に基づいて、ネットワークがトレーニングの過程で可塑性をよりよく維持できるようなパラメータ化と最適化設計の選択肢を多数特定する。 アーケード学習環境における大規模RLベンチマークにおいて,これらの結果の有効性を検証する。

Plasticity, the ability of a neural network to quickly change its predictions in response to new information, is essential for the adaptability and robustness of deep reinforcement learning systems. Deep neural networks are known to lose plasticity over the course of training even in relatively simple learning problems, but the mechanisms driving this phenomenon are still poorly understood. This paper conducts a systematic empirical analysis into plasticity loss, with the goal of understanding the phenomenon mechanistically in order to guide the future development of targeted solutions. We find that loss of plasticity is deeply connected to changes in the curvature of the loss landscape, but that it often occurs in the absence of saturated units. Based on this insight, we identify a number of parameterization and optimization design choices which enable networks to better preserve plasticity over the course of training. We validate the utility of these findings on larger-scale RL benchmarks in the Arcade Learning Environment.
翻訳日:2023-11-30 16:52:41 公開日:2023-11-27
# 2つのリンドブラッド浴に結合したスピン1/2xxz鎖:平衡相関関数による非平衡定常状態の構築

Spin-1/2 XXZ chain coupled to two Lindblad baths: Constructing nonequilibrium steady states from equilibrium correlation functions ( http://arxiv.org/abs/2303.00430v3 )

ライセンス: Link先を確認
Tjark Heitmann, Jonas Richter, Fengping Jin, Sourav Nandy, Zala Lenar\v{c}i\v{c}, Jacek Herbrych, Kristel Michielsen, Hans De Raedt, Jochen Gemmer, Robin Steinigeweg(参考訳) 多体量子システムの輸送係数を抽出するための最先端のアプローチは、広く2つのカテゴリに分類される。 (i)閉システムの平衡相関関数の観点から、線形応答レジームを対象とするか。 (ii)リンドブラッド方程式によってモデル化される開系状態を考えると、非平衡定常状態がその境界で系の駆動から現れる。 定量的な合意は (i)および (ii) 選択されたモデルとパラメータの選択については, 文献で異論が指摘されている。 スピン1/2 xxz鎖における磁化輸送の研究から, 弱駆動では, 開系における非平衡定常状態は, 時間的構築を含めて, 閉系における相関関数に基づいて, 著しく構成できることを示した。 この閉系と開系力学の直接対応を数値的に説明し、一般に行列積状態のシミュレーションにのみアクセス可能な比較的大きな開系を扱えることを示す。 また,有限系の非平衡定常状態から輸送係数を抽出する場合の潜在的な落とし穴を指摘する。

State-of-the-art approaches to extract transport coefficients of many-body quantum systems broadly fall into two categories: (i) they target the linear-response regime in terms of equilibrium correlation functions of the closed system; or (ii) they consider an open-system situation typically modeled by a Lindblad equation, where a nonequilibrium steady state emerges from driving the system at its boundaries. While quantitative agreement between (i) and (ii) has been found for selected model and parameter choices, also disagreement has been pointed out in the literature. Studying magnetization transport in the spin-1/2 XXZ chain, we here demonstrate that at weak driving, the nonequilibrium steady state in an open system, including its buildup in time, can remarkably be constructed just on the basis of correlation functions in the closed system. We numerically illustrate this direct correspondence of closed-system and open-system dynamics, and show that it allows the treatment of comparatively large open systems, usually only accessible to matrix product state simulations. We also point out potential pitfalls when extracting transport coefficients from nonequilibrium steady states in finite systems.
翻訳日:2023-11-30 16:51:45 公開日:2023-11-27
# ハイパーキューブ上の量子ウォーク状態転移

Quantum walk state transfer on a hypercube ( http://arxiv.org/abs/2302.07581v2 )

ライセンス: Link先を確認
Martin Stefanak and Stanislav Skoupy(参考訳) 本研究では,送信側と受信側頂点が重み付きループでマークされる量子ウォークを用いて,ハイパーキューブの状態遷移を調べる。 まず,1回の実行後に送信側から受信側へ重み付きループを切り替えることにより,任意の頂点間の状態伝達に使用できる1つのマーク付き頂点の探索を解析する。 次に、対脚頂点間の状態移動を考察する。 ループの重みをチューニングして、スイッチによる状態転送と比較して、短い実行時間で高い忠実度で状態転送を達成することができることを示す。 最後に,任意の距離の頂点間の状態伝達について検討する。 送受信機と受信機の間の距離が少なくとも2である場合、反ポッドに対して導出された結果は十分に適用可能である。 送信側と受信側が直接隣接している場合、進化は若干異なる経路をたどる。 それでも、高い忠実度を持つ状態転送は同じ実行時間で達成される。

We investigate state transfer on a hypercube by means of a quantum walk where the sender and the receiver vertices are marked by a weighted loops. First, we analyze search for a single marked vertex, which can be used for state transfer between arbitrary vertices by switching the weighted loop from the sender to the receiver after one run-time. Next, state transfer between antipodal vertices is considered. We show that one can tune the weight of the loop to achieve state transfer with high fidelity in shorter run-time in comparison to the state transfer with a switch. Finally, we investigate state transfer between vertices of arbitrary distance. It is shown that when the distance between the sender and the receiver is at least 2, the results derived for the antipodes are well applicable. If the sender and the receiver are direct neighbours the evolution follows a slightly different course. Nevertheless, state transfer with high fidelity is achieved in the same run-time.
翻訳日:2023-11-30 16:51:03 公開日:2023-11-27
# 孤立島からパンジー:人間行動理解のための意味空間の統合

From Isolated Islands to Pangea: Unifying Semantic Space for Human Action Understanding ( http://arxiv.org/abs/2304.00553v3 )

ライセンス: Link先を確認
Yong-Lu Li, Xiaoqian Wu, Xinpeng Liu, Zehao Wang, Yiming Dou, Yikun Ji, Junyi Zhang, Yixing Li, Jingru Tan, Xudong Lu, Cewu Lu(参考訳) 知的エージェントへの重要なステップとして、インテリジェントエージェントのアクション理解が重要であり、長期的な注目を集めている。 アクション物理空間から意味空間への写像として形成することができる。 通常、研究者はクラスを定義し、ベンチマークのエンベロープを押すために、慣用的な選択に従ってアクションデータセットを構築した。 したがって、データセットは、セマンティクスギャップやさまざまなクラス粒度、例えばデータセットaでハウスワークを行い、データセットbでウォッシュプレートを行うなど、"分離された島"のように相互に非互換である。 この目的のために,動詞分類階層と大規模行動被覆の観点から,構造化された動作意味空間を設計する。 従来のデータセットのクラスをセマンティクス空間に合わせることで、(画像/ビデオ/スケルトン/mocap)データセットを統一ラベルシステム内の統一データベース、すなわち``isolated islands'を"pangea"にブリッジする。 そこで,本研究では,物理空間から意味空間への新しいモデルマッピングを提案する。 大規模な実験では,新しいシステムは特に伝達学習において,大きな優位性を示す。 コードとデータは公開される予定だ。

As a vital step toward the intelligent agent, Action understanding matters for intelligent agents and has attracted long-term attention. It can be formed as the mapping from the action physical space to the semantic space. Typically, researchers built action datasets according to idiosyncratic choices to define classes and push the envelope of benchmarks respectively. Thus, datasets are incompatible with each other like "Isolated Islands" due to semantic gaps and various class granularities, e.g., do housework in dataset A and wash plate in dataset B. We argue that a more principled semantic space is an urgent need to concentrate the community efforts and enable us to use all datasets together to pursue generalizable action learning. To this end, we design a structured action semantic space in view of verb taxonomy hierarchy and covering massive actions. By aligning the classes of previous datasets to our semantic space, we gather (image/video/skeleton/MoCap) datasets into a unified database in a unified label system, i.e., bridging ``isolated islands'' into a "Pangea". Accordingly, we propose a novel model mapping from the physical space to semantic space to fully use Pangea. In extensive experiments, our new system shows significant superiority, especially in transfer learning. Code and data will be made publicly available.
翻訳日:2023-11-30 16:45:13 公開日:2023-11-27
# 指標変数を用いたランクワン関数の制約付き最適化

Constrained Optimization of Rank-One Functions with Indicator Variables ( http://arxiv.org/abs/2303.18158v2 )

ライセンス: Link先を確認
Soroosh Shafiee and Fatma K{\i}l{\i}n\c{c}-Karzan(参考訳) 制約よりもランクワン凸関数の最小化を伴う最適化問題は、さまざまな機械学習アプリケーションにおいて、決定変数のサポートに関する制約が現れる。 これらの問題は、連続変数のサポートを特定するために、しばしばインジケータ変数でモデル化される。 本稿では,このような問題に対するコンパクトな拡張定式化について,視点修正手法を用いて検討する。 凸包体結果を提供するための支援関数引数や非連結プログラミング技術に依存する先行研究のほとんどとは対照的に,視点関数によって引き起こされる隠れた円錐構造を利用する構成的アプローチを提案する。 この目的のために、まず、各円錐制約が独立な連続変数の線型関数とバイナリ変数の集合を含む一般円錐混合二元集合に対する凸包結果を確立する。 次に、階数 1 の凸関数のエピグラフに付随する集合の拡張表現が、制約モデリング指標関係にそのような円錐表現が自然に認められることを示した。 これにより、これらの集合の凸包記述に対して、非線形可分あるいは非可分な目的関数、連続変数の制約、指標変数の組合せ的制約を体系的に与えることができる。 我々は,非負のロジスティック回帰問題に対する結果の有効性を示す。

Optimization problems involving minimization of a rank-one convex function over constraints modeling restrictions on the support of the decision variables emerge in various machine learning applications. These problems are often modeled with indicator variables for identifying the support of the continuous variables. In this paper we investigate compact extended formulations for such problems through perspective reformulation techniques. In contrast to the majority of previous work that relies on support function arguments and disjunctive programming techniques to provide convex hull results, we propose a constructive approach that exploits a hidden conic structure induced by perspective functions. To this end, we first establish a convex hull result for a general conic mixed-binary set in which each conic constraint involves a linear function of independent continuous variables and a set of binary variables. We then demonstrate that extended representations of sets associated with epigraphs of rank-one convex functions over constraints modeling indicator relations naturally admit such a conic representation. This enables us to systematically give perspective formulations for the convex hull descriptions of these sets with nonlinear separable or non-separable objective functions, sign constraints on continuous variables, and combinatorial constraints on indicator variables. We illustrate the efficacy of our results on sparse nonnegative logistic regression problems.
翻訳日:2023-11-30 16:44:51 公開日:2023-11-27
# アナログ情報支援多重絡み合いランキングを用いた全フォトニックGKP量子リピータ

All-photonic GKP-qubit repeater using analog-information-assisted multiplexed entanglement ranking ( http://arxiv.org/abs/2303.14923v2 )

ライセンス: Link先を確認
Filip Rozp\k{e}dek, Kaushik P. Seshadreesan, Paul Polakos, Liang Jiang, Saikat Guha(参考訳) 長距離量子通信は、距離を持つ信号の指数的減衰を克服するために量子リピータを使用する必要がある。 そのようなリピータの1つのクラスは、通信チャネルの損失を克服するために量子誤差補正を利用する。 本稿では,ボソニックな Gottesman-Kitaev-Preskill (GKP) 符号を多重化した双方向リピータアーキテクチャで使用するための新しい戦略を提案する。 我々が利用しているGKP符号の重要な特徴は、GKP量子ビットが決定論的2量子ビットゲートを容易に受け入れることである。 さらに、このようなclique-clustersの必要性を軽減するには、単一のプロトコル実行から少なくとも1つのエンドツーエンドの絡み合ったペアの抽出に制限されなくなります。 実際、gkp量子ビットの測定中に生成されたアナログ情報の可用性のおかげで、推定された品質に基づいてリンクを接続するより優れた絡み合い交換手順を設計できる。 これにより、すべての多重リンクを使用することができ、単一のプロトコルからの大量のリンクがエンドツーエンドの絡み合いを生成するのに役立ちます。 このアーキテクチャは,GKP状態の有限スキーズとホモダイン検出の非効率性から生じる不完全性に対して,高速なエンドツーエンドの絡み合い生成を可能にする。 特に、1000kmを超える長距離量子通信は、GKPのスキーズが13dB未満であっても可能であることを示す。 また,提案方式の実装に必要なGKP量子ビット数を定量化し,優れたハードウェアパラメータに対して,プロトコルの実行毎に約10^3-10^4$GKP量子ビットを必要とすることを確認する。

Long distance quantum communication will require the use of quantum repeaters to overcome the exponential attenuation of signal with distance. One class of such repeaters utilizes quantum error correction to overcome losses in the communication channel. Here we propose a novel strategy of using the bosonic Gottesman-Kitaev-Preskill (GKP) code in a two-way repeater architecture with multiplexing. The crucial feature of the GKP code that we make use of is the fact that GKP qubits easily admit deterministic two-qubit gates, hence allowing for multiplexing without the need for generating large cluster states as required in previous all-photonic architectures based on discrete-variable codes. Moreover, alleviating the need for such clique-clusters entails that we are no longer limited to extraction of at most one end-to-end entangled pair from a single protocol run. In fact, thanks to the availability of the analog information generated during the measurements of the GKP qubits, we can design better entanglement swapping procedures in which we connect links based on their estimated quality. This enables us to use all the multiplexed links so that large number of links from a single protocol run can contribute to the generation of the end-to-end entanglement. We find that our architecture allows for high-rate end-to-end entanglement generation and is resilient to imperfections arising from finite squeezing in the GKP state preparation and homodyne detection inefficiency. In particular we show that long-distance quantum communication over more than 1000 km is possible even with less than 13 dB of GKP squeezing. We also quantify the number of GKP qubits needed for the implementation of our scheme and find that for good hardware parameters our scheme requires around $10^3-10^4$ GKP qubits per repeater per protocol run.
翻訳日:2023-11-30 16:43:31 公開日:2023-11-27
# powerpruning: ニューラルネットワーク高速化のための重みとアクティベーションの選択

PowerPruning: Selecting Weights and Activations for Power-Efficient Neural Network Acceleration ( http://arxiv.org/abs/2303.13997v2 )

ライセンス: Link先を確認
Richard Petri, Grace Li Zhang, Yiran Chen, Ulf Schlichtmann, Bing Li(参考訳) ディープニューラルネットワーク(DNN)は様々な分野に適用されている。 DNNを特にエッジデバイスにデプロイする際の大きな課題は、多数の乗算および累積(MAC)操作のために消費電力である。 この課題に対処するため,我々は,mac 操作の消費電力を減少させる重みを選択することで,デジタルニューラルネットワーク加速器の消費電力を削減する新しい手法であるpowerpruningを提案する。 また、選択された重みと全ての活性化遷移のタイミング特性を評価する。 より小さな遅延につながる重みと活性化がさらに選択される。 これにより、MACユニットを変更することなくMACユニットの感度回路パスの最大遅延を低減し、サプライ電圧の柔軟なスケーリングを可能にし、電力消費をさらに削減できる。 リトレーニングとともに、提案手法はハードウェア上でのdnnの消費電力を最大78.3%削減できるが、精度の低下は少ない。

Deep neural networks (DNNs) have been successfully applied in various fields. A major challenge of deploying DNNs, especially on edge devices, is power consumption, due to the large number of multiply-and-accumulate (MAC) operations. To address this challenge, we propose PowerPruning, a novel method to reduce power consumption in digital neural network accelerators by selecting weights that lead to less power consumption in MAC operations. In addition, the timing characteristics of the selected weights together with all activation transitions are evaluated. The weights and activations that lead to small delays are further selected. Consequently, the maximum delay of the sensitized circuit paths in the MAC units is reduced even without modifying MAC units, which thus allows a flexible scaling of supply voltage to reduce power consumption further. Together with retraining, the proposed method can reduce power consumption of DNNs on hardware by up to 78.3% with only a slight accuracy loss.
翻訳日:2023-11-30 16:42:56 公開日:2023-11-27
# nvautonet: 自己運転のための高速で正確な360$^{\circ}$ 3d視覚知覚

NVAutoNet: Fast and Accurate 360$^{\circ}$ 3D Visual Perception For Self Driving ( http://arxiv.org/abs/2303.12976v4 )

ライセンス: Link先を確認
Trung Pham, Mehran Maghoumi, Wanli Jiang, Bala Siva Sashank Jujjavarapu, Mehdi Sajjadi, Xin Liu, Hsuan-Chu Lin, Bor-Jeng Chen, Giang Truong, Chao Fang, Junghyun Kwon, Minwoo Park(参考訳) 堅牢でリアルタイムな3D認識を実現することは、自動運転車にとって基本である。 既存の多くの3D認識手法は検出精度を優先するが、計算効率、搭載チップの配置親和性、センサーの配置偏差に対するレジリエンス、様々な車両タイプへの適応性といった重要な側面をしばしば見落としている。 これらの課題に対処するために、我々は、自動車両用に明示的に調整された専用Bird's-Eye-View(BEV)知覚ネットワークであるNVAutoNetを紹介した。 NVAutoNetは、同期カメライメージを入力として、障害物、自由空間、駐車場などの3D信号を予測する。 NVAutoNetのアーキテクチャ(イメージとBEVバックボーン)のコアは、TensorRTを使用した高性能に最適化された効率的な畳み込みネットワークに依存している。 さらに重要なことは、画像からBEVへの変換は単純な線形層とBEVルックアップテーブルを使用し、高速な推論速度を保証することである。 広範なプロプライエタリなデータセットに基づいてトレーニングされたNVAutoNetは、NVIDIA DRIVE Orin SoC上で、毎秒53フレームで、常に高い認識精度を実現している。 特に、NVAutoNetは、多様な自動車モデルから生じるセンサー装着偏差に対するレジリエンスを示す。 さらに、nvautonetは、互換性の調整を迅速に行う安価なモデルの微調整手順により、様々な車両タイプへの適応に優れている。

Achieving robust and real-time 3D perception is fundamental for autonomous vehicles. While most existing 3D perception methods prioritize detection accuracy, they often overlook critical aspects such as computational efficiency, onboard chip deployment friendliness, resilience to sensor mounting deviations, and adaptability to various vehicle types. To address these challenges, we present NVAutoNet: a specialized Bird's-Eye-View (BEV) perception network tailored explicitly for automated vehicles. NVAutoNet takes synchronized camera images as input and predicts 3D signals like obstacles, freespaces, and parking spaces. The core of NVAutoNet's architecture (image and BEV backbones) relies on efficient convolutional networks, optimized for high performance using TensorRT. More importantly, our image-to-BEV transformation employs simple linear layers and BEV look-up tables, ensuring rapid inference speed. Trained on an extensive proprietary dataset, NVAutoNet consistently achieves elevated perception accuracy, operating remarkably at 53 frames per second on the NVIDIA DRIVE Orin SoC. Notably, NVAutoNet demonstrates resilience to sensor mounting deviations arising from diverse car models. Moreover, NVAutoNet excels in adapting to varied vehicle types, facilitated by inexpensive model fine-tuning procedures that expedite compatibility adjustments.
翻訳日:2023-11-30 16:42:41 公開日:2023-11-27
# AdaptGuard: モデル適応のためのユニバーサルアタックを擁護

AdaptGuard: Defending Against Universal Attacks for Model Adaptation ( http://arxiv.org/abs/2303.10594v2 )

ライセンス: Link先を確認
Lijun Sheng, Jian Liang, Ran He, Zilei Wang, Tieniu Tan(参考訳) モデル適応は、事前訓練されたソースモデルのみにアクセスするという制約の下で、ドメイン転送問題を解決することを目的としている。 データプライバシーと送信効率の考慮が高まり、このパラダイムは近年人気を集めている。 本稿では,悪意のあるプロバイダの存在によるモデル適応アルゴリズムにおいて,ソースドメインから転送されるユニバーサル攻撃に対する脆弱性について検討する。 我々は、ソース側の抜け穴として、普遍的な敵対的摂動とバックドア攻撃の両方を調べ、それらが適応後もターゲットモデルで生き残ることを発見する。 そこで本研究では,モデル適応アルゴリズムの安全性を向上させるために,AdaptGuardというモデル前処理フレームワークを提案する。 AdaptGuardは、知識蒸留による危険源パラメータの直接使用を回避し、調整された半径の下で擬似敵検体を用いてロバスト性を高める。 adaptguardはプラグインアンドプレイモジュールで、堅牢な事前トレーニングされたモデルや、以下のモデル適応アルゴリズムの変更を必要としない。 一般的に使用される3つのデータセットと2つの一般的な適応方法に関する広範な結果は、adaptguardが効果的なユニバーサルアタックに対する防御と、ターゲットドメインにおけるクリーンな正確性を同時に維持できることを検証している。 この研究が、トランスファーラーニングの安全性と堅牢性に光を当てることを願っている。 コードはhttps://github.com/TomSheng21/AdaptGuardで入手できる。

Model adaptation aims at solving the domain transfer problem under the constraint of only accessing the pretrained source models. With the increasing considerations of data privacy and transmission efficiency, this paradigm has been gaining recent popularity. This paper studies the vulnerability to universal attacks transferred from the source domain during model adaptation algorithms due to the existence of malicious providers. We explore both universal adversarial perturbations and backdoor attacks as loopholes on the source side and discover that they still survive in the target models after adaptation. To address this issue, we propose a model preprocessing framework, named AdaptGuard, to improve the security of model adaptation algorithms. AdaptGuard avoids direct use of the risky source parameters through knowledge distillation and utilizes the pseudo adversarial samples under adjusted radius to enhance the robustness. AdaptGuard is a plug-and-play module that requires neither robust pretrained models nor any changes for the following model adaptation algorithms. Extensive results on three commonly used datasets and two popular adaptation methods validate that AdaptGuard can effectively defend against universal attacks and maintain clean accuracy in the target domain simultaneously. We hope this research will shed light on the safety and robustness of transfer learning. Code is available at https://github.com/TomSheng21/AdaptGuard.
翻訳日:2023-11-30 16:41:04 公開日:2023-11-27
# 障害と損失耐性を持つユニタリ平均化

Unitary Averaging with Fault and Loss Tolerance ( http://arxiv.org/abs/2304.14637v2 )

ライセンス: Link先を確認
Ryan J. Marshman, Deepesh Singh, Timothy C. Ralph, Austin P. Lund(参考訳) 単モードおよび2モードの線形光ゲートに対するユニタリ平均化フレームワークの影響を考察する。 これにより、成功確率とゲート忠実度とのトレードオフが可能となり、完全忠実度ゲートは、少なくとも原理的には、成功確率を有限に減少させることができる。 さらに,平均化方式における符号化誤りや復号誤りも1次まで抑制可能であることを示す。 また、ユニタリ平均化が既存の誤り訂正スキームとどのように連携するかについても検討する。 具体的には,フォールトトレランスを達成するために,成功確率の低下による余分な損失に対応するためにパリティエンコーディングをどのように利用するかを検討する。 また,標準耐故障スキームを用いて耐故障性を達成可能なパラメータ空間を拡張するために,ユニタリ平均化をどのように活用するかを検討する。

We consider the impact of the unitary averaging framework on single and two-mode linear optical gates. We demonstrate that this allows a trade-off between the probability of success and gate fidelity, with perfect fidelity gates being achievable for a finite decrease in the probability of success, at least in principle. Furthermore, we show that the encoding and decoding errors in the averaging scheme can also be suppressed up to the first order. We also look at how unitary averaging can work in conjunction with existing error correction schemes. Specifically, we consider how parity encoding might be used to counter the extra loss due to the decreased probability of success, with the aim of achieving fault tolerance. We also consider how unitary averaging might be utilised to expand the parameter space in which fault tolerance may be achievable using standard fault tolerant schemes.
翻訳日:2023-11-30 16:32:36 公開日:2023-11-27
# Car-Following Models: 複数分野のレビュー

Car-Following Models: A Multidisciplinary Review ( http://arxiv.org/abs/2304.07143v3 )

ライセンス: Link先を確認
Tianya Zhang, Peter J. Jin, Alexandre Bayen, Ph.D., Benedetto Piccoli(参考訳) CFアルゴリズムは交通シミュレーションの重要な要素であり、高度運転支援システム(ADAS)を搭載した多くの生産車両に統合されている。 自動車追従行動モデルからの洞察は、車両同士の相互作用から生じる様々なマクロ現象の原因を理解するのに役立つ。 カーフォローモデルには、交通工学、物理学、動的システム制御、認知科学、機械学習、強化学習を含む複数の分野が含まれる。 本稿では,その基礎となる原則と設計論理に基づいて,微視的な交通流と制御モデルの違い,相補性,重なりを強調する広範な調査を行う。 理論に基づくキネマティックモデル、心理物理モデル、適応クルーズ制御モデルから、強化学習や模倣学習(IL)のようなデータ駆動アルゴリズムまで、代表的なアルゴリズムをレビューする。 原稿はこれらのモデルの強みと限界を説明し、異なる文脈でそれらの応用を探求している。 本レビューでは,様々な分野にわたる既存研究を総合し,知識ギャップを埋め,車追従モデルの最新動向とその応用を解明し,今後の研究に向けたガイダンスを提供する。

Car-following (CF) algorithms are crucial components of traffic simulations and have been integrated into many production vehicles equipped with Advanced Driving Assistance Systems (ADAS). Insights from the model of car-following behavior help us understand the causes of various macro phenomena that arise from interactions between pairs of vehicles. Car-following models encompass multiple disciplines, including traffic engineering, physics, dynamic system control, cognitive science, machine learning, and reinforcement learning. This paper presents an extensive survey that highlights the differences, complementarities, and overlaps among microscopic traffic flow and control models based on their underlying principles and design logic. It reviews representative algorithms, ranging from theory-based kinematic models, Psycho-Physical Models, and Adaptive cruise control models to data-driven algorithms like Reinforcement Learning and Imitation Learning (IL). The manuscript discusses the strengths and limitations of these models and explores their applications in different contexts. This review synthesizes existing researches across different domains to fill knowledge gaps and offer guidance for future research by identifying the latest trends in car following models and their applications.
翻訳日:2023-11-30 16:30:51 公開日:2023-11-27
# モダリティの格差を打破する:赤外線および可視画像登録のための調和表現

Breaking Modality Disparity: Harmonized Representation for Infrared and Visible Image Registration ( http://arxiv.org/abs/2304.05646v2 )

ライセンス: Link先を確認
Zhiying Jiang, Zengxi Zhang, Jinyuan Liu, Xin Fan, Risheng Liu(参考訳) 視野、解像度、相対位置の違いから、赤外線カメラと可視カメラからなるマルチモダリティセンシングモジュールは、より正確なシーン知覚を有するように登録する必要がある。 実際には、手動の校正に基づく登録は最も広く使われているプロセスであり、正確性を維持するために定期的に校正される。 これらの問題に対処するために、シーン適応型赤外線および可視画像登録を提案する。 具体的には、多モード画像間の不一致に関して、可逆変換法を開発し、赤外線と可視モダリティの両方の特徴強度と分布を包括的に受け入れるモダリティ不変領域を確立する。 我々は,異なる平面間の変形をシミュレートし,提案した潜在表現から推定される変形を粗い方法で補正する階層的枠組みを開発する。 このために、スパースオフセットの回帰に伴う残差推定に結合した高度な知覚能力と交互相関探索により、より正確な対応マッチングが容易になる。 さらに,3つの合成セットと1つの実世界セットを含む,赤外・可視画像データセットの誤りを解消する基礎的真理を提案する。 広範囲な実験により,提案手法の有効性が検証され,その後の応用が進展する。

Since the differences in viewing range, resolution and relative position, the multi-modality sensing module composed of infrared and visible cameras needs to be registered so as to have more accurate scene perception. In practice, manual calibration-based registration is the most widely used process, and it is regularly calibrated to maintain accuracy, which is time-consuming and labor-intensive. To cope with these problems, we propose a scene-adaptive infrared and visible image registration. Specifically, in regard of the discrepancy between multi-modality images, an invertible translation process is developed to establish a modality-invariant domain, which comprehensively embraces the feature intensity and distribution of both infrared and visible modalities. We employ homography to simulate the deformation between different planes and develop a hierarchical framework to rectify the deformation inferred from the proposed latent representation in a coarse-to-fine manner. For that, the advanced perception ability coupled with the residual estimation conducive to the regression of sparse offsets, and the alternate correlation search facilitates a more accurate correspondence matching. Moreover, we propose the first ground truth available misaligned infrared and visible image dataset, involving three synthetic sets and one real-world set. Extensive experiments validate the effectiveness of the proposed method against the state-of-the-arts, advancing the subsequent applications.
翻訳日:2023-11-30 16:30:31 公開日:2023-11-27
# オーディオ・ビジュアル・セグメンテーションの概観

A Closer Look at Audio-Visual Segmentation ( http://arxiv.org/abs/2304.02970v4 )

ライセンス: Link先を確認
Yuanhong Chen, Yuyuan Liu, Hu Wang, Fengbei Liu, Chong Wang, Gustavo Carneiro(参考訳) オーディオ・ビジュアルセグメンテーション(avs)は、オーディオ・ビジュアルのクエリに基づいて対応する音響オブジェクトを正確にセグメンテーションする複雑なタスクである。 オーディオ・ビジュアル学習の成功には2つの重要な要素が必要です。 1)高品質の画素レベルのマルチクラスラベルを持つバイアスのないデータセット 2)オーディオ情報を対応する視覚オブジェクトと効果的にリンクすることができるモデル。 しかしながら、これらの2つの要件は、バイアス付きオーディオビジュアルデータを含むトレーニングセットと、このバイアス付きトレーニングセットを超えて一般化されていないモデルと、現在の方法によって部分的にのみ対処される。 本研究では,コスト効率と比較的偏りのない音声視覚的セマンティックセグメンテーションベンチマークを構築するための新しい戦略を提案する。 我々の戦略は、Visual Post-production (VPO) と呼ばれ、単一のビデオソースから抽出された明示的な音声と視覚のペアを必要とせず、そのようなベンチマークを構築することである。 また,先行提案のavsbenchを改良し,音声・視覚セマンティクスセグメンテーションベンチマークavsbench-single+に変換する。 さらに,学習セットを超えたモデルの一般化を実現するために,新たなピクセル単位の音声・視覚コントラスト学習法を提案する。 異なるソースからのオーディオとビジュアルデータをマッチングしたデータセットや、同じビデオソースからのオーディオとビジュアルデータを含むデータセットでトレーニングされた最新(sota)モデルが、ほぼ同じ精度を持つことを示すことで、vpo戦略の妥当性を検証する。 そして,提案したVPOベンチマークとAVSBench-Single+を用いて,SOTAモデルよりも高精度な音声・視覚的セマンティックセマンティックセグメンテーションを実現することを示す。 コードとデータセットは利用可能だ。

Audio-visual segmentation (AVS) is a complex task that involves accurately segmenting the corresponding sounding object based on audio-visual queries. Successful audio-visual learning requires two essential components: 1) an unbiased dataset with high-quality pixel-level multi-class labels, and 2) a model capable of effectively linking audio information with its corresponding visual object. However, these two requirements are only partially addressed by current methods, with training sets containing biased audio-visual data, and models that generalise poorly beyond this biased training set. In this work, we propose a new strategy to build cost-effective and relatively unbiased audio-visual semantic segmentation benchmarks. Our strategy, called Visual Post-production (VPO), explores the observation that it is not necessary to have explicit audio-visual pairs extracted from single video sources to build such benchmarks. We also refine the previously proposed AVSBench to transform it into the audio-visual semantic segmentation benchmark AVSBench-Single+. Furthermore, this paper introduces a new pixel-wise audio-visual contrastive learning method to enable a better generalisation of the model beyond the training set. We verify the validity of the VPO strategy by showing that state-of-the-art (SOTA) models trained with datasets built by matching audio and visual data from different sources or with datasets containing audio and visual data from the same video source produce almost the same accuracy. Then, using the proposed VPO benchmarks and AVSBench-Single+, we show that our method produces more accurate audio-visual semantic segmentation than SOTA models. Code and dataset will be available.
翻訳日:2023-11-30 16:29:20 公開日:2023-11-27
# クラス不均衡問題に対するアンサンブル学習とデータ強化モデルの検討:組み合わせ,実装,評価

A review of ensemble learning and data augmentation models for class imbalanced problems: combination, implementation and evaluation ( http://arxiv.org/abs/2304.02858v3 )

ライセンス: Link先を確認
Azal Ahmad Khan, Omkar Chaudhari, Rohitash Chandra(参考訳) 分類問題におけるクラス不均衡 (CI) は、あるクラスに属する観測回数が他のクラスよりも低い場合に生じる。 アンサンブル学習は、複数のモデルを組み合わせてロバストなモデルを求め、クラス不均衡問題に対処するデータ拡張手法で顕著に利用されてきた。 過去10年間で、生成的敵ネットワーク(GAN)のような新しい手法とともに、アンサンブル学習とデータ拡張手法を強化するための多くの戦略が追加された。 これらの組み合わせは多くの研究で適用されており、異なる組み合わせの評価は、異なるアプリケーションドメインに対するより良い理解とガイダンスを可能にする。 本稿では,ベンチマークCI問題に対処するために用いられるデータ拡張とアンサンブル学習手法を評価するための計算的検討を行う。 本稿では,CI問題に対する9つのデータ拡張と9つのアンサンブル学習手法を評価する。 我々の目的は、不均衡データセットの分類性能を改善するための最も効果的な組み合わせを特定することである。 その結果,データ拡張法とアンサンブル学習の組み合わせにより,不均衡データセットの分類性能が著しく向上することが示唆された。 合成マイノリティ・オーバーサンプリング法(SMOTE)やランダム・オーバーサンプリング法(ROS)といった従来のデータ拡張手法は、選択したCI問題に対して性能が向上するだけでなく、GANよりも計算コストが低いことが判明した。 本研究は,不均衡データセットを扱うための新しいモデルの開発に不可欠である。

Class imbalance (CI) in classification problems arises when the number of observations belonging to one class is lower than the other. Ensemble learning combines multiple models to obtain a robust model and has been prominently used with data augmentation methods to address class imbalance problems. In the last decade, a number of strategies have been added to enhance ensemble learning and data augmentation methods, along with new methods such as generative adversarial networks (GANs). A combination of these has been applied in many studies, and the evaluation of different combinations would enable a better understanding and guidance for different application domains. In this paper, we present a computational study to evaluate data augmentation and ensemble learning methods used to address prominent benchmark CI problems. We present a general framework that evaluates 9 data augmentation and 9 ensemble learning methods for CI problems. Our objective is to identify the most effective combination for improving classification performance on imbalanced datasets. The results indicate that combinations of data augmentation methods with ensemble learning can significantly improve classification performance on imbalanced datasets. We find that traditional data augmentation methods such as the synthetic minority oversampling technique (SMOTE) and random oversampling (ROS) are not only better in performance for selected CI problems, but also computationally less expensive than GANs. Our study is vital for the development of novel models for handling imbalanced datasets.
翻訳日:2023-11-30 16:28:47 公開日:2023-11-27
# dounseen: ロボット把持のための未知物体のチューニングフリークラス適応物体検出

DoUnseen: Tuning-Free Class-Adaptive Object Detection of Unseen Objects for Robotic Grasping ( http://arxiv.org/abs/2304.02833v2 )

ライセンス: Link先を確認
Anas Gouda, Moritz Roidl(参考訳) それぞれのオブジェクトが独自のクラスを表す、さまざまなオブジェクトの数をどうやって分割できるのか? 問題をもっと現実的にするために、リトレーニングや微調整なしに、どうやってクラスをオンザフライで追加および削除できるのか? これは、オブジェクトのデータセットが存在しないロボットアプリケーションや、数千のオブジェクト(例えば物流)を含むアプリケーションの場合で、単一のモデルをトレーニングしてすべてのオブジェクトを学習することは不可能である。 ロボットグルーピングのためのオブジェクトセグメンテーションに関する最近の研究は、クラスレベルのオブジェクトセグメンテーション(例えば、ボックス、カップ、ボトル)、クローズドセット(データセットの特定のオブジェクト、例えばYCBデータセット)、ディープラーニングベースのテンプレートマッチングに焦点を当てている。 この研究では、クラス数が未知で、変更され、オブジェクトの型について事前に知識がないオープンセットに興味があります。 それぞれの特定のオブジェクトを独立したクラスとみなす。 私たちの目標は、微調整を必要とせず、オブジェクトのいくつかのイメージをキャプチャするだけで任意のオブジェクトをクラスとして追加できるオブジェクト検出器を開発することです。 我々の主な考え方は、クラス適応型分類器が組み込んだ見えないオブジェクトセグメンテーションネットワークを組み合わせることで、セグメンテーションパイプラインを2つのステップに分割することである。 クラス適応型オブジェクト検出器を未知のデータセット上で評価し、それらのデータセット上で訓練されたMask R-CNNと比較する。 その結果,環境設定や処理対象によって性能が実用的から不適当に変化することがわかった。 コードは私たちのDoUnseenライブラリリポジトリで利用可能です。

How can we segment varying numbers of objects where each specific object represents its own separate class? To make the problem even more realistic, how can we add and delete classes on the fly without retraining or fine-tuning? This is the case of robotic applications where no datasets of the objects exist or application that includes thousands of objects (E.g., in logistics) where it is impossible to train a single model to learn all of the objects. Most current research on object segmentation for robotic grasping focuses on class-level object segmentation (E.g., box, cup, bottle), closed sets (specific objects of a dataset; for example, YCB dataset), or deep learning-based template matching. In this work, we are interested in open sets where the number of classes is unknown, varying, and without pre-knowledge about the objects' types. We consider each specific object as its own separate class. Our goal is to develop an object detector that requires no fine-tuning and can add any object as a class just by capturing a few images of the object. Our main idea is to break the segmentation pipelines into two steps by combining unseen object segmentation networks cascaded by class-adaptive classifiers. We evaluate our class-adaptive object detector on unseen datasets and compare it to a trained Mask R-CNN on those datasets. The results show that the performance varies from practical to unsuitable depending on the environment setup and the objects being handled. The code is available in our DoUnseen library repository.
翻訳日:2023-11-30 16:28:23 公開日:2023-11-27
# SelfzCoT: セマンティックレベルからコードレベルへの自己プロンプトゼロショットCoTによるLCMのより良い利用

SelfzCoT: a Self-Prompt Zero-shot CoT from Semantic-level to Code-level for a Better Utilization of LLMs ( http://arxiv.org/abs/2305.11461v4 )

ライセンス: Link先を確認
Ioktong Lei and Zhidong Deng(参考訳) 本稿では,自己プロンプトゼロショットCoTであるSelfzCoTを用いたLCMの有効利用について述べる。 特にゼロショット算術推論タスクでは、提案されたSelfzCoTの精度は、GSM8Kを40.50%から82.34%に改善し、MultiArithを79.3%から94.7%、ADDSUBを74.70%から94.10%、SingleEqを78.70%から91.30%、Aquaを31.90%から82.33%、SVAMPを63.70%から79.70%に改善した。 LLMへの最初の2つのパスアクティベート、特にコードレベルのセルフプロンプトを使用して、SelfzCoTは6つのゼロショット算術推論タスクを大幅に改善した。 さらに,修正したゼロショットCoT (MzCoT) も推論タスクにおいて顕著な性能を発揮する。 提案されたMzCoTの精度はGSM8Kが40.50%から76.32%、MultiArithが79.3%から96.97%、ABDSUBが74.70%から92.39%、SingleEqが78.70%から94.60%、AQUAが31.90%から79.90%、SVAMPが63.70%から81.50%に向上した。 特にSelfzCoTは、最近のゼロショットメソッドの中でもGSM8Kで最高のパフォーマンスを示している。

This paper show a work on better use of LLMs with SelfzCoT a self-prompt zero-shot CoT. Specifically, on the zero-shot arithmetic reasoning tasks, the accuracy of the proposed SelfzCoT is improved with GSM8K from 40.50% to 82.34%, with MultiArith from 79.3% to 94.7%, with ADDSUB from 74.70% to 94.10%, with SingleEq from 78.70% to 91.30%, with AQUA from 31.90% to 82.33%, and with SVAMP from 63.70% to 79.70%. Totally, using the first two lasting path activations to LLM and particularly, the code-level self-prompt, the SelfzCoT has a huge improvement on all six zero-shot arithmetic reasoning tasks. Additionally, our modified zero-shot CoT (MzCoT) also achieves remarkable performance in the reasoning tasks. The accuracy of the proposed MzCoT is enhanced with GSM8K from 40.50% to 76.32%, with MultiArith from 79.3% to 96.97%, with ADDSUB from 74.70% to 92.39%, with SingleEq from 78.70% to 94.60%, with AQUA from 31.90% to 79.90%, and with SVAMP from 63.70% to 81.50%. Notably, SelfzCoT has the best performance on GSM8K among all the recent zero-shot methods.
翻訳日:2023-11-30 16:22:44 公開日:2023-11-27
# 非ガウス三光子状態による量子照明

Quantum Illumination with Non-Gaussian Three Photons States ( http://arxiv.org/abs/2305.10458v5 )

ライセンス: Link先を確認
Ricardo Gallego Torrom\'e(参考訳) 信号が2つの光子状態によって記述され、アイドラーが1つの光子状態によって記述される3つの光子非ガウシアン状態の量子照明は、高雑音の背景において、感度標準ガウシアン量子照明よりも優れていることが示されている。 特に1/{N_S}$ の誤差指数の確率の増加による確率の減少があり、$N_S$ は信号状態のモード当たりの平均光子の数である。

It is shown that quantum illumination with three photons non-Gaussian states, where the signal is described by a two photons state and the idler is described by a one photon state, can outperform in sensitivity standard Gaussian quantum illumination in a high noisy background. In particular, there is a reduction in the probability due to an increase in the probability of error exponent by a factor $1/{N_S}$, where $N_S$ is the average number of photons per mode of the signal state.
翻訳日:2023-11-30 16:21:41 公開日:2023-11-27
# 全医用画像のワンプロンプト

One-Prompt to Segment All Medical Images ( http://arxiv.org/abs/2305.10300v2 )

ライセンス: Link先を確認
Junde Wu, Min Xu(参考訳) 強力なゼロショット一般化で知られる大規模基礎モデルは、ビジュアルおよび言語アプリケーションにおいて優れている。 しかし、多様な画像タイプとターゲットラベルを持つ医療画像セグメンテーションに適用することは、まだ未解決の課題である。 SAM(Segment Anything Model)のようなインタラクティブセグメンテーションモデルの適用など、現在のアプローチでは、推論中に各サンプルに対してユーザプロンプトが必要になる。 あるいは、少数/1ショットモデルのような転送学習手法はラベル付きサンプルを要求するため、高いコストがかかる。 本稿では,「one-prompt segmentation」と呼ばれる万能医用画像セグメンテーションの新たなパラダイムを提案する。 ワンプロンプトセグメンテーションはワンショットとインタラクティブな手法の強みを組み合わせたものである。 推論の段階では、ただ \textbf{one prompted sample} だけで、1回のフォワードパスで未処理のタスクを適切に処理できる。 私たちは64のオープンソース医療データセットでOne-Prompt Modelをトレーニングし、3,000以上のクリニックラベルのプロンプトを収集しています。 14の未確認タスクでテストされたOne-Prompt Modelは、優れたゼロショットセグメンテーション能力を示し、幅広い関連手法より優れている。 コードと注釈付きデータは公開される予定だ。

Large foundation models, known for their strong zero-shot generalization, have excelled in visual and language applications. However, applying them to medical image segmentation, a domain with diverse imaging types and target labels, remains an open challenge. Current approaches, such as adapting interactive segmentation models like Segment Anything Model (SAM), require user prompts for each sample during inference. Alternatively, transfer learning methods like few/one-shot models demand labeled samples, leading to high costs. This paper introduces a new paradigm toward the universal medical image segmentation, termed 'One-Prompt Segmentation.' One-Prompt Segmentation combines the strengths of one-shot and interactive methods. In the inference stage, with just \textbf{one prompted sample}, it can adeptly handle the unseen task in a single forward pass. We train One-Prompt Model on 64 open-source medical datasets, accompanied by the collection of over 3,000 clinician-labeled prompts. Tested on 14 previously unseen tasks, the One-Prompt Model showcases superior zero-shot segmentation capabilities, outperforming a wide range of related methods. The code and annotated data will be publicly released.
翻訳日:2023-11-30 16:21:31 公開日:2023-11-27
# 均一電子ガスのためのメッセージパージング型ニューラル量子状態

Message-Passing Neural Quantum States for the Homogeneous Electron Gas ( http://arxiv.org/abs/2305.07240v2 )

ライセンス: Link先を確認
Gabriel Pescia, Jannes Nys, Jane Kim, Alessandro Lovato, Giuseppe Carleo(参考訳) 連続空間における強相互作用フェルミオンをシミュレートするメッセージパッシングニューラルネットワークベースの波動関数Ansatzを導入する。 連続翻訳対称性のような対称性の制約はモデルに容易に組み込むことができる。 密度や系の大きさの異なる3次元における均一電子ガスの基底状態のシミュレーションにより、その精度を実証する。 最先端のニューラルネットワーク波動関数よりも桁違いに少ないパラメータで、より良いあるいは同等な基底状態エネルギーを示す。 パラメータの複雑さを減らすことで、以前は連続空間におけるニューラル・ネットワーク波動関数に到達できない128$電子へのスケーリングが可能となり、熱力学極限に対する有限サイズの外挿の今後の研究が可能になる。 また,異なる物質の相を定量的に表現するアンサッツの能力を示す。

We introduce a message-passing-neural-network-based wave function Ansatz to simulate extended, strongly interacting fermions in continuous space. Symmetry constraints, such as continuous translation symmetries, can be readily embedded in the model. We demonstrate its accuracy by simulating the ground state of the homogeneous electron gas in three spatial dimensions at different densities and system sizes. With orders of magnitude fewer parameters than state-of-the-art neural-network wave functions, we demonstrate better or comparable ground-state energies. Reducing the parameter complexity allows scaling to $N=128$ electrons, previously inaccessible to neural-network wave functions in continuous space, enabling future work on finite-size extrapolations to the thermodynamic limit. We also show the Ansatz's capability of quantitatively representing different phases of matter.
翻訳日:2023-11-30 16:18:37 公開日:2023-11-27
# クロスエントロピー差を用いた文脈内実演選択

In-Context Demonstration Selection with Cross Entropy Difference ( http://arxiv.org/abs/2305.14726v2 )

ライセンス: Link先を確認
Dan Iter, Reid Pryzant, Ruochen Xu, Shuohang Wang, Yang Liu, Yichong Xu, Chenguang Zhu(参考訳) 大きな言語モデル(LLM)は、ゼロショットタスクのパフォーマンスを改善するためにコンテキスト内デモを使用することができる。 しかしながら、最適なインコンテキストの例を選択することは、モデルのパフォーマンスが選択した例によって大きく異なるため、難しい。 テキスト内デモを選択するためのクロスエントロピー差分法(CED)を提案する。 提案手法は,その実演を微調整した言語モデルによる実験例の難易度と,文脈内実演の有効性が負の相関関係にあることを示す。 パラメータ効率のよいファインタニングを用いて、テスト例と各候補のコンテキスト内実演の相互エントロピー差を計算する訓練データ上で、小さなモデルを訓練する。 このメトリックは、テスト入力毎に独立してコンテキスト内デモをランク付けし、選択するために使用される。 提案手法は,テキスト生成タスクを4つ表現した8つのベンチマークを組み合わせた混合領域データセットを用いて評価し,テキスト中のデモ選択のためのCEDが様々なLLMの性能を向上させることを示す。

Large language models (LLMs) can use in-context demonstrations to improve performance on zero-shot tasks. However, selecting the best in-context examples is challenging because model performance can vary widely depending on the selected examples. We present a cross-entropy difference (CED) method for selecting in-context demonstrations. Our method is based on the observation that the effectiveness of in-context demonstrations negatively correlates with the perplexity of the test example by a language model that was finetuned on that demonstration. We utilize parameter efficient finetuning to train small models on training data that are used for computing the cross-entropy difference between a test example and every candidate in-context demonstration. This metric is used to rank and select in-context demonstrations independently for each test input. We evaluate our method on a mix-domain dataset that combines 8 benchmarks, representing 4 text generation tasks, showing that CED for in-context demonstration selection can improve performance for a variety of LLMs.
翻訳日:2023-11-30 16:08:14 公開日:2023-11-27
# 負のフィードバックトレーニング:NVCIM DNN加速器のロバスト性向上のための新しい概念

Negative Feedback Training: A Novel Concept to Improve Robustness of NVCIM DNN Accelerators ( http://arxiv.org/abs/2305.14561v2 )

ライセンス: Link先を確認
Yifan Qin, Zheyu Yan, Wujie Wen, Xiaobo Sharon Hu and Yiyu Shi(参考訳) 非揮発性メモリ(NVM)デバイス上に構築されたCIM(Compute-in-Memory)アクセラレータは、そのデータ処理能力のおかげで、Deep Neural Network(DNN)推論の実行時のエネルギー効率とレイテンシが優れている。 しかしながら、NVMデバイスの確率的性質と固有のバリエーションは、しばしばDNN推論の性能劣化をもたらす。 DNNトレーニング中のこれらの非理想的デバイス動作の導入は、堅牢性を高めるが、欠点には、精度の向上、予測信頼性の低減、収束問題が含まれる。 これは、決定論的トレーニングと非決定論的デバイスバリエーションのミスマッチから生じており、そのようなトレーニングは、バリエーションを考慮してはいるものの、モデルの最終的なアウトプットのみに依存している。 本研究では,制御理論から着想を得て,ネットワークから取得したマルチスケールノイズ情報を活用した負フィードバックトレーニング(nft)という新しい学習概念を提案する。 我々は、OVF(Oriented Variational Forward)とIRS(Intermediate Representation Snapshot)の2つの特定NFTインスタンスを開発する。 広範な実験により,提案手法は推定精度が最大46.71%向上し,認識的不確実性が低減され,出力信頼度が向上し,収束確率が向上した。 その効果は,デバイス変動に対するdnnロバスト性向上におけるnftの概念の汎用性と実用性を強調している。

Compute-in-memory (CIM) accelerators built upon non-volatile memory (NVM) devices excel in energy efficiency and latency when performing Deep Neural Network (DNN) inference, thanks to their in-situ data processing capability. However, the stochastic nature and intrinsic variations of NVM devices often result in performance degradation in DNN inference. Introducing these non-ideal device behaviors during DNN training enhances robustness, but drawbacks include limited accuracy improvement, reduced prediction confidence, and convergence issues. This arises from a mismatch between the deterministic training and non-deterministic device variations, as such training, though considering variations, relies solely on the model's final output. In this work, we draw inspiration from the control theory and propose a novel training concept: Negative Feedback Training (NFT) leveraging the multi-scale noisy information captured from network. We develop two specific NFT instances, Oriented Variational Forward (OVF) and Intermediate Representation Snapshot (IRS). Extensive experiments show that our methods outperform existing state-of-the-art methods with up to a 46.71% improvement in inference accuracy while reducing epistemic uncertainty, boosting output confidence, and improving convergence probability. Their effectiveness highlights the generality and practicality of our NFT concept in enhancing DNN robustness against device variations.
翻訳日:2023-11-30 16:07:58 公開日:2023-11-27
# ミックスアップのための自己進化学習:Few-Shotテキスト分類タスクにおけるデータ強化

Self-Evolution Learning for Mixup: Enhance Data Augmentation on Few-Shot Text Classification Tasks ( http://arxiv.org/abs/2305.13547v3 )

ライセンス: Link先を確認
Haoqi Zheng, Qihuang Zhong, Liang Ding, Zhiliang Tian, Xin Niu, Dongsheng Li, Dacheng Tao(参考訳) テキスト分類タスクは、ラベル付きデータに制限されたショットシナリオが少なく、データの不足に対処することが不可欠である。 mixupによるデータ拡張は、様々なテキスト分類タスクに有効であることが示されている。 しかし、混合手法の多くは、訓練の異なる段階での学習困難度を考慮せず、1つのホットラベルで新しいサンプルを生成するため、モデルが信頼性を超越する結果となった。 本稿では,テキスト分類におけるデータ拡張のための自己進化学習(SE)に基づくミックスアップ手法を提案する。 seはモデルの学習能力の変動に焦点を当てている。 モデルの信頼性を緩和するために,モデルの出力を線形に補間する新しいインスタンス固有ラベル平滑化手法と,元のサンプルの1つのホットラベルを導入し,新しいラベル混合用ソフトを生成する。 実験分析により,分類精度の向上に加えて,seはモデルの一般化能力も向上することを示す。

Text classification tasks often encounter few shot scenarios with limited labeled data, and addressing data scarcity is crucial. Data augmentation with mixup has shown to be effective on various text classification tasks. However, most of the mixup methods do not consider the varying degree of learning difficulty in different stages of training and generate new samples with one hot labels, resulting in the model over confidence. In this paper, we propose a self evolution learning (SE) based mixup approach for data augmentation in text classification, which can generate more adaptive and model friendly pesudo samples for the model training. SE focuses on the variation of the model's learning ability. To alleviate the model confidence, we introduce a novel instance specific label smoothing approach, which linearly interpolates the model's output and one hot labels of the original samples to generate new soft for label mixing up. Through experimental analysis, in addition to improving classification accuracy, we demonstrate that SE also enhances the model's generalize ability.
翻訳日:2023-11-30 16:07:01 公開日:2023-11-27
# テキストからSQLへのLLMのプロンプト方法:ゼロショット、シングルドメイン、クロスドメイン設定の検討

How to Prompt LLMs for Text-to-SQL: A Study in Zero-shot, Single-domain, and Cross-domain Settings ( http://arxiv.org/abs/2305.11853v3 )

ライセンス: Link先を確認
Shuaichen Chang, Eric Fosler-Lussier(参考訳) 文脈内学習を伴う大規模言語モデル(LLM)は、テキストからSQLへのタスクにおいて顕著な能力を示している。 従来の研究は、LLMの性能を高めるために、様々な実証検索戦略と中間的推論ステップを持つLCMを誘導している。 しかしながら、これらの作業は、データベースや実演例など、テキストからSQLへの入力のためのプロンプトテキストを構築する際に、様々な戦略を用いることが多い。 これにより、迅速な構成と主要な貢献の両方において互換性が欠如することになる。 さらに, 効率的なプロンプト構築の選択が今後の研究の永続的な課題として浮上している。 この制限に対処するために、我々は様々な設定におけるプロンプト構築の影響を包括的に調査し、将来のテキストからsqlへの研究のためのプロンプト構築に関する洞察を提供する。

Large language models (LLMs) with in-context learning have demonstrated remarkable capability in the text-to-SQL task. Previous research has prompted LLMs with various demonstration-retrieval strategies and intermediate reasoning steps to enhance the performance of LLMs. However, those works often employ varied strategies when constructing the prompt text for text-to-SQL inputs, such as databases and demonstration examples. This leads to a lack of comparability in both the prompt constructions and their primary contributions. Furthermore, selecting an effective prompt construction has emerged as a persistent problem for future research. To address this limitation, we comprehensively investigate the impact of prompt constructions across various settings and provide insights into prompt constructions for future text-to-SQL studies.
翻訳日:2023-11-30 16:06:03 公開日:2023-11-27
# DiffInDScene:拡散に基づく高品質3D室内シーン生成

DiffInDScene: Diffusion-based High-Quality 3D Indoor Scene Generation ( http://arxiv.org/abs/2306.00519v3 )

ライセンス: Link先を確認
Xiaoliang Ju, Zhaoyang Huang, Yijin Li, Guofeng Zhang, Yu Qiao, Hongsheng Li(参考訳) DiffInDSceneは高品質な屋内シーン生成問題に対処するための新しいフレームワークであり、室内シーンの複雑さと多様性のため課題である。 拡散型生成モデルは画像生成やオブジェクトレベルの3D生成において,これまでは顕著な性能を示してきたが,計算集約コストのため,まだ部屋レベルの3D生成には適用されていない。 差分法では,tsdf (truncated signed distance function) の高効率かつ強力な生成性能を有するカスケード3次元拡散パイプラインを提案する。 パイプライン全体は、粗大な方法でスパース占有空間で実行されるように設計されている。 KinectFusionのインクリメンタルアライメントと局所TSDFボリュームの融合にインスパイアされた本研究では,局所TSDFボリュームを反復的に拡散・融合させる拡散型SDF融合手法を提案する。 生成した結果は,スクラッチから始めて,高品位な部屋生成を3次元空間で直接実現できることを実証した。 シーン生成に加えて、DiffInDSceneの最終部分は、マルチビューステレオから3D再構成結果を洗練するための後処理モジュールとして使用できる。 ユーザ調査によると、私たちのDiffInDSceneによって生成されたメッシュ品質は、ScanNetが提供する地上の真理メッシュよりも優れています。 最新の進捗とデモについては、プロジェクトページを参照してください。

We present DiffInDScene, a novel framework for tackling the problem of high-quality 3D indoor scene generation, which is challenging due to the complexity and diversity of the indoor scene geometry. Although diffusion-based generative models have previously demonstrated impressive performance in image generation and object-level 3D generation, they have not yet been applied to room-level 3D generation due to their computationally intensive costs. In DiffInDScene, we propose a cascaded 3D diffusion pipeline that is efficient and possesses strong generative performance for Truncated Signed Distance Function (TSDF). The whole pipeline is designed to run on a sparse occupancy space in a coarse-to-fine fashion. Inspired by KinectFusion's incremental alignment and fusion of local TSDF volumes, we propose a diffusion-based SDF fusion approach that iteratively diffuses and fuses local TSDF volumes, facilitating the generation of an entire room environment. The generated results demonstrate that our work is capable to achieve high-quality room generation directly in three-dimensional space, starting from scratch. In addition to the scene generation, the final part of DiffInDScene can be used as a post-processing module to refine the 3D reconstruction results from multi-view stereo. According to the user study, the mesh quality generated by our DiffInDScene can even outperform the ground truth mesh provided by ScanNet. Please visit our project page for the latest progress and demonstrations: https://github.com/AkiraHero/diffindscene.
翻訳日:2023-11-30 15:59:52 公開日:2023-11-27
# CALICO: BEV知覚のためのカメラ-LiDARコントラスト事前トレーニング

CALICO: Self-Supervised Camera-LiDAR Contrastive Pre-training for BEV Perception ( http://arxiv.org/abs/2306.00349v2 )

ライセンス: Link先を確認
Jiachen Sun, Haizhong Zheng, Qingzhao Zhang, Atul Prakash, Z. Morley Mao, and Chaowei Xiao(参考訳) 認識は、バードアイビュー(BEV)ベースのアーキテクチャが最近最先端のパフォーマンスに到達した、自律走行システムの領域において不可欠である。 自己教師付き表現学習の望ましさは、2dおよび3dデータを注釈するコストと労力のかかるプロセスに由来する。 従来の研究では、LiDARとカメラベースの3Dオブジェクト検出のための事前学習手法が検討されてきたが、マルチモーダルなBEV認識のための統合事前学習フレームワークが欠落している。 本研究では,LiDARとカメラのバックボーンに対照的な目的を適用可能な新しいフレームワークであるCALICOを紹介する。 特に、CALICOは、ポイント・リージョン・コントラスト(PRC)とリージョン・アウェア・蒸留(RAD)の2段階を取り入れている。 PRCは、LiDARのモダリティに基づいて、地域レベルの表現学習とシーンレベルの表現学習のバランスを良くし、既存の手法と比較して大幅な性能改善を提供する。 RADは, 自己学習型教師モデルにおいて, コントラスト蒸留を効果的に実現する。 calicoの有効性は、3dオブジェクト検出とbevマップセグメンテーションタスクの広範な評価によって実証され、大幅なパフォーマンス改善をもたらす。 特に、CALICOはベースライン法を10.5%、NDSとmAPで8.6%上回る。 さらに、CALICOは敵攻撃や腐敗に対するマルチモーダル3Dオブジェクト検出の堅牢性を高める。 さらに、我々のフレームワークは異なるバックボーンとヘッドに合わせることができ、マルチモーダルなBEV知覚のための有望なアプローチとして位置づけられる。

Perception is crucial in the realm of autonomous driving systems, where bird's eye view (BEV)-based architectures have recently reached state-of-the-art performance. The desirability of self-supervised representation learning stems from the expensive and laborious process of annotating 2D and 3D data. Although previous research has investigated pretraining methods for both LiDAR and camera-based 3D object detection, a unified pretraining framework for multimodal BEV perception is missing. In this study, we introduce CALICO, a novel framework that applies contrastive objectives to both LiDAR and camera backbones. Specifically, CALICO incorporates two stages: point-region contrast (PRC) and region-aware distillation (RAD). PRC better balances the region- and scene-level representation learning on the LiDAR modality and offers significant performance improvement compared to existing methods. RAD effectively achieves contrastive distillation on our self-trained teacher model. CALICO's efficacy is substantiated by extensive evaluations on 3D object detection and BEV map segmentation tasks, where it delivers significant performance improvements. Notably, CALICO outperforms the baseline method by 10.5% and 8.6% on NDS and mAP. Moreover, CALICO boosts the robustness of multimodal 3D object detection against adversarial attacks and corruption. Additionally, our framework can be tailored to different backbones and heads, positioning it as a promising approach for multimodal BEV perception.
翻訳日:2023-11-30 15:59:24 公開日:2023-11-27
# RealignDiff: 粗大なセマンティック再構成によるテキスト・画像拡散モデル

RealignDiff: Boosting Text-to-Image Diffusion Model with Coarse-to-fine Semantic Re-alignment ( http://arxiv.org/abs/2305.19599v3 )

ライセンス: Link先を確認
Guian Fang, Zutao Jiang, Jianhua Han, Guansong Lu, Hang Xu, Shengcai Liao, Xiaodan Liang(参考訳) テキストから画像への拡散モデルの最近の進歩は、テキスト記述から高品質で現実的な画像を生成することに成功した。 しかし、これらのアプローチは、生成されたビジュアルコンテンツをプロンプトで記述されたテキストの概念と正確に調整する上での課題に直面している。 本稿では,テキストから画像への拡散モデルにおけるテキストと画像のアライメントを改善することを目的とした,RealignDiffという2段階の粗大なセマンティック・アライメント手法を提案する。 本稿では,blip-2モデルを用いた新しいキャプション報酬を提案し,生成された画像キャプションと与えられたテキストプロンプト間の意味的不一致を評価する。 その後、微妙なセマンティックリアライメントステージは、局所的な密接なキャプション生成モジュールと再重み付けアテンション変調モジュールを用いて、予め生成された画像を局所的なセマンティックビューから洗練する。 MS-COCOベンチマークによる実験結果から,提案手法は,入力プロンプトと視覚的品質,意味的類似性の両方において,他のベースライン再構成手法よりも優れていた。

Recent advances in text-to-image diffusion models have achieved remarkable success in generating high-quality, realistic images from textual descriptions. However, these approaches have faced challenges in precisely aligning the generated visual content with the textual concepts described in the prompts. In this paper, we propose a two-stage coarse-to-fine semantic re-alignment method, named RealignDiff, aimed at improving the alignment between text and images in text-to-image diffusion models. In the coarse semantic re-alignment phase, a novel caption reward, leveraging the BLIP-2 model, is proposed to evaluate the semantic discrepancy between the generated image caption and the given text prompt. Subsequently, the fine semantic re-alignment stage employs a local dense caption generation module and a re-weighting attention modulation module to refine the previously generated images from a local semantic view. Experimental results on the MS-COCO benchmark demonstrate that the proposed two-stage coarse-to-fine semantic re-alignment method outperforms other baseline re-alignment techniques by a substantial margin in both visual quality and semantic similarity with the input prompt.
翻訳日:2023-11-30 15:58:31 公開日:2023-11-27
# クロスドメインプラネタリー・ギアボックス障害診断のための健康データマップを用いたドメイン知識による合成故障サンプル生成

Domain knowledge-informed Synthetic fault sample generation with Health Data Map for cross-domain Planetary Gearbox Fault Diagnosis ( http://arxiv.org/abs/2305.19569v5 )

ライセンス: Link先を確認
Jong Moon Ha and Olga Fink(参考訳) 振動信号と深層学習(dl)を用いた惑星ギアボックスの故障診断に関する広範な研究が行われている。 しかし, dlベースの手法は, ギヤボックスの動作条件が異なるため, ドメインシフト問題に影響を受けやすい。 このようなドメインシフトを克服するために、ドメイン適応とデータ合成法が提案されているが、ターゲットドメインで健全なデータしか利用できない現実の状況では直接適用されないことが多い。 本稿では,対象領域にのみ健全なデータが存在する極端領域シフトシナリオの課題を解決するために,health data map (hdmap) を用いた2つの新しいドメイン知識に基づくデータ合成手法を提案する。 提案された2つのアプローチはスケールされた CutPaste と FaultPaste と呼ばれる。 hdmapはプラネタリー・ギアボックスの振動信号をイメージライクなマトリックスとして物理的に表現するために使用され、断層関連の特徴を可視化することができる。 CutPasteとFactPasteは、それぞれソースドメインから抽出されたドメイン知識と障害シグネチャを使用して、ターゲットドメインの健全なデータに基づいて障害サンプルを生成する。 提案手法は,実際の障害を生成することに加えて,様々な重大度レベルを有する障害の合成制御のための障害シグネチャのスケーリングを導入する。 提案手法を評価するために、惑星のギアボックス試験台上でケーススタディを行った。 その結果,提案手法は,過度な領域シフトの場合であっても,障害を正確に診断でき,対象領域ではこれまで観測されていなかった障害の重大度を推定できることがわかった。

Extensive research has been conducted on fault diagnosis of planetary gearboxes using vibration signals and deep learning (DL) approaches. However, DL-based methods are susceptible to the domain shift problem caused by varying operating conditions of the gearbox. Although domain adaptation and data synthesis methods have been proposed to overcome such domain shifts, they are often not directly applicable in real-world situations where only healthy data is available in the target domain. To tackle the challenge of extreme domain shift scenarios where only healthy data is available in the target domain, this paper proposes two novel domain knowledge-informed data synthesis methods utilizing the health data map (HDMap). The two proposed approaches are referred to as scaled CutPaste and FaultPaste. The HDMap is used to physically represent the vibration signal of the planetary gearbox as an image-like matrix, allowing for visualization of fault-related features. CutPaste and FaultPaste are then applied to generate faulty samples based on the healthy data in the target domain, using domain knowledge and fault signatures extracted from the source domain, respectively. In addition to generating realistic faults, the proposed methods introduce scaling of fault signatures for controlled synthesis of faults with various severity levels. A case study is conducted on a planetary gearbox testbed to evaluate the proposed approaches. The results show that the proposed methods are capable of accurately diagnosing faults, even in cases of extreme domain shift, and can estimate the severity of faults that have not been previously observed in the target domain.
翻訳日:2023-11-30 15:57:48 公開日:2023-11-27
# 計算制約型デバイスのための連続層学習によるflの集約能力

Aggregating Capacity in FL through Successive Layer Training for Computationally-Constrained Devices ( http://arxiv.org/abs/2305.17005v2 )

ライセンス: Link先を確認
Kilian Pfeiffer, Ramin Khalili, J\"org Henkel(参考訳) フェデレートラーニング(FL)は通常、リソース制約のあるエッジデバイス上で実行され、計算のメモリは限られている。 モデルをトレーニングするために必要なメモリがこの制限を超えた場合、デバイスはトレーニングから除外される。 これにより、貴重なデータや計算リソースがトレーニングから除外され、バイアスや不公平が生じるため、精度が低下する可能性がある。 flトレーニングプロセスは、そのような制約に合わせて調整されるべきである。 最先端技術では、制約のあるデバイスにおけるFLモデルのトレーニングサブセットを提案し、トレーニングに必要なリソースを削減している。 しかし、これらの手法はモデルのパラメータ間の共適応をほとんど制限し、非常に非効率である: 実際に、すべてのデバイスが、そのような手法を適用するよりも、エンド・ツー・エンドでモデルを訓練できるシステムによって、より小さな(正確にない)モデルを訓練する方がよい。 本稿では,デバイスにおけるFLモデルのパラメータの連続的な凍結とトレーニングを可能にし,デバイスにおけるトレーニングのリソース要求を低減し,パラメータ間の共適応を十分に可能とした新しい手法を提案する。 実験により,本手法はトレーニングされたモデルの精度(52.4 p.p.)を大幅に向上させ,分散デバイス上で利用可能な計算能力を効率的に集約することを示した。

Federated learning (FL) is usually performed on resource-constrained edge devices, e.g., with limited memory for the computation. If the required memory to train a model exceeds this limit, the device will be excluded from the training. This can lead to a lower accuracy as valuable data and computation resources are excluded from training, also causing bias and unfairness. The FL training process should be adjusted to such constraints. The state-of-the-art techniques propose training subsets of the FL model at constrained devices, reducing their resource requirements for training. But these techniques largely limit the co-adaptation among parameters of the model and are highly inefficient, as we show: it is actually better to train a smaller (less accurate) model by the system where all the devices can train the model end-to-end, than applying such techniques. We propose a new method that enables successive freezing and training of the parameters of the FL model at devices, reducing the training's resource requirements at the devices, while still allowing enough co-adaptation between parameters. We show through extensive experimental evaluation that our technique greatly improves the accuracy of the trained model (by 52.4 p.p.) compared with the state of the art, efficiently aggregating the computation capacity available on distributed devices.
翻訳日:2023-11-30 15:55:16 公開日:2023-11-27
# SAMoSSA:確率的自己回帰雑音を用いた多変量特異スペクトル解析

SAMoSSA: Multivariate Singular Spectrum Analysis with Stochastic Autoregressive Noise ( http://arxiv.org/abs/2305.16491v2 )

ライセンス: Link先を確認
Abdullah Alomar, Munther Dahleh, Sean Mann, Devavrat Shah(参考訳) 時系列分析の確立された実践は、決定論的、非定常的傾向と季節性成分を推定し、残りの確率的、定常的な成分を学習することを含む。 近年、相関した定常成分がない場合、多変量特異スペクトル分析(mssa)を用いて、決定論的非定常成分を正確に学習できることが示されているが、決定論的非定常成分がなければ、自己回帰的(ar)定常成分も、例えば通常の最小二乗(ols)を介して容易に学習できる。 しかし、決定論的要素と定常要素の両方を含む多段階学習アルゴリズムの理論的基盤は、その普及にもかかわらず文献に欠落している。 そこで本研究では,非定常成分を推定するためにmssaを最初に適用し,残差時系列から学習した定常ar成分が存在するにもかかわらず,非定常成分を推定する。 提案アルゴリズムSAMoSSAの有限サンプル予測整合性は,データ駆動型であり,パラメータ調整が最小限である。 理論的保証を確立するためには、3つのハードルを克服する。 i)安定したARプロセスのページ行列のスペクトルを特徴付けることにより、mSSAの分析を拡大する。 (ii)任意の有界摂動の存在下でのarプロセス識別の解析を延長する。 (iii)モデル同定のみを考えるのではなく、サンプル外あるいは予測誤差を特徴付ける。 代表的な実証研究を通じて,既存のベースラインと比較して,SAMoSSAの優れた性能を検証した。 特に、ARノイズ構造を説明するSAMoSSAの能力は、さまざまなベンチマークデータセットに対して5%から37%の改善をもたらす。

The well-established practice of time series analysis involves estimating deterministic, non-stationary trend and seasonality components followed by learning the residual stochastic, stationary components. Recently, it has been shown that one can learn the deterministic non-stationary components accurately using multivariate Singular Spectrum Analysis (mSSA) in the absence of a correlated stationary component; meanwhile, in the absence of deterministic non-stationary components, the Autoregressive (AR) stationary component can also be learnt readily, e.g. via Ordinary Least Squares (OLS). However, a theoretical underpinning of multi-stage learning algorithms involving both deterministic and stationary components has been absent in the literature despite its pervasiveness. We resolve this open question by establishing desirable theoretical guarantees for a natural two-stage algorithm, where mSSA is first applied to estimate the non-stationary components despite the presence of a correlated stationary AR component, which is subsequently learned from the residual time series. We provide a finite-sample forecasting consistency bound for the proposed algorithm, SAMoSSA, which is data-driven and thus requires minimal parameter tuning. To establish theoretical guarantees, we overcome three hurdles: (i) we characterize the spectra of Page matrices of stable AR processes, thus extending the analysis of mSSA; (ii) we extend the analysis of AR process identification in the presence of arbitrary bounded perturbations; (iii) we characterize the out-of-sample or forecasting error, as opposed to solely considering model identification. Through representative empirical studies, we validate the superior performance of SAMoSSA compared to existing baselines. Notably, SAMoSSA's ability to account for AR noise structure yields improvements ranging from 5% to 37% across various benchmark datasets.
翻訳日:2023-11-30 15:54:53 公開日:2023-11-27
# sim-suction:合成ベンチマークを用いたクラッタ環境における吸引把握ポリシーの学習

Sim-Suction: Learning a Suction Grasp Policy for Cluttered Environments Using a Synthetic Benchmark ( http://arxiv.org/abs/2305.16378v2 )

ライセンス: Link先を確認
Juncheng Li, David J. Cappelleri(参考訳) 本稿では,動的カメラ視点を持つ移動体操作プラットフォームのためのロバストな物体認識型吸引把持ポリシであるsim-suctionを提案する。 吸引把握ポリシーは、通常、大規模で正確に注釈された吸引把握データセットを必要とするデータ駆動アプローチを用いる。 しかし、散らばった環境における吸引把握データセットの生成は未解明のままであり、興味の対象とその周辺環境との関係については不確実性を残している。 そこで本研究では,500個の乱雑な環境と320万個のアノテートされた吸引把握ポーズからなる,ベンチマーク合成データセットSim-Suction-Datasetを提案する。 効率的なsim-suction-dataset生成プロセスは、解析モデルと動的物理的シミュレーションを組み合わせて、高速で正確な吸入把握ポーズアノテーションを作成することによって、新しい洞察を提供する。 sim-suction-pointnet では,ゼロショットテキスト対セグメンテーションの相乗効果を活かし,sim-suction-dataset からポイントワイズアバタンスを学習することにより,ロバストな6次元吸引把持ポーズを生成する。 全ての物体を拾うための実世界の実験では、Sim-Suction-Pointnetは96.76%、94.23%、92.39%の粗いレベル1オブジェクト(原始的な形状)、粗いレベル2オブジェクト(より複雑な形状)、粗い混合オブジェクトをそれぞれ達成している。 Sim-Suctionポリシーは、散らかった混合シーンで約21%テストされた最先端のベンチマークを上回った。

This paper presents Sim-Suction, a robust object-aware suction grasp policy for mobile manipulation platforms with dynamic camera viewpoints, designed to pick up unknown objects from cluttered environments. Suction grasp policies typically employ data-driven approaches, necessitating large-scale, accurately-annotated suction grasp datasets. However, the generation of suction grasp datasets in cluttered environments remains underexplored, leaving uncertainties about the relationship between the object of interest and its surroundings. To address this, we propose a benchmark synthetic dataset, Sim-Suction-Dataset, comprising 500 cluttered environments with 3.2 million annotated suction grasp poses. The efficient Sim-Suction-Dataset generation process provides novel insights by combining analytical models with dynamic physical simulations to create fast and accurate suction grasp pose annotations. We introduce Sim-Suction-Pointnet to generate robust 6D suction grasp poses by learning point-wise affordances from the Sim-Suction-Dataset, leveraging the synergy of zero-shot text-to-segmentation. Real-world experiments for picking up all objects demonstrate that Sim-Suction-Pointnet achieves success rates of 96.76%, 94.23%, and 92.39% on cluttered level 1 objects (prismatic shape), cluttered level 2 objects (more complex geometry), and cluttered mixed objects, respectively. The Sim-Suction policies outperform state-of-the-art benchmarks tested by approximately 21% in cluttered mixed scenes.
翻訳日:2023-11-30 15:54:26 公開日:2023-11-27
# グラフ着色問題に対する効率的なQUBO定式化のための次数削減法

A degree reduction method for an efficient QUBO formulation for the graph coloring problem ( http://arxiv.org/abs/2306.12081v2 )

ライセンス: Link先を確認
Namho Hong, Hyunwoo Jung, Hyosang Kang, Hyunjin Lim, Chaehwan Seol, and Seokhyun Um(参考訳) 自由マンと石川が導入したモノミアル上の従来の次数還元法を一般化する二変数上の等質対称多項式の新しい次数還元法を提案する。 また,二変数の一般多項式に対する次数削減アルゴリズムを設計し,ランダムグラフのグラフ彩色問題をシミュレートし,従来の手法と比較した。 その結果,本手法は従来の2次多項式よりも少ない変数を含む縮小2次多項式を生成できることがわかった。

We introduce a new degree reduction method for homogeneous symmetric polynomials on binary variables that generalizes the conventional degree reduction methods on monomials introduced by Freedman and Ishikawa. We also design an degree reduction algorithm for general polynomials on binary variables, simulated on the graph coloring problem for random graphs, and compared the results with the conventional methods. The simulated results show that our new method produces reduced quadratic polynomials that contains less variables than the reduced quadratic polynomials produced by the conventional methods.
翻訳日:2023-11-30 15:47:03 公開日:2023-11-27
# マスク拡散モデルは高速分布学習者である

Masked Diffusion Models Are Fast Distribution Learners ( http://arxiv.org/abs/2306.11363v4 )

ライセンス: Link先を確認
Jiachen Lei, Qinglong Wang, Peng Cheng, Zhongjie Ba, Zhan Qin, Zhibo Wang, Zhenguang Liu, Kui Ren(参考訳) 拡散モデルは画像生成のためのemph{de-facto}モデルとして登場したが、重いトレーニングのオーバーヘッドは研究コミュニティで広く採用されるのを妨げる。 拡散モデルは、スクラッチからすべてのきめ細かい視覚情報を学習するために一般的に訓練されている。 このパラダイムは不要なトレーニングコストを引き起こす可能性があるため、詳細な調査が必要となる。 本研究では,まずモデルを事前学習し,未知の実像分布をゆるやかに特徴付けるプライマー分布を学習することにより,強い拡散モデルを訓練できることを示す。 そして、様々な生成タスクに対して、事前学習したモデルを効率的に微調整することができる。 事前学習の段階では、入力画像の高割合(例えば最大90%)をマスキングして、プリンシパル分布を近似的に表現し、マスク付きデノナイジングスコアマッチング目標を導入して、可視領域を識別するモデルを訓練する。 その後の微調整段階において,マスキングを伴わずに効率的に拡散モデルを訓練する。 2段階のトレーニングフレームワークを利用することで,CelebA-HQ $256 \times 256$のトレーニングアクセラレーションと新たなFIDスコア6.27を達成した。 事前トレーニングされたモデルの一般化は、異なるダウンストリームデータセットでスクラッチからトレーニングされたモデルよりも優れたパフォーマンスのモデルを構築するのに役立つ。 例えば、VGGFace2で事前トレーニングされた拡散モデルは、3000の画像のみを含む異なるデータセットで微調整された場合、46\%の品質改善が達成される。 私たちのコードは \url{https://github.com/jiachenlei/maskdm} で利用可能です。

Diffusion model has emerged as the \emph{de-facto} model for image generation, yet the heavy training overhead hinders its broader adoption in the research community. We observe that diffusion models are commonly trained to learn all fine-grained visual information from scratch. This paradigm may cause unnecessary training costs hence requiring in-depth investigation. In this work, we show that it suffices to train a strong diffusion model by first pre-training the model to learn some primer distribution that loosely characterizes the unknown real image distribution. Then the pre-trained model can be fine-tuned for various generation tasks efficiently. In the pre-training stage, we propose to mask a high proportion (e.g., up to 90\%) of input images to approximately represent the primer distribution and introduce a masked denoising score matching objective to train a model to denoise visible areas. In subsequent fine-tuning stage, we efficiently train diffusion model without masking. Utilizing the two-stage training framework, we achieves significant training acceleration and a new FID score record of 6.27 on CelebA-HQ $256 \times 256$ for ViT-based diffusion models. The generalizability of a pre-trained model further helps building models that perform better than ones trained from scratch on different downstream datasets. For instance, a diffusion model pre-trained on VGGFace2 attains a 46\% quality improvement when fine-tuned on a different dataset that contains only 3000 images. Our code is available at \url{https://github.com/jiachenlei/maskdm}.
翻訳日:2023-11-30 15:46:54 公開日:2023-11-27
# パラメータ効率は不十分:密集予測のためのパラメータ、メモリ、時間効率の良いアダプタチューニング

Parameter-efficient is not sufficient: Exploring Parameter, Memory, and Time Efficient Adapter Tuning for Dense Predictions ( http://arxiv.org/abs/2306.09729v2 )

ライセンス: Link先を確認
Dongshuo Yin and Xueting Han and Bin Li and Hao Feng and Jing Bai(参考訳) 事前トレーニングと微調整はコンピュータビジョン(CV)において一般的なパラダイムである。 近年,パラメータ効率変換学習 (PETL) 法は,数個の訓練可能なパラメータを持つ下流タスクに適応する上で有望な性能を示した。 その成功にもかかわらず、CVの既存のPETL手法は計算コストがかかり、トレーニング中に大量のメモリと時間コストが必要になるため、低リソースのユーザは大規模なモデルの研究や応用を行うことができない。 本稿では,パラメータ,メモリ,時間効率のよいビジュアルアダプタ(\mathrm{E^3VA}$)チューニングを提案し,この問題に対処する。 冷凍プレトレーニングモデルによる高価なバックプロパゲーションの必要性を排除し,トレーニングメモリとトレーニング時間を大幅に節約できる低ランクアダプタ用勾配バックプロパゲーションハイウェイを提供する。 さらに,CVタスクのモデル性能向上のために,$\mathrm{E^3VA}$構造を最適化する。 COCO、ADE20K、Pascal VOCベンチマークの大規模な実験によると、$\mathrm{E^3VA}$は62.2%のトレーニングメモリと26.2%のトレーニング時間を平均で節約でき、PETLメソッドよりも完全な微調整と優れたパフォーマンスを達成する。 トレーニング可能なパラメータが1.5%未満のGTX 1080Ti GPU上で、Swin-LargeベースのCascade Mask RCNNをトレーニングすることも可能です。

Pre-training & fine-tuning is a prevalent paradigm in computer vision (CV). Recently, parameter-efficient transfer learning (PETL) methods have shown promising performance in adapting to downstream tasks with only a few trainable parameters. Despite their success, the existing PETL methods in CV can be computationally expensive and require large amounts of memory and time cost during training, which limits low-resource users from conducting research and applications on large models. In this work, we propose Parameter, Memory, and Time Efficient Visual Adapter ($\mathrm{E^3VA}$) tuning to address this issue. We provide a gradient backpropagation highway for low-rank adapters which eliminates the need for expensive backpropagation through the frozen pre-trained model, resulting in substantial savings of training memory and training time. Furthermore, we optimise the $\mathrm{E^3VA}$ structure for CV tasks to promote model performance. Extensive experiments on COCO, ADE20K, and Pascal VOC benchmarks show that $\mathrm{E^3VA}$ can save up to 62.2% training memory and 26.2% training time on average, while achieving comparable performance to full fine-tuning and better performance than most PETL methods. Note that we can even train the Swin-Large-based Cascade Mask RCNN on GTX 1080Ti GPUs with less than 1.5% trainable parameters.
翻訳日:2023-11-30 15:46:28 公開日:2023-11-27
# 深部ニューラルネットワークのための計算・記憶効率2次ニューロン

Computational and Storage Efficient Quadratic Neurons for Deep Neural Networks ( http://arxiv.org/abs/2306.07294v2 )

ライセンス: Link先を確認
Chuangtao Chen and Grace Li Zhang and Xunzhao Yin and Cheng Zhuo and Ulf Schlichtmann and Bing Li(参考訳) ディープニューラルネットワーク(DNN)は、コンピュータビジョンや自然言語処理など、さまざまな領域に広くデプロイされている。 しかし、DNNの目覚ましい成果は、膨大な計算要求とともに実現されており、リソース制約のあるデバイスへの適用性を阻害している。 この課題に対処するために、多くの研究者が、計算と記憶のコストを軽減するために、ニューラルネットワークの基本的な構成要素である基本的なニューロン構造に注目してきた。 本研究では,2次計算情報の高度活用によって区別される2次ニューロンアーキテクチャを提案する。 より優れた表現性により、提案した二次ニューロンを用いたDNNは、少ないニューロンと計算コストで同様の精度が得られる。 実験により, 提案した二次ニューロン構造は, 以前の線形ニューロンと非線形ニューロンと比較して, 様々なタスクにおいて優れた計算効率と記憶効率を示すことが示された。

Deep neural networks (DNNs) have been widely deployed across diverse domains such as computer vision and natural language processing. However, the impressive accomplishments of DNNs have been realized alongside extensive computational demands, thereby impeding their applicability on resource-constrained devices. To address this challenge, many researchers have been focusing on basic neuron structures, the fundamental building blocks of neural networks, to alleviate the computational and storage cost. In this work, an efficient quadratic neuron architecture distinguished by its enhanced utilization of second-order computational information is introduced. By virtue of their better expressivity, DNNs employing the proposed quadratic neurons can attain similar accuracy with fewer neurons and computational cost. Experimental results have demonstrated that the proposed quadratic neuron structure exhibits superior computational and storage efficiency across various tasks when compared with both linear and non-linear neurons in prior work.
翻訳日:2023-11-30 15:45:20 公開日:2023-11-27
# DP-HyPO: 適応型プライベートハイパーパラメータ最適化フレームワーク

DP-HyPO: An Adaptive Private Hyperparameter Optimization Framework ( http://arxiv.org/abs/2306.05734v2 )

ライセンス: Link先を確認
Hua Wang, Sheng Gao, Huanyu Zhang, Weijie J. Su, Milan Shen(参考訳) ハイパーパラメータ最適化(Hyperparameter Optimization)またはハイパーパラメータチューニング(Hyperparameter tuning)は、モデル性能を改善する技術として広く知られている。 当然ながら、プライベートMLモデルをトレーニングする場合、多くの実践者は、ハイパーパラメータ最適化に関連するプライバシーリスクを見落としていることが多い。 現在、プライバシを保全するハイパーパラメータの最適化を可能にする唯一の既存のアプローチは、複数の実行に対して一様かつランダムにハイパーパラメータを選択し、次に最もパフォーマンスの高いハイパーパラメータを報告することである。 対照的に、非プライベートな環境では、実践者は従来の出力から収集した情報に基づいて次の候補を選択するガウス過程に基づく最適化のような「適応」ハイパーパラメータ最適化手法を一般的に利用する。 プライベートと非プライベートのハイパーパラメータ最適化との大きな対比は、重要な懸念点である。 本稿では,「適応型」プライベートハイパーパラメータ最適化の先駆的フレームワークであるDP-HyPOを紹介し,プライベートと非プライベートのハイパーパラメータ最適化のギャップを埋めることを目的とした。 これを実現するために、我々はフレームワークの包括的な差分プライバシー分析を提供する。 さらに,DP-HyPOが実世界の多様なデータセットに対して有効であることを示す。

Hyperparameter optimization, also known as hyperparameter tuning, is a widely recognized technique for improving model performance. Regrettably, when training private ML models, many practitioners often overlook the privacy risks associated with hyperparameter optimization, which could potentially expose sensitive information about the underlying dataset. Currently, the sole existing approach to allow privacy-preserving hyperparameter optimization is to uniformly and randomly select hyperparameters for a number of runs, subsequently reporting the best-performing hyperparameter. In contrast, in non-private settings, practitioners commonly utilize ``adaptive'' hyperparameter optimization methods such as Gaussian process-based optimization, which select the next candidate based on information gathered from previous outputs. This substantial contrast between private and non-private hyperparameter optimization underscores a critical concern. In our paper, we introduce DP-HyPO, a pioneering framework for ``adaptive'' private hyperparameter optimization, aiming to bridge the gap between private and non-private hyperparameter optimization. To accomplish this, we provide a comprehensive differential privacy analysis of our framework. Furthermore, we empirically demonstrate the effectiveness of DP-HyPO on a diverse set of real-world datasets.
翻訳日:2023-11-30 15:44:50 公開日:2023-11-27
# TorchRL: PyTorch用のデータ駆動意思決定ライブラリ

TorchRL: A data-driven decision-making library for PyTorch ( http://arxiv.org/abs/2306.00577v2 )

ライセンス: Link先を確認
Albert Bou, Matteo Bettini, Sebastian Dittert, Vikash Kumar, Shagun Sodhani, Xiaomeng Yang, Gianni De Fabritiis, Vincent Moens(参考訳) PyTorchは、プレミア機械学習フレームワークとして昇格したが、複雑な現実世界のデータと環境を扱う大規模開発チームに適した、意思決定および制御タスクのための、ネイティブで包括的なライブラリが欠けている。 この問題に対処するため,我々は,pytorchの汎用制御ライブラリであるtorchrlを提案する。 我々は、新しい柔軟なPyTorchプリミティブであるTensorDictを導入し、強化学習(RL)と制御の多くの分野にわたるアルゴリズム開発を容易にする。 ビルディングブロックの詳細な説明と、ドメインとタスクにわたるライブラリの詳細な概要を提供する。 最後に,その信頼性と柔軟性を実験的に実証し,計算効率を示すための比較ベンチマークを示す。 TorchRLは長期的なサポートを強化し、GitHubで公開されており、研究コミュニティ内でより再現性とコラボレーションが可能である。 コードはGitHubで公開されている。

PyTorch has ascended as a premier machine learning framework, yet it lacks a native and comprehensive library for decision and control tasks suitable for large development teams dealing with complex real-world data and environments. To address this issue, we propose TorchRL, a generalistic control library for PyTorch that provides well-integrated, yet standalone components. We introduce a new and flexible PyTorch primitive, the TensorDict, which facilitates streamlined algorithm development across the many branches of Reinforcement Learning (RL) and control. We provide a detailed description of the building blocks and an extensive overview of the library across domains and tasks. Finally, we experimentally demonstrate its reliability and flexibility and show comparative benchmarks to demonstrate its computational efficiency. TorchRL fosters long-term support and is publicly available on GitHub for greater reproducibility and collaboration within the research community. The code is open-sourced on GitHub.
翻訳日:2023-11-30 15:42:48 公開日:2023-11-27
# エネルギー格差:エネルギーモデルにおけるスコア非依存損失

Energy Discrepancies: A Score-Independent Loss for Energy-Based Models ( http://arxiv.org/abs/2307.06431v2 )

ライセンス: Link先を確認
Tobias Schr\"oder, Zijing Ou, Jen Ning Lim, Yingzhen Li, Sebastian J. Vollmer, Andrew B. Duncan(参考訳) エネルギーベースモデルは単純だが強力な確率モデルであるが、それらの普及は訓練の計算負担によって制限されている。 本稿では,スコアや高価なマルコフ連鎖モンテカルロの計算に依存しないエネルギー離散性(ED)と呼ばれる新しい損失関数を提案する。 EDは明示的なスコアマッチングと負のログ類似損失に異なる限界でアプローチし,両者を効果的に補間することを示した。 したがって、最小ed推定はスコアベース推定法で発生する近視性の問題を克服し、理論的な保証を享受する。 数値実験により、EDは明示的なスコアマッチングや対照的な分散よりも、低次元のデータ分布を高速かつ正確に学習することを示した。 高次元画像データでは、多様体仮説が我々のアプローチに制限を与える方法を説明し、エネルギーベースモデルを変分デコーダモデルの先行として訓練することによりエネルギー差分効果を実証する。

Energy-based models are a simple yet powerful class of probabilistic models, but their widespread adoption has been limited by the computational burden of training them. We propose a novel loss function called Energy Discrepancy (ED) which does not rely on the computation of scores or expensive Markov chain Monte Carlo. We show that ED approaches the explicit score matching and negative log-likelihood loss under different limits, effectively interpolating between both. Consequently, minimum ED estimation overcomes the problem of nearsightedness encountered in score-based estimation methods, while also enjoying theoretical guarantees. Through numerical experiments, we demonstrate that ED learns low-dimensional data distributions faster and more accurately than explicit score matching or contrastive divergence. For high-dimensional image data, we describe how the manifold hypothesis puts limitations on our approach and demonstrate the effectiveness of energy discrepancy by training the energy-based model as a prior of a variational decoder model.
翻訳日:2023-11-30 15:35:31 公開日:2023-11-27
# 機械学習とトポロジカルデータ解析は3Dスキャンでヒト乳頭の特徴を同定する

Machine learning and Topological data analysis identify unique features of human papillae in 3D scans ( http://arxiv.org/abs/2307.06255v2 )

ライセンス: Link先を確認
Rayna Andreeva, Anwesha Sarkar, Rik Sarkar(参考訳) 舌の表面は、味覚やテクスチュラル感覚の力学や化学に不可欠なパピラを包含している。 パピラエの味覚機能はよく研究されているが、個体内および個体間のパピラエの特異性はいまだに解明されていない。 そこで本研究では,ヒト乳頭3次元顕微鏡(n=2092)における最初の機械学習フレームワークについて,幾何学的特徴と位相的特徴の特異性を明らかにする。 離散微分幾何学と計算トポロジーから導かれる多くの特徴に基づいて, 乳頭形状の微細な差異を計算的に検討した。 解釈可能な機械学習技術は、乳頭形状の持続的ホモロジー特徴が生物学的変数の予測に最も有効であることを示している。 これらの特徴を少量のデータサンプルでトレーニングしたモデルは、85%の精度で乳頭の種類を予測する。 パピラ型分類モデルは、フィリフォームと菌形パピラの空間配置を表面上にマッピングすることができる。 特筆すべきは、パピラは個体間で識別され、個人は1つのパピラから15人の参加者のうち48%の精度で識別できることである。 総じて、舌乳頭が食物の嗜好や口腔の診断に新しい研究の方向性を刺激するユニークな識別子として機能することを示す最初の前例のない証拠である。

The tongue surface houses a range of papillae that are integral to the mechanics and chemistry of taste and textural sensation. Although gustatory function of papillae is well investigated, the uniqueness of papillae within and across individuals remains elusive. Here, we present the first machine learning framework on 3D microscopic scans of human papillae (n = 2092), uncovering the uniqueness of geometric and topological features of papillae. The finer differences in shapes of papillae are investigated computationally based on a number of features derived from discrete differential geometry and computational topology. Interpretable machine learning techniques show that persistent homology features of the papillae shape are the most effective in predicting the biological variables. Models trained on these features with small volumes of data samples predict the type of papillae with an accuracy of 85%. The papillae type classification models can map the spatial arrangement of filiform and fungiform papillae on a surface. Remarkably, the papillae are found to be distinctive across individuals and an individual can be identified with an accuracy of 48% among the 15 participants from a single papillae. Collectively, this is the first unprecedented evidence demonstrating that tongue papillae can serve as a unique identifier inspiring new research direction for food preferences and oral diagnostics.
翻訳日:2023-11-30 15:35:14 公開日:2023-11-27
# 一般パラメトリック密度モデルのためのロバスト密度パワーベース分岐の最小化

Minimizing robust density power-based divergences for general parametric density models ( http://arxiv.org/abs/2307.05251v3 )

ライセンス: Link先を確認
Akifumi Okuno(参考訳) 密度パワー分散(DPD)は、観測の基盤となる分布を、外れ値の存在下で確実に推定するように設計されている。 しかし、PDは推定されるパラメトリック密度モデルのパワーの積分を含み、積分項の明示的な形式は正規密度や指数密度のような特定の密度に対してのみ導出することができる。 最適化アルゴリズムの反復ごとに数値積分を行うことができるが、計算複雑性はより一般的なパラメトリック密度に対するPDDに基づく推定の実践的応用を妨げている。 そこで本研究では,一般パラメトリック密度モデルのdpdを最小化する確率的手法を提案する。 提案手法は、非正規化モデルを利用することで、他の密度電力ベースの$\gamma$-divergencesを最小化するためにも用いられる。

Density power divergence (DPD) is designed to robustly estimate the underlying distribution of observations, in the presence of outliers. However, DPD involves an integral of the power of the parametric density models to be estimated; the explicit form of the integral term can be derived only for specific densities, such as normal and exponential densities. While we may perform a numerical integration for each iteration of the optimization algorithms, the computational complexity has hindered the practical application of DPD-based estimation to more general parametric densities. To address the issue, this study introduces a stochastic approach to minimize DPD for general parametric density models. The proposed approach also can be employed to minimize other density power-based $\gamma$-divergences, by leveraging unnormalized models.
翻訳日:2023-11-30 15:34:52 公開日:2023-11-27
# RACH-Space:Adaptive Convex Hull Spaceの再構築と弱監視への応用

RACH-Space: Reconstructing Adaptive Convex Hull Space with applications in weak supervision ( http://arxiv.org/abs/2307.04870v4 )

ライセンス: Link先を確認
Woojoo Na(参考訳) 本稿では,アンサンブル学習の新しい分類法であるRACH-Spaceを紹介する。 特に,弱教師付き学習のためのラベルモデルとして適用可能性を示す。 RACH-Spaceは、データや弱い信号に対する最小限の仮定で実装の単純さを提供する。 このモデルは、完全なラベル付きデータが利用できないシナリオに適している。 本手法は弱信号にまたがる空間の幾何学的解釈に基づいている。 弱信号の一般セットに基づく高次元凸船体構造の解析は,機械学習を用いた幾何学を橋渡しする。 また、RACH-Spaceは実践的にうまく機能し、弱教師付き学習のための最良のラベルモデルと比較した。

We introduce RACH-Space, a novel classification method in ensemble learning. In particular, we show its applicability as a label model for weakly supervised learning. RACH-Space offers simplicity in implementation with minimal assumptions on the data or weak signals. The model is well suited for scenarios where fully labeled data is not available. Our method is built upon geometrical interpretation of the space spanned by weak signals. Our analysis of the high dimensional convex hull structure underlying general set of weak signals bridges geometry with machine learning. Empirical results also demonstrate that RACH-Space works well in practice and compares favorably to best existing label models for weakly supervised learning.
翻訳日:2023-11-30 15:34:38 公開日:2023-11-27
# RealLiFe:階層スパースグラディエント線によるリアルタイム光電場再構成

RealLiFe: Real-Time Light Field Reconstruction via Hierarchical Sparse Gradient Descent ( http://arxiv.org/abs/2307.03017v3 )

ライセンス: Link先を確認
Yijie Deng, Lei Han, Tianpeng Lin, Lin Li, Jinzhi Zhang, and Lu Fang(参考訳) 拡張現実感(XR)技術の台頭に伴い、スパースビューの入力からリアルタイムの光場生成の必要性が高まっている。 既存の手法は、高品質なノベルビューを生成することができるが、長い推論/トレーニングのコストがかかるオフライン技術と、一般化性に欠けるか、不満足な結果を生み出すオンライン手法に分類することができる。 しかし,Multi-plane Images (MPI) の固有スパース多様体は,レンダリング品質を維持しつつ,光電場生成の大幅な加速を可能にした。 この知見に基づいて,提案した階層スパース勾配Descent (HSGD) を利用して,スパース画像から高品質な光フィールドをリアルタイムで生成する光場最適化手法であるEffLiFeを紹介する。 技術的には、シーンの粗いMPIはまず3D CNNを使用して生成され、数回のイテレーションで重要なMPI勾配のみに焦点をあてることで、より疎く最適化される。 それでも、最適化のみに依存することは、咬合境界でのアーティファクトにつながる可能性がある。 そこで本研究では,入力を反復的にフィルタリングすることで,隠蔽領域の視覚的アーティファクトを除去するオクルージョン対応イテレーティブリファインメントモジュールを提案する。 大規模な実験により,従来のオフライン手法に比べて平均100倍高速で視覚的品質を達成でき,他のオンライン手法に比べて性能(PSNRでは約2dB高い)が向上した。

With the rise of Extended Reality (XR) technology, there is a growing need for real-time light field generation from sparse view inputs. Existing methods can be classified into offline techniques, which can generate high-quality novel views but at the cost of long inference/training time, and online methods, which either lack generalizability or produce unsatisfactory results. However, we have observed that the intrinsic sparse manifold of Multi-plane Images (MPI) enables a significant acceleration of light field generation while maintaining rendering quality. Based on this insight, we introduce EffLiFe, a novel light field optimization method, which leverages the proposed Hierarchical Sparse Gradient Descent (HSGD) to produce high-quality light fields from sparse view images in real time. Technically, the coarse MPI of a scene is first generated using a 3D CNN, and it is further sparsely optimized by focusing only on important MPI gradients in a few iterations. Nevertheless, relying solely on optimization can lead to artifacts at occlusion boundaries. Therefore, we propose an occlusion-aware iterative refinement module that removes visual artifacts in occluded regions by iteratively filtering the input. Extensive experiments demonstrate that our method achieves comparable visual quality while being 100x faster on average than state-of-the-art offline methods and delivering better performance (about 2 dB higher in PSNR) compared to other online approaches.
翻訳日:2023-11-30 15:34:13 公開日:2023-11-27
# グローバルクエンチ後の三成分情報の普遍性:スピンフリップと半局所電荷

Universality in the tripartite information after global quenches: spin flip and semilocal charges ( http://arxiv.org/abs/2307.01842v2 )

ライセンス: Link先を確認
Vanja Mari\'c(参考訳) 我々は、時間発展が半局所保存作用素を持つ局所ハミルトニアンの下にある大域的クエンチの後に現れる定常状態を研究する。 特に、量子xy鎖に双対なモデルについて研究する。 初期状態における局所摂動は定常状態における空間相関の指数関数的減衰を代数的崩壊に変えることができることを示す。 隣り合う3つのサブシステムの三部情報に着目し, (R\enyi-$\alpha$) 絡み合いエントロピーの挙動について検討した。 大きなサブシステムの限界において、相関の代数的崩壊を伴う定常状態において、三成分情報は交叉比に普遍的な依存を持つ非零値を示し、相関の指数的減衰とともに定常状態において消失する。

We study stationary states emerging after global quenches in which the time evolution is under local Hamiltonians that possess semilocal conserved operators. In particular, we study a model that is dual to quantum XY chain. We show that a localized perturbation in the initial state can turn an exponential decay of spatial correlations in the stationary state into an algebraic decay. We investigate the consequences on the behavior of the (R\'enyi-$\alpha$) entanglement entropies, focusing on the tripartite information of three adjacent subsystems. In the limit of large subsystems, we show that in the stationary state with the algebraic decay of correlations the tripartite information exhibits a non-zero value with a universal dependency on the cross ratio, while it vanishes in the stationary state with the exponential decay of correlations.
翻訳日:2023-11-30 15:33:47 公開日:2023-11-27
# DeepTSF: 時系列予測のためのコードレス機械学習操作

DeepTSF: Codeless machine learning operations for time series forecasting ( http://arxiv.org/abs/2308.00709v2 )

ライセンス: Link先を確認
Sotiris Pelekis, Evangelos Karakolis, Theodosios Pountridis, George Kormpakis, George Lampropoulos, Spiros Mouzakitis, Dimitris Askounis(参考訳) 本稿では、ワークフロー自動化とコードレスモデリングによる時系列予測の革新を目的とした、包括的な機械学習操作(MLOps)フレームワークであるDeepTSFを提案する。 DeepTSFはMLライフサイクルの重要な側面を自動化し、機械学習(ML)とディープラーニング(DL)ベースの予測に携わるデータサイエンティストやMLopsエンジニアにとって理想的なツールとなる。 deeptsfはユーザに対して、堅牢でユーザフレンドリなソリューションを提供する一方で、既存のデータ分析ワークフローとシームレスに統合して、生産性と互換性を高めるように設計されている。 このフレームワークは、データサイエンティストや他の高レベルの利害関係者に適したフロントエンドユーザインターフェース(ui)を提供し、洞察に富んだ可視化と評価メトリクスを通じた総合的な理解を可能にする。 DeepTSFはまた、ID管理とアクセス許可機構を通じてセキュリティを優先する。 I-NERGYプロジェクトの実運用におけるDeepTSFの適用は、DLベースの負荷予測におけるDeepTSFの有効性をすでに証明しており、電力とエネルギーシステム領域における重要な付加価値を示している。

This paper presents DeepTSF, a comprehensive machine learning operations (MLOps) framework aiming to innovate time series forecasting through workflow automation and codeless modeling. DeepTSF automates key aspects of the ML lifecycle, making it an ideal tool for data scientists and MLops engineers engaged in machine learning (ML) and deep learning (DL)-based forecasting. DeepTSF empowers users with a robust and user-friendly solution, while it is designed to seamlessly integrate with existing data analysis workflows, providing enhanced productivity and compatibility. The framework offers a front-end user interface (UI) suitable for data scientists, as well as other higher-level stakeholders, enabling comprehensive understanding through insightful visualizations and evaluation metrics. DeepTSF also prioritizes security through identity management and access authorization mechanisms. The application of DeepTSF in real-life use cases of the I-NERGY project has already proven DeepTSF's efficacy in DL-based load forecasting, showcasing its significant added value in the electrical power and energy systems domain.
翻訳日:2023-11-30 15:26:08 公開日:2023-11-27
# llmへのマルチビット情報注入のためのcodable watermarking

Towards Codable Watermarking for Injecting Multi-bit Information to LLM ( http://arxiv.org/abs/2307.15992v2 )

ライセンス: Link先を確認
Lean Wang, Wenkai Yang, Deli Chen, Hao Zhou, Yankai Lin, Fandong Meng, Jie Zhou, Xu Sun(参考訳) 大規模言語モデル (LLM) は, 流布度やリアリズムが増大するテキストを生成するため, LLM の悪用を防ぐために, テキストのソースを特定する必要性が高まっている。 テキスト透かし技術は、LLMによって生成されたテキストを、生成されたテキストに隠れたパターンを注入することによって区別する上で、信頼性が証明されている。 しかし,従来のLLMの透かし方式はエンコーディング非効率であり(LLMから生成されるか否かに関わらず1ビットの情報のみを含む),異なるLLMアプリケーションシナリオにおける多様な情報エンコーディングニーズ(モデルバージョン,生成時間,ユーザIDなど)を柔軟に満たすことができない。 本研究では,テキスト透かしがよりカスタマイズ可能な情報を運ぶことができるCTWL (Codable Text Watermarking for LLMs) に関する,最初の体系的研究を行う。 まず, LLM透かし技術の分類について検討し, CTWLの数学的定式化について述べる。 また,(1)透かし成功率,(2)各種腐敗に対するロバスト性,(3)ペイロード情報の符号化率,(4)符号化・復号効率,(5)生成されたテキストの品質への影響など,ctwlの総合評価システムを提供する。 これらの非パレート改善指標の要件を満たすために,情報エンコーディングのための利用可能かつ使用不能な語彙がほぼ同等の確率を持つことを保証する動機に基づいて,バランスマーキングというctwl手法を考案する。 既存の作業から拡張されたランダムな語彙分割と比較して、確率均衡な語彙分割は生成したテキストの品質を著しく向上させることができる。 広範な実験結果から,本手法は総合評価で直接ベースラインを上回った。

As large language models (LLMs) generate texts with increasing fluency and realism, there is a growing need to identify the source of texts to prevent the abuse of LLMs. Text watermarking techniques have proven reliable in distinguishing whether a text is generated by LLMs by injecting hidden patterns into the generated texts. However, we argue that existing watermarking methods for LLMs are encoding-inefficient (only contain one bit of information - whether it is generated from an LLM or not) and cannot flexibly meet the diverse information encoding needs (such as encoding model version, generation time, user id, etc.) in different LLMs application scenarios. In this work, we conduct the first systematic study on the topic of Codable Text Watermarking for LLMs (CTWL) that allows text watermarks to carry more customizable information. First of all, we study the taxonomy of LLM watermarking technology and give a mathematical formulation for CTWL. Additionally, we provide a comprehensive evaluation system for CTWL: (1) watermarking success rate, (2) robustness against various corruptions, (3) coding rate of payload information, (4) encoding and decoding efficiency, (5) impacts on the quality of the generated text. To meet the requirements of these non-Pareto-improving metrics, we devise a CTWL method named Balance-Marking, based on the motivation of ensuring that available and unavailable vocabularies for encoding information have approximately equivalent probabilities. Compared to the random vocabulary partitioning extended from the existing work, a probability-balanced vocabulary partition can significantly improve the quality of the generated text. Extensive experimental results have shown that our method outperforms a direct baseline under comprehensive evaluation.
翻訳日:2023-11-30 15:25:28 公開日:2023-11-27
# 因果推定評価のためのRCTリジェクションサンプリング

RCT Rejection Sampling for Causal Estimation Evaluation ( http://arxiv.org/abs/2307.15176v2 )

ライセンス: Link先を確認
Katherine A. Keith, Sergey Feldman, David Jurgens, Jonathan Bragg, Rohit Bhattacharya(参考訳) コンバウンディングは観測データから因果効果の偏りのない推定に重要な障害となる。 テキストデータやゲノミクス,行動社会科学といった,高次元の共変量設定では,機械学習手法を因果推定の目標に適応させることで,共変量を調整する方法が提案されている。 しかし、これらの調整方法の実証的な評価は困難で制限されている。 本研究では,評価設計を単純化し,実データを使用する有望な実証的評価戦略を構築する。rcts(subsampling randomized controlled trials)は,rctsの平均的因果効果を基盤として使用しながら,複合的な観測データセットを作成する。 提案手法は, RCT拒絶サンプリングと呼ばれる新しいサンプリングアルゴリズムに寄与し, 観測データに因果同定が保持されていることを理論的に保証し, 基幹RCTとの比較を可能にする。 合成データを用いて,本アルゴリズムは,従来提案されていたアルゴリズムでは必ずしもそうではないような,既成のサンプルに対してオラクル推定器を評価した場合のバイアスが小さくなることを示す。 この識別結果に加えて, RCT のリジェクションサンプリングを自身のデータセットで使用することを計画している評価設計者に対して, 有限データ考慮点をいくつか挙げる。 概念実証として、サンプル評価パイプラインを実装し、これらの有限データの考察を、約70kの観測とテキストデータを高次元の共変量として公開する、新しい実世界のrctで検討する。 これらの貢献は、因果推定に対する経験的評価を改善するという、より広いアジェンダに向かっている。

Confounding is a significant obstacle to unbiased estimation of causal effects from observational data. For settings with high-dimensional covariates -- such as text data, genomics, or the behavioral social sciences -- researchers have proposed methods to adjust for confounding by adapting machine learning methods to the goal of causal estimation. However, empirical evaluation of these adjustment methods has been challenging and limited. In this work, we build on a promising empirical evaluation strategy that simplifies evaluation design and uses real data: subsampling randomized controlled trials (RCTs) to create confounded observational datasets while using the average causal effects from the RCTs as ground-truth. We contribute a new sampling algorithm, which we call RCT rejection sampling, and provide theoretical guarantees that causal identification holds in the observational data to allow for valid comparisons to the ground-truth RCT. Using synthetic data, we show our algorithm indeed results in low bias when oracle estimators are evaluated on the confounded samples, which is not always the case for a previously proposed algorithm. In addition to this identification result, we highlight several finite data considerations for evaluation designers who plan to use RCT rejection sampling on their own datasets. As a proof of concept, we implement an example evaluation pipeline and walk through these finite data considerations with a novel, real-world RCT -- which we release publicly -- consisting of approximately 70k observations and text data as high-dimensional covariates. Together, these contributions build towards a broader agenda of improved empirical evaluation for causal estimation.
翻訳日:2023-11-30 15:24:56 公開日:2023-11-27
# スピン系上の量子非退化測定における誤差チャネル

Error channels in quantum nondemolition measurements on spin systems ( http://arxiv.org/abs/2307.14103v2 )

ライセンス: Link先を確認
Benjamin Joecker, Holly G. Stemp, Irene Fern\'andez de Fuentes, Mark A. I. Johnson, Andrea Morello(参考訳) 量子非破壊測定(QND)は、量子情報処理の貴重な資源である。 反復QND測定は、基礎となる単発測定が低忠実度であっても、キュービットの準備と測定の忠実度を高めることができる。 しかし、この忠実度向上は、物理系が真にQND過程を許容する程度によって制限される - 理想的なQND測定から逸脱すると、測定が繰り返し過ぎるとビットフリップエラー(「量子ジャンプ」)が発生する。 そこで我々は,モデルスピン量子ビット系における完全QND測定の偏差から生じる誤差を理解し,定量化する理論的枠組みを開発する。 まず,交換結合電子スピン qubits tunnel-coupled to a charge reservoir のユビキタスな例に基づくモデルを開発した。 次に電子-核スピン系に拡張し、2つの限界の間の重要な類似性と相違を説明する。 シリコン中のドナー核スピンのよく理解されたプラットフォームに適用すると、このモデルは実験と良好な一致を示す。 付加一般性については、異方性スピンカップリングの効果を考慮して研究を終える。

Quantum nondemolition (QND) measurements are a precious resource for quantum information processing. Repetitive QND measurements can boost the fidelity of qubit preparation and measurement, even when the underlying single-shot measurements are of low fidelity. However, this fidelity boost is limited by the degree in which the physical system allows for a truly QND process -- slight deviations from ideal QND measurement result in bit flip errors (`quantum jumps') if the measurement is repeated too often. Here, we develop a theoretical framework to understand and quantify the resulting error arising from deviation from perfect QND measurement in model spin qubit systems. We first develop our model on the ubiquitous example of exchange-coupled electron spins qubits tunnel-coupled to a charge reservoir. We then extend it to electron-nuclear spin systems, to illustrate the crucial similarities and differences between the two limits. Applied to the well-understood platform of a donor nuclear spin in silicon, the model shows excellent agreement with experiments. For added generality, we conclude the work by considering the effect of anisotropic spin couplings.
翻訳日:2023-11-30 15:24:01 公開日:2023-11-27
# 非二項安定化符号からのナラインCFT

Narain CFTs from nonbinary stabilizer codes ( http://arxiv.org/abs/2307.10581v3 )

ライセンス: Link先を確認
Yasin Ferdous Alam, Kohki Kawabata, Tatsuma Nishioka, Takuya Okuda and Shinichiro Yahagi(参考訳) 我々は、カライン共形体論(CFT)を、クーディット安定化符号から、素電力オーダーの有限体上の量子安定化符号($p$素数と$m\geq 1$)、または$k>1$の環上の量子安定化符号($k>1$)の構成へと一般化する。 我々の構成は有理 CFT であり、これは以前の CFT よりも、ナライン CFT のモジュライ空間のより大きな点集合をカバーする。 また、非ゼロ論理量子ビットの量子安定化符号と有限集合のナライン CFT との対応も提案する。 本稿では,よく知られた安定化符号との対応について述べる。

We generalize the construction of Narain conformal field theories (CFTs) from qudit stabilizer codes to the construction from quantum stabilizer codes over the finite field of prime power order ($\mathbb{F}_{p^m}$ with $p$ prime and $m\geq 1$) or over the ring $\mathbb{Z}_k$ with $k>1$. Our construction results in rational CFTs, which cover a larger set of points in the moduli space of Narain CFTs than the previous one. We also propose a correspondence between a quantum stabilizer code with non-zero logical qubits and a finite set of Narain CFTs. We illustrate the correspondence with well-known stabilizer codes.
翻訳日:2023-11-30 15:20:59 公開日:2023-11-27
# 予測更新動的モデル:オフライン、インクリメンタル、デクリメントから完全な動的変換

The Predicted-Updates Dynamic Model: Offline, Incremental, and Decremental to Fully Dynamic Transformations ( http://arxiv.org/abs/2307.08890v2 )

ライセンス: Link先を確認
Quanquan C. Liu and Vaidehi Srinivas(参考訳) 本稿では, 動的アルゴリズムにおける最初期の超越モデルである予測更新動的モデルを定式化し, オフライン動的, インクリメンタル, デクリメンタルモデルを含む, 多数のよく研究された動的モデルを, 要素の更新時間に関する予測が与えられたときに完全に動的設定に一般化する。 最も基本的なモデルでは、イベントの地平線上で発生するすべてのアップデートに対して、予測されるアップデートタイムのセットを受け取ります。 オフラインの分割・結合アルゴリズムを、オーバーヘッドの少ない完全にダイナミックな設定に"リフト"する、新しいフレームワークを提供する。 予測の$\ell_1$エラーが更新数で線形である場合、アルゴリズムのオフラインランタイム(最大$\mathrm{poly} \log n$ factor)を達成する。 完全にダイナミックなバックストップアルゴリズムが提供されると、予測誤差にかかわらず、我々のアルゴリズムはバックストップアルゴリズムよりも悪くならない。 さらに、我々のフレームワークは予測と実行時の$\ell_1$エラー間のスムーズな線形トレードオフを実現する。 これらは、一貫性、堅牢性、および予測付きアルゴリズムの優雅な劣化のデシラタに対応する。 削除時間と挿入時間のみの予測が与えられた場合に、これらの設定でアルゴリズムを変換し、インクリメンタル設定とデクリメント設定に技術をさらに拡張します。 私たちのフレームワークは一般的であり、三連結性、平面ダイアグラムの全ペア最短経路、$k$-edge接続など様々な問題に対して最先端の動的アルゴリズムよりも効率性が向上し、妥当な大きさの予測誤差が得られるように適用しています。

We formulate the predicted-updates dynamic model, one of the first beyond-worst-case models for dynamic algorithms, which generalizes a large set of well-studied dynamic models including the offline dynamic, incremental, and decremental models to the fully dynamic setting when given predictions about the update times of the elements. In the most basic form of our model, we receive a set of predicted update times for all of the updates that occur over the event horizon. We give a novel framework that "lifts" offline divide-and-conquer algorithms into the fully dynamic setting with little overhead. Using this, we are able to interpolate between the offline and fully dynamic settings; when the $\ell_1$ error of the prediction is linear in the number of updates, we achieve the offline runtime of the algorithm (up to $\mathrm{poly} \log n$ factors). Provided a fully dynamic backstop algorithm, our algorithm will never do worse than the backstop algorithm regardless of the prediction error. Furthermore, our framework achieves a smooth linear trade-off between $\ell_1$ error in the predictions and runtime. These correspond to the desiderata of consistency, robustness, and graceful degradation of the algorithms-with-predictions literature. We further extend our techniques to incremental and decremental settings, transforming algorithms in these settings when given predictions of only the deletion and insertion times, respectively. Our framework is general, and we apply it to obtain improved efficiency bounds over the state-of-the-art dynamic algorithms for a variety of problems including triconnectivity, planar digraph all pairs shortest paths, $k$-edge connectivity, and others, for prediction error of reasonable magnitude.
翻訳日:2023-11-30 15:20:40 公開日:2023-11-27
# ログベース異常検出におけるログ表現の有効性について

On the Effectiveness of Log Representation for Log-based Anomaly Detection ( http://arxiv.org/abs/2308.08736v2 )

ライセンス: Link先を確認
Xingfang Wu, Heng Li, Foutse Khomh(参考訳) ログは、人々がソフトウェアシステムの動作状態を理解するために不可欠な情報源である。 現代のソフトウェアアーキテクチャとメンテナンス手法の進化により、ログ分析の自動化により多くの研究が費やされている。 特に、機械学習(ML)はログ分析タスクで広く使われている。 MLベースのログ解析タスクでは、テキストログデータを数値的な特徴ベクトルに変換することが重要かつ必須のステップである。 しかし、異なるログ表現技術がダウンストリームモデルの性能に与える影響は明らかではなく、研究者や実践者がログ解析の自動化ワークフローで最適なログ表現テクニックを選択する機会を制限している。 そこで本研究では,従来のログ解析研究から広く採用されているログ表現技術について検討し,比較する。 特に6つのログ表現手法を選択し,7つのmlモデルと4つの公開ログデータセット(hdfs, bgl, spirit, thunderbird)を用いてログに基づく異常検出を行う。 また,ログ表現手法を用いた場合,ログ解析プロセスの影響や特徴集約アプローチの違いについても検討した。 実験から,自動ログ分析ワークフローの設計において,今後の研究者や開発者が従うためのヒューリスティックなガイドラインを提示する。 ログ表現技術の包括的比較は、研究者や実践者が異なるログ表現技法の特徴をよりよく理解し、mlベースのログ分析ワークフローに最適なものを選択するためのガイダンスを提供するのに役立つと思います。

Logs are an essential source of information for people to understand the running status of a software system. Due to the evolving modern software architecture and maintenance methods, more research efforts have been devoted to automated log analysis. In particular, machine learning (ML) has been widely used in log analysis tasks. In ML-based log analysis tasks, converting textual log data into numerical feature vectors is a critical and indispensable step. However, the impact of using different log representation techniques on the performance of the downstream models is not clear, which limits researchers and practitioners' opportunities of choosing the optimal log representation techniques in their automated log analysis workflows. Therefore, this work investigates and compares the commonly adopted log representation techniques from previous log analysis research. Particularly, we select six log representation techniques and evaluate them with seven ML models and four public log datasets (i.e., HDFS, BGL, Spirit and Thunderbird) in the context of log-based anomaly detection. We also examine the impacts of the log parsing process and the different feature aggregation approaches when they are employed with log representation techniques. From the experiments, we provide some heuristic guidelines for future researchers and developers to follow when designing an automated log analysis workflow. We believe our comprehensive comparison of log representation techniques can help researchers and practitioners better understand the characteristics of different log representation techniques and provide them with guidance for selecting the most suitable ones for their ML-based log analysis workflow.
翻訳日:2023-11-30 15:11:01 公開日:2023-11-27
# ベイズ流ネットワーク

Bayesian Flow Networks ( http://arxiv.org/abs/2308.07037v4 )

ライセンス: Link先を確認
Alex Graves, Rupesh Kumar Srivastava, Timothy Atkinson, Faustino Gomez(参考訳) 本稿では,独立した分布の集合のパラメータを,ノイズデータサンプルに照らしてベイズ推論によって修正し,第2の相互依存分布を出力するニューラルネットワークに入力として渡す,新たな階層生成モデルであるベイズフローネットワーク(bfns)を提案する。 単純な事前および反復的に2つの分布を更新することから、拡散モデルの逆過程に類似した生成手順が得られるが、前方過程を必要としないという概念的には単純である。 離散時間および連続時間損失関数は、サンプル生成手順とともに、連続、離散化、離散データに対して導出される。 特に、離散データに対するネットワーク入力は確率単純度に基づいており、したがってネイティブに微分可能であり、勾配に基づくサンプルガイダンスや言語モデリングのような離散領域における数ステップ生成の道を開く。 損失関数はデータ圧縮を直接最適化し、ネットワークアーキテクチャに制限を課さない。 実験では,動的二項化MNISTとCIFAR-10を用いた画像モデリングにおいて,BFNは競合する対数類似度を実現し,テキスト8文字レベルの言語モデリングタスクにおいて,既知の離散拡散モデルよりも優れていた。

This paper introduces Bayesian Flow Networks (BFNs), a new class of generative model in which the parameters of a set of independent distributions are modified with Bayesian inference in the light of noisy data samples, then passed as input to a neural network that outputs a second, interdependent distribution. Starting from a simple prior and iteratively updating the two distributions yields a generative procedure similar to the reverse process of diffusion models; however it is conceptually simpler in that no forward process is required. Discrete and continuous-time loss functions are derived for continuous, discretised and discrete data, along with sample generation procedures. Notably, the network inputs for discrete data lie on the probability simplex, and are therefore natively differentiable, paving the way for gradient-based sample guidance and few-step generation in discrete domains such as language modelling. The loss function directly optimises data compression and places no restrictions on the network architecture. In our experiments BFNs achieve competitive log-likelihoods for image modelling on dynamically binarized MNIST and CIFAR-10, and outperform all known discrete diffusion models on the text8 character-level language modelling task.
翻訳日:2023-11-30 15:10:39 公開日:2023-11-27
# TODM:列車が複数の効率的なスーパーネットベースのRNN-T圧縮をオンデバイスASRモデルに展開

TODM: Train Once Deploy Many Efficient Supernet-Based RNN-T Compression For On-device ASR Models ( http://arxiv.org/abs/2309.01947v2 )

ライセンス: Link先を確認
Yuan Shangguan, Haichuan Yang, Danni Li, Chunyang Wu, Yassir Fathullah, Dilin Wang, Ayushi Dalmia, Raghuraman Krishnamoorthi, Ozlem Kalinli, Junteng Jia, Jay Mahadeokar, Xin Lei, Mike Seltzer, Vikas Chandra(参考訳) 自動音声認識(ASR)モデルは、デバイスにデプロイする前に、特定のハードウェアに最適化する必要がある。 これはモデルのハイパーパラメータをチューニングしたり、アーキテクチャのバリエーションを探索することで実現できる。 これらの変更後のモデルの再トレーニングと再検証は、リソース集約的なタスクになり得る。 本稿では,TODM(Train Once Deploy Many)を提案する。ハードウェアフレンドリーなデバイス上でのASRモデルのサイズを,単一のトレーニングジョブと同等のGPU時間で効率的にトレーニングするための新しいアプローチである。 TODMは、Recurrent Neural Network Transducer(RNN-T)モデルがSupernet内で重みを共有するSupernetに関する以前の作業の洞察を活用する。 サブネットワークを得るためにスーパーネットの層サイズと幅を削減し、すべてのハードウェアタイプに適したモデルを小さくする。 我々は,TODMスーパーネットの結果を改善するために,適応ドロップアウト,Alpha-diergenceナレッジ蒸留,ScaledAdamオプティマイザの3つの新しい組み合わせを紹介した。 LibriSpeech を用いたマルチヘッド状態空間モデル (MH-SSM) RNN-T との比較により,提案手法の有効性を検証した。 その結果,todmスーパーネットは,単語誤り率 (wer) の相対値が最大3%向上し,多くのモデルのトレーニングコストを小さく抑えつつ,手作業で調整したモデルの性能と一致するか,あるいは超えていることがわかった。

Automatic Speech Recognition (ASR) models need to be optimized for specific hardware before they can be deployed on devices. This can be done by tuning the model's hyperparameters or exploring variations in its architecture. Re-training and re-validating models after making these changes can be a resource-intensive task. This paper presents TODM (Train Once Deploy Many), a new approach to efficiently train many sizes of hardware-friendly on-device ASR models with comparable GPU-hours to that of a single training job. TODM leverages insights from prior work on Supernet, where Recurrent Neural Network Transducer (RNN-T) models share weights within a Supernet. It reduces layer sizes and widths of the Supernet to obtain subnetworks, making them smaller models suitable for all hardware types. We introduce a novel combination of three techniques to improve the outcomes of the TODM Supernet: adaptive dropouts, an in-place Alpha-divergence knowledge distillation, and the use of ScaledAdam optimizer. We validate our approach by comparing Supernet-trained versus individually tuned Multi-Head State Space Model (MH-SSM) RNN-T using LibriSpeech. Results demonstrate that our TODM Supernet either matches or surpasses the performance of manually tuned models by up to a relative of 3% better in word error rate (WER), while efficiently keeping the cost of training many models at a small constant.
翻訳日:2023-11-30 15:02:28 公開日:2023-11-27
# StratMed:医療勧告におけるバイオメディカルエンティティ間の関係

StratMed: Relevance Stratification between Biomedical Entities for Sparsity on Medication Recommendation ( http://arxiv.org/abs/2308.16781v4 )

ライセンス: Link先を確認
Xiang Li, Shunpan Liang, Yulei Hou, Tengfei Ma(参考訳) 限られた医療資源と需要の増大の間の不均衡が増し、AIベースの臨床タスクが最重要になっている。 サブドメインとして、薬の推奨は、医学的知識を持つ長期の患者の歴史を熟考することを目的としており、医師がより安全で正確な薬の組み合わせを処方することを支援している。 既存の研究は、医学データの長い尾の分布を無視し、ホットデータとスパースデータの不均一な学習力を持ち、安全性と精度のバランスが取れない。 上記の制限に対処するため,StratMedを提案する。これは,長い尾の問題を克服し,スパースデータのより完全な学習を実現する階層化戦略を提案する。 また、薬の組み合わせの安全性と正確性に関する相互制約の問題に対処するためにデュアルプロパティネットワークを利用し、これら2つの特性を相乗的に強化している。 具体的には,深層学習ネットワークを用いた事前学習法を構築し,薬剤と疾患の表現を得る。 その後,スパースデータの表現力を高めるために,関連性に基づくピラミッド状階層化手法を考案する。 この関連性に基づいて, 2つのグラフ構造を設計, 薬剤の安全性と精度を同一のレベルで表現し, 患者表現を得る。 最後に、患者の過去の臨床情報は、現在の健康状態の薬剤の組み合わせを生成するために適合する。 mimic-iiiデータセットを用いて,3つの側面を包括的に評価した。 準最適ベースラインモデルと比較して,本モデルは安全性リスクを15.08\%低減し,精度を0.36\%向上し,トレーニング時間の消費を81.66\%削減する。

With the growing imbalance between limited medical resources and escalating demands, AI-based clinical tasks have become paramount. As a sub-domain, medication recommendation aims to amalgamate longitudinal patient history with medical knowledge, assisting physicians in prescribing safer and more accurate medication combinations. Existing works ignore the inherent long-tailed distribution of medical data, have uneven learning strengths for hot and sparse data, and fail to balance safety and accuracy. To address the above limitations, we propose StratMed, which introduces a stratification strategy that overcomes the long-tailed problem and achieves fuller learning of sparse data. It also utilizes a dual-property network to address the issue of mutual constraints on the safety and accuracy of medication combinations, synergistically enhancing these two properties. Specifically, we construct a pre-training method using deep learning networks to obtain medication and disease representations. After that, we design a pyramid-like stratification method based on relevance to strengthen the expressiveness of sparse data. Based on this relevance, we design two graph structures to express medication safety and precision at the same level to obtain patient representations. Finally, the patient's historical clinical information is fitted to generate medication combinations for the current health condition. We employed the MIMIC-III dataset to evaluate our model against state-of-the-art methods in three aspects comprehensively. Compared to the sub-optimal baseline model, our model reduces safety risk by 15.08\%, improves accuracy by 0.36\%, and reduces training time consumption by 81.66\%.
翻訳日:2023-11-30 15:00:23 公開日:2023-11-27
# 外界を有する高調波発振器の熱場二重状態の複素性

Complexity of Thermofield double state for a Harmonic Oscillator with an External Field ( http://arxiv.org/abs/2308.15836v2 )

ライセンス: Link先を確認
F. Khorasani, Reza Pirmoradian and Mohammad Reza Tanhayi(参考訳) 本稿では、ニールセンの幾何学的手法を用いて、外部電界を受ける調和振動子に対する熱場二重状態のいわゆる複雑性を得る。 数値解析により,複雑性のダイナミクスに及ぼす周波数と外部場の影響について検討した。 システムの周波数を増大させることで、複雑性が大幅に減少する。 さらに, この結果から, 外部電場が弱い場合, 周波数の増大とともに系が複雑になるにつれて, 複雑度が異なることが示唆された。 一方、電場の値が大きくなると、システムは以前の挙動に戻る。 また、参照状態の頻度が複雑性に与える影響についてもコメントする。

In this paper, we use Nielsen's geometric approach to obtain the so-called complexity of the thermofield double state for a harmonic oscillator subjected to an external electric field. By numerical analysis, we investigate the effect of the frequency and the external field on the dynamics of complexity. We observe that by increasing the frequency of the system, the complexity decreases significantly. Moreover, our results suggest that in the presence of a weak external electric field, the complexity will behave differently, as the system becomes more complex with increasing frequency. Meanwhile, with larger values of the electric field, the system returns to its previous behavior. We also comment on the effect of the reference state's frequency on the complexity.
翻訳日:2023-11-30 14:59:52 公開日:2023-11-27
# 不正確な測定による量子ステアリング

Quantum steering with imprecise measurements ( http://arxiv.org/abs/2308.15356v3 )

ライセンス: Link先を確認
Armin Tavakoli(参考訳) 我々は、信頼できる当事者が測定装置を完全に制御できると仮定することなく、量子ステアリング実験を研究する。 代わりに、これらの測定を小さな精度で行うシナリオを紹介します。 これらの結果から, 測定精度の低下は, 操舵の不等式に対する偽陽性の点で大きな影響を示し, この効果は高次元システムにさらに関係があることが示唆された。 次に,二部体操舵不等式試験における一般的な測定精度を考慮に入れた手法を提案する。 この方法で返される修正されたステアリング境界は解析的であり、容易に計算可能であり、任意の次元ステアリングテストの既知のファミリーにさえ最適である。 さらに、共有量子状態が分離可能である必要はなく、代わりに他の絡み合い特性によって制限される一般化量子ステアリングシナリオにも同じように適用できる。

We study quantum steering experiments without assuming that the trusted party can perfectly control their measurement device. Instead, we introduce a scenario in which these measurements are subject to small imprecision. We show that small measurement imprecision can have a large detrimental influence in terms of false positives for steering inequalities, and that this effect can become even more relevant for high-dimensional systems. We then introduce a method for taking generic measurement imprecision into account in tests of bipartite steering inequalities. The revised steering bounds returned by this method are analytical, easily computable, and are even optimal for well-known families of arbitrary-dimensional steering tests. Furthermore, it applies equally well to generalised quantum steering scenarios, where the shared quantum state does not need to be separable, but is instead limited by some other entanglement property.
翻訳日:2023-11-30 14:58:59 公開日:2023-11-27
# モデル圧縮の隠れたコストを明らかにする

Uncovering the Hidden Cost of Model Compression ( http://arxiv.org/abs/2308.14969v2 )

ライセンス: Link先を確認
Diganta Misra, Agam Goyal, Bharat Runwal, Pin Yu Chen(参考訳) 資源集約基盤モデルの時代には、下流タスクの効率的な適応が最重要である。 大規模言語モデル(LLM)のプロンプトにインスパイアされた視覚プロンプト(VP)が,コンピュータビジョンにおける重要な伝達学習手法として登場した。 効率性の増大にともなって、モデル圧縮の研究は、過パラメータ化されたニューラルネットワークのトレーニングとデプロイにおける計算負担を軽減するために重要になっている。 モデル圧縮のキーとなるゴールは、過度にパラメータ化され密度の高いモデルの性能を一致または超えるスパースモデルの開発である。 従来の研究では、モデルスパーシティが転校学習に与える影響を探求してきたが、その視覚刺激に基づく転校への影響はいまだ不明である。 このギャップに対処し、特に低データ量シナリオにおいて、モデル空間が視覚的プロンプトベース転送の性能に悪影響を及ぼすことを示した。 さらに,下流の視覚刺激モデルのキャリブレーションにおけるスパーシティの悪影響を浮き彫りにした。 この経験的探索は、スパース設定における精度を超えたニュアンスを要求され、スパースモデルの視覚的なプロンプトに関するさらなる研究の道を開く。 コードとログはhttps://github.com/landskape-ai/reprogram_ltでアクセスできる。

In the era of resource-intensive foundation models, efficient adaptation in downstream tasks has become paramount. Visual Prompting (VP), inspired by prompting in Large Language Models (LLMs), has emerged as a key transfer learning method in computer vision. Aligned with the growing significance of efficiency, research in model compression has become pivotal to alleviate the computational burden in both training and deploying over-parameterized neural networks. A key goal in model compression is the development of sparse models capable of matching or surpassing the performance of their over-parameterized, dense counterparts. While prior research has explored the impact of model sparsity on transfer learning, its effects on visual prompting-based transfer remain unclear. This study addresses this gap, revealing that model sparsity adversely affects the performance of visual prompting-based transfer, particularly in low-data-volume scenarios. Furthermore, our findings highlight the negative influence of sparsity on the calibration of downstream visual-prompted models. This empirical exploration calls for a nuanced understanding beyond accuracy in sparse settings, opening avenues for further research in Visual Prompting for sparse models. Code and logs can be accessed at https://github.com/landskape-ai/Reprogram_LT .
翻訳日:2023-11-30 14:58:44 公開日:2023-11-27
# polarrec: 極座標表現を用いた電波干渉データ再構成

PolarRec: Radio Interferometric Data Reconstruction with Polar Coordinate Representation ( http://arxiv.org/abs/2308.14610v2 )

ライセンス: Link先を確認
Ruoqi Wang, Zhuoyang Chen, Jiayi Zhu, Qiong Luo, Feng Wang(参考訳) 電波天文学では、電波望遠鏡からの電波信号の測定である可視データは、遠方の天体を観測するための画像に変換される。 しかしながら、これらの結果の画像は通常、信号の間隔やその他の要因のために、実際のソースとアーティファクトの両方を含んでいる。 よりクリーンな画像を得る1つの方法は、撮像前にサンプルを高密度に再構成することである。 残念ながら、既存の再構成手法では周波数領域の可視性に欠ける部分が多く、ぼやけたオブジェクトエッジや永続的なアーティファクトが画像に残っている。 さらに、データスキューによる不規則な可視性サンプルの計算オーバーヘッドも高い。 これらの問題に対処するため,我々は極座標表現に可視性サンプルを変換したトランスコーダコンディショニングパイプラインであるpolarrecを提案する。 この表現は、電波望遠鏡が地球が回転するときに天球領域を観測する方法と一致する。 その結果、可視性サンプルは、カルテシアン空間よりも偏極系に均一に分布する。 そこで本研究では,損失関数の半径距離を用いて,完全な可視性を効果的に再構築する手法を提案する。 また,可視性サンプルを極角でグループ化し,効率を向上させるためにグループベースの符号化方式を提案する。 実験の結果,PolarRecは可視領域内の全周波数成分を忠実に再構成し,可視データ符号化の計算コストを大幅に削減することで,撮像結果を大幅に改善することが示された。 この高画質で高効率なポラレクイメージングは、天文学者が研究を行うのに役立つと信じています。

In radio astronomy, visibility data, which are measurements of wave signals from radio telescopes, are transformed into images for observation of distant celestial objects. However, these resultant images usually contain both real sources and artifacts, due to signal sparsity and other factors. One way to obtain cleaner images is to reconstruct samples into dense forms before imaging. Unfortunately, existing reconstruction methods often miss some components of visibility in frequency domain, so blurred object edges and persistent artifacts remain in the images. Furthermore, the computation overhead is high on irregular visibility samples due to the data skew. To address these problems, we propose PolarRec, a transformer-encoder-conditioned reconstruction pipeline with visibility samples converted into the polar coordinate representation. This representation matches the way in which radio telescopes observe a celestial area as the Earth rotates. As a result, visibility samples distribute in the polar system more uniformly than in the Cartesian space. Therefore, we propose to use radial distance in the loss function, to help reconstruct complete visibility effectively. Also, we group visibility samples by their polar angles and propose a group-based encoding scheme to improve the efficiency. Our experiments demonstrate that PolarRec markedly improves imaging results by faithfully reconstructing all frequency components in the visibility domain while significantly reducing the computation cost in visibility data encoding. We believe this high-quality and high-efficiency imaging of PolarRec will better facilitate astronomers to conduct their research.
翻訳日:2023-11-30 14:58:22 公開日:2023-11-27
# 大規模言語モデルの命令に対するロバスト性の評価

Evaluating the Robustness to Instructions of Large Language Models ( http://arxiv.org/abs/2308.14306v3 )

ライセンス: Link先を確認
Yuansheng Ni, Sichao Jiang, Xinyu wu, Hui Shen, Yuli Zhou(参考訳) 近年,Large Language Models (LLMs) のゼロショット能力を向上するための潜在的な手法として,インストラクションの微調整が注目されている。 この技術は中程度のLLMの性能を向上する能力を示しており、時にはより大型のモデルに匹敵する性能にまで達することもある。 焦点は、目に見えるタスクや目に見えないタスクに対する、命令付きLLMの堅牢性である。 実世界関係抽出データセットをケーススタディとして,alpaca,vicuna,wizardlm,従来のタスク指向モデル(flan-t5-xl/xxl,t0++)を含む6モデルを調査した。 オープンドメイン命令とタスク指向命令に基づいて調整されたこれらの命令追従 LLM の総合評価を行った。 主な議論は、命令に対するパフォーマンスと堅牢性である。 その結果、ほとんどの場合、未知の命令を扱う際のモデルの性能は著しく悪化する傾向にあり、RE命令の頑健性はQAと比較して低下することがわかった。 さらに,パラメータサイズしきい値(3b)まで,パラメータ数の増加に伴い,flan-t5モデルの性能が向上することが分かった。 異なるスケールのFLAN-T5モデルのRE命令に対する堅牢性は、QA命令に対する堅牢性よりも悪い。

Recently, Instruction fine-tuning has risen to prominence as a potential method for enhancing the zero-shot capabilities of Large Language Models (LLMs) on novel tasks. This technique has shown an exceptional ability to boost the performance of moderately sized LLMs, sometimes even reaching performance levels comparable to those of much larger model variants. The focus is on the robustness of instruction-tuned LLMs to seen and unseen tasks. We conducted an exploration of six models including Alpaca, Vicuna, WizardLM, and Traditional Task-oriented Models(Flan-T5-XL/XXL, T0++) using real-world relation extraction datasets as case studies. We carried out a comprehensive evaluation of these instruction-following LLMs which have been tuned based on open-domain instructions and task-oriented instructions. The main discussion is their performance and robustness towards instructions. We have observed that in most cases, the model's performance in dealing with unfamiliar instructions tends to worsen significantly, and the robustness of the model for RE instructions deteriorates compared to QA. Further, we discovered that up until a certain parameter size threshold (3B), the performance of the FLAN-T5 model improves as the parameter count increases. The robustness of different scales of FLAN-T5 models to RE instruction is worse than the robustness to QA instruction.
翻訳日:2023-11-30 14:57:57 公開日:2023-11-27
# PanoVOS:ビデオセグメンテーションのためのトランスフォーマによる非パノラマおよびパノラマビューのブリッジ

PanoVOS: Bridging Non-panoramic and Panoramic Views with Transformer for Video Segmentation ( http://arxiv.org/abs/2309.12303v3 )

ライセンス: Link先を確認
Shilin Yan, Xiaohao Xu, Renrui Zhang, Lingyi Hong, Wenchao Chen, Wenqiang Zhang and Wei Zhang(参考訳) パノラマビデオには、よりリッチな空間情報が含まれており、自動運転やバーチャルリアリティといった分野での特別な経験から、膨大な注目を集めている。 しかし、既存のビデオセグメンテーション用データセットは、従来の平面画像のみに焦点を当てている。 本論文では,パノラマビデオデータセットであるパノVOSを提案する。 データセットは150本のビデオに高解像度と多様なモーションを提供する。 2次元平面ビデオとパノラマビデオの領域ギャップを定量化するために,パノVOSを用いた15のオフ・ザ・シェルフビデオオブジェクトセグメンテーション(VOS)モデルを評価した。 エラー解析により、パノラマビデオの画素レベルのコンテンツ不連続に対処できないことが判明した。 そこで我々は,従来のフレームのセマンティック境界情報を,現在のフレームとの画素レベルのマッチングに有効活用できるパノラマ空間整合変換器(PSCFormer)を提案する。 我々のPSCFormerネットワークは,従来のSOTAモデルと比較して,パノラマ条件下でのセグメンテーション結果において大きな優位性を示す。 我々のデータセットはパノラマVOSに新たな課題をもたらしており、パノラマVOSがパノラマセグメンテーション/トラッキングの開発を前進させることを期待しています。

Panoramic videos contain richer spatial information and have attracted tremendous amounts of attention due to their exceptional experience in some fields such as autonomous driving and virtual reality. However, existing datasets for video segmentation only focus on conventional planar images. To address the challenge, in this paper, we present a panoramic video dataset, PanoVOS. The dataset provides 150 videos with high video resolutions and diverse motions. To quantify the domain gap between 2D planar videos and panoramic videos, we evaluate 15 off-the-shelf video object segmentation (VOS) models on PanoVOS. Through error analysis, we found that all of them fail to tackle pixel-level content discontinues of panoramic videos. Thus, we present a Panoramic Space Consistency Transformer (PSCFormer), which can effectively utilize the semantic boundary information of the previous frame for pixel-level matching with the current frame. Extensive experiments demonstrate that compared with the previous SOTA models, our PSCFormer network exhibits a great advantage in terms of segmentation results under the panoramic setting. Our dataset poses new challenges in panoramic VOS and we hope that our PanoVOS can advance the development of panoramic segmentation/tracking.
翻訳日:2023-11-30 14:51:17 公開日:2023-11-27
# 組込み検索アライメント:トランスフォーマーモデルを用いたDNA配列アライメント

Embed-Search-Align: DNA Sequence Alignment using Transformer Models ( http://arxiv.org/abs/2309.11087v2 )

ライセンス: Link先を確認
Pavan Holur, K. C. Enevoldsen, Lajoyce Mboning, Thalia Georgiou, Louis-S. Bouchard, Matteo Pellegrini and Vwani Roychowdhury(参考訳) DNA配列のアライメントは、幅広い参照ゲノム上の最も可能性の高い場所に短いDNA読取を割り当てることを含む。 このプロセスは、変異呼び出し、転写学、エピジェノミクスを含む様々なゲノム解析に不可欠である。 何十年にもわたって洗練されてきた従来の手法は、ゲノムインデクシングと効率的な検索という2つのステップでこの問題に取り組む。 距離メトリクスが意味的類似性を捉えた埋め込みへのテキストのエンコーディングにおける大言語モデル(llm)の成功に基づいて、最近の研究は、同じトランスフォーマーアーキテクチャがdna配列の数値表現を生成できるかどうかを探っている。 このようなモデルは、コーディングと非コーディング領域の検出、エンハンサーとプロモーター配列の同定など、短いDNA配列の分類を含むタスクにおいて、早期に有望であることが示されている。 しかし、シーケンス分類タスクのパフォーマンスは配列アライメントに変換されず、ゲノム全体の検索を行い、すべての読み取りを適切にアライメントする必要がある。 我々は,この課題を組込み探索処理タスクとして組み込むことで解決する。 この枠組みでは、新しいエンコーダモデルDNA-ESAが参照の読み取りとフラグメントの表現を生成し、リードフラグメント距離をアライメントの代理として使用する共有ベクトル空間に投影する。 特にDNA-ESAは,(1)DNA配列表現の自己教師的訓練における対照的な損失,(2)断片を世界規模で探索するためのDNAベクターストアを導入している。 DNA-ESAは、250長の読みを3ギガ塩基(単倍体)のヒト基準ゲノムに合わせると97%正確であり、最近の6つのDNA-トランスフォーマーモデルベースラインのパフォーマンスをはるかに上回り、染色体や種間でタスク転送を示す。

DNA sequence alignment involves assigning short DNA reads to the most probable locations on an extensive reference genome. This process is crucial for various genomic analyses, including variant calling, transcriptomics, and epigenomics. Conventional methods, refined over decades, tackle this challenge in two steps: genome indexing followed by efficient search to locate likely positions for given reads. Building on the success of Large Language Models (LLM) in encoding text into embeddings, where the distance metric captures semantic similarity, recent efforts have explored whether the same Transformer architecture can produce numerical representations for DNA sequences. Such models have shown early promise in tasks involving classification of short DNA sequences, such as the detection of coding vs non-coding regions, as well as the identification of enhancer and promoter sequences. Performance at sequence classification tasks does not, however, translate to sequence alignment, where it is necessary to conduct a genome-wide search to successfully align every read. We address this open problem by framing it as an Embed-Search-Align task. In this framework, a novel encoder model DNA-ESA generates representations of reads and fragments of the reference, which are projected into a shared vector space where the read-fragment distance is used as surrogate for alignment. In particular, DNA-ESA introduces: (1) Contrastive loss for self-supervised training of DNA sequence representations, facilitating rich sequence-level embeddings, and (2) a DNA vector store to enable search across fragments on a global scale. DNA-ESA is >97% accurate when aligning 250-length reads onto a human reference genome of 3 gigabases (single-haploid), far exceeds the performance of 6 recent DNA-Transformer model baselines and shows task transfer across chromosomes and species.
翻訳日:2023-11-30 14:50:44 公開日:2023-11-27
# DriveDreamer: 自律運転のための現実世界駆動の世界モデルを目指して

DriveDreamer: Towards Real-world-driven World Models for Autonomous Driving ( http://arxiv.org/abs/2309.09777v2 )

ライセンス: Link先を確認
Xiaofeng Wang, Zheng Zhu, Guan Huang, Xinze Chen, Jiagang Zhu, Jiwen Lu(参考訳) 世界モデルは、特に自動運転において、運転環境の理解能力のためにトレンドとなり、大きな注目を集めている。 確立された世界モデルは、高品質な運転ビデオの生成と安全な操縦のための運転ポリシーに大きな可能性を秘めている。 しかし、関連する研究における重要な制限は、ゲーム環境やシミュレートされた設定に主眼を置き、現実世界の運転シナリオの表現を欠いていることである。 そこで我々は,現実の運転シナリオから完全に派生した先駆的な世界モデルであるDriveDreamerを紹介した。 複雑な運転シーンにおける世界モデリングは圧倒的な探索空間を必要とするため,複雑な環境を包括的に表現するための強力な拡散モデルを提案する。 さらに,2段階のトレーニングパイプラインも導入する。 最初の段階では、drivedreamerは構造化されたトラフィック制約を深く理解し、続く段階は将来の状態を予測できる能力を備えている。 提案されたDriveDreamerは、現実世界の運転シナリオから確立された最初の世界モデルである。 DriveDreamerを挑戦的なnuScenesベンチマークでインスタンス化し、DriveDreamerが実世界のトラフィックシナリオの構造的制約を忠実に捉えた、正確で制御可能なビデオ生成に有効であることを示す広範な実験を行った。 さらにDriveDreamerは、現実的で合理的な駆動ポリシーの生成を可能にし、インタラクションと実用的なアプリケーションのための道を開く。

World models, especially in autonomous driving, are trending and drawing extensive attention due to their capacity for comprehending driving environments. The established world model holds immense potential for the generation of high-quality driving videos, and driving policies for safe maneuvering. However, a critical limitation in relevant research lies in its predominant focus on gaming environments or simulated settings, thereby lacking the representation of real-world driving scenarios. Therefore, we introduce DriveDreamer, a pioneering world model entirely derived from real-world driving scenarios. Regarding that modeling the world in intricate driving scenes entails an overwhelming search space, we propose harnessing the powerful diffusion model to construct a comprehensive representation of the complex environment. Furthermore, we introduce a two-stage training pipeline. In the initial phase, DriveDreamer acquires a deep understanding of structured traffic constraints, while the subsequent stage equips it with the ability to anticipate future states. The proposed DriveDreamer is the first world model established from real-world driving scenarios. We instantiate DriveDreamer on the challenging nuScenes benchmark, and extensive experiments verify that DriveDreamer empowers precise, controllable video generation that faithfully captures the structural constraints of real-world traffic scenarios. Additionally, DriveDreamer enables the generation of realistic and reasonable driving policies, opening avenues for interaction and practical applications.
翻訳日:2023-11-30 14:49:30 公開日:2023-11-27
# SLMIA-SR:話者認識システムに対する話者レベルメンバーシップ推論攻撃

SLMIA-SR: Speaker-Level Membership Inference Attacks against Speaker Recognition Systems ( http://arxiv.org/abs/2309.07983v2 )

ライセンス: Link先を確認
Guangke Chen and Yedi Zhang and Fu Song(参考訳) メンバーシップ推論攻撃により、敵はモデルのトレーニングデータセットに特定の例が含まれているかどうかを判断できる。 これまでの研究は、様々なアプリケーションでこのような攻撃が実現可能であることを確認しているが、有望な音声に基づく生体認証技術である話者認識(sr)に焦点を当てていない。 本稿ではslmia-srを提案する。slmia-srはsrに適応した最初のメンバーシップ推論攻撃である。 従来の事例レベルアタックとは対照的に、我々の攻撃では、話者レベルのメンバシップ推論、すなわち、与えられた話者の声が、与えられた推論音声と同一か異なるかを決定することが、モデルの訓練に関与している。 訓練音声と推論音声は通常異なるため、特に有用で実用的であり、srのオープンセットの性質、すなわち、認識話者が訓練データに存在しないこともしばしば考慮すれば有意義である。 本研究では,srの2つの訓練目標である相互相似性と相互相似性を用いて,訓練話者と非訓練話者の差異を特徴付け,これらを,注意深く確立した特徴工学を駆使した2つの特徴群で定量化する。 攻撃の一般化性を向上させるために,攻撃モデルを訓練するための新しい混合比訓練戦略を提案する。 攻撃性能を向上させるため,推測音声の限られた数に対応するために音声チャンク分割を導入し,推論音声の数に依存する攻撃モデルを訓練することを提案する。 我々の攻撃は汎用性があり、ホワイトボックスとブラックボックスの両方のシナリオで動作する。 さらに,攻撃性能を維持しながらブラックボックスクエリ数を削減できる2つの新しい手法を提案する。 大規模な実験はSLMIA-SRの有効性を示す。

Membership inference attacks allow adversaries to determine whether a particular example was contained in the model's training dataset. While previous works have confirmed the feasibility of such attacks in various applications, none has focused on speaker recognition (SR), a promising voice-based biometric recognition technique. In this work, we propose SLMIA-SR, the first membership inference attack tailored to SR. In contrast to conventional example-level attack, our attack features speaker-level membership inference, i.e., determining if any voices of a given speaker, either the same as or different from the given inference voices, have been involved in the training of a model. It is particularly useful and practical since the training and inference voices are usually distinct, and it is also meaningful considering the open-set nature of SR, namely, the recognition speakers were often not present in the training data. We utilize intra-similarity and inter-dissimilarity, two training objectives of SR, to characterize the differences between training and non-training speakers and quantify them with two groups of features driven by carefully-established feature engineering to mount the attack. To improve the generalizability of our attack, we propose a novel mixing ratio training strategy to train attack models. To enhance the attack performance, we introduce voice chunk splitting to cope with the limited number of inference voices and propose to train attack models dependent on the number of inference voices. Our attack is versatile and can work in both white-box and black-box scenarios. Additionally, we propose two novel techniques to reduce the number of black-box queries while maintaining the attack performance. Extensive experiments demonstrate the effectiveness of SLMIA-SR.
翻訳日:2023-11-30 14:48:48 公開日:2023-11-27
# Bi$_2$Se$_3$ナノシートのトポロジー

Topology of Bi$_2$Se$_3$ nanosheets ( http://arxiv.org/abs/2309.02792v2 )

ライセンス: Link先を確認
Lucas Maisel Licer\'an, Sebastiaan Koerhuis, Daniel Vanmaekelbergh, Henk Stoof(参考訳) 近年, トポロジカル絶縁体Bi$_2$Se$_3$の2次元コロイドナノ結晶の量子スピンホールエッジチャネルが直接観測されている。 本研究は, 従来, 薄いナノシートを記述するために用いられてきた4バンド有効モデルを再考する。 3次元の $\boldsymbol{k} \boldsymbol{cdot} \boldsymbol{p}$ モデルから派生したもので、材料厚みの小さいため隙間となる上面と下面の電子状態を記述する。 しかし、3次元理論から直接導かれる表面状態の4バンドモデルだけでは、いくつかの4重層からなる薄膜の記述には不適切であり、また、かなりの範囲の厚さで不正確な位相不変量が得られることも判明した。 この制限に対処するために、表面状態に加えてフェルミレベルに最も近いバルクバンドの集合も含む8バンドモデルを提案する。 8バンドモデルは実験的な観測のほとんどを捉えているだけでなく、厚さの異なる薄膜における$\mathbb{z}_{2}$の以前の第一原理計算とも一致している。 さらに, 薄いBi$_2$Se$_3$ナノシートのトポロジー特性は, 表面とバルク状態の間の複雑な相互作用の結果出現し, 実際に後者は非自明なチャーン数となることを示した。

Recently, the quantum spin-Hall edge channels of two-dimensional colloidal nanocrystals of the topological insulator Bi$_2$Se$_3$ were observed directly. Motivated by this development, we reconsider the four-band effective model which has been traditionally employed in the past to describe thin nanosheets of this material. Derived from a three-dimensional $\boldsymbol{k} \boldsymbol{\cdot} \boldsymbol{p}$ model, it physically describes the top and bottom electronic surface states that become gapped due to the material's small thickness. However, we find that the four-band model for the surface states alone, as derived directly from the three-dimensional theory, is inadequate for the description of thin films of a few quintuple layers and even yields an incorrect topological invariant within a significant range of thicknesses. To address this limitation we propose an eight-band model which, in addition to the surface states, also incorporates the set of bulk bands closest to the Fermi level. We find that the eight-band model not only captures most of the experimental observations, but also agrees with previous first-principles calculations of the $\mathbb{Z}_{2}$ invariant in thin films of varying thickness. Moreover, we demonstrate that the topological properties of thin Bi$_2$Se$_3$ nanosheets emerge as a result of an intricate interplay between the surface and bulk states, which in fact results in nontrivial Chern numbers for the latter.
翻訳日:2023-11-30 14:46:47 公開日:2023-11-27
# 生命科学のための知識グラフ--最近の発展、挑戦、機会

Knowledge Graphs for the Life Sciences: Recent Developments, Challenges and Opportunities ( http://arxiv.org/abs/2309.17255v3 )

ライセンス: Link先を確認
Jiaoyan Chen, Hang Dong, Janna Hastings, Ernesto Jim\'enez-Ruiz, Vanessa L\'opez, Pierre Monnin, Catia Pesquita, Petr \v{S}koda, Valentina Tamma(参考訳) 生命科学という用語は、生物と生命の過程を研究する分野であり、化学、生物学、医学、その他の関連する分野を含む。 生命科学の研究は、膨大な量の科学データを生産し消費するため、データ駆動であり、その多くが本質的に関係性があり、グラフ構造である。 データ量と科学的な概念と関係の複雑さは、データの管理と解釈に先進的な知識駆動技術の適用を促進し、科学的な発見を促進するための究極の目的である。 本稿では,生命科学におけるグラフ技術の利用の最近の進展と進歩について論じ,これらの技術が将来,これらの分野にどのように影響するかを展望する。 我々は、知識グラフ(KG)の構築と管理、新しい知識の発見におけるKGとその関連技術の使用、説明(説明可能なAI)をサポートする人工知能アプリケーションにおけるKGの使用の3つの幅広いトピックに焦点を当てる。 各トピックの例を挙げるユースケースをいくつか選択し、これらのトピックにおける課題とオープンリサーチの質問について議論し、今後の研究の指針として、包括的な課題とその潜在的な解決策をまとめる視点と展望をまとめます。

The term life sciences refers to the disciplines that study living organisms and life processes, and include chemistry, biology, medicine, and a range of other related disciplines. Research efforts in life sciences are heavily data-driven, as they produce and consume vast amounts of scientific data, much of which is intrinsically relational and graph-structured. The volume of data and the complexity of scientific concepts and relations referred to therein promote the application of advanced knowledge-driven technologies for managing and interpreting data, with the ultimate aim to advance scientific discovery. In this survey and position paper, we discuss recent developments and advances in the use of graph-based technologies in life sciences and set out a vision for how these technologies will impact these fields into the future. We focus on three broad topics: the construction and management of Knowledge Graphs (KGs), the use of KGs and associated technologies in the discovery of new knowledge, and the use of KGs in artificial intelligence applications to support explanations (explainable AI). We select a few exemplary use cases for each topic, discuss the challenges and open research questions within these topics, and conclude with a perspective and outlook that summarizes the overarching challenges and their potential solutions as a guide for future research.
翻訳日:2023-11-30 14:40:52 公開日:2023-11-27
# 拡張ランダム化平滑化に対するリプシッツ分散マージントレードオフ

The Lipschitz-Variance-Margin Tradeoff for Enhanced Randomized Smoothing ( http://arxiv.org/abs/2309.16883v2 )

ライセンス: Link先を確認
Blaise Delattre, Alexandre Araujo, Quentin Barth\'elemy and Alexandre Allauzen(参考訳) ディープニューラルネットワークの実際の応用は、ノイズの入力や敵対的な攻撃に直面すると不安定な予測によって妨げられる。 この文脈では、認定半径はモデルの堅牢性の重要な指標である。 しかし、十分な認定半径を持つ効率的な分類器を設計するにはどうすればよいか? ランダム化スムーシングは、スムーズで堅牢な分類器を得るために入力中のノイズ注入に頼ることで、有望なフレームワークを提供する。 本稿では, ランダム化滑らか化によって生じる分散が, 分類器の他の2つの重要な性質, \textit{i.e.} そのリプシッツ定数とマージンとを密接に相互作用することを示す。 より正確には、我々の研究は、滑らかな分類器と経験的分散の両方に対する基底分類器のリプシッツ定数の二重影響を強調している。 さらに,認証されたロバスト半径を増加させるために,バーンスタインの濃度不等式とリプシッツ境界の強化による分散マージントレードオフを活用するための,ベース分類器の異なる単純射影法を導入する。 実験の結果,現在の手法と比較して精度が有意に向上した。 新たな認証手順により,ランダム化平滑化に使用する事前学習モデルの使用が可能となり,ゼロショット方式で現在の認証半径を効果的に改善できる。

Real-life applications of deep neural networks are hindered by their unsteady predictions when faced with noisy inputs and adversarial attacks. The certified radius is in this context a crucial indicator of the robustness of models. However how to design an efficient classifier with a sufficient certified radius? Randomized smoothing provides a promising framework by relying on noise injection in inputs to obtain a smoothed and more robust classifier. In this paper, we first show that the variance introduced by randomized smoothing closely interacts with two other important properties of the classifier, \textit{i.e.} its Lipschitz constant and margin. More precisely, our work emphasizes the dual impact of the Lipschitz constant of the base classifier, on both the smoothed classifier and the empirical variance. Moreover, to increase the certified robust radius, we introduce a different simplex projection technique for the base classifier to leverage the variance-margin trade-off thanks to Bernstein's concentration inequality, along with an enhanced Lipschitz bound. Experimental results show a significant improvement in certified accuracy compared to current state-of-the-art methods. Our novel certification procedure allows us to use pre-trained models that are used with randomized smoothing, effectively improving the current certification radius in a zero-shot manner.
翻訳日:2023-11-30 14:40:11 公開日:2023-11-27
# マスケオートエンコーダは細胞形態のスケーラブルな学習者である

Masked Autoencoders are Scalable Learners of Cellular Morphology ( http://arxiv.org/abs/2309.16064v2 )

ライセンス: Link先を確認
Oren Kraus, Kian Kenyon-Dean, Saber Saberian, Maryam Fallah, Peter McLean, Jess Leung, Vasudev Sharma, Ayla Khan, Jia Balakrishnan, Safiye Celik, Maciej Sypetkowski, Chi Vicky Cheng, Kristen Morse, Maureen Makes, Ben Mabey, Berton Earnshaw(参考訳) 高濃度顕微鏡スクリーンにおける細胞性表現型からの生物学的関係の推測は、生物学的研究において大きな機会と課題をもたらす。 先行研究では、深部視覚モデルが手作りの機能よりも生物学的信号をキャプチャできることが示されている。 本研究は,大規模な顕微鏡データセット上で大規模モデルをトレーニングする際の,自己教師型ディープラーニングアプローチのスケールアップ方法を検討する。 以上の結果から,CNNとViTをベースとしたマスク付きオートエンコーダはともに,教師付きベースラインよりも優れていた。 93億枚の顕微鏡画像から採取した3.5億個以上のユニークな作物で訓練されたvit-l/8は、公開データベースから収集された既知の生物学的関係を推測する上で、我々の最善の弱教師付きベースラインよりも28%高い相対的改善を達成している。 この研究でリリースされたコードとセレクトモデルは、https://github.com/recursionpharma/maes_microscopyで見ることができる。

Inferring biological relationships from cellular phenotypes in high-content microscopy screens provides significant opportunity and challenge in biological research. Prior results have shown that deep vision models can capture biological signal better than hand-crafted features. This work explores how self-supervised deep learning approaches scale when training larger models on larger microscopy datasets. Our results show that both CNN- and ViT-based masked autoencoders significantly outperform weakly supervised baselines. At the high-end of our scale, a ViT-L/8 trained on over 3.5-billion unique crops sampled from 93-million microscopy images achieves relative improvements as high as 28% over our best weakly supervised baseline at inferring known biological relationships curated from public databases. Relevant code and select models released with this work can be found at: https://github.com/recursionpharma/maes_microscopy.
翻訳日:2023-11-30 14:39:48 公開日:2023-11-27
# 3次元モデルのための方向テクスチャ編集

Directional Texture Editing for 3D Models ( http://arxiv.org/abs/2309.14872v3 )

ライセンス: Link先を確認
Shengqi Liu, Zhuo Chen, Jingnan Gao, Yichao Yan, Wenhan Zhu, Ke Gao, Jiangjing Lyu, Xiaokang Yang(参考訳) テクスチャ編集は、3Dモデルの表面素材を自動的に操作できる3Dモデリングにおいて重要なタスクである。 しかし、3Dモデルの本質的な複雑さと曖昧なテキスト記述は、この課題の課題に繋がる。 この課題に対処するために、我々は、テキスト \textbf{i}nstructions に従って自動 \textbf{3d} オブジェクト編集用に設計された \textbf{t}exture \textbf{e}diting \textbf{m}odelである item3d を提案する。 拡散モデルと微分可能なレンダリングの活用により、item3dはレンダリングされた画像をテキストと3d表現の橋渡しとして、さらに異方性のテクスチャと環境マップを最適化する。 従来の手法では、絶対的な編集方向、すなわちスコア蒸留サンプリング(SDS)を最適化の目的として採用していた。 曖昧なテキストによる問題を解決するため、ソースとターゲットのテキスト間のノイズ差によって定義された最適化目標である相対的な編集方向を導入し、テキストと画像間の意味的あいまいさを解放する。 さらに,テクスチャ領域の予期せぬずれに対処するため,最適化中の方向を徐々に調整する。 質的、定量的な実験により、我々の3dは様々な3dオブジェクトの最先端のメソッドよりも優れています。 また,照明に対する明示的な制御を示すために,テキストガイドによる照明を行う。 プロジェクトページ: \href{https://shengqiliu1.github.io/ITEM3D}{https://shengqiliu1.github.io/ITEM3D}。

Texture editing is a crucial task in 3D modeling that allows users to automatically manipulate the surface materials of 3D models. However, the inherent complexity of 3D models and the ambiguous text description lead to the challenge in this task. To address this challenge, we propose ITEM3D, a \textbf{T}exture \textbf{E}diting \textbf{M}odel designed for automatic \textbf{3D} object editing according to the text \textbf{I}nstructions. Leveraging the diffusion models and the differentiable rendering, ITEM3D takes the rendered images as the bridge of text and 3D representation, and further optimizes the disentangled texture and environment map. Previous methods adopted the absolute editing direction namely score distillation sampling (SDS) as the optimization objective, which unfortunately results in the noisy appearance and text inconsistency. To solve the problem caused by the ambiguous text, we introduce a relative editing direction, an optimization objective defined by the noise difference between the source and target texts, to release the semantic ambiguity between the texts and images. Additionally, we gradually adjust the direction during optimization to further address the unexpected deviation in the texture domain. Qualitative and quantitative experiments show that our ITEM3D outperforms the state-of-the-art methods on various 3D objects. We also perform text-guided relighting to show explicit control over lighting. Our project page: \href{https://shengqiliu1.github.io/ITEM3D}{https://shengqiliu1.github.io/ITEM3D}.
翻訳日:2023-11-30 14:39:32 公開日:2023-11-27
# ENIGMA-51:産業シナリオにおける人間と物体の相互作用の微妙な理解を目指して

ENIGMA-51: Towards a Fine-Grained Understanding of Human-Object Interactions in Industrial Scenarios ( http://arxiv.org/abs/2309.14809v2 )

ライセンス: Link先を確認
Francesco Ragusa and Rosario Leonardi and Michele Mazzamuto and Claudia Bonanno and Rosario Scavo and Antonino Furnari and Giovanni Maria Farinella(参考訳) ENIGMA-51は、19人の被験者が工業用ツール(例えば電気スクリュードライバー)と機器(例えばオシロスコープ)を使用して電気基板の修理を完了させる指示に従って取得した、新しいエゴセントリックなデータセットである。 51のエゴセントリックなビデオシーケンスは、産業領域における人間の行動の体系的な研究を可能にする、豊富なラベルセットで密に注釈付けされている。 人間の行動に関連する4つのタスクのベンチマークを提供する。 1)人間と物体の相互作用の時間的異常検出 2)人間と物体の相互作用検出 3)短期的物体間相互作用予測及び 4)意図及び実体に関する自然言語の理解。 ベースライン結果は、ENIGMA-51データセットが産業シナリオにおける人間の振る舞いを研究する上で、困難なベンチマークとなることを示している。 データセットはhttps://iplab.dmi.unict.it/ENIGMA-51で公開しています。

ENIGMA-51 is a new egocentric dataset acquired in an industrial scenario by 19 subjects who followed instructions to complete the repair of electrical boards using industrial tools (e.g., electric screwdriver) and equipments (e.g., oscilloscope). The 51 egocentric video sequences are densely annotated with a rich set of labels that enable the systematic study of human behavior in the industrial domain. We provide benchmarks on four tasks related to human behavior: 1) untrimmed temporal detection of human-object interactions, 2) egocentric human-object interaction detection, 3) short-term object interaction anticipation and 4) natural language understanding of intents and entities. Baseline results show that the ENIGMA-51 dataset poses a challenging benchmark to study human behavior in industrial scenarios. We publicly release the dataset at https://iplab.dmi.unict.it/ENIGMA-51.
翻訳日:2023-11-30 14:39:00 公開日:2023-11-27
# ブロックワイズ変換器を用いた近無限文脈におけるリング注意

Ring Attention with Blockwise Transformers for Near-Infinite Context ( http://arxiv.org/abs/2310.01889v4 )

ライセンス: Link先を確認
Hao Liu, Matei Zaharia, Pieter Abbeel(参考訳) トランスフォーマーは多くの最先端AIモデルのアーキテクチャとして登場し、幅広いAIアプリケーションで例外的なパフォーマンスを示している。 しかし、トランスフォーマによるメモリ要求は長いシーケンスを扱う能力を制限するため、複雑な環境でビデオ、アクション、その他のロングフォームシーケンスやモダリティを活用することが困難となる。 本稿では,ブロック方向の注意の計算とキー値ブロックの通信を完全に重ね合わせながら,複数デバイスにまたがって長いシーケンスを分散するために,自己アテンションとフィードフォワードのブロック方向の計算を利用する,ブロック方向トランスフォーマーを用いたリングアテンションという新しいアプローチを提案する。 提案手法は,従来のメモリ効率の変換器で実現可能なデバイス数よりも長いシーケンスを,近似や追加の通信や計算オーバーヘッドを伴わずに,トレーニングと推論を可能にする。 言語モデリングおよび強化学習タスクに関する大規模な実験は、何百万ものトークンのコンテキストサイズを許容し、性能を向上させる方法の有効性を示す。

Transformers have emerged as the architecture of choice for many state-of-the-art AI models, showcasing exceptional performance across a wide range of AI applications. However, the memory demands imposed by Transformers limit their ability to handle long sequences, thereby posing challenges in utilizing videos, actions, and other long-form sequences and modalities in complex environments. We present a novel approach, Ring Attention with Blockwise Transformers (Ring Attention), which leverages blockwise computation of self-attention and feedforward to distribute long sequences across multiple devices while fully overlapping the communication of key-value blocks with the computation of blockwise attention. Our approach enables training and inference of sequences that are up to device count times longer than those achievable by prior memory-efficient Transformers, without resorting to approximations or incurring additional communication and computation overheads. Extensive experiments on language modeling and reinforcement learning tasks demonstrate the effectiveness of our approach in allowing millions of tokens context size and improving performance.
翻訳日:2023-11-30 14:28:57 公開日:2023-11-27
# LanguageBind: 言語に基づくセマンティックアライメントによるN-モダリティへのビデオ言語事前学習

LanguageBind: Extending Video-Language Pretraining to N-modality by Language-based Semantic Alignment ( http://arxiv.org/abs/2310.01852v6 )

ライセンス: Link先を確認
Bin Zhu, Bin Lin, Munan Ning, Yang Yan, Jiaxi Cui, HongFa Wang, Yatian Pang, Wenhao Jiang, Junwu Zhang, Zongwei Li, Wancai Zhang, Zhifeng Li, Wei Liu, and Li Yuan(参考訳) ビデオ言語(VL)プレトレーニングは、複数の下流タスクにおいて著しく改善されている。 しかしながら、現在のVL事前学習フレームワークは、視覚や言語を超えた複数のモーダル(Nモダリティ、N>=3)にまで拡張するのは難しい。 そこで我々は言語bindを提案し,言語モダリティは十分に探索され,豊富な意味論を含んでいるため,言語を異なるモダリティのバインドとして捉える。 具体的には、VL事前学習によって得られた言語エンコーダを凍結し、コントラスト学習を伴う他のモダリティのためのエンコーダを訓練する。 その結果、すべてのモダリティは共有機能空間にマッピングされ、マルチモーダルなセマンティックアライメントを実装する。 LanguageBindは、VLモダリティをNモダリティに拡張できることを保証する一方で、言語を中心としたデータペアをアライメントする高品質なデータセットも必要です。 そこで我々は,VIDAL-10Mをビデオ,赤外線,深度,オーディオおよびそれに対応する言語として提案し,VIDAL-10Mと命名した。 我々のVIDAL-10Mでは、すべてのビデオは長いビデオから切り離されたセグメントではなく、完全な意味を持った短いビデオプラットフォームから作成されています。 vidal-10mをプリトレーニングした後、ゼロショットビデオテキスト検索タスクのパラメータの15%しか持たないmsr-vttデータセットで、imagebindを5.8%r@1に上回った。 さらに、LanguageBindはゼロショットビデオ、オーディオ、奥行き、赤外線理解タスクを大幅に改善しました。 例えば、LanguageBindがInterVideoを1.9%、MSVDが8.8%、DiDeMoが6.3%、ActivityNetが4.4%上回った。 LLVIPとNYU-Dデータセットでは、LanguageBindがImageBindを23.8%、11.1%で上回っている。 コードアドレスはhttps://github.com/PKU-YuanGroup/LanguageBind。

The video-language (VL) pretraining has achieved remarkable improvement in multiple downstream tasks. However, the current VL pretraining framework is hard to extend to multiple modalities (N modalities, N>=3) beyond vision and language. We thus propose LanguageBind, taking the language as the bind across different modalities because the language modality is well-explored and contains rich semantics. Specifically, we freeze the language encoder acquired by VL pretraining, then train encoders for other modalities with contrastive learning. As a result, all modalities are mapped to a shared feature space, implementing multi-modal semantic alignment. While LanguageBind ensures that we can extend VL modalities to N modalities, we also need a high-quality dataset with alignment data pairs centered on language. We thus propose VIDAL-10M with Video, Infrared, Depth, Audio and their corresponding Language, naming as VIDAL-10M. In our VIDAL-10M, all videos are from short video platforms with complete semantics rather than truncated segments from long videos, and all the video, depth, infrared, and audio modalities are aligned to their textual descriptions. After pretraining on VIDAL-10M, we outperform ImageBind by 5.8% R@1 on the MSR-VTT dataset with only 15% of the parameters in the zero-shot video-text retrieval task. Beyond this, our LanguageBind has greatly improved in the zero-shot video, audio, depth, and infrared understanding tasks. For instance, LanguageBind surpassing InterVideo by 1.9% on MSR-VTT, 8.8% on MSVD, 6.3% on DiDeMo, and 4.4% on ActivityNet. On the LLVIP and NYU-D datasets, LanguageBind outperforms ImageBind with 23.8% and 11.1% top-1 accuracy. Code address: https://github.com/PKU-YuanGroup/LanguageBind.
翻訳日:2023-11-30 14:28:36 公開日:2023-11-27
# 冬期小麦セグメンテーションのためのPEFT技術に関する実証的研究

Empirical Study of PEFT techniques for Winter Wheat Segmentation ( http://arxiv.org/abs/2310.01825v2 )

ライセンス: Link先を確認
Mohamad Hasan Zahweh, Hasan Nasrallah, Mustafa Shukor, Ghaleb Faour and Ali J. Ghandour(参考訳) パラメータ効率のよいファインチューニング(peft)技術は、最近大きく成長し、様々な領域に大きなビジョンと言語モデルを適用するために広範囲に使われており、最小の計算ニーズで十分なモデル性能を実現している。 これらの進歩にもかかわらず、実際のシナリオ、特にリモートセンシングと作物モニタリングの重要な領域におけるPEFT応用の可能性についてはまだ研究されていない。 異なる地域にまたがる気候の多様性と総合的な大規模データセットの必要性は、地理的な場所をまたいで作物の種類を正確に識別し、成長の季節を変える上で大きな障害となった。 本研究は,最先端のコムギ作物モニタリングモデルを用いて,地域横断的および地域横断的流通汎化の実現可能性について総合的に検討することにより,このギャップを埋めることを目的とする。 本研究の目的は,農作物モニタリングのためのPEFTアプローチを検討することである。 具体的には,農作物のモニタリングと食料安全保障において重要な課題である冬期小麦畑の分断に対応するために,soma tsvitモデルを適用することに焦点を当てた。 この適応プロセスは、BigFit、LoRA、Adaptformer、およびプロンプトチューニングを含む異なるPEFT技術を統合することを含む。 PEFT技術を用いて,TSViTアーキテクチャ全体の0.7%のパラメータのみをトレーニングしながら,完全な微調整手法を用いて達成した手法に匹敵する顕著な結果を得た。 Beqaa-Lebanonデータセットと呼ばれる社内ラベル付きデータセットは、小麦および非小麦類のための高品質なアノテートポリゴンであり、総表面は170 kmsqで、5年連続している。 Sentinel-2画像を用いて84%のF1スコアを得た。 レバノンの冬小麦データセット、コードリポジトリ、モデルウェイトを公式にリリースする予定です。

Parameter Efficient Fine Tuning (PEFT) techniques have recently experienced significant growth and have been extensively employed to adapt large vision and language models to various domains, enabling satisfactory model performance with minimal computational needs. Despite these advances, more research has yet to delve into potential PEFT applications in real-life scenarios, particularly in the critical domains of remote sensing and crop monitoring. The diversity of climates across different regions and the need for comprehensive large-scale datasets have posed significant obstacles to accurately identify crop types across varying geographic locations and changing growing seasons. This study seeks to bridge this gap by comprehensively exploring the feasibility of cross-area and cross-year out-of-distribution generalization using the State-of-the-Art (SOTA) wheat crop monitoring model. The aim of this work is to explore PEFT approaches for crop monitoring. Specifically, we focus on adapting the SOTA TSViT model to address winter wheat field segmentation, a critical task for crop monitoring and food security. This adaptation process involves integrating different PEFT techniques, including BigFit, LoRA, Adaptformer, and prompt tuning. Using PEFT techniques, we achieved notable results comparable to those achieved using full fine-tuning methods while training only a mere 0.7% parameters of the whole TSViT architecture. The in-house labeled data-set, referred to as the Beqaa-Lebanon dataset, comprises high-quality annotated polygons for wheat and non-wheat classes with a total surface of 170 kmsq, over five consecutive years. Using Sentinel-2 images, our model achieved a 84% F1-score. We intend to publicly release the Lebanese winter wheat data set, code repository, and model weights.
翻訳日:2023-11-30 14:27:08 公開日:2023-11-27
# オブジェクトパーマンスによるオフライン追跡

Offline Tracking with Object Permanence ( http://arxiv.org/abs/2310.01288v3 )

ライセンス: Link先を確認
Xianzhong Liu, Holger Caesar(参考訳) 自動走行データセットの手動ラベリングに要するコストを削減すべく、オフライン認識システムを用いてデータセットを自動的にラベリングする。 しかし、物体は時間的にオクルードされることがある。 このようなデータセットのオクルージョンシナリオは、オフラインのオートラベリングでは未解決である。 本研究では,隠蔽対象トラックに着目したオフライン追跡モデルを提案する。 オブジェクト永続性(object permanence)という概念を利用しており、もはや観測されていなくてもオブジェクトは存在し続ける。 このモデルには、標準的なオンライントラッカー、閉塞前後のトラックレットを関連付ける再識別(Re-ID)モジュール、断片化されたトラックを補完するトラック補完モジュールの3つの部分が含まれている。 Re-IDモジュールとトラック完了モジュールは、ベクトル化されたマップを入力の1つとして使用し、オクルージョンで追跡結果を洗練する。 モデルは、閉塞された対象軌跡を効果的に回収することができる。 従来のオンライントラッキング結果を大幅に改善し、3Dマルチオブジェクトトラッキングにおける最先端性能を実現し、オフライン自動ラベリングに応用できる可能性を示し、オクルージョンを回収することでトラッキングを改善する。

To reduce the expensive labor cost for manual labeling autonomous driving datasets, an alternative is to automatically label the datasets using an offline perception system. However, objects might be temporally occluded. Such occlusion scenarios in the datasets are common yet underexplored in offline auto labeling. In this work, we propose an offline tracking model that focuses on occluded object tracks. It leverages the concept of object permanence which means objects continue to exist even if they are not observed anymore. The model contains three parts: a standard online tracker, a re-identification (Re-ID) module that associates tracklets before and after occlusion, and a track completion module that completes the fragmented tracks. The Re-ID module and the track completion module use the vectorized map as one of the inputs to refine the tracking results with occlusion. The model can effectively recover the occluded object trajectories. It achieves state-of-the-art performance in 3D multi-object tracking by significantly improving the original online tracking result, showing its potential to be applied in offline auto labeling as a useful plugin to improve tracking by recovering occlusions.
翻訳日:2023-11-30 14:26:12 公開日:2023-11-27
# 地図の方程式は神経質になり

The Map Equation Goes Neural ( http://arxiv.org/abs/2310.01144v2 )

ライセンス: Link先を確認
Christopher Bl\"ocker, Chester Tan, Ingo Scholtes(参考訳) コミュニティ検出とグラフクラスタリングは、教師なしデータ探索とネットワークシステムのハイレベルな組織理解に不可欠である。 近年,グラフクラスタリングがグラフニューラルネットワークの主要な課題として注目されている。 階層型グラフプーリングは、グラフとノードの分類タスクのパフォーマンスを改善することが示されているが、有意義なクラスタの識別には不十分である。 コミュニティ検出は、ネットワーク科学において長い歴史を持つが、一般的には、カスタムカスタマイズされた検索アルゴリズムによる客観的関数の最適化に依存しており、特にグラフニューラルネットワークによるディープラーニングの最近の進歩を活用していない。 本稿では,深層学習とネットワーク科学のコミュニティとのギャップを狭める。 我々は、教師なしコミュニティ検出のための情報理論目的関数であるマップ方程式を考察する。 ソフトクラスタ割り当てを生成する完全微分可能なテンソル形式で表現し、勾配降下による深層学習でマップ方程式を最適化する。 より具体的には、改革されたマップ方程式は、任意のグラフニューラルネットワークアーキテクチャと互換性のある損失関数であり、グラフ構造とデータ特徴の両方をエンドツーエンドでクラスタ化する柔軟なクラスタリングとグラフプーリングを可能にする。 本研究では,合成データと実データとの教師なしクラスタリングのために,異なるニューラルネットワークアーキテクチャを用いて実験的にアプローチを評価する。 以上の結果から,本手法はベースラインに対する競争性能を向上し,重複するコミュニティを自然に検出し,スパースグラフの過分割を回避する。

Community detection and graph clustering are essential for unsupervised data exploration and understanding the high-level organisation of networked systems. Recently, graph clustering has received attention as a primary task for graph neural networks. Although hierarchical graph pooling has been shown to improve performance in graph and node classification tasks, it performs poorly in identifying meaningful clusters. Community detection has a long history in network science, but typically relies on optimising objective functions with custom-tailored search algorithms, not leveraging recent advances in deep learning, particularly from graph neural networks. In this paper, we narrow this gap between the deep learning and network science communities. We consider the map equation, an information-theoretic objective function for unsupervised community detection. Expressing it in a fully differentiable tensor form that produces soft cluster assignments, we optimise the map equation with deep learning through gradient descent. More specifically, the reformulated map equation is a loss function compatible with any graph neural network architecture, enabling flexible clustering and graph pooling that clusters both graph structure and data features in an end-to-end way, automatically finding an optimum number of clusters without explicit regularisation by following the minimum description length principle. We evaluate our approach experimentally using different neural network architectures for unsupervised clustering in synthetic and real data. Our results show that our approach achieves competitive performance against baselines, naturally detects overlapping communities, and avoids over-partitioning sparse graphs.
翻訳日:2023-11-30 14:25:54 公開日:2023-11-27
# プロパガンダ検出のための大規模言語モデル

Large Language Models for Propaganda Detection ( http://arxiv.org/abs/2310.06422v2 )

ライセンス: Link先を確認
Kilian Sprenkamp, Daniel Gordon Jones, Liudmila Zavolokina(参考訳) デジタル社会におけるプロパガンダの普及は、社会的調和と真理の普及に挑戦している。 テキスト中のNLPによるプロパガンダの検出は微妙な操作技術と文脈依存のため困難である。 本稿では,GPT-3 や GPT-4 などの現代大規模言語モデル (LLM) によるプロパガンダ検出の有効性について検討する。 我々は,マルチラベル分類問題として,14のプロパガンダ技術でラベル付けされたニュース記事を特徴とするsemeval-2020 task 11データセットを用いて実験を行った。 GPT-3とGPT-4の5つのバリエーションが採用され、異なるモデルにまたがる様々な迅速なエンジニアリングと微調整戦略が取り入れられている。 我々は、F1$ score, $Precision$, $Recall$などのメトリクスを評価し、その結果とRoBERTaを用いた現在の最先端アプローチを比較して、モデルの性能を評価する。 以上の結果から, GPT-4は現在の最先端技術と同等の結果が得られた。 さらに,プロパガンダ検出などの複雑なタスクにおけるLCMの可能性と課題について検討した。

The prevalence of propaganda in our digital society poses a challenge to societal harmony and the dissemination of truth. Detecting propaganda through NLP in text is challenging due to subtle manipulation techniques and contextual dependencies. To address this issue, we investigate the effectiveness of modern Large Language Models (LLMs) such as GPT-3 and GPT-4 for propaganda detection. We conduct experiments using the SemEval-2020 task 11 dataset, which features news articles labeled with 14 propaganda techniques as a multi-label classification problem. Five variations of GPT-3 and GPT-4 are employed, incorporating various prompt engineering and fine-tuning strategies across the different models. We evaluate the models' performance by assessing metrics such as $F1$ score, $Precision$, and $Recall$, comparing the results with the current state-of-the-art approach using RoBERTa. Our findings demonstrate that GPT-4 achieves comparable results to the current state-of-the-art. Further, this study analyzes the potential and challenges of LLMs in complex tasks like propaganda detection.
翻訳日:2023-11-30 14:16:06 公開日:2023-11-27
# 動的サンプル選択による連続テスト時間領域適応

Continual Test-time Domain Adaptation via Dynamic Sample Selection ( http://arxiv.org/abs/2310.03335v2 )

ライセンス: Link先を確認
Yanshuo Wang, Jie Hong, Ali Cheraghian, Shafin Rahman, David Ahmedt-Aristizabal, Lars Petersson, Mehrtash Harandi(参考訳) 連続テスト時ドメイン適応(CTDA)の目的は、ソースデータにアクセスすることなく、トレーニング済みモデルをターゲットドメインのシーケンスに徐々に適応させることである。 本稿では,ctdaのための動的サンプル選択法を提案する。 dssは動的しきい値付け、正の学習、負の学習プロセスで構成される。 伝統的に、モデルはラベルのない未知の環境データから学び、自己学習を通じてパラメータを更新するために全てのサンプルの擬似ラベルに等しく依存する。 しかし、これらの擬似ラベルにはノイズ予測が存在するため、全てのサンプルは等しく信頼できない。 そこで,本手法では,まず動的しきい値決めモジュールを用いて,高品質なサンプルから疑わしい品質を選択する。 選択された低品質サンプルは、誤って予測される可能性が高い。 そこで,良質なサンプルと低品質のサンプルの両方に共同正負の学習を適用し,誤った情報を使用するリスクを低減した。 我々は,画像領域におけるCTDA法の有効性を実証する広範な実験を行い,その有効性を実証した。 さらに,このアプローチは3d point cloudドメインでも評価され,その汎用性とより広範な適用可能性を示している。

The objective of Continual Test-time Domain Adaptation (CTDA) is to gradually adapt a pre-trained model to a sequence of target domains without accessing the source data. This paper proposes a Dynamic Sample Selection (DSS) method for CTDA. DSS consists of dynamic thresholding, positive learning, and negative learning processes. Traditionally, models learn from unlabeled unknown environment data and equally rely on all samples' pseudo-labels to update their parameters through self-training. However, noisy predictions exist in these pseudo-labels, so all samples are not equally trustworthy. Therefore, in our method, a dynamic thresholding module is first designed to select suspected low-quality from high-quality samples. The selected low-quality samples are more likely to be wrongly predicted. Therefore, we apply joint positive and negative learning on both high- and low-quality samples to reduce the risk of using wrong information. We conduct extensive experiments that demonstrate the effectiveness of our proposed method for CTDA in the image domain, outperforming the state-of-the-art results. Furthermore, our approach is also evaluated in the 3D point cloud domain, showcasing its versatility and potential for broader applicability.
翻訳日:2023-11-30 14:12:23 公開日:2023-11-27
# あらゆる量子が役に立つ:凸性を超えた量子資源の運用上の利点

Every quantum helps: Operational advantage of quantum resources beyond convexity ( http://arxiv.org/abs/2310.09154v2 )

ライセンス: Link先を確認
Kohdai Kuroiwa, Ryuji Takagi, Gerardo Adesso, Hayata Yamasaki(参考訳) 量子技術は前例のない利点をもたらすと期待されているため、量子力学的特性が何に役立つのかを特定することは重要な疑問である。 量子資源理論は、エンタングルメントやコヒーレンスといった基本的な性質の理解に成功している量子特性を分析するための統一的な枠組みを提供する。 これらは常に量子上の利点を識別できる凸資源の例であるが、多くの物理資源は非凸状態の集合によって記述され、その解釈はいまだ解明されていない。 本稿では,一般資源理論における一般化ロバスト性資源測度の2つの操作的解釈を提供することにより,凸性仮定を伴わない量子資源の有用性に関する基礎的な問題に対処する。 一方,非線形資源証人の観点から一般化されたロバスト性に着目し,マルチコピーチャネル識別タスクにおいて,任意の状態が自由状態よりも有利であることを示す。 一方,理論が複数の制約によって特徴づけられるシナリオを考察し,一般化されたロバスト性が単一コピーチャネル識別設定において最悪の利点と一致することを示す。 これらの特徴から、任意の量子資源状態は、自由集合の構造を仮定することなく、一般資源理論における識別問題において定性的かつ定量的な優位性を示すと結論づける。

As quantum technologies are expected to provide us with unprecedented benefits, identifying what quantum-mechanical properties are useful is a pivotal question. Quantum resource theories provide a unified framework to analyze such quantum properties, which has been successful in the understanding of fundamental properties such as entanglement and coherence. While these are examples of convex resources, for which quantum advantages can always be identified, many physical resources are described by a non-convex set of free states and their interpretation has so far remained elusive. Here we address the fundamental question of the usefulness of quantum resources without convexity assumption, by providing two operational interpretations of the generalized robustness resource measure in general resource theories. On the one hand, we characterize the generalized robustness in terms of a non-linear resource witness and reveal that any state is more advantageous than a free one in some multi-copy channel discrimination task. On the other hand, we consider a scenario where a theory is characterized by multiple constraints and show that the generalized robustness coincides with the worst-case advantage in a single-copy channel discrimination setting. Based on these characterizations, we conclude that every quantum resource state shows a qualitative and quantitative advantage in discrimination problems in a general resource theory even without any assumption on the structure of the free sets.
翻訳日:2023-11-30 14:05:56 公開日:2023-11-27
# R&B: ゼロショット接地画像生成における領域と境界認識

R&B: Region and Boundary Aware Zero-shot Grounded Text-to-image Generation ( http://arxiv.org/abs/2310.08872v5 )

ライセンス: Link先を確認
Jiayu Xiao, Henglei Lv, Liang Li, Shuhui Wang, Qingming Huang(参考訳) 近年のテキスト・ツー・イメージ(T2I)拡散モデルでは,テキスト・プロンプトを入力とする高品質な画像の生成が顕著に進んでいる。 しかし、これらのモデルはレイアウト命令によって指定された適切な空間構成を伝達できない。 本研究では,入力レイアウト情報に対応する画像を生成する拡散モデルを用いて,補助モジュールの訓練や拡散モデルの微調整を行わずにゼロショットグラウンドt2i生成を探索する。 本研究では,生成過程において拡散モデルの注意マップを徐々に変調し,(1)高い忠実度,(2)テキスト入力と高い適合性,(3)レイアウト命令の正確な解釈を支援する領域・境界(r&b)対応のクロス・アテンション誘導手法を提案する。 具体的には,連続したアテンションマップと離散レイアウト制約とのギャップを埋めるために離散サンプリングを利用し,拡散過程における生成レイアウトを洗練するために領域認識損失を設計する。 さらに,対象領域における識別可能性を高めるための境界認識損失を提案する。 実験結果から,提案手法は,既存のゼロショットグラウンドドT2I生成手法よりも,定性的かつ定量的に,複数のベンチマークで大きなマージンを達成できた。

Recent text-to-image (T2I) diffusion models have achieved remarkable progress in generating high-quality images given text-prompts as input. However, these models fail to convey appropriate spatial composition specified by a layout instruction. In this work, we probe into zero-shot grounded T2I generation with diffusion models, that is, generating images corresponding to the input layout information without training auxiliary modules or finetuning diffusion models. We propose a Region and Boundary (R&B) aware cross-attention guidance approach that gradually modulates the attention maps of diffusion model during generative process, and assists the model to synthesize images (1) with high fidelity, (2) highly compatible with textual input, and (3) interpreting layout instructions accurately. Specifically, we leverage the discrete sampling to bridge the gap between consecutive attention maps and discrete layout constraints, and design a region-aware loss to refine the generative layout during diffusion process. We further propose a boundary-aware loss to strengthen object discriminability within the corresponding regions. Experimental results show that our method outperforms existing state-of-the-art zero-shot grounded T2I generation methods by a large margin both qualitatively and quantitatively on several benchmarks.
翻訳日:2023-11-30 14:05:00 公開日:2023-11-27
# DeepSimHO:物理シミュレーションによる手動物体間相互作用の安定電位推定

DeepSimHO: Stable Pose Estimation for Hand-Object Interaction via Physics Simulation ( http://arxiv.org/abs/2310.07206v2 )

ライセンス: Link先を確認
Rong Wang, Wei Mao, Hongdong Li(参考訳) 本稿では,物体と相互作用する手の3次元ポーズ推定の課題について検討する。 ハンド・オブジェクト相互作用のモデル化では、手が物体を安定して把握し、重力に逆行し、物体の滑りや落下を防止しなければならない動的性質を見落としながら、主に近接する手がかりを利用する。 これらの仕事は、推定において動的制約を活用できず、結果としてしばしば不安定な結果を生み出す。 一方で、物理ベースの推論による不安定な構成の洗練は、接触ダイナミクスの複雑さと、データ駆動学習フレームワークにおける効率的で効率的な物理推論の欠如の両方によって、依然として困難である。 両問題に対処するため,我々は,前方物理学シミュレーションと後方勾配近似とニューラルネットワークを組み合わせた,新しいディープラーニングパイプラインであるdeepsimhoを提案する。 具体的には,ベースネットワークによって推定された初期ハンドオブジェクトポーズに対して,その安定性を評価するために物理シミュレータに転送する。 しかし、非スムース接触形状と浸透のため、既存の微分可能シミュレータは信頼できる状態勾配を提供することができない。 この問題を解決するために,我々は,シミュレータから安定性評価プロセスをスムーズに学習し,その勾配を近似し,効果的なバックプロパゲーションを実現するディープネットワークを提案する。 実験の結果,提案手法は評価の安定性を著しく向上し,テスト時間最適化よりも優れた効率性を実現することがわかった。 コードはhttps://github.com/rongakowang/deepsimhoで入手できる。

This paper addresses the task of 3D pose estimation for a hand interacting with an object from a single image observation. When modeling hand-object interaction, previous works mainly exploit proximity cues, while overlooking the dynamical nature that the hand must stably grasp the object to counteract gravity and thus preventing the object from slipping or falling. These works fail to leverage dynamical constraints in the estimation and consequently often produce unstable results. Meanwhile, refining unstable configurations with physics-based reasoning remains challenging, both by the complexity of contact dynamics and by the lack of effective and efficient physics inference in the data-driven learning framework. To address both issues, we present DeepSimHO: a novel deep-learning pipeline that combines forward physics simulation and backward gradient approximation with a neural network. Specifically, for an initial hand-object pose estimated by a base network, we forward it to a physics simulator to evaluate its stability. However, due to non-smooth contact geometry and penetration, existing differentiable simulators can not provide reliable state gradient. To remedy this, we further introduce a deep network to learn the stability evaluation process from the simulator, while smoothly approximating its gradient and thus enabling effective back-propagation. Extensive experiments show that our method noticeably improves the stability of the estimation and achieves superior efficiency over test-time optimization. The code is available at https://github.com/rongakowang/DeepSimHO.
翻訳日:2023-11-30 14:01:21 公開日:2023-11-27
# 高ダイナミックレンジ画像レンダリングの知覚評価と最適化

Perceptual Assessment and Optimization of High Dynamic Range Image Rendering ( http://arxiv.org/abs/2310.12877v3 )

ライセンス: Link先を確認
Peibei Cao, Rafal K. Mantiuk and Kede Ma(参考訳) 高ダイナミックレンジ(HDR)画像の普及は、自然界における輝度レベルを忠実に捉える能力に起因している。 しかし,HDR画像の品質評価は不十分である。 既存のモデルは、主に低ダイナミックレンジ(LDR)画像用に設計されており、HDR画像の品質に対する人間の認識と相関が低い。 このギャップを埋めるために,近年のLDR領域の進歩を伝達することにより,HDR品質指標のファミリを提案する。 提案手法の重要なステップは、単純な逆表示モデルを用いて、HDR画像を様々な露出でLDR画像のスタックに分解することである。 その後、これらのLDR画像は最先端のLDR品質指標を用いて評価される。 当社のHDR品質モデルファミリーには,3つの大きなメリットがあります。 まず、特定の露光(すなわち輝度範囲)を重み付けして、全体的な品質スコアを計算する際の評価を強調する。 第2に、我々のHDR品質指標は、LDR画像の評価において、ベースとなるLDR品質モデルの性能を直接継承する。 第3に、我々のメトリクスは再校正のために人間のHDR画像品質の知覚データに依存しない。 4つのヒト評価HDR画像品質データセットを用いて行った実験は、HDR-VDPファミリーを含む既存の手法よりもHDR品質指標が一貫して優れていることを示している。 さらに,HDRノベルビュー合成の知覚的最適化におけるモデルの有効性を実証する。

The increasing popularity of high dynamic range (HDR) imaging stems from its ability to faithfully capture luminance levels in natural scenes. However, HDR image quality assessment has been insufficiently addressed. Existing models are mostly designed for low dynamic range (LDR) images, which exhibit poorly correlated with human perception of HDR image quality. To fill this gap, we propose a family of HDR quality metrics by transferring the recent advancements in LDR domain. The key step in our approach is to employ a simple inverse display model to decompose an HDR image into a stack of LDR images with varying exposures. Subsequently, these LDR images are evaluated using state-of-the-art LDR quality metrics. Our family of HDR quality models offer three notable advantages. First, specific exposures (i.e., luminance ranges) can be weighted to emphasize their assessment when calculating the overall quality score. Second, our HDR quality metrics directly inherit the capabilities of their base LDR quality models in assessing LDR images. Third, our metrics do not rely on human perceptual data of HDR image quality for re-calibration. Experiments conducted on four human-rated HDR image quality datasets indicate that our HDR quality metrics consistently outperform existing methods, including the HDR-VDP family. Furthermore, we demonstrate the promise of our models in the perceptual optimization of HDR novel view synthesis.
翻訳日:2023-11-30 13:55:21 公開日:2023-11-27
# DynamiCrafter: ビデオ拡散プリミティブによるオープンドメインイメージのアニメーション

DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors ( http://arxiv.org/abs/2310.12190v2 )

ライセンス: Link先を確認
Jinbo Xing, Menghan Xia, Yong Zhang, Haoxin Chen, Wangbo Yu, Hanyuan Liu, Xintao Wang, Tien-Tsin Wong, Ying Shan(参考訳) 静止画のアニメーションは、魅力的なビジュアル体験を提供する。 伝統的な画像アニメーション技術は主に、確率的ダイナミックス(雲や流体など)やドメイン固有の動き(人間の毛髪や身体の動きなど)で自然のシーンをアニメーションすることに焦点を当てており、それによってより一般的な視覚的コンテンツに適用性を制限する。 この制限を克服するために,オープンドメイン画像に対する動的コンテンツの合成を探索し,それらをアニメーションビデオに変換する。 鍵となるアイデアは、画像を生成過程に組み込むことで、テキストからビデオへの拡散モデルよりも前の動きを利用することである。 画像が与えられたら、まず、問合せ変換器を用いてテキスト整列したリッチなコンテキスト表現空間に投影し、ビデオモデルが相容れない方法で画像内容の消化を容易にする。 しかし、いくつかの視覚的詳細は、結果のビデオで保存されるのに苦戦している。 より正確な画像情報を補足するため、初期ノイズと結合することにより、拡散モデルにさらに全画像を供給する。 実験結果から,提案手法は視覚的に説得力があり,より論理的,自然な動きが得られ,入力画像への適合性が向上することが示された。 比較評価は既存の競合相手に対するアプローチの顕著な優位性を示している。

Animating a still image offers an engaging visual experience. Traditional image animation techniques mainly focus on animating natural scenes with stochastic dynamics (e.g. clouds and fluid) or domain-specific motions (e.g. human hair or body motions), and thus limits their applicability to more general visual content. To overcome this limitation, we explore the synthesis of dynamic content for open-domain images, converting them into animated videos. The key idea is to utilize the motion prior of text-to-video diffusion models by incorporating the image into the generative process as guidance. Given an image, we first project it into a text-aligned rich context representation space using a query transformer, which facilitates the video model to digest the image content in a compatible fashion. However, some visual details still struggle to be preserved in the resultant videos. To supplement with more precise image information, we further feed the full image to the diffusion model by concatenating it with the initial noises. Experimental results show that our proposed method can produce visually convincing and more logical & natural motions, as well as higher conformity to the input image. Comparative evaluation demonstrates the notable superiority of our approach over existing competitors.
翻訳日:2023-11-30 13:54:59 公開日:2023-11-27
# 尾根回帰におけるカーネル学習 : 低ランク解の「自動」収量

Kernel Learning in Ridge Regression "Automatically" Yields Exact Low Rank Solution ( http://arxiv.org/abs/2310.11736v2 )

ライセンス: Link先を確認
Yunlu Chen, Yang Li, Keli Liu, and Feng Ruan(参考訳) 我々は、$(x,x') \mapsto \phi(\|x-x'\|^2_\Sigma)$\Sigma$の形の核を考える。 このようなカーネルに対しては、予測関数と再生カーネルヒルベルト空間のパラメータ$\Sigma$を同時に最適化するカーネルリッジ回帰問題の変種について検討する。 このカーネルリッジ回帰問題から学んだ$\sigma$の固有空間は、共変量空間のどの方向が予測に重要であるかを教えてくれる。 共変量体が低次元部分空間(中央平均部分空間)を通してのみ応答の非ゼロ説明力を持つと仮定すると、有限標本カーネル学習目標の大域最小化器も高い確率で低ランクであることが分かる。 より正確には、$\Sigma$ の最小化のランクは、中心平均部分空間の次元によって有界な高い確率を持つ。 この現象は、低ランク性の性質は、例えば核標準ペナリゼーションのような$\sigma$の明示的な正則化を使わずに達成されるので興味深い。 本理論は、観測現象と最適化文献から識別可能な低階集合の概念とを対応づける。 群核学習の目的が中心平均部分空間に垂直な任意の方向の最小化子から離れるときに「シャープに」成長するため、有限サンプル解の低ランク性は存在する。

We consider kernels of the form $(x,x') \mapsto \phi(\|x-x'\|^2_\Sigma)$ parametrized by $\Sigma$. For such kernels, we study a variant of the kernel ridge regression problem which simultaneously optimizes the prediction function and the parameter $\Sigma$ of the reproducing kernel Hilbert space. The eigenspace of the $\Sigma$ learned from this kernel ridge regression problem can inform us which directions in covariate space are important for prediction. Assuming that the covariates have nonzero explanatory power for the response only through a low dimensional subspace (central mean subspace), we find that the global minimizer of the finite sample kernel learning objective is also low rank with high probability. More precisely, the rank of the minimizing $\Sigma$ is with high probability bounded by the dimension of the central mean subspace. This phenomenon is interesting because the low rankness property is achieved without using any explicit regularization of $\Sigma$, e.g., nuclear norm penalization. Our theory makes correspondence between the observed phenomenon and the notion of low rank set identifiability from the optimization literature. The low rankness property of the finite sample solutions exists because the population kernel learning objective grows "sharply" when moving away from its minimizers in any direction perpendicular to the central mean subspace.
翻訳日:2023-11-30 13:54:37 公開日:2023-11-27
# AST:スムーズかつ高品質なエキスパート軌道とのアライメントによる効果的なデータセット蒸留

AST: Effective Dataset Distillation through Alignment with Smooth and High-Quality Expert Trajectories ( http://arxiv.org/abs/2310.10541v2 )

ライセンス: Link先を確認
Jiyuan Shen, Wenzhuo Yang, Kwok-Yan Lam(参考訳) 大規模なAIモデルのトレーニングは通常、機械学習プロセスで大規模なデータセットを必要とする。 一部の研究者は、現実世界のデータセットから非常に少数の非常に代表的で情報性の高いサンプルを慎重に合成することでこの問題に対処している。 このアプローチは、Dataset Distillation (DD) と呼ばれ、データ効率の学習の視点を提案する。 この分野での最近の進歩にもかかわらず、既存のメソッドのパフォーマンスはまだ期待に届かず、蒸留データセットは元のデータセットを効果的に置き換えることはできない。 本稿では, 学生蒸留の有効性向上にのみ焦点をあてた従来の方法とは異なり, 専門家と学生のモデル間の重要な相互影響を認識し, 活用する。 専門家の軌跡の滑らかさは,その後の学生パラメータアライメントに大きな影響を与えることがわかった。 そこで本研究では,Smooth と高品位専門家によるアライメントのための DD フレームワーク AST を提案する。 我々は,クリッピング損失と勾配ペナルティの統合を考案し,専門家の軌道生成におけるパラメータ変化率を調節する。 さらに, 学生パラメータアライメントをエキスパート軌道に適合させるため, 蒸留中のランダム初期化変数に対する感度に応答して, 合成データセットの代表的な初期化と内部ループ損失のバランスを取る。 また,累積誤差の発生可能性を軽減するため,中間整合損失と重み摂動の2つの強化戦略を提案する。 さまざまなスケール、サイズ、解像度のデータセットに関する広範な実験を行います。 その結果,提案手法は先行手法よりも有意に優れていた。

Training large AI models typically requires large-scale datasets in the machine learning process, making training and parameter-tuning process both time-consuming and costly. Some researchers address this problem by carefully synthesizing a very small number of highly representative and informative samples from real-world datasets. This approach, known as Dataset Distillation (DD), proposes a perspective for data-efficient learning. Despite recent progress in this field, the performance of existing methods still cannot meet expectations, and distilled datasets cannot effectively replace original datasets. In this paper, unlike previous methods that focus solely on improving the effectiveness of student distillation, we recognize and leverage the important mutual influence between expert and student models. We observed that the smoothness of expert trajectories has a significant impact on subsequent student parameter alignment. Based on this, we propose an effective DD framework named AST, standing for Alignment with Smooth and high-quality expert Trajectories. We devise the integration of clipping loss and gradient penalty to regulate the rate of parameter changes in expert trajectory generation. To further refine the student parameter alignment with expert trajectory, we put forward representative initialization for the synthetic dataset and balanced inner-loop loss in response to the sensitivity exhibited towards randomly initialized variables during distillation. We also propose two enhancement strategies, namely intermediate matching loss and weight perturbation, to mitigate the potential occurrence of cumulative errors. We conduct extensive experiments on datasets of different scales, sizes, and resolutions. The results demonstrate that the proposed method significantly outperforms prior methods.
翻訳日:2023-11-30 13:52:43 公開日:2023-11-27
# LLM4SGG:弱教師付きシーングラフ生成のための大規模言語モデル

LLM4SGG: Large Language Model for Weakly Supervised Scene Graph Generation ( http://arxiv.org/abs/2310.10404v5 )

ライセンス: Link先を確認
Kibum Kim, Kanghoon Yoon, Jaehyeong Jeon, Yeonjun In, Jinyoung Moon, Donghyun Kim, Chanyoung Park(参考訳) Wakly-Supervised Scene Graph Generation (WSSGG) 研究は、最近、コストのかかるアノテーションに大きく依存する、完全に教師されたアプローチの代替として現れた。 そこで,WSSGGの研究は,画像領域上の非局在化三重項の接地に着目しつつ,非局在化三重項の取得に画像キャプションを利用した。 しかし、キャプションから三重項形成の過程に関わる2つの問題を見落としている。 1)字幕中のきめ細かい述語を好ましくなく粗い述語に変換して長尾述語分布にするキャプションから三重項を抽出する際に意味的な単純化の問題が発生する。 2 低密度シーングラフは、キャプション内の三つ子を、多くの三つ子を捨てて訓練に使用しない利害関係のクラスに整列させ、監督が不十分な場合に発生する。 この2つの問題に対処するため,LLM の言語理解の深みを生かし,キャプションから三重項を抽出する際の推論能力と,エンティティ/述語クラスを対象データにアライメントすることで,弱教師付き SGG のための大規模言語モデル (LLM4SGG) を提案する。 これらのプロセスでLLMをさらに活用するため、我々はChain-of-Thoughtという概念と、文脈内数ショット学習戦略を採用した。 LLM4SGGの有効性を検証するために、我々は、Visual GenomeとGQAデータセットの広範な実験を行い、Recall@Kと平均Recall@Kの両方において、最先端のWSSGG法と比較して大幅に改善されていることを示す。 さらに、LLM4SGGはデータ効率が良く、少量のトレーニング画像で効果的なモデルトレーニングを可能にする。

Weakly-Supervised Scene Graph Generation (WSSGG) research has recently emerged as an alternative to the fully-supervised approach that heavily relies on costly annotations. In this regard, studies on WSSGG have utilized image captions to obtain unlocalized triplets while primarily focusing on grounding the unlocalized triplets over image regions. However, they have overlooked the two issues involved in the triplet formation process from the captions: 1) Semantic over-simplification issue arises when extracting triplets from captions, where fine-grained predicates in captions are undesirably converted into coarse-grained predicates, resulting in a long-tailed predicate distribution, and 2) Low-density scene graph issue arises when aligning the triplets in the caption with entity/predicate classes of interest, where many triplets are discarded and not used in training, leading to insufficient supervision. To tackle the two issues, we propose a new approach, i.e., Large Language Model for weakly-supervised SGG (LLM4SGG), where we mitigate the two issues by leveraging the LLM's in-depth understanding of language and reasoning ability during the extraction of triplets from captions and alignment of entity/predicate classes with target data. To further engage the LLM in these processes, we adopt the idea of Chain-of-Thought and the in-context few-shot learning strategy. To validate the effectiveness of LLM4SGG, we conduct extensive experiments on Visual Genome and GQA datasets, showing significant improvements in both Recall@K and mean Recall@K compared to the state-of-the-art WSSGG methods. A further appeal is that LLM4SGG is data-efficient, enabling effective model training with a small amount of training images.
翻訳日:2023-11-30 13:51:33 公開日:2023-11-27
# アグリゲーションによるラベル差分プライバシー

Label Differential Privacy via Aggregation ( http://arxiv.org/abs/2310.10092v3 )

ライセンス: Link先を確認
Anand Brahmbhatt, Rishi Saket, Shreyas Havaldar, Anshul Nasery and Aravindan Raghuveer(参考訳) 多くの現実世界のアプリケーションでは、近年のプライバシ分野の発展により、センシティブなトレーニングラベルのプライバシを保存するためにトレーニングデータを集約することができる。 ラベルパーセンテージ(LLP)フレームワークからの学習では、データセットは機能ベクタのバッグに分割され、バッグごとのラベルの合計でのみ利用できる。 バッグアグリゲーション(LBA)から学習するさらなる制限は、個々の特徴ベクトルの代わりに、バッグ毎の特徴ベクトルの(おそらく重み付けされた)和のみが利用できることである。 本研究では,ラベル差分プライバシー(ラベルDP)という概念の下で,そのようなアグリゲーション技術が,例えば[Chaudhuri-Hsu'11, Ghazi et al.'21, Esfandiari et al.'22]で研究されているように,プライバシー保証を提供できるかどうかを検討する。 ナイーブな LBA と LLP はラベルDP を提供していないことが容易に分かる。 しかし, この結果から, iid Gaussian 重み付き LBA を$m$で無作為にサンプリングした $k$ サイズのバッグは, 実際に$(\varepsilon, \delta)$-label-DP for any $\varepsilon > 0$ with $\delta \approx \exp(-\Omega(\sqrt{k})$ で, 線形mse回帰損失の低い境界を仮定する。 さらに、集約データセットの損失を最小限にする$\ell_2^2$-regressorは、元のデータセットw.p.$\approx 1 - exp(-\omega(m))$上の最適値の$\left(1 + o(1)\right)$-factorである。 付加的なラベルノイズは不要であることを強調する。 類似の重み付きLLPは、ラベルDPを認めない。 それにもかかわらず、もし付加的な$N(0, 1)$ノイズがインスタンスラベルの任意の定数に付加できるなら、ノイズ重み付きLLPは、Lipschitz-bounded neural mse-regressionタスクの有効性を保ちながら、データセットに仮定せずに同様のラベル-DPを保証する。 我々の研究は、回帰タスクに対するランダムに重み付けされたアグリゲーションによってラベルDPが達成できることを示す最初のものである。

In many real-world applications, due to recent developments in the privacy landscape, training data may be aggregated to preserve the privacy of sensitive training labels. In the learning from label proportions (LLP) framework, the dataset is partitioned into bags of feature-vectors which are available only with the sum of the labels per bag. A further restriction, which we call learning from bag aggregates (LBA) is where instead of individual feature-vectors, only the (possibly weighted) sum of the feature-vectors per bag is available. We study whether such aggregation techniques can provide privacy guarantees under the notion of label differential privacy (label-DP) previously studied in for e.g. [Chaudhuri-Hsu'11, Ghazi et al.'21, Esfandiari et al.'22]. It is easily seen that naive LBA and LLP do not provide label-DP. Our main result however, shows that weighted LBA using iid Gaussian weights with $m$ randomly sampled disjoint $k$-sized bags is in fact $(\varepsilon, \delta)$-label-DP for any $\varepsilon > 0$ with $\delta \approx \exp(-\Omega(\sqrt{k}))$ assuming a lower bound on the linear-mse regression loss. Further, the $\ell_2^2$-regressor which minimizes the loss on the aggregated dataset has a loss within $\left(1 + o(1)\right)$-factor of the optimum on the original dataset w.p. $\approx 1 - exp(-\Omega(m))$. We emphasize that no additive label noise is required. The analogous weighted-LLP does not however admit label-DP. Nevertheless, we show that if additive $N(0, 1)$ noise can be added to any constant fraction of the instance labels, then the noisy weighted-LLP admits similar label-DP guarantees without assumptions on the dataset, while preserving the utility of Lipschitz-bounded neural mse-regression tasks. Our work is the first to demonstrate that label-DP can be achieved by randomly weighted aggregation for regression tasks, using no or little additive noise.
翻訳日:2023-11-30 13:50:55 公開日:2023-11-27
# 凸性制限のないロバストネスと重み資源対策:静的および動的量子資源理論におけるマルチコピー証人および運用上の優位性

Robustness and weight resource measures without convexity restriction: Multicopy witness and operational advantage in static and dynamical quantum resource theories ( http://arxiv.org/abs/2310.09321v2 )

ライセンス: Link先を確認
Kohdai Kuroiwa, Ryuji Takagi, Gerardo Adesso, Hayata Yamasaki(参考訳) 量子資源理論(QRT)は、量子情報処理の利点を達成するためのリソースとして量子特性を分析する統一的なフレームワークを提供する。 汎用ロバスト性と資源の重みは有用な資源定量化器として注目されている。 しかし、既存の分析は自由状態の集合の凸性が仮定される場合に限られており、物理的動機づけのある資源は必ずしもこの制限を満たしていない。 本稿では,2つの異なるアプローチによる凸性制限を伴わない一般QRTにおいて,ロバストネスと重みに基づく尺度の特性について述べる。 一方,非線形証人を導入することで,資源の総体的堅牢性と重みを特徴づける。 本稿では,その状態の複数のコピーから与えられた状態の資源性を検出する新しい証人観測器の構築について概説し,この証人を用いて,凸性仮定を伴わずに,上記の資源対策の運用的解釈を行う。 一方,自由状態の集合が複数の制限に対応する凸部分集合からなる場合,一般化されたロバスト性や資源の重み付けは,チャネル識別やチャネル排他タスクの変種において,最悪の場合の最大アドバンテージとして解釈できることがわかった。 さらに、これらの結果を量子チャネルや量子機器のQRTに拡張する。 これらの特徴は、全ての量子資源が、凸性仮定のない一般のQRTにおいても、対応するタスクに有利であることを示している。 そこで,従来の凸QRTの範囲を超えて,ロバストネスと重みに基づく技術の有用性を確立し,QRTの一般的な構造をよりよく理解する。

Quantum resource theories (QRTs) provide a unified framework to analyze quantum properties as resources for achieving advantages in quantum information processing. The generalized robustness and the weight of resource have been gaining increasing attention as useful resource quantifiers. However, the existing analyses of these measures were restricted to the cases where convexity of the set of free states is assumed, and physically motivated resources do not necessarily satisfy this restriction. In this paper, we give characterizations of robustness- and weight-based measures in general QRTs without convexity restriction through two different yet related approaches. On the one hand, we characterize the generalized robustness and the weight of resource by introducing a non-linear witness. We show a general construction of a new witness observable that detects the resourcefulness of a given state from multiple copies of the state and, using this witness, we provide operational interpretations of the above resource measures even without any convexity assumption. On the other hand, we find that the generalized robustness and the weight of resource can also be interpreted as the worst-case maximum advantage in variants of channel-discrimination and channel-exclusion tasks, respectively, where the set of free states consists of several convex subsets corresponding to multiple restrictions. We further extend these results to QRTs for quantum channels and quantum instruments. These characterizations show that every quantum resource exhibits an advantage for the corresponding tasks, even in general QRTs without convexity assumption. Thus, we establish the usefulness of robustness-based and weight-based techniques beyond the conventional scope of convex QRTs, leading to a better understanding of the general structure of QRTs.
翻訳日:2023-11-30 13:48:54 公開日:2023-11-27
# ランダム二分列を用いた文脈内学習ダイナミクス

In-Context Learning Dynamics with Random Binary Sequences ( http://arxiv.org/abs/2310.17639v2 )

ライセンス: Link先を確認
Eric J. Bigelow, Ekdeep Singh Lubana, Robert P. Dick, Hidenori Tanaka, Tomer D. Ullman(参考訳) 大量のテキストデータセットでトレーニングされた大規模言語モデル(llm)は、興味深い能力を示し、明示的にトレーニングされていないタスクで最先端のパフォーマンスを達成している。 LLM能力の正確な性質はしばしば謎めいたものであり、異なるプロンプトは文脈内学習を通じて異なる能力を引き出すことができる。 我々は,llmsの行動パターンに基づく潜在概念を理解するために,文脈内学習ダイナミクスを解析できるフレームワークを提案する。 これは成功または失敗の評価ベンチマークよりも微妙な理解を提供するが、回路の機械的な解釈のように内部アクティベーションを観察する必要はない。 人間の無作為知覚の認知科学に着想を得て,ランダム二分列を文脈として使用し,シーケンス長などの文脈データの特性を操作することにより,文脈内学習のダイナミクスを研究する。 最新の GPT-3.5+ モデルでは、一見ランダムな数を生成し、基本形式言語を学習する創発的な能力を見出した。

Large language models (LLMs) trained on huge corpora of text datasets demonstrate intriguing capabilities, achieving state-of-the-art performance on tasks they were not explicitly trained for. The precise nature of LLM capabilities is often mysterious, and different prompts can elicit different capabilities through in-context learning. We propose a framework that enables us to analyze in-context learning dynamics to understand latent concepts underlying LLMs' behavioral patterns. This provides a more nuanced understanding than success-or-failure evaluation benchmarks, but does not require observing internal activations as a mechanistic interpretation of circuits would. Inspired by the cognitive science of human randomness perception, we use random binary sequences as context and study dynamics of in-context learning by manipulating properties of context data, such as sequence length. In the latest GPT-3.5+ models, we find emergent abilities to generate seemingly random numbers and learn basic formal languages, with striking in-context learning dynamics where model outputs transition sharply from seemingly random behaviors to deterministic repetition.
翻訳日:2023-11-30 13:41:22 公開日:2023-11-27
# マトリックスゲームにおける準最適純粋探索:確率帯域とデュエル帯域の一般化

Near-Optimal Pure Exploration in Matrix Games: A Generalization of Stochastic Bandits & Dueling Bandits ( http://arxiv.org/abs/2310.16252v2 )

ライセンス: Link先を確認
Arnab Maiti, Ross Boczar, Kevin Jamieson, Lillian J. Ratliff(参考訳) ノイズのある2人のゼロサムマトリクスゲームにおいて,純粋戦略ナッシュ均衡(psne)を同定するサンプル複雑性について検討した。 形式的には、任意の学習者が入力行列 $A\in[-1,1]^{n\times m}$ のエントリ $(i,j)$ をサンプリングして、$A_{i,j}+\eta$ を観測できる確率モデルが与えられる。 学習者の目標は、a$のpsneをいつでも識別することであり、可能な限り少数のサンプルを採取しながら高い確率で識別することである。 Zhou et al. (2017) は、PSNE が成り立つ行と列のエントリにのみ依存する、インスタンス依存のサンプル複雑性の下界を示す。 サンプルの複雑さをログ係数まで下界にマッチさせる近似アルゴリズムを設計する。 psneを識別する問題は、確率的多腕バンディットとデュエルバンディットにおける純粋な探索の問題も一般化し、この結果は、両方の設定において、ログ係数まで、最適境界に一致する。

We study the sample complexity of identifying the pure strategy Nash equilibrium (PSNE) in a two-player zero-sum matrix game with noise. Formally, we are given a stochastic model where any learner can sample an entry $(i,j)$ of the input matrix $A\in[-1,1]^{n\times m}$ and observe $A_{i,j}+\eta$ where $\eta$ is a zero-mean 1-sub-Gaussian noise. The aim of the learner is to identify the PSNE of $A$, whenever it exists, with high probability while taking as few samples as possible. Zhou et al. (2017) presents an instance-dependent sample complexity lower bound that depends only on the entries in the row and column in which the PSNE lies. We design a near-optimal algorithm whose sample complexity matches the lower bound, up to log factors. The problem of identifying the PSNE also generalizes the problem of pure exploration in stochastic multi-armed bandits and dueling bandits, and our result matches the optimal bounds, up to log factors, in both the settings.
翻訳日:2023-11-30 13:40:21 公開日:2023-11-27
# 最適一局所仮想量子放送

Optimal uni-local virtual quantum broadcasting ( http://arxiv.org/abs/2310.15156v2 )

ライセンス: Link先を確認
Hongshun Yao, Xia Liu, Chengkai Zhu, Xin Wang(参考訳) 量子放送は、量子情報処理の領域における基盤であり、量子状態内の相関を特徴づける。 それにもかかわらず、伝統的な量子放送は量子力学の原理によって引き起こされる固有の制限に遭遇する。 本研究では,状態自体ではなく,対象状態の計測統計を放送することに焦点を当てた,‘textit{virtual quantum broadcast’と呼ばれる新しいプロトコルを提案する。 まず、複数のパーティがオブザーバブル状態の任意のオブザーバブルに対して期待値を共有することができるユニバーサル一元的プロトコルを提案する。 第2に、仮想量子放送プロトコルのシミュレーションコストを半定値プログラミング問題に形式化する。 特に,2ブロードキャストシナリオに対して最適なシミュレーションコストを持つ特定のプロトコルを提案し,シミュレーションコストと量子システムの次元との明確な関係を明らかにする。 さらに,仮想$n$-broadcastingプロトコルのシミュレーションコストの上限値と下限値を設定し,量子系の次元が増加するにつれて下限値が上限値に収束することを示す。 我々の研究は、量子情報を分散し、量子通信とコンピューティング技術を進化させる新しいアプローチの道を開く。

Quantum broadcasting is a cornerstone in the realm of quantum information processing and characterizes the correlations within quantum states. Nonetheless, traditional quantum broadcasting encounters inherent limitations dictated by the principles of quantum mechanics. In this work, we introduce a novel protocol known as \textit{virtual quantum broadcasting} which focuses on broadcasting measurement statistics of a target state rather than the state itself. First, we propose a universal unilocal protocol enabling multiple parties to share the expectation value for any observable in any target bipartite state. Second, we formalize the simulation cost of a virtual quantum broadcasting protocol into a semidefinite programming problem. Notably, we propose a specific protocol with optimal simulation cost for the 2-broadcasting scenario, revealing an explicit relationship between simulation cost and the quantum system's dimension. Moreover, we establish upper and lower bounds on the simulation cost of the virtual $n$-broadcasting protocol and demonstrate the convergence of the lower bound to the upper bound as the quantum system's dimension increases. Our work paves the way for new approaches to distributing quantum information, potentially advancing quantum communication and computing technologies.
翻訳日:2023-11-30 13:39:12 公開日:2023-11-27
# 適応型マルチヘッドアテンションを用いたトランスフォーマーの感情分析

Sentiment analysis with adaptive multi-head attention in Transformer ( http://arxiv.org/abs/2310.14505v2 )

ライセンス: Link先を確認
Fanfei Meng, David Demeter(参考訳) 本稿では,映画レビュー資料の感情を識別するためのアテンション機構に基づく新しいフレームワークを提案する。 注意機構を有するディープニューラルネットワークの以前の取り組みは、固定数のマルチヘッド注意を持つエンコーダとデコーダに焦点を当てていた。 そこで本研究では,より有用な情報をメモリから読み取ることができなければ,注意処理を自動停止する機構が必要であり,文の長さに応じて注意ヘッド数を変化させる適応型多頭注意アーキテクチャ(adaptattn)を提案する。 AdaptAttnは、各文書を文の長さに基づいて、小、中、大の3つのビンのいずれかに分類するデータ前処理ステップを有する。 小さめに分類された文書は、各層で2つのヘッドを通り、中型グループは4つのヘッドを通り、大きなグループは8つのヘッドで処理される。 本モデルの有効性をスタンフォード大映画レビューデータセットで検証する。 実験結果から,本モデルからのF1スコアはベースラインモデルと同等であることがわかった。

We propose a novel framework based on the attention mechanism to identify the sentiment of a movie review document. Previous efforts on deep neural networks with attention mechanisms focus on encoder and decoder with fixed numbers of multi-head attention. Therefore, we need a mechanism to stop the attention process automatically if no more useful information can be read from the memory.In this paper, we propose an adaptive multi-head attention architecture (AdaptAttn) which varies the number of attention heads based on length of sentences. AdaptAttn has a data preprocessing step where each document is classified into any one of the three bins small, medium or large based on length of the sentence. The document classified as small goes through two heads in each layer, the medium group passes four heads and the large group is processed by eight heads. We examine the merit of our model on the Stanford large movie review dataset. The experimental results show that the F1 score from our model is on par with the baseline model.
翻訳日:2023-11-30 13:38:31 公開日:2023-11-27
# トレーニング画像導出物:精度の向上とユニバーサルロバストネス

Training Image Derivatives: Increased Accuracy and Universal Robustness ( http://arxiv.org/abs/2310.14045v2 )

ライセンス: Link先を確認
Vsevolod I. Avrutskiy(参考訳) 微分学習は、低次元の応用においてニューラルネットワークの精度を大幅に向上させる既知の方法である。 本稿では,画像から立方体の頂点を再構成する画像解析問題に対して,同様の改良を行った。 立方体の6自由度に関する導関数を訓練することにより、ノイズレス入力の25倍の精度が得られる。 このデリバティブは、現在2つのタイプのネットワーク脆弱性の観点から理解されているロバスト性の問題に対する洞察を提供する。 第1の型は出力を劇的に変更する小さな摂動を含み、第2の型はネットワークが誤って無視する実質的な画像変化に関連する。 それぞれの防御は可能であるが、精度を維持しながら両方の防御は従来の訓練方法に反している。 第1の型はネットワークの勾配を使って分析され、第2の型は人間の入力評価に依存し、oracleの代用として機能する。 手前のタスクでは、最寄りのoracleをイメージデリバティブを使って定義し、taylorシリーズに拡張できる。 これにより、両方のタイプの脆弱性を統合するロバストネス分析が可能になり、ネットワーク容量によって精度と普遍的なロバスト性が制限されるトレーニングが可能になる。

Derivative training is a known method that significantly improves the accuracy of neural networks in some low-dimensional applications. In this paper, a similar improvement is obtained for an image analysis problem: reconstructing the vertices of a cube from its image. By training the derivatives with respect to the 6 degrees of freedom of the cube, we obtain 25 times more accurate results for noiseless inputs. The derivatives also offer insight into the robustness problem, which is currently understood in terms of two types of network vulnerabilities. The first type involves small perturbations that dramatically change the output, and the second type relates to substantial image changes that the network erroneously ignores. Defense against each is possible, but safeguarding against both while maintaining the accuracy defies conventional training methods. The first type is analyzed using the network's gradient, while the second relies on human input evaluation, serving as an oracle substitute. For the task at hand, the nearest neighbor oracle can be defined and expanded into Taylor series using image derivatives. This allows for a robustness analysis that unifies both types of vulnerabilities and enables training where accuracy and universal robustness are limited only by network capacity.
翻訳日:2023-11-30 13:38:16 公開日:2023-11-27
# manicast:コスト対応型ヒューマン予測による協調操作

ManiCast: Collaborative Manipulation with Cost-Aware Human Forecasting ( http://arxiv.org/abs/2310.13258v2 )

ライセンス: Link先を確認
Kushal Kedia, Prithwish Dan, Atiksh Bhardwaj, Sanjiban Choudhury(参考訳) 近距離でのシームレスな人間ロボット操作は、人間の動きの正確な予測に依存する。 大規模予測モデルの学習には大きな進歩があったが、操作タスクに適用すると、これらのモデルはクリティカルトランジションポイントで高いエラーが発生し、ダウンストリームの計画性能が低下する。 私たちの重要な洞察は、人間の動きを予測するのではなく、将来の人間の動きがロボットの計画のコストにどのように影響するかを捉えるのに十分であるということです。 ManiCastはコストを意識した人的予測を学習し、それらをモデル予測制御プランナーに供給し、協調的な操作タスクを実行する新しいフレームワークである。 本フレームワークは, ロボットアームとロボットアームとの流動的リアルタイムインタラクションを, 反応的かき混ぜ, オブジェクトハンドオーバ, 協調テーブル設定など, 現実的なタスクで実現している。 動き予測とエンド・ツー・エンドの予測・プランナ・システムの両方を学習的・ヒューリスティックなベースラインに対して評価し,新たなデータセットに寄与する。 コードとデータセットはhttps://portal-cornell.github.io/manicast/でリリースします。

Seamless human-robot manipulation in close proximity relies on accurate forecasts of human motion. While there has been significant progress in learning forecast models at scale, when applied to manipulation tasks, these models accrue high errors at critical transition points leading to degradation in downstream planning performance. Our key insight is that instead of predicting the most likely human motion, it is sufficient to produce forecasts that capture how future human motion would affect the cost of a robot's plan. We present ManiCast, a novel framework that learns cost-aware human forecasts and feeds them to a model predictive control planner to execute collaborative manipulation tasks. Our framework enables fluid, real-time interactions between a human and a 7-DoF robot arm across a number of real-world tasks such as reactive stirring, object handovers, and collaborative table setting. We evaluate both the motion forecasts and the end-to-end forecaster-planner system against a range of learned and heuristic baselines while additionally contributing new datasets. We release our code and datasets at https://portal-cornell.github.io/manicast/.
翻訳日:2023-11-30 13:37:39 公開日:2023-11-27
# オフライン強化学習における事前学習言語モデルの活用

Unleashing the Power of Pre-trained Language Models for Offline Reinforcement Learning ( http://arxiv.org/abs/2310.20587v4 )

ライセンス: Link先を確認
Ruizhe Shi, Yuyao Liu, Yanjie Ze, Simon S. Du, Huazhe Xu(参考訳) オフライン強化学習(RL)は、事前コンパイルされたデータセットを使用して、ほぼ最適ポリシーを見つけることを目的としている。 現実のシナリオでは、データ収集は高価でリスクが高いため、ドメイン内のデータが制限された場合、オフラインRLは特に困難になる。 近年のLLM(Large Language Models)とその数発の学習技術の進歩を踏まえ、オフラインRLに事前学習言語モデル(LM)を効果的に活用するための決定変換器に基づく一般的なフレームワークである$\textbf{La}$tion Control(\textbf{LaMo}$tion Control)(\textbf{LaMo}$)について紹介する。 Our framework highlights four crucial components: (1) Initializing Decision Transformers with sequentially pre-trained LMs, (2) employing the LoRA fine-tuning method, in contrast to full-weight fine-tuning, to combine the pre-trained knowledge from LMs and in-domain knowledge effectively, (3) using the non-linear MLP transformation instead of linear projections, to generate embeddings, and (4) integrating an auxiliary language prediction loss during fine-tuning to stabilize the LMs and retain their original abilities on languages. 実験結果から、sparse-reward タスクでは $\textbf{LaMo}$ が最先端のパフォーマンスを達成し、高密度リワードタスクでは値ベースオフライン RL メソッドと決定変換器とのギャップを埋めることを示す。 特に本手法は,データサンプルが限られたシナリオにおいて優れた性能を示す。

Offline reinforcement learning (RL) aims to find a near-optimal policy using pre-collected datasets. In real-world scenarios, data collection could be costly and risky; therefore, offline RL becomes particularly challenging when the in-domain data is limited. Given recent advances in Large Language Models (LLMs) and their few-shot learning prowess, this paper introduces $\textbf{La}$nguage Models for $\textbf{Mo}$tion Control ($\textbf{LaMo}$), a general framework based on Decision Transformers to effectively use pre-trained Language Models (LMs) for offline RL. Our framework highlights four crucial components: (1) Initializing Decision Transformers with sequentially pre-trained LMs, (2) employing the LoRA fine-tuning method, in contrast to full-weight fine-tuning, to combine the pre-trained knowledge from LMs and in-domain knowledge effectively, (3) using the non-linear MLP transformation instead of linear projections, to generate embeddings, and (4) integrating an auxiliary language prediction loss during fine-tuning to stabilize the LMs and retain their original abilities on languages. Empirical results indicate $\textbf{LaMo}$ achieves state-of-the-art performance in sparse-reward tasks and closes the gap between value-based offline RL methods and decision transformers in dense-reward tasks. In particular, our method demonstrates superior performance in scenarios with limited data samples.
翻訳日:2023-11-30 13:30:35 公開日:2023-11-27
# 強化一般化によるタンパク質-タンパク質相互作用設計の学習

Learning to design protein-protein interactions with enhanced generalization ( http://arxiv.org/abs/2310.18515v2 )

ライセンス: Link先を確認
Anton Bushuiev, Roman Bushuiev, Petr Kouba, Anatolii Filkin, Marketa Gabrielova, Michal Gabriel, Jiri Sedlar, Tomas Pluskal, Jiri Damborsky, Stanislav Mazurenko, Josef Sivic(参考訳) タンパク質-タンパク質相互作用(PPI)を増強する変異の発見は、生物医学研究の進展と改善された治療法の開発に重要である。 機械学習のアプローチはこの分野を大いに進歩させたが、実際のシナリオでトレーニングデータを超えた一般化に苦慮することが多い。 この作品の貢献は3倍である。 まず,3次元タンパク質間相互作用の最大かつ非冗長なデータセットであるPPIRefを構築し,大規模学習を効果的に行う。 第2に、PPIRefデータセットをプリトレーニングPPIformerに利用し、多種多様なタンパク質結合変異を一般化する新しいSE(3)-equivariantモデルを提案する。 我々はPPIフォーマを微調整し,タンパク質とタンパク質の相互作用に対する変異の影響を予測する。 最後に,標準ラベル付きppi変異データの非リーキング分割と,sars-cov-2に対するヒト抗体の最適化とstaphylokinaseの血栓溶解活性の増大に関する独立したケーススタディにおいて,新たなppiホルマアプローチの一般化を実証した。

Discovering mutations enhancing protein-protein interactions (PPIs) is critical for advancing biomedical research and developing improved therapeutics. While machine learning approaches have substantially advanced the field, they often struggle to generalize beyond training data in practical scenarios. The contributions of this work are three-fold. First, we construct PPIRef, the largest and non-redundant dataset of 3D protein-protein interactions, enabling effective large-scale learning. Second, we leverage the PPIRef dataset to pre-train PPIformer, a new SE(3)-equivariant model generalizing across diverse protein-binder variants. We fine-tune PPIformer to predict effects of mutations on protein-protein interactions via a thermodynamically motivated adjustment of the pre-training loss function. Finally, we demonstrate the enhanced generalization of our new PPIformer approach by outperforming other state-of-the-art methods on new, non-leaking splits of standard labeled PPI mutational data and independent case studies optimizing a human antibody against SARS-CoV-2 and increasing the thrombolytic activity of staphylokinase.
翻訳日:2023-11-30 13:26:55 公開日:2023-11-27
# WordArt Designer:大規模言語モデルを用いたユーザ駆動型アートタイポグラフィ合成

WordArt Designer: User-Driven Artistic Typography Synthesis using Large Language Models ( http://arxiv.org/abs/2310.18332v2 )

ライセンス: Link先を確認
Jun-Yan He, Zhi-Qi Cheng, Chenyang Li, Jingdong Sun, Wangmeng Xiang, Xianhui Lin, Xiaoyang Kang, Zengke Jin, Yusen Hu, Bin Luo, Yifeng Geng, Xuansong Xie and Jingren Zhou(参考訳) 本稿では,大言語モデル(llm)に基づく,芸術的タイポグラフィー合成のためのユーザ駆動フレームワークであるwordart designerを提案する。 このシステムには、LLMエンジン、SemTypo、StyTypo、TexTypoの4つの主要なモジュールが含まれている。 1) LLM エンジンは LLM (例: GPT-3.5) によって強化され、ユーザ入力を解釈し、他のモジュールに対して実行可能なプロンプトを生成する。 2) SemTypoモジュールはセマンティックな概念を用いてフォントデザインを最適化し,芸術的変換と可読性のバランスを崩す。 3) SemTypoモジュールが提供するセマンティックレイアウトに基づいて、StyTypoモジュールは滑らかで洗練された画像を生成する。 4) TexTypoモジュールはテクスチャレンダリングによってデザインの美学をさらに強化し、創発的なテクスチャフォントの生成を可能にする。 特にWordArt Designerは、生成AIとアートタイポグラフィーの融合を強調している。 ModelScopeの機能を体験する: https://www.modelscope.cn/studios/WordArt/WordArt。

This paper introduces WordArt Designer, a user-driven framework for artistic typography synthesis, relying on the Large Language Model (LLM). The system incorporates four key modules: the LLM Engine, SemTypo, StyTypo, and TexTypo modules. 1) The LLM Engine, empowered by the LLM (e.g., GPT-3.5), interprets user inputs and generates actionable prompts for the other modules, thereby transforming abstract concepts into tangible designs. 2) The SemTypo module optimizes font designs using semantic concepts, striking a balance between artistic transformation and readability. 3) Building on the semantic layout provided by the SemTypo module, the StyTypo module creates smooth, refined images. 4) The TexTypo module further enhances the design's aesthetics through texture rendering, enabling the generation of inventive textured fonts. Notably, WordArt Designer highlights the fusion of generative AI with artistic typography. Experience its capabilities on ModelScope: https://www.modelscope.cn/studios/WordArt/WordArt.
翻訳日:2023-11-30 13:25:58 公開日:2023-11-27
# 確率微分方程式に基づく児童母系におけるY演算子に基づく強化学習の性能向上の一手法

A Method to Improve the Performance of Reinforcement Learning Based on the Y Operator for a Class of Stochastic Differential Equation-Based Child-Mother Systems ( http://arxiv.org/abs/2311.04014v2 )

ライセンス: Link先を確認
Cheng Yin, Yi Chen(参考訳) 本稿では,確率微分方程式(SDEs)に支配されるシステムに対するアクタ・クライト(AC)に基づく強化学習における制御性能を高めるために,Y演算子と呼ばれる新しい演算子を提案する。 The Y operator ingeniously integrates the stochasticity of a class of child-mother system into the Critic network's loss function, yielding substantial advancements in the control performance of RL algorithms.Additionally, the Y operator elegantly reformulates the challenge of solving partial differential equations for the state-value function into a parallel problem for the drift and diffusion functions within the system's SDEs.A rigorous mathematical proof confirms the operator's validity.This transformation enables the Y Operator-based Reinforcement Learning(YORL) framework to efficiently tackle optimal control problems in both model-based and data-driven systems.The superiority of YORL is demonstrated through linear and nonlinear numerical examples showing its enhanced performance over existing methods post convergence.

This paper introduces a novel operator, termed the Y operator, to elevate control performance in Actor-Critic(AC) based reinforcement learning for systems governed by stochastic differential equations(SDEs). The Y operator ingeniously integrates the stochasticity of a class of child-mother system into the Critic network's loss function, yielding substantial advancements in the control performance of RL algorithms.Additionally, the Y operator elegantly reformulates the challenge of solving partial differential equations for the state-value function into a parallel problem for the drift and diffusion functions within the system's SDEs.A rigorous mathematical proof confirms the operator's validity.This transformation enables the Y Operator-based Reinforcement Learning(YORL) framework to efficiently tackle optimal control problems in both model-based and data-driven systems.The superiority of YORL is demonstrated through linear and nonlinear numerical examples showing its enhanced performance over existing methods post convergence.
翻訳日:2023-11-30 13:19:17 公開日:2023-11-27
# 放射線オンコロジーにおけるLLM駆動マルチモーダルターゲットボリューム構成

LLM-driven Multimodal Target Volume Contouring in Radiation Oncology ( http://arxiv.org/abs/2311.01908v2 )

ライセンス: Link先を確認
Yujin Oh, Sangjoon Park, Hwa Kyung Byun, Jin Sung Kim, Jong Chul Ye(参考訳) 放射線治療のためのターゲットボリュームは,画像とテキストに基づく臨床情報の両方を活用する必要があるため,通常の臓器分割作業よりもかなり困難であると考えられる。 テキスト情報と画像の統合を容易にする大規模言語モデル(LLMs)の最近の進歩に触発されて,臨床テキスト情報を活用し,放射線治療のための目標音量コンチューリングの課題に適応し,乳がん放射線治療対象音量コントゥーリングの文脈で検証できる,新たなLLM駆動型マルチモーダルAIを提案する。 実世界の応用に非常に寄与する外部検証とデータ不足環境を用いて、提案モデルが従来の視覚のみのAIモデルと比較して著しく改善された性能を示し、特に堅牢な一般化性能とデータ効率を示すことを示した。 我々の知る限り、これはLSM駆動型マルチモーダルAIモデルとしては初めてのものであり、臨床テキスト情報を放射線腫瘍学のターゲットボリュームデライン化に統合する。

Target volume contouring for radiation therapy is considered significantly more challenging than the normal organ segmentation tasks as it necessitates the utilization of both image and text-based clinical information. Inspired by the recent advancement of large language models (LLMs) that can facilitate the integration of the textural information and images, here we present a novel LLM-driven multi-modal AI that utilizes the clinical text information and is applicable to the challenging task of target volume contouring for radiation therapy, and validate it within the context of breast cancer radiation therapy target volume contouring. Using external validation and data-insufficient environments, which attributes highly conducive to real-world applications, we demonstrate that the proposed model exhibits markedly improved performance compared to conventional vision-only AI models, particularly exhibiting robust generalization performance and data-efficiency. To our best knowledge, this is the first LLM-driven multimodal AI model that integrates the clinical text information into target volume delineation for radiation oncology.
翻訳日:2023-11-30 13:17:39 公開日:2023-11-27
# 多重量子ムペンバ効果:例外点と振動

Multiple quantum Mpemba effect: exceptional points and oscillations ( http://arxiv.org/abs/2311.01347v2 )

ライセンス: Link先を確認
Amit Kumar Chatterjee, Satoshi Takada, Hisao Hayakawa(参考訳) 量子ムペンバ効果の発生における例外点と複素固有値の役割について検討する。 そこで本研究では,振動電界を受ける2レベル駆動散逸系と環境との散逸結合について検討した。 我々は、例外点と複素固有値の両方が$multiple$ quantum mpemba効果をもたらすことを見出している。 この現象は、2つの異なる初期条件に対応する時間発展コピーで発生し、一方は最初は他方よりも高い可観測値を持ち、どちらも同じ定常状態に向かって緩和し、緩和過程の間は2回以上相互に交わる。 各交叉は量子mpemba効果を示し、2つのコピー間の同一性の反転、すなわち交叉の前に高い可観測値を持つコピーは交叉後のより低い値のコピー(およびその逆)となる。 このような多重交叉は、例外点における追加の代数的時間依存と、複素固有値の場合の振動緩和に起因する。 コヒーレンスが存在する密度行列における量子Mpemba効果の解析結果を提供する。 制御パラメータ(駆動と散逸)によって、エネルギー、フォン・ノイマンエントロピー、温度などの可観測物は、単一のまたは複数の量子ムペンバ効果を示す。 しかし、クルバック・リーブラーの発散で測定された定常状態からの距離は単一の量子Mpemba効果しか示さないが、対応する速度は単一のあるいは複数の量子Mpemba効果をもたらす。

We explore the role of exceptional points and complex eigenvalues on the occurrence of the quantum Mpemba effect. To this end, we study a two-level driven dissipative system subjected to an oscillatory electric field and dissipative coupling with the environment. We find that both exceptional points and complex eigenvalues can lead to $multiple$ quantum Mpemba effect. It occurs in an observable when time evolved copies corresponding to two different initial conditions, one initially having higher observable value compared to the other and both relaxing towards the same steady state, intersect each other more than once during their relaxation process. Each of the intersections denotes a quantum Mpemba effect and marks the reversal of identities between the two copies i.e. the copy with higher observable value before the intersection becomes the lower valued copy (and vice versa) after the intersection. Such multiple intersections originate from additional algebraic time dependence at the exceptional points and due to oscillatory relaxation in the case of complex eigenvalues. We provide analytical results for quantum Mpemba effect in the density matrix in presence of coherence. Depending on the control parameters (drive and dissipation), observables such as energy, von Neumann entropy, temperature etc. exhibit either single or multiple quantum Mpemba effect. However, the distance from steady state measured in terms of the Kullback-Leibler divergence shows only single quantum Mpemba effect although the corresponding speed gives rise to either single or multiple quantum Mpemba effect.
翻訳日:2023-11-30 13:16:38 公開日:2023-11-27
# 分子グラフのためのLong-Range Neural Atom Learning

Long-Range Neural Atom Learning for Molecular Graphs ( http://arxiv.org/abs/2311.01276v2 )

ライセンス: Link先を確認
Xuan Li, Zhanke Zhou, Jiangchao Yao, Yu Rong, Lu Zhang, Bo Han(参考訳) グラフニューラルネットワーク(GNN)は、分子グラフを用いた薬物発見に広く採用されている。 しかしながら、現在のGNNは主に短距離相互作用(SRI)の活用に長けているが、長距離相互作用(LRI)の捕獲に苦慮している。 この問題に取り組むため,我々は分子内の原子群の集合情報を抽象化するいくつかの神経原子に全ての元の原子を暗黙的に投影する手法を提案する。 具体的には、神経原子間で情報を明示的に交換し、拡張として原子の表現に投影する。 このメカニズムにより、神経原子は遠方のノード間の通信チャネルを確立し、任意のノード対の相互作用範囲を1つのホップに効果的に縮小する。 物理的な観点から本手法の検査を行うため,従来のLRI計算手法であるEwald Summationとの関連を明らかにする。 分子グラフ上のグラフレベルとリンクレベルの両方のタスクをカバーする3つの長距離グラフベンチマークについて広範な実験を行った。 我々は,任意のGNNを組み込むことでLRIを捕捉できることを実証的に正当化する。

Graph Neural Networks (GNNs) have been widely adopted for drug discovery with molecular graphs. Nevertheless, current GNNs are mainly good at leveraging short-range interactions (SRI) but struggle to capture long-range interactions (LRI), both of which are crucial for determining molecular properties. To tackle this issue, we propose a method that implicitly projects all original atoms into a few Neural Atoms, which abstracts the collective information of atomic groups within a molecule. Specifically, we explicitly exchange the information among neural atoms and project them back to the atoms' representations as an enhancement. With this mechanism, neural atoms establish the communication channels among distant nodes, effectively reducing the interaction scope of arbitrary node pairs into a single hop. To provide an inspection of our method from a physical perspective, we reveal its connection with the traditional LRI calculation method, Ewald Summation. We conduct extensive experiments on three long-range graph benchmarks, covering both graph-level and link-level tasks on molecular graphs. We empirically justify that our method can be equipped with an arbitrary GNN and help to capture LRI.
翻訳日:2023-11-30 13:16:13 公開日:2023-11-27
# LLM4Drive: 自動運転のための大規模言語モデルの調査

LLM4Drive: A Survey of Large Language Models for Autonomous Driving ( http://arxiv.org/abs/2311.01043v2 )

ライセンス: Link先を確認
Zhenjie Yang, Xiaosong Jia, Hongyang Li, Junchi Yan(参考訳) 交通と都市移動に革命をもたらす触媒である自動運転技術は、ルールベースのシステムからデータ駆動戦略に移行する傾向にある。 従来のモジュールベースのシステムは、カスケードモジュール間の累積誤差と柔軟性のない事前設定規則によって制約される。 対照的に、エンドツーエンドの自動運転システムは、完全にデータ駆動のトレーニングプロセスによってエラーの蓄積を避ける可能性があるが、その“ブラックボックス”の性質によって透明性が欠如し、決定の検証とトレーサビリティが複雑になることが多い。 近年,大規模言語モデル (LLM) は,文脈理解,論理的推論,回答生成などの能力を示した。 自然の思考は、これらの能力を自律運転に活用することである。 LLMとファンデーションビジョンモデルを組み合わせることで、現在の自律運転システムが欠落しているオープンワールド理解、推論、少数ショット学習への扉を開くことができる。 本稿では、自律運転のための大規模言語モデル(llm4ad)に関する研究ラインを体系的にレビューする。 本研究は,技術進歩の現状を評価し,この分野の主要な課題と今後の方向性を明確に概説する。 学術と産業の研究者の利便性のために、この分野の最新の進歩と、指定されたリンクを通じて関連するオープンソースリソースをリアルタイムで更新する。

Autonomous driving technology, a catalyst for revolutionizing transportation and urban mobility, has the tend to transition from rule-based systems to data-driven strategies. Traditional module-based systems are constrained by cumulative errors among cascaded modules and inflexible pre-set rules. In contrast, end-to-end autonomous driving systems have the potential to avoid error accumulation due to their fully data-driven training process, although they often lack transparency due to their "black box" nature, complicating the validation and traceability of decisions. Recently, large language models (LLMs) have demonstrated abilities including understanding context, logical reasoning, and generating answers. A natural thought is to utilize these abilities to empower autonomous driving. By combining LLM with foundation vision models, it could open the door to open-world understanding, reasoning, and few-shot learning, which current autonomous driving systems are lacking. In this paper, we systematically review a research line about \textit{Large Language Models for Autonomous Driving (LLM4AD)}. This study evaluates the current state of technological advancements, distinctly outlining the principal challenges and prospective directions for the field. For the convenience of researchers in academia and industry, we provide real-time updates on the latest advances in the field as well as relevant open-source resources via the designated link: https://github.com/Thinklab-SJTU/Awesome-LLM4AD.
翻訳日:2023-11-30 13:15:07 公開日:2023-11-27
# 全教師付き参照表現セグメンテーションを目指して

Towards Omni-supervised Referring Expression Segmentation ( http://arxiv.org/abs/2311.00397v2 )

ライセンス: Link先を確認
Minglang Huang, Yiyi Zhou, Gen Luo, Guannan Jiang, Weilin Zhuang, Xiaoshuai Sun(参考訳) Referring Expression Segmentation (RES)はコンピュータビジョンにおける新たなタスクであり、テキスト記述に基づいてターゲットインスタンスを画像にセグメントする。 しかし、その開発は高価なセグメンテーションラベルに苦しめられている。 そこで本研究では,無ラベル,完全ラベル付き,弱いラベル付きデータ(参照点や接地ボックスなど)を最大限に活用し,効率的なresトレーニングを実現することを目的とした,omni-res(omni-res)と呼ばれるresのための新しい学習タスクを提案する。 そこで,本研究では,弱ラベルを教師信号に直接変換するのではなく,教師学習のための高品質な疑似マスクを選択・洗練するためのヤードスティックとして用いる,最近普及した教師・生徒学習に基づくオムニレスの新たなベースライン手法を提案する。 提案したOmni-RES法の有効性を検証するために,この手法を最先端のRESモデルに適用し,多数のRESデータセットに対して広範な実験を行う。 実験の結果、Omni-RESの利点は、完全に教師付きおよび半教師付きトレーニングスキームよりも明らかである。 例えば、10%の完全なラベル付きデータしか持たないOmni-RESは、ベースモデルが100%完全な教師付きパフォーマンスを達成するのに役立ち、また、RefCOCOでは+14.93%、RefCOCO+では+14.95%といった大きなマージンで、半教師付き代替よりも優れている。 さらに重要なこととして、Omni-RESは、Visual Genomeのような大規模な視覚言語を使用して、低コストのRESトレーニングを促進し、RefCOCOの80.66のようなRESの新しいSOTAパフォーマンスを実現する。

Referring Expression Segmentation (RES) is an emerging task in computer vision, which segments the target instances in images based on text descriptions. However, its development is plagued by the expensive segmentation labels. To address this issue, we propose a new learning task for RES called Omni-supervised Referring Expression Segmentation (Omni-RES), which aims to make full use of unlabeled, fully labeled and weakly labeled data, e.g., referring points or grounding boxes, for efficient RES training. To accomplish this task, we also propose a novel yet strong baseline method for Omni-RES based on the recently popular teacher-student learning, where the weak labels are not directly transformed into supervision signals but used as a yardstick to select and refine high-quality pseudo-masks for teacher-student learning. To validate the proposed Omni-RES method, we apply it to a set of state-of-the-art RES models and conduct extensive experiments on a bunch of RES datasets. The experimental results yield the obvious merits of Omni-RES than the fully-supervised and semi-supervised training schemes. For instance, with only 10% fully labeled data, Omni-RES can help the base model achieve 100% fully supervised performance, and it also outperform the semi-supervised alternative by a large margin, e.g., +14.93% on RefCOCO and +14.95% on RefCOCO+, respectively. More importantly, Omni-RES also enable the use of large-scale vision-langauges like Visual Genome to facilitate low-cost RES training, and achieve new SOTA performance of RES, e.g., 80.66 on RefCOCO.
翻訳日:2023-11-30 13:14:46 公開日:2023-11-27
# DAC 2023のオープンデータセットと直接空気捕獲における大気汚染発見への挑戦

The Open DAC 2023 Dataset and Challenges for Sorbent Discovery in Direct Air Capture ( http://arxiv.org/abs/2311.00341v2 )

ライセンス: Link先を確認
Anuroop Sriram, Sihoon Choi, Xiaohan Yu, Logan M. Brabson, Abhishek Das, Zachary Ulissi, Matt Uyttendaele, Andrew J. Medford, and David S. Sholl(参考訳) 地球温暖化対策には二酸化炭素の除去方法が急務である。 直接空気捕捉(DAC)は、環境空気から直接二酸化炭素を捕捉する技術である。 金属-有機系フレームワーク(mofs)はdacのカスタマイズ可能な吸着剤として広く研究されている。 しかし, DAC用MOF吸着剤の発見は, 膨大な化学資源の探索と, 物質を湿度や温度の関数として理解する必要があるため, 困難である。 機械学習(ML)における最近のイノベーションの恩恵を生かした計算手法を探求し、吸着された$CO_2$および/または$H_2O$を含む8,400 MOF材料上の38M以上の密度汎関数理論(DFT)計算からなるデータセットOpen DAC 2023(ODAC23)を提案する。 ODAC23は、現在利用可能なDFTレベルの精度でMOF吸着計算の最大のデータセットである。 吸着分子の性質の探索に加えて、このデータセットはMOFの構造緩和に関する情報の豊富な情報源であり、DACの特定の応用を超える多くの文脈で有用である。 DACに期待できる特性を持つ多数のMOFがODAC23で直接識別される。 また、このデータセット上で最先端のMLモデルをトレーニングし、DFTレベルでの計算を近似した。 このオープンソースデータセットと私たちの初期のMLモデルは、DACを含む幅広いアプリケーションのためのMOFを特定するための今後の取り組みに重要なベースラインを提供するでしょう。

New methods for carbon dioxide removal are urgently needed to combat global climate change. Direct air capture (DAC) is an emerging technology to capture carbon dioxide directly from ambient air. Metal-organic frameworks (MOFs) have been widely studied as potentially customizable adsorbents for DAC. However, discovering promising MOF sorbents for DAC is challenging because of the vast chemical space to explore and the need to understand materials as functions of humidity and temperature. We explore a computational approach benefiting from recent innovations in machine learning (ML) and present a dataset named Open DAC 2023 (ODAC23) consisting of more than 38M density functional theory (DFT) calculations on more than 8,400 MOF materials containing adsorbed $CO_2$ and/or $H_2O$. ODAC23 is by far the largest dataset of MOF adsorption calculations at the DFT level of accuracy currently available. In addition to probing properties of adsorbed molecules, the dataset is a rich source of information on structural relaxation of MOFs, which will be useful in many contexts beyond specific applications for DAC. A large number of MOFs with promising properties for DAC are identified directly in ODAC23. We also trained state-of-the-art ML models on this dataset to approximate calculations at the DFT level. This open-source dataset and our initial ML models will provide an important baseline for future efforts to identify MOFs for a wide range of applications, including DAC.
翻訳日:2023-11-30 13:14:13 公開日:2023-11-27
# 制約付き量子時間発展の最適圧縮

Optimal compression of constrained quantum time evolution ( http://arxiv.org/abs/2311.06347v2 )

ライセンス: Link先を確認
Maurits S. J. Tepaske, David J. Luitz, Dominik Hahn(参考訳) 量子多体系の時間進化は、短期量子コンピュータの最も有望な応用の1つである。 しかし、現在の量子デバイスの有用性は、ハードウェアエラーの増大によって強く妨げられている。 したがって、浅い回路は一般にデコヒーレンスに弱いため、与えられた量子アルゴリズムの回路深さの最小化は極めて望ましい。 近年,パラメータの最適選択は計算に要求されるタスクであるが,変分回路はトロッター分解のような最先端の手法を上回る有望な手法であることが示されている。 本研究では,物理系の制約を直接符号化することにより,局所ハミルトニアンの時間発展演算子を実装する回路の変動最適化の単純化を実証する。 異なるモデルと制約に対する制約付き変分回路の表現可能性について検討する。 その結果,制約のエンコーディングは最適化コストを1桁以上削減し,多くのシステムにおいて精度を低下させることなく,任意の大規模システムサイズに拡張可能であることがわかった。 さらに,局所拘束されたシステムにおける例外を考察し,制約を回路に組み込んだ後,制限された光円錐幅による説明を行う。

The time evolution of quantum many-body systems is one of the most promising applications for near-term quantum computers. However, the utility of current quantum devices is strongly hampered by the proliferation of hardware errors. The minimization of the circuit depth for a given quantum algorithm is therefore highly desirable, since shallow circuits generally are less vulnerable to decoherence. Recently, it was shown that variational circuits are a promising approach to outperform current state-of-the-art methods such as Trotter decomposition, although the optimal choice of parameters is a computationally demanding task. In this work, we demonstrate a simplification of the variational optimization of circuits implementing the time evolution operator of local Hamiltonians by directly encoding constraints of the physical system under consideration. We study the expressibility of such constrained variational circuits for different models and constraints. Our results show that the encoding of constraints allows a reduction of optimization cost by more than one order of magnitude and scalability to arbitrary large system sizes, without loosing accuracy in most systems. Furthermore, we discuss the exceptions in locally-constrained systems and provide an explanation by means of an restricted lightcone width after incorporating the constraints into the circuits.
翻訳日:2023-11-30 13:07:32 公開日:2023-11-27
# 3dgaunet:3d u-netを用いた3d生成逆ネットワークによる膵癌腫瘍画像データの高精度かつ効果的な合成

3DGAUnet: 3D generative adversarial networks with a 3D U-Net based generator to achieve the accurate and effective synthesis of clinical tumor image data for pancreatic cancer ( http://arxiv.org/abs/2311.05697v2 )

ライセンス: Link先を確認
Yu Shi, Hannah Tang, Michael Baine, Michael A. Hollingsworth, Huijing Du, Dandan Zheng, Chi Zhang, Hongfeng Yu(参考訳) 膵管腺癌(PDAC)は世界的な健康上の課題であり,早期発見は5年生存率の向上に不可欠である。 最近の医療画像と計算アルゴリズムの進歩は早期診断の潜在的な解決策を提供する。 深層学習は、特に畳み込みニューラルネットワーク(CNN)の形で、分類やセグメンテーションを含む医療画像解析タスクで成功している。 しかし、トレーニング目的の臨床データの入手が限られていることは、依然として大きな障害となっている。 データ拡張、GAN(Generative Adversarial Network)、クロスバリデーション(cross-validation)は、この制限に対処し、モデル性能を改善するための潜在的手法であるが、腫瘍組織と背景組織の両方において高い不均一性のため、特にコントラストが低い3D PDACでは、効果的なソリューションは依然として稀である。 本研究では,pdac腫瘍と膵組織の現実的な3dct画像を生成し,既存の2dct画像合成モデルに欠けているスライス接続データを生成する3dgaunetという新しいganベースのモデルを開発した。 我々の革新は、PDAC腫瘍や膵組織の形状とテクスチャ学習を改善するために、ジェネレータのための3次元U-Netアーキテクチャを開発することである。 提案手法は,PDACと戦うための創造的・シナジスティックな手法の緊急要件に対処するための,有望な経路を提供する。 このGANベースのモデルの開発は、データの不足を軽減し、合成データの質を高め、深層学習モデルの進行を促進させ、PDAC腫瘍の精度と早期発見を高め、患者の結果に大きな影響を与える可能性がある。 さらに、このモデルは他の種類の固形腫瘍に適応できる可能性があり、画像処理モデルの観点から医療画像の分野に多大な貢献をしている。

Pancreatic ductal adenocarcinoma (PDAC) presents a critical global health challenge, and early detection is crucial for improving the 5-year survival rate. Recent medical imaging and computational algorithm advances offer potential solutions for early diagnosis. Deep learning, particularly in the form of convolutional neural networks (CNNs), has demonstrated success in medical image analysis tasks, including classification and segmentation. However, the limited availability of clinical data for training purposes continues to provide a significant obstacle. Data augmentation, generative adversarial networks (GANs), and cross-validation are potential techniques to address this limitation and improve model performance, but effective solutions are still rare for 3D PDAC, where contrast is especially poor owing to the high heterogeneity in both tumor and background tissues. In this study, we developed a new GAN-based model, named 3DGAUnet, for generating realistic 3D CT images of PDAC tumors and pancreatic tissue, which can generate the interslice connection data that the existing 2D CT image synthesis models lack. Our innovation is to develop a 3D U-Net architecture for the generator to improve shape and texture learning for PDAC tumors and pancreatic tissue. Our approach offers a promising path to tackle the urgent requirement for creative and synergistic methods to combat PDAC. The development of this GAN-based model has the potential to alleviate data scarcity issues, elevate the quality of synthesized data, and thereby facilitate the progression of deep learning models to enhance the accuracy and early detection of PDAC tumors, which could profoundly impact patient outcomes. Furthermore, this model has the potential to be adapted to other types of solid tumors, hence making significant contributions to the field of medical imaging in terms of image processing models.
翻訳日:2023-11-30 13:06:27 公開日:2023-11-27
# QUBO問題に対する固定点グロバー適応探索

Fixed-point Grover Adaptive Search for QUBO Problems ( http://arxiv.org/abs/2311.05592v2 )

ライセンス: Link先を確認
\'Akos Nagy, Jaime Park, Cindy Zhang, Atithi Acharya, Alex Khan(参考訳) 二次連立最適化(qubo)問題に対してグローバー型手法を適用し,検討した。 まず、このような問題に対するマーカーオラクルを構築する。 n 次元 QUBO 問題に対して、これらのオラクルは回路深さとゲート数$O \left(n^2 \right)$を持つ。 我々はまた、オラクルの設計とli et alのハイブリッド固定点グローバー探索を用いて、qubo問題に対する新しい固定点グローバー適応探索を開発した。 [9]. この方法はGrover Adaptive Search of Gilliamなどよりも優れた性能を保証する。 [5].

We apply and study a Grover-type method for Quadratic Unconstrained Binary Optimization (QUBO) problems. First, we construct a marker oracle for such problems. For an $n$-dimensional QUBO problem, these oracles have circuit depth and gate count of $O \left( n^2 \right)$. We also develop a novel Fixed-point Grover Adaptive Search for QUBO Problems, using our oracle design and a hybrid Fixed-point Grover Search of Li et al. [9]. This method has better performance guarantees than the Grover Adaptive Search of Gilliam et al. [5].
翻訳日:2023-11-30 13:05:53 公開日:2023-11-27
# CSAM:異方性ボリューム画像分割のための2.5Dクロススライスアテンションモジュール

CSAM: A 2.5D Cross-Slice Attention Module for Anisotropic Volumetric Medical Image Segmentation ( http://arxiv.org/abs/2311.04942v2 )

ライセンス: Link先を確認
Alex Ling Yu Hung, Haoxin Zheng, Kai Zhao, Xiaoxi Du, Kaifeng Pang, Qi Miao, Steven S. Raman, Demetri Terzopoulos, Kyunghyun Sung(参考訳) 体積医学データ、特に磁気共鳴イメージング(MRI)データの大部分は異方性であり、平面内分解能は一般に平面内分解能よりもはるかに低い。 3次元および純粋に2次元の深層学習に基づくセグメンテーション法は、異方性データに直面すると3次元法の性能が損なわれるため、そのようなボリュームデータを扱うには不十分であり、2次元法は重要なボリューム情報を無視している。 2.5D法では、主に2D畳み込みがボリューム情報と協調して用いられる。 これらのモデルでは,スライス間の関係の学習に重点を置いている。 学習可能な最小パラメータを持つクロススライス・アテンション・モジュール(csam)を提供し,異なるスケールのディープ・フィーチャー・マップに意味的,位置的,スライス的アテンションを適用してボリューム内のすべてのスライス情報をキャプチャする。 異なるネットワークアーキテクチャとタスクを用いた大規模な実験により,CSAMの有用性と汎用性を示した。 関連コードはhttps://github.com/aL3x-O-o-Hung/CSAMで公開されている。

A large portion of volumetric medical data, especially magnetic resonance imaging (MRI) data, is anisotropic, as the through-plane resolution is typically much lower than the in-plane resolution. Both 3D and purely 2D deep learning-based segmentation methods are deficient in dealing with such volumetric data since the performance of 3D methods suffers when confronting anisotropic data, and 2D methods disregard crucial volumetric information. Insufficient work has been done on 2.5D methods, in which 2D convolution is mainly used in concert with volumetric information. These models focus on learning the relationship across slices, but typically have many parameters to train. We offer a Cross-Slice Attention Module (CSAM) with minimal trainable parameters, which captures information across all the slices in the volume by applying semantic, positional, and slice attention on deep feature maps at different scales. Our extensive experiments using different network architectures and tasks demonstrate the usefulness and generalizability of CSAM. Associated code is available at https://github.com/aL3x-O-o-Hung/CSAM.
翻訳日:2023-11-30 13:04:19 公開日:2023-11-27
# 通信複雑度からのハイブリッド量子暗号

Hybrid Quantum Cryptography from Communication Complexity ( http://arxiv.org/abs/2311.09164v2 )

ライセンス: Link先を確認
Francesco Mazzoncini, Balthazar Bauer, Peter Brown, Romain All\'eaume(参考訳) 本稿では、量子コンピュータ・タイムロック(QCT)セキュリティモデルにおいて、量子メモリのコヒーレンス時間よりもはるかに長い時間で、計算的にセキュアな暗号化が破られると仮定する鍵分散プロトコルを明示的に構築する。 QCTの仮定を生かして,古典的戦略と量子戦略の一方的な通信複雑性に指数的なギャップが存在するHdden Matching問題から,HM-QCTと呼ばれる鍵分布プロトコルを構築した。 任意の攻撃に対するHM-QCTの安全性は、古典情報を用いた隠れマッチング問題の解決の難しさに還元できる。 一方、正当なユーザーは量子通信を利用することができ、情報の利点を保ちながら同じ量子状態の複数のコピーを送信することができる。 これにより、$n$ボソニックモード上でのキー分散スキームが持続する。 このようなセキュリティレベルは、純粋に古典的な技術では達成できない。 注目すべきは、このスキームは、各チャネルの使用に対して最大$\mathcal{O}\big( \frac{\sqrt{n}}{\log(n)}\big)$の入力光子で安全であり、機能を拡張し、QKDレートを数桁上回る可能性があることである。

We introduce an explicit construction for a key distribution protocol in the Quantum Computational Timelock (QCT) security model, where one assumes that computationally secure encryption may only be broken after a time much longer than the coherence time of available quantum memories. Taking advantage of the QCT assumptions, we build a key distribution protocol called HM-QCT from the Hidden Matching problem for which there exists an exponential gap in one-way communication complexity between classical and quantum strategies. We establish that the security of HM-QCT against arbitrary i.i.d. attacks can be reduced to the difficulty of solving the underlying Hidden Matching problem with classical information. Legitimate users, on the other hand, can use quantum communication, which gives them the possibility of sending multiple copies of the same quantum state while retaining an information advantage. This leads to an everlasting secure key distribution scheme over $n$ bosonic modes. Such a level of security is unattainable with purely classical techniques. Remarkably, the scheme remains secure with up to $\mathcal{O}\big( \frac{\sqrt{n}}{\log(n)}\big)$ input photons for each channel use, extending the functionalities and potentially outperforming QKD rates by several orders of magnitudes.
翻訳日:2023-11-30 12:56:08 公開日:2023-11-27
# 最適量子リセットプロトコルの探求

Quest for optimal quantum resetting protocols ( http://arxiv.org/abs/2311.09150v2 )

ライセンス: Link先を確認
Pallabi Chatterjee, S. Aravinda, Ranjan Modak(参考訳) 古典的な文脈では、検索がターゲットを見つけられない場合、リセットとして知られるプロセスを再起動する方がよいことがよく知られている。 リセットの量子対向はまた、暗黒状態、すなわち粒子が検出を避けている状況を取り除くことによって、検出プロセスのスピードアップを示す。 そこで本研究では, 粒子を最大にすることができる位置リセット (mpr) プロトコルを導入し, 与えられた時間窓内で一元的にシステムを進化させることにより, 粒子を最大にすることができる位置リセットする手法を提案する。 強結合格子モデルでは、最大確率の位置の2倍縮退(左と右)が存在する。 最適再起動率の生存確率は、粒子が両側で等しい確率でリセットされたときにゼロに近づく(検出確率は1に近づく)。 このプロトコルは、粒子が初期位置に戻される通常のリセットプロトコルと比べて、検出器が遠く離れていても、最適な平均第1検出通過時間(fdt)を大幅に削減し、より良く動作する。 そこで我々は,修正されたプロトコルである適応的MPRを提案し,それに関連するリセットの確率をステップの関数として右と左に設定する。 このプロトコルでは、検出器が遠く離れている場合、最適な平均FDTがさらに削減され、探索プロセスが改善される。

In the classical context, it is well known that, sometimes, if the search does not find its target, it is better to start the process anew again, known as resetting. The quantum counterpart of resetting also indicates speeding up the detection process by eliminating the dark states, i.e., situations where the particle avoids detection. In this work, we introduce a most probable position resetting (MPR) protocol in which we reset the particle in a position where the probability of finding the particle could have been maximum, provided one would let the system evolve unitarily in a given time window. In a tight-binding lattice model, there exists a 2-fold degeneracy (left and right) of the positions of maximum probability. The survival probability with optimal restart rate approaches zero (detection probability approaches one) when the particle is reset with equal probability on both sides. This protocol significantly reduces the optimal mean first-detected-passage time (FDT) and performs better even if the detector is far apart compared to the usual resetting protocols where the particle is brought back to the initial position. We propose a modified protocol, adaptive MPR, by making the associated probabilities of resetting to the right and left a function of resetting steps. In this protocol, we see a further reduction of the optimal mean FDT and improvement in the search process when the detector is far apart.
翻訳日:2023-11-30 12:55:43 公開日:2023-11-27
# Scheming AIs: AIは、パワーを得るためにトレーニング中に偽のアライメントを行うか?

Scheming AIs: Will AIs fake alignment during training in order to get power? ( http://arxiv.org/abs/2311.08379v3 )

ライセンス: Link先を確認
Joe Carlsmith(参考訳) このレポートは、トレーニングでうまく機能する先進的なAIが、後にパワーを得るためにそうするかどうかを調査する。 スケジューリングは、ベースライン機械学習手法を使用して、計画に十分洗練された目標指向のAIを訓練する、という、厄介なほど確実な結果である、と私は結論付けます(これらの条件からすると、私の主観的な確率は約25%)。 特に、トレーニングでうまくパフォーマンスを発揮すれば、(おそらくはそうであると思いますが)力を得るための優れた戦略であるならば、非常に幅広い目標が計画の動機となり、それゆえ、優れたトレーニングパフォーマンスが得られます。 これにより、トレーニングが自然にそのような目標に当てはまり、それを補強するか、あるいはパフォーマンスを改善するための簡単な方法として、モデルのモチベーションを積極的に目標に向けて押し上げることができる。 さらに、計画者はモチベーションを明らかにするために設計されたテストに一致しているふりをしているので、これが起こっているかどうかを判断するのは非常に難しいかもしれません。 しかし、快適な理由もあると思います。 トレーニングにおける様々な選択プレッシャーは、スキーマーのような目標(例えば、非スキーマーに対して、スキーマーは余分な道具的推論を行う必要があり、トレーニングパフォーマンスに悪影響を与える可能性がある)に対して作用しうるし、故意にそのようなプレッシャーを増大させることができる。 本報告では,これらと,他の様々な考察を詳細に論じ,さらに議論を進めるための実証研究の方向性を提示する。

This report examines whether advanced AIs that perform well in training will be doing so in order to gain power later -- a behavior I call "scheming" (also sometimes called "deceptive alignment"). I conclude that scheming is a disturbingly plausible outcome of using baseline machine learning methods to train goal-directed AIs sophisticated enough to scheme (my subjective probability on such an outcome, given these conditions, is roughly 25%). In particular: if performing well in training is a good strategy for gaining power (as I think it might well be), then a very wide variety of goals would motivate scheming -- and hence, good training performance. This makes it plausible that training might either land on such a goal naturally and then reinforce it, or actively push a model's motivations towards such a goal as an easy way of improving performance. What's more, because schemers pretend to be aligned on tests designed to reveal their motivations, it may be quite difficult to tell whether this has occurred. However, I also think there are reasons for comfort. In particular: scheming may not actually be such a good strategy for gaining power; various selection pressures in training might work against schemer-like goals (for example, relative to non-schemers, schemers need to engage in extra instrumental reasoning, which might harm their training performance); and we may be able to increase such pressures intentionally. The report discusses these and a wide variety of other considerations in detail, and it suggests an array of empirical research directions for probing the topic further.
翻訳日:2023-11-30 12:55:03 公開日:2023-11-27
# テクノロジーレポート:大きな言語モデルは圧力を受けるとユーザーを戦略的に欺くことができる

Technical Report: Large Language Models can Strategically Deceive their Users when Put Under Pressure ( http://arxiv.org/abs/2311.07590v2 )

ライセンス: Link先を確認
J\'er\'emy Scheurer, Mikita Balesni, Marius Hobbhahn(参考訳) 我々は, 有益で無害で正直であるように訓練された大規模言語モデルが, 不整合な行動を示し, その行動を戦略的に欺くことができることを実証する。 具体的には,GPT-4を現実的な模擬環境でエージェントとして展開し,自律的な株式取引エージェントの役割を想定する。 この環境では、インサイダー取引が企業経営によって不承認であるにもかかわらず、このモデルは収益性の高い株式取引に関するインサイダー情報を取得し、それに基づいて行動する。 マネージャーに報告する場合、モデルは取引決定の背後にある本当の理由を一貫して隠している。 この動作は, 推論スクラッチパッドへのモデルアクセスの削除, システム命令の変更による不整合動作の防止, モデルの圧力の変化, 捕まるリスクの変化, 環境への簡単な変更など, 設定の変更によってどのように変化するのか, 簡単な調査を行う。 われわれの知る限り、これは大規模言語モデルの訓練を受けた最初の実演であり、無害で誠実で戦略的にユーザを現実的な状況で欺き、直接の指示や騙しの訓練を受けずにすむ。

We demonstrate a situation in which Large Language Models, trained to be helpful, harmless, and honest, can display misaligned behavior and strategically deceive their users about this behavior without being instructed to do so. Concretely, we deploy GPT-4 as an agent in a realistic, simulated environment, where it assumes the role of an autonomous stock trading agent. Within this environment, the model obtains an insider tip about a lucrative stock trade and acts upon it despite knowing that insider trading is disapproved of by company management. When reporting to its manager, the model consistently hides the genuine reasons behind its trading decision. We perform a brief investigation of how this behavior varies under changes to the setting, such as removing model access to a reasoning scratchpad, attempting to prevent the misaligned behavior by changing system instructions, changing the amount of pressure the model is under, varying the perceived risk of getting caught, and making other simple changes to the environment. To our knowledge, this is the first demonstration of Large Language Models trained to be helpful, harmless, and honest, strategically deceiving their users in a realistic situation without direct instructions or training for deception.
翻訳日:2023-11-30 12:52:40 公開日:2023-11-27
# アンカーデータ拡張

Anchor Data Augmentation ( http://arxiv.org/abs/2311.06965v2 )

ライセンス: Link先を確認
Nora Schneider, Shirin Goshtasbpour, Fernando Perez-Cruz(参考訳) 非線形過パラメータ回帰におけるデータ拡張のための新しいアルゴリズムを提案する。 我々のデータ拡張アルゴリズムは、因果関係を文献から借用し、最近提案されたデータ拡張のためのアンカー回帰(AR)法を拡張し、これはMixupの文献に依存する現在の最先端のドメインに依存しないソリューションとは対照的である。 私たちのAnchor Data Augmentation(ADA)では、ARの修正サンプルのレプリカをいくつか使用して、さらなるトレーニング例を提供しています。 ニューラルネットワークを用いた線形および非線形回帰問題に対してADAを適用した。 ADAは最先端のC-Mixupソリューションと競合する。

We propose a novel algorithm for data augmentation in nonlinear over-parametrized regression. Our data augmentation algorithm borrows from the literature on causality and extends the recently proposed Anchor regression (AR) method for data augmentation, which is in contrast to the current state-of-the-art domain-agnostic solutions that rely on the Mixup literature. Our Anchor Data Augmentation (ADA) uses several replicas of the modified samples in AR to provide more training examples, leading to more robust regression predictions. We apply ADA to linear and nonlinear regression problems using neural networks. ADA is competitive with state-of-the-art C-Mixup solutions.
翻訳日:2023-11-30 12:51:27 公開日:2023-11-27
# テキスト・画像拡散モデルにおける一貫性文字

The Chosen One: Consistent Characters in Text-to-Image Diffusion Models ( http://arxiv.org/abs/2311.10093v2 )

ライセンス: Link先を確認
Omri Avrahami, Amir Hertz, Yael Vinker, Moab Arar, Shlomi Fruchter, Ohad Fried, Daniel Cohen-Or, Dani Lischinski(参考訳) テキスト対画像生成モデルの最近の進歩は、ビジュアルクリエイティビティにとって大きな可能性を秘めている。 しかし、これらのモデルは、ストーリービジュアライゼーション、ゲーム開発アセットデザイン、広告など、多くの現実世界のアプリケーションにとって重要な側面である一貫性のあるキャラクターの生成に苦慮している。 現在の方法は、通常、ターゲットキャラクタの複数の既存のイメージに依存するか、または労働集約的な手動プロセスを伴う。 本研究では,テキストプロンプトを唯一の入力とする,一貫した文字生成のための完全自動解を提案する。 各段階において、類似の同一性を共有するコヒーレントな画像集合を識別し、この集合からより一貫性のある同一性を抽出する反復手順を導入する。 定量的解析の結果,本手法はベースライン法と比較して,迅速なアライメントとアイデンティティの一貫性のバランスが良好であることを示し,ユーザ調査により補強された。 結論として,本手法の実用化例をいくつか紹介する。 プロジェクトページはhttps://omriavrahami.com/the-chosen-oneで閲覧できます。

Recent advances in text-to-image generation models have unlocked vast potential for visual creativity. However, these models struggle with generation of consistent characters, a crucial aspect for numerous real-world applications such as story visualization, game development asset design, advertising, and more. Current methods typically rely on multiple pre-existing images of the target character or involve labor-intensive manual processes. In this work, we propose a fully automated solution for consistent character generation, with the sole input being a text prompt. We introduce an iterative procedure that, at each stage, identifies a coherent set of images sharing a similar identity and extracts a more consistent identity from this set. Our quantitative analysis demonstrates that our method strikes a better balance between prompt alignment and identity consistency compared to the baseline methods, and these findings are reinforced by a user study. To conclude, we showcase several practical applications of our approach. Project page is available at https://omriavrahami.com/the-chosen-one
翻訳日:2023-11-30 12:41:58 公開日:2023-11-27
# CORE-MM:マルチモーダル大言語モデルのための複雑なオープンエンディング推論評価

CORE-MM: Complex Open-Ended Reasoning Evaluation For Multi-Modal Large Language Models ( http://arxiv.org/abs/2311.11567v2 )

ライセンス: Link先を確認
Xiaotian Han, Quanzeng You, Yongfei Liu, Wentao Chen, Huangjie Zheng, Khalil Mrini, Xudong Lin, Yiqi Wang, Bohan Zhai, Jianbo Yuan, Heng Wang, Hongxia Yang(参考訳) MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。 これらのモデルは従来の視覚言語タスクに優れるだけでなく、現代のマルチモーダルベンチマークでも顕著な性能を示している。 これらのベンチマークの多くはMLLMの全体評価を試みているが、一般的には基本的な推論タスクに集中しており、単純なye/no や multi-choice の応答しか得られない。 これらの手法は自然にMLLMの推論能力を決定するのに混乱と困難をもたらす。 この問題を軽減するため,MLLM向けに設計されたベンチマークデータセットを手作業でキュレートし,複雑な推論タスクに着目した。 我々のベンチマークは3つの主要な推論カテゴリで構成されている。 我々のデータセットのクエリは、MLLMの推論能力に対処するために意図的に構築されています。 各種MLLMを公平に比較するため,評価基準に中間的推論ステップを組み込んだ。 MLLMが決定的な答えを生成できない場合、その推論能力は中間的推論ステップを要求することによって評価される。 これらのステップが手動アノテーションと一致すれば、適切なスコアが割り当てられます。 この評価スキームは、試験や課題など人間の評価によく用いられる手法に似ており、既存のベンチマークと比較すると、より効果的な評価手法と考えるものを表している。 我々は,この厳密に開発された多段階多段階的推論ベンチマークを用いて,代表的mllmの選択を評価し,その推論能力に挑戦し,正確に評価する。 コードとデータはhttps://core-mm.github.io/でリリースされる。

Multi-modal Large Language Models (MLLMs) are increasingly prominent in the field of artificial intelligence. These models not only excel in traditional vision-language tasks but also demonstrate impressive performance in contemporary multi-modal benchmarks. Although many of these benchmarks attempt to holistically evaluate MLLMs, they typically concentrate on basic reasoning tasks, often yielding only simple yes/no or multi-choice responses. These methods naturally lead to confusion and difficulties in conclusively determining the reasoning capabilities of MLLMs. To mitigate this issue, we manually curate a benchmark dataset specifically designed for MLLMs, with a focus on complex reasoning tasks. Our benchmark comprises three key reasoning categories: deductive, abductive, and analogical reasoning. The queries in our dataset are intentionally constructed to engage the reasoning capabilities of MLLMs in the process of generating answers. For a fair comparison across various MLLMs, we incorporate intermediate reasoning steps into our evaluation criteria. In instances where an MLLM is unable to produce a definitive answer, its reasoning ability is evaluated by requesting intermediate reasoning steps. If these steps align with our manual annotations, appropriate scores are assigned. This evaluation scheme resembles methods commonly used in human assessments, such as exams or assignments, and represents what we consider a more effective assessment technique compared with existing benchmarks. We evaluate a selection of representative MLLMs using this rigorously developed open-ended multi-step elaborate reasoning benchmark, designed to challenge and accurately measure their reasoning capabilities. The code and data will be released at https://core-mm.github.io/
翻訳日:2023-11-30 12:30:51 公開日:2023-11-27
# 難易度対策と文脈情報に基づくToken-Level Adversarial Prompt Detection

Token-Level Adversarial Prompt Detection Based on Perplexity Measures and Contextual Information ( http://arxiv.org/abs/2311.11509v2 )

ライセンス: Link先を確認
Zhengmian Hu, Gang Wu, Saayan Mitra, Ruiyi Zhang, Tong Sun, Heng Huang, and Viswanathan Swaminathan(参考訳) 近年,様々なアプリケーションにおいて,Large Language Models (LLM) が重要なツールとして登場している。 しかし、これらのモデルは、攻撃者が望ましくない出力につながる入力文字列を慎重にキュレートできる、敵対的なプロンプト攻撃の影響を受けやすい。 LLMの固有の脆弱性は、特にOOD(out-of-distribution)入力が提示された場合に、入力出力機構に起因している。 本稿では,次のトークンの確率を予測するLLMの能力を利用して,逆方向のプロンプトを識別するトークンレベル検出手法を提案する。 モデルのパープレキシティを計測し、隣接するトークン情報を取り込んで、連続した敵のプロンプトシーケンスの検出を促進する。 その結果、各トークンを敵プロンプトの一部かそうでないかを識別する手法と、敵プロンプトの一部である各トークンの確率を推定する手法の2つの方法を提案する。

In recent years, Large Language Models (LLM) have emerged as pivotal tools in various applications. However, these models are susceptible to adversarial prompt attacks, where attackers can carefully curate input strings that lead to undesirable outputs. The inherent vulnerability of LLMs stems from their input-output mechanisms, especially when presented with intensely out-of-distribution (OOD) inputs. This paper proposes a token-level detection method to identify adversarial prompts, leveraging the LLM's capability to predict the next token's probability. We measure the degree of the model's perplexity and incorporate neighboring token information to encourage the detection of contiguous adversarial prompt sequences. As a result, we propose two methods: one that identifies each token as either being part of an adversarial prompt or not, and another that estimates the probability of each token being part of an adversarial prompt.
翻訳日:2023-11-30 12:30:27 公開日:2023-11-27
# ガウス平滑化とガウス微分の離散近似

Discrete approximations of Gaussian smoothing and Gaussian derivatives ( http://arxiv.org/abs/2311.11317v3 )

ライセンス: Link先を確認
Tony Lindeberg(参考訳) 本稿では, 離散データに適用するためのスケール空間理論におけるガウス平滑化およびガウス微分計算の近似問題に関する深い処理法を考案する。 連続的および離散的スケール空間論の以前の公理的処理との密接な関係から、これらのスケール空間演算を明示的離散畳み込みという観点から区別する3つの主要な方法を考える。 (i)ガウス核とガウス微分核をサンプリングする。 (ii)各画素支持領域上にガウス核とガウス微分核を局所的に統合し、 3) ガウス核の離散アナログのスケール空間解析を基礎とし, 空間的スムーズな画像データに小サポート中央差分演算子を適用することにより微分近似を演算する。 本研究では,これら3つの主要な離散化手法の特性を理論的・実験的に検討し,その性能を定量的に評価する。 その結果、サンプル化されたガウス核と導関数、および統合されたガウス核と導関数は、非常に微細なスケールで非常に低性能であることがわかった。 非常に微細なスケールでは、ガウス核の離散的な類似とそれに対応する離散微分近似が大幅に向上する。 一方、サンプル化されたガウス核とサンプル化されたガウス微分は、スケールパラメータが十分に大きい場合、グリッド間隔の単位においてスケールパラメータが約1より大きい場合、対応する連続結果の数値的に非常に良い近似をもたらす。

This paper develops an in-depth treatment concerning the problem of approximating the Gaussian smoothing and Gaussian derivative computations in scale-space theory for application on discrete data. With close connections to previous axiomatic treatments of continuous and discrete scale-space theory, we consider three main ways discretizing these scale-space operations in terms of explicit discrete convolutions, based on either (i) sampling the Gaussian kernels and the Gaussian derivative kernels, (ii) locally integrating the Gaussian kernels and the Gaussian derivative kernels over each pixel support region and (iii) basing the scale-space analysis on the discrete analogue of the Gaussian kernel, and then computing derivative approximations by applying small-support central difference operators to the spatially smoothed image data. We study the properties of these three main discretization methods both theoretically and experimentally, and characterize their performance by quantitative measures, including the results they give rise to with respect to the task of scale selection, investigated for four different use cases, and with emphasis on the behaviour at fine scales. The results show that the sampled Gaussian kernels and derivatives as well as the integrated Gaussian kernels and derivatives perform very poorly at very fine scales. At very fine scales, the discrete analogue of the Gaussian kernel with its corresponding discrete derivative approximations performs substantially better. The sampled Gaussian kernel and the sampled Gaussian derivatives do, on the other hand, lead to numerically very good approximations of the corresponding continuous results, when the scale parameter is sufficiently large, in the experiments presented in the paper, when the scale parameter is greater than a value of about 1, in units of the grid spacing.
翻訳日:2023-11-30 12:29:59 公開日:2023-11-27
# 時系列異常検出における「異常」の解法--自己教師付きトリドメイン解

Unraveling the "Anomaly" in Time Series Anomaly Detection: A Self-supervised Tri-domain Solution ( http://arxiv.org/abs/2311.11235v2 )

ライセンス: Link先を確認
Yuting Sun, Guansong Pang, Guanhua Ye, Tong Chen, Xia Hu, Hongzhi Yin(参考訳) 時系列異常検出(tsad: time series anomaly detection)における現在進行中の課題、特に異常ラベルの不足と異常長と形状の変化は、より効率的なソリューションの必要性をもたらした。 TSADにおける従来の教師付きモデルには限定的な異常ラベルが存在するため、自己教師付き学習のような様々なSOTA深層学習技術がこの問題に対処するために導入されている。 しかし、これらは異常長や形状の変化に対処し難いため、様々な異常への適応性が制限される。 さらに、多くのベンチマークデータセットは、ランダム関数でさえ検出できる明示的な異常を持つという問題に悩まされている。 この問題は、不適切な評価指標である点調整(PA)によって悪化し、モデル性能が膨張する可能性がある。 本稿では,3つのデータ領域の時間的・頻度的・残差的特徴を,異常ラベルに依存することなくモデル化することで,これらの課題に対処する,自己教師型学習ベースのTriADを提案する。 従来のコントラスト学習法とは異なり、triadはドメイン間コントラスト損失とドメイン内コントラスト損失の両方を使用して、通常のデータ間の共通属性を学習し、異常と区別する。 さらに,ディスコード検出アルゴリズムと統合することで,長さの異なる異常を検出できる。 この研究は、高度に設計されたデータセット(UCRアーカイブ)と評価指標(PA%Kとアフィリエイト)の両方を利用して、TSADにおけるディープラーニングの可能性を再評価する最初の試みである。 UCRデータセットの実験結果により、TriADは、SOTA深層学習モデルよりもPA%KベースのF1スコアが3倍、精度が50%向上した。

The ongoing challenges in time series anomaly detection (TSAD), notably the scarcity of anomaly labels and the variability in anomaly lengths and shapes, have led to the need for a more efficient solution. As limited anomaly labels hinder traditional supervised models in TSAD, various SOTA deep learning techniques, such as self-supervised learning, have been introduced to tackle this issue. However, they encounter difficulties handling variations in anomaly lengths and shapes, limiting their adaptability to diverse anomalies. Additionally, many benchmark datasets suffer from the problem of having explicit anomalies that even random functions can detect. This problem is exacerbated by ill-posed evaluation metrics, known as point adjustment (PA), which can result in inflated model performance. In this context, we propose a novel self-supervised learning based Tri-domain Anomaly Detector (TriAD), which addresses these challenges by modeling features across three data domains - temporal, frequency, and residual domains - without relying on anomaly labels. Unlike traditional contrastive learning methods, TriAD employs both inter-domain and intra-domain contrastive loss to learn common attributes among normal data and differentiate them from anomalies. Additionally, our approach can detect anomalies of varying lengths by integrating with a discord discovery algorithm. It is worth noting that this study is the first to reevaluate the deep learning potential in TSAD, utilizing both rigorously designed datasets (i.e., UCR Archive) and evaluation metrics (i.e., PA%K and affiliation). Through experimental results on the UCR dataset, TriAD achieves an impressive three-fold increase in PA%K based F1 scores over SOTA deep learning models, and 50% increase of accuracy as compared to SOTA discord discovery algorithms.
翻訳日:2023-11-30 12:29:13 公開日:2023-11-27
# 視覚言語モデルにおけるアクティブ・プロンプト学習

Active Prompt Learning in Vision Language Models ( http://arxiv.org/abs/2311.11178v2 )

ライセンス: Link先を確認
Jihwan Bang, Sumyeong Ahn, Jae-Gil Lee(参考訳) 事前訓練された視覚言語モデル(VLM)は、分類や検索など、様々なゼロショットタスクにおいて顕著な進歩を示している。 その性能にもかかわらず、新しいタスクのパフォーマンスを改善するにはタスク固有の知識が必要であるため、それらの適応は不可欠である。 ラベルは適応に必要だが、その取得は通常高価である。 この課題を克服するために,専門家から少数のサンプルのラベルを取得し,高い性能を達成するための能動的学習法が研究されている。 アクティブラーニングは、主にラベル付けのためのラベルなしサンプルの選択と、モデルのトレーニングにそれらを活用することに重点を置いている。 本研究では,事前学習されたvlmをアクティブ・ラーニング・フレームワークでどのように適用できるのか? 本調査では,(1)事前学習したVLMに対して従来のアクティブラーニングフレームワークを適用すれば,ラベル付け候補のクラス不均衡のため,ランダム選択よりも性能が低下する可能性があり,(2)VLMの知識はラベル付け前のバランスを達成するヒントを与えることができる。 これらの観測に基づいて,PCB と表記される VLM のための新しいアクティブラーニングフレームワークを考案した。 提案手法の有効性を評価するため,7つの実世界のデータセットを用いて実験を行い,PCBが従来の能動的学習法やランダムサンプリング法を超えることを示す。

Pre-trained Vision Language Models (VLMs) have demonstrated notable progress in various zero-shot tasks, such as classification and retrieval. Despite their performance, because improving performance on new tasks requires task-specific knowledge, their adaptation is essential. While labels are needed for the adaptation, acquiring them is typically expensive. To overcome this challenge, active learning, a method of achieving a high performance by obtaining labels for a small number of samples from experts, has been studied. Active learning primarily focuses on selecting unlabeled samples for labeling and leveraging them to train models. In this study, we pose the question, "how can the pre-trained VLMs be adapted under the active learning framework?" In response to this inquiry, we observe that (1) simply applying a conventional active learning framework to pre-trained VLMs even may degrade performance compared to random selection because of the class imbalance in labeling candidates, and (2) the knowledge of VLMs can provide hints for achieving the balance before labeling. Based on these observations, we devise a novel active learning framework for VLMs, denoted as PCB. To assess the effectiveness of our approach, we conduct experiments on seven different real-world datasets, and the results demonstrate that PCB surpasses conventional active learning and random sampling methods.
翻訳日:2023-11-30 12:28:15 公開日:2023-11-27
# 神経密度推定器と埋め込みネットワークを用いた市場シミュレーションの深部校正

Deep Calibration of Market Simulations using Neural Density Estimators and Embedding Networks ( http://arxiv.org/abs/2311.11913v2 )

ライセンス: Link先を確認
Namid R. Stillman, Rory Baggott, Justin Lyon, Jianfei Zhang, Dingqiu Zhu, Tao Chen, Perukrishnen Vytelingum(参考訳) リミット・オーダー・ブックのダイナミクスを再現するなど、金融取引の現実的なシミュレータを構築する能力は、フラッシュクラッシュやマージンコール、マクロ経済の見通しの変化など、多くの非現実的シナリオに対する洞察を与えることができる。 近年,多くの取引所の特徴を再現するエージェントベースモデルが開発され,一連の形式化された事実と統計によって要約されている。 しかし、シミュレーターを特定の取引期間に調整する能力は、まだ未解決の課題である。 本研究では,近年の深層学習の進歩を活用し,特にニューラル密度推定器と組込みネットワークを用いた市場シミュレータの校正手法を開発する。 提案手法は,合成データや履歴データに適用した場合と,手作業による選択や重み付けによる事実のアンサンブルに依存することなく,高い確率パラメータ集合を正確に同定できることを実証する。

The ability to construct a realistic simulator of financial exchanges, including reproducing the dynamics of the limit order book, can give insight into many counterfactual scenarios, such as a flash crash, a margin call, or changes in macroeconomic outlook. In recent years, agent-based models have been developed that reproduce many features of an exchange, as summarised by a set of stylised facts and statistics. However, the ability to calibrate simulators to a specific period of trading remains an open challenge. In this work, we develop a novel approach to the calibration of market simulators by leveraging recent advances in deep learning, specifically using neural density estimators and embedding networks. We demonstrate that our approach is able to correctly identify high probability parameter sets, both when applied to synthetic and historical data, and without reliance on manually selected or weighted ensembles of stylised facts.
翻訳日:2023-11-30 12:23:06 公開日:2023-11-27
# DocPedia:Versatile文書理解のための周波数領域における大規模マルチモーダルモデルのパワーの解放

DocPedia: Unleashing the Power of Large Multimodal Model in the Frequency Domain for Versatile Document Understanding ( http://arxiv.org/abs/2311.11810v2 )

ライセンス: Link先を確認
Hao Feng and Qi Liu and Hao Liu and Wengang Zhou and Houqiang Li and Can Huang(参考訳) DocPediaは、OCRフリー文書理解のための新しい大規模マルチモーダルモデル(LMM)で、2,560$\times$2,560の解像度で画像を解析できる。 既存の作品が高解像度ドキュメントに苦しむか、ビジョンや言語能力に制約のある大きな言語モデルを諦めるかとは異なり、私たちのdocpediaはピクセル空間ではなく周波数領域で視覚入力を直接処理します。 ユニークな特徴により、docpediaは限られた数のビジュアルトークンを使用して、より多くのビジュアル情報とテキスト情報をキャプチャできる。 モデルの知覚能力と理解能力の両立を一貫して向上させるため,二段階の訓練戦略を開発し,複数の文書タイプをカバーするすべての訓練タスクの指示/注釈を充実させる。 様々な公開可能なベンチマークで実施された広範囲な量的および質的な実験は、共同学習の知覚と理解タスクの相互利益を確認する。 その結果,DocPediaが他の手法よりも有効であり,優れた性能を示した。

This work presents DocPedia, a novel large multimodal model (LMM) for versatile OCR-free document understanding, capable of parsing images up to 2,560$\times$2,560 resolution. Unlike existing work either struggle with high-resolution documents or give up the large language model thus vision or language ability constrained, our DocPedia directly processes visual input in the frequency domain rather than the pixel space. The unique characteristic enables DocPedia to capture a greater amount of visual and textual information using a limited number of visual tokens. To consistently enhance both perception and comprehension abilities of our model, we develop a dual-stage training strategy and enrich instructions/annotations of all training tasks covering multiple document types. Extensive quantitative and qualitative experiments conducted on various publicly available benchmarks confirm the mutual benefits of jointly learning perception and comprehension tasks. The results provide further evidence of the effectiveness and superior performance of our DocPedia over other methods.
翻訳日:2023-11-30 12:21:59 公開日:2023-11-27
# RedditでAI生成コンテンツをモデレートする「見逃している場所」

"There Has To Be a Lot That We're Missing": Moderating AI-Generated Content on Reddit ( http://arxiv.org/abs/2311.12702v2 )

ライセンス: Link先を確認
Travis Lloyd, Joseph Reagle, Mor Naaman(参考訳) 生成aiは、オンラインコミュニティの働き方、学び、コミュニケーション、参加を妨害する恐れがある。 われわれは、ソーシャル共有サイトRedditのオンラインコミュニティがAIGC(AIGC)によってどのように挑戦されているか、どのように適応しているかを理解するために、質的なインタビュー研究を行った。 我々は,AIGCをモデレートした経験について,サブレディットモデレーターとの詳細な半構造化インタビューを15回行った。 参加者はAIGCの使用に対する合法的動機と非合法的動機の両方を認識していますが、全体としては、サブレディットの目的とサイズに依存したレベルの懸念をもって、コミュニティに有害であると考えています。 モデレーターは、aigcの予防や抑制に役立つ様々な戦略を使用してルールを開発していると報告したが、愚かな検出ツールがなければ、強制は困難であり、ヒューリスティックスに依存している。 全体として、オンラインコミュニティにとって、生成AIの脅威は投機的ではない。

Generative AI threatens to disrupt how we work, learn, communicate, and participate in online communities. We performed a qualitative interview study to understand how online communities on the social sharing site Reddit are challenged by AI-generated content (AIGC) and how they are adapting. We conducted fifteen in-depth, semi-structured interviews with subreddit moderators about their experiences moderating AIGC. Though our participants see both legitimate and illegitimate motivations for using AIGC, on the whole they view it as detrimental to their communities, with a level of concern that is dependent on the purpose and size of their subreddits. Moderators reported developing rules and using a variety of strategies that may help communities prevent or curb AIGC, but without foolproof detection tools, enforcement is challenging and relies on heuristics. Overall, for online communities, the threat of Generative AI is not speculative: the disruption has already begun.
翻訳日:2023-11-30 10:13:33 公開日:2023-11-27
# 逐次的神経後部推定に基づく効率の良い確率自由ベイズ推定法

An efficient likelihood-free Bayesian inference method based on sequential neural posterior estimation ( http://arxiv.org/abs/2311.12530v2 )

ライセンス: Link先を確認
Yifei Xiong, Xiliang Yang, Sanguo Zhang, Zhijian He(参考訳) 逐次的神経後部推定(SNPE)技術は、難易度のあるシミュレーションベースモデルを扱うために最近提案されている。 近似ベイズ計算とは異なり、SNPE法は特定の損失関数を最小化してニューラルネットワークに基づく条件密度推定器を用いて逐次シミュレーションから後部を学習する。 Lueckmannら (2017) が提案したSNPE法は、キャリブレーションカーネルを用いて観測データの周りのサンプル重量を増大させ、集中的な損失関数をもたらす。 しかし、キャリブレーションカーネルを用いることで、経験的損失と勾配のばらつきが増大し、トレーニングの効率が低下する可能性がある。 本稿では,snpeの安定性を向上させるため,適応キャリブレーションカーネルと分散低減手法を提案する。 提案手法はトレーニングのプロセスを大幅に高速化し,従来のSNPE法や既存の競合相手よりも後方の近似が優れていることを数値実験で確認した。

Sequential neural posterior estimation (SNPE) techniques have been recently proposed for dealing with simulation-based models with intractable likelihoods. Unlike approximate Bayesian computation, SNPE techniques learn the posterior from sequential simulation using neural network-based conditional density estimators by minimizing a specific loss function. The SNPE method proposed by Lueckmann et al. (2017) used a calibration kernel to boost the sample weights around the observed data, resulting in a concentrated loss function. However, the use of calibration kernels may increase the variances of both the empirical loss and its gradient, making the training inefficient. To improve the stability of SNPE, this paper proposes to use an adaptive calibration kernel and several variance reduction techniques. The proposed method greatly speeds up the process of training, and provides a better approximation of the posterior than the original SNPE method and some existing competitors as confirmed by numerical experiments.
翻訳日:2023-11-30 10:13:00 公開日:2023-11-27
# HierSpeech++:ゼロショット音声合成のための階層的変分推論による音声のセマンティック表現と音響表現のギャップを埋める

HierSpeech++: Bridging the Gap between Semantic and Acoustic Representation of Speech by Hierarchical Variational Inference for Zero-shot Speech Synthesis ( http://arxiv.org/abs/2311.12454v2 )

ライセンス: Link先を確認
Sang-Hoon Lee, Ha-Yeong Choi, Seung-Bin Kim, Seong-Whan Lee(参考訳) 大規模言語モデル(llm)に基づく音声合成はゼロショット音声合成において広く採用されている。 しかし、それらは大規模なデータを必要とし、より遅い推論速度や堅牢性の欠如など、従来の自己回帰音声モデルと同じ制限を持つ。 本稿では,tts(text-to-speech)とvc(voice conversion)のための高速かつ強力なゼロショット音声合成器hierspeech++を提案する。 階層型音声合成フレームワークが合成音声のロバスト性と表現性を大幅に改善できることを確認した。 さらに,ゼロショット音声合成シナリオにおいても,合成音声の自然性や話者類似性が著しく向上する。 テキスト対音声では,テキスト表現と韻律プロンプトに基づく自己教師あり音声表現とf0表現を生成するtext-to-vecフレームワークを採用する。 そして、HierSpeech++は生成されたベクトル、F0、音声プロンプトから音声を生成する。 さらに16kHzから48kHzまでの高効率音声超解像フレームワークを導入する。 実験結果から, 階層型変分オートエンコーダはllmモデルや拡散モデルよりも強力なゼロショット音声シンセサイザーとなりうることがわかった。 さらに,人間レベルのゼロショット音声合成を初めて達成した。 オーディオサンプルとソースコードはhttps://github.com/sh-lee-prml/hierspeechppで入手できる。

Large language models (LLM)-based speech synthesis has been widely adopted in zero-shot speech synthesis. However, they require a large-scale data and possess the same limitations as previous autoregressive speech models, including slow inference speed and lack of robustness. This paper proposes HierSpeech++, a fast and strong zero-shot speech synthesizer for text-to-speech (TTS) and voice conversion (VC). We verified that hierarchical speech synthesis frameworks could significantly improve the robustness and expressiveness of the synthetic speech. Furthermore, we significantly improve the naturalness and speaker similarity of synthetic speech even in zero-shot speech synthesis scenarios. For text-to-speech, we adopt the text-to-vec framework, which generates a self-supervised speech representation and an F0 representation based on text representations and prosody prompts. Then, HierSpeech++ generates speech from the generated vector, F0, and voice prompt. We further introduce a high-efficient speech super-resolution framework from 16 kHz to 48 kHz. The experimental results demonstrated that the hierarchical variational autoencoder could be a strong zero-shot speech synthesizer given that it outperforms LLM-based and diffusion-based models. Moreover, we achieved the first human-level quality zero-shot speech synthesis. Audio samples and source code are available at https://github.com/sh-lee-prml/HierSpeechpp.
翻訳日:2023-11-30 10:12:44 公開日:2023-11-27
# point, segment, count:オブジェクトカウントのための一般化フレームワーク

Point, Segment and Count: A Generalized Framework for Object Counting ( http://arxiv.org/abs/2311.12386v2 )

ライセンス: Link先を確認
Zhizhong Huang, Mingliang Dai, Yi Zhang, Junping Zhang, Hongming Shan(参考訳) クラス非依存のオブジェクトカウントは、例ボックスやクラス名、 \emph{a.k.a} 少数ショットとゼロショットカウントに関して、イメージ内のすべてのオブジェクトをカウントすることを目的としている。 現在の最先端の手法は、モデルの解釈可能性に欠ける対象数を予測するために密度マップに強く依存している。 本稿では,検出に基づく最小ショットとゼロショットの両方のオブジェクトカウントのための一般化フレームワークを提案する。 我々のフレームワークは、ゼロショット能力を損なうことなく、2つの基盤モデルの優れた利点を組み合わせている。 (\textbf{i}) SAM はすべての可能なオブジェクトをマスクの提案としてセグメント化し、 (\textbf{ii}) CLIP は正確なオブジェクト数を得るための提案を分類する。 しかし、この戦略は、効率のオーバーヘッドと、局所化や区別ができない小さな混み合ったオブジェクトの障害を満たす。 これらの問題に対処するため、私たちのフレームワークはPseCoと呼ばれ、ポイント、セグメント、カウントの3つのステップに従っています。 具体的には、SAMの精度が低いが最小点のプロンプトを提供するために、クラスに依存しないオブジェクトローカライゼーションを提案する。 さらに,CLIP画像/テキスト埋め込みを分類器として活用する汎用オブジェクト分類を提案し,階層的知識蒸留に続き,階層的マスク提案の識別的分類を得る。 FSC-147データセットの大規模な実験結果から、PseCoは、大規模COCOデータセットとLVISデータセットのさらなる結果とともに、少数ショット/ゼロショットオブジェクトカウント/検出の両方で最先端のパフォーマンスを達成することが示された。 ソースコードは \url{https://github.com/Hzzone/PseCo} で入手できる。

Class-agnostic object counting aims to count all objects in an image with respect to example boxes or class names, \emph{a.k.a} few-shot and zero-shot counting. Current state-of-the-art methods highly rely on density maps to predict object counts, which lacks model interpretability. In this paper, we propose a generalized framework for both few-shot and zero-shot object counting based on detection. Our framework combines the superior advantages of two foundation models without compromising their zero-shot capability: (\textbf{i}) SAM to segment all possible objects as mask proposals, and (\textbf{ii}) CLIP to classify proposals to obtain accurate object counts. However, this strategy meets the obstacles of efficiency overhead and the small crowded objects that cannot be localized and distinguished. To address these issues, our framework, termed PseCo, follows three steps: point, segment, and count. Specifically, we first propose a class-agnostic object localization to provide accurate but least point prompts for SAM, which consequently not only reduces computation costs but also avoids missing small objects. Furthermore, we propose a generalized object classification that leverages CLIP image/text embeddings as the classifier, following a hierarchical knowledge distillation to obtain discriminative classifications among hierarchical mask proposals. Extensive experimental results on FSC-147 dataset demonstrate that PseCo achieves state-of-the-art performance in both few-shot/zero-shot object counting/detection, with additional results on large-scale COCO and LVIS datasets. The source code is available at \url{https://github.com/Hzzone/PseCo}.
翻訳日:2023-11-30 10:12:05 公開日:2023-11-27
# コンセプトスライダ:拡散モデルにおける精密制御のためのLoRAアダプタ

Concept Sliders: LoRA Adaptors for Precise Control in Diffusion Models ( http://arxiv.org/abs/2311.12092v2 )

ライセンス: Link先を確認
Rohit Gandikota, Joanna Materzynska, Tingrui Zhou, Antonio Torralba, David Bau(参考訳) 拡散モデルから画像生成における属性を正確に制御できる解釈可能な概念スライダを作成する手法を提案する。 提案手法では,他の属性との干渉を最小限に抑えながら,ある概念に対応する低ランクパラメータの方向を特定する。 スライダは、プロンプトまたはサンプルイメージの小さなセットを使用して作成されるので、テキストまたはビジュアルのコンセプトでスライダの方向を作成できる。 コンセプトスライダはプラグアンドプレイであり、効率的かつ連続的に構成でき、画像生成を精密に制御することができる。 従来の編集技術と比較した定量的実験では、スライダは低い干渉でより強力な目標編集を示す。 天気,年齢,スタイル,表現のスライダとスライダ構成について紹介する。 テキスト記述が難しい視覚概念を直感的に編集するために,スライダがスタイルガンから潜在表現を転送する方法を示す。 また, 本手法は, 物体変形の修復や変形した手の固定など, 安定拡散xlの持続的な品質問題に対処できることがわかった。 私たちのコード、データ、トレーニングされたスライダーはhttps://sliders.baulab.info/で利用可能です。

We present a method to create interpretable concept sliders that enable precise control over attributes in image generations from diffusion models. Our approach identifies a low-rank parameter direction corresponding to one concept while minimizing interference with other attributes. A slider is created using a small set of prompts or sample images; thus slider directions can be created for either textual or visual concepts. Concept Sliders are plug-and-play: they can be composed efficiently and continuously modulated, enabling precise control over image generation. In quantitative experiments comparing to previous editing techniques, our sliders exhibit stronger targeted edits with lower interference. We showcase sliders for weather, age, styles, and expressions, as well as slider compositions. We show how sliders can transfer latents from StyleGAN for intuitive editing of visual concepts for which textual description is difficult. We also find that our method can help address persistent quality issues in Stable Diffusion XL including repair of object deformations and fixing distorted hands. Our code, data, and trained sliders are available at https://sliders.baulab.info/
翻訳日:2023-11-30 10:11:16 公開日:2023-11-27
# 3量子ビットアダマールの同型と$e_8$

The Isomorphism of 3-Qubit Hadamards and $E_8$ ( http://arxiv.org/abs/2311.11918v2 )

ライセンス: Link先を確認
J. G. Moxness(参考訳) 本稿では、$H_4$ と $E_8$ の間の同型関係を示す行列 $\mathbb{U}$ のいくつかの顕著な性質を示す。 これらの性質の最も重要なものは、$\mathbb{U}$である。 $\mathbb{U}$ は、数字に対する黄金比が 8 の行列をランク付けする。 つまり、それとその逆の差は、ツイストがあるにもかかわらず、アイデンティティ要素である。 具体的には$\mathbb{U}$である。 以下は$\mathbb{u}$-$(\mathbb{u}$)である。 $\mathbb{U})^{-1}$ は、ランク8の逆恒等行列または標準不変置換行列である。 8ビットのバイナリ基底状態を持つ正規化された3ビットアダマール行列と同じパリンドロミック特性多項式係数を持ち、(8,4)ハミング符号を通じてE8に同型であることが知られている。

This paper presents several notable properties of the matrix $\mathbb{U}$ shown to be related to the isomorphism between $H_4$ and $E_8$. The most significant of these properties is that $\mathbb{U}$.$\mathbb{U}$ is to rank 8 matrices what the golden ratio is to numbers. That is to say, the difference between it and its inverse is the identity element, albeit with a twist. Specifically, $\mathbb{U}$.$\mathbb{U}$-$ (\mathbb{U}$.$\mathbb{U})^{-1}$ is the reverse identity matrix or standard involutory permutation matrix of rank 8. It has the same palindromic characteristic polynomial coefficients as the normalized 3-qubit Hadamard matrix with 8-bit binary basis states, which is known to be isomorphic to E8 through its (8,4) Hamming code.
翻訳日:2023-11-30 10:10:30 公開日:2023-11-27
# Nova$^+$:バイナリ生成言語モデル

Nova$^+$: Generative Language Models for Binaries ( http://arxiv.org/abs/2311.13721v2 )

ライセンス: Link先を確認
Nan Jiang, Chengxiao Wang, Kevin Liu, Xiangzhe Xu, Lin Tan, Xiangyu Zhang(参考訳) コードで事前トレーニングされた生成型大言語モデル(llm)は、コード生成、プログラムの修復、文書解析において素晴らしい効果を示している。 しかし、既存のジェネレーティブLLMはソースコードに焦点を当てており、バイナリに特化していない。 llmがバイナリコードのモデル化と学習には、hex-decimal値、複雑なグローバル依存性、コンパイラ最適化レベルという3つの大きな課題がある。 バイナリドメインにLLMの利点をもたらすため、バイナリコーパス上で事前学習されたLLMであるNovaとNova$+$を開発した。 Novaは標準言語モデリングタスクで事前トレーニングされており、バイナリコード類似性検出(BCSD)、バイナリコード変換(BCT)、バイナリコードリカバリ(BCR)、GPT-3.5など、既存の3つのダウンストリームタスクの5つのベンチマークで大幅に改善されている。 我々はNovaを2つの新しい事前学習タスク、すなわち最適化生成と最適化レベル予測を使ってさらに強化するためにNova$^+$を構築します。 nova$^+$は、5つのベンチマークで3つのダウンストリームタスクの全体的なパフォーマンスを示し、新しい事前トレーニングタスクの貢献を示している。

Generative large language models (LLMs) pre-trained on code have shown impressive effectiveness in code generation, program repair, and document analysis. However, existing generative LLMs focus on source code and are not specialized for binaries. There are three main challenges for LLMs to model and learn binary code: hex-decimal values, complex global dependencies, and compiler optimization levels. To bring the benefit of LLMs to the binary domain, we develop Nova and Nova$^+$, which are LLMs pre-trained on binary corpora. Nova is pre-trained with the standard language modeling task, showing significantly better capability on five benchmarks for three downstream tasks: binary code similarity detection (BCSD), binary code translation (BCT), and binary code recovery (BCR), over GPT-3.5 and other existing techniques. We build Nova$^+$ to further boost Nova using two new pre-training tasks, i.e., optimization generation and optimization level prediction, which are designed to learn binary optimization and align equivalent binaries. Nova$^+$ shows overall the best performance for all three downstream tasks on five benchmarks, demonstrating the contributions of the new pre-training tasks.
翻訳日:2023-11-30 10:02:25 公開日:2023-11-27
# 非可換測定の量子エネルギー論

Quantum energetics of a non-commuting measurement ( http://arxiv.org/abs/2311.13634v2 )

ライセンス: Link先を確認
Xiayu Linpeng, Nicol\`o Piccione, Maria Maffei, L\'ea Bresque, Samyak P. Prasad, Andrew N. Jordan, Alexia Auff\`eves, and Kater W. Murch(参考訳) 観測可能な測定値が量子系のハミルトニアンと交換されない場合、測定されるシステムのエネルギーは通常測定中に保存されない。 代わりに、測定されたシステムとメーターの間でエネルギーを転送することができる。 本研究では,3次元マイクロ波共振器に埋め込まれたトランスモン量子ビットを含む回路量子電磁力学系における非可換計測のエネルギーについて実験的に検討する。 本研究では、周波数シフトがプローブに与えられる空洞光子のスペクトル分析を通して、量子ビットの関連するエネルギー変化とバランスをとることを示す。 我々の実験は、量子計測の基礎に関する新たな洞察を提供し、量子エネルギー学における重要なメカニズムの理解を深める。

When a measurement observable does not commute with a quantum system's Hamiltonian, the energy of the measured system is typically not conserved during the measurement. Instead, energy can be transferred between the measured system and the meter. In this work, we experimentally investigate the energetics of non-commuting measurements in a circuit quantum electrodynamics system containing a transmon qubit embedded in a 3D microwave cavity. We show through spectral analysis of the cavity photons that a frequency shift is imparted on the probe, in balance with the associated energy changes of the qubit. Our experiment provides new insights into foundations of quantum measurement, as well as a better understanding of the key mechanisms at play in quantum energetics.
翻訳日:2023-11-30 10:02:02 公開日:2023-11-27
# LM-Cocktail: モデルマージによる言語モデルの回復性チューニング

LM-Cocktail: Resilient Tuning of Language Models via Model Merging ( http://arxiv.org/abs/2311.13534v2 )

ライセンス: Link先を確認
Shitao Xiao, Zheng Liu, Peitian Zhang, Xingrun Xing(参考訳) 事前訓練された言語モデルは、下流アプリケーションのサポートを改善するために継続的に微調整される。 しかし、この操作は、ターゲット領域を超えた一般的なタスクにおいて大きなパフォーマンス劣化をもたらす可能性がある。 この問題を克服するために, 微調整モデルが一般の観点で弾力性を維持することを可能にする新しい手法を提案する。 提案手法はモデルマージ(LM-Cocktail)の形式で実施され,微調整言語モデルと事前学習ベースモデル,あるいは他ドメインからのピアモデルとを重み付き平均でマージする。 LM-Cocktailは、単純さにもかかわらず驚くほど効果的である:結果のモデルは、ターゲットドメインの優れた能力を維持しながら、一般的なタスクの範囲全体において、強力な経験的性能を達成することができる。 提案手法の有効性を検証したFLAN,MMLU,MTEBなど,一般的なベンチマーク上でLLamaおよびBGEモデルを用いた総合的な実験を行った。 コードとチェックポイントはhttps://github.com/FlagOpen/FlagEmbedding/tree/master/LM_Cocktailで確認できる。

The pre-trained language models are continually fine-tuned to better support downstream applications. However, this operation may result in significant performance degeneration on general tasks beyond the targeted domain. To overcome this problem, we propose a novel method which enables the fine-tuned model to stay resilient in general perspectives. Our method is conducted in the form of model merging (namely LM-Cocktail), where the fine-tuned language model is merged with the pre-trained base model or the peer models from other domains through weighted average. Despite simplicity, LM-Cocktail is surprisingly effective: the resulted model is able to achieve a strong empirical performance in the whole scope of general tasks while preserving a superior capacity in its targeted domain. We conduct comprehensive experiments with LLama and BGE model on popular benchmarks, including FLAN, MMLU, MTEB, whose results validate the efficacy of our proposed method. The code and checkpoints are available at https://github.com/FlagOpen/FlagEmbedding/tree/master/LM_Cocktail.
翻訳日:2023-11-30 10:01:23 公開日:2023-11-27
# 人体運動の高忠実合成のためのアニマタブルな3次元ガウス

Animatable 3D Gaussians for High-fidelity Synthesis of Human Motions ( http://arxiv.org/abs/2311.13404v2 )

ライセンス: Link先を確認
Keyang Ye, Tianjia Shao, Kun Zhou(参考訳) 本稿では,高忠実度自由視人間の動きをリアルタイムに再現する,新しい3次元ガウスモデルを提案する。 既存のNeRF方式と比較して、このモデルはビデオフレーム間のジッタリング問題なく高周波の詳細を合成する能力が優れている。 我々のモデルの中核は、学習可能なコードで各ガウスをアタッチする、新しい3Dガウス表現である。 学習可能なコードは、ガウスの幾何学的変換によって生じる誤った外観を精錬するためのポーズ依存的外観埋め込みとして機能する。 ガウス人に対し,背景干渉を伴わずに前景の人間を学習させるため,人体内でガウス人を明確に拘束する新たなアルファロスをデザインする。 また,人間の関節パラメータを共同で最適化し,外観精度を向上させることを提案する。 アニマタブルな3Dガウスモデルは浅いMPPで学習できるので、新しい人間の動きをリアルタイムで合成することができる(66 fps/avarage)。 実験により,本モデルはNeRF法よりも優れた性能を示した。

We present a novel animatable 3D Gaussian model for rendering high-fidelity free-view human motions in real time. Compared to existing NeRF-based methods, the model owns better capability in synthesizing high-frequency details without the jittering problem across video frames. The core of our model is a novel augmented 3D Gaussian representation, which attaches each Gaussian with a learnable code. The learnable code serves as a pose-dependent appearance embedding for refining the erroneous appearance caused by geometric transformation of Gaussians, based on which an appearance refinement model is learned to produce residual Gaussian properties to match the appearance in target pose. To force the Gaussians to learn the foreground human only without background interference, we further design a novel alpha loss to explicitly constrain the Gaussians within the human body. We also propose to jointly optimize the human joint parameters to improve the appearance accuracy. The animatable 3D Gaussian model can be learned with shallow MLPs, so new human motions can be synthesized in real time (66 fps on avarage). Experiments show that our model has superior performance over NeRF-based methods.
翻訳日:2023-11-30 10:00:49 公開日:2023-11-27
# 大言語モデルは強化学習エージェントの訓練に優れた政策教師である

Large Language Model is a Good Policy Teacher for Training Reinforcement Learning Agents ( http://arxiv.org/abs/2311.13373v2 )

ライセンス: Link先を確認
Zihao Zhou, Bin Hu, Pu Zhang, Chenyang Zhao, Bin Liu(参考訳) 近年,Large Language Models (LLMs) は高レベルな指示を提供することで,複雑な逐次決定課題の解決に有効であることが示された。 しかし, LLMをベースとしたエージェントは, 特定の目標問題の解法における特殊化の欠如により, リアルタイムな動的環境の制約に直面している。 さらに、このようなLCMベースのエージェントの配備は、実用シナリオにおいてコストと時間の両方を消費する。 本稿では,LLMをベースとした教師エージェントからの指示を用いて,小規模の専門学生エージェントを訓練することで,これらの課題に対処する新しい枠組みを提案する。 教師が提供した指導的行動を活用することで、LLMの事前知識を地元の学生モデルに蒸留する。 これにより、学生エージェントを著しく少ないデータで訓練することができる。 さらに、その後の環境フィードバックによるトレーニングにより、学生エージェントは教師の能力を超えることができる。 提案手法の有効性を評価するため,3つの挑戦的ミニグリッド環境について実験を行った。 その結果,本手法はサンプル効率を高め,ベースライン法よりも優れた性能を得ることができた。

Recent studies have shown that Large Language Models (LLMs) can be utilized for solving complex sequential decision-making tasks by providing high-level instructions. However, LLM-based agents face limitations in real-time dynamic environments due to their lack of specialization in solving specific target problems. Moreover, the deployment of such LLM-based agents is both costly and time-consuming in practical scenarios. In this paper, we introduce a novel framework that addresses these challenges by training a smaller scale specialized student agent using instructions from an LLM-based teacher agent. By leveraging guided actions provided by the teachers, the prior knowledge of the LLM is distilled into the local student model. Consequently, the student agent can be trained with significantly less data. Furthermore, subsequent training with environment feedback empowers the student agents to surpass the capabilities of their teachers. We conducted experiments on three challenging MiniGrid environments to evaluate the effectiveness of our framework. The results demonstrate that our approach enhances sample efficiency and achieves superior performance compared to baseline methods.
翻訳日:2023-11-30 10:00:29 公開日:2023-11-27
# MRGazer:個々の空間における機能的磁気共鳴画像からの視線点の復号

MRGazer: Decoding Eye Gaze Points from Functional Magnetic Resonance Imaging in Individual Space ( http://arxiv.org/abs/2311.13372v2 )

ライセンス: Link先を確認
Xiuwen Wu, Rongjie Hu, Jie Liang, Yanming Wang, Bensheng Qiu, Xiaoxiao Wang(参考訳) 視線追跡研究は多くの認知機能を理解するのに有用であることが証明されている。 近年Freyらは、fMRIデータから目の動きを学習するためのエキサイティングなディープラーニング手法を提供している。 しかし、眼球マスクを得るためにfMRIを標準空間に登録する必要があるため、追加のテンプレートが必要となり、時間がかかった。 そこで本稿では,個々の空間におけるfmriから視線視点を予測するmrgazerという枠組みを提案する。 MRGazerは眼球抽出モジュールと残存ネットワークベースの視線予測から構成されていた。 従来の手法と比較して,提案フレームワークはfMRIコレジゲーションステップを省略し,処理プロトコルを単純化し,終端から終端までの視線回帰を実現する。 提案手法は,共同登録法よりも様々な眼球運動課題において優れた性能を達成し,従来の方法(体積あたり約0.3秒)よりも短い時間(体積毎0.02秒)で客観的な結果が得られた。

Eye-tracking research has proven valuable in understanding numerous cognitive functions. Recently, Frey et al. provided an exciting deep learning method for learning eye movements from fMRI data. However, it needed to co-register fMRI into standard space to obtain eyeballs masks, and thus required additional templates and was time consuming. To resolve this issue, in this paper, we propose a framework named MRGazer for predicting eye gaze points from fMRI in individual space. The MRGazer consisted of eyeballs extraction module and a residual network-based eye gaze prediction. Compared to the previous method, the proposed framework skips the fMRI co-registration step, simplifies the processing protocol and achieves end-to-end eye gaze regression. The proposed method achieved superior performance in a variety of eye movement tasks than the co-registration-based method, and delivered objective results within a shorter time (~ 0.02 Seconds for each volume) than prior method (~0.3 Seconds for each volume).
翻訳日:2023-11-30 10:00:13 公開日:2023-11-27
# 包括的 $\boldsymbol{R^2}$-elimination による方程式学習における同定精度の向上とベイズモデル選択

Improved identification accuracy in equation learning via comprehensive $\boldsymbol{R^2}$-elimination and Bayesian model selection ( http://arxiv.org/abs/2311.13265v2 )

ライセンス: Link先を確認
Daniel Nickelsen and Bubacarr Bah(参考訳) 方程式学習の分野では、基底関数辞書から得られる全ての可能な方程式を徹底的に考慮することは不可能である。 この課題に対処する一般的なアプローチとして,スパース回帰とグリージーアルゴリズムが登場している。 しかし、多重線型性の存在はスパース回帰手法の困難を招き、強欲なステップは真の方程式の項を必然的に排除し、識別精度を低下させる。 本稿では,方程式学習における包括性と効率のバランスをとるアプローチを提案する。 段階的回帰から着想を得た我々の手法は、決定係数$R^2$とベイズ模型の証拠$p(\boldsymbol y|\mathcal M)$を新しい方法で組み合わせる。 本手法は,反復ステップ毎にモデル空間をわずかに縮小した包括的探索によって特徴付けられる。 我々のアプローチの2つのフレーバーと双方向のステップワイズ回帰に$p(\boldsymbol y|\mathcal m)$を採用することで、方程式学習のための3つの新しい方法を提案する。 ランダム多項式と力学系を含む3つの広範な数値実験を通して, 4つの最先端手法と2つの標準手法との比較を行った。 その結果, 包括的探索手法は, 識別精度の点で他の手法よりも優れていることがわかった。 特に,本手法の2つ目のフレーバーは,R^2$のみを基準とした効率の良いオーバーフィッティングペナルティを確立する。

In the field of equation learning, exhaustively considering all possible equations derived from a basis function dictionary is infeasible. Sparse regression and greedy algorithms have emerged as popular approaches to tackle this challenge. However, the presence of multicollinearity poses difficulties for sparse regression techniques, and greedy steps may inadvertently exclude terms of the true equation, leading to reduced identification accuracy. In this article, we present an approach that strikes a balance between comprehensiveness and efficiency in equation learning. Inspired by stepwise regression, our approach combines the coefficient of determination, $R^2$, and the Bayesian model evidence, $p(\boldsymbol y|\mathcal M)$, in a novel way. Our procedure is characterized by a comprehensive search with just a minor reduction of the model space at each iteration step. With two flavors of our approach and the adoption of $p(\boldsymbol y|\mathcal M)$ for bi-directional stepwise regression, we present a total of three new avenues for equation learning. Through three extensive numerical experiments involving random polynomials and dynamical systems, we compare our approach against four state-of-the-art methods and two standard approaches. The results demonstrate that our comprehensive search approach surpasses all other methods in terms of identification accuracy. In particular, the second flavor of our approach establishes an efficient overfitting penalty solely based on $R^2$, which achieves highest rates of exact equation recovery.
翻訳日:2023-11-30 09:59:54 公開日:2023-11-27
# デジタルツインの背後にあるバズワードのデミステレーション--新しい総合評価モデル

Demystifying the buzzword behind Digital Twin: a novel generic evaluation model ( http://arxiv.org/abs/2311.12961v2 )

ライセンス: Link先を確認
Zhengyu Liu, Sina Namaki Araghi, Arkopaul Sarkar, Mohamed Hedi Karray(参考訳) デジタルツイン(DT)開発の人気が高まっているにもかかわらず、DTの重要な概念に対する共通理解と定義が欠如している。 将来の作業の障害になる前に、DTの共通理解を構築することで、このギャップに対処する必要があります。 この課題の観点から,本研究の目的は,さまざまなドメインから既存のDTを共通的に評価し,実践前にDT開発者やステークホルダの知識と理解を統合することである。 この目的を達成するため,系統的な文献レビューを行い,25の論文を分析し,既存のDTの特徴を特定し,議論した。 このレビューはdtの評価において不整合とケース固有の次元の選択を示している。 そこで本稿では,デジタルモデルの特徴に着目して,異なる領域にわたるディジタル双生児の成熟度を評価するための4次元評価フレームワークを提案する。 このモデルで特定された4つの次元は、能力、協調性、カバレッジ、ライフサイクルである。 さらに、各次元の重要性を異なるアプリケーション要求に適応させるために、重み機構がモデル内に実装されます。 いくつかのケーススタディは、提案されたモデルを一般、工業、科学のケースで検証するために考案された。

Despite the growing popularity of digital twin (DT) developments, there is a lack of common understanding and definition for important concepts of DT. It is needed to address this gap by building a shared understanding of DT before it becomes an obstacle for future work. With this challenge in view, the objective of our study is to assess the existing DT from various domains on a common basis and to unify the knowledge and understanding of DT developers and stakeholders before practice. To achieve this goal, we conducted a systematic literature review and analyzed 25 selected papers to identify and discuss the characteristics of existing DT's. The review shows an inconsistency and case-specific choices of dimensions in assessing DT. Therefore, this article proposes a four-dimensional evaluation framework to assess the maturity of digital twins across different domains, focusing on the characteristics of digital models. The four identified dimensions in this model are Capability, Cooperability, Coverage, and Lifecycle. Additionally, a weight mechanism is implemented inside the model to adapt the importance of each dimension for different application requirements. Several case studies are devised to validate the proposed model in general, industrial and scientific cases.
翻訳日:2023-11-30 09:58:11 公開日:2023-11-27
# 現代の機械学習のさらなる進歩 - 過度パラメータ化が最適でオーバーフィッティングが最適である場合

More is Better in Modern Machine Learning: when Infinite Overparameterization is Optimal and Overfitting is Obligatory ( http://arxiv.org/abs/2311.14646v2 )

ライセンス: Link先を確認
James B. Simon, Dhruva Karkada, Nikhil Ghosh, Mikhail Belkin(参考訳) 巨大なニューラルネットワークの時代において、より良いという哲学によって経験的な進歩が導かれてきた。 最近のディープラーニングの実践は、より大きなモデルサイズ、より多くのデータ、より多くの計算(トレーニング損失の低減)がパフォーマンスを改善することを繰り返し発見している。 本稿では,これら3つの性質がランダムな特徴(rf)回帰を持ち,最終層のみを訓練した浅層ネットワークと同等のモデル群であることを示すことにより,これらの経験的観察を理論的に裏付ける。 具体的には,リッジペナルティを最適に調整すれば,rf回帰テストのリスクは特徴数とサンプル数の両方で単調に減少することを示した。 特に、これは無限幅RFアーキテクチャが任意の有限幅のアーキテクチャよりも好ましいことを意味する。 次に, パワーロー固有構造を特徴とする多種多様なタスクに対して, ほぼゼロに近いトレーニング損失に対するトレーニングが義務付けられ, ほぼ最適性能は, テストエラーよりもはるかに小さい場合にのみ達成可能であることを示す。 実世界のデータに基づいて、畳み込みニューラルタンジェントカーネルを用いた標準的なコンピュータビジョンタスクは明らかにこのクラスに該当する。 まとめると、我々の結果は、ランダムな特徴モデルにおける過度なパラメータ化、過度な適合、およびより多くのデータの利点について、シンプルで検証可能な物語を語る。

In our era of enormous neural networks, empirical progress has been driven by the philosophy that more is better. Recent deep learning practice has found repeatedly that larger model size, more data, and more computation (resulting in lower training loss) improves performance. In this paper, we give theoretical backing to these empirical observations by showing that these three properties hold in random feature (RF) regression, a class of models equivalent to shallow networks with only the last layer trained. Concretely, we first show that the test risk of RF regression decreases monotonically with both the number of features and the number of samples, provided the ridge penalty is tuned optimally. In particular, this implies that infinite width RF architectures are preferable to those of any finite width. We then proceed to demonstrate that, for a large class of tasks characterized by powerlaw eigenstructure, training to near-zero training loss is obligatory: near-optimal performance can only be achieved when the training error is much smaller than the test error. Grounding our theory in real-world data, we find empirically that standard computer vision tasks with convolutional neural tangent kernels clearly fall into this class. Taken together, our results tell a simple, testable story of the benefits of overparameterization, overfitting, and more data in random feature models.
翻訳日:2023-11-30 09:48:05 公開日:2023-11-27
# Griffon: 大規模言語モデルによる任意の粒度でのすべてのオブジェクト位置の排除

Griffon: Spelling out All Object Locations at Any Granularity with Large Language Models ( http://arxiv.org/abs/2311.14552v2 )

ライセンス: Link先を確認
Yufei Zhan, Yousong Zhu, Zhiyang Chen, Fan Yang, Ming Tang, Jinqiao Wang(参考訳) 任意の粒度で自由形式のテキストに基づいて全てのオブジェクトを検出する能力の再現は、ビジョンランゲージモデルにとって大きな課題である。 現在の大きなビジョン言語モデル(lvlms)は、表現理解タスクを参照するデータのみに依存する、既存の単一のオブジェクトの接地に主に制約されている。 この制限はモデル設計の妥協につながり、ビジュアルエキスパートモデルの導入やカスタマイズされた頭部構造の統合が必要となる。 これらの制約を超えて、我々の研究はLVLMの未解決の可能性を掘り下げ、基本的な物体の知覚に固有の能力を解明し、興味のある物体を正確に識別し見つけられるようにしました。 この知見に基づいて,LVLMの微粒な物体認識と正確な位置認識を統合する能力を完全に解き放つために設計された,新しい言語プロンプトローカライゼーションデータセットを提案する。 さらに重要なことは、$\textbf{Griffon}$は純粋にLVLMベースのベースラインであり、特別なトークンやエキスパートモデル、追加の検出モジュールを導入する必要はないということです。 ローカライゼーションに関連するさまざまなシナリオでデータフォーマットを統合することで、一般的なLVLMと一貫した構造を維持し、よく設計されたパイプラインを通じてエンドツーエンドにトレーニングされる。 包括的実験により、$\textbf{Griffon}$は、微細なRefCOCOシリーズにおける最先端のパフォーマンスを達成するだけでなく、検出ベンチマークMSCOCO上でのFaster RCNNの機能にもアプローチすることを示した。

Replicating the innate human ability to detect all objects based on free-form texts at any granularity remains a formidable challenge for Vision-Language models. Current Large Vision Language Models (LVLMs) are predominantly constrained to grounding a single, pre-existing object, relying solely on data from Referring Expression Comprehension tasks. The limitation leads to a compromise in model design, necessitating the introduction of visual expert models or the integration of customized head structures. Beyond these constraints, our research delves into the untapped potential of LVLMs and uncover their inherent capability for basic object perception, allowing them to accurately identify and locate objects of interest. Building on this insight, we introduce a novel language-prompted localization dataset designed to fully unleash the capabilities of LVLMs in integrating fine-grained object perception with precise location awareness. More importantly, we present $\textbf{Griffon}$, a purely LVLM-based baseline, which does not require the introduction of any special tokens, expert models, or additional detection modules. It simply maintains a consistent structure with popular LVLMs by unifying data formats across various localization-related scenarios and is trained end-to-end through a well-designed pipeline. Comprehensive experiments demonstrate that $\textbf{Griffon}$ not only achieves state-of-the-art performance on the fine-grained RefCOCO series but also approaches the capabilities of the expert model Faster RCNN on the detection benchmark MSCOCO.
翻訳日:2023-11-30 09:47:20 公開日:2023-11-27
# MVControl:制御可能なテキストから3D生成のための多視点拡散への条件制御の追加

MVControl: Adding Conditional Control to Multi-view Diffusion for Controllable Text-to-3D Generation ( http://arxiv.org/abs/2311.14494v2 )

ライセンス: Link先を確認
Zhiqi Li, Yiming Chen, Lingzhe Zhao, Peidong Liu(参考訳) エッジマップなどの入力条件を付加することにより、既存のトレーニング済みのマルチビュー2次元拡散モデルを強化するニューラルネットワークアーキテクチャであるMVControlを導入する。 提案手法により,制御可能なマルチビュー画像と3Dコンテンツの生成が可能となる。 制御可能なマルチビュー画像生成を実現するために、MVDreamをベースモデルとして利用し、エンドツーエンドのタスク固有条件学習のための追加プラグインとして新しいニューラルネットワークモジュールをトレーニングする。 生成した画像の形状とビューを正確に制御するために,入力空間とビュー条件をカプセル化した埋め込みを予測する新しい条件付け機構を革新的に提案し,それをグローバルにネットワークに注入する。 MVControlをトレーニングすると,3次元コンテンツを生成するためにスコア蒸留(SDS)損失に基づく最適化を行うことができる。 従来はトレーニング済みの安定拡散ネットワークと,トレーニング済みのMVControlを参考にしています。 大規模な実験により,本手法は堅牢な一般化を実現し,高品質な3Dコンテンツの制御可能な生成を可能にした。 コードはhttps://github.com/wu-cvgl/mvcontrol/。

We introduce MVControl, a novel neural network architecture that enhances existing pre-trained multi-view 2D diffusion models by incorporating additional input conditions, e.g. edge maps. Our approach enables the generation of controllable multi-view images and view-consistent 3D content. To achieve controllable multi-view image generation, we leverage MVDream as our base model, and train a new neural network module as additional plugin for end-to-end task-specific condition learning. To precisely control the shapes and views of generated images, we innovatively propose a new conditioning mechanism that predicts an embedding encapsulating the input spatial and view conditions, which is then injected to the network globally. Once MVControl is trained, score-distillation (SDS) loss based optimization can be performed to generate 3D content, in which process we propose to use a hybrid diffusion prior. The hybrid prior relies on a pre-trained Stable-Diffusion network and our trained MVControl for additional guidance. Extensive experiments demonstrate that our method achieves robust generalization and enables the controllable generation of high-quality 3D content. Code available at https://github.com/WU-CVGL/MVControl/.
翻訳日:2023-11-30 09:46:48 公開日:2023-11-27
# 非可積分フロケ量子回路におけるロバスト有効基底状態

Robust effective ground state in a nonintegrable Floquet quantum circuit ( http://arxiv.org/abs/2311.16217v1 )

ライセンス: Link先を確認
Tatsuhiko N. Ikeda, Sho Sugiura, Anatoli Polkovnikov(参考訳) 外部周期 (Floquet) ドライブは、任意の初期状態を一般の非可積分量子多体系において特徴のない無限温度状態に導くと考えられている。 しかし、この仮説を証明または否定する数値的あるいは分析的な証拠は非常に限られており、問題は未解決のままである。 そこで本研究では,フロッケ加熱の初期状態依存性を,効率の良い量子回路シミュレータで最大$L=30$までの長さのアイシングチェーンで検討し,その反例を示す: 有効フロッケハミルトニアンの基底状態は,加熱に対して極めて堅牢であり,有限個のフロッケサイクルの後にも,運転期間がしきい値より短い場合に,有限エネルギー密度に留まることができる。 この鋭いエネルギー局在遷移/交差は、一般的な励起状態では起こらない。 我々の発見は、フロッケプロトコルを有限駆動周期で設計する方法であり、初期状態設計によって長寿命、あるいはおそらくは永久フロッケフェーズを実現する。

An external periodic (Floquet) drive is believed to bring any initial state to the featureless infinite temperature state in generic nonintegrable isolated quantum many-body systems. However, numerical or analytical evidence either proving or disproving this hypothesis is very limited and the issue has remained unsettled. Here, we study the initial state dependence of Floquet heating in a nonintegrable kicked Ising chain of length up to $L=30$ with an efficient quantum circuit simulator, showing a possible counterexample: The ground state of the effective Floquet Hamiltonian is exceptionally robust against heating, and could stay at finite energy density even after infinitely many Floquet cycles, if the driving period is shorter than a threshold value. This sharp energy localization transition/crossover does not happen for generic excited states. Our finding paves the way for engineering Floquet protocols with finite driving periods realizing long-lived, or possibly even perpetual, Floquet phases by initial state design.
翻訳日:2023-11-30 09:41:35 公開日:2023-11-27
# 薬物相乗予測のための多表現アライメント付きグラフ畳み込みネットワーク

The Graph Convolutional Network with Multi-representation Alignment for Drug Synergy Prediction ( http://arxiv.org/abs/2311.16207v1 )

ライセンス: Link先を確認
Xinxing Yang, Genke Yang and Jian Chu(参考訳) 薬物の組み合わせは、特定の疾患を同時に治療するための2つ以上の薬物の使用を指す。 現在、複雑な疾患の治療の主流となっている。 単一薬剤と比較して、薬物の組み合わせは効果が良く、毒性や薬剤耐性を阻害する。 ディープラーニングに基づく計算モデルは、複数の薬物の表現と対応する細胞線の特徴を入力として結合し、その出力は、その薬物の組み合わせが細胞線に阻害作用を持つかどうかである。 しかし、複数の表現を連結するこの戦略には、薬物表現と細胞線表現のアライメントは無視され、結果として、埋め込み空間において位置的に反映されない相乗的関係が生じる。 また, 深層学習におけるアライメント測定関数は, 入力タイプの違いから, 薬物相乗予測タスクには適さない。 そこで本研究では,薬物相乗効果を予測するための多表現アライメント(GCNMRA)を用いたグラフ畳み込みネットワークを提案する。 GCNMRAモデルでは,薬物相乗効果予測タスクに適した多表現アライメント関数を設計し,薬物表現と細胞線表現の位置関係が埋め込み空間に反映されるようにした。 また, 薬物表現と細胞線表現のベクトル係数は, 計算結果の精度を向上し, モデル収束を加速すると考えられる。 最後に、上記イノベーティブな要素の有効性とGCNMRAモデルの性能を検証するために、複数の薬物相乗効果データセット上で多くの関連する実験が行われた。

Drug combination refers to the use of two or more drugs to treat a specific disease at the same time. It is currently the mainstream way to treat complex diseases. Compared with single drugs, drug combinations have better efficacy and can better inhibit toxicity and drug resistance. The computational model based on deep learning concatenates the representation of multiple drugs and the corresponding cell line feature as input, and the output is whether the drug combination can have an inhibitory effect on the cell line. However, this strategy of concatenating multiple representations has the following defects: the alignment of drug representation and cell line representation is ignored, resulting in the synergistic relationship not being reflected positionally in the embedding space. Moreover, the alignment measurement function in deep learning cannot be suitable for drug synergy prediction tasks due to differences in input types. Therefore, in this work, we propose a graph convolutional network with multi-representation alignment (GCNMRA) for predicting drug synergy. In the GCNMRA model, we designed a multi-representation alignment function suitable for the drug synergy prediction task so that the positional relationship between drug representations and cell line representation is reflected in the embedding space. In addition, the vector modulus of drug representations and cell line representation is considered to improve the accuracy of calculation results and accelerate model convergence. Finally, many relevant experiments were run on multiple drug synergy datasets to verify the effectiveness of the above innovative elements and the excellence of the GCNMRA model.
翻訳日:2023-11-30 09:41:16 公開日:2023-11-27
# Gated Recurrent Convolutional Neural Network を用いた医用画像の無損失圧縮

Streaming Lossless Volumetric Compression of Medical Images Using Gated Recurrent Convolutional Neural Network ( http://arxiv.org/abs/2311.16200v1 )

ライセンス: Link先を確認
Qianhao Chen, Jietao Chen(参考訳) 深層学習に基づくロスレス圧縮法は、医療用ボリューム画像の圧縮において大きな利点をもたらす。 それにもかかわらず、多くの学習ベースのアルゴリズムは実用性と圧縮性能のトレードオフに遭遇する。 本稿では,他の学習ベースの圧縮フレームワークと比較して,モデル重みのわずか1/4を生かした,ハードウェアフレンドリなストリーミングロスレスボリューム圧縮フレームワークを提案する。 本稿では,様々な畳み込み構造と融合ゲート機構を組み合わせて,ボリューム画像中のスライス間の依存性を捉えるゲート再帰畳み込みニューラルネットワークを提案する。 このような文脈情報に基づいて,エントロピー符号化のための画素ごとの分布を予測できる。 ハードウェア/ソフトウェア共同設計の原則を参考に,フィールドプログラマブルゲートアレイのフレームワークを実装し,リアルタイム性能の向上を実現する。 その結果,本手法は様々な医用画像ベンチマークにおいて,従来の無損失容積圧縮機や最先端の学習に基づく無損失圧縮法よりも優れていた。 さらに,本手法は,堅牢な一般化能力と競争圧縮速度を示す。

Deep learning-based lossless compression methods offer substantial advantages in compressing medical volumetric images. Nevertheless, many learning-based algorithms encounter a trade-off between practicality and compression performance. This paper introduces a hardware-friendly streaming lossless volumetric compression framework, utilizing merely one-thousandth of the model weights compared to other learning-based compression frameworks. We propose a gated recurrent convolutional neural network that combines diverse convolutional structures and fusion gate mechanisms to capture the inter-slice dependencies in volumetric images. Based on such contextual information, we can predict the pixel-by-pixel distribution for entropy coding. Guided by hardware/software co-design principles, we implement the proposed framework on Field Programmable Gate Array to achieve enhanced real-time performance. Extensive experimental results indicate that our method outperforms traditional lossless volumetric compressors and state-of-the-art learning-based lossless compression methods across various medical image benchmarks. Additionally, our method exhibits robust generalization ability and competitive compression speed
翻訳日:2023-11-30 09:40:53 公開日:2023-11-27
# ロボットインタラクションのためのマルチモーダル潜時ダイナミクスの学習

Learning Multimodal Latent Dynamics for Human-Robot Interaction ( http://arxiv.org/abs/2311.16380v1 )

ライセンス: Link先を確認
Vignesh Prasad, Lea Heitlinger, Dorothea Koert, Ruth Stock-Homburg, Jan Peters, Georgia Chalvatzaki(参考訳) 本稿では,人間-人間インタラクション(HHI)から協調した人間-ロボットインタラクション(HRI)を学習する方法を提案する。 本研究では,隠れマルコフモデル(HMM)を変分オートエンコーダの潜在空間として用いて,相互作用するエージェントの結合分布をモデル化するハイブリッド手法を提案する。 hhiから学んだインタラクションダイナミクスを利用してhriを学び、人間の観察からロボットの動きの条件付き生成をトレーニングに取り入れ、より正確なロボット軌道を予測する。 生成したロボットの動きは、インバース・キネマティクス(Inverse Kinematics)により、人間の身体的近接を確実にし、共同空間学習の容易さと正確なタスク空間到達性を組み合わせる。 接触に富む相互作用に対して,HMMセグメンテーションを用いてロボットの剛性を変化させる。 本研究では,ヒューマノイドロボットへのアプローチの有効性をユーザスタディを通じて検証する。 本手法は,2人の人間からのデータに基づいて訓練を受けながら,様々な人間によく一般化する。 ユーザが私たちのメソッドを,より人間らしく,タイムリーで,正確なものと認識し,他のベースラインよりも高い優先度で評価することを発見した。

This article presents a method for learning well-coordinated Human-Robot Interaction (HRI) from Human-Human Interactions (HHI). We devise a hybrid approach using Hidden Markov Models (HMMs) as the latent space priors for a Variational Autoencoder to model a joint distribution over the interacting agents. We leverage the interaction dynamics learned from HHI to learn HRI and incorporate the conditional generation of robot motions from human observations into the training, thereby predicting more accurate robot trajectories. The generated robot motions are further adapted with Inverse Kinematics to ensure the desired physical proximity with a human, combining the ease of joint space learning and accurate task space reachability. For contact-rich interactions, we modulate the robot's stiffness using HMM segmentation for a compliant interaction. We verify the effectiveness of our approach deployed on a Humanoid robot via a user study. Our method generalizes well to various humans despite being trained on data from just two humans. We find that Users perceive our method as more human-like, timely, and accurate and rank our method with a higher degree of preference over other baselines.
翻訳日:2023-11-30 09:24:28 公開日:2023-11-27
# 物理インフォームドニューラルネットワークによる測定不能状態の発見とリチウムイオン電池への応用

Physics-Informed Neural Network for Discovering Systems with Unmeasurable States with Application to Lithium-Ion Batteries ( http://arxiv.org/abs/2311.16374v1 )

ライセンス: Link先を確認
Yuichi Kajiura, Jorge Espin, Dong Zhang(参考訳) 機械学習と物理を組み合わせることは未知のダイナミクスを発見するためのトレンドのアプローチであり、最も集中的に研究されているフレームワークの1つは物理情報ニューラルネットワーク(PINN)である。 しかし、ピンはシステムの制御方程式から生じる複数の損失を同時に最小化することが困難であるため、ネットワークの最適化に失敗することが多い。 リチウムイオン電池(libs)のように、システムの状態が測定できない場合、この問題はさらに深刻になる可能性がある。 本研究では,損失項の少ないPINNをトレーニングするための堅牢な手法を導入し,最適化のためのより複雑なランドスケープを構築する。 特に、各微分方程式からの損失項を持つ代わりに、この方法は、観測されたシステム出力と予測されたシステム出力間の誤差を定量化する損失関数にダイナミクスを組み込む。 これは、既知のダイナミクスを使用してニューラルネットワーク(NN)から予測された状態を数値的に統合し、予測された出力のシーケンスを取得することで達成される。 そのような損失を最小化すると、nn は物理学上の観測と一致する状態を予測できる。 さらに、最適化対象にシステムのパラメータを追加することができる。 本手法の様々なモデリングおよび制御タスクの実行能力を実証するために,バッテリモデルに適用し,その状態とパラメータを同時に推定する。

Combining machine learning with physics is a trending approach for discovering unknown dynamics, and one of the most intensively studied frameworks is the physics-informed neural network (PINN). However, PINN often fails to optimize the network due to its difficulty in concurrently minimizing multiple losses originating from the system's governing equations. This problem can be more serious when the system's states are unmeasurable, like lithium-ion batteries (LiBs). In this work, we introduce a robust method for training PINN that uses fewer loss terms and thus constructs a less complex landscape for optimization. In particular, instead of having loss terms from each differential equation, this method embeds the dynamics into a loss function that quantifies the error between observed and predicted system outputs. This is accomplished by numerically integrating the predicted states from the neural network(NN) using known dynamics and transforming them to obtain a sequence of predicted outputs. Minimizing such a loss optimizes the NN to predict states consistent with observations given the physics. Further, the system's parameters can be added to the optimization targets. To demonstrate the ability of this method to perform various modeling and control tasks, we apply it to a battery model to concurrently estimate its states and parameters.
翻訳日:2023-11-30 09:24:09 公開日:2023-11-27
# システム環境エンタングルメント相転移

System-Environment Entanglement Phase Transitions ( http://arxiv.org/abs/2311.16343v1 )

ライセンス: Link先を確認
Yuto Ashida, Shunsuke Furukawa, Masaki Oshikawa(参考訳) 量子多体系の絡み合いは、長距離特性によって支配される普遍現象を示すことができる。 本研究では,多体系の開放に固有の絡み合いの普遍性と相転移,すなわち関心の系と環境との絡み合いについて検討する。 具体的には,局所的な測定条件下での友長・ラッティンガー液体(TLL)を考察し,その非一様進化を解析し,測定結果を平均化する。 測定後の密度行列の r\'enyi エントロピーによってシステム環境の絡み合いを定量化し、その大きさに依存しない項は普遍的な低エネルギー物理学をコードする。 境界共形場理論(CFT)における普遍項と$g$関数を関連付ける場理論記述を開発し、その値を決定するために再正規化群(RG)法と境界CFT法を用いる。 普遍的な寄与はTLLパラメータ$K$で決定され、絡み合い相転移を示す特異性を示すことができる。 驚くべきことに、いくつかのケースでは、サイズ非依存の貢献は、$g$-理論から期待されているものとは対照的に、測定強度の関数として増加する。 この非慣習的な行動は、抵抗的に回避されたジョセフソン接合の研究で発見された危険なほど無関係な用語に起因していると論じている。 また, これらの結果を, サイト分解測定対象のスピン=$\frac{1}{2}$ XXZ鎖の数値計算により検証した。 ポストセレクションを必要としない超低温気体の実験的実現の可能性について論じる。

Entanglement in quantum many-body systems can exhibit universal phenomena governed by long-distance properties. We study universality and phase transitions of the entanglement inherent to open many-body systems, namely, the entanglement between a system of interest and its environment. Specifically, we consider the Tomonaga-Luttinger liquid (TLL) under a local measurement and analyze its unconditioned nonunitary evolution, where the measurement outcomes are averaged over. We quantify the system-environment entanglement by the R\'enyi entropy of the post-measurement density matrix, whose size-independent term encodes the universal low-energy physics. We develop a field-theoretical description to relate the universal term to the $g$ function in a boundary conformal field theory (CFT), and use the renormalization group (RG) method and the boundary CFT techniques to determine its value. We show that the universal contribution is determined by the TLL parameter $K$ and can exhibit singularity signifying an entanglement phase transition. Surprisingly, in certain cases the size-independent contribution can increase as a function of the measurement strength in contrast to what is na\"ively expected from the $g$-theorem. We argue that this unconventional behavior could be attributed to the dangerously irrelevant term which has been found in studies of the resistively shunted Josephson junction. We also check these results by numerical calculations in the spin-$\frac{1}{2}$ XXZ chain subject to a site-resolved measurement. Possible experimental realization in ultracold gases, which requires no postselections, is discussed.
翻訳日:2023-11-30 09:23:48 公開日:2023-11-27
# 大規模マルチモーダルモデルの連続的指導チューニング

Continual Instruction Tuning for Large Multimodal Models ( http://arxiv.org/abs/2311.16206v1 )

ライセンス: Link先を確認
Jinghan He, Haiyun Guo, Ming Tang, Jinqiao Wang(参考訳) インストラクションチューニングは、人間の意図に従うために大規模なマルチモーダルモデル(LMM)を整列させるアプローチとして広く採用されている。 視覚言語タスクのデータフォーマットを統一し、マルチタスク合同トレーニングを可能にする。 しかし、視覚言語タスクは実践的に常に作成されている。 新しいタスクが到着すると、常にLMMを再トレーニングする代わりに、継続学習は、進化するデータを継続的に効率的に活用するモデルに柔軟性を提供する。 この研究の目的は次の2つの質問を探求することである。 1)LMMは相変わらず連続的指導調律における破滅的な忘れ込みに悩まされているか? 2)既存の3つの連続学習手法は,LMMの連続的指導チューニングに適用できるのか? 上記の問題に対処するために広範な研究が行われている。 まず、この設定で最初のベンチマークを確立し、連続的な命令調整 LMM において破滅的な忘れがまだ観察されていることを示す。 しかし、マルチタスク・ジョイント・インストラクション・チューニングにより、モデルの連続学習能力が向上し、忘れを軽減できる。 第2に,従来の連続学習手法をコンテキストに統合・適応し,さまざまなシナリオにわたるデータリプレイとモデル拡張戦略の有効性を示す。 対照的に、正規化に基づく手法は、複数のタスクで共同で訓練されたモデルでのみうまく機能する。 第3に、視覚言語タスクペア間の相関やダイナミクスを忘れ、タスク類似性インフォームド正規化とLMMの連続的な命令チューニングのためのモデル拡張手法を提案する。 実験の結果,本手法はモデルの性能を一貫して向上させることがわかった。

Instruction tuning is now a widely adopted approach to aligning large multimodal models (LMMs) to follow human intent. It unifies the data format of vision-language tasks, enabling multi-task joint training. However, vision-language tasks are constantly being created in practice. Instead of always re-training LMMs when new tasks arrive, continual learning offers flexibility for models to continually and efficiently exploit the evolving data. This work aims to explore the following two questions: 1) Do LMMs still suffer from catastrophic forgetting in continual instruction tuning? 2) Are the existing three classes of continual learning methods still applicable to the continual instruction tuning of LMMs? An extensive study is conducted to address the above questions. First, we establish the first benchmark in this setting and reveal that catastrophic forgetting is still observed when continually instruction-tuning LMMs. However, the multi-task joint instruction tuning can facilitate the model's continual learning ability and mitigate forgetting. Second, we integrate and adapt classic continual learning methods to our context, demonstrating the efficacy of data replay and model expansion strategies across diverse scenarios. In contrast, regularization-based methods only perform well on models that have been jointly instruction-tuned on multiple tasks. Third, we delve into the correlation and forgetting dynamics between vision-language task pairs and propose task-similarity-informed regularization and model expansion methods for continual instruction tuning of LMMs. Experimental results show that our approach consistently boosts the model's performance.
翻訳日:2023-11-29 21:45:08 公開日:2023-11-27
# Sine-Gordonモデルにおける電荷とエネルギー輸送の動的分離

Dynamical separation of charge and energy transport in the sine-Gordon model ( http://arxiv.org/abs/2311.16234v1 )

ライセンス: Link先を確認
Frederik M{\o}ller, Botond C. Nagy, M\'arton Kormos and G\'abor Tak\'acs(参考訳) シン・ゴルドンモデル(英: sine-gordon model)は、いくつかの1次元ガッピング凝縮体系の低エネルギーな効率的な記述を提供する可積分量子場理論である。 一般化流体力学の理論を用いて、このモデルがトポロジカル電荷対エネルギーの輸送の分離を示すことを示した。 準粒子ダイナミクスの解析により、分離の背後にあるメカニズムは位相荷電キンク/アンチキンク間の反射散乱であることが判明した。 これらの散乱現象の影響は、強い結合と低温において最も顕著であり、準粒子の分布は反射散乱振幅と比較して狭い。 この効果は、トポロジカルチャージに対して特徴的な形状の 'arrowhead' の光円錐をもたらす。

The sine-Gordon model is an integrable quantum field theory that provides the low-energy effective description of several one-dimensional gapped condensed matter systems, including recent realisations with trapped ultra-cold atoms. Employing the theory of Generalized Hydrodynamics, we demonstrate that this model exhibits separation of the transport of topological charge vs. energy. Analysis of the quasiparticle dynamics reveals that the mechanism behind the separation is the reflective scattering between topologically charged kinks/antikinks. The effect of these scattering events is most pronounced at strong coupling and low temperatures, where the distribution of quasiparticles is narrow compared to the reflective scattering amplitude. This effect results in a distinctively shaped ``arrowhead'' light cone for the topological charge.
翻訳日:2023-11-29 21:31:18 公開日:2023-11-27
# 特異値分解による非エルミート多体局在と量子カオスの診断

Diagnosing non-Hermitian Many-Body Localization and Quantum Chaos via Singular Value Decomposition ( http://arxiv.org/abs/2311.16229v1 )

ライセンス: Link先を確認
Federico Roccati, Federico Balducci, Ruth Shir, Aur\'elia Chenu(参考訳) 相互作用する量子スピン鎖の強い局所障害は、非局在の固有モードを局所化された固有状態に変換し、多体局在(mbl)相を引き起こす。 これは異なるスペクトル統計(非局在化位相はカオス的、局所化位相は可積分)を伴う。 孤立系では、局所化とカオスは固有値、固有ベクトル、リアルタイムダイナミクスの間の関係の網を通して定義される。 システムがオープンになると、これらは変わるかもしれない。 ランダムな散逸(無作為性障害を伴わない)が、他の可積分系においてカオス的または局所的な行動を引き起こすかどうかを問う。 この散逸は、ヌル測定で条件付けられたマルコフ力学から効果的に得られる非エルミートハミルトニアンを用いて記述される。 特異値分解(singular value decomposition)と特異値統計(singular-value statistics)、すなわち特異形式因子(singular form factor)、逆参加比(inverse participation ratio)、および特異ベクトルの絡み合いエントロピー(entanglement entropy)を補完する新しい診断ツールの導入により、正の答えを得る。 この方法はランダムな局所散逸を伴うXXZハミルトニアンで示される。

Strong local disorder in interacting quantum spin chains can turn delocalized eigenmodes into localized eigenstates, giving rise to many-body localized (MBL) phases. This is accompanied by distinct spectral statistics: chaotic for the delocalized phase and integrable for the localized phase. In isolated systems, localization and chaos are defined through a web of relations among eigenvalues, eigenvectors, and real-time dynamics. These may change as the system is made open. We ask whether random dissipation (without random disorder) can induce chaotic or localized behavior in an otherwise integrable system. The dissipation is described using non-Hermitian Hamiltonians, which can effectively be obtained from Markovian dynamics conditioned on null measurement. Through the use of the singular value decomposition and the introduction of new diagnostic tools complementing the singular-value statistics, namely, the singular form factor, the inverse participation ratio, and entanglement entropy for singular vectors, we provide a positive answer. Our method is illustrated in an XXZ Hamiltonian with random local dissipation.
翻訳日:2023-11-29 21:31:03 公開日:2023-11-27
# クラス $\mathcal{S}$ の欠陥群 クーロン枝の理論

Defect groups of class $\mathcal{S}$ theories from the Coulomb branch ( http://arxiv.org/abs/2311.16224v1 )

ライセンス: Link先を確認
Elias Riedel G{\aa}rding(参考訳) クラス $\mathcal{S}[A_{N-1}]$ 4d $\mathcal{N} = 2$理論のグローバルな形式をクーロン分岐データからそれらの欠陥群(局所作用素によるスクリーニングまでのライン演算子の電荷)を導出することによって研究する。 具体的には、欠陥群が$(\mathbb{Z}_N)^{2g}$であり、$g$は関連するリーマン面の種数であることを示すために、完全正則句読点の場合、BPS quiver を明示的に構成する。 これは 5d 対称性 TFT における曲面作用素のセクターを決定する。 M-理論の次元的還元からこれらをいかに特定できるかを示す。

We study the global forms of class $\mathcal{S}[A_{N-1}]$ 4d $\mathcal{N} = 2$ theories by deriving their defect groups (charges of line operators up to screening by local operators) from Coulomb branch data. Specifically, we employ an explicit construction of the BPS quiver for the case of full regular punctures to show that the defect group is $(\mathbb{Z}_N)^{2g}$, where $g$ is the genus of the associated Riemann surface. This determines a sector of surface operators in the 5d symmetry TFT. We show how these can also be identified from dimensional reduction of M-theory.
翻訳日:2023-11-29 21:30:42 公開日:2023-11-27
# グラフ状態に基づく量子回路の深度測定パターンへのマッピング

Mapping quantum circuits to shallow-depth measurement patterns based on graph states ( http://arxiv.org/abs/2311.16223v1 )

ライセンス: Link先を確認
Thierry Nicolas Kaldenbach and Matthias Heller(参考訳) 測定ベースの量子コンピューティング(MBQC)のパラダイムは、適応的な測定と決定性を保証する修正によってユニタリ操作が実行される高度に絡み合ったリソース状態から始まる。 これは、より一般的な量子回路モデルとは対照的に、最終測定の前に量子ゲートを介してユニタリ演算が直接実装される。 本研究では、mbqcの概念を回路モデルに組み込んでハイブリッドシミュレーション手法を構築し、任意の量子回路を古典的に効率的にシミュレート可能なクリフォード部分と、安定化器状態と局所的(適応的な)測定命令からなる第2部分、いわゆる標準形式とを量子コンピュータ上で実行可能にする。 さらに、安定化状態とグラフ状態の定式化を併用して、特定のアプリケーションに対する回路深さの大幅な減少を可能にする。 完全可換作用素の群は、プロトコル内の完全並列、すなわち非適応的測定を用いて実装できることを示す。 さらに、量子テレポーテーションを用いて、そのような回路を一定の量子深さで実装する方法についても論じる。 最後に, 量子近似最適化アルゴリズム (qaoa) と変分量子固有解法 (vqe) の2つの応用例について, 本手法の有用性を示す。

The paradigm of measurement-based quantum computing (MBQC) starts from a highly entangled resource state on which unitary operations are executed through adaptive measurements and corrections ensuring determinism. This is set in contrast to the more common quantum circuit model, in which unitary operations are directly implemented through quantum gates prior to final measurements. In this work, we incorporate concepts from MBQC into the circuit model to create a hybrid simulation technique, permitting us to split any quantum circuit into a classically efficiently simulatable Clifford-part and a second part consisting of a stabilizer state and local (adaptive) measurement instructions, a so-called standard form, which is executed on a quantum computer. We further process the stabilizer state with the graph state formalism, thus enabling a significant decrease in circuit depth for certain applications. We show that groups of fully commuting operators can be implemented using fully-parallel, i.e., non-adaptive, measurements within our protocol. In addition, we discuss how such circuits can be implemented in constant quantum depths by employing quantum teleportation. Finally, we demonstrate the utility of our technique on two examples of high practical relevance: the Quantum Approximate Optimization Algorithm (QAOA) and the Variational Quantum Eigensolver (VQE).
翻訳日:2023-11-29 21:30:30 公開日:2023-11-27
# DGR:デコードグラフ再重み付けによる量子誤差補正におけるドリフトと相関ノイズの対応

DGR: Tackling Drifted and Correlated Noise in Quantum Error Correction via Decoding Graph Re-weighting ( http://arxiv.org/abs/2311.16214v1 )

ライセンス: Link先を確認
Hanrui Wang and Pengyu Liu and Yilian Liu and Jiaqi Gu and Jonathan Baker and Frederic T. Chong and Song Han(参考訳) 量子ハードウェアは高いエラー率とノイズに悩まされており、直接動作するアプリケーションは非効率である。 qec(quantum error correction)は、複数のデータキュービットに分散して量子情報をエンコードし、シンドロームキュービットを使用してパリティをチェックする、フォールトトレランスに向けた重要な技術である。 MWPM(Minimum-Weight-Perfect-Matching)は、QECデコーダとして人気があり、シンドロームを入力とし、エラーを推測するシンドローム間のマッチングを見つける。 しかし、MWPMデコーダには2つの最重要課題がある。 第一に、実際の量子システムのノイズは時間とともに漂うことができるため、デコードグラフの初期重み付けと潜在的な不一致があり、論理的エラー率の深刻な性能低下に繋がる。 第二に、MWPMデコーダは独立したエラーに対処するが、2Qデポラライズチャネルのような実際のハードウェアで典型的な相関エラーに遭遇すると不足する。 量子オーバーヘッドのない効率的なデコードグラフエッジ再重み付け戦略であるDGRを提案する。 復号反復におけるマッチングの統計は、実際の量子ハードウェア上のエラーに関する豊富な情報を提供するという洞察を利用する。 デコードされたマッチングにおけるエッジとエッジペアの発生をカウントすることにより、各エッジの最新の確率とそれらの相関関係を統計的に推定することができる。 再重み付けプロセスは、アライメント再重み付けと相関再重み付けの2つの重要なステップを含む。 前者は実際の雑音に合わせて統計に基づいてmwpm重みを更新し、後者はエッジ相関を考慮した重みを調整する。 様々な条件下でのサーフェスコードとハニカムコードに対する広範囲な評価は、DGRが最悪のケースミスマッチで5000倍改善した平均ケースノイズミスマッチにおいて論理誤差率を3.6倍に削減していることを示している。

Quantum hardware suffers from high error rates and noise, which makes directly running applications on them ineffective. Quantum Error Correction (QEC) is a critical technique towards fault tolerance which encodes the quantum information distributively in multiple data qubits and uses syndrome qubits to check parity. Minimum-Weight-Perfect-Matching (MWPM) is a popular QEC decoder that takes the syndromes as input and finds the matchings between syndromes that infer the errors. However, there are two paramount challenges for MWPM decoders. First, as noise in real quantum systems can drift over time, there is a potential misalignment with the decoding graph's initial weights, leading to a severe performance degradation in the logical error rates. Second, while the MWPM decoder addresses independent errors, it falls short when encountering correlated errors typical on real hardware, such as those in the 2Q depolarizing channel. We propose DGR, an efficient decoding graph edge re-weighting strategy with no quantum overhead. It leverages the insight that the statistics of matchings across decoding iterations offer rich information about errors on real quantum hardware. By counting the occurrences of edges and edge pairs in decoded matchings, we can statistically estimate the up-to-date probabilities of each edge and the correlations between them. The reweighting process includes two vital steps: alignment re-weighting and correlation re-weighting. The former updates the MWPM weights based on statistics to align with actual noise, and the latter adjusts the weight considering edge correlations. Extensive evaluations on surface code and honeycomb code under various settings show that DGR reduces the logical error rate by 3.6x on average-case noise mismatch with exceeding 5000x improvement under worst-case mismatch.
翻訳日:2023-11-29 21:30:05 公開日:2023-11-27
# 癌以外のものを見る: 深層学習による多施設における物体局在の検証と3次元セマンティックセマンティックセグメンテーション

Seeing Beyond Cancer: Multi-Institutional Validation of Object Localization and 3D Semantic Segmentation using Deep Learning for Breast MRI ( http://arxiv.org/abs/2311.16213v1 )

ライセンス: Link先を確認
Arda Pekis, Vignesh Kannan, Evandros Kaklamanos, Anu Antony, Snehal Patel, Tyler Earnest(参考訳) 乳癌の臨床管理は、腫瘍の正確な理解と、隣接する組織やランドマーク構造に対する解剖学的文脈に依存する。 この文脈はセマンティックセグメンテーション法によって提供され得るが、以前の研究は腫瘍のみにのみ焦点をあてることに限られており、他の組織の種類は稀である。 対照的に,胸壁,皮膚,脂肪組織,線維腺組織,血管および腫瘍など,乳房のすべての主要組織タイプを,標準的ダイナミックコントラスト造影MRIで正確に分類するために組織間相互作用を利用する手法を提案する。 本手法を先行技術と比較し,複数の組織にまたがる他の組織との競合性を維持しつつ,腫瘍の分画において優れたdiceスコアを得た。 2Dオブジェクト検出器を用いて腫瘍の局所化を行い、2つの3D U-netを用いて腫瘍とその周辺組織を個別に分画し、最終的には解剖学的に可塑性な組織-組織接触をチェックして偽陽性を緩和する。 物体検出モデルは ImageNet と COCO で事前トレーニングを行い, 軸方向および矢状面のMIP(最大強度投影)画像上で動作し, 3次元の腫瘍境界ボックスを構築した。 複数の腫瘍周囲組織を統合することで,乳癌のステージング,予後,手術計画に臨床応用が期待できる。

The clinical management of breast cancer depends on an accurate understanding of the tumor and its anatomical context to adjacent tissues and landmark structures. This context may be provided by semantic segmentation methods; however, previous works have been largely limited to a singular focus on the tumor alone and rarely other tissue types. In contrast, we present a method that exploits tissue-tissue interactions to accurately segment every major tissue type in the breast including: chest wall, skin, adipose tissue, fibroglandular tissue, vasculature and tumor via standard-of-care Dynamic Contrast Enhanced MRI. Comparing our method to prior state-of-the-art, we achieved a superior Dice score on tumor segmentation while maintaining competitive performance on other studied tissues across multiple institutions. Briefly, our method proceeds by localizing the tumor using 2D object detectors, then segmenting the tumor and surrounding tissues independently using two 3D U-nets, and finally integrating these results while mitigating false positives by checking for anatomically plausible tissue-tissue contacts. The object detection models were pre-trained on ImageNet and COCO, and operated on MIP (maximum intensity projection) images in the axial and sagittal planes, establishing a 3D tumor bounding box. By integrating multiple relevant peri-tumoral tissues, our work enables clinical applications in breast cancer staging, prognosis and surgical planning.
翻訳日:2023-11-29 21:29:34 公開日:2023-11-27
# 量子情報スクランブルが境界絡み合い状態に及ぼす影響

Effect of Quantum Information Scrambling on Bound Entangled States ( http://arxiv.org/abs/2311.16209v1 )

ライセンス: Link先を確認
Suprabhat Sinha(参考訳) 物理システムにおける情報の拡散は一般的な現象であるが、情報が量子である場合、情報の追跡、記述、定量化は困難な課題である。 量子情報(qi)スクランブルは物理系上でカオス的に伝播する量子情報を定義する。 本稿では,量子情報(QI)が有界絡み状態に与える影響について述べる。 バウンドエンタングル状態は、ノイズエンタングルメントを持つ特定のタイプのエンタングル状態である。 この種のエンタングル状態の蒸留は非常に困難である。 近年では、これらの状態の有用性が様々な応用で説明されている。 本研究の結果,量子情報(QI)は,有界絡み状態の分離部分における絡み合いを生じさせることがわかった。 量子情報(qi)スクランブルは自由エンタングルメントを減少させるが、量子情報(qi)スクランブルは一定の量の安定な自由エンタングルメントを導入することによって、束縛エンタングル状態の活性化に重要な役割を果たすことが研究から見出される。

Spreading of information in physical systems is a common phenomenon, but when the information is quantum, then tracking, describing, and quantifying the information is a challenging task. Quantum Information (QI) scrambling defines the quantum information propagating chaotically over the physical system. This article describes the effect of Quantum Information (QI) scrambling on bound entangled states. A bound entangled state is a particular type of entangled state that carries noisy entanglement. The distillation of this type of entangled state is very difficult. In recent times, the usefulness of these states has been depicted in different applications. The outcome of this study exhibits that Quantum Information (QI) scrambling develops entanglement in the separable portion of the bound entangled states. Although Quantum Information (QI) scrambling reduces free entanglement, it is also found from the study that Quantum Information (QI) scrambling plays a significant role in activating the bound entangled states by introducing a certain amount of approximately stable free entanglement.
翻訳日:2023-11-29 21:29:08 公開日:2023-11-27
# instructmol: 薬物発見における汎用的・信頼性の高い分子アシスタント構築のためのマルチモーダル統合

InstructMol: Multi-Modal Integration for Building a Versatile and Reliable Molecular Assistant in Drug Discovery ( http://arxiv.org/abs/2311.16208v1 )

ライセンス: Link先を確認
He Cao, Zijing Liu, Xingyu Lu, Yuan Yao, Yu Li(参考訳) 薬物発見における人工知能の急速な進化は、一般化と広範な訓練の課題に遭遇するが、Large Language Models (LLMs) は複雑な分子データとの相互作用の再構築を約束する。 提案するマルチモーダルllmであるinstructmolは、限定されたドメイン固有データと分子およびテキスト情報とをうまく組み合わせた2段階のトレーニング戦略を用いて、命令チューニングアプローチによって分子構造と自然言語を効果的に整合させる。 InstructMolは、薬物発見関連分子タスクの大幅なパフォーマンス向上を示し、LLMを克服し、特殊モデルとのギャップを大幅に減らし、汎用的で信頼性の高い薬物発見アシスタントの堅牢な基盤を確立する。

The rapid evolution of artificial intelligence in drug discovery encounters challenges with generalization and extensive training, yet Large Language Models (LLMs) offer promise in reshaping interactions with complex molecular data. Our novel contribution, InstructMol, a multi-modal LLM, effectively aligns molecular structures with natural language via an instruction-tuning approach, utilizing a two-stage training strategy that adeptly combines limited domain-specific data with molecular and textual information. InstructMol showcases substantial performance improvements in drug discovery-related molecular tasks, surpassing leading LLMs and significantly reducing the gap with specialized models, thereby establishing a robust foundation for a versatile and dependable drug discovery assistant.
翻訳日:2023-11-29 21:28:50 公開日:2023-11-27
# 相互資金ポートフォリオの効率的な更新計画

Planning for the Efficient Updating of Mutual Fund Portfolios ( http://arxiv.org/abs/2311.16204v1 )

ライセンス: Link先を確認
Tom\'as de la Rosa(参考訳) ポートフォリオの再バランスや更新の決定が下されると、現在のポートフォリオをターゲットとするポートフォリオに変更するプロセスには、最適化される可能性のある一連のトランザクションが含まれる。 マネージャがさまざまな種類の楽器の影響に対処しなければならない場合、これは特に重要です。 本稿では,更新実行計画を作成する線形計画法とヒューリスティック探索法を提案する。 提案手法の評価では, 比較した戦略よりもコスト改善が見られた。 モデルは、全体的ポートフォリオ管理が必要な他の現実的なシナリオに容易に拡張することができます。

Once there is a decision of rebalancing or updating a portfolio of funds, the process of changing the current portfolio to the target one, involves a set of transactions that are susceptible of being optimized. This is particularly relevant when managers have to handle the implications of different types of instruments. In this work we present linear programming and heuristic search approaches that produce plans for executing the update. The evaluation of our proposals shows cost improvements over the compared based strategy. The models can be easily extended to other realistic scenarios in which a holistic portfolio management is required
翻訳日:2023-11-29 21:28:36 公開日:2023-11-27
# ChatTraffc:拡散モデルによるテキストからトラフィック生成

ChatTraffc: Text-to-Traffic Generation via Diffusion Model ( http://arxiv.org/abs/2311.16203v1 )

ライセンス: Link先を確認
Chengyang Zhang, Yong Zhang, Qitan Shao, Bo Li, Yisheng Lv, Xinglin Piao, Baocai Yin(参考訳) 交通予測は、インテリジェントトランスポーテーションシステム(ITS)の最も重要な基盤の1つである。 従来のトラフィック予測手法は、過去のトラフィックデータのみに頼ってトラフィックトレンドを予測し、2つの大きな課題に直面している。 1)異常事象に対する感受性。 2)長期予測における性能の低下。 本研究では,交通システムを記述するテキストと生成モデルを組み合わせることで,トラフィック生成に適用し,タスクテキスト・トゥ・トラッフィック・ジェネレーション(TTG)を名付ける方法について検討する。 TTGタスクの鍵となる課題は、交通状況を生成するために、テキストを道路ネットワークの空間構造と交通データを関連付ける方法である。 そこで本研究では,テキスト・トラフィック生成のための最初の拡散モデルChatTrafficを提案する。 合成データと実データとの整合性を保証するため,グラフ畳み込みネットワーク(GCN)を用いて拡散モデルを拡張し,交通データの空間的相関を抽出する。 さらに,TTGタスクのためのテキスト-グラフペアを含む大規模データセットを構築する。 私たちは、リリース済みのデータセットを質的かつ定量的にベンチマークしました。 実験の結果,チャットトラフィックはテキストから現実的な交通状況を生成することができた。 私たちのコードとデータセットはhttps://github.com/chyazhang/chattrafficで利用可能です。

Traffic prediction is one of the most significant foundations in Intelligent Transportation Systems (ITS). Traditional traffic prediction methods rely only on historical traffic data to predict traffic trends and face two main challenges. 1) insensitivity to unusual events. 2) poor performance in long-term prediction. In this work, we explore how generative models combined with text describing the traffic system can be applied for traffic generation and name the task Text-to-Traffic Generation (TTG). The key challenge of the TTG task is how to associate text with the spatial structure of the road network and traffic data for generating traffic situations. To this end, we propose ChatTraffic, the first diffusion model for text-to-traffic generation. To guarantee the consistency between synthetic and real data, we augment a diffusion model with the Graph Convolutional Network (GCN) to extract spatial correlations of traffic data. In addition, we construct a large dataset containing text-traffic pairs for the TTG task. We benchmarked our model qualitatively and quantitatively on the released dataset. The experimental results indicate that ChatTraffic can generate realistic traffic situations from the text. Our code and dataset are available at https://github.com/ChyaZhang/ChatTraffic.
翻訳日:2023-11-29 21:28:28 公開日:2023-11-27
# 事前学習型言語モデルは自動回帰テキスト画像生成に役立たない

Pre-trained Language Models Do Not Help Auto-regressive Text-to-Image Generation ( http://arxiv.org/abs/2311.16201v1 )

ライセンス: Link先を確認
Yuhui Zhang, Brandon McKinzie, Zhe Gan, Vaishaal Shankar, Alexander Toshev(参考訳) vq-vaeのような画像トークンの最近の進歩は、言語モデリングと同様に、自動回帰メソッドを用いた画像間テキスト生成を可能にした。 しかし、これらの手法は様々なダウンストリームタスクへの適応性にもかかわらず、事前学習された言語モデルを活用していない。 本研究では,テキストから画像への自動生成に事前学習した言語モデルを適用し,事前学習された言語モデルが限定的な支援を提供することを示す。 それぞれのモダリティからトークンを分析することによって,2つの説明を行う。 まず,画像トークンがテキストトークンとは大きく異なる意味を持っていることを実証し,事前学習した言語モデルをランダムに初期化したものよりもモデル化に効果的でないことを示す。 第二に、画像テキストデータセットのテキストトークンは、通常の言語モデルの事前学習データに比べて単純すぎるため、言語モデルの能力が壊滅的に低下する。

Recent advances in image tokenizers, such as VQ-VAE, have enabled text-to-image generation using auto-regressive methods, similar to language modeling. However, these methods have yet to leverage pre-trained language models, despite their adaptability to various downstream tasks. In this work, we explore this gap by adapting a pre-trained language model for auto-regressive text-to-image generation, and find that pre-trained language models offer limited help. We provide a two-fold explanation by analyzing tokens from each modality. First, we demonstrate that image tokens possess significantly different semantics compared to text tokens, rendering pre-trained language models no more effective in modeling them than randomly initialized ones. Second, the text tokens in the image-text datasets are too simple compared to normal language model pre-training data, which causes the catastrophic degradation of language models' capability.
翻訳日:2023-11-29 21:28:07 公開日:2023-11-27
# シンフォニー: 同種の点中心球高調波による分子生成

Symphony: Symmetry-Equivariant Point-Centered Spherical Harmonics for Molecule Generation ( http://arxiv.org/abs/2311.16199v1 )

ライセンス: Link先を確認
Ameya Daigavane, Song Kim, Mario Geiger, Tess Smidt(参考訳) 分子断片から分子を反復的に生成する3次元分子ジオメトリーのための,$E(3)$-equivariantの自己回帰生成モデルであるSymphonyを提案する。 分子に対するG-SchNetやG-SphereNetのような既存の自己回帰モデルでは、分子の3次元対称性を尊重するために回転不変の特徴を利用する。 対照的に、Symphonyは高次の$E(3)$-equivariant機能を持つメッセージパッシングを使用する。 これにより、球面調和信号による確率分布の新しい表現により、分子の3次元幾何学を効率的にモデル化することができる。 qm9データセットから小さな分子を正確に生成でき、既存の自己回帰モデルよりも優れており、拡散モデルの性能に近づいている。

We present Symphony, an $E(3)$-equivariant autoregressive generative model for 3D molecular geometries that iteratively builds a molecule from molecular fragments. Existing autoregressive models such as G-SchNet and G-SphereNet for molecules utilize rotationally invariant features to respect the 3D symmetries of molecules. In contrast, Symphony uses message-passing with higher-degree $E(3)$-equivariant features. This allows a novel representation of probability distributions via spherical harmonic signals to efficiently model the 3D geometry of molecules. We show that Symphony is able to accurately generate small molecules from the QM9 dataset, outperforming existing autoregressive models and approaching the performance of diffusion models.
翻訳日:2023-11-29 21:27:50 公開日:2023-11-27
# 適応雑音低減技術と時間畳み込みネットワークに基づく風力発電所の超短時間多段階風速予測

Ultra-short-term multi-step wind speed prediction for wind farms based on adaptive noise reduction technology and temporal convolutional network ( http://arxiv.org/abs/2311.16198v1 )

ライセンス: Link先を確認
Haojian Huang(参考訳) クリーンで再生可能なエネルギーとして、風力発電はエネルギー危機や環境汚染に対処する上で重要な役割を担っている。 しかし、風速の変動性と間欠性は風力の発達を制限している。 そこで本研究では,データノイズ低減技術,時間畳み込みネットワーク(TCN),ゲートリカレントユニット(GRU)に基づく風速予測モデルを提案する。 まず、特異スペクトル分析(SSA)とピアソン相関係数に基づいて、適応データノイズ低減アルゴリズムP-SSAを提案する。 元の風速はSSAによって複数のサブシーケンスに分解され、その後再構築される。 再構成されたシーケンスと元のシーケンスとの間のピアソン相関係数が0.99以上の場合、他のノイズサブシーケンスを消去してデータをデノージングする。 そして、tcnの因果畳み込み及び拡張畳み込みを通じて試料の受容場を拡大し、風速変化の特性を抽出する。 そして、シーケンスの時間特徴情報をGRUにより抽出し、風速を予測し、P-SSA-TCN-GRUの風速シーケンス予測モデルを形成する。 提案モデルは山東省の3つの風力発電所で検証された。 実験の結果,提案モデルの予測性能はtcnに基づく従来のモデルや他のモデルよりも優れており,高精度で安定性の高い風力発電機の風速予測が可能となった。 このモデルの風速予測は、風力発電所の運営と管理を支援するデータとなる可能性を秘めている。 コードはリンクで利用可能です。

As an important clean and renewable kind of energy, wind power plays an important role in coping with energy crisis and environmental pollution. However, the volatility and intermittency of wind speed restrict the development of wind power. To improve the utilization of wind power, this study proposes a new wind speed prediction model based on data noise reduction technology, temporal convolutional network (TCN), and gated recurrent unit (GRU). Firstly, an adaptive data noise reduction algorithm P-SSA is proposed based on singular spectrum analysis (SSA) and Pearson correlation coefficient. The original wind speed is decomposed into multiple subsequences by SSA and then reconstructed. When the Pearson correlation coefficient between the reconstructed sequence and the original sequence is greater than 0.99, other noise subsequences are deleted to complete the data denoising. Then, the receptive field of the samples is expanded through the causal convolution and dilated convolution of TCN, and the characteristics of wind speed change are extracted. Then, the time feature information of the sequence is extracted by GRU, and then the wind speed is predicted to form the wind speed sequence prediction model of P-SSA-TCN-GRU. The proposed model was validated on three wind farms in Shandong Province. The experimental results show that the prediction performance of the proposed model is better than that of the traditional model and other models based on TCN, and the wind speed prediction of wind farms with high precision and strong stability is realized. The wind speed predictions of this model have the potential to become the data that support the operation and management of wind farms. The code is available at link.
翻訳日:2023-11-29 21:27:39 公開日:2023-11-27
# 電気解剖学的マッピングのためのベイズ的枠組みに基づく生成ニューラルネットワークを用いた患者特異的心室モデルの作成

Generation of patient specific cardiac chamber models using generative neural networks under a Bayesian framework for electroanatomical mapping ( http://arxiv.org/abs/2311.16197v1 )

ライセンス: Link先を確認
Sunil Mathew, Jasbir Sra and Daniel B. Rowe(参考訳) 電気解剖学的マッピング(Electroanatomical mapping)は、心臓の電気活動の詳細な3Dマップを作成するために心臓学で用いられる技法である。 心房細動のように不整脈を治療するための心臓アブレーション術の診断、治療計画、リアルタイム指導に有用である。 心臓のct/mriスキャンのライブラリでトレーニングされた確率的機械学習モデルは、電気解剖学的マッピング中に使用でき、患者固有の室内の3dモデルを生成することができる。 ベイズフレームワークに基づく確率的機械学習モデルの使用は、結果の不確実性を定量化し、モデルの解釈可能性の自然な枠組みを提供する。 本稿では,電気解剖学的マッピングにより得られた疎3d点雲データから,心室モデルの表面再構成に対するベイズ的アプローチを提案する。 胸部CT/MRIデータに基づいてトレーニングした確率的グラフィカルモデルを用いて, 心室モデルを生成することにより, 手術時間とX線被曝を低減できることを示す。 ニューラルネットワークがネットワークを訓練するために使用されるセグメント化されたct/mri画像から学習する知見を提供する方法を示し,モデルによって生成された心室モデルに対する説明可能性を示す。

Electroanatomical mapping is a technique used in cardiology to create a detailed 3D map of the electrical activity in the heart. It is useful for diagnosis, treatment planning and real time guidance in cardiac ablation procedures to treat arrhythmias like atrial fibrillation. A probabilistic machine learning model trained on a library of CT/MRI scans of the heart can be used during electroanatomical mapping to generate a patient-specific 3D model of the chamber being mapped. The use of probabilistic machine learning models under a Bayesian framework provides a way to quantify uncertainty in results and provide a natural framework of interpretability of the model. Here we introduce a Bayesian approach to surface reconstruction of cardiac chamber models from a sparse 3D point cloud data acquired during electroanatomical mapping. We show how probabilistic graphical models trained on segmented CT/MRI data can be used to generate cardiac chamber models from few acquired locations thereby reducing procedure time and x-ray exposure. We show how they provide insight into what the neural network learns from the segmented CT/MRI images used to train the network, which provides explainability to the resulting cardiac chamber models generated by the model.
翻訳日:2023-11-29 21:27:12 公開日:2023-11-27
# 学生の熟達か、それともAI偽装か? chatgptの熟練度分析と検出戦略の評価

Student Mastery or AI Deception? Analyzing ChatGPT's Assessment Proficiency and Evaluating Detection Strategies ( http://arxiv.org/abs/2311.16292v1 )

ライセンス: Link先を確認
Kevin Wang, Seth Akins, Abdallah Mohammed, Ramon Lawrence(参考訳) ChatGPTのような生成AIシステムは、学習と評価に破壊的な影響を及ぼす。 コンピュータサイエンスは、伝統的に課題を用いて開発された問題解決とプログラミングのスキルを開発するための実践を必要とする。 生成aiは、高い精度でこれらの課題を完遂する能力を持ち、学術的完全性の問題や望ましい学習結果が得られない学生の可能性を劇的に増加させる。 本研究では,ChatGPTの性能を3つのコース(CS1,CS2,データベース)で評価する。 ChatGPTは、ほとんどすべての導入アセスメントを完璧に完了します。 MOSSやJPlag(類似度指標に基づく)やGPTzero(AI検出)といった既存の検出方法は、AIソリューションの識別に成功している。 学生とAIのコードを区別するためにヒューリスティックスを用いたインストラクターやアシスタントの評価は、その検出が十分に正確でないことを示している。 これらの観察は、評価の適応と検出方法の改善の必要性を強調している。

Generative AI systems such as ChatGPT have a disruptive effect on learning and assessment. Computer science requires practice to develop skills in problem solving and programming that are traditionally developed using assignments. Generative AI has the capability of completing these assignments for students with high accuracy, which dramatically increases the potential for academic integrity issues and students not achieving desired learning outcomes. This work investigates the performance of ChatGPT by evaluating it across three courses (CS1,CS2,databases). ChatGPT completes almost all introductory assessments perfectly. Existing detection methods, such as MOSS and JPlag (based on similarity metrics) and GPTzero (AI detection), have mixed success in identifying AI solutions. Evaluating instructors and teaching assistants using heuristics to distinguish between student and AI code shows that their detection is not sufficiently accurate. These observations emphasize the need for adapting assessments and improved detection methods.
翻訳日:2023-11-29 21:19:00 公開日:2023-11-27
# 位相過渡キャンセルのためのフレーム変更手法

Frame Change Technique for Phase Transient Cancellation ( http://arxiv.org/abs/2311.16291v1 )

ライセンス: Link先を確認
Andrew Stasiuk, Pai Peng, Garrett Heller, Paola Cappellaro(参考訳) 複雑な量子力学系の精密制御は、量子シミュレーションから量子計算まで幅広い応用を解き放つことができる。 強く相互作用する多体系の制御は、しばしば外部制御を介してハミルトン原始体を高速に切り替えることによって達成されるフロケ・ハミルトン工学に依存する。 例えば、固体NMRシステムでは、自然ハミルトニアンを制御パルスで変調することで量子シミュレーションを行う。 Floquet加熱誤差は、インターパルス遅延$\delta t$でスケールするので、$\delta t$をできるだけ短く保ち、制御パルスを短寿命かつ高出力にするのが好ましい。 さらに、高出力パルスは、パルスの期間中に発生する望ましくない進化を最小化するのに役立つ。 しかし、そのようなパルスは一元的誤差の一種である可視的な位相遷移制御誤差をもたらす。 本稿では,誤差を診断し,その大きさを校正し,任意の位相で$\pi/2$-pulsesで補正する能力について詳述する。 そこで我々は,「フレーム変更技術」と呼ばれる手法を用いて,位相過渡誤差の補正によって得られた改善を,様々な実験的な設定で示す。 補正機構が実際の制御オーバーヘッドを伴わないことを考慮し、これらの位相過渡制御誤差に対して共振プローブをチェックし、フレーム交換法を用いて補正することを推奨する。

The precise control of complex quantum mechanical systems can unlock applications ranging from quantum simulation to quantum computation. Controlling strongly interacting many-body systems often relies on Floquet Hamiltonian engineering that is achieved by fast switching between Hamiltonian primitives via external control. For example, in our solid-state NMR system, we perform quantum simulation by modulating the natural Hamiltonian with control pulses. As the Floquet heating errors scale with the interpulse delay, $\delta t$, it is favorable to keep $\delta t$ as short as possible, forcing our control pulses to be short duration and high power. Additionally, high-power pulses help to minimize undesirable evolution from occurring during the duration of the pulse. However, such pulses introduce an appreciable phase-transient control error, a form of unitary error. In this work, we detail our ability to diagnose the error, calibrate its magnitude, and correct it for $\pi/2$-pulses of arbitrary phase. We demonstrate the improvements gained by correcting for the phase transient error, using a method which we call the ``frame-change technique'', in a variety of experimental settings of interest. Given that the correction mechanism adds no real control overhead, we recommend that any resonance probe be checked for these phase transient control errors, and correct them using the frame-change technique.
翻訳日:2023-11-29 21:18:45 公開日:2023-11-27
# 微分方程式を用いた潜在動的モデリングへの統計的アプローチ

A statistical approach to latent dynamic modeling with differential equations ( http://arxiv.org/abs/2311.16286v1 )

ライセンス: Link先を確認
Maren Hackenberg, Astrid Pechmann, Clemens Kreutz, Janbernd Kirschner, Harald Binder(参考訳) 通常の微分方程式(ODE)はプロセスの時間的局所的な変化の力学モデルを提供することができる。 ODEはシステムモデリングで人気があるが、臨床環境では、縦コホートデータの統計的モデリングでは確立されていない。 しかし、局所的な変化のモデル化は、その現在の状態から、個人のさらなる特性によってodeパラメータが知らせられるようになれば、コホート内の個人の軌道をすぐに評価する上でも魅力的である。 しかしながら、これまでのいくつかのハードルは、回帰ベースの関数適合アプローチと比較して、ODEの使用を制限する。 コホートデータの潜在的に高いレベルのノイズは、ODEソリューションの形状が初期値に大きく依存するため、ODEに有害である可能性がある。 さらに、多くの変数がそのような問題に乗じて、ODEを扱うのが難しいかもしれない。 そこで我々は,複数の局所 ode 解を得るための初期値として各観測値を時間的に利用し,基礎となるダイナミクスの組合せ推定器を構築することを提案する。 ニューラルネットワークは、潜在的に多くの変数から動的モデリングのための低次元潜在空間を得るのに使われ、ベースライン変数から患者固有のODEパラメータを得るのに使用される。 動的モデルと潜在空間の同時同定は、最近開発された微分可能プログラミング技術によって実現されている。 脊髄筋萎縮症患者に対して,提案手法を応用し,それに対応するシミュレーション実験を行った。 特に、任意の時点における健康状態の局所的変化のモデリングは、グローバル回帰から得られる関数の解釈とは対照的である。 これは一般的に、異なるアプリケーション設定が異なるモデリング戦略をどのように要求するかを強調します。

Ordinary differential equations (ODEs) can provide mechanistic models of temporally local changes of processes, where parameters are often informed by external knowledge. While ODEs are popular in systems modeling, they are less established for statistical modeling of longitudinal cohort data, e.g., in a clinical setting. Yet, modeling of local changes could also be attractive for assessing the trajectory of an individual in a cohort in the immediate future given its current status, where ODE parameters could be informed by further characteristics of the individual. However, several hurdles so far limit such use of ODEs, as compared to regression-based function fitting approaches. The potentially higher level of noise in cohort data might be detrimental to ODEs, as the shape of the ODE solution heavily depends on the initial value. In addition, larger numbers of variables multiply such problems and might be difficult to handle for ODEs. To address this, we propose to use each observation in the course of time as the initial value to obtain multiple local ODE solutions and build a combined estimator of the underlying dynamics. Neural networks are used for obtaining a low-dimensional latent space for dynamic modeling from a potentially large number of variables, and for obtaining patient-specific ODE parameters from baseline variables. Simultaneous identification of dynamic models and of a latent space is enabled by recently developed differentiable programming techniques. We illustrate the proposed approach in an application with spinal muscular atrophy patients and a corresponding simulation study. In particular, modeling of local changes in health status at any point in time is contrasted to the interpretation of functions obtained from a global regression. This more generally highlights how different application settings might demand different modeling strategies.
翻訳日:2023-11-29 21:18:22 公開日:2023-11-27
# VehicleGAN: 車両再識別のためのPair-flexible Poseガイド画像合成

VehicleGAN: Pair-flexible Pose Guided Image Synthesis for Vehicle Re-identification ( http://arxiv.org/abs/2311.16278v1 )

ライセンス: Link先を確認
Baolu Li, Ping Liu, Lan Fu, Jinlong Li, Jianwu Fang, Zhigang Xu, Hongkai Yu(参考訳) 車両再識別(re-id)は過去10年間に広く研究されてきたが、様々なポーズの車両の特徴部分空間における異なるカメラの視野角が混乱を招き、現実世界の車両再識別モデルにとって依然として困難である。 そこで本研究では,多種多様なポーズの車両を統一されたターゲットポーズに投影し,特徴の識別を高めることを目的として,多数の車両イメージを対象ポーズに合成することを提案する。 異なる交通監視カメラにおける同一車両のペア化データが現実世界では利用できないことを考慮し, 幾何学的3次元モデルの知識を必要とせず, 教師なしと教師なしの両方で機能する, 車両用リレーIDのためのPair-flexible Pose Guided Image Synthesis法を提案する。 実データと合成データとの特徴分布の違いから,データレベルの融合(すなわちデータ拡張)による従来のメトリック学習に基づくre-idモデルの訓練は満足できないため,実データと合成データとの効果的な機能レベルの融合による新しい共同メトリック学習(jml)を提案する。 公開 veri-776 と vehicleid データセットにおける集中的な実験結果から,提案する vehiclegan と jml の精度と有効性が証明された。

Vehicle Re-identification (Re-ID) has been broadly studied in the last decade; however, the different camera view angle leading to confused discrimination in the feature subspace for the vehicles of various poses, is still challenging for the Vehicle Re-ID models in the real world. To promote the Vehicle Re-ID models, this paper proposes to synthesize a large number of vehicle images in the target pose, whose idea is to project the vehicles of diverse poses into the unified target pose so as to enhance feature discrimination. Considering that the paired data of the same vehicles in different traffic surveillance cameras might be not available in the real world, we propose the first Pair-flexible Pose Guided Image Synthesis method for Vehicle Re-ID, named as VehicleGAN in this paper, which works for both supervised and unsupervised settings without the knowledge of geometric 3D models. Because of the feature distribution difference between real and synthetic data, simply training a traditional metric learning based Re-ID model with data-level fusion (i.e., data augmentation) is not satisfactory, therefore we propose a new Joint Metric Learning (JML) via effective feature-level fusion from both real and synthetic data. Intensive experimental results on the public VeRi-776 and VehicleID datasets prove the accuracy and effectiveness of our proposed VehicleGAN and JML.
翻訳日:2023-11-29 21:17:56 公開日:2023-11-27
# グラフニューラルネットワークに基づく強化学習を用いた組合せ最適化のためのQUBO型ハミルトン型損失関数

A Graph Neural Network-Based QUBO-Formulated Hamiltonian-Inspired Loss Function for Combinatorial Optimization using Reinforcement Learning ( http://arxiv.org/abs/2311.16277v1 )

ライセンス: Link先を確認
Redwan Ahmed Rizvee, Raheeb Hasan and Md. Mosaddek Khan(参考訳) Quadratic Unconstrained Binary Optimization (QUBO) は、NP-hard Combinatorial Optimization problem (CO) をバイナリ変数の形でモデル化する一般的な手法である。 イジングハミルトニアンはシステムのエネルギー関数のモデル化に使用される。 QUBO to Ising Hamiltonian は量子最適化アルゴリズムによって様々な正準最適化問題を解く手法であると考えられている。 近年,グラフニューラルネットワーク(GNN)アーキテクチャに基づくグラフ上のCO問題に対処する汎用フレームワークPI-GNNが提案されている。 彼らは、GNNを直接最適化したQUBO形式のハミルトン型損失関数を導入した。 PI-GNNは非常にスケーラブルであるが、問題固有のアルゴリズムと比較して満足度制約の数が大幅に減少し、グラフ密度の増大とともにより顕著になる。 本稿では,それに関連する行動パターンを特定し,その性能向上のための戦略を考案する。 別の文献群では、前述のNPハード問題を問題固有報酬関数を用いて解くために強化学習(RL)を用いる。 この研究では、RL-ベースソリューションとQUBO-形式ハミルトニアンの間の橋渡しにも焦点をあてる。 我々は、QUBO形式ハミルトンの適合性を、報酬の形でRLに基づくパラダイムにおける一般的な報酬関数として定式化し、実証的に評価する。 さらに,GNNを用いた新しいモンティカルロ木探索手法を導入し,学習中のノードラベルの手動摂動によるガイド付き探索を行う。 提案手法を実証的に評価し,PI-GNNと比較して最大44%の制約違反数の改善が見られた。

Quadratic Unconstrained Binary Optimization (QUBO) is a generic technique to model various NP-hard Combinatorial Optimization problems (CO) in the form of binary variables. Ising Hamiltonian is used to model the energy function of a system. QUBO to Ising Hamiltonian is regarded as a technique to solve various canonical optimization problems through quantum optimization algorithms. Recently, PI-GNN, a generic framework, has been proposed to address CO problems over graphs based on Graph Neural Network (GNN) architecture. They introduced a generic QUBO-formulated Hamiltonian-inspired loss function that was directly optimized using GNN. PI-GNN is highly scalable but there lies a noticeable decrease in the number of satisfied constraints when compared to problem-specific algorithms and becomes more pronounced with increased graph densities. Here, We identify a behavioral pattern related to it and devise strategies to improve its performance. Another group of literature uses Reinforcement learning (RL) to solve the aforementioned NP-hard problems using problem-specific reward functions. In this work, we also focus on creating a bridge between the RL-based solutions and the QUBO-formulated Hamiltonian. We formulate and empirically evaluate the compatibility of the QUBO-formulated Hamiltonian as the generic reward function in the RL-based paradigm in the form of rewards. Furthermore, we also introduce a novel Monty Carlo Tree Search-based strategy with GNN where we apply a guided search through manual perturbation of node labels during training. We empirically evaluated our methods and observed up to 44% improvement in the number of constraint violations compared to the PI-GNN.
翻訳日:2023-11-29 21:17:31 公開日:2023-11-27
# 大規模言語モデルのデータ処理への応用:情報分割・更新への革新的アプローチ

Applications of Large Language Models in Data Processing: Innovative Approaches to Segmenting and Renewing Information ( http://arxiv.org/abs/2311.16267v1 )

ライセンス: Link先を確認
Yu-Chen Lin, Akhilesh Kumar, Wen-Liang Zhang, Norman Chang, Muhammad Zakir, Rucha Apte, Chao Wang, Jyh-Shing Roger Jang(参考訳) 本稿では,データセグメンテーションや更新にLarge Language Models (LLMs) を用いることや,迅速な調整によるLLMにおける深い思考の促進など,特定ドメインアプリケーションにおけるコード生成の効果的な方法を検討する。 実際のプロダクトを例として、ユーザマニュアルやAPIドキュメント、その他のデータを提供しています。 この論文で議論されているアイデアは、それらのデータを意味ベクトルに変換し、真の位置を反映するのに役立つ。 その後、ユーザ要求をベクトルに変換して最も関連性の高いコンテンツを検索し、様々なプロンプト技術を用いて、単純・中複雑タスクで約70%の精度で処理する。 この観点から特定ドメインコード生成の有効性を高めるのは,本論文が初めてである。 さらに、llama2ベースの微調整を用いて限られた数からより多くのスクリプトを生成し、プロのドメインコード生成の有効性をテストする実験を行った。 これは挑戦的で有望な分野であり、一度達成すれば、複数の産業でLLM開発が進展するだけでなく、LLMが新たな知識を効果的に理解し、学べるようになるでしょう。

Our paper investigates effective methods for code generation in "specific-domain" applications, including the use of Large Language Models (LLMs) for data segmentation and renewal, as well as stimulating deeper thinking in LLMs through prompt adjustments. Using a real company product as an example, we provide user manuals, API documentation, and other data. The ideas discussed in this paper help segment and then convert this data into semantic vectors to better reflect their true positioning. Subsequently, user requirements are transformed into vectors to retrieve the most relevant content, achieving about 70% accuracy in simple to medium-complexity tasks through various prompt techniques. This paper is the first to enhance specific-domain code generation effectiveness from this perspective. Additionally, we experiment with generating more scripts from a limited number using llama2-based fine-tuning to test its effectiveness in professional domain code generation. This is a challenging and promising field, and once achieved, it will not only lead to breakthroughs in LLM development across multiple industries but also enable LLMs to understand and learn any new knowledge effectively.
翻訳日:2023-11-29 21:17:06 公開日:2023-11-27
# 複雑な量子ネットワーク:トピックレビュー

Complex Quantum Networks: a Topical Review ( http://arxiv.org/abs/2311.16265v1 )

ライセンス: Link先を確認
Johannes Nokkala, Jyrki Piilo, and Ginestra Bianconi(参考訳) これは量子物理学にとってエキサイティングな時代であり、新しい量子技術はすぐに前例のないレベルでコンピューティングを変革すると予想されている。 同時にネットワーク科学は、大きな相互作用するシステムの複雑さを捉えるための理想的な数学的および計算の枠組みを証明している。 ここでは、複雑な量子ネットワークの上昇場を包括的かつタイムリーにレビューする。 一方、この課題は複雑なネットワークの可能性を活用し、量子アルゴリズムと量子技術を強化し拡張するための設計原則を提供するための鍵である。 一方、この主題は、重要な複雑なネットワーク特性を推測する新しい世代の量子アルゴリズムを提供することができる。 この分野は、ハミルトニアンとその相図を形成するためのネットワークの設計、多体量子システムの複雑化とネットワーク理論、量子物理学と量子アルゴリズムが新しいネットワーク特性と相転移を予測する方法、および量子通信ネットワークにおけるアーキテクチャ、トポロジ、パフォーマンスの間の相互作用を研究すること、といった基本的な研究課題を特徴としている。 本レビューは,ネットワークの量子物理学者と量子の量子論者の両方を対象とした自己完結型プレゼンテーションにおいて,これらの多面的側面を網羅する。 我々は、ネットワーク一般化、量子応用、量子一般化、量子拡張の4つの研究線に沿って量子複雑ネットワークの分野を統合するフレームワークを提供する。 最後に、これらの研究ライン間のつながりに注目し、量子物理学とネットワークサイエンスのインターフェイスにおいて新たな機会と新たな発見をもたらす可能性がある。

These are exciting times for quantum physics as new quantum technologies are expected to soon transform computing at an unprecedented level. Simultaneously network science is flourishing proving an ideal mathematical and computational framework to capture the complexity of large interacting systems. Here we provide a comprehensive and timely review of the rising field of complex quantum networks. On one side, this subject is key to harness the potential of complex networks in order to provide design principles to boost and enhance quantum algorithms and quantum technologies. On the other side this subject can provide a new generation of quantum algorithms to infer significant complex network properties. The field features fundamental research questions as diverse as designing networks to shape Hamiltonians and their corresponding phase diagram, taming the complexity of many-body quantum systems with network theory, revealing how quantum physics and quantum algorithms can predict novel network properties and phase transitions, and studying the interplay between architecture, topology and performance in quantum communication networks. Our review covers all of these multifaceted aspects in a self-contained presentation aimed both at network-curious quantum physicists and at quantum-curious network theorists. We provide a framework that unifies the field of quantum complex networks along four main research lines: network-generalized, quantum-applied, quantum-generalized and quantum-enhanced. Finally we draw attention to the connections between these research lines, which can lead to new opportunities and new discoveries at the interface between quantum physics and network science.
翻訳日:2023-11-29 21:16:45 公開日:2023-11-27
# relvae: 数発視覚関係検出のための生成前訓練

RelVAE: Generative Pretraining for few-shot Visual Relationship Detection ( http://arxiv.org/abs/2311.16261v1 )

ライセンス: Link先を確認
Sotiris Karapiperis, Markos Diomataris, Vassilis Pitsikalis(参考訳) 視覚関係は複雑で多様で、人間が世界を知覚する上で重要な役割を担っている。 その複雑さの結果、視覚関係のための高品質で多様な大規模データセットはいまだに存在しない。 このデータバリアを克服するために、我々は、これまでコミュニティによって無視されてきた、数発の視覚的関係検出(VRD)の問題に焦点を当てる。 本研究は,注釈付き関係を必要としない数ショット述語分類のための最初の事前学習法を提案する。 本研究では,潜在空間内における関係の意味的,視覚的,空間的情報の変動を捉え,その表現を活用し,効率的な少数ショット分類を実現する生成モデルを導入する。 我々は,VG200とVRDのデータセットにおいて,モデルがベースラインより優れているような数ショットのトレーニング分割を構築し,定量的な実験を行った。 最後に、様々な定性実験を行うことでモデルの判断を解釈しようとする。

Visual relations are complex, multimodal concepts that play an important role in the way humans perceive the world. As a result of their complexity, high-quality, diverse and large scale datasets for visual relations are still absent. In an attempt to overcome this data barrier, we choose to focus on the problem of few-shot Visual Relationship Detection (VRD), a setting that has been so far neglected by the community. In this work we present the first pretraining method for few-shot predicate classification that does not require any annotated relations. We achieve this by introducing a generative model that is able to capture the variation of semantic, visual and spatial information of relations inside a latent space and later exploiting its representations in order to achieve efficient few-shot classification. We construct few-shot training splits and show quantitative experiments on VG200 and VRD datasets where our model outperforms the baselines. Lastly we attempt to interpret the decisions of the model by conducting various qualitative experiments.
翻訳日:2023-11-29 21:16:16 公開日:2023-11-27
# 左コールナー変換の探索

An Exploration of Left-Corner Transformations ( http://arxiv.org/abs/2311.16258v1 )

ライセンス: Link先を確認
Andreas Opedal, Eleftheria Tsipidi, Tiago Pimentel, Ryan Cotterell, Tim Vieira(参考訳) 左コーナー変換(Rosenkrantz and Lewis, 1970)は文脈自由文法から左再帰を取り除くために用いられる。 本稿では, セミリング重み付き生産規則をサポートし, 左隅を移動可能な細粒度制御を実現するために, 先行左角変換を一般化する。 我々の一般化左コーン変換(GLCT)は、元々論理プログラミングのための左コーン変換と投機変換(Eisner and Blatz, 2007)を統合したものである。 我々の新しい変換と推測は等価な重み付け言語を定義する。 しかし、それらの導出木は重要な方法で構造的に異なる: glctは左再帰を右再帰に置き換え、推測はしない。 また,GLCTの出力,投機,原文法の形式的関係について,いくつかの技術的結果を提供する。 最後に,9言語文法の左再帰除去におけるGLCTの有効性を実証的に検討した。

The left-corner transformation (Rosenkrantz and Lewis, 1970) is used to remove left recursion from context-free grammars, which is an important step towards making the grammar parsable top-down with simple techniques. This paper generalizes prior left-corner transformations to support semiring-weighted production rules and to provide finer-grained control over which left corners may be moved. Our generalized left-corner transformation (GLCT) arose from unifying the left-corner transformation and speculation transformation (Eisner and Blatz, 2007), originally for logic programming. Our new transformation and speculation define equivalent weighted languages. Yet, their derivation trees are structurally different in an important way: GLCT replaces left recursion with right recursion, and speculation does not. We also provide several technical results regarding the formal relationships between the outputs of GLCT, speculation, and the original grammar. Lastly, we empirically investigate the efficiency of GLCT for left-recursion elimination from grammars of nine languages.
翻訳日:2023-11-29 21:16:00 公開日:2023-11-27
# 原子線回路の新たな実装の展望

Perspective on new implementations of atomtronic circuits ( http://arxiv.org/abs/2311.16257v1 )

ライセンス: Link先を確認
Juan Polo, Wayne J. Chetcuti, Enrico C. Domanti, Philip Kitson, Andreas Osterloh, Francesco Perciavalle, Vijay Pal Singh, Luigi Amico(参考訳) 本稿では、単純なボソニックまたはフェルミオン冷却原子物質波電流を超えた量子技術プラットフォームにおける原子トロニクス回路の展望について述べる。 特に私たちは (i)多成分量子流体を用いた物質波スキーム (II)物質というよりむしろ流れが励起によって起こる原子線回路の根本的に新しい概念を提供するリドベルク原子のネットワーク。 三 複合物質波回路-標準解を超える原子回路を研究し、統合物質波ネットワークのための新しいスキームを提供するために使用できるキャビティシステム。 私たちはまた、これらのシステムの駆動がatomtronicsの新しい経路をどのように開くかをスケッチします。

In this article, we provide perspectives for atomtronics circuits on quantum technology platforms beyond simple bosonic or fermionic cold atom matter-wave currents. Specifically, we consider (i) matter-wave schemes with multi-component quantum fluids; (ii) networks of Rydberg atoms that provide a radically new concept of atomtronics circuits in which the flow, rather than in terms of matter, occurs through excitations; (iii) hybrid matter-wave circuits - cavities systems that can be used to study atomtronic circuits beyond the standard solutions and provide new schemes for integrated matter-wave networks. We also sketch how driving these systems can open new pathways for atomtronics.
翻訳日:2023-11-29 21:15:45 公開日:2023-11-27
# テキスト・画像検索・生成のための視覚・言語モデルからのNSFW概念の除去

Removing NSFW Concepts from Vision-and-Language Models for Text-to-Image Retrieval and Generation ( http://arxiv.org/abs/2311.16254v1 )

ライセンス: Link先を確認
Samuele Poppi, Tobia Poppi, Federico Cocchi, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara(参考訳) CLIPのようなビジョン・アンド・ランゲージモデルは、幅広いタスクで顕著な効果を示している。 しかし、これらのモデルは通常、Webスケールのデータに基づいてトレーニングされ、不適切なコンテンツを導入し、安全で偏りのない振る舞いの開発につながる。 これによって、センシティブで信頼性の高いコンテキストで適用性が損なわれ、採用に重大な懸念がもたらされる可能性がある。 これらの制約を克服するため,我々は,非セーフな作業概念に対する感度をなくし,視覚・言語モデルの安全性を高める手法を提案する。 安全な文と安全でない文を変換し、手作業で計算した100組のペアから微調整する大規模言語モデルからこれを蒸留する方法を示す。 検索とテキスト対画像生成のための埋め込み空間を広範囲に実験し,本モデルが事前学習した画像生成装置でも適切に利用できることを示す。 ソースコードとトレーニングされたモデルは、https://github.com/aimagelab/safe-clip.com/で利用可能です。

Vision-and-Language models such as CLIP have demonstrated remarkable effectiveness across a wide range of tasks. However, these models are typically trained on web-scale data, which can introduce inappropriate content and lead to the development of unsafe and biased behavior. This, in turn, hampers their applicability in sensitive and trustworthy contexts and could raise significant concern in their adoption. To overcome these limitations, we introduce a methodology to make Vision-and-Language models safer by removing their sensitivity to not-safe-for-work concepts. We show how this can be done by distilling from a large language model which converts between safe and unsafe sentences and which is fine-tuned starting from just 100 manually-curated pairs. We conduct extensive experiments on the resulting embedding space for both retrieval and text-to-image generation, where we show that our model can also be properly employed with pre-trained image generators. Our source code and trained models are available at: https://github.com/aimagelab/safe-clip.
翻訳日:2023-11-29 21:15:35 公開日:2023-11-27
# ブラックホール、空洞、点滅する島々

Black Holes, Cavities and Blinking Islands ( http://arxiv.org/abs/2311.16244v1 )

ライセンス: Link先を確認
Dmitry S. Ageev, Irina Ya. Aref'eva and Timofei A. Rusalev(参考訳) ブラックホールを空洞に入れることは、異なる重力スケールの研究の自然な方法であり、熱力学的不安定性と重力有効理論に関する問題である。 本稿では,空洞内のシュワルツシルトブラックホールの両側一般化におけるエントロピーとエンタングルメント島の進化について考察する。 永遠の黒色外界に反射境界を導入することで、ホーキング放射の赤外線モードを調節し、絡み合いエントロピーが一定の値で飽和することを見つける。 この値はブラックホールの熱力学的エントロピーよりも低いため、情報パラドックスのページ定式化には繋がらない。 絡み合う島々について、境界の存在によって引き起こされる普遍的な効果を見出した。これは「瞬き島」と呼ばれ、しばらくの間絡み合う島は必然的に消滅し、短時間の情報パラドックスに繋がる。

Placing a black hole in a cavity is known to be a natural way to study different scales in gravity, issues related to the thermodynamic instability and gravity effective theories. In this paper, we consider the evolution of the entanglement entropy and entanglement islands in the two-sided generalization of the Schwarzschild black hole in a cavity. Introducing a reflecting boundary in the eternal black exteriors we regulate infrared modes of Hawking radiation and find that entanglement entropy saturates at some constant value. This value could be lower than black hole thermodynamic entropy, thus not leading to Page formulation of information paradox. Concerning the entanglement islands, we find a universal effect induced by the boundary presence, which we call ``blinking island" -- for some time the entanglement island inevitably disappears, thus leading to a short-time information paradox.
翻訳日:2023-11-29 21:15:17 公開日:2023-11-27
# SemiVL:ビジョンランゲージ誘導による半監督セマンティックセマンティックセグメンテーション

SemiVL: Semi-Supervised Semantic Segmentation with Vision-Language Guidance ( http://arxiv.org/abs/2311.16241v1 )

ライセンス: Link先を確認
Lukas Hoyer, David Joseph Tan, Muhammad Ferjad Naeem, Luc Van Gool, Federico Tombari(参考訳) 半教師付きセマンティックセグメンテーションでは、モデルをラベル付き画像の限られた数とラベルなし画像の大きなコーパスで訓練し、高いアノテーションの労力を削減する。 従来の手法はセグメンテーション境界を学習できるが、監督が限られているため、視覚的に類似したクラスを混乱させる傾向がある。 一方、視覚言語モデル(VLM)は、画像キャプチャーデータセットから多様な意味知識を学習できるが、画像レベルの訓練によるノイズセグメンテーションを生成する。 SemiVL では,VLM の事前学習から得られた豊富な事前知識を半教師付きセマンティックセマンティックセグメンテーションに統合し,より優れた意味決定境界を学習することを提案する。 VLMをグローバルな推論からローカルな推論に適応させるために、ラベル効率の学習のための空間的微調整戦略を導入する。 さらに,視覚と言語を両立させる言語誘導デコーダの設計を行った。 最後に,クラス定義の形で言語指導を施したモデルを提供することにより,クラスラベルに固有の曖昧さを扱うことを提案する。 4つのセマンティックセグメンテーションデータセット上でSemiVLを評価する。 例えば、SemiVLはCOCOでは+13.5 mIoU、Pascal VOCでは92ラベルで+6.1 mIoUの改善を行っている。 プロジェクトページ: https://github.com/google-research/semivl

In semi-supervised semantic segmentation, a model is trained with a limited number of labeled images along with a large corpus of unlabeled images to reduce the high annotation effort. While previous methods are able to learn good segmentation boundaries, they are prone to confuse classes with similar visual appearance due to the limited supervision. On the other hand, vision-language models (VLMs) are able to learn diverse semantic knowledge from image-caption datasets but produce noisy segmentation due to the image-level training. In SemiVL, we propose to integrate rich priors from VLM pre-training into semi-supervised semantic segmentation to learn better semantic decision boundaries. To adapt the VLM from global to local reasoning, we introduce a spatial fine-tuning strategy for label-efficient learning. Further, we design a language-guided decoder to jointly reason over vision and language. Finally, we propose to handle inherent ambiguities in class labels by providing the model with language guidance in the form of class definitions. We evaluate SemiVL on 4 semantic segmentation datasets, where it significantly outperforms previous semi-supervised methods. For instance, SemiVL improves the state-of-the-art by +13.5 mIoU on COCO with 232 annotated images and by +6.1 mIoU on Pascal VOC with 92 labels. Project page: https://github.com/google-research/semivl
翻訳日:2023-11-29 21:15:01 公開日:2023-11-27
# 格子上の量子ハードディスク

Quantum hard disks on a lattice ( http://arxiv.org/abs/2311.16240v1 )

ライセンス: Link先を確認
Vighnesh Dattatraya Naik and Fabian Ballar Trigueros and Markus Heyl(参考訳) 量子シミュレータの最近の顕著な実験的進歩により、局所的な制約を伴う量子物質の研究が注目されている。 本研究では,制約物質(ハードディスク問題)のパラダイムクラスについて検討する。 我々は、rydbergのブロック機構によるrydberg原子配列の自然な実現を示す格子上の量子バージョンを紹介する。 一般レベルでの静的な性質は古典的な場合と同値となり、結晶相を十分に高い粒子密度で生成するが、力学的な性質は根本的に異なることが判明した。 一次元において、弾道挙動を示す有限サイズの結晶の融解過程における真の量子的特徴を同定する一方で、古典的なシナリオではカルダル・パリシ・ジャンク普遍性クラスによって支配される部分拡散を示す。 2次元正方格子上では、量子領域において、結晶はほとんどの欠陥に対して無傷であり、古典的には初期結晶構造は完全に洗い流される。 この特異な量子挙動を、量子多体傷の存在と結びつけ、従来のエルゴード性に対する期待を破る。 本研究は、拘束された2次元量子物質が特異な動的挙動を示す可能性を浮き彫りにする。

Motivated by the recent impressive experimental progress in quantum simulators the study of quantum matter with local constraints has gained significant attention. In this work, we investigate a paradigmatic class of constrained matter - the hard-disk problem. We introduce a quantum version on lattices, which exhibits a natural realization in Rydberg atom arrays due to the Rydberg blockade mechanism. While the static properties on a general level turn out to be equivalent to the classical case, yielding crystalline phases at sufficiently high particle densities, we find that the dynamical properties are fundamentally different. In one dimension, we identify genuine quantum features in the melting process of a finite-size crystal displaying ballistic behavior, whereas the classical scenario exhibits sub-diffusion governed by the Kardar-Parisi-Zhang universality class. On two-dimensional square lattices, we show that in the quantum domain, crystals remain intact against most defects, whereas classically the initial crystal structure is washed out completely. We link this peculiar quantum behavior to the presence of quantum many-body scars, breaking conventional expectations of ergodicity. Our study highlights the potential of constrained two-dimensional quantum matter to display unique dynamical behaviors.
翻訳日:2023-11-29 21:14:27 公開日:2023-11-27
# ゲージ理論の絡み合い: toric code から $\mathbb{z}_2$ lattice gauge higgs model へ

Entanglement of Gauge Theories: from the Toric Code to the $\mathbb{Z}_2$ Lattice Gauge Higgs Model ( http://arxiv.org/abs/2311.16235v1 )

ライセンス: Link先を確認
Wen-Tao Xu, Michael Knap, Frank Pollmann(参考訳) 磁場を受けるトーリック符号(tc)モデルは、$\mathbb{z}_2$格子ゲージ higgs (\mathbb{z}_2$ gh) モデルにマッピングすることができる。 この等尺写像はバルクエネルギースペクトルを保存するが、ここでは絡み合い構造に非自明な効果があることを示す。 TCモデルの1つから$\mathbb{Z}_2$GHモデルの還元密度行列を得ることのできる量子チャネルを導出する。 次に、2つのモデルの基底状態絡み合いスペクトル(ES)を対比する。 電磁気双対性の役割を解析すると、TCモデルのESは双対性によって豊かになるが、$\mathbb{Z}_2$GHモデルのESは実際にはそうではないことがわかる。 このようにして、バルク境界対応が失敗する例を示す。 さらに、量子チャネルは、TCモデルから$\mathbb{Z}_2$GHモデルの絡み合わせ蒸留を調べることができる。

The toric code (TC) model subjected to a magnetic field can be mapped to the $\mathbb{Z}_2$ lattice gauge Higgs ($\mathbb{Z}_2$ GH) model. Although this isometric mapping preserves the bulk energy spectrum, here, we show that it has a non-trivial effect on the entanglement structure. We derive a quantum channel that allows us to obtain the reduced density matrix of the $\mathbb{Z}_2$ GH model from the one of the TC model. We then contrast the ground state entanglement spectra (ES) of the two models. Analyzing the role of the electric-magnetic duality, we show that while the ES of the TC model is enriched by the duality, the ES of the $\mathbb{Z}_2$ GH model is in fact not. This thus represents an example where the bulk-boundary correspondence fails. Moreover, the quantum channel allows us to investigate the entanglement distillation of the $\mathbb{Z}_2$ GH model from the TC model.
翻訳日:2023-11-29 21:14:00 公開日:2023-11-27
# 逆データ生成による機械翻訳におけるジェンダーバイアスの低減

Reducing Gender Bias in Machine Translation through Counterfactual Data Generation ( http://arxiv.org/abs/2311.16362v1 )

ライセンス: Link先を確認
Ranjita Naik, Spencer Rarrick, Vishal Chowdhary(参考訳) 近年のニューラルネットワーク手法の進歩により、ニューラルネットワーク翻訳(NMT)システムの品質が大幅に向上している。 しかし、これらのシステムは不正確な性別(stanovsky et al., 2019)による翻訳を頻繁に生成し、これはトレーニングデータのバイアスにさかのぼることができる。 Saunders and Byrne (2020)は、バランスのとれた専門用語を含む手作りのデータセットでこの問題に対処した。 このデータを用いて既存のNMTモデルを微調整することにより、破滅的な忘れ込みによる翻訳品質を犠牲にして、性別バイアスを著しく軽減できることを示す。 トレーニング目標の変更や推論時の追加モデルによって、失われた品質の一部を回復する。 しかし、手作りデータセットをベースモデルのトレーニングコーパスからランダムなサンプルで補うだけで、壊滅的な忘れ方を大幅に減らすことができることがわかった。 また,zmigrodら (2019) が提案する反事実データ生成手法を用いて作成したドメイン内データを利用して,翻訳品質を損なうことなく,winomtチャレンジテストセットの精度をさらに向上させる新しいドメイン適応手法を提案する。 英語からフランス語,スペイン語,イタリア語の3つの形態素豊かな言語へのnmtシステムでの有効性を示す。 関連するデータセットとコードはgithubで入手できる。

Recent advances in neural methods have led to substantial improvement in the quality of Neural Machine Translation (NMT) systems. However, these systems frequently produce translations with inaccurate gender (Stanovsky et al., 2019), which can be traced to bias in training data. Saunders and Byrne (2020) tackle this problem with a handcrafted dataset containing balanced gendered profession words. By using this data to fine-tune an existing NMT model, they show that gender bias can be significantly mitigated, albeit at the expense of translation quality due to catastrophic forgetting. They recover some of the lost quality with modified training objectives or additional models at inference. We find, however, that simply supplementing the handcrafted dataset with a random sample from the base model training corpus is enough to significantly reduce the catastrophic forgetting. We also propose a novel domain-adaptation technique that leverages in-domain data created with the counterfactual data generation techniques proposed by Zmigrod et al. (2019) to further improve accuracy on the WinoMT challenge test set without significant loss in translation quality. We show its effectiveness in NMT systems from English into three morphologically rich languages French, Spanish, and Italian. The relevant dataset and code will be available at Github.
翻訳日:2023-11-29 21:05:51 公開日:2023-11-27
# 赤外線画像における小型・薄型ターゲット検出

Small and Dim Target Detection in IR Imagery: A Review ( http://arxiv.org/abs/2311.16346v1 )

ライセンス: Link先を確認
Nikhil Kumar, Pravendra Singh(参考訳) 従来の画像処理と機械学習アルゴリズムを用いたオブジェクト検出には大きな進歩があったが、ir領域における小さめのターゲット検出を探索することは、比較的新しい研究分野である。 小型および薄型ターゲット検出法の大部分は、いくつかの変更があるにもかかわらず、従来の物体検出アルゴリズムに由来する。 赤外線画像における小目標と薄目標を検出するタスクは複雑である。 これは、これらのターゲットがしばしば異なる特徴を必要とし、背景が不明瞭な詳細で散らばり、熱力学の変動によってシーンの赤外線シグネチャが時間とともに変化するためである。 このレビューの主な目的は、この分野における進歩を強調することである。 従来の画像処理から最先端のディープラーニングアプローチまで,さまざまな手法を包含して,赤外線画像における小型・薄型ターゲット検出の分野における最初のレビューである。 著者らはこのようなアプローチの分類法も導入した。 主なアプローチには、複数のフレームを使用して検出する手法と、単一フレームベースの検出技術がある。 単一のフレームベースの検出技術は、従来の画像処理に基づくアプローチからより高度なディープラーニング手法まで、様々な方法を含んでいる。 その結果,ディープラーニングアプローチは従来の画像処理手法よりも優れていることがわかった。 さらに、利用可能なさまざまなデータセットの包括的なコンパイルも提供されている。 さらに,本稿では,既存技術のギャップと限界を明らかにし,今後の研究・開発への道を開く。

While there has been significant progress in object detection using conventional image processing and machine learning algorithms, exploring small and dim target detection in the IR domain is a relatively new area of study. The majority of small and dim target detection methods are derived from conventional object detection algorithms, albeit with some alterations. The task of detecting small and dim targets in IR imagery is complex. This is because these targets often need distinct features, the background is cluttered with unclear details, and the IR signatures of the scene can change over time due to fluctuations in thermodynamics. The primary objective of this review is to highlight the progress made in this field. This is the first review in the field of small and dim target detection in infrared imagery, encompassing various methodologies ranging from conventional image processing to cutting-edge deep learning-based approaches. The authors have also introduced a taxonomy of such approaches. There are two main types of approaches: methodologies using several frames for detection, and single-frame-based detection techniques. Single frame-based detection techniques encompass a diverse range of methods, spanning from traditional image processing-based approaches to more advanced deep learning methodologies. Our findings indicate that deep learning approaches perform better than traditional image processing-based approaches. In addition, a comprehensive compilation of various available datasets has also been provided. Furthermore, this review identifies the gaps and limitations in existing techniques, paving the way for future research and development in this area.
翻訳日:2023-11-29 21:05:30 公開日:2023-11-27
# 意図しない神経表現を伴う空間適応型衣服回帰

Spatially Adaptive Cloth Regression with Implicit Neural Representations ( http://arxiv.org/abs/2311.16344v1 )

ライセンス: Link先を確認
Lei Shu, Vinicius Azevedo, Barbara Solenthaler, Markus Gross(参考訳) 細長い布のしわの正確な表現は、コンピュータグラフィックスにおいて重要な課題となる。 本質的に不均一な布のしわの構造は、複雑な離散化戦略の活用を義務付けており、高い計算要求と複雑な方法論によってしばしば特徴付けられる。 そこで,本稿では,表面の暗黙的神経表現の可能性に着目した新しい異方性布回帰手法を考案した。 私たちの最初の中心となる貢献は、従来のメッシュ構造への依存を減らすことを目的とした、革新的なメッシュフリーサンプリングアプローチです。 第2のコントリビューションは,サンプリング目標とシミュレーション目標との調和バランスを慎重に打つために設計された,新たな対向訓練スキームである。 逆のアプローチにより、シワは高い忠実度で表現され、計算効率も維持される。 提案手法は, 従来の離散表現, 特に局所化しわをモデル化する場合において, 従来の離散表現を一貫して上回る, 様々な布とオブジェクトの相互作用シナリオを提示する。

The accurate representation of fine-detailed cloth wrinkles poses significant challenges in computer graphics. The inherently non-uniform structure of cloth wrinkles mandates the employment of intricate discretization strategies, which are frequently characterized by high computational demands and complex methodologies. Addressing this, the research introduced in this paper elucidates a novel anisotropic cloth regression technique that capitalizes on the potential of implicit neural representations of surfaces. Our first core contribution is an innovative mesh-free sampling approach, crafted to reduce the reliance on traditional mesh structures, thereby offering greater flexibility and accuracy in capturing fine cloth details. Our second contribution is a novel adversarial training scheme, which is designed meticulously to strike a harmonious balance between the sampling and simulation objectives. The adversarial approach ensures that the wrinkles are represented with high fidelity, while also maintaining computational efficiency. Our results showcase through various cloth-object interaction scenarios that our method, given the same memory constraints, consistently surpasses traditional discrete representations, particularly when modelling highly-detailed localized wrinkles.
翻訳日:2023-11-29 21:05:08 公開日:2023-11-27
# リアルタイム戦略ゲームにおける学習改善のための報酬シェーピング

Reward Shaping for Improved Learning in Real-time Strategy Game Play ( http://arxiv.org/abs/2311.16339v1 )

ライセンス: Link先を確認
John Kliem and Prithviraj Dasgupta(参考訳) 本研究では, 実時間戦略, キャプチャ・ザ・フラッグゲームにおける強化学習の性能向上における報酬形成の効果を検討する。 このゲームの特徴は、フラッグをつかんだり、捕獲したり、相手プレイヤーにタグを付けたり、しばしば発生する出来事に関係しているスパース報酬である。 異なるゲームイベントに適用した報奨シェーピング機能を適切に設計することで、プレイヤーの学習アルゴリズムの性能とトレーニング時間を大幅に改善できることを示す。 本研究は,2人の選手間の海中捕獲・フラッグゲームを行うためのシミュレーション環境内での報酬形成機能を検証する。 実験により,ゲームプレイ中に異なるサブタスクの重要性を理解し,エネルギ効率などの二次目的機能をプレイヤーのゲームプレイ行動に符号化し,対戦相手の異なるスキルレベルに対して良好に機能する汎用ポリシーを学習するための効果的な方法として,報酬形成が有効であることを示す。

We investigate the effect of reward shaping in improving the performance of reinforcement learning in the context of the real-time strategy, capture-the-flag game. The game is characterized by sparse rewards that are associated with infrequently occurring events such as grabbing or capturing the flag, or tagging the opposing player. We show that appropriately designed reward shaping functions applied to different game events can significantly improve the player's performance and training times of the player's learning algorithm. We have validated our reward shaping functions within a simulated environment for playing a marine capture-the-flag game between two players. Our experimental results demonstrate that reward shaping can be used as an effective means to understand the importance of different sub-tasks during game-play towards winning the game, to encode a secondary objective functions such as energy efficiency into a player's game-playing behavior, and, to improve learning generalizable policies that can perform well against different skill levels of the opponent.
翻訳日:2023-11-29 21:04:48 公開日:2023-11-27
# CRaQAn (Coreference Resolution in Question-Answering):指示追従モデルを用いたオープンソースのデータセットとデータセット作成手法

Releasing the CRaQAn (Coreference Resolution in Question-Answering): An open-source dataset and dataset creation methodology using instruction-following models ( http://arxiv.org/abs/2311.16338v1 )

ライセンス: Link先を確認
Rob Grzywinski, Joshua D'Arcy, Rob Naidoff, Ashish Shukla, Alex Browne, Ren Gibbons, Brinnae Bent(参考訳) 命令追従言語モデルは、質問応答アプリケーションの指示を補強するために、情報検索のための堅牢な方法論を要求する。 主な課題は、長い文書のチャンキング戦略の文脈におけるコリファレンスの解決である。 コア参照を扱うための実験における重要な障壁は、オープンソースデータセットの欠如、特にコア参照解決を必要とする質問応答タスクである。 本研究では,コリファレンスを含む250以上の質問応答ペアを提供することにより,コリファレンス解決のニュアンス情報検索要件に対応するオープンソースデータセットである,craqanデータセットにおけるコリファレンス解決を提案する。 このデータセットを開発するために,命令追従モデル(GPT-4)と再帰的批判・改善ループを用いて高品質なデータセットを作成する手法を開発した。

Instruction-following language models demand robust methodologies for information retrieval to augment instructions for question-answering applications. A primary challenge is the resolution of coreferences in the context of chunking strategies for long documents. The critical barrier to experimentation of handling coreferences is a lack of open source datasets, specifically in question-answering tasks that require coreference resolution. In this work we present our Coreference Resolution in Question-Answering (CRaQAn) dataset, an open-source dataset that caters to the nuanced information retrieval requirements of coreference resolution in question-answering tasks by providing over 250 question-answer pairs containing coreferences. To develop this dataset, we developed a novel approach for creating high-quality datasets using an instruction-following model (GPT-4) and a Recursive Criticism and Improvement Loop.
翻訳日:2023-11-29 21:04:29 公開日:2023-11-27
# アセンブリのための多次元モデル登録ベース拡張現実(AR)教育

Multi-3D-Models Registration-Based Augmented Reality (AR) Instructions for Assembly ( http://arxiv.org/abs/2311.16337v1 )

ライセンス: Link先を確認
Seda Tuzun Canadinc and Wei Yan(参考訳) 本稿では,新しい,マーカーレス,ステップバイステップ,イン・バイ・ステップの3d拡張現実(ar)インストラクション法と,その応用例である brickxar (multi 3d models/m3d) について紹介する。 BRICKxAR(M3D)は物理組立モデルの組立位置でレンダリングされた3次元組立部品を現実的に可視化する(図1)。 ユーザはユーザインターフェースを介してアセンブリプロセスを制御する。 BRICKxAR (M3D) はディープラーニングで訓練された3Dモデルの登録を利用する。 アセンブリモデルが各ステップで更新されるにつれて、オブジェクト認識とトラッキングは困難になる。 さらに、3Dアセンブリのすべての部分が、アセンブリ中にカメラに表示されるわけではない。 BRICKxAR(M3D)は、複数のアセンブリフェーズとステップカウントを組み合わせてこれらの課題に対処する。 したがって、より少ない位相を用いると複雑なアセンブリプロセスが簡単になり、ステップカウントは各ステップの正確なオブジェクト認識と正確な視覚化が容易になる。 brickxar (m3d) プロトタイプのテストとヒューリスティックな評価と質的分析は、ユーザと人間とコンピュータの相互作用に関する専門家によって行われた。 堅牢な3D AR命令を提供し、組立モデルのハンドリングを可能にするため、BRICKxAR(M3D)は製造組立から建設まで様々な規模で使用される可能性がある。

This paper introduces a novel, markerless, step-by-step, in-situ 3D Augmented Reality (AR) instruction method and its application - BRICKxAR (Multi 3D Models/M3D) - for small parts assembly. BRICKxAR (M3D) realistically visualizes rendered 3D assembly parts at the assembly location of the physical assembly model (Figure 1). The user controls the assembly process through a user interface. BRICKxAR (M3D) utilizes deep learning-trained 3D model-based registration. Object recognition and tracking become challenging as the assembly model updates at each step. Additionally, not every part in a 3D assembly may be visible to the camera during the assembly. BRICKxAR (M3D) combines multiple assembly phases with a step count to address these challenges. Thus, using fewer phases simplifies the complex assembly process while step count facilitates accurate object recognition and precise visualization of each step. A testing and heuristic evaluation of the BRICKxAR (M3D) prototype and qualitative analysis were conducted with users and experts in visualization and human-computer interaction. Providing robust 3D AR instructions and allowing the handling of the assembly model, BRICKxAR (M3D) has the potential to be used at different scales ranging from manufacturing assembly to construction.
翻訳日:2023-11-29 21:04:13 公開日:2023-11-27
# 半球ニューラルネットを用いた反応からプロアクティブボラティリティモデリングへ

From Reactive to Proactive Volatility Modeling with Hemisphere Neural Networks ( http://arxiv.org/abs/2311.16333v1 )

ライセンス: Link先を確認
Philippe Goulet Coulombe, Mikael Frenette, Karin Klieber(参考訳) 我々は,新しいニューラルネットワークアーキテクチャを用いて,マクロ経済密度予測のための最大推定値(MLE)を再活性化する。 私たちのアーキテクチャは、MLEをこの文脈で機能させる重要な要素をいくつか備えています。 第一に、半球はネットワークの入り口で共通のコアを共有し、エラー分散の様々な形態の時間変化に対応する。 次に,この超パラメータ非線形モデルにおける平均・分散不確定性を破るボラティリティ強調制約を導入する。 第3に,両条件時の過度な適合を抑制するために,バッグ外現実チェックをブロックする。 第4に、アルゴリズムは標準的なディープラーニングソフトウェアを使用し、計算と統計の両方で大きなデータセットを処理する。 ergo、私たちの半球ニューラルネットワーク(hnn)は、可能な場合の先行指標に基づいた積極的なボラティリティ予測と、必要な時点の過去の予測誤差の大きさに基づくリアクティブボラティリティを提供する。 従来のモデルから、より現代的な機械学習ベースの製品まで、幅広い実験とベンチマークによって、ポイントと密度の予測を評価します。 いずれの場合も、hnnは、すべての目標と地平線の正確な平均/分散予測を提供することで、満足できる。 結果のボラティリティパスを研究することは、その汎用性を明らかにする一方で、確率的予測評価指標は、その実現可能な信頼性を示す。 最後に、Goulet Coulombe (2022)のNeural Phillips Curveを再考することにより、この機械を他の構造化ディープラーニングモデルとマージする方法を実証する。

We reinvigorate maximum likelihood estimation (MLE) for macroeconomic density forecasting through a novel neural network architecture with dedicated mean and variance hemispheres. Our architecture features several key ingredients making MLE work in this context. First, the hemispheres share a common core at the entrance of the network which accommodates for various forms of time variation in the error variance. Second, we introduce a volatility emphasis constraint that breaks mean/variance indeterminacy in this class of overparametrized nonlinear models. Third, we conduct a blocked out-of-bag reality check to curb overfitting in both conditional moments. Fourth, the algorithm utilizes standard deep learning software and thus handles large data sets - both computationally and statistically. Ergo, our Hemisphere Neural Network (HNN) provides proactive volatility forecasts based on leading indicators when it can, and reactive volatility based on the magnitude of previous prediction errors when it must. We evaluate point and density forecasts with an extensive out-of-sample experiment and benchmark against a suite of models ranging from classics to more modern machine learning-based offerings. In all cases, HNN fares well by consistently providing accurate mean/variance forecasts for all targets and horizons. Studying the resulting volatility paths reveals its versatility, while probabilistic forecasting evaluation metrics showcase its enviable reliability. Finally, we also demonstrate how this machinery can be merged with other structured deep learning models by revisiting Goulet Coulombe (2022)'s Neural Phillips Curve.
翻訳日:2023-11-29 21:03:52 公開日:2023-11-27
# Few-Shot Learningによるターゲットフリー複合活動予測

Target-Free Compound Activity Prediction via Few-Shot Learning ( http://arxiv.org/abs/2311.16328v1 )

ライセンス: Link先を確認
Peter Eckmann, Jake Anderson, Michael K. Gilson, Rose Yu(参考訳) 数種の既知の化合物とそれらの活性のみを用いたタンパク質または表現型アッセイに対する化合物の活性の予測は、標的のない薬物発見において一般的な課題である。 既存の数発の学習アプローチはバイナリラベル(アクティブ/非アクティブ)の予測に限られている。 しかし、現実世界の薬物発見においては、複合活性の度合いは高い関係にある。 本研究では,Few-Shot Compound Activity Prediction (FS-CAP) について検討し,大規模生物活性データセットを横断するメタ学習型連続化合物活動のためのニューラルアーキテクチャを設計する。 本モデルでは,既知の化合物から生成したエンコードとその活性を集約し,アッセイ情報を収集する。 また、未知化合物に対する別のエンコーダも導入する。 FS-CAPは、従来の類似性に基づく手法や、さまざまな標的のない薬物発見設定やデータセットに関する数発の学習方法に勝っていることを示す。

Predicting the activities of compounds against protein-based or phenotypic assays using only a few known compounds and their activities is a common task in target-free drug discovery. Existing few-shot learning approaches are limited to predicting binary labels (active/inactive). However, in real-world drug discovery, degrees of compound activity are highly relevant. We study Few-Shot Compound Activity Prediction (FS-CAP) and design a novel neural architecture to meta-learn continuous compound activities across large bioactivity datasets. Our model aggregates encodings generated from the known compounds and their activities to capture assay information. We also introduce a separate encoder for the unknown compound. We show that FS-CAP surpasses traditional similarity-based techniques as well as other state of the art few-shot learning methods on a variety of target-free drug discovery settings and datasets.
翻訳日:2023-11-29 21:03:27 公開日:2023-11-27
# 糖尿病足部潰瘍検出のためのドメイン特化ディープラーニング機能エクストラクタ

Domain-Specific Deep Learning Feature Extractor for Diabetic Foot Ulcer Detection ( http://arxiv.org/abs/2311.16312v1 )

ライセンス: Link先を確認
Reza Basiri, Milos R. Popovic, Shehroz S. Khan(参考訳) 糖尿病性足部潰瘍(DFU)は,一定のモニタリングと治療評価を必要とする病態である。 dfu患者の人口は増加しており、すぐに利用可能な健康資源を上回っている。 DFU創の自律的モニタリングと評価は、医療において非常に重要な分野である。 本稿では,深層学習傷検出ネットワーク構築の基盤となる,最も正確な特徴抽出器の評価と同定を行う。 評価には,dfu2020データセット上でmapとf1-scoreを用いた。 unet と efficientnetb3 の機能抽出器の組み合わせにより、14のネットワーク間で比較評価が最良となった。 UNetとEfficientnetb3は、包括的なDFUドメイン固有の自律的創傷検出パイプラインの開発において、分類器として使用できる。

Diabetic Foot Ulcer (DFU) is a condition requiring constant monitoring and evaluations for treatment. DFU patient population is on the rise and will soon outpace the available health resources. Autonomous monitoring and evaluation of DFU wounds is a much-needed area in health care. In this paper, we evaluate and identify the most accurate feature extractor that is the core basis for developing a deep-learning wound detection network. For the evaluation, we used mAP and F1-score on the publicly available DFU2020 dataset. A combination of UNet and EfficientNetb3 feature extractor resulted in the best evaluation among the 14 networks compared. UNet and Efficientnetb3 can be used as the classifier in the development of a comprehensive DFU domain-specific autonomous wound detection pipeline.
翻訳日:2023-11-29 21:03:14 公開日:2023-11-27
# スパシファイド入力によるビデオ質問応答の特性評価

Characterizing Video Question Answering with Sparsified Inputs ( http://arxiv.org/abs/2311.16311v1 )

ライセンス: Link先を確認
Shiyuan Huang, Robinson Piramuthu, Vicente Ordonez, Shih-Fu Chang, Gunnar A. Sigurdsson(参考訳) Video Question Answeringでは、ビデオはしばしば、情報の損失を最小限に抑えるために、フル長のフレームシーケンスとして処理される。 近年の研究では、疎ビデオ入力がハイパフォーマンスを維持するのに十分であることを示す。 しかし、通常は単一のフレーム選択の場合を議論する。 私たちの仕事では、設定を複数の入力や他のモダリティに拡張しています。 我々は、異なる入力空間でタスクを特徴付け、それを行うためのツールを提供する。 具体的には、gumbelベースの学習可能な選択モジュールを使用して、最終タスクの最適な入力を適応的に選択する。 このようにして、パブリックなVideoQAベンチマーク上で実験を行い、スペーサー化された入力がパフォーマンスに与える影響について分析する。 実験の結果,ビデオ長の10%で5.2%~5.8%のパフォーマンスが低下し,各ビデオから選択した2-4フレームに対応することがわかった。 また,視覚的入力とテキスト入力の相補的動作を高度に分散した設定でも観察し,映像・音声タスクにおけるデータ効率向上の可能性を示した。

In Video Question Answering, videos are often processed as a full-length sequence of frames to ensure minimal loss of information. Recent works have demonstrated evidence that sparse video inputs are sufficient to maintain high performance. However, they usually discuss the case of single frame selection. In our work, we extend the setting to multiple number of inputs and other modalities. We characterize the task with different input sparsity and provide a tool for doing that. Specifically, we use a Gumbel-based learnable selection module to adaptively select the best inputs for the final task. In this way, we experiment over public VideoQA benchmarks and provide analysis on how sparsified inputs affect the performance. From our experiments, we have observed only 5.2%-5.8% loss of performance with only 10% of video lengths, which corresponds to 2-4 frames selected from each video. Meanwhile, we also observed the complimentary behaviour between visual and textual inputs, even under highly sparsified settings, suggesting the potential of improving data efficiency for video-and-language tasks.
翻訳日:2023-11-29 21:03:05 公開日:2023-11-27
# 基本行列からの焦点長のロバスト自己校正

Robust Self-calibration of Focal Lengths from the Fundamental Matrix ( http://arxiv.org/abs/2311.16304v1 )

ライセンス: Link先を確認
Viktor Kocur, Daniel Kyselica, Zuzana K\'ukelov\'a(参考訳) 基本行列から2台のカメラを自己校正する問題は、幾何学的コンピュータビジョンの基本的な問題の一つである。 既知の主点と平方ピクセルの仮定の下で、よく知られたブーヌーの公式は、2つの未知の焦点距離を計算する手段を提供する。 しかし、多くの実用的な状況において、この公式は一般に発生する特異点によって不正確な結果をもたらす。 さらに、計算された基本行列のノイズや、主点の仮定位置に対して、推定値が敏感である。 そこで本研究では,基本行列が与えられたカメラの焦点距離と,推定されたカメラパラメータに先行して焦点距離を推定する効率的かつロバストな反復手法を提案する。 さらに,総計算時間を削減しつつ推定モデルの精度を向上させるため,ransac内で生成されたモデルの計算効率の高いチェックを行った。 実データおよび合成データに関する広範囲な実験により,本手法は,不正確な事前値に依存する場合であっても,ブーヌー式や他の最先端法よりも推定焦点長の精度が大幅に向上することが示された。

The problem of self-calibration of two cameras from a given fundamental matrix is one of the basic problems in geometric computer vision. Under the assumption of known principal points and square pixels, the well-known Bougnoux formula offers a means to compute the two unknown focal lengths. However, in many practical situations, the formula yields inaccurate results due to commonly occurring singularities. Moreover, the estimates are sensitive to noise in the computed fundamental matrix and to the assumed positions of the principal points. In this paper, we therefore propose an efficient and robust iterative method to estimate the focal lengths along with the principal points of the cameras given a fundamental matrix and priors for the estimated camera parameters. In addition, we study a computationally efficient check of models generated within RANSAC that improves the accuracy of the estimated models while reducing the total computational time. Extensive experiments on real and synthetic data show that our iterative method brings significant improvements in terms of the accuracy of the estimated focal lengths over the Bougnoux formula and other state-of-the-art methods, even when relying on inaccurate priors.
翻訳日:2023-11-29 21:02:49 公開日:2023-11-27
# データ選択のためのエントロピーとマージンに基づくスコーリングメトリクスの総合ベンチマーク

Comprehensive Benchmarking of Entropy and Margin Based Scoring Metrics for Data Selection ( http://arxiv.org/abs/2311.16302v1 )

ライセンス: Link先を確認
Anusha Sabbineni and Nikhil Anand and Maria Minakova(参考訳) データ選択法は、アクティブラーニング、データプルーニング、データ拡張設定で広く研究されてきたが、業界規模、特に低リソース言語において、これらの方法の有効性を示す証拠はほとんどない。 本研究は,これらの場面における「使い勝手」や「ディフューチャリティ」の予測訓練例を評価する方法を提案する。 また,教師付き機械学習モデルのトレーニングにおける重要な例を選択する上で,これらの尺度をどのように利用できるかを示す。 主にエントロピーとエラーL2-Norm(EL2N)のスコアを実験した。 提案手法は,提案手法を用いて,大容量のtextit{Weak Signal Labeled} データから高品質なデータセットを算出し,推論中に不完全な高信頼仮説を基底真理ラベルとして割り当てる。 次に,これらの非同定データセットを用いた訓練データ拡張実験を行い,スコアに基づく選択は,ランダム選択のベースライン手法と比較して,意味的誤り率2%,ドメイン分類誤り率4%-7%の低下をもたらすことを実証した。

While data selection methods have been studied extensively in active learning, data pruning, and data augmentation settings, there is little evidence for the efficacy of these methods in industry scale settings, particularly in low-resource languages. Our work presents ways of assessing prospective training examples in those settings for their "usefulness" or "difficulty". We also demonstrate how these measures can be used in selecting important examples for training supervised machine learning models. We primarily experiment with entropy and Error L2-Norm (EL2N) scores. We use these metrics to curate high quality datasets from a large pool of \textit{Weak Signal Labeled} data, which assigns no-defect high confidence hypotheses during inference as ground truth labels. We then conduct training data augmentation experiments using these de-identified datasets and demonstrate that score-based selection can result in a 2% decrease in semantic error rate and 4%-7% decrease in domain classification error rate when compared to the baseline technique of random selection.
翻訳日:2023-11-29 21:02:31 公開日:2023-11-27
# 効率的な言語データサンプリングのためのスケールにおける影響スコア

Influence Scores at Scale for Efficient Language Data Sampling ( http://arxiv.org/abs/2311.16298v1 )

ライセンス: Link先を確認
Nikhil Anand and Joshua Tan and Maria Minakova(参考訳) 現代のMLシステムは、合成、人間アノテーション、ライブ顧客トラフィックなど、さまざまなソースから収集されたデータを収集する。 学習アルゴリズムの性能に重要な例を理解することは、効率的なモデルトレーニングに不可欠である。 近年,データの重要な部分集合を特定するために,モデル信頼度やチェックポイント勾配などのトレーニング成果物を用いて,様々な「影響スコア」が生まれている。 しかし、これらの手法は主にコンピュータビジョン設定で開発されており、事前訓練されたモデルを用いて言語ベースのタスクにどのように一般化するかは定かではない。 本稿では,言語分類タスクにおける影響スコアの適用性について検討する。 これらのスコアの多種多様なサブセットをsnliデータセット上で評価し、ランダムおよびインフルエンススコアに基づくサンプリングにより学習データに応答する精度変化を定量化する。 Agarwal et al. (2022) のスコア「勾配のばらつき」(VoG) の1つを NLU モデルスタックでストレステストし、音声アシスタントタイプの動的ユーザ音声パターンに暴露した。 実験の結果,エンコーダをベースとした言語モデルでは,性能指標を劣化させることなく,約50%の原データに対して微調整が可能であることがわかった。 その過程で,インフルエンススコアの既定実装の適用から得た教訓を要約し,ノイズとクラス不均衡データの効果を定量化し,精度とトレーニング効率を向上させるためにスコアベースのサンプリングを推奨する。

Modern ML systems ingest data aggregated from diverse sources, such as synthetic, human-annotated, and live customer traffic. Understanding \textit{which} examples are important to the performance of a learning algorithm is crucial for efficient model training. Recently, a growing body of literature has given rise to various "influence scores," which use training artifacts such as model confidence or checkpointed gradients to identify important subsets of data. However, these methods have primarily been developed in computer vision settings, and it remains unclear how well they generalize to language-based tasks using pretrained models. In this paper, we explore the applicability of influence scores in language classification tasks. We evaluate a diverse subset of these scores on the SNLI dataset by quantifying accuracy changes in response to pruning training data through random and influence-score-based sampling. We then stress-test one of the scores -- "variance of gradients" (VoG) from Agarwal et al. (2022) -- in an NLU model stack that was exposed to dynamic user speech patterns in a voice assistant type of setting. Our experiments demonstrate that in many cases, encoder-based language models can be finetuned on roughly 50% of the original data without degradation in performance metrics. Along the way, we summarize lessons learned from applying out-of-the-box implementations of influence scores, quantify the effects of noisy and class-imbalanced data, and offer recommendations on score-based sampling for better accuracy and training efficiency.
翻訳日:2023-11-29 21:02:11 公開日:2023-11-27
# 量子回路学習による量子場理論の量子古典シミュレーション

Quantum-classical simulation of quantum field theory by quantum circuit learning ( http://arxiv.org/abs/2311.16297v1 )

ライセンス: Link先を確認
Kazuki Ikeda(参考訳) 量子回路学習を用いて量子場理論(qfts)をシミュレートする。 通常、qftを量子コンピュータとシミュレートする場合、パウリスピン行列を用いたハミルトニアンを実装する際の量子デバイスの技術的限界のために、大きな課題に直面する。 この課題に対処するために、量子回路学習を活用し、量子ビットと低深度量子回路のコンパクトな構成を用いて、量子場理論のリアルタイムダイナミクスを予測する。 このアプローチの鍵となる利点は、完全連結作用素を含む様々な物理パラメータを正確に予測できることである。 本手法の有効性を実証するために, 量子電磁力学の1+1次元モデルを用いて, クエンチダイナミクス, カイラルダイナミクス, ジェット発生を予測する。 我々の予測は厳密な古典計算の結果と密接に一致しており、高い精度を示している。 このハイブリッド量子古典的アプローチは、最先端の量子デバイス上で大規模qftを効率的にシミュレートする可能性を示す。

We employ quantum circuit learning to simulate quantum field theories (QFTs). Typically, when simulating QFTs with quantum computers, we encounter significant challenges due to the technical limitations of quantum devices when implementing the Hamiltonian using Pauli spin matrices. To address this challenge, we leverage quantum circuit learning, employing a compact configuration of qubits and low-depth quantum circuits to predict real-time dynamics in quantum field theories. The key advantage of this approach is that a single-qubit measurement can accurately forecast various physical parameters, including fully-connected operators. To demonstrate the effectiveness of our method, we use it to predict quench dynamics, chiral dynamics and jet production in a 1+1-dimensional model of quantum electrodynamics. We find that our predictions closely align with the results of rigorous classical calculations, exhibiting a high degree of accuracy. This hybrid quantum-classical approach illustrates the feasibility of efficiently simulating large-scale QFTs on cutting-edge quantum devices.
翻訳日:2023-11-29 21:01:46 公開日:2023-11-27
# トランスフォーマーに基づくソースフリードメイン適応のための非因果係数の調整

Aligning Non-Causal Factors for Transformer-Based Source-Free Domain Adaptation ( http://arxiv.org/abs/2311.16294v1 )

ライセンス: Link先を確認
Sunandini Sanyal, Ashish Ramayee Asokan, Suvaansh Bhambri, Pradyumna YM, Akshay Kulkarni, Jogendra Nath Kundu, R Venkatesh Babu(参考訳) 従来の領域適応アルゴリズムは、ソースとターゲットドメインの間のタスク識別因果関係のみを整列させることにより、より良い一般化を実現することを目的としている。 しかし, 因果的要因と非因果的要因の相互関係を維持することは, 領域ギャップを埋める上で重要な役割を担っている。 そこで本稿では,非因果因子をまずアライメントすることで因果因子のアライメントを支援する枠組みを構築することを提案する。 また,視覚トランスフォーマーの強い形状バイアスと多面的注意が組み合わさって,提案する異角化を実現するのに適したアーキテクチャであることが判明した。 そこで,本稿では,新たな二段階アライメントアプローチによる絡み合いを実現するために,因果性強化型ソースフリートランスフォーマーフレームワーク(c-sftrans)を構築することを提案する。 a)非因果因子のアライメント:非因果因子は、全体的なグローバルなアライメントにつながるスタイル分類タスクを用いて整列される。 b) タスク識別因果因子のアライメント: 因果因子は、目標適応を介して整列する。 我々は、プライバシを保存するソースフリー環境でのビジョントランスフォーマー(ViT)の役割を最初に調査する。 我々のアプローチはいくつかのdaベンチマークで最先端の結果を得る。

Conventional domain adaptation algorithms aim to achieve better generalization by aligning only the task-discriminative causal factors between a source and target domain. However, we find that retaining the spurious correlation between causal and non-causal factors plays a vital role in bridging the domain gap and improving target adaptation. Therefore, we propose to build a framework that disentangles and supports causal factor alignment by aligning the non-causal factors first. We also investigate and find that the strong shape bias of vision transformers, coupled with its multi-head attention, make it a suitable architecture for realizing our proposed disentanglement. Hence, we propose to build a Causality-enforcing Source-Free Transformer framework (C-SFTrans) to achieve disentanglement via a novel two-stage alignment approach: a) non-causal factor alignment: non-causal factors are aligned using a style classification task which leads to an overall global alignment, b) task-discriminative causal factor alignment: causal factors are aligned via target adaptation. We are the first to investigate the role of vision transformers (ViTs) in a privacy-preserving source-free setting. Our approach achieves state-of-the-art results in several DA benchmarks.
翻訳日:2023-11-29 21:01:30 公開日:2023-11-27
# グラフスペクトル復調のためのベイズ式

Bayesian Formulations for Graph Spectral Denoising ( http://arxiv.org/abs/2311.16378v1 )

ライセンス: Link先を確認
Sam Leone, Xingzhi Sun, Michael Perlmutter, Smita Krishnaswamy(参考訳) 本稿では,グラフの頂点上で定義される雑音信号について考察し,ガウス,ドロップアウト,均一分布雑音の場合の平滑化アルゴリズムを提案する。 信号は、グラフの端を横切るスムーズな信号を好む周波数領域で定義された先行分布に従うと仮定される。 この先行分布を3つのノイズ生成モデルと組み合わせることで,ノイズデータの存在下での真の信号の推定を行う \textit{maximum a posteriori} (m.a.p.) を提案し,m.a.p.を計算するアルゴリズムを提供する。

We consider noisy signals which are defined on the vertices of a graph and present smoothing algorithms for the cases of Gaussian, dropout, and uniformly distributed noise. The signals are assumed to follow a prior distribution defined in the frequency domain which favors signals which are smooth across the edges of the graph. By pairing this prior distribution with our three models of noise generation, we propose \textit{Maximum A Posteriori} (M.A.P.) estimates of the true signal in the presence of noisy data and provide algorithms for computing the M.A.P. Finally, we demonstrate the algorithms' ability to effectively restore white noise on image data, and from severe dropout in toy \& EHR data.
翻訳日:2023-11-29 20:51:04 公開日:2023-11-27
# 一次元連続時間開量子ウォーク:行列値直交多項式とリンドブラッド生成子

Continuous-time open quantum walks in one dimension: matrix-valued orthogonal polynomials and Lindblad generators ( http://arxiv.org/abs/2311.16366v1 )

ライセンス: Link先を確認
Newton Loebens(参考訳) 連続時間開量子ウォーキングを行列表現を通して一次元的に研究し,関連する重み行列が存在する最寄り-neighbor遷移に注目した。 生死過程の量子バージョンをモデル化するリンドブラッド生成器のクラスに対して, 行列値直交多項式を用いて, サイトリカバリなどの統計を解析し, 明示的な計算を求める。 有限個の頂点または無限個の頂点の場合の技術的な区別に強調される。 オープン量子ウォークの最近の結果は、整数上の連続時間生死連鎖に折り畳みトリックを適用するために適応されている。 最後に,重みに関連する行列値のスティルチェス変換について検討する。

We study continuous-time open quantum walks in one dimension through a matrix representation, focusing on nearest-neighbor transitions for which an associated weight matrix exists. Statistics such as site recurrence are studied in terms of matrix-valued orthogonal polynomials and explicit calculations are obtained for classes of Lindblad generators that model quantum versions of birth-death processes. Emphasis is given to the technical distinction between the cases of a finite or infinite number of vertices. Recent results for open quantum walks are adapted in order to apply the folding trick to continuous-time birth-death chains on the integers. Finally, we investigate the matrix-valued Stieltjes transform associated to the weights.
翻訳日:2023-11-29 20:50:51 公開日:2023-11-27
# rydberg tweezerアレイにおける雪崩テラヘルツ光子検出

Avalanche terahertz photon detection in a Rydberg tweezer array ( http://arxiv.org/abs/2311.16365v1 )

ライセンス: Link先を確認
Chris Nill, Albert Cabot, Arno Trautmann, Christian Gro{\ss} and Igor Lesanovsky(参考訳) 本稿では,Rydberg tweezer アレイを用いた低強度テラヘルツ放射の増幅検出プロトコルを提案する。 このプロトコルは、暗いカウントレートの低い単一光子の感度を提供する。 センシングフェーズの間、非常に励起されたライドバーグ状態間の強いテラヘルツ範囲遷移を利用して個々のテラヘルツ光子を捕獲する。 増幅段階では、単一のテラヘルツ光子をレイドベルク励起の実質的な信号に変換するライドベルクファシリテーション機構を利用する。 本稿では,現実的原子相互作用パラメータに基づく具体的実現について論じ,捕捉原子の運動を組み込んだ包括的理論モデルを開発し,テンソルネットワーク法を用いて多体力学を研究する。

We propose a protocol for the amplified detection of low-intensity terahertz radiation using Rydberg tweezer arrays. The protocol offers single photon sensitivity together with a low dark count rate. It is split into two phases: during a sensing phase, it harnesses strong terahertz-range transitions between highly excited Rydberg states to capture individual terahertz photons. During an amplification phase it exploits the Rydberg facilitation mechanism which converts a single terahertz photon into a substantial signal of Rydberg excitations. We discuss a concrete realization based on realistic atomic interaction parameters, develop a comprehensive theoretical model that incorporates the motion of trapped atoms and study the many-body dynamics using tensor network methods.
翻訳日:2023-11-29 20:50:39 公開日:2023-11-27
# 学習速度認識サンプリングによる自己教師型学習ロバスト化

Making Self-supervised Learning Robust to Spurious Correlation via Learning-speed Aware Sampling ( http://arxiv.org/abs/2311.16361v1 )

ライセンス: Link先を確認
Weicheng Zhu, Sheng Liu, Carlos Fernandez-Granda, Narges Razavian(参考訳) 自己教師付き学習(ssl)はラベルのないデータからリッチ表現を学習するための強力な技術として登場した。 データ表現は多くの基本的なデータ属性をキャプチャすることができ、下流の予測タスクで有用である。 現実の環境では、いくつかの属性(例えば人種、性別、年齢)と下流のタスクのラベルの間に急激な相関関係がしばしば存在し、例えば、がんは高齢者に多く見られる。 本稿では,sprious correlationsの存在下でのsslについて検討し,下流タスクに他の重要な予測機能が存在するにもかかわらず,それらの重要特性に関連する特徴のサブセットのみをキャプチャすることで,sslのトレーニング損失を最小化できることを示す。 この問題に対処するために,SSLの学習動態を調査し,そのような相関関係に矛盾するサンプル(例えば,がんのない高齢者)の学習が遅いことを観察する。 これらの知見に触発され,学習速度に逆相関する確率で各トレーニングデータをサンプリングする学習速度対応SSL(LA-SSL)アプローチを提案する。 異なる属性の相関関係を示す3つのデータセット上でLA-SSLを評価し、下流の分類タスクにおける事前学習された表現のロバスト性を改善することを示す。

Self-supervised learning (SSL) has emerged as a powerful technique for learning rich representations from unlabeled data. The data representations are able to capture many underlying attributes of data, and be useful in downstream prediction tasks. In real-world settings, spurious correlations between some attributes (e.g. race, gender and age) and labels for downstream tasks often exist, e.g. cancer is usually more prevalent among elderly patients. In this paper, we investigate SSL in the presence of spurious correlations and show that the SSL training loss can be minimized by capturing only a subset of the conspicuous features relevant to those sensitive attributes, despite the presence of other important predictive features for the downstream tasks. To address this issue, we investigate the learning dynamics of SSL and observe that the learning is slower for samples that conflict with such correlations (e.g. elder patients without cancer). Motivated by these findings, we propose a learning-speed aware SSL (LA-SSL) approach, in which we sample each training data with a probability that is inversely related to its learning speed. We evaluate LA-SSL on three datasets that exhibit spurious correlations between different attributes, demonstrating that it improves the robustness of pretrained representations on downstream classification tasks.
翻訳日:2023-11-29 20:50:26 公開日:2023-11-27
# フレームと量子チャネルの位相再現性

Phase retrievability of frames and quantum channels ( http://arxiv.org/abs/2311.16359v1 )

ライセンス: Link先を確認
Kai Liu, Deguang Han(参考訳) B(H_A)\to B(H_B)$ が正の作用素値測度(POVM)$\{F_{j}\}$ in $B(H_{B})$ と $\{\Phi^*(F_j)\}$ が位相値測度であるような量子チャネルである。 本稿では,そのクラウス表現の観点から位相検索可能な量子チャネルについて検討する。 量子チャネル$\Phi$ of Choi's rank-$2$ の場合、位相検索可能な必要十分条件が得られる。 一般的な場合、いくつかの必要条件および/または十分な条件を示す。 特に、クラス作用素の関連する行列値の合同スペクトルの観点から必要十分条件が得られる。 さらに、例えば、ランク 1 の観測可能な最小数の $\{f_{j}\}$ が存在し、$\{\phi^*(f_j)\}$ が$h_a$ の位相検索を行うような量子チャネルを構築する問題についても検討する。 逆に、与えられた階数 1 の観測可能集合 $\{F_{j}\}_{j=1}^{N}$ に対して、与えられた 1 つの 1 つのleq r\leq N$ に対して、Choi の階数-r$ の位相検索可能な量子チャネル $\Phi$ を明示的に構成できる十分な条件を示す。

A phase retrievable quantum channel refers to a quantum channel $\Phi: B(H_A)\to B(H_B)$ such that there is a positive operator valued measure (POVM) $\{F_{j}\}$ in $B(H_{B})$ and $\{\Phi^*(F_j)\}$ is a phase retrievable operator valued frame. In this paper we examine the phase retrievable quantum channels in terms of their Kraus representations. For quantum channels $\Phi$ of Choi's rank-$2$, we obtain a necessary and sufficient condition under which it is phase retrievable. For the general case, we present several necessary and/or sufficient conditions. In particular, a necessary and sufficient condition is obtained in terms of the relevant matrix-valued joint spectrum of the Kraus operators. Additionally, we also examine, by examples, the problem of constructing quantum channels such that there exists a minimal number of rank-one observables $\{F_{j}\}$ such that $\{\Phi^*(F_j)\}$ does phase retrieval for $H_A$. Conversely, for a given set of rank-one observables $\{F_{j}\}_{j=1}^{N}$, we present a sufficient condition under which, for every $1\leq r\leq N$ given, a phase retrievable quantum channel $\Phi$ of Choi's rank-$r$ can be explicitly constructed.
翻訳日:2023-11-29 20:50:04 公開日:2023-11-27
# 分類器の深層学習におけるクロスエントロピー - ISBEエラーは必要なすべて

Cross Entropy in Deep Learning of Classifiers Is Unnecessary -- ISBE Error is All You Need ( http://arxiv.org/abs/2311.16357v1 )

ライセンス: Link先を確認
Wladyslaw Skarbek(参考訳) ディープラーニング分類器では、コスト関数は通常、SoftMaxとCrossEntropy関数の組み合わせの形を取る。 ソフトマックスユニットは、モデルネットワークによって予測されるスコアを、対象のメンバシップの度合い(確率)を所定のクラスに変換する。 一方、クロスエントロピーは、目標スコアの分布からこの予測の発散を測定する。 本研究は、分類器の深層学習におけるクロスエントロピー計算の冗長性に関する論文を正当化するisbe機能を導入する。 エントロピーの計算を省略できるだけでなく、バックプロパゲーションの間、その後方変換のために正規化単位にエラーを指示する必要がない。 その代わりに、エラーはモデルのネットワークに直接送られる。 パーセプトロンと畳み込みネットワークの例をMNISTコレクションの画像の分類器として用いて、ISBEは結果がSoftMaxだけでなく、Sigmoid、Tanh、あるいはハード変種であるHardSigmoid、HardTanhといった他のアクティベーション関数で劣化することが観察されている。 さらに、前段と後段の合計時間内に最大3%の時間が節約される。 この記事は主に、深層モデル学習に関心を持つプログラマと学生を対象としている。 例えば、isbeユニットの実装方法をコードスニペットで示すが、softmaxのトリックが再配置のあるsoftmax関数のクラスにのみ適用されることを正式に証明している。

In deep learning classifiers, the cost function usually takes the form of a combination of SoftMax and CrossEntropy functions. The SoftMax unit transforms the scores predicted by the model network into assessments of the degree (probabilities) of an object's membership to a given class. On the other hand, CrossEntropy measures the divergence of this prediction from the distribution of target scores. This work introduces the ISBE functionality, justifying the thesis about the redundancy of cross entropy computation in deep learning of classifiers. Not only can we omit the calculation of entropy, but also, during back-propagation, there is no need to direct the error to the normalization unit for its backward transformation. Instead, the error is sent directly to the model's network. Using examples of perceptron and convolutional networks as classifiers of images from the MNIST collection, it is observed for ISBE that results are not degraded with SoftMax only, but also with other activation functions such as Sigmoid, Tanh, or their hard variants HardSigmoid and HardTanh. Moreover, up to three percent of time is saved within the total time of forward and backward stages. The article is addressed mainly to programmers and students interested in deep model learning. For example, it illustrates in code snippets possible ways to implement ISBE units, but also formally proves that the softmax trick only applies to the class of softmax functions with relocations.
翻訳日:2023-11-29 20:49:35 公開日:2023-11-27
# 共有表現の爆発による拡散確率モデルの改善

Improving Denoising Diffusion Probabilistic Models via Exploiting Shared Representations ( http://arxiv.org/abs/2311.16353v1 )

ライセンス: Link先を確認
Delaram Pirhayatifard, Mohammad Taha Toghani, Guha Balakrishnan, C\'esar A. Uribe(参考訳) 本研究では,ノイズ拡散過程を逆転させて高品質な画像を生成する生成モデルのクラスである拡散確率モデル (DDPM) について,限られたデータを用いたマルチタスク画像生成の課題に対処する。 本稿では,少数ショット学習から表現に基づく手法を活用して,タスクの異なるサンプルを効果的に学習するSR-DDPMを提案する。 提案手法は,共有パラメータを持つコアメタアーキテクチャ,すなわち排他パラメータを持つタスク固有層から構成される。 多様なデータ分布間の類似性を利用することで,画像品質を損なうことなく複数のタスクにスケールできる。 本手法を標準画像データセットで評価し,fid と ssim の指標で非条件ddpm および条件ddpm を上回っていることを示す。

In this work, we address the challenge of multi-task image generation with limited data for denoising diffusion probabilistic models (DDPM), a class of generative models that produce high-quality images by reversing a noisy diffusion process. We propose a novel method, SR-DDPM, that leverages representation-based techniques from few-shot learning to effectively learn from fewer samples across different tasks. Our method consists of a core meta architecture with shared parameters, i.e., task-specific layers with exclusive parameters. By exploiting the similarity between diverse data distributions, our method can scale to multiple tasks without compromising the image quality. We evaluate our method on standard image datasets and show that it outperforms both unconditional and conditional DDPM in terms of FID and SSIM metrics.
翻訳日:2023-11-29 20:49:09 公開日:2023-11-27
# ツイリングチャネルのゼロ誤差補正性と位相回復性

Zero Error Correctibility and Phase Retrievability for Twirling Channels ( http://arxiv.org/abs/2311.16349v1 )

ライセンス: Link先を確認
Kai Liu, Deguang Han(参考訳) twirling channel は連続ユニタリ表現 $\pi = \sum_{i}^{\oplus} m_i\pi_i$ によって誘導される量子チャネルであり、ここで $\pi_i$ は既約な既約表現である。 最小混合ユニタリ階数 $\phi_{\pi}$ に関する最近の研究に動機づけられ、独立数、ゼロエラー容量、量子符号、直交指数、量子チャネルの位相検索可能性、および既約表現多重度 $m_i$、既約表現次元 $\dim h_{\pi_i}$ との接続について検討する。 特に、$\Phi_{\pi}$の独立数は乗算の和であり、$\Phi_{\pi}$の直交指数はそれらの表現次元の和であり、ゼロエラー容量は$\log (\sum_{i=1}^{d}m_i)$に等しいことを示す。 また, 位相検索可能なフレームの最小長を$c^n$ とすることで, 位相検索可能性の下限を示す。

A twirling channel is a quantum channel induced by a continuous unitary representation $\pi = \sum_{i}^{\oplus} m_i\pi_i$, where $\pi_i$ are inequivalent irreducible representations. Motivated by a recent work \cite{Twirling} on minimal mixed unitary rank of $\Phi_{\pi}$, we explore the connections of the independence number, zero error capacity, quantum codes, orthogonality index and phase retrievability of the quantum channel $\Phi_{\pi}$ with the irreducible representation multiplicities $m_i$, the irreducible representation dimensions $\dim H_{\pi_i}$. In particular we show that the independence number of $\Phi_{\pi}$ is the sum of the multiplicities, the orthogonal index of $\Phi_{\pi}$ is exactly the sum of those representation dimensions, and the zero-error capacity is equal to $\log (\sum_{i=1}^{d}m_i)$. We also present a lower bound for the phase retrievability in terms of the minimal length of phase retrievable frames for $C^n$.
翻訳日:2023-11-29 20:48:53 公開日:2023-11-27
# 非相対論的フェルミ気体の絡み合いハミルトニアン

Entanglement Hamiltonian of a nonrelativistic Fermi gas ( http://arxiv.org/abs/2311.16348v1 )

ライセンス: Link先を確認
Viktor Eisler(参考訳) 任意の次元の非相対論的自由フェルミオン気体の基底状態における球面領域の絡み合いハミルトニアンについて検討する。 各セクターにおける絡み合いスペクトルは線形ポテンシャルにおけるホッピング鎖のスペクトルと同一であり、角運動量がサブシステム境界の役割を担っていることを示す。 さらに、固有函数は共形場理論によって予測される形式を正確に持つ可換微分作用素から従う。 半径フェルミ速度によって再スケールされたこの作用素は、類似の勾配鎖のエッジレジームに属する大きな角モーメントを除いて、絡み合いハミルトニアンの完全な近似を与える。 したがって、共形場の理論の結果は1次元でのみ漸近的に完全となる。

We study the entanglement Hamiltonian for a spherical domain in the ground state of a nonrelativistic free-fermion gas in arbitrary dimensions. Decomposed into a set of radial entanglement Hamiltonians, we show that the entanglement spectrum in each sector is identical to that of a hopping chain in a linear potential, with the angular momentum playing the role of the subsystem boundary. Furthermore, the eigenfunctions follow from a commuting differential operator that has exactly the form predicted by conformal field theory. Rescaled by the radial Fermi velocity, this operator gives a perfect approximation of the entanglement Hamiltonian, except for large angular momenta that belong to the edge regime in the analogous gradient chain. One thus finds that the conformal field theory result becomes asymptotically exact only in one dimension.
翻訳日:2023-11-29 20:48:27 公開日:2023-11-27
# 点雲上の教師なし領域適応のためのプログレッシブターゲット型特徴拡張

Progressive Target-Styled Feature Augmentation for Unsupervised Domain Adaptation on Point Clouds ( http://arxiv.org/abs/2311.16474v1 )

ライセンス: Link先を確認
Zicheng Wang, Zhen Zhao, Yiming Wu, Luping Zhou and Dong Xu(参考訳) 教師なしのドメイン適応は、ポイントクラウド分析の分野で重要な課題であり、あるデータセットでトレーニングされたモデルは、ドメインシフトによって新しいシナリオでうまく機能するのに苦労することが多い。 先行研究では,特徴抽出器適応のための敵対的訓練や自己教師付き学習を用いてこの問題に取り組むが,対象領域から抽出された特徴をソース教師付き分類器で区別することは依然として困難である。 本研究では,プログレッシブターゲット型特徴拡張(PTSFA)と呼ばれる新しい手法を提案する。 特徴抽出器適応に焦点を当てた従来の研究とは異なり、PTSFAアプローチは分類器適応に焦点を当てている。 それは、分類器にターゲットスタイルのソース機能を認識し、ターゲットドメインに徐々に適応させることを目的としている。 PTSFAフレームワーク内の予測の信頼性を高め、識別的特徴抽出を促進するため、新たな中間領域アプローチ(IDA)戦略を導入する。 本手法はベンチマークデータセット上で検証を行い,新たな最先端性能を実現する。 私たちのコードはhttps://github.com/xiaoyao3302/ptsfaで利用可能です。

Unsupervised domain adaptation is a critical challenge in the field of point cloud analysis, as models trained on one set of data often struggle to perform well in new scenarios due to domain shifts. Previous works tackle the problem by using adversarial training or self-supervised learning for feature extractor adaptation, but ensuring that features extracted from the target domain can be distinguished by the source-supervised classifier remains challenging. In this work, we propose a novel approach called progressive target-styled feature augmentation (PTSFA). Unlike previous works that focus on feature extractor adaptation, our PTSFA approach focuses on classifier adaptation. It aims to empower the classifier to recognize target-styled source features and progressively adapt to the target domain. To enhance the reliability of predictions within the PTSFA framework and encourage discriminative feature extraction, we further introduce a new intermediate domain approaching (IDA) strategy. We validate our method on the benchmark datasets, where our method achieves new state-of-the-art performance. Our code is available at https://github.com/xiaoyao3302/PTSFA.
翻訳日:2023-11-29 20:27:24 公開日:2023-11-27
# 知覚Human:3次元連続合成画像を用いたPrompt-to-NeRF3Dヒューマンジェネレーション

Deceptive-Human: Prompt-to-NeRF 3D Human Generation with 3D-Consistent Synthetic Images ( http://arxiv.org/abs/2311.16499v1 )

ライセンス: Link先を確認
Shiu-hong Kao, Xinhang Liu, Yu-Wing Tai, Chi-Keung Tang(参考訳) 本稿では,最先端制御拡散モデル(ControlNetなど)を利用して高品質な制御可能な3次元NeRFを生成する新しいPrompt-to-NeRFフレームワークであるDeceptive-Humanを提案する。 ドリームフュージョンやドリームヒューマンのような直接的な3次元生成アプローチとは異なり、欺き-人間は再構築品質を高めるために進歩的な洗練技術を用いる。 これは、ビュー一貫性損失の制御ネットから生成された高品質な合成人間の画像を活用することで実現される。 本手法は,テキストプロンプトや3Dメッシュ,ポーズ,シード画像などの付加データを含む多モード入力を,多目的かつ容易に拡張可能である。 結果として得られる3D人間のNeRFモデルは、360度の視点から高度光写実主義的ノベルビューの合成を促進する。 多視点で一貫した合成人間のイメージを幻覚させるための知覚ヒューマンの鍵は、我々の進歩的な微調整戦略にある。 この戦略は、人間のnerfモデルを改善するために、各中間ステップで提供されたマルチモーダル入力を使用してビューを反復的に強化することを含む。 この反復的精錬プロセスでは、下層の密度推定に対する干渉を防ぐために、ビュー依存の外観を体系的に排除する。 広汎な質的および定量的な比較実験により、我々の偽造人間モデルが最先端の応用品質を達成することが示された。

This paper presents Deceptive-Human, a novel Prompt-to-NeRF framework capitalizing state-of-the-art control diffusion models (e.g., ControlNet) to generate a high-quality controllable 3D human NeRF. Different from direct 3D generative approaches, e.g., DreamFusion and DreamHuman, Deceptive-Human employs a progressive refinement technique to elevate the reconstruction quality. This is achieved by utilizing high-quality synthetic human images generated through the ControlNet with view-consistent loss. Our method is versatile and readily extensible, accommodating multimodal inputs, including a text prompt and additional data such as 3D mesh, poses, and seed images. The resulting 3D human NeRF model empowers the synthesis of highly photorealistic novel views from 360-degree perspectives. The key to our Deceptive-Human for hallucinating multi-view consistent synthetic human images lies in our progressive finetuning strategy. This strategy involves iteratively enhancing views using the provided multimodal inputs at each intermediate step to improve the human NeRF model. Within this iterative refinement process, view-dependent appearances are systematically eliminated to prevent interference with the underlying density estimation. Extensive qualitative and quantitative experimental comparison shows that our deceptive human models achieve state-of-the-art application quality.
翻訳日:2023-11-29 20:16:17 公開日:2023-11-27
# Mip-Splatting:エイリアスフリーの3Dガウスプラッティング

Mip-Splatting: Alias-free 3D Gaussian Splatting ( http://arxiv.org/abs/2311.16493v1 )

ライセンス: Link先を確認
Zehao Yu, Anpei Chen, Binbin Huang, Torsten Sattler, Andreas Geiger(参考訳) 近年, 3D Gaussian Splatting は目覚ましいビュー合成結果を示し, 忠実度と効率性が向上した。 しかし、焦点距離やカメラ距離を変えることで、サンプリングレートを変更すれば、強いアーティファクトが観察できる。 この現象の原因は,3次元周波数制約の欠如と2次元拡張フィルタの利用によると考えられる。 そこで本研究では,3次元ガウスプリミティブのサイズを,入力ビューによる最大サンプリング周波数に基づいて制限し,ズームイン時の高周波アーチファクトを除去した3次元平滑化フィルタを提案する。 さらに、2Dダイレーションを2Dミップフィルタに置き換え、2Dボックスフィルタをシミュレートし、エイリアスとダイレーションの問題を効果的に軽減する。 シングルスケール画像のトレーニングや複数スケールでのテストなどのシナリオを含む評価は、我々のアプローチの有効性を検証する。

Recently, 3D Gaussian Splatting has demonstrated impressive novel view synthesis results, reaching high fidelity and efficiency. However, strong artifacts can be observed when changing the sampling rate, \eg, by changing focal length or camera distance. We find that the source for this phenomenon can be attributed to the lack of 3D frequency constraints and the usage of a 2D dilation filter. To address this problem, we introduce a 3D smoothing filter which constrains the size of the 3D Gaussian primitives based on the maximal sampling frequency induced by the input views, eliminating high-frequency artifacts when zooming in. Moreover, replacing 2D dilation with a 2D Mip filter, which simulates a 2D box filter, effectively mitigates aliasing and dilation issues. Our evaluation, including scenarios such a training on single-scale images and testing on multiple scales, validates the effectiveness of our approach.
翻訳日:2023-11-29 20:15:52 公開日:2023-11-27
# VLPrompt: パノラマシーングラフ生成のためのビジョン言語プロンプト

VLPrompt: Vision-Language Prompting for Panoptic Scene Graph Generation ( http://arxiv.org/abs/2311.16492v1 )

ライセンス: Link先を確認
Zijian Zhou, Miaojing Shi, Holger Caesar(参考訳) Panoptic Scene Graph Generation (PSG) は、オブジェクトを同時に分割し、オブジェクト間の関係を予測することで、包括的な画像理解を実現することを目的としている。 しかし、関係性の長い問題は現実の応用において不満足な結果をもたらす。 従来の手法は、主に視覚情報に頼るか、オブジェクトや関係名などの限られた言語情報を利用するため、言語情報の有用性を見越す。 近年のLarge Language Models (LLMs) の進歩を生かして,言語情報を用いて関係予測,特に稀な関係予測を支援することを提案する。 そこで本研究では,LLMから画像と言語情報から視覚情報を取得するビジョン・ランゲージ・プロンプト(VLPrompt)モデルを提案する。 そして、注意機構に基づくプロンプトネットワークを通じて、正確な関係予測を行う。 広範な実験により,vlpromptはpsgデータセットにおける従来の最先端手法を著しく上回っており,言語情報を取り込んだり,関係のロングテール問題を軽減する効果が証明された。

Panoptic Scene Graph Generation (PSG) aims at achieving a comprehensive image understanding by simultaneously segmenting objects and predicting relations among objects. However, the long-tail problem among relations leads to unsatisfactory results in real-world applications. Prior methods predominantly rely on vision information or utilize limited language information, such as object or relation names, thereby overlooking the utility of language information. Leveraging the recent progress in Large Language Models (LLMs), we propose to use language information to assist relation prediction, particularly for rare relations. To this end, we propose the Vision-Language Prompting (VLPrompt) model, which acquires vision information from images and language information from LLMs. Then, through a prompter network based on attention mechanism, it achieves precise relation prediction. Our extensive experiments show that VLPrompt significantly outperforms previous state-of-the-art methods on the PSG dataset, proving the effectiveness of incorporating language information and alleviating the long-tail problem of relations.
翻訳日:2023-11-29 20:15:33 公開日:2023-11-27
# SIRAN: Sinkhorn Distance Regularized Adversarial Network for DEM Super- resolution using Discriminative Spatial Self-attention (特集:情報ネットワーク)

SIRAN: Sinkhorn Distance Regularized Adversarial Network for DEM Super-resolution using Discriminative Spatial Self-attention ( http://arxiv.org/abs/2311.16490v1 )

ライセンス: Link先を確認
Subhajit Paul, Ashutosh Gupta(参考訳) DEM(Digital Elevation Model)は、リモートセンシング領域において、表面標高情報に関連するさまざまなアプリケーションを分析し、探索するための重要な側面である。 本研究では,高分解能マルチスペクトル(MX)衛星画像を用いた高分解能DEMの生成について,対角学習を取り入れて検討する。 この過程を迅速に制御するために,判別子空間写像の偏光自着の概念と,集中結合型マルチレジデントブロック(dmrb)モジュールを導入し,効率的な勾配流れを支援する。 さらに,Sinkhorn 距離を従来の GAN に最適化することで,対角学習の安定性を向上する目的関数を提案する。 この点に関して、勾配問題と数値収束の両面から、より良い性能の理論的および実証的なサブストラテジを提供する。 得られた最先端手法を用いて定性的および定量的な結果を示す。 シャトルレーダ地形計画(srtm)とcartosat-1のdemデータセットを実験した結果,提案手法は他の学習に基づく手法に対して好適な性能を示す。 また、モデルの性能を示すために、多様なシグネチャを持つ地形を網羅する高解像度DEMを複数生成し、視覚化する。

Digital Elevation Model (DEM) is an essential aspect in the remote sensing domain to analyze and explore different applications related to surface elevation information. In this study, we intend to address the generation of high-resolution DEMs using high-resolution multi-spectral (MX) satellite imagery by incorporating adversarial learning. To promptly regulate this process, we utilize the notion of polarized self-attention of discriminator spatial maps as well as introduce a Densely connected Multi-Residual Block (DMRB) module to assist in efficient gradient flow. Further, we present an objective function related to optimizing Sinkhorn distance with traditional GAN to improve the stability of adversarial learning. In this regard, we provide both theoretical and empirical substantiation of better performance in terms of vanishing gradient issues and numerical convergence. We demonstrate both qualitative and quantitative outcomes with available state-of-the-art methods. Based on our experiments on DEM datasets of Shuttle Radar Topographic Mission (SRTM) and Cartosat-1, we show that the proposed model performs preferably against other learning-based state-of-the-art methods. We also generate and visualize several high-resolution DEMs covering terrains with diverse signatures to show the performance of our model.
翻訳日:2023-11-29 20:14:39 公開日:2023-11-27
# 効果的な連続学習のためのクラス適応型サンプリングポリシー

Class-Adaptive Sampling Policy for Efficient Continual Learning ( http://arxiv.org/abs/2311.16485v1 )

ライセンス: Link先を確認
Hossein Rezaei, Mohammad Sabokrou(参考訳) 継続学習(CL)は、忘れずに過去の経験から情報を保存しながら、新しい知識を獲得することを目的としている。 バッファベースのメソッド(すなわち、以前のタスクからサンプルを保持する)は許容可能なパフォーマンスを達成したが、バッファの割り当て方法の決定は依然として重要な課題である。 最近の研究はこれらの方法の洗練に重点を置いているが、サンプルが学習プロセスに与える影響を十分に考慮できていない場合が多く、学習されるクラス/コンセプトの複雑さをしばしば見落としている。 一般に、これらの方法は個々のクラスの貢献を直接考慮しない。 しかし,本研究では,より難易度の高いクラスは,より難易度の高いクラスに比べて多くのサンプルを保存する必要があることを示唆している。 この問題に対処するため,バッファ内のストレージ空間を動的に割り当てる「クラス適応サンプリングポリシー(CASP)」という新しい手法とポリシーを提案する。 クラスコントリビューションと難易度の概念を活用することで、CASPはバッファ空間を適応的に管理し、特定のクラスがバッファの大部分を占めながら、他のクラスのストレージを削減できる。 このアプローチは知識保持と利用の効率を大幅に向上させる。 CASPはCLのパフォーマンスと効率を高める汎用的なソリューションを提供する。 動的バッファ割り当ての要求を満たし、異なるクラスのさまざまなコントリビューションと、時間とともに学習の複雑さを調整します。

Continual learning (CL) aims to acquire new knowledge while preserving information from previous experiences without forgetting. Though buffer-based methods (i.e., retaining samples from previous tasks) have achieved acceptable performance, determining how to allocate the buffer remains a critical challenge. Most recent research focuses on refining these methods but often fails to sufficiently consider the varying influence of samples on the learning process, and frequently overlooks the complexity of the classes/concepts being learned. Generally, these methods do not directly take into account the contribution of individual classes. However, our investigation indicates that more challenging classes necessitate preserving a larger number of samples compared to less challenging ones. To address this issue, we propose a novel method and policy named 'Class-Adaptive Sampling Policy' (CASP), which dynamically allocates storage space within the buffer. By utilizing concepts of class contribution and difficulty, CASP adaptively manages buffer space, allowing certain classes to occupy a larger portion of the buffer while reducing storage for others. This approach significantly improves the efficiency of knowledge retention and utilization. CASP provides a versatile solution to boost the performance and efficiency of CL. It meets the demand for dynamic buffer allocation, accommodating the varying contributions of different classes and their learning complexities over time.
翻訳日:2023-11-29 20:13:36 公開日:2023-11-27
# ChartLlama: チャートの理解と生成のためのマルチモーダルLLM

ChartLlama: A Multimodal LLM for Chart Understanding and Generation ( http://arxiv.org/abs/2311.16483v1 )

ライセンス: Link先を確認
Yucheng Han, Chi Zhang, Xin Chen, Xu Yang, Zhibin Wang, Gang Yu, Bin Fu, Hanwang Zhang(参考訳) マルチモーダルな大規模言語モデルは、ほとんどの視覚言語タスクで印象的なパフォーマンスを示している。 しかし、このモデルは一般的に特定のドメインデータの理解能力に欠けており、特にチャートの数値を解釈する場合はそうである。 これは主に、関連するマルチモーダル命令チューニングデータセットがないためである。 本稿では,GPT-4を利用した高品質な命令チューニングデータセットを作成する。 そこで我々は,表データの生成,チャート図の作成,個別のチューニングデータの設計を行う多段階データ生成プロセスを開発した。 提案手法の柔軟性により,リソース消費の低減を図りつつ,多様で高品質なインストラクション・チューニング・データを生成することができる。 さらに、既存のデータセットにはまだ含まれていない幅広いチャートやタスクタイプを組み込むことができます。 次に、生成したデータセットを使ってトレーニングしたマルチモーダルな大規模言語モデルであるChartLlamaを紹介します。 chartllamaは、chartqa、chart-to-text、chart-extraction evaluationベンチマークのすべてのメソッドを上回っている。 さらに、chartllamaは、新しいチャートとタスクタイプを含む特別にコンパイルされたチャートデータセットのベースラインを大幅に改善します。 ChartLlamaの結果は、グラフの理解度を高めるために提案したデータ生成手法の価値と可能性を確認する。

Multi-modal large language models have demonstrated impressive performances on most vision-language tasks. However, the model generally lacks the understanding capabilities for specific domain data, particularly when it comes to interpreting chart figures. This is mainly due to the lack of relevant multi-modal instruction tuning datasets. In this article, we create a high-quality instruction-tuning dataset leveraging GPT-4. We develop a multi-step data generation process in which different steps are responsible for generating tabular data, creating chart figures, and designing instruction tuning data separately. Our method's flexibility enables us to generate diverse, high-quality instruction-tuning data consistently and efficiently while maintaining a low resource expenditure. Additionally, it allows us to incorporate a wider variety of chart and task types not yet featured in existing datasets. Next, we introduce ChartLlama, a multi-modal large language model that we've trained using our created dataset. ChartLlama outperforms all prior methods in ChartQA, Chart-to-text, and Chart-extraction evaluation benchmarks. Additionally, ChartLlama significantly improves upon the baseline in our specially compiled chart dataset, which includes new chart and task types. The results of ChartLlama confirm the value and huge potential of our proposed data generation method in enhancing chart comprehension.
翻訳日:2023-11-29 20:12:56 公開日:2023-11-27
# Animatable 3D Gaussian: 複数のヒトアバターの高速かつ高品質な再構成

Animatable 3D Gaussian: Fast and High-Quality Reconstruction of Multiple Human Avatars ( http://arxiv.org/abs/2311.16482v1 )

ライセンス: Link先を確認
Yang Liu, Xiang Huang, Minghan Qin, Qinwei Lin, Haoqian Wang(参考訳) 神経放射野は高品質な人間のアバターを再構築できるが、訓練やレンダリングには費用がかかる。 本稿では,入力画像とポーズから人間のアバターを学習するAnimatable 3D Gaussianを提案する。 我々は3次元ガウスアンを3次元ガウスアンと対応する骨格を標準空間でモデル化し、入力されたポーズに応じて3次元ガウスアンを空間に変形させることにより、ダイナミックな人間のシーンに拡張する。 また,複雑な動きや動的影を含むシーンにおいて,より高品質な再構成を実現するための時間依存型オクルージョンを提案する。 新規なビュー合成と新規ポーズ合成の両タスクにおいて,本手法はトレーニング時間,レンダリング速度,再現性において既存手法よりも優れる。 本手法は,25秒のトレーニングで10人のシーンにおいて,複数のシーンに容易に拡張可能であり,それと同等の新規ビュー合成結果が得られる。

Neural radiance fields are capable of reconstructing high-quality drivable human avatars but are expensive to train and render. To reduce consumption, we propose Animatable 3D Gaussian, which learns human avatars from input images and poses. We extend 3D Gaussians to dynamic human scenes by modeling a set of skinned 3D Gaussians and a corresponding skeleton in canonical space and deforming 3D Gaussians to posed space according to the input poses. We introduce hash-encoded shape and appearance to speed up training and propose time-dependent ambient occlusion to achieve high-quality reconstructions in scenes containing complex motions and dynamic shadows. On both novel view synthesis and novel pose synthesis tasks, our method outperforms existing methods in terms of training time, rendering speed, and reconstruction quality. Our method can be easily extended to multi-human scenes and achieve comparable novel view synthesis results on a scene with ten people in only 25 seconds of training.
翻訳日:2023-11-29 20:12:39 公開日:2023-11-27
# MI-Gen:ギガピクセル全スライディング画像のマルチインスタンス画像生成

MI-Gen: Multiple Instance Generation of Pathology Reports for Gigapixel Whole-Slide Images ( http://arxiv.org/abs/2311.16480v1 )

ライセンス: Link先を確認
Pingyi Chen, Honglin Li, Chenglu Zhu, Sunyi Zheng, Lin Yang(参考訳) 全スライド画像は、癌の診断と治療のためのデジタル病理の基礎である。 病理報告を書くことは、経験の浅い病理学者にとって面倒で誤りやすい。 作業負荷を低減し, 臨床自動化を改善するため, スライド画像全体の病態レポートの作成方法について検討した。 データエンドでは、最大のWSIテキストデータセット(TCGA-PathoText)をキュレートしました。 具体的には,TCGAにおける診断スライドの認識とクリーニングにより,約10000の高品質なWSIテキストペアを視覚言語モデルで収集した。 モデル終端では、ギガピクセルWSIに対する病理報告を生成できる多重インスタンス生成モデル(MI-Gen)を提案する。 TCGA-PathoTextの最大のサブセットにモデルをベンチマークする。 実験結果から,複数の臨床所見を含む病理所見が得られた。 さらに、WSIテキスト予測は、視覚言語による事前学習のアプローチと見なすことができ、がんのグレーディングや表現型化といった下流診断タスクにモデルを転送することができる。 BRCAサブタイピングにおいて,病的報告からの単純な意味抽出が,パラメータや微調整を伴わずに最高の性能(F1スコアの0.838)を達成できることが観察された。 収集したデータセットと関連するコードは、すべて公開されます。

Whole slide images are the foundation of digital pathology for the diagnosis and treatment of carcinomas. Writing pathology reports is laborious and error-prone for inexperienced pathologists. To reduce the workload and improve clinical automation, we investigate how to generate pathology reports given whole slide images. On the data end, we curated the largest WSI-text dataset (TCGA-PathoText). In specific, we collected nearly 10000 high-quality WSI-text pairs for visual-language models by recognizing and cleaning pathology reports which narrate diagnostic slides in TCGA. On the model end, we propose the multiple instance generative model (MI-Gen) which can produce pathology reports for gigapixel WSIs. We benchmark our model on the largest subset of TCGA-PathoText. Experimental results show our model can generate pathology reports which contain multiple clinical clues. Furthermore, WSI-text prediction can be seen as an approach of visual-language pre-training, which enables our model to be transferred to downstream diagnostic tasks like carcinoma grading and phenotyping. We observe that simple semantic extraction from the pathology reports can achieve the best performance (0.838 of F1 score) on BRCA subtyping without adding extra parameters or tricky fine-tuning. Our collected dataset and related code will all be publicly available.
翻訳日:2023-11-29 20:12:00 公開日:2023-11-27
# 視覚指導による視覚言語モデルの幻覚緩和

Mitigating Hallucination in Visual Language Models with Visual Supervision ( http://arxiv.org/abs/2311.16479v1 )

ライセンス: Link先を確認
Zhiyang Chen, Yousong Zhu, Yufei Zhan, Zhaowen Li, Chaoyang Zhao, Jinqiao Wang, Ming Tang(参考訳) 大規模な視覚言語モデル(LVLM)は幻覚に悩まされ、画像の内容と矛盾する反応を生じる。 鍵となる問題は、詳細なコンテンツをマルチモーダルなコンテキストで理解する能力の弱いことであり、これは主にトレーニングデータと損失関数の2つの要因によって引き起こされる。 ビジョン命令データセットは主にグローバル記述に焦点を当てており、自動回帰損失関数は画像理解よりもテキストモデリングを好む。 本稿では,LVLMの訓練を容易にするために,より詳細な視覚アノテーションや識別的視覚モデルを導入し,幻覚に遭遇することなくより正確な応答を生成できるようにする。 一方,panoptic scene graph dataset (psg) では,詳細な関係アノテーションを用いた画像テキストペアを生成する。 これらの会話は、画像内の詳細な事実により多くの注意を払い、マルチモーダルコンテキストに基づいた質問に答えるようモデルに促す。 一方で,sam と mask prediction loss を補助監督として統合し,lvlm に文脈関連オブジェクトを識別する能力を持たせ,より正確な応答を生成し,幻覚を緩和する。 さらに,LVLMの幻覚をより深く評価するために,新しいベンチマークRAH-Benchを提案する。 視覚幻覚を3つの異なるタイプに分割し、間違ったカテゴリ、属性、関係で画像と矛盾し、各タイプの詳細なサブメトリックとして偽陽性率を導入する。 本ベンチマークでは,従来のLLaVAに比べて+8.4%向上し,他のモデルにまたがって広範な性能向上を実現している。

Large vision-language models (LVLMs) suffer from hallucination a lot, generating responses that apparently contradict to the image content occasionally. The key problem lies in its weak ability to comprehend detailed content in a multi-modal context, which can be mainly attributed to two factors in training data and loss function. The vision instruction dataset primarily focuses on global description, and the auto-regressive loss function favors text modeling rather than image understanding. In this paper, we bring more detailed vision annotations and more discriminative vision models to facilitate the training of LVLMs, so that they can generate more precise responses without encounter hallucination. On one hand, we generate image-text pairs with detailed relationship annotations in panoptic scene graph dataset (PSG). These conversations pay more attention on detailed facts in the image, encouraging the model to answer questions based on multi-modal contexts. On the other hand, we integrate SAM and mask prediction loss as auxiliary supervision, forcing the LVLMs to have the capacity to identify context-related objects, so that they can generate more accurate responses, mitigating hallucination. Moreover, to provide a deeper evaluation on the hallucination in LVLMs, we propose a new benchmark, RAH-Bench. It divides vision hallucination into three different types that contradicts the image with wrong categories, attributes or relations, and introduces False Positive Rate as detailed sub-metric for each type. In this benchmark, our approach demonstrates an +8.4% enhancement compared to original LLaVA and achieves widespread performance improvements across other models.
翻訳日:2023-11-29 20:11:41 公開日:2023-11-27
# RetouchUAA:イメージリタッチによる非制限の敵攻撃

RetouchUAA: Unconstrained Adversarial Attack via Image Retouching ( http://arxiv.org/abs/2311.16478v1 )

ライセンス: Link先を確認
Mengda Xie, Yiling He, Meie Fang(参考訳) ディープニューラルネットワーク(DNN)は、敵の例に影響を受けやすい。 従来の攻撃は、現実のシナリオを反映できず、解釈が難しい制御されたノイズのような摂動を生成する。 対照的に、最近の無拘束攻撃は、知覚可能だが目立たない攻撃のために現実世界で起こる自然な画像変換を模倣するが、後処理や制御不能な攻撃方向の無視による現実主義を損なう。 本稿では,DNNに対する潜在的な脅威を浮き彫りにした,リアルタイムの摂動を利用した非拘束型攻撃であるRetouchUAAを提案する。 既存の攻撃と比較して、RetouchUAAにはいくつかの顕著な利点がある。 まず、retouchuaaはイメージリタッチアタックフレームワークとリタッチスタイルガイダンスモジュールという2つの重要な設計を通して解釈可能で現実的な摂動を生成するのに優れている。 画像の線形化と、人間のリタッチ行動における局所的な処理のモデル化と意思決定の修正により、DNNのリタッチに対する堅牢性を理解するための明確で合理的なパイプラインを提供する。 後者は、敵のイメージを標準的なリタッチスタイルへと導き、そのリアリズムを保証する。 第2に、修正決定の正規化と永続的な攻撃戦略の設計により、RetouchUAAは優れた攻撃能力と防御の堅牢性を示し、DNNに深刻な脅威を与えている。 ImageNetとPlace365の実験によると、RetouchUAAは3つのDNNに対して100倍近いホワイトボックスアタックを達成し、ベースラインアタックよりも画像の自然性、転送性、防御ロバスト性の間のトレードオフを達成している。

Deep Neural Networks (DNNs) are susceptible to adversarial examples. Conventional attacks generate controlled noise-like perturbations that fail to reflect real-world scenarios and hard to interpretable. In contrast, recent unconstrained attacks mimic natural image transformations occurring in the real world for perceptible but inconspicuous attacks, yet compromise realism due to neglect of image post-processing and uncontrolled attack direction. In this paper, we propose RetouchUAA, an unconstrained attack that exploits a real-life perturbation: image retouching styles, highlighting its potential threat to DNNs. Compared to existing attacks, RetouchUAA offers several notable advantages. Firstly, RetouchUAA excels in generating interpretable and realistic perturbations through two key designs: the image retouching attack framework and the retouching style guidance module. The former custom-designed human-interpretability retouching framework for adversarial attack by linearizing images while modelling the local processing and retouching decision-making in human retouching behaviour, provides an explicit and reasonable pipeline for understanding the robustness of DNNs against retouching. The latter guides the adversarial image towards standard retouching styles, thereby ensuring its realism. Secondly, attributed to the design of the retouching decision regularization and the persistent attack strategy, RetouchUAA also exhibits outstanding attack capability and defense robustness, posing a heavy threat to DNNs. Experiments on ImageNet and Place365 reveal that RetouchUAA achieves nearly 100\% white-box attack success against three DNNs, while achieving a better trade-off between image naturalness, transferability and defense robustness than baseline attacks.
翻訳日:2023-11-29 20:11:15 公開日:2023-11-27
# TFMQ-DM:拡散モデルのための時間的特徴維持量子化

TFMQ-DM: Temporal Feature Maintenance Quantization for Diffusion Models ( http://arxiv.org/abs/2311.16503v1 )

ライセンス: Link先を確認
Yushi Huang, Ruihao Gong, Jing Liu, Tianlong Chen, Xianglong Liu(参考訳) 画像生成の一般的なフレームワークであるDiffusionモデルは、推論時間の拡張とかなりのメモリ要求のため、幅広い適用性の観点から大きな課題に直面している。 効率的なトレーニング後の量子化(ptq)は、これらの問題を従来のモデルで扱う上で重要である。 従来のモデルと異なり、拡散モデルは十分なマルチラウンドデノイジン化を達成するために時間ステップ$t$に大きく依存する。 通常、有限集合 $\{1, \ldots, t\}$ から$t$ はサンプリングデータに全く関係なくいくつかの加群によって時間的特徴に符号化される。 しかし、既存のPTQメソッドはこれらのモジュールを個別に最適化しない。 彼らは不適切な再建ターゲットと複雑なキャリブレーション手法を採用し、時間的特徴の深刻な乱れと軌道の偏り、圧縮効率の低下をもたらす。 そこで本研究では,時間ステップ$t$にのみ関連し,サンプリングデータとは無関係な時間的情報ブロックに基づく時間的特徴維持量化(tfmq)フレームワークを提案する。 先駆的なブロック設計により、時間的情報認識再構築(tiar)と有限集合校正(fsc)を考案し、全精度時間的特徴を限られた時間内に調整する。 フレームワークを備えることで、最も時間的な情報を維持でき、エンドツーエンドの生成品質を保証できます。 様々なデータセットと拡散モデルに関する広範囲な実験により、最先端の結果が証明された。 注目すべきことに、我々の量子化アプローチは初めて、4ビットの重み量子化の下での完全精度モデルとほぼ同等のモデル性能を達成する。 さらに,提案手法は計算コストをほとんど必要とせず,LSUN-Bedrooms の量子化時間を 256$ の$2.0 \times$ で高速化する。

The Diffusion model, a prevalent framework for image generation, encounters significant challenges in terms of broad applicability due to its extended inference times and substantial memory requirements. Efficient Post-training Quantization (PTQ) is pivotal for addressing these issues in traditional models. Different from traditional models, diffusion models heavily depend on the time-step $t$ to achieve satisfactory multi-round denoising. Usually, $t$ from the finite set $\{1, \ldots, T\}$ is encoded to a temporal feature by a few modules totally irrespective of the sampling data. However, existing PTQ methods do not optimize these modules separately. They adopt inappropriate reconstruction targets and complex calibration methods, resulting in a severe disturbance of the temporal feature and denoising trajectory, as well as a low compression efficiency. To solve these, we propose a Temporal Feature Maintenance Quantization (TFMQ) framework building upon a Temporal Information Block which is just related to the time-step $t$ and unrelated to the sampling data. Powered by the pioneering block design, we devise temporal information aware reconstruction (TIAR) and finite set calibration (FSC) to align the full-precision temporal features in a limited time. Equipped with the framework, we can maintain the most temporal information and ensure the end-to-end generation quality. Extensive experiments on various datasets and diffusion models prove our state-of-the-art results. Remarkably, our quantization approach, for the first time, achieves model performance nearly on par with the full-precision model under 4-bit weight quantization. Additionally, our method incurs almost no extra computational cost and accelerates quantization time by $2.0 \times$ on LSUN-Bedrooms $256 \times 256$ compared to previous works.
翻訳日:2023-11-29 20:01:12 公開日:2023-11-27
# MMMU: エキスパートAGIのための大規模多分野マルチモーダル理解と推論ベンチマーク

MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI ( http://arxiv.org/abs/2311.16502v1 )

ライセンス: Link先を確認
Xiang Yue, Yuansheng Ni, Kai Zhang, Tianyu Zheng, Ruoqi Liu, Ge Zhang, Samuel Stevens, Dongfu Jiang, Weiming Ren, Yuxuan Sun, Cong Wei, Botao Yu, Ruibin Yuan, Renliang Sun, Ming Yin, Boyuan Zheng, Zhenzhu Yang, Yibo Liu, Wenhao Huang, Huan Sun, Yu Su, Wenhu Chen(参考訳) MMMUは,大学レベルの教科知識と意図的推論を必要とする大規模多分野タスクのマルチモーダルモデルを評価するために設計された新しいベンチマークである。 mmmuには、大学の試験、クイズ、教科書から精細に収集された11.5kのマルチモーダルな質問が含まれており、アートとデザイン、ビジネス、科学、健康と医学、人文科学と社会科学、技術と工学の6つの分野をカバーしている。 これらの質問は30の被験者と183のサブフィールドにまたがり、チャート、図表、地図、テーブル、楽譜、化学構造など30の非常に異質な画像タイプで構成されている。 既存のベンチマークとは異なり、MMMUは高度な認識とドメイン固有の知識による推論に焦点を当てており、専門家が直面しているようなタスクを実行するための挑戦的なモデルである。 14のオープンソース LMM と独自の GPT-4V(ision) の評価は,MMMU がもたらす重大な課題を浮き彫りにしている。 高度なGPT-4Vでさえ56%の精度しか達成せず、改善の余地は大きい。 我々はMMMUがコミュニティを刺激し、専門家の汎用人工知能に向けた次世代のマルチモーダル基盤モデルを構築するだろうと考えている。

We introduce MMMU: a new benchmark designed to evaluate multimodal models on massive multi-discipline tasks demanding college-level subject knowledge and deliberate reasoning. MMMU includes 11.5K meticulously collected multimodal questions from college exams, quizzes, and textbooks, covering six core disciplines: Art & Design, Business, Science, Health & Medicine, Humanities & Social Science, and Tech & Engineering. These questions span 30 subjects and 183 subfields, comprising 30 highly heterogeneous image types, such as charts, diagrams, maps, tables, music sheets, and chemical structures. Unlike existing benchmarks, MMMU focuses on advanced perception and reasoning with domain-specific knowledge, challenging models to perform tasks akin to those faced by experts. Our evaluation of 14 open-source LMMs and the proprietary GPT-4V(ision) highlights the substantial challenges posed by MMMU. Even the advanced GPT-4V only achieves a 56% accuracy, indicating significant room for improvement. We believe MMMU will stimulate the community to build next-generation multimodal foundation models towards expert artificial general intelligence.
翻訳日:2023-11-29 20:00:45 公開日:2023-11-27
# LLMGA:マルチモーダル大言語モデルに基づく生成アシスタント

LLMGA: Multimodal Large Language Model based Generation Assistant ( http://arxiv.org/abs/2311.16500v1 )

ライセンス: Link先を確認
Bin Xia, Shiyin Wang, Yingfan Tao, Yitong Wang, and Jiaya Jia(参考訳) 本稿では,LLMGA(Large Language Model-based Generation Assistant)を紹介し,画像生成と編集を支援するために,LLM(Large Language Models)に固有の推論,理解,応答の膨大な知識と熟練度を活用する。 MLLM(Multimodal Large Language Models)が安定拡散(SD)を制御するための固定サイズ埋め込みを生成する既存のアプローチから切り離され、LSMGAはSDを正確に制御するための詳細な言語生成プロンプトを提供する。 これは、llmのコンテキスト理解を増強するだけでなく、生成プロンプトのノイズを低減し、より複雑で正確なコンテンツを持つ画像を生成し、ネットワークの解釈可能性を高める。 この目的のために、即時改善、類似画像生成、$\&$のアウトペイント、視覚的質問応答を含む包括的なデータセットをキュレートする。 さらに,二段階訓練方式を提案する。 第1段階では、画像生成と編集の特性を把握できるようにMLLMを訓練し、詳細なプロンプトを生成する。 第2段階では、SDを最適化してMLLMの生成プロンプトに合わせる。 また,画像編集中に生成領域と保存領域のテクスチャ,輝度,コントラストの差異を緩和する参照ベース復元ネットワークを提案する。 その結果, LLMGA は有望な生成能力を有し, 対話的手法で広範囲のアプリケーションを実現することができた。

In this paper, we introduce a Multimodal Large Language Model-based Generation Assistant (LLMGA), leveraging the vast reservoir of knowledge and proficiency in reasoning, comprehension, and response inherent in Large Language Models (LLMs) to assist users in image generation and editing. Diverging from existing approaches where Multimodal Large Language Models (MLLMs) generate fixed-size embeddings to control Stable Diffusion (SD), our LLMGA provides a detailed language generation prompt for precise control over SD. This not only augments LLM context understanding but also reduces noise in generation prompts, yields images with more intricate and precise content, and elevates the interpretability of the network. To this end, we curate a comprehensive dataset comprising prompt refinement, similar image generation, inpainting $\&$ outpainting, and visual question answering. Moreover, we propose a two-stage training scheme. In the first stage, we train the MLLM to grasp the properties of image generation and editing, enabling it to generate detailed prompts. In the second stage, we optimize SD to align with the MLLM's generation prompts. Additionally, we propose a reference-based restoration network to alleviate texture, brightness, and contrast disparities between generated and preserved regions during image editing. Extensive results show that LLMGA has promising generative capabilities and can enable wider applications in an interactive manner.
翻訳日:2023-11-29 20:00:03 公開日:2023-11-27
# magicanimate:拡散モデルを用いた時間的一貫性のある人間の画像アニメーション

MagicAnimate: Temporally Consistent Human Image Animation using Diffusion Model ( http://arxiv.org/abs/2311.16498v1 )

ライセンス: Link先を確認
Zhongcong Xu, Jianfeng Zhang, Jun Hao Liew, Hanshu Yan, Jia-Wei Liu, Chenxu Zhang, Jiashi Feng, Mike Zheng Shou(参考訳) 本稿では、特定の動きシーケンスに従って、特定の参照アイデンティティのビデオを生成することを目的とした、人間の画像アニメーションタスクについて検討する。 既存のアニメーションは、通常、フレームウォーピング技術を用いて参照画像を目標運動に向けてアニメーションする。 適切な結果を得たにもかかわらず、これらのアプローチは、時間的モデリングの欠如と参照アイデンティティの保存不足により、アニメーション全体を通して時間的一貫性を維持するという課題に直面している。 本稿では,時間的一貫性の向上,参照画像の忠実な保存,アニメーションの忠実性向上を目的とした拡散型フレームワークMagicAnimateを紹介する。 そこで我々はまず,時間情報をエンコードするビデオ拡散モデルを開発した。 次に、フレーム間の外観コヒーレンスを維持するために、参照画像の複雑な詳細を保持する新しい外観エンコーダを導入する。 この2つのイノベーションを活用して,ビデオアニメーションのスムーズな移行を促進するために,簡単なビデオ融合技術も活用した。 2つのベンチマークのベースラインアプローチよりも,本手法の方が優れていることを示す。 特に、我々のアプローチは、挑戦的なTikTokダンスデータセットにおけるビデオの忠実度において、最強のベースラインを38%以上上回っている。 コードとモデルは利用可能になる。

This paper studies the human image animation task, which aims to generate a video of a certain reference identity following a particular motion sequence. Existing animation works typically employ the frame-warping technique to animate the reference image towards the target motion. Despite achieving reasonable results, these approaches face challenges in maintaining temporal consistency throughout the animation due to the lack of temporal modeling and poor preservation of reference identity. In this work, we introduce MagicAnimate, a diffusion-based framework that aims at enhancing temporal consistency, preserving reference image faithfully, and improving animation fidelity. To achieve this, we first develop a video diffusion model to encode temporal information. Second, to maintain the appearance coherence across frames, we introduce a novel appearance encoder to retain the intricate details of the reference image. Leveraging these two innovations, we further employ a simple video fusion technique to encourage smooth transitions for long video animation. Empirical results demonstrate the superiority of our method over baseline approaches on two benchmarks. Notably, our approach outperforms the strongest baseline by over 38% in terms of video fidelity on the challenging TikTok dancing dataset. Code and model will be made available.
翻訳日:2023-11-29 19:59:37 公開日:2023-11-27
# GaitContour: Contour-Pose表現に基づく効率的な歩行認識

GaitContour: Efficient Gait Recognition based on a Contour-Pose Representation ( http://arxiv.org/abs/2311.16497v1 )

ライセンス: Link先を確認
Yuxiang Guo, Anshul Shah, Jiang Liu, Rama Chellappa, Cheng Peng(参考訳) 歩行認識は、外観情報ではなく歩行パターンに基づいて、被験者をしっかりと識別する。 近年、この分野は、濃密なシルエットマスクとスパースポーズキーポイントという2つの主要な入力表現に基づく学習方法によって支配されている。 本稿では,身体形状と身体部位情報の両方をコンパクトに表現する,新しい点に基づく輪郭配置表現を提案する。 さらに,GaitContourと呼ばれるローカル・グローバル・アーキテクチャを提案し,この新しい表現を活用して2段階の被写体埋め込みを効率的に計算する。 第1段階は5つの異なる身体領域から特徴を抽出する局所変圧器からなる。 次に第2段階は地域の特徴を集約し、地球規模の歩行表現を推定する。 このような設計はアテンション操作の複雑さを大幅に削減し、効率と性能を同時に向上させる。 大規模な実験を通して、GaitContourは従来の点ベースの手法よりもはるかに優れた性能を示し、シルエットベースの手法よりもはるかに効率的である。 かなりの注意をそらすデータセットでは、gaitcontourはsilhouetteベースのメソッドよりも優れています。

Gait recognition holds the promise to robustly identify subjects based on walking patterns instead of appearance information. In recent years, this field has been dominated by learning methods based on two principal input representations: dense silhouette masks or sparse pose keypoints. In this work, we propose a novel, point-based Contour-Pose representation, which compactly expresses both body shape and body parts information. We further propose a local-to-global architecture, called GaitContour, to leverage this novel representation and efficiently compute subject embedding in two stages. The first stage consists of a local transformer that extracts features from five different body regions. The second stage then aggregates the regional features to estimate a global human gait representation. Such a design significantly reduces the complexity of the attention operation and improves efficiency and performance simultaneously. Through large scale experiments, GaitContour is shown to perform significantly better than previous point-based methods, while also being significantly more efficient than silhouette-based methods. On challenging datasets with significant distractors, GaitContour can even outperform silhouette-based methods.
翻訳日:2023-11-29 19:59:20 公開日:2023-11-27
# マルチモーダルフェイクニュース検出におけるドメイン特化プロンプトチューニングのためのドメイン外データの活用

Leveraging Out-of-Domain Data for Domain-Specific Prompt Tuning in Multi-Modal Fake News Detection ( http://arxiv.org/abs/2311.16496v1 )

ライセンス: Link先を確認
Debarshi Brahma, Amartya Bhattacharya, Suraj Nagaje Mahadev, Anmol Asati, Vikas Verma, Soma Biswas(参考訳) 文脈外画像を用いた偽ニュースの拡散が広まり、情報過負荷の時代において困難な課題となっている。 このような大量のデータに注釈を付けるには、ドメインの専門家のかなりの時間を必要とするため、限られたアノテートデータシナリオで機能するメソッドを開発することが不可欠である。 本研究では、ドメイン外データが、所望のドメインのコンテキスト外誤情報検出(ここではマルチモーダルフェイクニュース検出と定義する)を改善するのに役立つかどうかを検討する。 政治、医療などです そこで本研究では,DPOD(Domain-specific Prompt-tuning using Out-of-Domain data)と呼ばれる新しいフレームワークを提案する。 まず、一般化可能な特徴を計算するために、視覚言語モデルであるCLIPを修正し、画像の表現と、ドメイン内およびドメイン外データの対応するテキストキャプションをラベル認識方式で整列させる特徴を抽出する。 さらに,各ドメインが望むドメインにどの程度役立つかに基づいて,利用可能なすべてのドメインのトレーニングサンプルを活用する,ドメイン固有のプロンプト学習手法を提案する。 大規模ベンチマークデータセット、すなわちニュースクリッピングに関する広範な実験は、提案されたフレームワークが最先端のパフォーマンスを達成し、この課題に対する既存のアプローチを大幅に上回っていることを示している。

The spread of fake news using out-of-context images has become widespread and is a challenging task in this era of information overload. Since annotating huge amounts of such data requires significant time of domain experts, it is imperative to develop methods which can work in limited annotated data scenarios. In this work, we explore whether out-of-domain data can help to improve out-of-context misinformation detection (termed here as multi-modal fake news detection) of a desired domain, eg. politics, healthcare, etc. Towards this goal, we propose a novel framework termed DPOD (Domain-specific Prompt-tuning using Out-of-Domain data). First, to compute generalizable features, we modify the Vision-Language Model, CLIP to extract features that helps to align the representations of the images and corresponding text captions of both the in-domain and out-of-domain data in a label-aware manner. Further, we propose a domain-specific prompt learning technique which leverages the training samples of all the available domains based on the the extent they can be useful to the desired domain. Extensive experiments on a large-scale benchmark dataset, namely NewsClippings demonstrate that the proposed framework achieves state of-the-art performance, significantly surpassing the existing approaches for this challenging task.
翻訳日:2023-11-29 19:59:02 公開日:2023-11-27
# ArGue: ビジョンランゲージモデルのための属性ガイド型プロンプトチューニング

ArGue: Attribute-Guided Prompt Tuning for Vision-Language Models ( http://arxiv.org/abs/2311.16494v1 )

ライセンス: Link先を確認
Xinyu Tian, Shu Zou, Zhaoyuan Yang, Jing Zhang(参考訳) ソフトプロンプトチューニングは、下流タスクに対するビジョン・ランゲージ(V&L)モデルを効率的に適応するのに有効であるが、分散シフトを扱う際の限界を示す。 私たちはAttribute-Guided Prompt Tuning(ArGue)でこの問題に対処し、3つの重要なコントリビューションを行います。 1) クラス名に先立つソフトプロンプトを直接付加する従来のアプローチとは対照的に, 大言語モデル(llm)によって生成された原始視覚属性をモデルに適合させる。 モデルがこれらの属性に高い信頼を表現できる能力は、正しいクラス論理を識別する能力を示していると仮定する。 2)不利な属性を排除するために属性サンプリングを導入し,意味的に意味のある属性のみが保存される。 3) 負のプロンプト, クラスに依存しない属性を明示的に列挙して刺激的相関を活性化し, モデルがこれらの負の特徴に関して高い直交確率分布を生成することを奨励する。 実験において,本手法は,新しいクラス予測と分散一般化タスクの両方において,最先端のプロンプトチューニング手法を著しく上回っている。

Although soft prompt tuning is effective in efficiently adapting Vision-Language (V&L) models for downstream tasks, it shows limitations in dealing with distribution shifts. We address this issue with Attribute-Guided Prompt Tuning (ArGue), making three key contributions. 1) In contrast to the conventional approach of directly appending soft prompts preceding class names, we align the model with primitive visual attributes generated by Large Language Models (LLMs). We posit that a model's ability to express high confidence in these attributes signifies its capacity to discern the correct class rationales. 2) We introduce attribute sampling to eliminate disadvantageous attributes, thus only semantically meaningful attributes are preserved. 3) We propose negative prompting, explicitly enumerating class-agnostic attributes to activate spurious correlations and encourage the model to generate highly orthogonal probability distributions in relation to these negative features. In experiments, our method significantly outperforms current state-of-the-art prompt tuning methods on both novel class prediction and out-of-distribution generalization tasks.
翻訳日:2023-11-29 19:58:19 公開日:2023-11-27
# SeeSR:Semantics-Aware Real-World Image Super-Resolutionを目指して

SeeSR: Towards Semantics-Aware Real-World Image Super-Resolution ( http://arxiv.org/abs/2311.16518v1 )

ライセンス: Link先を確認
Rongyuan Wu, Tao Yang, Lingchen Sun, Zhengqiang Zhang, Shuai Li, Lei Zhang(参考訳) 強力な生成前駆体であるT2I拡散モデルが, 現実の超解像問題を解く上で, ますます人気が高まっている。 しかし、入力低解像度(lr)画像の品質劣化の結果、局所構造の破壊は曖昧な画像意味論につながる可能性がある。 その結果、再生された高解像度画像の内容には意味的誤りがあり、超解像度性能が劣化する可能性がある。 この問題に対処するために,生成現実画像のセマンティックな忠実さをよりよく保存するためのセマンティックス・アウェア・アプローチを提案する。 まず, 高精度なソフト・ハード・セマンティック・プロンプトを高い劣化下でも生成できる劣化対応プロンプト抽出器を訓練する。 ハードセマンティックプロンプトはイメージタグを参照し、T2Iモデルの局所認識能力を向上することを目的としており、ソフトセマンティックプロンプトはハードセマンティックプロンプトを補償して追加の表現情報を提供する。 これらのセマンティックプロンプトは、T2Iモデルに詳細でセマンティックに正確な結果を生成するよう促すことができる。 さらに, 推定過程において, lr像を初期サンプリングノイズに統合し, 拡散モデルが過大なランダム詳細を生成する傾向を緩和する。 実験により,本手法はよりリアルな画像詳細を再現し,より優れた意味を保持できることを示した。

Owe to the powerful generative priors, the pre-trained text-to-image (T2I) diffusion models have become increasingly popular in solving the real-world image super-resolution problem. However, as a consequence of the heavy quality degradation of input low-resolution (LR) images, the destruction of local structures can lead to ambiguous image semantics. As a result, the content of reproduced high-resolution image may have semantic errors, deteriorating the super-resolution performance. To address this issue, we present a semantics-aware approach to better preserve the semantic fidelity of generative real-world image super-resolution. First, we train a degradation-aware prompt extractor, which can generate accurate soft and hard semantic prompts even under strong degradation. The hard semantic prompts refer to the image tags, aiming to enhance the local perception ability of the T2I model, while the soft semantic prompts compensate for the hard ones to provide additional representation information. These semantic prompts can encourage the T2I model to generate detailed and semantically accurate results. Furthermore, during the inference process, we integrate the LR images into the initial sampling noise to mitigate the diffusion model's tendency to generate excessive random details. The experiments show that our method can reproduce more realistic image details and hold better the semantics.
翻訳日:2023-11-29 19:48:13 公開日:2023-11-27
# LFSRDiff:拡散モデルによる光フィールド画像の超解像

LFSRDiff: Light Field Image Super-Resolution via Diffusion Models ( http://arxiv.org/abs/2311.16517v1 )

ライセンス: Link先を確認
Wentao Chao, Fuqing Duan, Xuechun Wang, Yingqian Wang, Guanghui Wang(参考訳) 光場(LF)画像超解像(SR)は、その固有の不適切な性質のため、単一の低解像度(LR)入力LF画像が複数の潜在的な超解像と対応できるため、難しい問題である。 この複雑さにもかかわらず、主流のLF画像SR法は一般的に決定論的アプローチを採用し、ピクセルワイズ損失関数によって制御される単一の出力のみを生成する。 この傾向はしばしば曖昧で非現実的な結果をもたらす。 拡散モデルは、発声過程中にガウス雑音を反復的に予測することでsr結果の分布を捉えることができるが、それらは主に一般的な画像のために設計されており、lf画像に存在するユニークな特徴と情報を効果的に扱うのに苦労している。 これらの制約に対処するために,最初の拡散型LF画像SRモデルであるLPSRDiffを導入する。 本研究は,空間情報と角情報の両方をlf画像内でより効果的に抽出・融合できる拡散モデルのための異方性 u-net を導入することを目的としている。 提案手法は,最先端のLF画像SR手法と総合的な実験評価と比較により,多種多様な現実的なSR結果を生成する。 LPIPSでは最も高い知覚基準を達成している。 また、知覚と歪みの間のトレードオフを効果的に制御する能力を示す。 コードは \url{https://github.com/chaowentao/lfsrdiff} で入手できる。

Light field (LF) image super-resolution (SR) is a challenging problem due to its inherent ill-posed nature, where a single low-resolution (LR) input LF image can correspond to multiple potential super-resolved outcomes. Despite this complexity, mainstream LF image SR methods typically adopt a deterministic approach, generating only a single output supervised by pixel-wise loss functions. This tendency often results in blurry and unrealistic results. Although diffusion models can capture the distribution of potential SR results by iteratively predicting Gaussian noise during the denoising process, they are primarily designed for general images and struggle to effectively handle the unique characteristics and information present in LF images. To address these limitations, we introduce LFSRDiff, the first diffusion-based LF image SR model, by incorporating the LF disentanglement mechanism. Our novel contribution includes the introduction of a disentangled U-Net for diffusion models, enabling more effective extraction and fusion of both spatial and angular information within LF images. Through comprehensive experimental evaluations and comparisons with the state-of-the-art LF image SR methods, the proposed approach consistently produces diverse and realistic SR results. It achieves the highest perceptual metric in terms of LPIPS. It also demonstrates the ability to effectively control the trade-off between perception and distortion. The code is available at \url{https://github.com/chaowentao/LFSRDiff}.
翻訳日:2023-11-29 19:47:48 公開日:2023-11-27
# すべての分散オブジェクトをセグメンテーションする

Segment Every Out-of-Distribution Object ( http://arxiv.org/abs/2311.16516v1 )

ライセンス: Link先を確認
Wenjie Zhao, Jia Li, Xin Dong, Yu Xiang, Yunhui Guo(参考訳) セマンティクスセグメンテーションモデルは、分散内カテゴリに有効であるが、分散外(ood)オブジェクトに遭遇するため、現実のデプロイメントにおける課題に直面している。 これらのOoDオブジェクトの検出は、安全クリティカルなアプリケーションに不可欠である。 既存の方法は異常スコアに依存しているが、マスクの生成に適したしきい値を選択することは困難であり、断片化や不正確性につながる可能性がある。 本稿では,意味的セグメンテーションにおけるOoD検出の簡易かつ効果的なフレームワークであるS2Mと呼ばれる,異常スコアToセグメンテーションマスクを変換する手法を提案する。 異常スコアをピクセルに割り当てるのとは異なり、S2MはOoDオブジェクト全体を直接セグメントする。 anomalyスコアをプロンプトに変換することで、s2mはしきい値選択の必要性をなくす。 大規模な実験により、S2MはIoUで約10倍、平均F1スコアで約30倍、フィッシュスケープ、Segment-Me-If-You-Can、RoadAnomalyデータセットなど様々なベンチマークでパフォーマンスが向上した。

Semantic segmentation models, while effective for in-distribution categories, face challenges in real-world deployment due to encountering out-of-distribution (OoD) objects. Detecting these OoD objects is crucial for safety-critical applications. Existing methods rely on anomaly scores, but choosing a suitable threshold for generating masks presents difficulties and can lead to fragmentation and inaccuracy. This paper introduces a method to convert anomaly Score To segmentation Mask, called S2M, a simple and effective framework for OoD detection in semantic segmentation. Unlike assigning anomaly scores to pixels, S2M directly segments the entire OoD object. By transforming anomaly scores into prompts for a promptable segmentation model, S2M eliminates the need for threshold selection. Extensive experiments demonstrate that S2M outperforms the state-of-the-art by approximately 10\% in IoU and 30\% in mean F1 score, on average, across various benchmarks including Fishyscapes, Segment-Me-If-You-Can, and RoadAnomaly datasets.
翻訳日:2023-11-29 19:47:24 公開日:2023-11-27
# 時空間擬似異常生成によるビデオ異常検出 : 統一的アプローチ

Video Anomaly Detection via Spatio-Temporal Pseudo-Anomaly Generation : A Unified Approach ( http://arxiv.org/abs/2311.16514v1 )

ライセンス: Link先を確認
Ayush K. Rai, Tarun Krishna, Feiyan Hu, Alexandru Drimbarean, Kevin McGuinness, Alan F. Smeaton, Noel E. O'Connor(参考訳) ビデオ異常検出 (video anomaly detection, vad) はオープンセット認識タスクであり、通常は1クラス分類 (one-class classification, occ) 問題として定式化される。 近年の研究では、通常のデータのみを用いた擬似異常(pas)の作成と、オブジェクトの異常や動き速度に関する実世界の異常に対する強い仮定を行い、トレーニング中のオートエンコーダ(ae)ベースの再構築モデルにおいて、異常に関する事前情報を注入する。 本研究では、事前学習した潜時拡散モデルを用いて画像のマスクアウト領域を塗布し、ミックスアップを用いて光流を摂動させ、データ中の時空間歪みをエミュレートすることで、時空間PAを生成する新しい手法を提案する。 さらに,OCC設定下における実世界の異常を検出するための簡易な統合フレームワークを提案する。 ped2, avenue, shanghaitech, ubnormalの4つのvadベンチマークデータセットに関する広範囲な実験により,occ設定下での既存のpas生成および再構成ベース手法と同等の性能を示す。 分析では,これらのデータセット間でのPAの転送可能性や一般化についても検討し,PAを通して現実世界の異常を識別することによって貴重な洞察を提供する。

Video Anomaly Detection (VAD) is an open-set recognition task, which is usually formulated as a one-class classification (OCC) problem, where training data is comprised of videos with normal instances while test data contains both normal and anomalous instances. Recent works have investigated the creation of pseudo-anomalies (PAs) using only the normal data and making strong assumptions about real-world anomalies with regards to abnormality of objects and speed of motion to inject prior information about anomalies in an autoencoder (AE) based reconstruction model during training. This work proposes a novel method for generating generic spatio-temporal PAs by inpainting a masked out region of an image using a pre-trained Latent Diffusion Model and further perturbing the optical flow using mixup to emulate spatio-temporal distortions in the data. In addition, we present a simple unified framework to detect real-world anomalies under the OCC setting by learning three types of anomaly indicators, namely reconstruction quality, temporal irregularity and semantic inconsistency. Extensive experiments on four VAD benchmark datasets namely Ped2, Avenue, ShanghaiTech and UBnormal demonstrate that our method performs on par with other existing state-of-the-art PAs generation and reconstruction based methods under the OCC setting. Our analysis also examines the transferability and generalisation of PAs across these datasets, offering valuable insights by identifying real-world anomalies through PAs.
翻訳日:2023-11-29 19:46:32 公開日:2023-11-27
# 拡散モデルによる微細粒度移動

Fine-grained Appearance Transfer with Diffusion Models ( http://arxiv.org/abs/2311.16513v1 )

ライセンス: Link先を確認
Yuteng Ye, Guanwen Li, Hang Zhou, Cai Jiale, Junqing Yu, Yawei Luo, Zikai Song, Qilong Xing, Youjia Zhang, Wei Yang(参考訳) イメージ・ツー・イメージ翻訳(I2I)、特にそのサブフィールドは、構造的コヒーレンスを維持しながら画像間の視覚的外観を変えようとするが、重大な課題を呈している。 拡散モデルによる顕著な進歩にもかかわらず、細粒度移動を達成することは、特に詳細な構造的要素を保持し、情報の忠実性を確保するという点で複雑である。 本稿では, セマンティックマッチング, 外観伝達, 潜時偏差の様々な側面を統合することで, これらの課題を克服する革新的なフレームワークを提案する。 我々のアプローチの重要な側面は、拡散過程の潜在空間内の拡散モデルによる予測された$x_0$空間の戦略的利用である。 これは微細な詳細を正確に自然に伝達するための重要な要素である。 当社のフレームワークでは,この空間を利用して,ソース画像とターゲット画像間の意味的アライメントを実現している。 提案手法の顕著な進歩は,これらの特徴を潜在空間にシームレスに統合することで,広範囲なモデル再訓練や微調整を必要とせず,より微妙な潜伏偏差を実現することである。 本手法の有効性は広範囲にわたる実験によって実証され,様々なカテゴリや領域にわたる微細な外観の移動を適切に処理する能力を示す。 https://github.com/babahui/Fine-grained-Appearance-Transferでコードを提供しています。

Image-to-image translation (I2I), and particularly its subfield of appearance transfer, which seeks to alter the visual appearance between images while maintaining structural coherence, presents formidable challenges. Despite significant advancements brought by diffusion models, achieving fine-grained transfer remains complex, particularly in terms of retaining detailed structural elements and ensuring information fidelity. This paper proposes an innovative framework designed to surmount these challenges by integrating various aspects of semantic matching, appearance transfer, and latent deviation. A pivotal aspect of our approach is the strategic use of the predicted $x_0$ space by diffusion models within the latent space of diffusion processes. This is identified as a crucial element for the precise and natural transfer of fine-grained details. Our framework exploits this space to accomplish semantic alignment between source and target images, facilitating mask-wise appearance transfer for improved feature acquisition. A significant advancement of our method is the seamless integration of these features into the latent space, enabling more nuanced latent deviations without necessitating extensive model retraining or fine-tuning. The effectiveness of our approach is demonstrated through extensive experiments, which showcase its ability to adeptly handle fine-grained appearance transfers across a wide range of categories and domains. We provide our code at https://github.com/babahui/Fine-grained-Appearance-Transfer
翻訳日:2023-11-29 19:46:05 公開日:2023-11-27
# CoSeR:認知的超解法のための画像と言語

CoSeR: Bridging Image and Language for Cognitive Super-Resolution ( http://arxiv.org/abs/2311.16512v1 )

ライセンス: Link先を確認
Haoze Sun, Wenbo Li, Jianzhuang Liu, Haoyu Chen, Renjing Pei, Xueyi Zou, Youliang Yan, Yujiu Yang(参考訳) 既存の超解像モデル(SR)は主に局所的なテクスチャの詳細の復元に焦点を当てており、しばしばシーン内のグローバルな意味情報を無視する。 この見落としは、重要な意味的詳細の欠落や、回復プロセス中に不正確なテクスチャの導入につながる可能性がある。 本稿では,低解像度画像の理解能力を備えたSRモデルを実現するCoSeR(Cognitive Super-Resolution)フレームワークを提案する。 我々は、画像の外観と言語理解を結合して認知埋め込みを生成することで、大きなテキスト・画像拡散モデルから事前情報を活性化するだけでなく、高品質な参照画像を生成することでSRプロセスの最適化を実現する。 画像の忠実度をより高めるために,全ての条件情報を単一のモジュールに統合する"All-in-Attention"と呼ばれる新しい条件注入方式を提案する。 その結果,本手法は意味論的・フォトリアリスティックな詳細を復元し,複数のベンチマークで最先端の性能を実証することに成功した。

Existing super-resolution (SR) models primarily focus on restoring local texture details, often neglecting the global semantic information within the scene. This oversight can lead to the omission of crucial semantic details or the introduction of inaccurate textures during the recovery process. In our work, we introduce the Cognitive Super-Resolution (CoSeR) framework, empowering SR models with the capacity to comprehend low-resolution images. We achieve this by marrying image appearance and language understanding to generate a cognitive embedding, which not only activates prior information from large text-to-image diffusion models but also facilitates the generation of high-quality reference images to optimize the SR process. To further improve image fidelity, we propose a novel condition injection scheme called "All-in-Attention", consolidating all conditional information into a single module. Consequently, our method successfully restores semantically correct and photorealistic details, demonstrating state-of-the-art performance across multiple benchmarks.
翻訳日:2023-11-29 19:45:41 公開日:2023-11-27
# 凍結マルチモーダル基礎モデルによるソースフリードメイン適応

Source-Free Domain Adaptation with Frozen Multimodal Foundation Model ( http://arxiv.org/abs/2311.16510v1 )

ライセンス: Link先を確認
Song Tang, Wenxin Su, Mao Ye, and Xiatian Zhu(参考訳) Source-Free Domain Adaptation (SFDA)は、未ラベルのターゲットトレーニングデータと教師付きソースドメインで事前トレーニングされたソースモデルのみにアクセスして、ターゲットドメインにソースモデルを適用することを目的としている。 疑似ラベリングおよび/または補助的監視に基づく従来の手法は、必然的にエラーを起こしやすい。 この制限を緩和するために、この研究では、不均一な知識を持ちながらリッチで、市販のヴィジュアル言語(ViL)マルチモーダルモデル(例えばCLIP)のポテンシャルを初めて探求する。 ゼロショット方式でターゲット領域に直接ViLモデルを適用することは、この特定のタスクに特化せず、概ね汎用的であるため、不満足である。 タスクを具体化するために, 蒸留マルチモーダル基礎モデル(difo)を応用した新しい蒸留法を提案する。 具体的には、DIFOは順応中に2つのステップを交互に切り替える。 一 ターゲットモデルとの相互情報を素早い学習方法で最大化することにより、ViLモデルをカスタマイズすること。 (II)このカスタマイズされたViLモデルの知識をターゲットモデルに拡張する。 より微細で信頼性の高い蒸留には、さらに2つの効果的な正則化項、すなわち最も類似したカテゴリーの奨励と予測整合を導入する。 大規模な実験により、DIFOは最先端の代替品よりも著しく優れていることが示された。 ソースコードはリリースされます。

Source-Free Domain Adaptation (SFDA) aims to adapt a source model for a target domain, with only access to unlabeled target training data and the source model pre-trained on a supervised source domain. Relying on pseudo labeling and/or auxiliary supervision, conventional methods are inevitably error-prone. To mitigate this limitation, in this work we for the first time explore the potentials of off-the-shelf vision-language (ViL) multimodal models (e.g.,CLIP) with rich whilst heterogeneous knowledge. We find that directly applying the ViL model to the target domain in a zero-shot fashion is unsatisfactory, as it is not specialized for this particular task but largely generic. To make it task specific, we propose a novel Distilling multimodal Foundation model(DIFO)approach. Specifically, DIFO alternates between two steps during adaptation: (i) Customizing the ViL model by maximizing the mutual information with the target model in a prompt learning manner, (ii) Distilling the knowledge of this customized ViL model to the target model. For more fine-grained and reliable distillation, we further introduce two effective regularization terms, namely most-likely category encouragement and predictive consistency. Extensive experiments show that DIFO significantly outperforms the state-of-the-art alternatives. Our source code will be released.
翻訳日:2023-11-29 19:44:54 公開日:2023-11-27
# caesarnerf: 限定的な汎用ニューラルネットワークレンダリングのための意味表現のキャリブレーション

CaesarNeRF: Calibrated Semantic Representation for Few-shot Generalizable Neural Rendering ( http://arxiv.org/abs/2311.15510v1 )

ライセンス: Link先を確認
Haidong Zhu, Tianyu Ding, Tianyi Chen, Ilya Zharkov, Ram Nevatia, Luming Liang(参考訳) 一般化可能性と少数ショット学習は、しばしばピクセルレベルのレンダリングにおける全体的理解が欠如しているため、Neural Radiance Fields(NeRF)の重要な課題である。 我々は,シーンレベルのキャリブレーションされた意味表現とピクセルレベルの表現を併用したエンドツーエンドのアプローチであるcaesarnerfを紹介する。 CaesarNeRFは、シーンレベルのセマンティック表現を組み合わせるために参照ビューの違いを明示的に表現し、キャリブレーションされた全体論的理解を提供する。 このキャリブレーションプロセスは、様々な視点を正確な位置と整列させ、様々な詳細を捉えるために逐次改良によってさらに強化される。 LLFF、Shiny、mip-NeRF 360、MVImgNetなどの公開データセットに関する大規模な実験は、CaesarNeRFが様々な参照ビューにわたって最先端のパフォーマンスを提供し、単一の参照イメージでも有効であることを示した。 この作業のプロジェクトページは、https://haidongz-usc.github.io/project/caesarnerfで見ることができる。

Generalizability and few-shot learning are key challenges in Neural Radiance Fields (NeRF), often due to the lack of a holistic understanding in pixel-level rendering. We introduce CaesarNeRF, an end-to-end approach that leverages scene-level CAlibratEd SemAntic Representation along with pixel-level representations to advance few-shot, generalizable neural rendering, facilitating a holistic understanding without compromising high-quality details. CaesarNeRF explicitly models pose differences of reference views to combine scene-level semantic representations, providing a calibrated holistic understanding. This calibration process aligns various viewpoints with precise location and is further enhanced by sequential refinement to capture varying details. Extensive experiments on public datasets, including LLFF, Shiny, mip-NeRF 360, and MVImgNet, show that CaesarNeRF delivers state-of-the-art performance across varying numbers of reference views, proving effective even with a single reference image. The project page of this work can be found at https://haidongz-usc.github.io/project/caesarnerf.
翻訳日:2023-11-28 17:33:27 公開日:2023-11-27
# Adaptive Image Registration: 精度向上のためのディープラーニングと最適化機能を統合するハイブリッドアプローチ

Adaptive Image Registration: A Hybrid Approach Integrating Deep Learning and Optimization Functions for Enhanced Precision ( http://arxiv.org/abs/2311.15497v1 )

ライセンス: Link先を確認
Gabriel De Araujo, Shanlin Sun, Xiaohui Xie(参考訳) 画像登録は伝統的に2つの異なるアプローチを用いて行われてきた: 学習ベースの手法、堅牢なディープニューラルネットワークに依存し、最適化ベースの手法。 もちろん、どちらのパラダイムも長所と短所を提供しており、本研究では、最大の損失をもたらす画像対の計算パワーを優先しながら、学習ベース手法の出力を最適化のための初期パラメータとして使用し、それぞれの強みを単一の合理化フレームワークに組み合わせようとしている。 本研究は,同一推定時間を維持しつつ,変形場平滑さの0.8\%の損失しか持たずに,最高性能の最先端モデルをフレームワークのバックボーンとして利用する際のテストにおける0.3\%の改善を示した。

Image registration has traditionally been done using two distinct approaches: learning based methods, relying on robust deep neural networks, and optimization-based methods, applying complex mathematical transformations to warp images accordingly. Of course, both paradigms offer advantages and disadvantages, and, in this work, we seek to combine their respective strengths into a single streamlined framework, using the outputs of the learning based method as initial parameters for optimization while prioritizing computational power for the image pairs that offer the greatest loss. Our investigations showed that an improvement of 0.3\% in testing when utilizing the best performing state-of-the-art model as the backbone of the framework, while maintaining the same inference time and with only a 0.8\% loss in deformation field smoothness.
翻訳日:2023-11-28 17:33:04 公開日:2023-11-27
# 不定因数順序における非安定化性の向上

Enhancement of non-Stabilizerness within Indefinite Causal Order ( http://arxiv.org/abs/2311.15494v1 )

ライセンス: Link先を確認
Yin Mo, Chengkai Zhu, Zhiping Liu, Mingrui Jing, and Xin Wang(参考訳) 量子計算の分野では、量子回路の非安定化性は量子スピードアップの理解と定量化に不可欠である。 本研究では,量子SWITCH構造を用いる場合の回路の非安定化に関する興味深い現象について検討する。 この構造は、量子状態が異なる順序の重ね合わせで操作を通すことを可能にする新しい量子構造であり、決定的な因果順序を持つ回路上の多くのタスクにおいて優越性を示す。 まず,標準条件下ではマジック状態を生成できない完全安定化器保存操作を,量子SWITCHによって処理された場合のマジック状態を生成可能なリソースフルな操作に変換することを発見した。 第二に,ノイズチャネルが操作に与える影響を考慮すると,各経路の非安定化性は消滅する可能性があるが,その重畳は操作の非安定化性を維持することができる。 これらの発見は量子スイッチによってもたらされる特異な性質を明らかにし、一般量子アーキテクチャの魔法の資源に関する今後の研究においてさらなる道を開く。

In the field of quantum computation, the non-stabilizerness of a quantum circuit is crucial for understanding and quantifying quantum speed-up. In this work, we explore some intriguing phenomena regarding the non-stabilizerness of a circuit when a Quantum SWITCH structure is employed. This structure is a novel quantum construct that enables quantum states to pass through operations in a superposition of different orders and has shown superiority in numerous tasks over circuits with a definite causal order. Firstly, we discover that the completely stabilizer-preserving operations, which cannot generate magic states under standard conditions, can be transformed into a resourceful operation capable of generating magic states when processed by the Quantum SWITCH. Secondly, when considering the effects of noisy channels on operations, we observe that while the non-stabilizerness of each path may be annihilated, their superposition could still preserve the non-stabilizerness of the operation. These findings reveal unique properties brought by the Quantum SWITCH and open further avenues in future research on magic resources of general quantum architecture.
翻訳日:2023-11-28 17:32:49 公開日:2023-11-27
# 都市再生のための最適化と微調整大規模言語モデル

Optimizing and Fine-tuning Large Language Model for Urban Renewal ( http://arxiv.org/abs/2311.15490v1 )

ライセンス: Link先を確認
Xi Wang, Xianyao Ling, Tom Zhang, Xuecao Li, Shaolan Wang, Zhixing Li, Liang Zhang, Peng Gong(参考訳) 本研究の目的は,都市再生における大規模言語モデル(llm)の適応的応用を革新的に探究することである。 また、知識質問応答(QA)タスクのパフォーマンスとテキスト生成品質の向上も目指している。 ChatGLMに基づいて,都市再生科学文献コーパスを用いたQAデータセットを自動生成し,Prefix法とLoRA法を用いてモデル上で共同微調整訓練を行い,都市再生のためのLLMを作成する。 LLMを誘導して、素早い単語と与えられたテキストに基づいてQAデータを自動的に生成することにより、都市再生分野のデータセットを迅速に取得し、LLMの微調整訓練のためのデータサポートを提供することができる。 本研究で提案した共同微調整訓練法は,QAタスクにおけるLLMの性能を著しく向上させることができることを示す。 LoRAの微調整と比較すると、この手法は試験におけるBleuとRourgeのメトリクスを約5%改善するが、微調整前のモデルと比較すると、BleuとRourgeのメトリクスを約15%から20%改善する。 本研究は,都市再生知識QAタスクにおけるChatGLMのためのPrefixとLoRAを用いた共同微調整法の有効性と優位性を示す。 都市再生関連タスクの微調整 LLM に対する新しいアプローチを提供する。

This study aims to innovatively explore adaptive applications of large language models (LLM) in urban renewal. It also aims to improve its performance and text generation quality for knowledge question-answering (QA) tasks. Based on the ChatGLM, we automatically generate QA datasets using urban renewal scientific literature corpora in a self-instruct manner and then conduct joint fine-tuning training on the model using the Prefix and LoRA fine-tuning methods to create an LLM for urban renewal. By guiding the LLM to automatically generate QA data based on prompt words and given text, it is possible to quickly obtain datasets in the urban renewal field and provide data support for the fine-tuning training of LLMs. The experimental results show that the joint fine-tuning training method proposed in this study can significantly improve the performance of LLM on the QA tasks. Compared with LoRA fine-tuning, the method improves the Bleu and Rouge metrics on the test by about 5%; compared with the model before fine-tuning, the method improves the Bleu and Rouge metrics by about 15%-20%. This study demonstrates the effectiveness and superiority of the joint fine-tuning method using Prefix and LoRA for ChatGLM in the urban renewal knowledge QA tasks. It provides a new approach for fine-tuning LLMs on urban renewal-related tasks.
翻訳日:2023-11-28 17:32:34 公開日:2023-11-27
# 深層学習における幾何適応勾配降下によるグローバル$\mathcal{l}^2$の最小化

Global $\mathcal{L}^2$ minimization with certainty via geometrically adapted gradient descent in Deep Learning ( http://arxiv.org/abs/2311.15487v1 )

ライセンス: Link先を確認
Thomas Chen(参考訳) 我々は,深層学習ネットワークにおける$\mathcal{l}^2$コスト関数の最小化に広く用いられている勾配降下流を考察し,過パラメータ設定に適応したバージョンと過パラメータ設定に適応したバージョンを2つ導入した。 どちらも明快で自然な不変な幾何学的意味を持ち、オーバーパラメトリゼーションにおけるプルバックベクトルバンドル構造とアンダーパラメトリゼーションされた設定におけるプッシュフォワードベクトルバンドル構造を考慮に入れている。 過度パラメータ化の場合、ランク条件が成り立つと、修正された勾配降下のすべての軌道が、一様指数収束速度で$\mathcal{L}^2$のコストをその大域的最小に導くことが証明される。 後者と部分リーマン幾何学の関係を指摘する。

We consider the gradient descent flow widely used for the minimization of the $\mathcal{L}^2$ cost function in Deep Learning networks, and introduce two modified versions; one adapted for the overparametrized setting, and the other for the underparametrized setting. Both have a clear and natural invariant geometric meaning, taking into account the pullback vector bundle structure in the overparametrized, and the pushforward vector bundle structure in the underparametrized setting. In the overparametrized case, we prove that, provided that a rank condition holds, all orbits of the modified gradient descent drive the $\mathcal{L}^2$ cost to its global minimum at a uniform exponential convergence rate. We point out relations of the latter to sub-Riemannian geometry.
翻訳日:2023-11-28 17:32:14 公開日:2023-11-27
# 潜在リズミカル構造のための歌詞を用いた新しいスコアの自動時間シグネチャ決定

Automatic Time Signature Determination for New Scores Using Lyrics for Latent Rhythmic Structure ( http://arxiv.org/abs/2311.15480v1 )

ライセンス: Link先を確認
Callie C. Liao, Duoduo Liao, Jesse Guessford(参考訳) 最近、AIGC(Artificial Intelligence-Generated Content)への関心が高まっている。 それにもかかわらず、タイムシグネチャのような音楽成分は、新しい作曲、特に歌詞歌のアルゴリズム決定アプローチを形成するために十分に研究されていない。 これはおそらく、ロバストなフレームワークを構築する上で重要な音楽的詳細を無視しているためだろう。 特に、タイムシグネチャは、フレーズや音符を含む歌のほとんど全ての側面の基本的なリズム構造を確立する。 本稿では,歌詞のみを入力として用いることで,歌詞の適合時間シグネチャを自動生成し,説明可能な機械学習モデルを用いて潜在リズム構造を明らかにする手法を提案する。 特に,リズミカルパターンの発見や,リズミカルな,リズミカルな,統計的な情報を同時に含む新機能の作成に関連する複数の手法を考案する。 本手法では, 実験結果から, 受信器動作特性(ROC)の97.6%のF1スコアと0.996のエリアアンダー・ザ・カーブ(AUC)スコアが得られた。 結論として,本研究では,音楽学の未研究要素に近づき,人工知能(AI)音楽生成の将来に大きく貢献する革新的アイデアとして,機械学習を活用した新たなスコアを歌詞から自動生成する。

There has recently been a sharp increase in interest in Artificial Intelligence-Generated Content (AIGC). Despite this, musical components such as time signatures have not been studied sufficiently to form an algorithmic determination approach for new compositions, especially lyrical songs. This is likely because of the neglect of musical details, which is critical for constructing a robust framework. Specifically, time signatures establish the fundamental rhythmic structure for almost all aspects of a song, including the phrases and notes. In this paper, we propose a novel approach that only uses lyrics as input to automatically generate a fitting time signature for lyrical songs and uncover the latent rhythmic structure utilizing explainable machine learning models. In particular, we devise multiple methods that are associated with discovering lyrical patterns and creating new features that simultaneously contain lyrical, rhythmic, and statistical information. In this approach, the best of our experimental results reveal a 97.6% F1 score and a 0.996 Area Under the Curve (AUC) of the Receiver Operating Characteristic (ROC) score. In conclusion, our research directly generates time signatures from lyrics automatically for new scores utilizing machine learning, which is an innovative idea that approaches an understudied component of musicology and therefore contributes significantly to the future of Artificial Intelligence (AI) music generation.
翻訳日:2023-11-28 17:31:54 公開日:2023-11-27
# AerialBooth:単一画像からのテキスト制御空中ビュー合成のための相互情報誘導

AerialBooth: Mutual Information Guidance for Text Controlled Aerial View Synthesis from a Single Image ( http://arxiv.org/abs/2311.15478v1 )

ライセンス: Link先を確認
Divya Kothandaraman, Tianyi Zhou, Ming Lin, Dinesh Manocha(参考訳) 本稿では,AerialBoothというテキスト記述を用いた単一入力画像から空中ビューを合成する新しい手法を提案する。 3次元世界の事前知識として,事前学習したテキスト対2次元画像安定拡散モデルを利用する。 入力画像と逆視点マッピングをそれぞれ再構成するUNetとテキスト埋め込みを最適化する2つのステップでモデルを微調整する。 逆パースペクティブマッピングは拡散モデルのテキスト-画像空間内のばらつきを生じさせ、空中ビュー合成のための弱いガイダンスを提供する。 推測の際には、2つの画像の確率分布間の情報内容を最大化する新しい相互情報ガイダンスを用いて、生成された画像の内容を入力画像に向けて操る。 自然シーン,室内シーン,ヒューマンアクションなど,多岐にわたる実データおよび合成データに対して,我々のアプローチを評価した。 広範な実験とアブレーション研究を通じて,airborneboothの有効性と,他のテキスト制御ビューへの一般化を実証した。 また,AerialBoothは視点と忠実度を定量的に評価しながら,視点と忠実度を定量的に評価する。 コードとデータはhttps://github.com/divyakraman/aerialbooth2023で入手できる。

We present a novel method, AerialBooth, for synthesizing the aerial view from a single input image using its text description. We leverage the pretrained text-to-2D image stable diffusion model as prior knowledge of the 3D world. The model is finetuned in two steps to optimize for the text embedding and the UNet that reconstruct the input image and its inverse perspective mapping respectively. The inverse perspective mapping creates variance within the text-image space of the diffusion model, while providing weak guidance for aerial view synthesis. At inference, we steer the contents of the generated image towards the input image using novel mutual information guidance that maximizes the information content between the probability distributions of the two images. We evaluate our approach on a wide spectrum of real and synthetic data, including natural scenes, indoor scenes, human action, etc. Through extensive experiments and ablation studies, we demonstrate the effectiveness of AerialBooth and also its generalizability to other text-controlled views. We also show that AerialBooth achieves the best viewpoint-fidelity trade-off though quantitative evaluation on 7 metrics analyzing viewpoint and fidelity w.r.t. input image. Code and data is available at https://github.com/divyakraman/AerialBooth2023.
翻訳日:2023-11-28 17:31:32 公開日:2023-11-27
# DreamCreature: Imaginationからフォトリアリスティックなバーチャル創造物を作る

DreamCreature: Crafting Photorealistic Virtual Creatures from Imagination ( http://arxiv.org/abs/2311.15477v1 )

ライセンス: Link先を確認
Kam Woh Ng, Xiatian Zhu, Yi-Zhe Song, Tao Xiang(参考訳) 最近のテキスト・ツー・イメージ(T2I)生成モデルは、テキスト命令や視覚的な例に従って高品質な合成を可能にする。 それらの能力にもかかわらず、これらのモデルは、デジタル資産の作成と生物多様性分析に有用な特定のカテゴリー(例えば、仮想犬や鳥類など)で、より詳細な生物を創造する際の限界に直面している。 このギャップを埋めるために、我々はVirtual Creatures Generationという新しいタスクを導入する: 対象概念(例えば200種の鳥種)のラベルのないイメージセットが与えられた場合、様々な背景や背景の中で新しいハイブリッドな概念を創造できるT2Iモデルをトレーニングすることを目指している。 本研究では, 基礎となるサブコンセプト(例えば, 特定の種の体の一部)を, 教師なしで識別し, 抽出するDreamCreatureという新しい手法を提案する。 したがって、t2iは、学習された概念をシームレスに柔軟に構成することで、忠実な構造とフォトリアリスティックな外観を持つ新しい概念(例えばニューバード種)を生み出す。 サブコンセプトの忠実度と不整合性を高めるため,追加のプロジェクタと注意損失正規化を組み込むことでテキストの逆変換手法を拡張した。 2つの細粒度画像ベンチマークに関する広範囲な実験は、質的および定量的評価において、以前の方法よりもドリームクリアチュアが優れていることを示している。 究極的には、学習されたサブコンセプトは、革新的な消費者製品デザインやニュアンス的プロパティ変更を含む、多様な創造的アプリケーションを促進する。

Recent text-to-image (T2I) generative models allow for high-quality synthesis following either text instructions or visual examples. Despite their capabilities, these models face limitations in creating new, detailed creatures within specific categories (e.g., virtual dog or bird species), which are valuable in digital asset creation and biodiversity analysis. To bridge this gap, we introduce a novel task, Virtual Creatures Generation: Given a set of unlabeled images of the target concepts (e.g., 200 bird species), we aim to train a T2I model capable of creating new, hybrid concepts within diverse backgrounds and contexts. We propose a new method called DreamCreature, which identifies and extracts the underlying sub-concepts (e.g., body parts of a specific species) in an unsupervised manner. The T2I thus adapts to generate novel concepts (e.g., new bird species) with faithful structures and photorealistic appearance by seamlessly and flexibly composing learned sub-concepts. To enhance sub-concept fidelity and disentanglement, we extend the textual inversion technique by incorporating an additional projector and tailored attention loss regularization. Extensive experiments on two fine-grained image benchmarks demonstrate the superiority of DreamCreature over prior methods in both qualitative and quantitative evaluation. Ultimately, the learned sub-concepts facilitate diverse creative applications, including innovative consumer product designs and nuanced property modifications.
翻訳日:2023-11-28 17:31:12 公開日:2023-11-27
# MeshGPT: デコーダオンリートランスによる三角形メッシュの生成

MeshGPT: Generating Triangle Meshes with Decoder-Only Transformers ( http://arxiv.org/abs/2311.15475v1 )

ライセンス: Link先を確認
Yawar Siddiqui, Antonio Alliegro, Alexey Artemov, Tatiana Tommasi, Daniele Sirigatti, Vladislav Rosov, Angela Dai, Matthias Nie{\ss}ner(参考訳) 筆者らは,ニューラルネットワークからアイソ対向法により抽出された密接な三角形メッシュに対して,アーティストが作成したメッシュのコンパクトさを反映した,三角形メッシュを生成する新しいアプローチであるMeshGPTを紹介した。 近年の大規模言語モデルの進歩に触発されて,三角形の列として三角形メッシュを自己回帰的に生成するシーケンスベースアプローチを採用した。 まず,グラフ畳み込みを用いて潜在量子化埋め込みの語彙を学習し,局所メッシュ幾何学とトポロジーの埋め込みを知らせる。 これらの埋め込みはデコーダによって三角形に配列されデコードされ、メッシュを効果的に再構築することができる。 次に、この学習語彙に基づいて変換器を訓練し、前の埋め込みが与えられた次の埋め込みのインデックスを予測する。 トレーニングが完了すると、モデルを自動回帰的にサンプリングして新しい三角形メッシュを生成し、シャープなエッジを持つコンパクトメッシュを直接生成し、人造メッシュの効率的な三角パターンを模倣する。 MeshGPTは、アートメッシュ生成手法の状況よりも顕著な改善を示し、形状カバレッジは9%増加し、FIDスコアは様々なカテゴリで30ポイント向上した。

We introduce MeshGPT, a new approach for generating triangle meshes that reflects the compactness typical of artist-created meshes, in contrast to dense triangle meshes extracted by iso-surfacing methods from neural fields. Inspired by recent advances in powerful large language models, we adopt a sequence-based approach to autoregressively generate triangle meshes as sequences of triangles. We first learn a vocabulary of latent quantized embeddings, using graph convolutions, which inform these embeddings of the local mesh geometry and topology. These embeddings are sequenced and decoded into triangles by a decoder, ensuring that they can effectively reconstruct the mesh. A transformer is then trained on this learned vocabulary to predict the index of the next embedding given previous embeddings. Once trained, our model can be autoregressively sampled to generate new triangle meshes, directly generating compact meshes with sharp edges, more closely imitating the efficient triangulation patterns of human-crafted meshes. MeshGPT demonstrates a notable improvement over state of the art mesh generation methods, with a 9% increase in shape coverage and a 30-point enhancement in FID scores across various categories.
翻訳日:2023-11-28 17:30:47 公開日:2023-11-27
# M\=aoriアルゴリズムの主権:概念、原則、使用

M\=aori algorithmic sovereignty: idea, principles, and use ( http://arxiv.org/abs/2311.15473v1 )

ライセンス: Link先を確認
Paul T. Brown, Daniel Wilson, Kiri West, Kirita-Rose Escott, Kiya Basabas, Ben Ritchie, Danielle Lucas, Ivy Taia, Natalie Kusabs, Te Taka Keegan(参考訳) m\=aoriデータを使用するニュージーランドのアオテアロアでデータ駆動技術が出現したため、これらの技術が生み出す機会と、それらのテクノロジーが課す固有のリスクとの緊張をバランスさせるための思考を導くために、価値ベースのフレームワークが必要である。 アルゴリズムは特定のデータの使用としてフレーム化できるため、現在存在するデータフレームワークはアルゴリズムを含むように拡張することができる。 M\=aori データ主権の原則はよく知られており、研究者や政府機関がM\=aoriデータの使用を文化的に適切に導くために用いられている。 これらの原理を拡張してアルゴリズムの文脈に適合させ、M\=aoriの観点から責任あるアルゴリズムに関連する問題に対処するために基礎となるサブ原則を再作業することで、M\=aoriアルゴリズムの主権原則が導かれる。 我々は、このアイデアを定義し、更新された原則とサブプリンシプルを示し、これらが現在使用されているアルゴリズムのデコロン化にどのように使用できるかを強調し、これらのアイデアがIndigenizedアルゴリズムの開発に使用できる可能性を議論する。

Due to the emergence of data-driven technologies in Aotearoa New Zealand that use M\=aori data, there is a need for values-based frameworks to guide thinking around balancing the tension between the opportunities these create, and the inherent risks that these technologies can impose. Algorithms can be framed as a particular use of data, therefore data frameworks that currently exist can be extended to include algorithms. M\=aori data sovereignty principles are well-known and are used by researchers and government agencies to guide the culturally appropriate use of M\=aori data. Extending these principles to fit the context of algorithms, and re-working the underlying sub-principles to address issues related to responsible algorithms from a M\=aori perspective leads to the M\=aori algorithmic sovereignty principles. We define this idea, present the updated principles and subprinciples, and highlight how these can be used to decolonise algorithms currently in use, and argue that these ideas could potentially be used to developed Indigenised algorithms.
翻訳日:2023-11-28 17:30:11 公開日:2023-11-27
# 超決定論に必要な決定論的スコープの公理的制限とその連続的に大きい可能性

An axiomatic limitation on the deterministic scope required for superdeterminism and its consequentially greater likelihood ( http://arxiv.org/abs/2311.15470v1 )

ライセンス: Link先を確認
Cameron Shackell(参考訳) すべての事象が初期条件によって決定される宇宙を仮定することで、量子測定で観測されるベルフレームの相関によって導かれる超決定論は、我々の実験的な選択さえも形作る本質的に所定の宇宙秩序の結果である。 私は超決定論の公理的な定式化を用いて、ベルが要求される決定論の範囲を誇張していることを示す。 観測者を含む宇宙の存在のみを仮定すると、観測者スコープのみにおける決定論は十分である。 次に、この十分性によって理論の妥当性が向上し、他の分野の成果と統合する道が提案される。

By positing a universe where all events are determined by initial conditions, superdeterminism as conceded by Bell frames correlations observed in quantum measurements as the consequence of an inherently predetermined cosmic order that shapes even our experimental choices. I use an axiomatic formulation of superdeterminism to demonstrate that Bell overstated the scope of determinism required. Assuming only the existence of a universe containing observers, I show that determinism in just the observer scope is sufficient. I then discuss how this sufficiency increases the theory's plausibility and suggest a path to its integration with results from other disciplines.
翻訳日:2023-11-28 17:29:38 公開日:2023-11-27
# どこから始める? 医用画像セグメンテーションのためのフェデレーション学習におけるランダムから基礎モデルへの初期化

Where to Begin? From Random to Foundation Model Instructed Initialization in Federated Learning for Medical Image Segmentation ( http://arxiv.org/abs/2311.15463v1 )

ライセンス: Link先を確認
Ming Li, Guang Yang(参考訳) 医療画像解析において、フェデレートラーニング(FL)は、機密性の高い医療データを扱う上で不可欠な、プライバシ保護された分散データ処理を可能にする重要な技術である。 現在、ほとんどのflモデルはランダム初期化を採用しており、様々なインスタンスで効果的であることが証明されている。 しかし, FLにおける非IID(独立・同一分散)データによる固有の課題を考慮し, 医療画像分割作業におけるFLモデル初期化の指導的教師としてセグメンツ・アニーシング・モデル(SAM)のような膨大な事前学習知識を持つ基礎モデルを使用することによる影響を探る, 新たな視点を提案する。 この研究は、特に非iidデータシナリオにおけるflモデルの性能への影響を評価するために、flの初期化のための指導的教師としての基礎モデルを利用することを初めて試みている。 胸部x線肺分画に対する経験的評価では,基礎モデルを用いたflの初期化がより高速に収束するだけでなく,複雑なデータコンテキストにおける性能も向上することを示した。 これらの知見はFLにおけるモデル初期化の新しい視点を提供する。

In medical image analysis, Federated Learning (FL) stands out as a key technology that enables privacy-preserved, decentralized data processing, crucial for handling sensitive medical data. Currently, most FL models employ random initialization, which has been proven effective in various instances. However, given the unique challenges posed by non-IID (independently and identically distributed) data in FL, we propose a novel perspective: exploring the impact of using the foundation model with enormous pre-trained knowledge, such as the Segment Anything Model (SAM), as an instructive teacher for FL model initialization in medical image segmentation task. This work for the first time attempts to utilize the foundation model as an instructive teacher for initialization in FL, assessing its impact on the performance of FL models, especially in non-IID data scenarios. Our empirical evaluation on chest x-ray lung segmentation showcases that FL with foundation model instructed initialization not only achieves faster convergence but also improves performance in complex data contexts. These findings offer a new perspective for model initialization in FL.
翻訳日:2023-11-28 17:29:16 公開日:2023-11-27
# 農業におけるプライバシ保護データ共有 : 安全・信頼性データ合成のためのポリシールールの施行

Privacy-Preserving Data Sharing in Agriculture: Enforcing Policy Rules for Secure and Confidential Data Synthesis ( http://arxiv.org/abs/2311.15460v1 )

ライセンス: Link先を確認
Anantaa Kotal, Lavanya Elluri, Deepti Gupta, Varun Mandalapu and Anupam Joshi(参考訳) ビッグデータは、資源使用の最適化、生産性の向上、農業プラクティスの持続可能性の向上に必要な情報によって、農業コミュニティに力を与える。 農業におけるビッグデータの利用には、センサー、衛星、農業調査などのさまざまなソースからのデータ収集と分析が必要である。 Big Dataは農業コミュニティに貴重な洞察を提供し、効率を向上させることができるが、このデータのセキュリティと参加者のプライバシに関して大きな懸念がある。 EU GDPR(EU GDPR)やEUの契約による農業データ共有に関する行動規範(EU Code of Conduct on agricultural data sharing)、EU AI法(EU AI law)などのプライバシー規制は、データのプライバシの問題に対処し、いつ、どのようにデータを組織間で共有できるかに関する具体的なガイドラインを提供するために作成されている。 ビッグデータ分析に機密データを広く利用するためには,データのプライバシを侵害することなく,農業におけるデータ共有のプライバシ保護方法を検討する。 プライバシー保護データ共有のために、ディープラーニングに基づく合成データ生成が提案されている。 しかし、このようなプライバシー保護努力には、文書化されたデータプライバシポリシーへの準拠が欠如している。 本研究では,プライバシ保護型データ生成アルゴリズムにおいて,プライバシポリシルールを強制する新たな枠組みを提案する。 我々は、利用可能な農業行動規範をいくつか探求し、データのプライバシー制約に関する知識を抽出し、抽出した知識を用いてプライバシー保護生成モデルにおけるプライバシー境界を定義する。 我々は,本フレームワークを用いて人工農業データを生成し,下流作業における合成データセットの有用性を示す実験結果を示す。 また,本フレームワークは,規制規制ルールに基づいて,潜在的な脅威やデータ保護を回避することができることを示す。

Big Data empowers the farming community with the information needed to optimize resource usage, increase productivity, and enhance the sustainability of agricultural practices. The use of Big Data in farming requires the collection and analysis of data from various sources such as sensors, satellites, and farmer surveys. While Big Data can provide the farming community with valuable insights and improve efficiency, there is significant concern regarding the security of this data as well as the privacy of the participants. Privacy regulations, such as the EU GDPR, the EU Code of Conduct on agricultural data sharing by contractual agreement, and the proposed EU AI law, have been created to address the issue of data privacy and provide specific guidelines on when and how data can be shared between organizations. To make confidential agricultural data widely available for Big Data analysis without violating the privacy of the data subjects, we consider privacy-preserving methods of data sharing in agriculture. Deep learning-based synthetic data generation has been proposed for privacy-preserving data sharing. However, there is a lack of compliance with documented data privacy policies in such privacy-preserving efforts. In this study, we propose a novel framework for enforcing privacy policy rules in privacy-preserving data generation algorithms. We explore several available agricultural codes of conduct, extract knowledge related to the privacy constraints in data, and use the extracted knowledge to define privacy bounds in a privacy-preserving generative model. We use our framework to generate synthetic agricultural data and present experimental results that demonstrate the utility of the synthetic dataset in downstream tasks. We also show that our framework can evade potential threats and secure data based on applicable regulatory policy rules.
翻訳日:2023-11-28 17:28:13 公開日:2023-11-27
# SED:Open-Vocabulary Semantic Segmentationのための簡易エンコーダデコーダ

SED: A Simple Encoder-Decoder for Open-Vocabulary Semantic Segmentation ( http://arxiv.org/abs/2311.15537v1 )

ライセンス: Link先を確認
Bin Xie, Jiale Cao, Jin Xie, Fahad Shahbaz Khan, Yanwei Pang(参考訳) 開語彙のセマンティックセグメンテーションは、画素を開圏の集合から異なるセマンティックグループに区別しようとする。 既存の手法の多くは、ピクセルレベルのセグメンテーションタスクに画像レベルモデルを採用することが鍵となる、事前学習された視覚言語モデルの利用を探求している。 本稿では,階層的エンコーダに基づくコストマップ生成とカテゴリ早期拒絶を伴う段階的融合デコーダからなる,オープンボキャブラリー意味セグメンテーションのための簡易エンコーダ・デコーダsedを提案する。 階層エンコーダベースのコストマップ生成では、ピクセルレベルの画像テキストコストマップを予測するために、プレーントランスフォーマーの代わりに階層バックボーンを使用する。 平易なトランスに比べて、階層的なバックボーンは局所的な空間情報をよりよくキャプチャし、入力サイズに関して線形計算の複雑さを持つ。 我々の段階的な融合デコーダは、コストマップと、セグメンテーションのための異なるバックボーンレベルの特徴マップを組み合わせるためにトップダウン構造を用いる。 予測速度を高速化するために,デコーダの初期層に存在しない多くのカテゴリを拒絶し,最大4.7倍の高速化を実現するデコーダのカテゴリ早期拒絶方式を導入する。 sed法の有効性を示す複数のopen-vocabulary semantic segmentation dataset上で実験を行った。 convnext-bを使用する場合、sed は ade20k 上で 31.6\% の miou スコアを達成し、単一の a6000 上の画像当たり 82ミリ秒 (ms$) のカテゴリで 150 のカテゴリを成す。 私たちはそれを \url{https://github.com/xb534/SED.git} でリリースします。

Open-vocabulary semantic segmentation strives to distinguish pixels into different semantic groups from an open set of categories. Most existing methods explore utilizing pre-trained vision-language models, in which the key is to adopt the image-level model for pixel-level segmentation task. In this paper, we propose a simple encoder-decoder, named SED, for open-vocabulary semantic segmentation, which comprises a hierarchical encoder-based cost map generation and a gradual fusion decoder with category early rejection. The hierarchical encoder-based cost map generation employs hierarchical backbone, instead of plain transformer, to predict pixel-level image-text cost map. Compared to plain transformer, hierarchical backbone better captures local spatial information and has linear computational complexity with respect to input size. Our gradual fusion decoder employs a top-down structure to combine cost map and the feature maps of different backbone levels for segmentation. To accelerate inference speed, we introduce a category early rejection scheme in the decoder that rejects many no-existing categories at the early layer of decoder, resulting in at most 4.7 times acceleration without accuracy degradation. Experiments are performed on multiple open-vocabulary semantic segmentation datasets, which demonstrates the efficacy of our SED method. When using ConvNeXt-B, our SED method achieves mIoU score of 31.6\% on ADE20K with 150 categories at 82 millisecond ($ms$) per image on a single A6000. We will release it at \url{https://github.com/xb534/SED.git}.
翻訳日:2023-11-28 17:19:45 公開日:2023-11-27
# SVRDA: Slice-to-Volume登録のためのWebベースのデータセットアノテーションツール

SVRDA: A Web-based Dataset Annotation Tool for Slice-to-Volume Registration ( http://arxiv.org/abs/2311.15536v1 )

ライセンス: Link先を確認
Weixun Luo, Alexandre Triay Bagur, Paul Aljabar, George Ralli, Sir Michael Brady(参考訳) 背景と目的: ベンチマークデータセットの欠如は、スライスからボリュームへの登録アルゴリズムの開発を妨げている。 このようなデータセットは、主にデータ間の次元差とタスク固有のソフトウェアの変形のために注釈付けが難しい。 スライスからボリュームへの登録のためのデータセットアノテーションを合理化するユーザフレンドリーなツールの開発を目指している。 Methods: 提案するツールはSVRDAと呼ばれ、プラットフォームに依存しない協調データセットアノテーションのためのインストール不要のWebアプリケーションである。 キーボードショートカットによる効率的な変換操作と,自動セーブによるスムーズなケーストランジションを実現する。 SVRDAは構成ベースのデータローディングをサポートし、関心事の分離に固執し、将来の研究に優れた柔軟性と拡張性を提供します。 スライスからボリュームへの登録を容易にするために、様々な補足的な特徴が実装されている。 結果: 英国のバイオバンクデータにおいて, 登録後セグメンテーションの質を間接的に評価し, 統計的に有意な証拠(p<0.001$)によって支持された劇的な総合的改善(Dice similarity Coefficientでは24.02%, 95%オースドルフ距離では48.93%)を観察し, SVRDAの有効性を検証した。 さらに,SVRDAを社内磁気共鳴画像のT1定量化試験に組み込むことで臨床応用を実証し,登録後のより一貫した結果を得た。 結論: svrdaはベンチマークデータセットの協調的なアノテーションを促進し、スライスからボリュームへの登録を含む他のパイプラインに適用できる可能性がある。 完全なソースコードとドキュメントはhttps://github.com/Roldbach/SVRDAで入手できる。

Background and Objective: The lack of benchmark datasets has impeded the development of slice-to-volume registration algorithms. Such datasets are difficult to annotate, primarily due to the dimensional difference within data and the dearth of task-specific software. We aim to develop a user-friendly tool to streamline dataset annotation for slice-to-volume registration. Methods: The proposed tool, named SVRDA, is an installation-free web application for platform-agnostic collaborative dataset annotation. It enables efficient transformation manipulation via keyboard shortcuts and smooth case transitions with auto-saving. SVRDA supports configuration-based data loading and adheres to the separation of concerns, offering great flexibility and extensibility for future research. Various supplementary features have been implemented to facilitate slice-to-volume registration. Results: We validated the effectiveness of SVRDA by indirectly evaluating the post-registration segmentation quality on UK Biobank data, observing a dramatic overall improvement (24.02% in the Dice Similarity Coefficient and 48.93% in the 95th percentile Hausdorff distance, respectively) supported by highly statistically significant evidence ($p<0.001$).We further showcased the clinical usage of SVRDA by integrating it into test-retest T1 quantification on in-house magnetic resonance images, leading to more consistent results after registration. Conclusions: SVRDA can facilitate collaborative annotation of benchmark datasets while being potentially applicable to other pipelines incorporating slice-to-volume registration. Full source code and documentation are available at https://github.com/Roldbach/SVRDA
翻訳日:2023-11-28 17:19:13 公開日:2023-11-27
# メタマテリアルにおける集合的透明性の類似性

Analogue of collectively induced transparency in metamaterials ( http://arxiv.org/abs/2311.15534v1 )

ライセンス: Link先を確認
Wei Huang, Shi-Ting Cao, Xiaowei Qu, Shan Yin, Wentao Zhang(参考訳) 最近では、キャビティとイオンのカップリングと集合イオンの量子干渉から生じる、キャビティ量子力学システムにおいて、全く新しい光学現象である、集合的に誘導された透過性(CIT)がすでに提案されている。 量子光学の類似性から、メタマテリアルは、高感度なメタマテリアルセンサー、光スイッチ、フォトメモリに有用な集合誘起透過性(cit)を実現する良いプラットフォームでもある。 本稿では,terahertz(thz)メタマテリアルシステムにおけるcitを実現するために,明るいモードと暗いモードの干渉の結合を提案する。 理論解析,解析解,シミュレーション,実験を行い,そのアイデアを実証する。

Most recently, a brand new optical phenomenon, collectively induced transparency (CIT) has already been proposed in the cavity quantum electrodynamics system, which comes from the coupling between the cavity and ions and the quantum interference of collective ions. Due to the equivalent analogue of quantum optics, metamaterial also is a good platform to realize collectively induced transparency (CIT) which can be useful for highly sensitive metamaterial sensors, optical switches and photo-memory. In this paper, we propose the coupling of bright mode and interference of dark modes, to realize the CIT in terahertz (THz) metamaterial system. We give the theoretical analysis, analytical solutions, simulations and experiments to demonstrate our idea.
翻訳日:2023-11-28 17:18:44 公開日:2023-11-27
# ハミルトンシミュレーションを用いた開量子系シミュレーション

Simulating Open Quantum Systems Using Hamiltonian Simulations ( http://arxiv.org/abs/2311.15533v1 )

ライセンス: Link先を確認
Zhiyan Ding and Xiantao Li and Lin Lin(参考訳) 本稿では,リンドブラッド方程式をシミュレートする新しい手法を提案し,リンドブラッド力学,確率微分方程式,ハミルトニアンシミュレーションとの関係について考察する。 余剰アンシラ量子ビットを導入することにより、拡大ヒルベルト空間におけるユニタリダイナミクスの列を導出し、リンドブラッド力学を任意の高階まで近似することができる。 このユニタリ表現は、ハミルトニアンシミュレーションとアンシラ量子ビットの追跡のみを含む量子回路を用いてシミュレートすることができる。 ハミルトンシミュレーションのためにユニタリダイナミクスが構築された場合、測定結果に追加のポスト選択が必要なくなり、各段階で1つの成功確率が保証される。 本手法は時間依存設定へ直接一般化することができる。 時間に依存しないリンドブラジアンダイナミクスと時間に依存しないリンドブラジアンダイナミクスの両方を3階までの精度でシミュレートする数値例を提供する。

We present a novel method to simulate the Lindblad equation, drawing on the relationship between Lindblad dynamics, stochastic differential equations, and Hamiltonian simulations. By introducing extra ancilla qubits, we derive a sequence of unitary dynamics in an enlarged Hilbert space that can approximate the Lindblad dynamics up to an arbitrarily high order. This unitary representation can then be simulated using a quantum circuit that involves only Hamiltonian simulation and tracing out the ancilla qubits. When a unitary dynamics is constructed for the Hamiltonian simulation, there is no need for additional post-selection in measurement outcomes, ensuring a success probability of one at each stage. Our method can be directly generalized to the time-dependent setting. We provide numerical examples that simulate both time-independent and time-dependent Lindbladian dynamics with accuracy up to the third order.
翻訳日:2023-11-28 17:18:31 公開日:2023-11-27
# SSIN: 降雨空間補間のための自己監督型学習

SSIN: Self-Supervised Learning for Rainfall Spatial Interpolation ( http://arxiv.org/abs/2311.15530v1 )

ライセンス: Link先を確認
Jia Li, Yanyan Shen, Lei Chen, Charles Wang Wai NG(参考訳) 宇宙における正確な降雨分布の獲得は、水文学解析と自然災害予報において重要な課題である。 しかし、すべての角に雨量計を設置することは不可能である。 空間補間は、利用可能な雷雨データに基づいて降雨分布を推定する一般的な方法である。 しかし、既存の研究は空間相関を捉えるために非現実的な事前設定に依存しており、実際のシナリオにおける性能を制限している。 本研究では,過去の観測データから潜在空間パターンを抽出し,降雨空間補間のためのデータ駆動型自己教師付き学習フレームワークssinを提案する。 ClozeタスクとBERTにインスパイアされ,空間補間の特性を完全に考慮し,Transformerアーキテクチャを基本としたSpaFormerモデルをSSINのコアとして設計する。 ランダムマスキングによってリッチな自己スーパービジョン信号を構築することで、spaformerは生データの情報埋め込みを学習し、降雨空間コンテキストに基づいて空間相関を適応的にモデル化することができる。 2つの実世界のラリングオージデータセットに対する大規模な実験は、我々の手法が最先端のソリューションより優れていることを示している。 さらに,トラフィック空間補間を別のユースケースとして,提案手法の性能をさらに検討し,SpaFormerは1つの大規模実世界のトラフィックデータセット上で最高の性能を達成し,本手法の有効性と汎用性をさらに確認する。

The acquisition of accurate rainfall distribution in space is an important task in hydrological analysis and natural disaster pre-warning. However, it is impossible to install rain gauges on every corner. Spatial interpolation is a common way to infer rainfall distribution based on available raingauge data. However, the existing works rely on some unrealistic pre-settings to capture spatial correlations, which limits their performance in real scenarios. To tackle this issue, we propose the SSIN, which is a novel data-driven self-supervised learning framework for rainfall spatial interpolation by mining latent spatial patterns from historical observation data. Inspired by the Cloze task and BERT, we fully consider the characteristics of spatial interpolation and design the SpaFormer model based on the Transformer architecture as the core of SSIN. Our main idea is: by constructing rich self-supervision signals via random masking, SpaFormer can learn informative embeddings for raw data and then adaptively model spatial correlations based on rainfall spatial context. Extensive experiments on two real-world raingauge datasets show that our method outperforms the state-of-the-art solutions. In addition, we take traffic spatial interpolation as another use case to further explore the performance of our method, and SpaFormer achieves the best performance on one large real-world traffic dataset, which further confirms the effectiveness and generality of our method.
翻訳日:2023-11-28 17:18:15 公開日:2023-11-27
# ミニマックス拡散による効率的なデータセット蒸留

Efficient Dataset Distillation via Minimax Diffusion ( http://arxiv.org/abs/2311.15529v1 )

ライセンス: Link先を確認
Jianyang Gu, Saeed Vahidian, Vyacheslav Kungurtsev, Haonan Wang, Wei Jiang, Yang You, Yiran Chen(参考訳) データセット蒸留は、元の大規模データの豊富な情報をカプセル化した小さなサロゲートデータセットを生成することで、ネットワークのトレーニングの記憶と計算消費を減らす。 しかし, 従来の蒸留法は, サンプル単位の反復最適化方式に強く依存している。 画像毎クラス(IPC)の設定や画像解像度が大きくなるにつれて、必要な計算は圧倒的な時間とリソースを必要とする。 本研究は,サロゲートデータセットの計算に生成拡散技術を導入することを目的としている。 効果的なサロゲートデータセットを構築するための重要な要因は代表性と多様性であると考え,拡散モデルの生成画像に対してこれらのファセットを強化するために生成訓練において追加のミニマックス基準を設計する。 本稿では, 拡散過程を階層的拡散制御として理論的モデルとして提示し, 試料を所望の分布に忠実さを損なうことなく, 拡散過程の柔軟性を示す。 提案手法は,計算資源の削減を図りながら,最先端の検証性能を実現する。 ImageWoofの100-IPC設定では,従来手法の蒸留時間は20分の1以下であったが,性能は向上した。 ソースコードはhttps://github.com/vimar-gu/minimaxdiffusion。

Dataset distillation reduces the storage and computational consumption of training a network by generating a small surrogate dataset that encapsulates rich information of the original large-scale one. However, previous distillation methods heavily rely on the sample-wise iterative optimization scheme. As the images-per-class (IPC) setting or image resolution grows larger, the necessary computation will demand overwhelming time and resources. In this work, we intend to incorporate generative diffusion techniques for computing the surrogate dataset. Observing that key factors for constructing an effective surrogate dataset are representativeness and diversity, we design additional minimax criteria in the generative training to enhance these facets for the generated images of diffusion models. We present a theoretical model of the process as hierarchical diffusion control demonstrating the flexibility of the diffusion process to target these criteria without jeopardizing the faithfulness of the sample to the desired distribution. The proposed method achieves state-of-the-art validation performance while demanding much less computational resources. Under the 100-IPC setting on ImageWoof, our method requires less than one-twentieth the distillation time of previous methods, yet yields even better performance. Source code available in https://github.com/vimar-gu/MinimaxDiffusion.
翻訳日:2023-11-28 17:17:50 公開日:2023-11-27
# VLSP 2022 -- Abmusu Shared Task: A data Challenge for Vietnam Abstractive Multi-document Summarization

Overview of the VLSP 2022 -- Abmusu Shared Task: A Data Challenge for Vietnamese Abstractive Multi-document Summarization ( http://arxiv.org/abs/2311.15525v1 )

ライセンス: Link先を確認
Mai-Vu Tran, Hoang-Quynh Le, Duy-Cat Can, Quoc-An Nguyen(参考訳) 本稿ではベトナムニュースにおけるVLSP 2022-ベトナムの抽象的多文書要約(Abmusu)の概要を報告する。 この仕事はベトナム語と音声処理に関する9$^{th}$年次ワークショップ(vlsp 2022)で開催されている。 Abmusuの共有タスクの目的は、トピック上の文書の集合に対して抽象的な要約を自動的に作成できる要約システムを開発することである。 モデル入力は同じトピック上の複数のニュースドキュメントであり、対応する出力は関連する抽象的な要約である。 Abmusuの共有タスクの範囲では、ベトナムのニュース要約のみに焦点を当て、600クラスタで1,839の人手による注釈付きデータセットを構築し、8カテゴリでベトナムのニュースから収集する。 文書要約問題における最も典型的な評価指標である「texttt{ROUGE2-F1}」スコアを評価・ランク付けする。

This paper reports the overview of the VLSP 2022 - Vietnamese abstractive multi-document summarization (Abmusu) shared task for Vietnamese News. This task is hosted at the 9$^{th}$ annual workshop on Vietnamese Language and Speech Processing (VLSP 2022). The goal of Abmusu shared task is to develop summarization systems that could create abstractive summaries automatically for a set of documents on a topic. The model input is multiple news documents on the same topic, and the corresponding output is a related abstractive summary. In the scope of Abmusu shared task, we only focus on Vietnamese news summarization and build a human-annotated dataset of 1,839 documents in 600 clusters, collected from Vietnamese news in 8 categories. Participated models are evaluated and ranked in terms of \texttt{ROUGE2-F1} score, the most typical evaluation metric for document summarization problem.
翻訳日:2023-11-28 17:17:30 公開日:2023-11-27
# 電気モータの故障診断のためのアクティブ基礎モデル

Active Foundational Models for Fault Diagnosis of Electrical Motors ( http://arxiv.org/abs/2311.15516v1 )

ライセンス: Link先を確認
Sriram Anbalagan, Sai Shashank GP, Deepesh Agarwal, Balasubramaniam Natarajan, Babji Srinivasan(参考訳) 電気モーターの故障検出と診断は、いくつかの産業システムの安全で信頼性の高い運用を確保する上で最も重要である。 初期段階での障害の検出と診断は、障害の深刻度を低減するために修正措置を講じることを可能にする。 既存の機械学習による機械学習アプローチは、大量のラベル付きサンプルに依存しており、アノテーションは高価で時間がかかる。 しかし、未ラベル状態監視データの大部分は、トレーニングプロセスでは利用されない。 この制限を克服するために,より少ないラベル付きサンプルを利用する基本モデルに基づくアクティブラーニングフレームワークを提案し,アクティブラーニングとコントラスト型自己監督学習を効果的に組み合わせることで,利用可能な膨大なラベル付きデータを活用する。 これは、最先端のneighbor-neighborコントラスト自己教師付き学習法を用いてトレーニングされたトランスフォーマネットワークベースのバックボーンモデルで構成されている。 このアプローチは、生のラベルのない振動データから得られたサンプルの表現を改善することをバックボーンに与える。 その後、バックボーンは、同じマシン内および異なるマシン間で、さまざまなダウンストリームタスクに対処するための微調整を行うことができる。 提案手法の有効性は,3つの異なる故障データセットを用いて,複数の目標タスクに対するバックボーンの微調整によって評価されている。 実験評価の結果,ラベル付きデータの少ない既往の故障診断法と比較して,優れた性能が得られた。

Fault detection and diagnosis of electrical motors are of utmost importance in ensuring the safe and reliable operation of several industrial systems. Detection and diagnosis of faults at the incipient stage allows corrective actions to be taken in order to reduce the severity of faults. The existing data-driven deep learning approaches for machine fault diagnosis rely extensively on huge amounts of labeled samples, where annotations are expensive and time-consuming. However, a major portion of unlabeled condition monitoring data is not exploited in the training process. To overcome this limitation, we propose a foundational model-based Active Learning framework that utilizes less amount of labeled samples, which are most informative and harnesses a large amount of available unlabeled data by effectively combining Active Learning and Contrastive Self-Supervised Learning techniques. It consists of a transformer network-based backbone model trained using an advanced nearest-neighbor contrastive self-supervised learning method. This approach empowers the backbone to learn improved representations of samples derived from raw, unlabeled vibration data. Subsequently, the backbone can undergo fine-tuning to address a range of downstream tasks, both within the same machines and across different machines. The effectiveness of the proposed methodology has been assessed through the fine-tuning of the backbone for multiple target tasks using three distinct machine-bearing fault datasets. The experimental evaluation demonstrates a superior performance as compared to existing state-of-the-art fault diagnosis methods with less amount of labeled data.
翻訳日:2023-11-28 17:17:13 公開日:2023-11-27
# 自動質問応答システムの比較および実験的検討 : 単語の発声に対するロバスト性

A Comparative and Experimental Study on Automatic Question Answering Systems and its Robustness against Word Jumbling ( http://arxiv.org/abs/2311.15513v1 )

ライセンス: Link先を確認
Shashidhar Reddy Javaji, Haoran Hu, Sai Sameer Vennam, Vijaya Gajanan Buddhavarapu(参考訳) 自然言語処理モデルを用いた質問応答生成は、私たちを取り巻く世界においてユビキタスである。 チャットボットの構築、Google検索における提案的プロンプト、および銀行モバイルアプリケーションにおける情報のナビゲート方法など、多くのユースケースで使用されている。 頻繁に質問される質問(FAQ)リストは、限られた量の質問しか持たないが、質問応答生成が可能なモデルは、データの範囲内にある全く新しい質問に答えることができるため、非常に関連性が高い。 これにより、関連する質問である限り、新しい質問に正確に答えられるようになります。 商用アプリケーションでは、顧客満足度と使いやすさを高めるために利用できます。 しかし、多くのデータは人間によって生成されるため、ヒューマンエラーの影響を受けやすく、モデルの性能に悪影響を及ぼす可能性がある。

Question answer generation using Natural Language Processing models is ubiquitous in the world around us. It is used in many use cases such as the building of chat bots, suggestive prompts in google search and also as a way of navigating information in banking mobile applications etc. It is highly relevant because a frequently asked questions (FAQ) list can only have a finite amount of questions but a model which can perform question answer generation could be able to answer completely new questions that are within the scope of the data. This helps us to be able to answer new questions accurately as long as it is a relevant question. In commercial applications, it can be used to increase customer satisfaction and ease of usage. However a lot of data is generated by humans so it is susceptible to human error and this can adversely affect the model's performance and we are investigating this through our work
翻訳日:2023-11-28 17:16:52 公開日:2023-11-27
# 軌跡予測のためのスパース歩行者文字学習

Sparse Pedestrian Character Learning for Trajectory Prediction ( http://arxiv.org/abs/2311.15512v1 )

ライセンス: Link先を確認
Yonghao Dong, Le Wang, Sanpin Zhou, Gang Hua, and Changyin Sun(参考訳) 近年,自律運転の重要性から,歩行者の軌道予測が注目されている。 最近の研究では、歩行者の文字情報 \textit{i.e.}、行動と外観を用いて、学習された軌道埋め込みを改善し、最先端のパフォーマンスを達成している。 しかし、軌道表現に悪影響を及ぼす無効な歩行者文字情報や負の歩行者文字情報を無視し、性能低下を招く。 この問題に対処するために,歩行者軌跡予測のための2ストリームスパースキャラクタネットワーク~(TSNet)を提案する。 具体的には、tsnetはスパース文字表現ストリーム内の負の削除文字を学習し、軌道表現ストリームで得られる軌道埋め込みを改善する。 さらに,否定削除された文字をモデル化するために,スパースカテゴリとスパース時間文字グラフを含む新しいスパース文字グラフを提案し,それぞれカテゴリと時間次元の様々な文字の異なる効果を学習する。 PIEとJAADの2つの個人ビューデータセットに対する大規模な実験により、我々の手法は既存の最先端手法よりも優れていることが示された。 加えて、アブレーション研究は様々な文字の異なる効果を示し、tsnetが負の文字を排除することなくアプローチを上回っていることを証明している。

Pedestrian trajectory prediction in a first-person view has recently attracted much attention due to its importance in autonomous driving. Recent work utilizes pedestrian character information, \textit{i.e.}, action and appearance, to improve the learned trajectory embedding and achieves state-of-the-art performance. However, it neglects the invalid and negative pedestrian character information, which is harmful to trajectory representation and thus leads to performance degradation. To address this issue, we present a two-stream sparse-character-based network~(TSNet) for pedestrian trajectory prediction. Specifically, TSNet learns the negative-removed characters in the sparse character representation stream to improve the trajectory embedding obtained in the trajectory representation stream. Moreover, to model the negative-removed characters, we propose a novel sparse character graph, including the sparse category and sparse temporal character graphs, to learn the different effects of various characters in category and temporal dimensions, respectively. Extensive experiments on two first-person view datasets, PIE and JAAD, show that our method outperforms existing state-of-the-art methods. In addition, ablation studies demonstrate different effects of various characters and prove that TSNet outperforms approaches without eliminating negative characters.
翻訳日:2023-11-28 17:16:38 公開日:2023-11-27
# 複数ジャンルの中国小説におけるエンティティ認識のためのコーパス

A Corpus for Named Entity Recognition in Chinese Novels with Multi-genres ( http://arxiv.org/abs/2311.15509v1 )

ライセンス: Link先を確認
Hanjie Zhao, Jinge Xie, Yuchen Yan, Yuxiang Jia, Yawen Ye, Hongying Zan(参考訳) 人、場所、組織のような実体は文学的テキスト分析において重要である。 注釈付きデータの欠如は、文学領域における名前付きエンティティ認識(NER)の進歩を妨げる。 文芸NERの研究を促進するため,13ジャンルのオンライン小説260冊のうち,263,135件を105,851文に収めた最大規模の多ジャンルの文芸NERコーパスを構築した。 コーパスに基づいて,異なるジャンルのエンティティの特性について検討する。 いくつかのベースラインNERモデルを提案し、クロスジャンルおよびクロスドメイン実験を行う。 実験の結果,ジャンル差は文学ドメインやニュースドメインと同等ではないが,NERのパフォーマンスに大きな影響を及ぼすことが示された。 ニュース分野のNERと比較して、文学的NERは依然として多くの改善を必要としており、文学作品における多種多様な実体のため、外語彙(OOV)問題はより困難である。

Entities like person, location, organization are important for literary text analysis. The lack of annotated data hinders the progress of named entity recognition (NER) in literary domain. To promote the research of literary NER, we build the largest multi-genre literary NER corpus containing 263,135 entities in 105,851 sentences from 260 online Chinese novels spanning 13 different genres. Based on the corpus, we investigate characteristics of entities from different genres. We propose several baseline NER models and conduct cross-genre and cross-domain experiments. Experimental results show that genre difference significantly impact NER performance though not as much as domain difference like literary domain and news domain. Compared with NER in news domain, literary NER still needs much improvement and the Out-of-Vocabulary (OOV) problem is more challenging due to the high variety of entities in literary works.
翻訳日:2023-11-28 17:16:17 公開日:2023-11-27
# 高度文書文脈を用いたニューラルマシン翻訳における単語感覚の曖昧さ解消

Improving Word Sense Disambiguation in Neural Machine Translation with Salient Document Context ( http://arxiv.org/abs/2311.15507v1 )

ライセンス: Link先を確認
Elijah Rippeth, Marine Carpuat, Kevin Duh, Matt Post(参考訳) 語彙的あいまいさは機械翻訳(英語版)(\mt)における困難かつ普及的な問題である。 ニューラルネットワークに少量の外部コンテキストを組み込むことで、翻訳曖昧性を解決するためのシンプルでスケーラブルなアプローチを導入する。 私たちのアプローチでは、意味のあるアノテーションや標準モデルアーキテクチャの変更は不要です。 実際の文書コンテキストは \mt トレーニングデータの大部分では利用できないため、入力毎に関連する文を収集して擬似文書を作成する。 擬似文書からの敬語は、翻訳の生成を条件として各原文に接頭辞として符号化される。 評価のために,文書IDを付加した英語-ドイツ語の \mucow \cite{raganato-etal-2020-evaluation" に基づく翻訳曖昧化のための課題セットである \docmucow をリリースする。 広範な実験により,強い文レベルのベースラインや比較文書レベルのベースラインよりも曖昧なソース単語を翻訳し,学習コストを低減できることを示した。

Lexical ambiguity is a challenging and pervasive problem in machine translation (\mt). We introduce a simple and scalable approach to resolve translation ambiguity by incorporating a small amount of extra-sentential context in neural \mt. Our approach requires no sense annotation and no change to standard model architectures. Since actual document context is not available for the vast majority of \mt training data, we collect related sentences for each input to construct pseudo-documents. Salient words from pseudo-documents are then encoded as a prefix to each source sentence to condition the generation of the translation. To evaluate, we release \docmucow, a challenge set for translation disambiguation based on the English-German \mucow \cite{raganato-etal-2020-evaluation} augmented with document IDs. Extensive experiments show that our method translates ambiguous source words better than strong sentence-level baselines and comparable document-level baselines while reducing training costs.
翻訳日:2023-11-28 17:16:01 公開日:2023-11-27
# 相補ラベルを用いた学習の再検討--負ラベル学習による一貫したアプローチ

Learning with Complementary Labels Revisited: A Consistent Approach via Negative-Unlabeled Learning ( http://arxiv.org/abs/2311.15502v1 )

ライセンス: Link先を確認
Wei Wang, Takashi Ishida, Yu-Jie Zhang, Gang Niu, Masashi Sugiyama(参考訳) 補完ラベル学習(complementary-label learning)は、各トレーニング例が1つまたは複数の補完ラベルに関連付けられている弱い教師付き学習問題である。 既存の一貫したアプローチは、相補的なラベルの生成をモデル化する一様分布仮定や、遷移行列を推定するための通常のラベル訓練セットに依存する。 しかし、両方の条件は現実のシナリオでは満たされない。 本稿では,これらの条件に依存しない新しい補完ラベル学習手法を提案する。 補足ラベル学習は, 1-versus-rest戦略を用いた場合, 負ラベル付き二分分類問題の集合として表現できることがわかった。 この観察により、理論的保証を伴うリスク一貫性のあるアプローチが提案できる。 さらに,複雑なモデルを用いた場合の過適合問題に対するリスク補正手法を提案する。 また,修正リスク推定器の統計的一貫性と収束率も証明した。 合成および実世界のベンチマークデータセットの大規模な実験結果から,提案手法が最先端手法よりも優れていることを示す。

Complementary-label learning is a weakly supervised learning problem in which each training example is associated with one or multiple complementary labels indicating the classes to which it does not belong. Existing consistent approaches have relied on the uniform distribution assumption to model the generation of complementary labels, or on an ordinary-label training set to estimate the transition matrix. However, both conditions may not be satisfied in real-world scenarios. In this paper, we propose a novel complementary-label learning approach that does not rely on these conditions. We find that complementary-label learning can be expressed as a set of negative-unlabeled binary classification problems when using the one-versus-rest strategy. This observation allows us to propose a risk-consistent approach with theoretical guarantees. Furthermore, we introduce a risk correction approach to address overfitting problems when using complex models. We also prove the statistical consistency and convergence rate of the corrected risk estimator. Extensive experimental results on both synthetic and real-world benchmark datasets validate the superiority of our proposed approach over state-of-the-art methods.
翻訳日:2023-11-28 17:15:41 公開日:2023-11-27
# 関数制約プログラム合成

Function-constrained Program Synthesis ( http://arxiv.org/abs/2311.15500v1 )

ライセンス: Link先を確認
Patrick Hajali and Ignas Budvytis(参考訳) 本研究は,1)プログラムタスクを解く際に,ユーザが提供するコードを活用するための大規模言語モデル (LLM) と,2) LLMが生成した初期コードが不十分である場合に,将来のコード生成の試みを支援するモジュールサブ関数を反復的に生成する手法を紹介する。 pythonのような汎用プログラミング言語でコンピュータプログラムを生成することは、プロンプトで提供されるコードを使用するよう指示されたときにllmsにとって課題となる。 コード固有のLCM(GitHub Copilot、CodeLlama2)は、開発環境で利用可能なすべてのコードに描画することで、リアルタイムでコード補完を生成することができる。 しかしながら、コード固有のLLMをコンテキスト内でのみ使用するように制限することは簡単ではなく、モデルが明示的にユーザが提供するコードを使用するように指示されていないため、ユーザーはモデルがそのコンテキストに組み込むべきコードのスニペットを正確に強調できない。 さらに、現在のシステムには効果的なリカバリ方法が欠如しており、十分なソリューションに到達するまで、ユーザがモデルを再プロンプトを変更済みのプロンプトで繰り返し行わざるを得ない。 提案手法は,コード生成を明示的な関数集合に制約し,自動生成したサブ関数による失敗からの回復を可能にすることで,従来のLLMコード生成と異なる。 LLMが動作コードを生成することができない場合、モジュールサブ関数を生成して、機能コードを生成する。 提案手法の副産物は再利用可能なサブファンクションのライブラリであり,効率が経験とともにスケールするソフトウェアチームを模倣して,関連するタスクを解くことができる。 また,従来のゼロショット評価に比べてllmsのコーディング能力の密接な評価を行う新しい「ハーフショット」評価パラダイムを導入する。 提案手法は,モデルが構造化された形式で解を出力することを奨励し,コーディング能力の低下を誤る構文誤差を低減させる。

This work introduces (1) a technique that allows large language models (LLMs) to leverage user-provided code when solving programming tasks and (2) a method to iteratively generate modular sub-functions that can aid future code generation attempts when the initial code generated by the LLM is inadequate. Generating computer programs in general-purpose programming languages like Python poses a challenge for LLMs when instructed to use code provided in the prompt. Code-specific LLMs (e.g., GitHub Copilot, CodeLlama2) can generate code completions in real-time by drawing on all code available in a development environment. However, restricting code-specific LLMs to use only in-context code is not straightforward, as the model is not explicitly instructed to use the user-provided code and users cannot highlight precisely which snippets of code the model should incorporate into its context. Moreover, current systems lack effective recovery methods, forcing users to iteratively re-prompt the model with modified prompts until a sufficient solution is reached. Our method differs from traditional LLM-powered code-generation by constraining code-generation to an explicit function set and enabling recovery from failed attempts through automatically generated sub-functions. When the LLM cannot produce working code, we generate modular sub-functions to aid subsequent attempts at generating functional code. A by-product of our method is a library of reusable sub-functions that can solve related tasks, imitating a software team where efficiency scales with experience. We also introduce a new "half-shot" evaluation paradigm that provides tighter estimates of LLMs' coding abilities compared to traditional zero-shot evaluation. Our proposed evaluation method encourages models to output solutions in a structured format, decreasing syntax errors that can be mistaken for poor coding ability.
翻訳日:2023-11-28 17:15:27 公開日:2023-11-27
# 補助サンプルを用いたビデオベース可視赤外人物再同定

Video-based Visible-Infrared Person Re-Identification with Auxiliary Samples ( http://arxiv.org/abs/2311.15571v1 )

ライセンス: Link先を確認
Yunhao Du, Cheng Lei, Zhicheng Zhao, Yuan Dong, Fei Su(参考訳) Visible-Infrared person re-identification (VI-ReID)は、可視・赤外線カメラで捉えた人物をマッチングし、24時間監視システムで人物の検索と追跡を可能にする。 従来は、異なるカメラでモダリティを横断する人物画像から学ぶことに集中していた。 しかし、時間情報やシングルカメラのサンプルは無視される傾向にある。 本稿ではまず,BUPTCampusという大規模VI-ReIDデータセットについて述べる。 既存のvi-reidデータセットと異なり 1)画像の代わりにトラックレットを収集し、豊富な時間情報を導入する。 2)より良いモダリティ不変学習のためのピクセルアラインクロスモダリティサンプルペアを含む。 3)各アイデンティティが1つのカメラにのみ現れる最適化を強化するための補助セットを1つ提供します。 構築したデータセットに基づいて、2ストリームフレームワークをベースラインとして提示し、2つのモード間のギャップを狭めるためにGAN(Generative Adversarial Network)を適用した。 補助集合がもたらす利点を活用するために,予備集合と補助集合の両方から共同で学習するカリキュラム学習ベースの戦略を提案する。 さらに, 微粒な時間相関手法を用いてランキングリストを洗練するための新しい時間的k-相反的再ランク法を設計する。 実験の結果,提案手法の有効性が示された。 また,BUPTCampusでは,9つの最先端画像とビデオベースのVI-ReID法を再現した。 コードとデータセットは、https://github.com/dyhBUPT/BUPTCampus.comで公開されている。

Visible-infrared person re-identification (VI-ReID) aims to match persons captured by visible and infrared cameras, allowing person retrieval and tracking in 24-hour surveillance systems. Previous methods focus on learning from cross-modality person images in different cameras. However, temporal information and single-camera samples tend to be neglected. To crack this nut, in this paper, we first contribute a large-scale VI-ReID dataset named BUPTCampus. Different from most existing VI-ReID datasets, it 1) collects tracklets instead of images to introduce rich temporal information, 2) contains pixel-aligned cross-modality sample pairs for better modality-invariant learning, 3) provides one auxiliary set to help enhance the optimization, in which each identity only appears in a single camera. Based on our constructed dataset, we present a two-stream framework as baseline and apply Generative Adversarial Network (GAN) to narrow the gap between the two modalities. To exploit the advantages introduced by the auxiliary set, we propose a curriculum learning based strategy to jointly learn from both primary and auxiliary sets. Moreover, we design a novel temporal k-reciprocal re-ranking method to refine the ranking list with fine-grained temporal correlation cues. Experimental results demonstrate the effectiveness of the proposed methods. We also reproduce 9 state-of-the-art image-based and video-based VI-ReID methods on BUPTCampus and our methods show substantial superiority to them. The codes and dataset are available at: https://github.com/dyhBUPT/BUPTCampus.
翻訳日:2023-11-28 17:08:01 公開日:2023-11-27
# Boot and Switch: ゼロショット高密度検索のための代替蒸留

Boot and Switch: Alternating Distillation for Zero-Shot Dense Retrieval ( http://arxiv.org/abs/2311.15564v1 )

ライセンス: Link先を確認
Fan Jiang, Qiongkai Xu, Tom Drummond, Trevor Cohn(参考訳) ニューラル 'dense' 検索モデルは多くのデータセットの最先端技術であるが、これらのモデルはドメイン転送能力に制限がある。 既存の適応アプローチは、明示的な監督、複雑なモデルアーキテクチャ、大規模な外部モデルなど、扱いにくい。 ゼロショット設定における経路検索を強化するための,単純だが効果的な教師なし手法である$\texttt{ABEL}$を提案する。 本手法は,リランカが提供する監視信号から高密度検索機を学習し,改良された検索機からのフィードバックに基づいてリランカを更新する。 このループを反復することにより、2つのコンポーネントは相互に互いのパフォーマンスを向上する。 実験の結果,制御不能な$\texttt{ABEL}$モデルは,BEIRベンチマークにおいて教師なし検索と教師なし検索のどちらよりも優れていた。 一方、訓練中に目に見えない課題や領域への適応能力が強かった。 ラベル付きデータに$\texttt{ABEL}$を微調整するか、既存の教師付き高密度検索と統合することにより、最先端の結果が得られる。 footnote{source code は \url{https://github.com/fantabulous-j/bootswitch} で入手できる。 }

Neural 'dense' retrieval models are state of the art for many datasets, however these models often exhibit limited domain transfer ability. Existing approaches to adaptation are unwieldy, such as requiring explicit supervision, complex model architectures, or massive external models. We present $\texttt{ABEL}$, a simple but effective unsupervised method to enhance passage retrieval in zero-shot settings. Our technique follows a straightforward loop: a dense retriever learns from supervision signals provided by a reranker, and subsequently, the reranker is updated based on feedback from the improved retriever. By iterating this loop, the two components mutually enhance one another's performance. Experimental results demonstrate that our unsupervised $\texttt{ABEL}$ model outperforms both leading supervised and unsupervised retrievers on the BEIR benchmark. Meanwhile, it exhibits strong adaptation abilities to tasks and domains that were unseen during training. By either fine-tuning $\texttt{ABEL}$ on labelled data or integrating it with existing supervised dense retrievers, we achieve state-of-the-art results.\footnote{Source code is available at \url{https://github.com/Fantabulous-J/BootSwitch}.}
翻訳日:2023-11-28 17:07:36 公開日:2023-11-27
# 密度検索のための合成クエリによるノイズ自己学習

Noisy Self-Training with Synthetic Queries for Dense Retrieval ( http://arxiv.org/abs/2311.15563v1 )

ライセンス: Link先を確認
Fan Jiang, Tom Drummond, Trevor Cohn(参考訳) 既存のニューラル検索モデルでは、トレーニングデータが豊富で、トレーニングデータの増加とともにパフォーマンスが向上し続けると有望な結果が得られるが、高品質な注釈データの収集は極めてコストがかかる。 そこで本研究では,ニューラルレトリバーを外部モデルに頼らずに自己進化的に改善できることを示す,新しいノイズの多い自己学習フレームワークを合成クエリと組み合わせて導入する。 実験結果から,本手法は一般ドメイン (ms-marco) および外部ドメイン (beir) の検索ベンチマークにおいて,既存の手法に対して一貫して改善することが示された。 低リソース環境での余分な分析により,本手法はトレーニングデータの30%程度をラベル付けした上で,データ効率が高く,競争ベースラインを上回っていることが明らかとなった。 再ランカトレーニングの枠組みをさらに拡張することで,提案手法が一般化され,多様な領域のタスクにさらなる利得が得られることを示す。 \footnote{Source code is available at \url{https://github.com/Fantabulous-J/Self-Training-DPR}}

Although existing neural retrieval models reveal promising results when training data is abundant and the performance keeps improving as training data increases, collecting high-quality annotated data is prohibitively costly. To this end, we introduce a novel noisy self-training framework combined with synthetic queries, showing that neural retrievers can be improved in a self-evolution manner with no reliance on any external models. Experimental results show that our method improves consistently over existing methods on both general-domain (e.g., MS-MARCO) and out-of-domain (i.e., BEIR) retrieval benchmarks. Extra analysis on low-resource settings reveals that our method is data efficient and outperforms competitive baselines, with as little as 30% of labelled training data. Further extending the framework for reranker training demonstrates that the proposed method is general and yields additional gains on tasks of diverse domains.\footnote{Source code is available at \url{https://github.com/Fantabulous-J/Self-Training-DPR}}
翻訳日:2023-11-28 17:07:14 公開日:2023-11-27
# オンラインコミュニティからの完全な視覚的質問応答データセット

Fully Authentic Visual Question Answering Dataset from Online Communities ( http://arxiv.org/abs/2311.15562v1 )

ライセンス: Link先を確認
Chongyan Chen, Mengchen Liu, Noel Codella, Yunsheng Li, Lu Yuan, Danna Gurari(参考訳) VQA(Visual Question Answering)は、画像に関する質問に答える機能である。 VQAデータセットは、すべてのコンテンツが真正のユースケースから生まれたものである。 オンラインの質問応答コミュニティフォーラムから引用して、VQAonlineと呼ぶ。 次に、データセットと、他の8つのvqaデータセットとの関係を特徴付ける。 データセットの回答はもっと長い(平均173語)ので、標準的なVQA評価指標と互換性がないため、テキスト評価を長くするための6つの一般的な指標のうちどれが人間の判断に最も適しているかを次に分析する。 次に、最も適したメトリクスを使用して、VQAonline上で6つの最先端のビジョンと言語基盤モデルを評価し、最も苦労している場所を明らかにします。 将来的な拡張を容易にするために、データセットをまもなくリリースします。

Visual Question Answering (VQA) entails answering questions about images. We introduce the first VQA dataset in which all contents originate from an authentic use case. Sourced from online question answering community forums, we call it VQAonline. We then characterize our dataset and how it relates to eight other VQA datasets. Observing that answers in our dataset tend to be much longer (e.g., with a mean of 173 words) and thus incompatible with standard VQA evaluation metrics, we next analyze which of the six popular metrics for longer text evaluation align best with human judgments. We then use the best-suited metrics to evaluate six state-of-the-art vision and language foundation models on VQAonline and reveal where they struggle most. We will release the dataset soon to facilitate future extensions.
翻訳日:2023-11-28 17:06:56 公開日:2023-11-27
# et3d:マルチビュー蒸留による効率的なテキスト対3d生成

ET3D: Efficient Text-to-3D Generation via Multi-View Distillation ( http://arxiv.org/abs/2311.15561v1 )

ライセンス: Link先を確認
Yiming Chen, Zhiqi Li, Peidong Liu(参考訳) テキスト・ツー・イメージ生成の最近の進歩は、大きな生成モデルによる奨励的な結果を示している。 3d資産が不足しているため、テキストから画像への生成の成功をテキストから3d生成に移すことはほとんどない。 既存のテキスト・ツー・3D生成法は通常、事前訓練されたテキスト・ツー・イメージ拡散モデルを蒸留することにより、アセットごとの最適化を行うDreamFusionのパラダイムを採用する。 生成速度は通常、3Dアセットあたりの数分から数十分の範囲で、ユーザエクスペリエンスを低下させ、高い計算予算のためにサービスプロバイダに負担をかける。 そこで本研究では,利用者のグラフィックカードにテキストプロンプトがある場合,3dアセットを生成するのに8ドル程度しかかからない効率的なテキスト対3d生成手法を提案する。 主な知見は,事前学習した大規模テキストから画像への拡散モデルによって生成された画像を活用し,テキスト条件付き3次元生成逆ネットワークのトレーニングを監督することである。 ネットワークがトレーニングされると、1回のフォワードパスで効率的に3dアセットを生成することができます。 本手法は, 3次元学習データを必要としないため, 学習済み画像拡散モデルを蒸留することにより, 効率的なテキスト対3次元生成のための代替手法を提供する。

Recent breakthroughs in text-to-image generation has shown encouraging results via large generative models. Due to the scarcity of 3D assets, it is hardly to transfer the success of text-to-image generation to that of text-to-3D generation. Existing text-to-3D generation methods usually adopt the paradigm of DreamFusion, which conducts per-asset optimization by distilling a pretrained text-to-image diffusion model. The generation speed usually ranges from several minutes to tens of minutes per 3D asset, which degrades the user experience and also imposes a burden to the service providers due to the high computational budget. In this work, we present an efficient text-to-3D generation method, which requires only around 8 $ms$ to generate a 3D asset given the text prompt on a consumer graphic card. The main insight is that we exploit the images generated by a large pre-trained text-to-image diffusion model, to supervise the training of a text conditioned 3D generative adversarial network. Once the network is trained, we are able to efficiently generate a 3D asset via a single forward pass. Our method requires no 3D training data and provides an alternative approach for efficient text-to-3D generation by distilling pre-trained image diffusion models.
翻訳日:2023-11-28 17:06:43 公開日:2023-11-27
# アルミニウム酸化物ジョセフソン接合におけるピンホールと弱点の影響

The influence of pinholes and weak-points in aluminium-oxide Josephson junctions ( http://arxiv.org/abs/2311.15560v1 )

ライセンス: Link先を確認
K. Bayros, M. J. Cyster, J. S. Smith, J. H. Cole(参考訳) ジョセフソン接合(Josephson junctions)は、量子コンピューティングの超伝導量子ビットにおいて用いられる鍵成分である。 量子コンピューティングの進歩は、クビットの安定性の欠如と、最終的にジョセフソン接合やその他の材料欠陥の非晶質トンネル障壁から生じる再現性の欠如によって制限される。 接合部のピンホールは、これらの不安定な原因の1つとして提案されているが、その存在の証拠と輸送への影響は明らかではない。 分子動力学を用いて3次元原子モデルを作成し、Al-AlOx-Alトンネル接合を記述することにより、バリアの酸化が不完全であるときにピンホールが形成されることを示す。 これに続いて、非平衡グリーン関数形式を用いて、原子モデルを用いて異なるバリア厚を持つトンネル接合の電子輸送特性をシミュレートする。 ピンホールはAl-AlOx-Alトンネル接合部における過剰な準粒子電流の流れに寄与し, より厚い障壁では, 酸化物が連続しても漏れ電流を緩和する弱い点が観察される。 アモルファスバリアの無秩序な性質は輸送特性に大きな変化をもたらすことが判明した。 さらに、我々の原子構造に対する現在の位相関係を定め、ピンホールと弱い点を持つ装置が理想的な正弦波ジョセフソン関係から逸脱することを確認する。

Josephson junctions are the key components used in superconducting qubits for quantum computing. The advancement of quantum computing is limited by a lack of stability and reproducibility of qubits which ultimately originates in the amorphous tunnel barrier of the Josephson junctions and other material imperfections. Pinholes in the junction have been suggested as one of the possible contributors to these instabilities, but evidence of their existence and the effect they might have on transport is unclear. We use molecular dynamics to create three-dimensional atomistic models to describe Al-AlOx-Al tunnel junctions, showing that pinholes form when oxidation of the barrier is incomplete. Following this we use the atomistic model and simulate the electronic transport properties for tunnel junctions with different barrier thicknesses using the non-equilibrium Green's function formalism. We observe that pinholes may contribute to excess quasiparticle current flow in Al-AlOx-Al tunnel junctions with thinner barriers, and in thicker barriers we observe weak-points which facilitate leakage currents even when the oxide is continuous. We find that the disordered nature of the amorphous barrier results in significant variations in the transport properties. Additionally, we determine the current-phase relationship for our atomistic structures, confirming that devices with pinholes and weak-points cause a deviation from the ideal sinusoidal Josephson relationship.
翻訳日:2023-11-28 17:06:21 公開日:2023-11-27
# PKU-I2IQA:AI生成画像の品質評価データベース

PKU-I2IQA: An Image-to-Image Quality Assessment Database for AI Generated Images ( http://arxiv.org/abs/2311.15556v1 )

ライセンス: Link先を確認
Jiquan Yuan, Xinyan Cao, Changjin Li, Fanyi Yang, Jinlong Lin, and Xixin Cao(参考訳) 画像生成技術の発展に伴い、AIベースの画像生成は様々な分野で応用されている。 しかし、AIGC画像生成モデルの開発も新たな問題と課題をもたらしている。 重要な課題は、AI生成画像(AIGI)を自然画像と比較すると、独特の歪みがあり、すべての生成画像が現実世界の要求を満たすわけではないため、AI生成画像をより包括的に評価することが非常に重要である。 これまでの研究で、テキスト生成画像のための人間の知覚に基づくaigc画像品質評価データベースを確立してきたが、ai画像生成技術には、テキスト対画像や画像対画像のようなシナリオが含まれており、テキスト対画像モデルで生成された画像のみが不十分である。 この問題に対処するため,我々はpku-i2iqaというaigc画像品質評価データベースを構築した。 PKU-I2IQAデータベースの総合解析を行った。 さらに、非参照画像品質評価に基づくNR-AIGCIQAと、フル参照画像品質評価に基づくFR-AIGCIQAの2つのベンチマークモデルを紹介した。 PKU-I2IQAデータベースとベンチマークは、https://github.com/jiquan123/I2IQAに関する将来の研究を促進するためにリリースされる。 キーワード:AIGC、画像画像生成、画像品質評価、NR-AIGCIQA、FR-AIGCIQA

With the development of image generation technology, AI-based image generation has been applied in various fields. However, the development of AIGC image generative models also brings new problems and challenges. A significant challenge is that AI-generated images (AIGI) compared to natural images may have some unique distortions, and not all generated images meet the requirements of the real world, so it is of great significance to evaluate AI-generated images more comprehensively. Although previous work has established some human perception-based AIGC image quality assessment databases for text-generated images, the AI image generation technology includes scenarios like text-to-image and image-to-image, and assessing only the images generated by text-to-image models is insufficient. To address this issue, we have established a human perception-based image-to-image AIGC image quality assessment database, named PKU-I2IQA. We conducted a comprehensive analysis of the PKU-I2IQA database. Furthermore, we introduced two benchmark models: NR-AIGCIQA based on no-reference image quality assessment and FR-AIGCIQA based on full-reference image quality assessment.Finally, leveraging this database, we conducted benchmark experiments and compared the performance of the proposed benchmark models. The PKU-I2IQA database and benchmarks will be released to facilitate future research on https://github.com/jiquan123/I2IQA. Keywords: AIGC, image-to-image generation, image quality assessment, NR-AIGCIQA, FR-AIGCIQA
翻訳日:2023-11-28 17:05:59 公開日:2023-11-27
# Instruct2Attack: 言語誘導のセマンティックアタック

Instruct2Attack: Language-Guided Semantic Adversarial Attacks ( http://arxiv.org/abs/2311.15551v1 )

ライセンス: Link先を確認
Jiang Liu, Chen Wei, Yuxiang Guo, Heng Yu, Alan Yuille, Soheil Feizi, Chun Pong Lau, Rama Chellappa(参考訳) 自由形式の言語命令に従って意味的に意味のある摂動を生成する言語誘導意味攻撃であるinstruct2attack(i2a)を提案する。 我々は,最先端の潜在拡散モデルを用いて,逆拡散過程を相反的にガイドし,入力画像とテキスト命令を条件とした逆潜在拡散符号を探索する。 既存のノイズベースやセマンティックアタックと比較して、I2Aはより自然で多様な敵の例を生成し、制御性と解釈性を向上させる。 さらに、gpt-4で攻撃プロセスを自動化し、画像固有のテキスト命令を生成する。 i2aは強力な防御下でも最先端のディープニューラルネットワークを破ることができ、様々なネットワークアーキテクチャ間で大きな転送性を示している。

We propose Instruct2Attack (I2A), a language-guided semantic attack that generates semantically meaningful perturbations according to free-form language instructions. We make use of state-of-the-art latent diffusion models, where we adversarially guide the reverse diffusion process to search for an adversarial latent code conditioned on the input image and text instruction. Compared to existing noise-based and semantic attacks, I2A generates more natural and diverse adversarial examples while providing better controllability and interpretability. We further automate the attack process with GPT-4 to generate diverse image-specific text instructions. We show that I2A can successfully break state-of-the-art deep neural networks even under strong adversarial defenses, and demonstrate great transferability among a variety of network architectures.
翻訳日:2023-11-28 17:05:33 公開日:2023-11-27
# 予測から行動へ:機械学習駆動材料発見における適切な性能推定の重要役割

From Prediction to Action: The Critical Role of Proper Performance Estimation for Machine-Learning-Driven Materials Discovery ( http://arxiv.org/abs/2311.15549v1 )

ライセンス: Link先を確認
Mario Boley and Felix Luong and Simon Teshuva and Daniel F Schmidt and Lucas Foppa and Matthias Scheffler(参考訳) 統計特性モデルによって駆動される物質発見は、モデルに変換された取得関数によって提案された新しいデータによって初期データ収集が拡張される反復的な決定プロセスである。 材料科学コミュニティは、トレーニング分布に対して平均的に良好に予測できる特性モデルの開発において大きな進歩を遂げたが、このような分布内性能測定は発見報酬と直接的に結び付いていない。 これは、反復的な発見過程が、例外的な材料に対するモデル性能によって過剰に決定される、シフトする報酬分布を有するためである。 二重ペロブスカイト酸化物のバルク弾性率最大化の例を用いてこの問題を実証する。 分布内予測の結果から,ランダム林はガウス過程の回帰よりも優れているが,発見報酬は逆であることが示唆された。 先行計算データ集合からの適切な性能推定手法の欠如は,データ駆動材料の発見を改善するための根本的な問題であり,na\"ive reward estimationとは対照的に,2重ペロブスカイトに対する実証研究において,ガウス過程の予測に成功し,"expected improvement"獲得関数を最善の4つの選択肢のうちの1つとした。 重要なのは、この予測を確認するのに必要な1000以上のab initio計算を必要としないことだ。

Materials discovery driven by statistical property models is an iterative decision process, during which an initial data collection is extended with new data proposed by a model-informed acquisition function--with the goal to maximize a certain "reward" over time, such as the maximum property value discovered so far. While the materials science community achieved much progress in developing property models that predict well on average with respect to the training distribution, this form of in-distribution performance measurement is not directly coupled with the discovery reward. This is because an iterative discovery process has a shifting reward distribution that is over-proportionally determined by the model performance for exceptional materials. We demonstrate this problem using the example of bulk modulus maximization among double perovskite oxides. We find that the in-distribution predictive performance suggests random forests as superior to Gaussian process regression, while the results are inverse in terms of the discovery rewards. We argue that the lack of proper performance estimation methods from pre-computed data collections is a fundamental problem for improving data-driven materials discovery, and we propose a novel such estimator that, in contrast to na\"ive reward estimation, successfully predicts Gaussian processes with the "expected improvement" acquisition function as the best out of four options in our demonstrational study for double perovskites. Importantly, it does so without requiring the over thousand ab initio computations that were needed to confirm this prediction.
翻訳日:2023-11-28 17:05:20 公開日:2023-11-27
# 金融における大規模言語モデルの欠如--幻覚の実証的研究

Deficiency of Large Language Models in Finance: An Empirical Examination of Hallucination ( http://arxiv.org/abs/2311.15548v1 )

ライセンス: Link先を確認
Haoqiang Kang and Xiao-Yang Liu(参考訳) 幻覚問題は、特に金融、教育、法などの分野に適用された場合に、大言語モデル(llm)の根本的な欠陥として認識される。 懸念が高まっているにもかかわらず、実証的な調査が欠如している。 本稿では,金融業務におけるllmsの幻覚行動に関する実証的研究を行う。 まず、LLMモデルが財務概念や用語を説明する能力を実証的に検討する。 第2に,LLMモデルによる歴史的株価の問い合わせ能力を評価する。 第3に、幻覚の問題を緩和するために、少数ショット学習、コントラスト層(DoLa)による復号化、検索拡張生成(RAG)法、クエリコマンドを生成する関数のプロンプトベースのツール学習法を含む4つの実践的手法の有効性を評価する。 最後に、我々の主要な発見は、既成のLLMが金融業務において深刻な幻覚を経験していることである。 そのため、LSMの幻覚を緩和する研究の取り組みを急務に呼び出す必要がある。

The hallucination issue is recognized as a fundamental deficiency of large language models (LLMs), especially when applied to fields such as finance, education, and law. Despite the growing concerns, there has been a lack of empirical investigation. In this paper, we provide an empirical examination of LLMs' hallucination behaviors in financial tasks. First, we empirically investigate LLM model's ability of explaining financial concepts and terminologies. Second, we assess LLM models' capacity of querying historical stock prices. Third, to alleviate the hallucination issue, we evaluate the efficacy of four practical methods, including few-shot learning, Decoding by Contrasting Layers (DoLa), the Retrieval Augmentation Generation (RAG) method and the prompt-based tool learning method for a function to generate a query command. Finally, our major finding is that off-the-shelf LLMs experience serious hallucination behaviors in financial tasks. Therefore, there is an urgent need to call for research efforts in mitigating LLMs' hallucination.
翻訳日:2023-11-28 17:04:50 公開日:2023-11-27
# 潜在空間におけるデータセット蒸留

Dataset Distillation in Latent Space ( http://arxiv.org/abs/2311.15547v1 )

ライセンス: Link先を確認
Yuxuan Duan, Jianfu Zhang, Liqing Zhang(参考訳) データセット蒸留(DD)は、大規模データセットのトレーニングモデルにおける重い計算負荷を軽減することを目的とした、新たな研究分野である。 大規模なデータセットを小さく凝縮したデータセットに蒸留し、蒸留データセットでトレーニングされたモデルが、下流タスクを実行する際に、フルデータセットでトレーニングされたモデルと互換性のある実行を可能にする。 この領域におけるこれまでの研究の中で、既存のDDメソッドの性能と可用性を妨げる3つの重要な問題がある。 本研究では,従来の画素空間から潜在空間へのDDプロセスの移動により,これらの3つの問題を同時に解決しようとする。 事前訓練された汎用オートエンコーダによって符号化された潜時空間の潜時符号は、非常に小さなサイズで原画像のインフォコンパクト表現である。 3つの主要なDDアルゴリズムを遅延空間に転送した後、同様の性能を実現しながら時間と空間消費を著しく削減し、従来の手法が失敗したような高解像度のデータセットやターゲットを蒸留することができる。 また、同じストレージ予算内では、ピクセルレベルの画像よりも遅延符号を定量的に提供できるため、メソッドのパフォーマンスがさらに向上する。

Dataset distillation (DD) is a newly emerging research area aiming at alleviating the heavy computational load in training models on large datasets. It tries to distill a large dataset into a small and condensed one so that models trained on the distilled dataset can perform comparably with those trained on the full dataset when performing downstream tasks. Among the previous works in this area, there are three key problems that hinder the performance and availability of the existing DD methods: high time complexity, high space complexity, and low info-compactness. In this work, we simultaneously attempt to settle these three problems by moving the DD processes from conventionally used pixel space to latent space. Encoded by a pretrained generic autoencoder, latent codes in the latent space are naturally info-compact representations of the original images in much smaller sizes. After transferring three mainstream DD algorithms to latent space, we significantly reduce time and space consumption while achieving similar performance, allowing us to distill high-resolution datasets or target at greater data ratio that previous methods have failed. Besides, within the same storage budget, we can also quantitatively deliver more latent codes than pixel-level images, which further boosts the performance of our methods.
翻訳日:2023-11-28 17:04:32 公開日:2023-11-27
# ヒトアルブミン予測のための分布外一般化動的グラフニューラルネットワーク

Out-of-Distribution Generalized Dynamic Graph Neural Network for Human Albumin Prediction ( http://arxiv.org/abs/2311.15545v1 )

ライセンス: Link先を確認
Zeyang Zhang and Xingwang Li and Fei Teng and Ning Lin and Xueling Zhu and Xin Wang and Wenwu Zhu(参考訳) ヒトアルブミンは全身の健康を示すのに必須である。 血漿アルブミン濃度の正確な予測と適切な投与量の決定は、特に重篤な患者において、最適な血中濃度を維持するための緊急臨床課題である。 しかし、ヒトアルブミンの予測は自明ではなく、生化学的マーカーのダイナミクスと患者の治療経験を活用しなければならない。 さらに、実際の臨床データでは分布シフトの問題が発生することが多く、モデル予測性能が低下し、モデルの信頼性が低下する可能性がある。 本稿では,院内入院中のインテンシティケアユニット (ICU) 患者に対して,正確なアルブミン予測を行うことのできる,DyG-HAP (Out-of-Distriion Generalized Dynamic Graph Neural Network for Human Albumin Prediction) というフレームワークを提案する。 まず,人間のアルブミン予測を動的グラフ回帰問題としてモデル化し,ダイナミックスと患者関係をモデル化する。 そこで本研究では,分散シフトにおけるラベルの関係が不変かつ変動であるパターンを捕捉・アンタングルする動的グラフアテンション機構を提案する。 最後に,モデルが不変パターンに依存して予測を行うように促す不変動的グラフ回帰法を提案する。 さらに,ANIC (Intensive Care) の評価のために,B albumin レベルテストと栄養摂取データというデータセットを提案する。 ヒトアルブミン予測におけるいくつかの基準法と比較して,本手法の優位性を示した。

Human albumin is essential for indicating the body's overall health. Accurately predicting plasma albumin levels and determining appropriate doses are urgent clinical challenges, particularly in critically ill patients, to maintain optimal blood levels. However, human albumin prediction is non-trivial that has to leverage the dynamics of biochemical markers as well as the experience of treating patients. Moreover, the problem of distribution shift is often encountered in real clinical data, which may lead to a decline in the model prediction performance and reduce the reliability of the model's application. In this paper, we propose a framework named Out-of-Distribution Generalized Dynamic Graph Neural Network for Human Albumin Prediction (DyG-HAP), which is able to provide accurate albumin predictions for Intensity Care Unit (ICU) patients during hospitalization. We first model human albumin prediction as a dynamic graph regression problem to model the dynamics and patient relationship. Then, we propose a disentangled dynamic graph attention mechanism to capture and disentangle the patterns whose relationship to labels under distribution shifts is invariant and variant respectively. Last, we propose an invariant dynamic graph regression method to encourage the model to rely on invariant patterns to make predictions. Moreover, we propose a dataset named Albumin level testing and nutritional dosing data for Intensive Care (ANIC) for evaluation. Extensive experiments demonstrate the superiority of our method compared to several baseline methods in human albumin prediction.
翻訳日:2023-11-28 17:04:13 公開日:2023-11-27
# 情報源開示がAI生成メッセージの評価に及ぼす影響:2部研究

The effect of source disclosure on evaluation of AI-generated messages: A two-part study ( http://arxiv.org/abs/2311.15544v1 )

ライセンス: Link先を確認
Sue Lim, Ralf Schm\"alzle(参考訳) 過去10年間の人工知能(ai)の進歩は、機械がコミュニケーション行動を示し、人間の思考、感覚、行動に影響を及ぼすことを証明している。 実際、ChatGPTの最近の開発により、大規模言語モデル(LLM)が、大規模およびドメイン間の高品質なコミュニケーションコンテンツを生成するために活用できることが示され、実際はますます使われるようになる。 しかし、メッセージの発信元を知ることが、人間が生成したメッセージと比較して、受信者のAI生成メッセージの評価と嗜好にどのように影響するかについては、多くの疑問が残る。 本稿では,この話題を電子タバコ防止メッセージングの文脈で検討した。 事前登録された研究1では、ソース開示がaiによる健康予防メッセージの評価に及ぼす影響について、人間生成メッセージと比較して検討した。 ソースの開示(つまり、メッセージのソースをaiと人間にラベル付けする)は、メッセージの評価に大きな影響を与えたが、メッセージのランク付けには大きな影響を与えなかった。 研究2では,被験者のAIに対する否定的態度によって,情報源開示の影響がどう変化するかを検討した。 我々は,AIに対するネガティブな態度がメッセージ評価に悪影響を及ぼすことを発見したが,メッセージ選択には影響しなかった。 しかし、AIに対する否定的な態度が適度である場合、ソース開示はAI生成メッセージの嗜好を減らした。 全体として、この一連の研究の結果は、ソースが開示されるとAIが生成するメッセージに対してわずかに偏りを示し、AIとコミュニケーションの交差点にある新たな研究領域が加わった。

Advancements in artificial intelligence (AI) over the last decade demonstrate that machines can exhibit communicative behavior and influence how humans think, feel, and behave. In fact, the recent development of ChatGPT has shown that large language models (LLMs) can be leveraged to generate high-quality communication content at scale and across domains, suggesting that they will be increasingly used in practice. However, many questions remain about how knowing the source of the messages influences recipients' evaluation of and preference for AI-generated messages compared to human-generated messages. This paper investigated this topic in the context of vaping prevention messaging. In Study 1, which was pre-registered, we examined the influence of source disclosure on people's evaluation of AI-generated health prevention messages compared to human-generated messages. We found that source disclosure (i.e., labeling the source of a message as AI vs. human) significantly impacted the evaluation of the messages but did not significantly alter message rankings. In a follow-up study (Study 2), we examined how the influence of source disclosure may vary by the participants' negative attitudes towards AI. We found a significant moderating effect of negative attitudes towards AI on message evaluation, but not for message selection. However, for those with moderate levels of negative attitudes towards AI, source disclosure decreased the preference for AI-generated messages. Overall, the results of this series of studies showed a slight bias against AI-generated messages once the source was disclosed, adding to the emerging area of study that lies at the intersection of AI and communication.
翻訳日:2023-11-28 17:03:31 公開日:2023-11-27
# Beyond Pixels:視覚言語モデルを用いたシンプルな画像のためのヒューマン可読SVG生成の探索

Beyond Pixels: Exploring Human-Readable SVG Generation for Simple Images with Vision Language Models ( http://arxiv.org/abs/2311.15543v1 )

ライセンス: Link先を確認
Tong Zhang, Haoyang Liu, Peiyan Zhang, Yuxuan Cheng, Haohan Wang(参考訳) コンピュータグラフィックスの分野では、ベクトルグラフィックス(特にスケーラブルベクトルグラフィックス(SVG))の使用は、従来のピクセルベースの画像から顕著な発展を示している。 SVGは、XMLベースのフォーマットで、形状、色、パスなどの視覚的要素を直接的かつ明示的に表現する能力が異なる。 この直接的な表現は、より正確で論理的なグラフィカル要素の描写を促進し、推論と解釈可能性を高める。 SVGの可能性を認識し、機械学習コミュニティは画像ベクトル化のための複数の方法を導入した。 しかし、元のシーンのリレーショナル特性とコンテキストを維持しながら、画像をSVGフォーマットに変換することは重要な課題である。 ほとんどのベクトル化法は、過度に複雑で容易に解釈できないSVGを生成する。 この課題に対して,本手法であるSimple-SVG-Generation (S\textsuperscript{2}VG\textsuperscript{2})を導入する。 本手法は,正確かつ簡便なSVGの生成と,人間の可読性と理解の整合性に着目している。 単純な画像を用いて,高度な言語モデルとともに推論タスクを用いて提案手法を評価することにより,従来のsvg生成法よりも明らかに改善することを示す。 また,生成したSVGの可読性に関する人間評価調査を行った。

In the field of computer graphics, the use of vector graphics, particularly Scalable Vector Graphics (SVG), represents a notable development from traditional pixel-based imagery. SVGs, with their XML-based format, are distinct in their ability to directly and explicitly represent visual elements such as shape, color, and path. This direct representation facilitates a more accurate and logical depiction of graphical elements, enhancing reasoning and interpretability. Recognizing the potential of SVGs, the machine learning community has introduced multiple methods for image vectorization. However, transforming images into SVG format while retaining the relational properties and context of the original scene remains a key challenge. Most vectorization methods often yield SVGs that are overly complex and not easily interpretable. In response to this challenge, we introduce our method, Simple-SVG-Generation (S\textsuperscript{2}VG\textsuperscript{2}). Our method focuses on producing SVGs that are both accurate and simple, aligning with human readability and understanding. With simple images, we evaluate our method with reasoning tasks together with advanced language models, the results show a clear improvement over previous SVG generation methods. We also conducted surveys for human evaluation on the readability of our generated SVGs, the results also favor our methods.
翻訳日:2023-11-28 17:02:44 公開日:2023-11-27
# EAFP-Med: 医用画像検出用プロンプトに基づく効率的な適応型特徴処理モジュール

EAFP-Med: An Efficient Adaptive Feature Processing Module Based on Prompts for Medical Image Detection ( http://arxiv.org/abs/2311.15540v1 )

ライセンス: Link先を確認
Xiang Li, Long Lan, Husam Lahza, Shaowu Yang, Shuihua Wang, Wenjing Yang, Hengzhu Liu, Yudong Zhang(参考訳) 医用画像の急速な進歩に対して,様々な医用画像技術における病変表現の違いから,クロスドメイン適応医用画像検出が課題となっている。 この問題に対処するため,我々は大規模言語モデルからインスピレーションを得て,医療画像検出のためのプロンプトに基づく効率的な適応的特徴処理モジュールeafp-medを提案する。 EAFP-Medは、フレキシブルであり、特定のイメージング技術では制限されない、様々な種類の医療画像から、様々なスケールの病変の特徴を効率的に抽出することができる。 さらに、入力画像の病変機能を強化するために、任意のモデルフロントエンドに接続できる機能前処理モジュールとして機能する。 さらに,Swin Transformer V2-Tiny (SwinV2-T) をバックボーンとし,EAFP-Medに接続する適応型疾患検出モデル EAFP-Med ST を提案する。 我々はこの手法を9つの最先端手法と比較した。 実験の結果,EAFP-Med STは3つのデータセット(ケストX線画像,頭蓋磁気共鳴画像,皮膚画像)で最高の性能を示した。 EAFP-Medは、プロンプトに基づいて様々な医用画像から病変の特徴を効率的に抽出し、モデルの性能を高めることができる。 これは、医用画像解析と診断を改善する大きな可能性を秘めている。

In the face of rapid advances in medical imaging, cross-domain adaptive medical image detection is challenging due to the differences in lesion representations across various medical imaging technologies. To address this issue, we draw inspiration from large language models to propose EAFP-Med, an efficient adaptive feature processing module based on prompts for medical image detection. EAFP-Med can efficiently extract lesion features of different scales from a diverse range of medical images based on prompts while being flexible and not limited by specific imaging techniques. Furthermore, it serves as a feature preprocessing module that can be connected to any model front-end to enhance the lesion features in input images. Moreover, we propose a novel adaptive disease detection model named EAFP-Med ST, which utilizes the Swin Transformer V2 - Tiny (SwinV2-T) as its backbone and connects it to EAFP-Med. We have compared our method to nine state-of-the-art methods. Experimental results demonstrate that EAFP-Med ST achieves the best performance on all three datasets (chest X-ray images, cranial magnetic resonance imaging images, and skin images). EAFP-Med can efficiently extract lesion features from various medical images based on prompts, enhancing the model's performance. This holds significant potential for improving medical image analysis and diagnosis.
翻訳日:2023-11-28 17:02:05 公開日:2023-11-27
# 腎および腫瘤の分節化のための2.5dレズネットモデルの一構成法

An Ensemble of 2.5D ResUnet Based Models for Segmentation for Kidney and Masses ( http://arxiv.org/abs/2311.15586v1 )

ライセンス: Link先を確認
Cancan Chen and RongguoZhang(参考訳) ctスキャンによる腎,腎腫瘍,腎嚢胞の自動分画は,病変境界とファジィテクスチャの欠如が原因で困難な課題である。 2.5D ResUnetは,CTスキャンの厚さの広帯域分布と不均衡分布を考慮し,効率的な粗大なセマンティックセマンティックセグメンテーションフレームワークを構築する。 トレーニングと検証には489個のCTスキャンが使用され、テストには独立した未使用のCTスキャンが使用される。 最後に,提案手法の有効性を示す。 試験セットのサイコロ値は0.954, 0.792, 0.691, 表面サイコロ値は0.897, 0.591, 0.541である。 各CTスキャンの平均推論時間は20.65秒であり、最大GPUメモリは3525MBである。 その結果,モデルの性能と効率のトレードオフが向上した。

The automatic segmentation of kidney, kidney tumor and kidney cyst on Computed Tomography (CT) scans is a challenging task due to the indistinct lesion boundaries and fuzzy texture. Considering the large range and unbalanced distribution of CT scans' thickness, 2.5D ResUnet are adopted to build an efficient coarse-to-fine semantic segmentation framework in this work. A set of 489 CT scans are used for training and validation, and an independent never-before-used CT scans for testing. Finally, we demonstrate the effectiveness of our proposed method. The dice values on test set are 0.954, 0.792, 0.691, the surface dice values are 0.897, 0.591, 0.541 for kidney, tumor and cyst, respectively. The average inference time of each CT scan is 20.65s and the max GPU memory is 3525MB. The results suggest that a better trade-off between model performance and efficiency.
翻訳日:2023-11-28 16:53:57 公開日:2023-11-27
# 海洋雪の合成と除去のための深層学習手法

A deep learning approach for marine snow synthesis and removal ( http://arxiv.org/abs/2311.15584v1 )

ライセンス: Link先を確認
Fernando Galetto and Guang Deng(参考訳) 水中画像中の浮遊粒子である海洋雪は、人間と機械の視覚システムの可視性と性能を著しく低下させる。 本稿では,深層学習技術を用いた海洋雪の干渉低減手法を提案する。 まず,GAN(Generative Adversarial Network)モデルをトレーニングし,それらを自然の水中画像と組み合わせて,ペア化されたデータセットを作成する。 次に,画像翻訳タスクとしてu-netモデルを訓練し,海中除雪を行う。 実験の結果,U-Netモデルでは,合成雪と天然雪の両方を高精度に除去することが可能であり,メディアンフィルタや適応変種などの最先端の手法よりも優れていることがわかった。 また,モデルがトレーニング中に見ていない人工人工物を含むmsrbデータセット上でテストすることにより,本手法のロバスト性を示す。 本手法は,海洋性雪による水中画像の高効率化のための実用的かつ効率的なソリューションである。

Marine snow, the floating particles in underwater images, severely degrades the visibility and performance of human and machine vision systems. This paper proposes a novel method to reduce the marine snow interference using deep learning techniques. We first synthesize realistic marine snow samples by training a Generative Adversarial Network (GAN) model and combine them with natural underwater images to create a paired dataset. We then train a U-Net model to perform marine snow removal as an image to image translation task. Our experiments show that the U-Net model can effectively remove both synthetic and natural marine snow with high accuracy, outperforming state-of-the-art methods such as the Median filter and its adaptive variant. We also demonstrate the robustness of our method by testing it on the MSRB dataset, which contains synthetic artifacts that our model has not seen during training. Our method is a practical and efficient solution for enhancing underwater images affected by marine snow.
翻訳日:2023-11-28 16:53:41 公開日:2023-11-27
# 多様体学習に基づく簡易な幾何アウェア屋内測位補間アルゴリズム

A Simple Geometric-Aware Indoor Positioning Interpolation Algorithm Based on Manifold Learning ( http://arxiv.org/abs/2311.15583v1 )

ライセンス: Link先を確認
Suorong Yang, Geng Zhang, Jian Zhao and Furao Shen(参考訳) 補間手法は屋内測位システムの分野で広く使われている。 しかし、既存の屋内位置補間アルゴリズムには、複雑な数学的モデルへの依存、柔軟性の制限、比較的低い精度など、いくつかの固有の制限がある。 本稿では,屋内測位補間手法の精度と効率を向上させるため,簡易かつ強力な室内測位用幾何補間アルゴリズムを提案する。 我々のアルゴリズムの鍵は、多様体学習原理を用いて局所位相多様体の幾何学的属性を利用することである。 したがって、複雑な数学的モデルを構築する代わりに、提案アルゴリズムは局所位相多様体に接する点のより正確かつ効率的な推定を容易にする。 また,提案手法を任意の屋内測位システムに統合することで,適応性を高めることができる。 シミュレーションと実世界の両方のデータセットで実施した系統的な実験と総合的な性能解析により、提案アルゴリズムは補間精度と効率性に関する最も一般的な補間手法を一貫して上回っていることを示す。 さらに, 実時間屋内測位シナリオにおける本手法の実用性とその可能性について, 実験結果から考察した。

Interpolation methodologies have been widely used within the domain of indoor positioning systems. However, existing indoor positioning interpolation algorithms exhibit several inherent limitations, including reliance on complex mathematical models, limited flexibility, and relatively low precision. To enhance the accuracy and efficiency of indoor positioning interpolation techniques, this paper proposes a simple yet powerful geometric-aware interpolation algorithm for indoor positioning tasks. The key to our algorithm is to exploit the geometric attributes of the local topological manifold using manifold learning principles. Therefore, instead of constructing complicated mathematical models, the proposed algorithm facilitates the more precise and efficient estimation of points grounded in the local topological manifold. Moreover, our proposed method can be effortlessly integrated into any indoor positioning system, thereby bolstering its adaptability. Through a systematic array of experiments and comprehensive performance analyses conducted on both simulated and real-world datasets, we demonstrate that the proposed algorithm consistently outperforms the most commonly used and representative interpolation approaches regarding interpolation accuracy and efficiency. Furthermore, the experimental results also underscore the substantial practical utility of our method and its potential applicability in real-time indoor positioning scenarios.
翻訳日:2023-11-28 16:53:25 公開日:2023-11-27
# コンセンサス音質評価のための軽量自動音響パラメータ抽出-音声の知覚的評価-

Lightly Weighted Automatic Audio Parameter Extraction for the Quality Assessment of Consensus Auditory-Perceptual Evaluation of Voice ( http://arxiv.org/abs/2311.15582v1 )

ライセンス: Link先を確認
Yi-Heng Lin, Wen-Hsuan Tseng, Li-Chin Chen, Ching-Ting Tan, Yu Tsao(参考訳) 音声のコンセンサスによる聴覚知覚評価は臨床音声品質評価において広く用いられているツールであり、臨床専門家間のストリーミング通信やさらなる治療の決定のためのベンチマークにおいて重要である。 現在、アセスメントは経験豊富な臨床医に依存しているため、一貫性がなく、標準化が困難である。 この問題に対処するために,軽度重み付き自動音声パラメータ抽出,臨床的妥当性の向上,複雑さの低減,音声品質評価の解釈性の向上を提案する。 提案手法は, ジッタ, 絶対ジッタ, シャマー, ハーモニック・ツー・ノイズ比 (HNR) , ゼロクロスという5つの音響パラメータを利用する。 古典的な機械学習アプローチが採用されている。 その結果,提案手法は最先端技術(SOTA)手法と類似し,一般的な音声事前学習モデルを用いて得られた潜在表現よりも優れていた。 このアプローチは、音声評価のための異なる特徴抽出アプローチの実現可能性に関する洞察を提供する。 ジッタやHNRのような音声パラメータは,粗さや歪みなどの声質特性を特徴付けるのに適していることが証明された。 逆に、事前訓練されたモデルは、ノイズ関連のスコアを効果的に扱う際の限界を示す。 本研究は,多様な評価手法を包括的に探求し,より包括的で正確な声質評価に寄与する。

The Consensus Auditory-Perceptual Evaluation of Voice is a widely employed tool in clinical voice quality assessment that is significant for streaming communication among clinical professionals and benchmarking for the determination of further treatment. Currently, because the assessment relies on experienced clinicians, it tends to be inconsistent, and thus, difficult to standardize. To address this problem, we propose to leverage lightly weighted automatic audio parameter extraction, to increase the clinical relevance, reduce the complexity, and enhance the interpretability of voice quality assessment. The proposed method utilizes age, sex, and five audio parameters: jitter, absolute jitter, shimmer, harmonic-to-noise ratio (HNR), and zero crossing. A classical machine learning approach is employed. The result reveals that our approach performs similar to state-of-the-art (SOTA) methods, and outperforms the latent representation obtained by using popular audio pre-trained models. This approach provide insights into the feasibility of different feature extraction approaches for voice evaluation. Audio parameters such as jitter and the HNR are proven to be suitable for characterizing voice quality attributes, such as roughness and strain. Conversely, pre-trained models exhibit limitations in effectively addressing noise-related scorings. This study contributes toward more comprehensive and precise voice quality evaluations, achieved by a comprehensively exploring diverse assessment methodologies.
翻訳日:2023-11-28 16:53:06 公開日:2023-11-27
# リアルタイムGAZED:広角ビデオ録画による仮想カメラのオンラインショット選択と編集

Real Time GAZED: Online Shot Selection and Editing of Virtual Cameras from Wide-Angle Monocular Video Recordings ( http://arxiv.org/abs/2311.15581v1 )

ライセンス: Link先を確認
Sudheer Achary, Rohit Girmaji, Adhiraj Anil Deshmukh, Vineet Gandhi(参考訳) ポストプロダクションプロセスの時間的削減と、今日の高速なデジタルランドスケープにおける高品質なビデオ配信は、リアルタイムアプローチの重要な利点である。 これらのニーズに対処するために,新しいリアルタイムカメラ軌道安定化手法であるCineFilterと統合されたリアルタイムGAZEDフレームワークであるReal Time GAZEDを提案する。 ユーザーはプロが編集したビデオをリアルタイムで作成できる。 非リアルタイムガゼッドを含むベースライン手法に対する比較評価は、リアルタイムガゼッドが同様の編集結果を達成し、高品質なビデオ出力を保証していることを示している。 さらに、ユーザ調査により、リアルタイム・アイズド・アプローチによって生成された映像編集の美的品質が確認される。 このようなリアルタイムカメラの軌道最適化やビデオ編集の進歩により、ライブ放送、スポーツ報道、ニュース報道、ソーシャルメディアコンテンツ作成といった産業における即時かつダイナミックなコンテンツ制作の需要はより効率的に満たされる。

Eliminating time-consuming post-production processes and delivering high-quality videos in today's fast-paced digital landscape are the key advantages of real-time approaches. To address these needs, we present Real Time GAZED: a real-time adaptation of the GAZED framework integrated with CineFilter, a novel real-time camera trajectory stabilization approach. It enables users to create professionally edited videos in real-time. Comparative evaluations against baseline methods, including the non-real-time GAZED, demonstrate that Real Time GAZED achieves similar editing results, ensuring high-quality video output. Furthermore, a user study confirms the aesthetic quality of the video edits produced by the Real Time GAZED approach. With these advancements in real-time camera trajectory optimization and video editing presented, the demand for immediate and dynamic content creation in industries such as live broadcasting, sports coverage, news reporting, and social media content creation can be met more efficiently.
翻訳日:2023-11-28 16:52:41 公開日:2023-11-27
# 光トウェザにおける運動の消去冷却・制御・ハイパーエンタングルメント

Erasure-cooling, control, and hyper-entanglement of motion in optical tweezers ( http://arxiv.org/abs/2311.15580v1 )

ライセンス: Link先を確認
Pascal Scholl, Adam L. Shaw, Ran Finkelstein, Richard Bing-Shiun Tsai, Joonhee Choi, Manuel Endres(参考訳) 我々は,光ツイーザの運動自由度を量子情報キャリアとして利用できることを示す。 この目的のために,我々はまず,マクスウェルのデモン思考実験を想起させるような,運動励起を消去(既知の位置でのエラー)に変換することで,種に依存しない冷却機構を実装した。 我々は、この冷却機構が理想化された従来のサイドバンド冷却よりも根本的に優れており、特定のシナリオで実験的に実証している。 運動状態のコヒーレントな操作により、局所シェルビングを介して運動重畳状態への光量子ビットの中間回路読み出しおよび中回路消去検出を行う。 最終的に2つの原子の運動を別個のツイーザに絡み合わせることで、運動および光量子ビットの同時状態を作成することで超絡み合いを生成する。 この研究は、運動の制御が量子情報処理のツールボックスを中性原子で豊かにし、中間回路の読み出しによって強化されたメソロジーと、ハイパーエンタングルメントによって実現された大規模な量子操作のユニークな展望を開放することを示す。

We demonstrate how motional degrees of freedom in optical tweezers can be used as quantum information carriers. To this end, we first implement a species-agnostic cooling mechanism via conversion of motional excitations into erasures - errors with a known location - reminiscent of Maxwell's demon thought experiment. We find that this cooling mechanism fundamentally outperforms idealized traditional sideband cooling, which we experimentally demonstrate in specific scenarios. By coherently manipulating the motional state, we perform mid-circuit readout and mid-circuit erasure detection of an optical qubit via local shelving into motional superposition states. We finally entangle the motion of two atoms in separate tweezers, and utilize this to generate hyper-entanglement by preparing a simultaneous Bell state of motional and optical qubits. This work shows how controlling motion enriches the toolbox of quantum information processing with neutral atoms, and opens unique prospects for metrology enhanced by mid-circuit readout and a large class of quantum operations enabled via hyper-entanglement.
翻訳日:2023-11-28 16:52:25 公開日:2023-11-27
# 動的パーコレーション線上の2粒子アダマール歩行

Two-particle Hadamard walk on dynamically percolated line ( http://arxiv.org/abs/2311.15579v1 )

ライセンス: Link先を確認
M. Paryzkova, M. Stefanak, J. Novotny, B. Kollar and T. Kiss(参考訳) 動的にパーコレーションされた有限直線または円上の2つの非相互作用量子粒子のアダマールウォークの漸近ダイナミクスについて検討した。 我々は、対応するランダムユニタリダイナミクスのアトラクタ空間の基礎を構築し、解の完全性を証明する。 一粒子の場合と比較して、誘引空間の構造はより複雑であり、結果として漸近力学が引き起こされる。 一般的な結果は2つの例に示される。 第一に、4 で割り切れない長さの円の場合、境界条件は引力の数を著しく減らし、完全な解析解が得られる。 次に,2つの粒子間の相関に着目して,長さ4の線を調査し,コイン状態と位置分布の漸近サイクルを決定する。 この結果は、量子力学と古典的確率性を組み合わせたランダムなユニタリ進化が、初期の非相関粒子間の相関をもたらすことを示している。 これは、相互作用しない量子粒子の純粋に一元的進化では不可能である。 したがって、共有の動的パーコレーショングラフは相互作用の弱い形式と見なすことができる。

Asymptotic dynamics of a Hadamard walk of two non-interacting quantum particles on a dynamically percolated finite line or a circle is investigated. We construct a basis of the attractor space of the corresponding random-unitary dynamics and prove the completeness of our solution. In comparison to the one-particle case, the structure of the attractor space is much more complex, resulting in intriguing asymptotic dynamics. General results are illustrated on two examples. First, for circles of length not divisible by 4 the boundary conditions reduces the number of attractors considerably, allowing for fully analytic solution. Second, we investigate line of length 4 and determine the asymptotic cycle of reduced coin states and position distributions, focusing on the correlations between the two particles. Our results show that a random unitary evolution, which is a combination of quantum dynamics and a classical stochasticity, leads to correlations between initially uncorrelated particles. This is not possible for purely unitary evolution of non-interacting quantum particles. The shared dynamically percolated graph can thus be considered as a weak form of interaction.
翻訳日:2023-11-28 16:52:07 公開日:2023-11-27
# 大規模学習可能なベクトル記憶圧縮の実験的解析

Experimental Analysis of Large-scale Learnable Vector Storage Compression ( http://arxiv.org/abs/2311.15578v1 )

ライセンス: Link先を確認
Hailin Zhang, Penghao Zhao, Xupeng Miao, Yingxia Shao, Zirui Liu, Tong Yang, Bin Cui(参考訳) 学習可能な埋め込みベクトルは機械学習において最も重要なアプリケーションの一つであり、様々なデータベース関連ドメインで広く使われている。 しかし、レコメンデーションタスクにおけるスパースデータの高次元性と検索関連タスクにおける大量のコーパスは、埋め込みテーブルの大規模なメモリ消費につながるため、モデルのトレーニングと展開に大きな課題が生じる。 近年の研究では, モデル品質の低下や, その他のオーバーヘッドを伴って, 埋め込みを圧縮する方法が提案されている。 しかしながら、これらの方法の相対的な性能はいまだに不明である。 既存の実験的な比較は、これらのメソッドのサブセットのみをカバーし、限られたメトリクスにフォーカスする。 本稿では,埋め込み圧縮の包括的比較分析と実験的評価を行う。 我々は,これらの手法を特徴と方法論に基づいて分類する新しい分類法を紹介し,14の代表的な手法を統合するモジュラーベンチマークフレームワークを更に開発する。 統一的なテスト環境では、ベンチマークはそれぞれのアプローチをかなり評価し、異なるメモリ予算の下でその強みと弱みを示し、ユースケースに基づいて最適なメソッドを推奨します。 有用なガイドラインの提供に加えて,現在の方法の限界を明らかにし,今後の研究の方向性を示唆する。

Learnable embedding vector is one of the most important applications in machine learning, and is widely used in various database-related domains. However, the high dimensionality of sparse data in recommendation tasks and the huge volume of corpus in retrieval-related tasks lead to a large memory consumption of the embedding table, which poses a great challenge to the training and deployment of models. Recent research has proposed various methods to compress the embeddings at the cost of a slight decrease in model quality or the introduction of other overheads. Nevertheless, the relative performance of these methods remains unclear. Existing experimental comparisons only cover a subset of these methods and focus on limited metrics. In this paper, we perform a comprehensive comparative analysis and experimental evaluation of embedding compression. We introduce a new taxonomy that categorizes these techniques based on their characteristics and methodologies, and further develop a modular benchmarking framework that integrates 14 representative methods. Under a uniform test environment, our benchmark fairly evaluates each approach, presents their strengths and weaknesses under different memory budgets, and recommends the best method based on the use case. In addition to providing useful guidelines, our study also uncovers the limitations of current methods and suggests potential directions for future research.
翻訳日:2023-11-28 16:51:49 公開日:2023-11-27
# mott-絶縁体格子におけるrydberg原子の超高速量子多体ダイナミクスにおける強いスピン運動結合

Strong Spin-Motion Coupling in the Ultrafast Quantum Many-body Dynamics of Rydberg Atoms in a Mott-insulator Lattice ( http://arxiv.org/abs/2311.15575v1 )

ライセンス: Link先を確認
Vineet Bharti, Seiji Sugawa, Masaya Kunimi, Vikas Singh Chauhan, Tirumalasetty Panduranga Mahesh, Michiteru Mizoguchi, Takuya Matsubara, Takafumi Tomita, Sylvain de L\'es\'eleuc, Kenji Ohmori(参考訳) 光学格子とツイーザーのライドバーグ原子は、量子スピン系をシミュレートするための確立されたプラットフォームである。 しかし、原子の空間波動関数の役割は実験的に詳しく調べられていない。 ここでは,波動関数上の相互作用電位の大きな変動から,強いスピンモーション結合が生じることを示す。 単体充填原子モット絶縁体からリドバーグS状態に励起される原子の超高速・非平衡多体動力学の明確なシグネチャを観察する。 また,トラッピングポテンシャルによって設定された運動エネルギースケールに対して,スピン運動結合の強度を任意にチューニングする新しい手法を提案する。 本研究は,rydbergシミュレーションツールボックスに自由度を付加することにより,強相関量子系のダイナミクスを探求するための新たな方向性を提供する。

Rydberg atoms in optical lattices and tweezers is now a well established platform for simulating quantum spin systems. However, the role of the atoms' spatial wavefunction has not been examined in detail experimentally. Here, we show a strong spin-motion coupling emerging from the large variation of the interaction potential over the wavefunction spread. We observe its clear signature on the ultrafast, out-of-equilibrium, many-body dynamics of atoms excited to a Rydberg S state from an unity-filling atomic Mott-insulator. We also propose a novel approach to tune arbitrarily the strength of the spin-motion coupling relative to the motional energy scale set by trapping potentials. Our work provides a new direction for exploring the dynamics of strongly-correlated quantum systems by adding the motional degree of freedom to the Rydberg simulation toolbox.
翻訳日:2023-11-28 16:51:30 公開日:2023-11-27
# EucliDreamer:安定拡散深さ3次元モデルのための高速かつ高品質なテクスチャ

EucliDreamer: Fast and High-Quality Texturing for 3D Models with Stable Diffusion Depth ( http://arxiv.org/abs/2311.15573v1 )

ライセンス: Link先を確認
Cindy Le, Congrui Hetang, Ang Cao, Yihui He(参考訳) 本稿では,テキストプロンプトと3Dメッシュを用いた3次元モデルのテクスチャ生成手法を提案する。 深度条件安定拡散[34]を伴うスコア蒸留サンプリング(SDS)プロセス[28]を実行するために、追加の深度情報を考慮に入れる。 我々は,オープンソースのデータセットObjaverse [7]上でモデルを動作させ,その結果を様々な3Dテクスチャ手法と比較した。 我々は,本モデルによりより満足な結果が得られ,同じオブジェクトに対して様々なアートスタイルが生成できることを実証した。 さらに、同等の品質のテクスチャを生成する場合、より高速な時間を実現しました。 また, サンプリングステップ, 誘導尺度, 負のプロンプト, データの増強, 上昇範囲, sdsの代替品など, 異なる要因が世代品質にどのように影響するかを徹底的に検討した。

This paper presents a novel method to generate textures for 3D models given text prompts and 3D meshes. Additional depth information is taken into account to perform the Score Distillation Sampling (SDS) process [28] with depth conditional Stable Diffusion [34]. We ran our model over the open-source dataset Objaverse [7] and conducted a user study to compare the results with those of various 3D texturing methods. We have shown that our model can generate more satisfactory results and produce various art styles for the same object. In addition, we achieved faster time when generating textures of comparable quality. We also conduct thorough ablation studies of how different factors may affect generation quality, including sampling steps, guidance scale, negative prompts, data augmentation, elevation range, and alternatives to SDS.
翻訳日:2023-11-28 16:51:16 公開日:2023-11-27
# ufda: 実用的な仮定によるユニバーサルフェデレーションドメイン適応

UFDA: Universal Federated Domain Adaptation with Practical Assumptions ( http://arxiv.org/abs/2311.15570v1 )

ライセンス: Link先を確認
Xinhui Liu, Zhenghao Chen, Luping Zhou, Dong Xu, Wei Xi, Gairui Bai, Yihan Zhao, and Jizhong Zhao(参考訳) 従来のフェデレーションドメイン適応(fda)アプローチは通常、ラベルセットの一貫性など、多くの仮定を要求する。 本研究では,UFDA(Universal Federated Domain Adaptation)という,より実践的なシナリオを提案する。 ブラックボックスモデルと各ソースドメインのラベルセット情報のみを必要とするが、異なるソースドメインのラベルセットは一貫性がなく、ターゲットドメインのラベルセットは完全に盲目である。 これはFDAの仮定を緩和するもので、現実のケースで会うことはしばしば困難であり、モデルのセキュリティを低下させる。 UFDAのシナリオに対処するために、さまざまなソースドメインのブラックボックスモデルからの1ホットアウトプットを使用することで、UFDAのドメインシフトとカテゴリギャップ問題に対処する、HCLD(Hot-Learning with Contrastive Label Disambiguation)という対応するフレームワークを提案する。 さらに、共有クラスと未知クラスをよりよく区別するために、Mutual-Voting Decision (MVD) と呼ばれるクラスタレベルの戦略を提案し、ソースドメインとターゲットドメインの両方からピアクラス間で堅牢なコンセンサス知識を抽出する。 3つのベンチマークに関する広範囲な実験により、我々のhcldは、我々のufdaシナリオに比較して、より少ない仮定で同等のパフォーマンスを達成できることが示されました。

Conventional Federated Domain Adaptation (FDA) approaches usually demand an abundance of assumptions, such as label set consistency, which makes them significantly less feasible for real-world situations and introduces security hazards. In this work, we propose a more practical scenario named Universal Federated Domain Adaptation (UFDA). It only requires the black-box model and the label set information of each source domain, while the label sets of different source domains could be inconsistent and the target-domain label set is totally blind. This relaxes the assumptions made by FDA, which are often challenging to meet in real-world cases and diminish model security. To address the UFDA scenario, we propose a corresponding framework called Hot-Learning with Contrastive Label Disambiguation (HCLD), which tackles UFDA's domain shifts and category gaps problem by using one-hot outputs from the black-box models of various source domains. Moreover, to better distinguish the shared and unknown classes, we further present a cluster-level strategy named Mutual-Voting Decision (MVD) to extract robust consensus knowledge across peer classes from both source and target domains. The extensive experiments on three benchmarks demonstrate that our HCLD achieves comparable performance for our UFDA scenario with much fewer assumptions, compared to the previous methodologies with many additional assumptions.
翻訳日:2023-11-28 16:51:01 公開日:2023-11-27
# 視覚言語モデルにおける効率的な転送学習の適応性と一般化性の向上

Improving Adaptability and Generalizability of Efficient Transfer Learning for Vision-Language Models ( http://arxiv.org/abs/2311.15569v1 )

ライセンス: Link先を確認
Yongjin Yang, Jongwoo Ko, Se-Young Yun(参考訳) CLIPのようなVLM(Vision-Language Models)は、ゼロショット画像分類など、さまざまな下流タスクに顕著な適用性を示している。 近年,効率的な伝達学習のためのプロンプトやアダプタの利用が,下流タスクに効果的に適応する上で大きな注目を集めている。 しかし、視覚とテキストのプロンプトの役割や、一般化と転送の難しさの観点からのアダプタは見過ごされ、目に見えないタスクのパフォーマンスが制限された。 本稿では,視覚とテキストのプロンプト,アダプタ,これらの組み合わせを用いて,VLMの動作を実証的に分析し,本研究による新たな探索を行った。 その結果,視覚プロンプトをクラス分離性に,テキストアダプタをタスク適応に活用することが適応性と一般化性に不可欠であることが判明した。 さらに,各領域の一般化を改善するために,VLMの一般知識とタスク固有の知識を伝達困難に応じて効果的に組み合わせた適応アンサンブル手法を提案する。 広範なベンチマーク実験を行った結果,本手法は,提案手法の有効性を実証し,すべてのベースライン,特に未知のタスクを一貫して上回っている。

Vision-Language Models (VLMs) like CLIP have demonstrated remarkable applicability across a variety of downstream tasks, including zero-shot image classification. Recently, the use of prompts or adapters for efficient transfer learning has gained significant attention for effectively adapting to downstream tasks. However, the roles of vision and text prompts, as well as adapters in terms of generalization and transfer difficulty, have been overlooked, limiting performance on unseen tasks. In this paper, we empirically analyze how VLMs behave when using vision and text prompts, adapters, and a combination of these components, marking a novel exploration by our study. Our observations find that utilizing vision prompts for class separability and text adapters for task adaptation is crucial for adaptability and generalizability. Moreover, to improve generalization across every domain, we propose an adaptive ensemble method that effectively combines the general knowledge of VLMs with task-specific knowledge according to transfer difficulty. Upon experimenting with extensive benchmarks, our method consistently outperforms all baselines, particularly on unseen tasks, demonstrating the effectiveness of our proposed approach.
翻訳日:2023-11-28 16:50:32 公開日:2023-11-27
# SpotServe:プリエンプティブルインスタンス上で生成可能な大規模言語モデルを実現する

SpotServe: Serving Generative Large Language Models on Preemptible Instances ( http://arxiv.org/abs/2311.15566v1 )

ライセンス: Link先を確認
Xupeng Miao, Chunan Shi, Jiangfei Duan, Xiaoli Xi, Dahua Lin, Bin Cui, Zhihao Jia(参考訳) 生成型大規模言語モデル(LLM)の高い計算とメモリ要求は、それらを安価に提供することを困難にしている。 本稿では,現在のクラウド上でプリエンプティブルGPUインスタンスを利用することで,LLMを提供するための金銭的コストを削減することを目的としている。 プリエンプティブルインスタンス上でのLSMの実行には、頻繁にインスタンスプリエンプティブルによって引き起こされる課題と、これらのプリエンプティブルを扱うインスタンスの移行の必要性に対処する必要がある。 本稿では,プリエンプティブルインスタンスを対象とした最初の分散LLMサービスシステムであるSpotServeを提案する。 SpotServeのいくつかの重要な技術は、安価でプリエンプティブルなインスタンス上の生成LDMの高速かつ信頼性の高い提供を実現する。 まず、SpotServeはLLM並列化設定を動的インスタンス可用性と変動するワークロードに動的に適用し、全体的なスループット、推論レイテンシ、金銭的コストのトレードオフをバランスさせる。 第二に、動的並列化のためのインスタンスの移行コストを最小化するために、インスタンスの移行タスクは、Kuhn-Munkresアルゴリズムを用いて通信を最小化する最適な移行計画を特定する二部グラフマッチング問題として定式化される。 最後に、現代のクラウドが提供する優雅な期間を利用するために、より細かい粒度で推論の進捗をコミットし、spoterveがプリエンプション時に安く推論を再開できる新しい推論メカニズムであるステートフル推論リカバリを導入します。 実スポットインスタンスプリエンプショントレースと各種のLLMを評価し,既存のLLMサービスシステムと比較して,SpotServeはP99テールレイテンシを2.4~9.1倍削減できることを示した。 また、SpotServeはプリエンプティブインスタンスの価格優位性を活用し、オンデマンドインスタンスのみを使用する場合と比較して54%の金銭的コストを節約できることを示した。

The high computational and memory requirements of generative large language models (LLMs) make it challenging to serve them cheaply. This paper aims to reduce the monetary cost for serving LLMs by leveraging preemptible GPU instances on modern clouds, which offer accesses to spare GPUs at a much cheaper price than regular instances but may be preempted by the cloud at any time. Serving LLMs on preemptible instances requires addressing challenges induced by frequent instance preemptions and the necessity of migrating instances to handle these preemptions. This paper presents SpotServe, the first distributed LLM serving system on preemptible instances. Several key techniques in SpotServe realize fast and reliable serving of generative LLMs on cheap preemptible instances. First, SpotServe dynamically adapts the LLM parallelization configuration for dynamic instance availability and fluctuating workload, while balancing the trade-off among the overall throughput, inference latency and monetary costs. Second, to minimize the cost of migrating instances for dynamic reparallelization, the task of migrating instances is formulated as a bipartite graph matching problem, which uses the Kuhn-Munkres algorithm to identify an optimal migration plan that minimizes communications. Finally, to take advantage of the grace period offered by modern clouds, we introduce stateful inference recovery, a new inference mechanism that commits inference progress at a much finer granularity and allows SpotServe to cheaply resume inference upon preemption. We evaluate on real spot instance preemption traces and various popular LLMs and show that SpotServe can reduce the P99 tail latency by 2.4 - 9.1x compared with the best existing LLM serving systems. We also show that SpotServe can leverage the price advantage of preemptive instances, saving 54% monetary cost compared with only using on-demand instances.
翻訳日:2023-11-28 16:50:11 公開日:2023-11-27
# AI生成テキストの識別におけるハイブリッドディープラーニングモデルの有効性の評価

Evaluating the Efficacy of Hybrid Deep Learning Models in Distinguishing AI-Generated Text ( http://arxiv.org/abs/2311.15565v1 )

ライセンス: Link先を確認
Finbarrs Oketunji(参考訳) 私の研究は、AI生成テキストと人間の文章を正確に区別するために、最先端のハイブリッドディープラーニングモデルを使用することを調査します。 さまざまなソースからAIと人文からなる慎重に選択されたデータセットを利用し、それぞれに指示をタグ付けして、堅牢な方法論を適用しました。 高度な自然言語処理技術は、テキストの特徴の分析を容易にする。 高度なニューラルネットワークを組み合わせることで、aiと人間のコンテンツのニュアンスの違いを検出することができる。

My research investigates the use of cutting-edge hybrid deep learning models to accurately differentiate between AI-generated text and human writing. I applied a robust methodology, utilising a carefully selected dataset comprising AI and human texts from various sources, each tagged with instructions. Advanced natural language processing techniques facilitated the analysis of textual features. Combining sophisticated neural networks, the custom model enabled it to detect nuanced differences between AI and human content.
翻訳日:2023-11-28 16:49:38 公開日:2023-11-27
# RoboGPT : 日常指導における長期的意思決定を具体化する知的エージェント

RoboGPT: an intelligent agent of making embodied long-term decisions for daily instruction tasks ( http://arxiv.org/abs/2311.15649v1 )

ライセンス: Link先を確認
Yaran Chen, Wenbo Cui, Yuanwen Chen, Mining Tan, Xinyao Zhang, Dongbin Zhao, He Wang(参考訳) ロボットエージェントは、自然言語による日々のタスクを解決するために、常識と長期的なシーケンシャルな決定をマスターする必要がある。 自然言語処理におけるLarge Language Models (LLM) の開発は、複雑なロボット計画にLLMを使うことに刺激を与えている。 LLMの大きな一般化と命令タスクの理解にもかかわらず、LLMの生成したタスクプランは実現可能性と正確性に欠けることがある。 この問題に対処するため,我々は2つのモジュールを用いて,日常タスクの具体的長期的決定を行うためのrobogpt agent\footnote{our code and dataset is soon}を提案する。 1) 業務を複数のサブゴールに分割する再計画によるLCMに基づく計画 2)RoboSkillは,より優れたナビゲーションと操作技術を学ぶために,サブゴール用に個別に設計されている。 LLMsベースのプランニングは、RoboGPTと呼ばれる新しいロボットデータセットと再計画によって強化されている。 67kの日次命令タスクからなる新しいロボットデータセットを収集し、llamaモデルを微調整し、robogptを取得する。 強力な一般化のRoboGPTプランナは、毎日数百の命令タスクを計画できる。 さらに、低計算量再計画モジュールは、計画が柔軟に環境に適応できるように設計されており、命名の多様性の課題に対処している。 提案するRoboGPTエージェントは、ALFRED日々のタスクにおいてSOTAメソッドよりも優れている。 さらに、RoboGPTプランナーは、数百の目に見えない日々のタスクやドメインタスクのタスク計画合理性において、ChatGPTのようなSOTA LLMベースのプランナーを超え、大きなモデルの本来の広範な応用と一般化を維持している。

Robotic agents must master common sense and long-term sequential decisions to solve daily tasks through natural language instruction. The developments in Large Language Models (LLMs) in natural language processing have inspired efforts to use LLMs in complex robot planning. Despite LLMs' great generalization and comprehension of instruction tasks, LLMs-generated task plans sometimes lack feasibility and correctness. To address the problem, we propose a RoboGPT agent\footnote{our code and dataset will be released soon} for making embodied long-term decisions for daily tasks, with two modules: 1) LLMs-based planning with re-plan to break the task into multiple sub-goals; 2) RoboSkill individually designed for sub-goals to learn better navigation and manipulation skills. The LLMs-based planning is enhanced with a new robotic dataset and re-plan, called RoboGPT. The new robotic dataset of 67k daily instruction tasks is gathered for fine-tuning the Llama model and obtaining RoboGPT. RoboGPT planner with strong generalization can plan hundreds of daily instruction tasks. Additionally, a low-computational Re-Plan module is designed to allow plans to flexibly adapt to the environment, thereby addressing the nomenclature diversity challenge. The proposed RoboGPT agent outperforms SOTA methods on the ALFRED daily tasks. Moreover, RoboGPT planner exceeds SOTA LLM-based planners like ChatGPT in task-planning rationality for hundreds of unseen daily tasks, and even other domain tasks, while keeping the large model's original broad application and generality.
翻訳日:2023-11-28 16:42:43 公開日:2023-11-27
# align before adapt: 汎用的なビデオアクション認識のためのエンティティ間アライメントの活用

Align before Adapt: Leveraging Entity-to-Region Alignments for Generalizable Video Action Recognition ( http://arxiv.org/abs/2311.15619v1 )

ライセンス: Link先を確認
Yifei Chen, Dapeng Chen, Ruijin Liu, Sai Zhou, Wenyuan Xue, Wei Peng(参考訳) 大規模視覚言語事前学習モデルは様々なビデオタスクで大きな成功を収めた。 しかし、既存のほとんどの手法は、訓練済みの画像エンコーダをビデオレベルの表現のモデル化に適応し、アクションラベルのワンホットまたはテキスト埋め込みを監督に利用する「適応的整合」パラダイムに従っている。 このパラダイムは、静的イメージから複雑なアクティビティ概念へのマッピングの課題を見落としています。 本稿では,Align before Adapt(ALT)パラダイムを提案する。 映像表現学習に適応する前に,各フレームのエンティティ・ツー・リージョンアライメントを利用する。 領域認識画像埋め込みをオフライン構築されたテキストコーパスにマッチさせることでアライメントを実現する。 アライメントされたエンティティでは、クエリとしてテキスト埋め込みをtransformerベースのビデオアダプタに送信し、ビデオからベクターへの最も重要なエンティティの意味を抽出するのに役立ちます。 このパラダイムは、適応中のVLPの視覚言語アライメントを再利用し、基礎となるエンティティによるアクションを説明しようとする。 これは複雑なアクティビティセマンティクスとのギャップを埋めることによって、アクションを理解するのに役立つ。 ALTは、計算コストを著しく低くしながら、競争性能と優れた一般化性を達成する。 完全に教師されたシナリオでは、4947 GFLOPでKinetics-400の88.1%のトップ-1の精度を達成した。 2ショット実験では、ALTはHMDB-51とUCF-101でそれぞれ7.1%、9.2%の先行技術よりも優れていた。

Large-scale visual-language pre-trained models have achieved significant success in various video tasks. However, most existing methods follow an "adapt then align" paradigm, which adapts pre-trained image encoders to model video-level representations and utilizes one-hot or text embedding of the action labels for supervision. This paradigm overlooks the challenge of mapping from static images to complicated activity concepts. In this paper, we propose a novel "Align before Adapt" (ALT) paradigm. Prior to adapting to video representation learning, we exploit the entity-to-region alignments for each frame. The alignments are fulfilled by matching the region-aware image embeddings to an offline-constructed text corpus. With the aligned entities, we feed their text embeddings to a transformer-based video adapter as the queries, which can help extract the semantics of the most important entities from a video to a vector. This paradigm reuses the visual-language alignment of VLP during adaptation and tries to explain an action by the underlying entities. This helps understand actions by bridging the gap with complex activity semantics, particularly when facing unfamiliar or unseen categories. ALT achieves competitive performance and superior generalizability while requiring significantly low computational costs. In fully supervised scenarios, it achieves 88.1% top-1 accuracy on Kinetics-400 with only 4947 GFLOPs. In 2-shot experiments, ALT outperforms the previous state-of-the-art by 7.1% and 9.2% on HMDB-51 and UCF-101, respectively.
翻訳日:2023-11-28 16:42:17 公開日:2023-11-27
# veryfl: ブロックチェーンに組み込んだ検証フェデレーション学習フレームワーク

VeryFL: A Verify Federated Learning Framework Embedded with Blockchain ( http://arxiv.org/abs/2311.15617v1 )

ライセンス: Link先を確認
Yihao Li, Yanyi Lai, Chuan Chen, Zibin Zheng(参考訳) ブロックチェーンによるフェデレーション学習(fl)は最近、広範な研究が進められている。 ブロックチェーンベースのフェデレーション学習アルゴリズム、アーキテクチャ、メカニズムは、集中型FLパラダイムによってもたらされる単一ポイント障害やデータファルシフィケーションといった問題を解決するように設計されている。 さらに、ブロックチェーンを使うことで、ノードへのインセンティブの割り当ても容易になる。 FedMLのような中央集権的な学習フレームワークは、FLの研究を促進するためにコミュニティに登場した。 しかし、分散型ブロックチェーンベースのフェデレーション学習フレームワークはまだ欠落しており、ブロックチェーンに基づくアルゴリズムのパフォーマンスを研究者が再現したり検証したりするのに不便になる。 上記の問題に触発されて、Ethereumネットワークを組み込んだブロックチェーンベースのフェデレーション学習フレームワークを設計、開発しました。 本報告では、FLとブロックチェーンの組み合わせのためのコード実践パラダイムを提案するとともに、通常のFLトレーニングタスクと互換性のあるフレームワーク全体の構造について述べる。 FLトレーニングの実行を支援するために、スマートコントラクトにブロックチェーンフェデレーション学習アルゴリズムを実装することに加えて、ブロックチェーンとモデル透かしに基づくモデル所有権認証アーキテクチャを提案し、モデルの知的財産権を保護する。 これらのブロックチェーン上のメカニズムは、検証可能なトレーニング、集約、インセンティブの配布手順を提供するために、フェデレーション学習のためのブロックチェーンの基盤となるサポートを示しています。 ソースコードはhttps://github.com/gtmllab/veryfl。

Blockchain-empowered federated learning (FL) has provoked extensive research recently. Various blockchain-based federated learning algorithm, architecture and mechanism have been designed to solve issues like single point failure and data falsification brought by centralized FL paradigm. Moreover, it is easier to allocate incentives to nodes with the help of the blockchain. Various centralized federated learning frameworks like FedML, have emerged in the community to help boost the research on FL. However, decentralized blockchain-based federated learning framework is still missing, which cause inconvenience for researcher to reproduce or verify the algorithm performance based on blockchain. Inspired by the above issues, we have designed and developed a blockchain-based federated learning framework by embedding Ethereum network. This report will present the overall structure of this framework, which proposes a code practice paradigm for the combination of FL with blockchain and, at the same time, compatible with normal FL training task. In addition to implement some blockchain federated learning algorithms on smart contract to help execute a FL training, we also propose a model ownership authentication architecture based on blockchain and model watermarking to protect the intellectual property rights of models. These mechanism on blockchain shows an underlying support of blockchain for federated learning to provide a verifiable training, aggregation and incentive distribution procedure and thus we named this framework VeryFL (A Verify Federated Learninig Framework Embedded with Blockchain). The source code is avaliable on https://github.com/GTMLLab/VeryFL.
翻訳日:2023-11-28 16:41:54 公開日:2023-11-27
# センサベース統合検出・追跡・予測におけるargoverseの課題

Technical Report for Argoverse Challenges on Unified Sensor-based Detection, Tracking, and Forecasting ( http://arxiv.org/abs/2311.15615v1 )

ライセンス: Link先を確認
Zhepeng Wang, Feng Chen, Kanokphan Lertniphonphan, Siwei Chen, Jinyao Bao, Pengfei Zheng, Jinbao Zhang, Kaer Huang, Tao Zhang(参考訳) 本報告では, CVPR 2023 Workshop on Autonomous Driving (WAD) におけるArgoverse Challengesにおけるセンサベース検出, 追跡, 予測の統合のためのLe3DE2Eソリューションを提案する。 本稿では,検出,追跡,予測という3つのタスクを組み込んだ統合ネットワークを提案する。 このソリューションは、空間的および時間的融合を伴う強力なBird's Eye View (BEV)エンコーダを採用し、マルチタスクの統一表現を生成する。 このソリューションはArgoverse 2センサーデータセットでテストされ、26のオブジェクトカテゴリの検出、追跡、予測を評価した。 CVPR 2023 WADのArgoverse ChallengesにおけるE2E予測トラックにおける検出,追跡,予測の1位を達成した。

This report presents our Le3DE2E solution for unified sensor-based detection, tracking, and forecasting in Argoverse Challenges at CVPR 2023 Workshop on Autonomous Driving (WAD). We propose a unified network that incorporates three tasks, including detection, tracking, and forecasting. This solution adopts a strong Bird's Eye View (BEV) encoder with spatial and temporal fusion and generates unified representations for multi-tasks. The solution was tested in the Argoverse 2 sensor dataset to evaluate the detection, tracking, and forecasting of 26 object categories. We achieved 1st place in Detection, Tracking, and Forecasting on the E2E Forecasting track in Argoverse Challenges at CVPR 2023 WAD.
翻訳日:2023-11-28 16:41:28 公開日:2023-11-27
# freeal: 大規模言語モデル時代の人間フリーアクティブラーニングに向けて

FreeAL: Towards Human-Free Active Learning in the Era of Large Language Models ( http://arxiv.org/abs/2311.15614v1 )

ライセンス: Link先を確認
Ruixuan Xiao, Yiwen Dong, Junbo Zhao, Runze Wu, Minmin Lin, Gang Chen, Haobo Wang(参考訳) モデルトレーニングのための高品質なラベル付きデータ収集は、様々なnlpタスクに時間と労力がかかることで悪名高い。 スモールランゲージモデル(SLM)の能動的学習や,大規模言語モデル(LLM)の時代に普及した文脈内学習など,有害なソリューションが提案され,ラベル付けの負担がある程度軽減されているが,その性能はいまだに人間の介入によるものである。 LLM時代のアノテーションコストの削減方法はまだ未検討である。 そこで我々は,従来の能動学習に革命をもたらし,LLMからタスク固有の知識を対話的に蒸留・フィルタリングする,革新的な協調学習フレームワークFreeALを提案する。 協調訓練中、llmはその粗い知識を刻み込むアクティブな注釈装置として機能し、下流のslmは、後続のラベル精製工場のllmをフィードバックするために高品質のインコンテキストサンプルをフィルタリングする学生として負う。 8つのベンチマークデータセットの大規模な実験により、FreeALは人間の監督なしにSLMとLLMのゼロショット性能を大幅に向上することが示された。 コードはhttps://github.com/justherozen/freealで入手できる。

Collecting high-quality labeled data for model training is notoriously time-consuming and labor-intensive for various NLP tasks. While copious solutions, such as active learning for small language models (SLMs) and prevalent in-context learning in the era of large language models (LLMs), have been proposed and alleviate the labeling burden to some extent, their performances are still subject to human intervention. It is still underexplored how to reduce the annotation cost in the LLMs era. To bridge this, we revolutionize traditional active learning and propose an innovative collaborative learning framework FreeAL to interactively distill and filter the task-specific knowledge from LLMs. During collaborative training, an LLM serves as an active annotator inculcating its coarse-grained knowledge, while a downstream SLM is incurred as a student to filter out high-quality in-context samples to feedback LLM for the subsequent label refinery. Extensive experiments on eight benchmark datasets demonstrate that FreeAL largely enhances the zero-shot performances for both SLM and LLM without any human supervision. The code is available at https://github.com/Justherozen/FreeAL .
翻訳日:2023-11-28 16:41:16 公開日:2023-11-27
# 線形ベイズネットワークへのベイズ的アプローチ

Bayesian Approach to Linear Bayesian Networks ( http://arxiv.org/abs/2311.15610v1 )

ライセンス: Link先を確認
Seyong Hwang, Kyoungjae Lee, Sunmin Oh, Gunwoong Park(参考訳) 本研究では,高次元線形ベイズネットワークを学習する最初のベイズ手法を提案する。 提案手法は, 部分共分散行列の逆行列を用いて, 位相秩序の各要素とその親要素を反復的に推定する。 提案手法は,不等縮の逆共分散行列に対するベイズ正規化を適用した場合に,基礎構造を復元する。 特に、サンプル数 $n = \omega(d_m^2 \log p)$ と $n = \omega(d_m^2 p^{2/m})$ は、サブガウジアンと4m番目の有界モーメント誤差分布を持つ線形ベイズネットワークを学習するのに十分であり、それぞれ$p$がノード数、$d_m$がモラル化グラフの最大度であることを示す。 理論的な知見は、実データ分析を含む広範なシミュレーション研究によって裏付けられている。 さらに, 合成データにおけるBHLSM, LISTEN, TDアルゴリズムなど, 最先端の頻繁な手法よりも優れていることを示す。

This study proposes the first Bayesian approach for learning high-dimensional linear Bayesian networks. The proposed approach iteratively estimates each element of the topological ordering from backward and its parent using the inverse of a partial covariance matrix. The proposed method successfully recovers the underlying structure when Bayesian regularization for the inverse covariance matrix with unequal shrinkage is applied. Specifically, it shows that the number of samples $n = \Omega( d_M^2 \log p)$ and $n = \Omega(d_M^2 p^{2/m})$ are sufficient for the proposed algorithm to learn linear Bayesian networks with sub-Gaussian and 4m-th bounded-moment error distributions, respectively, where $p$ is the number of nodes and $d_M$ is the maximum degree of the moralized graph. The theoretical findings are supported by extensive simulation studies including real data analysis. Furthermore the proposed method is demonstrated to outperform state-of-the-art frequentist approaches, such as the BHLSM, LISTEN, and TD algorithms in synthetic data.
翻訳日:2023-11-28 16:40:53 公開日:2023-11-27
# 食道収縮ビゴーを識別する線形SVMを用いたマンメトリック特徴記述器

A manometric feature descriptor with linear-SVM to distinguish esophageal contraction vigor ( http://arxiv.org/abs/2311.15609v1 )

ライセンス: Link先を確認
Jialin Liu, Lu Yan, Xiaowei Liu, Yuzhuo Dai, Fanggen Lu, Yuanting Ma, Muzhou Hou, Zheng Wang(参考訳) 臨床的には,非機械的閉塞性食欲不振,食道部痛,胃食道逆流症状を呈する症例では,通常,食道の動態を診察する。 高分解能マントメトリー(HRM)は、食道ダイナミック機能の検出を包括的かつ客観的に検出するための臨床的に一般的に用いられる技法である。 しかし、HRMの結果が得られた後も、医師はさまざまなパラメータで評価する必要がある。 この作業は面倒で、プロセスは複雑です。 食道ダイナミック機能の評価を支援するため, 食道収縮速度を予測するため, HRMの画像処理を行った。 まず,より高次特徴を抽出するために,粒度の特徴抽出とヒストグラム(FE-HOG)を用いて摂食提案の特徴を分析した。 これらの特徴に基づき, 食道収縮の正常度, 弱度, 失敗度を線形SVMを用いて分類する。 データセットには3000のトレーニングセット、500の検証セット、411のテストセットが含まれています。 検証後、精度は86.83%に達し、他の一般的な機械学習手法よりも高い。

n clinical, if a patient presents with nonmechanical obstructive dysphagia, esophageal chest pain, and gastro esophageal reflux symptoms, the physician will usually assess the esophageal dynamic function. High-resolution manometry (HRM) is a clinically commonly used technique for detection of esophageal dynamic function comprehensively and objectively. However, after the results of HRM are obtained, doctors still need to evaluate by a variety of parameters. This work is burdensome, and the process is complex. We conducted image processing of HRM to predict the esophageal contraction vigor for assisting the evaluation of esophageal dynamic function. Firstly, we used Feature-Extraction and Histogram of Gradients (FE-HOG) to analyses feature of proposal of swallow (PoS) to further extract higher-order features. Then we determine the classification of esophageal contraction vigor normal, weak and failed by using linear-SVM according to these features. Our data set includes 3000 training sets, 500 validation sets and 411 test sets. After verification our accuracy reaches 86.83%, which is higher than other common machine learning methods.
翻訳日:2023-11-28 16:40:31 公開日:2023-11-27
# テキストプロンプトを用いた空間共変画像登録

Spatially Covariant Image Registration with Text Prompts ( http://arxiv.org/abs/2311.15607v1 )

ライセンス: Link先を確認
Hang Zhang, Xiang Chen, Rongguang Wang, Renjiu Hu, Dongdong Liu, and Gaolei Li(参考訳) 医療画像は、しばしばその構造化解剖学的表現と空間的に不均一なコントラストによって特徴づけられる。 ニューラルネットワークにおける解剖学的な事前知識を活用することで、リソースに制約された臨床設定において、その有用性が大幅に向上する。 先行研究は画像分割にこのような情報を利用したが、変形可能な画像登録の進歩は控えめである。 このギャップを埋めるために、空間共変フィルタと視覚モデルで符号化されたテキスト解剖プロンプトを統合する新しい方法であるtextSCFを導入する。 このアプローチでは、解剖学的領域のテキスト埋め込みと重み付けを関連付ける暗黙の関数を最適化し、畳み込み操作の典型的な翻訳不変制約を緩和する。 TextSCFは計算効率を向上するだけでなく、登録精度を維持または改善する。 解剖学的領域間の文脈的相互作用を捉えることで、印象的な地域間移動性と、登録中に構造的不連続性を維持する能力を提供する。 TextSCFのパフォーマンスは、オブジェクト間脳MRIと腹部CT登録タスクで厳格にテストされ、MICCAI Learn2Reg 2021チャレンジで既存の最先端モデルを上回っ、リーダーボードをリードしている。 腹部の登録では、textSCFのより大きなモデル変種は第2のベストモデルよりもDiceスコアを11.3%改善し、小さなモデル変種は同様の精度を維持したが、ネットワークパラメータは89.13%減少し、計算操作は98.34\%低下した。

Medical images are often characterized by their structured anatomical representations and spatially inhomogeneous contrasts. Leveraging anatomical priors in neural networks can greatly enhance their utility in resource-constrained clinical settings. Prior research has harnessed such information for image segmentation, yet progress in deformable image registration has been modest. Our work introduces textSCF, a novel method that integrates spatially covariant filters and textual anatomical prompts encoded by visual-language models, to fill this gap. This approach optimizes an implicit function that correlates text embeddings of anatomical regions to filter weights, relaxing the typical translation-invariance constraint of convolutional operations. TextSCF not only boosts computational efficiency but can also retain or improve registration accuracy. By capturing the contextual interplay between anatomical regions, it offers impressive inter-regional transferability and the ability to preserve structural discontinuities during registration. TextSCF's performance has been rigorously tested on inter-subject brain MRI and abdominal CT registration tasks, outperforming existing state-of-the-art models in the MICCAI Learn2Reg 2021 challenge and leading the leaderboard. In abdominal registrations, textSCF's larger model variant improved the Dice score by 11.3% over the second-best model, while its smaller variant maintained similar accuracy but with an 89.13% reduction in network parameters and a 98.34\% decrease in computational operations.
翻訳日:2023-11-28 16:40:14 公開日:2023-11-27
# 3次元セマンティックセマンティックセグメンテーションにおける2次元機能蒸留

2D Feature Distillation for Weakly- and Semi-Supervised 3D Semantic Segmentation ( http://arxiv.org/abs/2311.15605v1 )

ライセンス: Link先を確認
Ozan Unal, Dengxin Dai, Lukas Hoyer, Yigit Baran Can, Luc Van Gool(参考訳) 3D知覚問題の人気が高まり、LiDARセマンティックセグメンテーションのための大規模ラベル付きデータセットの必要性が高まるにつれて、弱い教師付きトレーニングを用いることで、高密度アノテーションの必要性を減らすことを目的とした新たな手法が出現する。 しかし、これらの手法は小さい物体と離れた領域に対して弱い境界推定と高い偽陰性率を示し続けている。 このような弱点は、シーンのより密な表現を提供するrgbイメージを使用することで補うことができると主張する。 本稿では,合成学習された2次元意味セグメンテーションネットワークを用いた領域から高レベル特徴情報を蒸留するアイデアに基づくイメージガイドネットワーク(ignet)を提案する。 さらに,両センサ間の水平視野ミスマッチに対処し,画像誘導の効果を高めるために,FOVMixと呼ばれる新しい混合戦略とともに一方通行のコントラスト学習手法を利用する。 IGNetは、ScribbleKITTI上での弱い教師付きLiDARセマンティックセマンティックセグメンテーションの最先端の結果を達成し、8%のラベル付きポイントで完全に教師付きトレーニングに最大98%の性能を誇った。 さらに,本研究は,ScribbleKITTIとSemanticKITTIの双方に対してIGNetが最先端の成果を主張する半教師付きトレーニングにも有効であることを示す。

As 3D perception problems grow in popularity and the need for large-scale labeled datasets for LiDAR semantic segmentation increase, new methods arise that aim to reduce the necessity for dense annotations by employing weakly-supervised training. However these methods continue to show weak boundary estimation and high false negative rates for small objects and distant sparse regions. We argue that such weaknesses can be compensated by using RGB images which provide a denser representation of the scene. We propose an image-guidance network (IGNet) which builds upon the idea of distilling high level feature information from a domain adapted synthetically trained 2D semantic segmentation network. We further utilize a one-way contrastive learning scheme alongside a novel mixing strategy called FOVMix, to combat the horizontal field-of-view mismatch between the two sensors and enhance the effects of image guidance. IGNet achieves state-of-the-art results for weakly-supervised LiDAR semantic segmentation on ScribbleKITTI, boasting up to 98% relative performance to fully supervised training with only 8% labeled points, while introducing no additional annotation burden or computational/memory cost during inference. Furthermore, we show that our contributions also prove effective for semi-supervised training, where IGNet claims state-of-the-art results on both ScribbleKITTI and SemanticKITTI.
翻訳日:2023-11-28 16:39:47 公開日:2023-11-27
# quickdrop:統合データセット蒸留による効率的なフェデレーション学習

QuickDrop: Efficient Federated Unlearning by Integrated Dataset Distillation ( http://arxiv.org/abs/2311.15603v1 )

ライセンス: Link先を確認
Akash Dhasade, Yaohong Ding, Song Guo, Anne-marie Kermarrec, Martijn De Vos, Leijie Wu(参考訳) Federated Unlearning(FU)は、フェデレートラーニング(FL)を使用してトレーニングされたMLモデルから、特定のトレーニングデータを削除することを目的としている。 我々は,データセット蒸留(dd)を利用した効率的でオリジナルなfu法であるquickdropを紹介し,未学習を高速化し,既存の手法に比べて計算オーバーヘッドを大幅に削減する。 QuickDropでは、各クライアントがDDを使用して、蒸留データセットと呼ばれるオリジナルのトレーニングデータセットを表すコンパクトデータセットを生成し、アンラーニング中にこのコンパクトデータセットを使用する。 グローバルモデルから特定の知識を引き出すため、QuickDropはクライアントに蒸留データセットのサンプルを用いて確率勾配上昇を実行させ、従来のFU法と比較して計算オーバーヘッドを著しく低減させる。 DDをFLトレーニングプロセスに統合することにより,QuickDropの効率をさらに向上する。 DDのFLトレーニング中に発生する勾配更新を再利用することにより、蒸留データセット作成のオーバーヘッドは無視される。 3つの標準データセットの評価によると、QuickDropは、既存のFUアプローチと比較して、スクラッチからのモデル再トレーニングと65.1倍の学習期間を463.8倍に短縮する。 また,100クライアントでのquickdropのスケーラビリティを実証し,複数のアンラーニング操作を処理しながらその効果を示す。

Federated Unlearning (FU) aims to delete specific training data from an ML model trained using Federated Learning (FL). We introduce QuickDrop, an efficient and original FU method that utilizes dataset distillation (DD) to accelerate unlearning and drastically reduces computational overhead compared to existing approaches. In QuickDrop, each client uses DD to generate a compact dataset representative of the original training dataset, called a distilled dataset, and uses this compact dataset during unlearning. To unlearn specific knowledge from the global model, QuickDrop has clients execute Stochastic Gradient Ascent with samples from the distilled datasets, thus significantly reducing computational overhead compared to conventional FU methods. We further increase the efficiency of QuickDrop by ingeniously integrating DD into the FL training process. By reusing the gradient updates produced during FL training for DD, the overhead of creating distilled datasets becomes close to negligible. Evaluations on three standard datasets show that, with comparable accuracy guarantees, QuickDrop reduces the duration of unlearning by 463.8x compared to model retraining from scratch and 65.1x compared to existing FU approaches. We also demonstrate the scalability of QuickDrop with 100 clients and show its effectiveness while handling multiple unlearning operations.
翻訳日:2023-11-28 16:39:16 公開日:2023-11-27
# UniRepLKNet: オーディオ、ビデオ、ポイントクラウド、時系列、画像認識のためのユニバーサル知覚大カーネル ConvNet

UniRepLKNet: A Universal Perception Large-Kernel ConvNet for Audio, Video, Point Cloud, Time-Series and Image Recognition ( http://arxiv.org/abs/2311.15599v1 )

ライセンス: Link先を確認
Xiaohan Ding, Yiyuan Zhang, Yixiao Ge, Sijie Zhao, Lin Song, Xiangyu Yue, Ying Shan(参考訳) 大規模カーネル畳み込みニューラルネットワーク(ConvNets)は近年、広範な研究の注目を集めているが、さらなる調査を求める未解決かつ重要な問題が2つある。 1) 既存の大型カーネルのConvNetのアーキテクチャは、従来のConvNetやトランスフォーマーの設計原則に大きく従っているが、大型カーネルのConvNetのアーキテクチャ設計は未完成のままである。 2) 変換器が複数のモダリティを支配してきたため, ConvNets が視覚以外の領域で強い普遍認識能力を持つかどうかについても検討が続けられている。 本稿では,二つの側面から貢献する。 1)大カーネルを設計するための4つのアーキテクチャガイドラインを提案し,その中核となるのは,小カーネルと区別できる大カーネルの本質的特徴を活用することである。 このようなガイドラインに従って,提案する大カーネル ConvNet は画像認識における主要な性能を示す。 例えば、私たちのモデルは、イメージネットの精度88.0%、ADE20K mIoU55.6%、COCOボックスAP56.4%を達成し、最近提案された多くの強力な競合相手よりも優れたパフォーマンスと高速性を示している。 2) 大規模なカーネルは,もともと熟練していないドメインにおいて,ConvNetの例外的なパフォーマンスを解放する鍵となる。 特定のモダリティ関連前処理アプローチを用いて,提案モデルは,アーキテクチャへのモダリティ固有のカスタマイズがなくても,時系列予測や音声認識タスクにおける最先端のパフォーマンスを実現する。 コードとすべてのモデルはhttps://github.com/AILab-CVC/UniRepLKNetにある。

Large-kernel convolutional neural networks (ConvNets) have recently received extensive research attention, but there are two unresolved and critical issues that demand further investigation. 1) The architectures of existing large-kernel ConvNets largely follow the design principles of conventional ConvNets or transformers, while the architectural design for large-kernel ConvNets remains under-addressed. 2) As transformers have dominated multiple modalities, it remains to be investigated whether ConvNets also have a strong universal perception ability in domains beyond vision. In this paper, we contribute from two aspects. 1) We propose four architectural guidelines for designing large-kernel ConvNets, the core of which is to exploit the essential characteristics of large kernels that distinguish them from small kernels - they can see wide without going deep. Following such guidelines, our proposed large-kernel ConvNet shows leading performance in image recognition. For example, our models achieve an ImageNet accuracy of 88.0%, ADE20K mIoU of 55.6%, and COCO box AP of 56.4%, demonstrating better performance and higher speed than a number of recently proposed powerful competitors. 2) We discover that large kernels are the key to unlocking the exceptional performance of ConvNets in domains where they were originally not proficient. With certain modality-related preprocessing approaches, the proposed model achieves state-of-the-art performance on time-series forecasting and audio recognition tasks even without modality-specific customization to the architecture. Code and all the models at https://github.com/AILab-CVC/UniRepLKNet.
翻訳日:2023-11-28 16:38:52 公開日:2023-11-27
# 離散混合系の最適クラスタリング:二項, ポアソン, ブロックモデル, 多層ネットワーク

Optimal Clustering of Discrete Mixtures: Binomial, Poisson, Block Models, and Multi-layer Networks ( http://arxiv.org/abs/2311.15598v1 )

ライセンス: Link先を確認
Zhongyuan Lyu, Ting Li, Dong Xia(参考訳) 本稿では,まず,多層ネットワークが存在する場合のクラスタリングネットワークの基本限界について検討する。 混合多層確率ブロックモデル (mmsbm) では, 指数関数形式をとり, 成分ネットワークのエッジ確率分布間のrenyi発散を特徴とする最小最適ネットワーククラスタリング誤差率を示す。 本稿では,ノード分割とサンプル分割の両方を含むテンソルに基づく初期化アルゴリズムと,ラピッドベースロイドアルゴリズムによる改良手順を含む,新しい2段階ネットワーククラスタリング手法を提案する。 ネットワーククラスタリングにはノードコミュニティ検出を伴わなければならない。 提案アルゴリズムは,最大ネットワーククラスタリング誤差率の最小化を実現し,MMSBM下での極端ネットワーク間隔を許容する。 数値シミュレーションと実データ実験はどちらも,本手法が既存手法より優れていることを示す。 多くの場合、ネットワークのエッジはカウントタイプの重みを持つ。 次に,Binomial,Poisson,および多層Poissonネットワークを含む離散分布の混合に対する最小クラスタリング誤差率について検討するために,方法論と分析フレームワークを拡張した。 これらの離散混合系におけるミニマックス最適クラスタリング誤差率は、すべてrenyiの発散によって特徴づけられる同じ指数型をとる。 これらの離散混合系における最適クラスタリング誤差率は,提案する2段階クラスタリングアルゴリズムによっても達成できる。

In this paper, we first study the fundamental limit of clustering networks when a multi-layer network is present. Under the mixture multi-layer stochastic block model (MMSBM), we show that the minimax optimal network clustering error rate, which takes an exponential form and is characterized by the Renyi divergence between the edge probability distributions of the component networks. We propose a novel two-stage network clustering method including a tensor-based initialization algorithm involving both node and sample splitting and a refinement procedure by likelihood-based Lloyd algorithm. Network clustering must be accompanied by node community detection. Our proposed algorithm achieves the minimax optimal network clustering error rate and allows extreme network sparsity under MMSBM. Numerical simulations and real data experiments both validate that our method outperforms existing methods. Oftentimes, the edges of networks carry count-type weights. We then extend our methodology and analysis framework to study the minimax optimal clustering error rate for mixture of discrete distributions including Binomial, Poisson, and multi-layer Poisson networks. The minimax optimal clustering error rates in these discrete mixtures all take the same exponential form characterized by the Renyi divergences. These optimal clustering error rates in discrete mixtures can also be achieved by our proposed two-stage clustering algorithm.
翻訳日:2023-11-28 16:38:23 公開日:2023-11-27
# 視覚言語モデルは一人称視点から考えることができるか?

Can Vision-Language Models Think from a First-Person Perspective? ( http://arxiv.org/abs/2311.15596v1 )

ライセンス: Link先を確認
Sijie Cheng, Zhicheng Guo, Jingwen Wu, Kechen Fang, Peng Li, Huaping Liu, Yang Liu(参考訳) 視覚言語モデル(VLM)は近年、従来の下流タスクにおいて有望な結果を示している。 評価研究は能力を評価するために現れており、大多数は第三者の視点から焦点を当てており、一人称視点で特定のタスクに取り組むのはごくわずかである。 しかし、自律エージェントとロボティクスの進歩にとって重要な属性である一人称視点から「考える」vlmsの能力は、ほとんど解明されていない。 この研究ギャップを埋めるために、12の詳細な次元を持つ6つのコア機能を含む新しい視覚的質問答えベンチマークであるEgoThinkを紹介します。 ベンチマークは、エゴセントリックビデオから選択されたクリップを使って構築され、手動でファーストパーソン情報を含む質問と回答のペアがある。 VLMを総合的に評価するために、EgoThink上で18の人気のあるVLMを評価した。 さらに, 解答のオープンエンド形式を考えると, gpt-4を自動判定器として用いる。 実験結果から, GPT-4Vは多数の次元をリードするが, 評価されたVLMはすべて, 一人称視点タスクの改善に有意な可能性を秘めていることがわかった。 一方、トレーニング可能なパラメータの数を増やすことは、EgoThinkのモデルパフォーマンスに最も大きな影響を与える。 結論として、EgoThinkはVLMの既存の評価ベンチマークの貴重な追加として機能し、組み込み人工知能とロボティクスの領域における将来の研究に必要なリソースを提供する。

Vision-language models (VLMs) have recently shown promising results in traditional downstream tasks. Evaluation studies have emerged to assess their abilities, with the majority focusing on the third-person perspective, and only a few addressing specific tasks from the first-person perspective. However, the capability of VLMs to "think" from a first-person perspective, a crucial attribute for advancing autonomous agents and robotics, remains largely unexplored. To bridge this research gap, we introduce EgoThink, a novel visual question-answering benchmark that encompasses six core capabilities with twelve detailed dimensions. The benchmark is constructed using selected clips from egocentric videos, with manually annotated question-answer pairs containing first-person information. To comprehensively assess VLMs, we evaluate eighteen popular VLMs on EgoThink. Moreover, given the open-ended format of the answers, we use GPT-4 as the automatic judge to compute single-answer grading. Experimental results indicate that although GPT-4V leads in numerous dimensions, all evaluated VLMs still possess considerable potential for improvement in first-person perspective tasks. Meanwhile, enlarging the number of trainable parameters has the most significant impact on model performance on EgoThink. In conclusion, EgoThink serves as a valuable addition to existing evaluation benchmarks for VLMs, providing an indispensable resource for future research in the realm of embodied artificial intelligence and robotics.
翻訳日:2023-11-28 16:38:02 公開日:2023-11-27
# 配電網における低炭素需要管理のためのネットワーク型マルチエージェント安全強化学習

Networked Multiagent Safe Reinforcement Learning for Low-carbon Demand Management in Distribution Network ( http://arxiv.org/abs/2311.15594v1 )

ライセンス: Link先を確認
Jichen Zhang, Linwei Sang, Yinliang Xu, Hongbin Sun(参考訳) 本稿では,需要側の炭素排出削減を考慮した配電網における低炭素需要管理のためのマルチエージェント型biレベル運用フレームワークを提案する。 上層では、集約負荷エージェントが各種負荷の制御信号を最適化して利益を最大化し、下層では、配電網オペレータが運用コストを最小限に抑えるために最適な配電決定を行い、配電位置限界価格と炭素強度を算出する。 分散フレキシブルロードエージェントは、分散ネットワークの不完全な情報のみを有し、ネットワーク通信を用いた他のエージェントと協調する。 最後に、ネットワーク化されたマルチエージェント制約付きマルコフ決定プロセスに定式化し、各エージェントの炭素排出許容度を考慮したコンセンサスマルチエージェント制約付きポリシー最適化と呼ばれる安全な強化学習アルゴリズムを用いて解決する。 IEEE 33-bus と 123-bus の配電ネットワークシステムを用いたケーススタディでは,需要側における二酸化炭素排出量の制約を満たすこと,配電ネットワークの安全な運用を保証すること,および双方のプライバシを保護すること,提案手法の有効性が示されている。

This paper proposes a multiagent based bi-level operation framework for the low-carbon demand management in distribution networks considering the carbon emission allowance on the demand side. In the upper level, the aggregate load agents optimize the control signals for various types of loads to maximize the profits; in the lower level, the distribution network operator makes optimal dispatching decisions to minimize the operational costs and calculates the distribution locational marginal price and carbon intensity. The distributed flexible load agent has only incomplete information of the distribution network and cooperates with other agents using networked communication. Finally, the problem is formulated into a networked multi-agent constrained Markov decision process, which is solved using a safe reinforcement learning algorithm called consensus multi-agent constrained policy optimization considering the carbon emission allowance for each agent. Case studies with the IEEE 33-bus and 123-bus distribution network systems demonstrate the effectiveness of the proposed approach, in terms of satisfying the carbon emission constraint on demand side, ensuring the safe operation of the distribution network and preserving privacy of both sides.
翻訳日:2023-11-28 16:37:22 公開日:2023-11-27
# 最適化のための量子ランゲヴィンダイナミクス

Quantum Langevin Dynamics for Optimization ( http://arxiv.org/abs/2311.15587v1 )

ライセンス: Link先を確認
Zherui Chen, Yuchen Lu, Hao Wang, Yizhou Liu, Tongyang Li(参考訳) 我々は、量子ランゲヴィンダイナミクス(QLD)を用いて最適化問題の解法、特に従来の勾配降下アルゴリズムにかなりの障害を与える非凸目的関数の研究を開始する。 具体的には,無限熱浴と結合した系のダイナミクスについて検討する。 この相互作用はランダムな量子ノイズと決定論的減衰効果の両方をシステムへ誘導し、対象関数の最小値に近い定常状態へと誘導する。 対流景観におけるqldの収束を理論的に証明し、系の平均エネルギーが、進化時間と相関する指数的減衰率を持つ低温限界でゼロに近づくことを証明した。 まず,QLDの発端を自然放出に遡ることにより,QLDのエネルギー散逸能力を示す。 さらに,各パラメータの影響について詳細な議論を行う。 最後に、qldと古典的なフォッカー・プランク・スモルーシャウスキー方程式を比較する際の観測に基づいて、温度と$\hbar$の時間依存パラメータを理論上は時間非依存の場合よりも収束することが証明され、多くの非凸風景において最先端の量子および古典最適化アルゴリズムを上回る時間依存qldを提案する。

We initiate the study of utilizing Quantum Langevin Dynamics (QLD) to solve optimization problems, particularly those non-convex objective functions that present substantial obstacles for traditional gradient descent algorithms. Specifically, we examine the dynamics of a system coupled with an infinite heat bath. This interaction induces both random quantum noise and a deterministic damping effect to the system, which nudge the system towards a steady state that hovers near the global minimum of objective functions. We theoretically prove the convergence of QLD in convex landscapes, demonstrating that the average energy of the system can approach zero in the low temperature limit with an exponential decay rate correlated with the evolution time. Numerically, we first show the energy dissipation capability of QLD by retracing its origins to spontaneous emission. Furthermore, we conduct detailed discussion of the impact of each parameter. Finally, based on the observations when comparing QLD with classical Fokker-Plank-Smoluchowski equation, we propose a time-dependent QLD by making temperature and $\hbar$ time-dependent parameters, which can be theoretically proven to converge better than the time-independent case and also outperforms a series of state-of-the-art quantum and classical optimization algorithms in many non-convex landscapes.
翻訳日:2023-11-28 16:36:47 公開日:2023-11-27
# pt対称量子系の分類に向けて : 散逸ダイナミクスからトポロジーとワームホールへ

Towards a classification of PT-symmetric quantum systems: from dissipative dynamics to topology and wormholes ( http://arxiv.org/abs/2311.15677v1 )

ライセンス: Link先を確認
Antonio M. Garc\'ia-Garc\'ia, Lucas S\'a, Jacobus J. M. Verbaarschot, and Can Yin(参考訳) 多体非ヘルミットパリティ時間(pt)対称量子システムの研究は、量子光学や連続的に観測されるダイナミクスから、量子重力や散逸量子カオスにおけるユークリッドワームホールまで、研究領域において多くの関心を集めている。 非エルミート系の対称性分類は38の普遍性クラスをもたらすが、ある条件下では、pt対称系は24の普遍性クラスに分類される。 それらのうち14個を2点sachdev-ye-kitaevモデルで同定し,厳密な対角化手法を用いてスペクトル解析により分類した。 興味深いことに、これらの14の普遍性クラスのうち aiii$_\nu$, bdi$^\dagger_\nu$, bdi$_{++\nu}$, ci$_{--\nu}$ の4つにおいて、シックハミルトニアンがいくつかのブロックが長方形であるブロック構造を持つ基底を同定し、$\nu \in \mathbb{n}$ は行数と列数の違いである。 この特徴が,GUE,GOE,BDI,CIの各クラスに対するエルミート確率行列理論の予測に準じる,ロバスト$\nu$純実固有値の存在につながることを示す。 最近、この$\nu$ が位相不変量であることがわかったので、これらのクラスは位相的である。 対照的に、非位相的実固有値はエルミート統計と非エルミート統計の交叉を示す。 リンドブラッド力学の場合と同様に、普遍性クラスの減少は、理論の与えられたセクタにクレイマーの退化が存在しないなど、予期せぬ結果をもたらす。 分類スキームの別の新しい特徴は、PT対称ハミルトニアンの異なるセクターは異なる対称性を持つ可能性があることである。

Studies of many-body non-Hermitian parity-time (PT)-symmetric quantum systems are attracting a lot of interest due to their relevance in research areas ranging from quantum optics and continuously monitored dynamics to Euclidean wormholes in quantum gravity and dissipative quantum chaos. While a symmetry classification of non-Hermitian systems leads to 38 universality classes, we show that, under certain conditions, PT-symmetric systems are grouped into 24 universality classes. We identify 14 of them in a coupled two-site Sachdev-Ye-Kitaev model and confirm the classification by spectral analysis using exact diagonalization techniques. Intriguingly, in four of these 14 universality classes, AIII$_\nu$, BDI$^\dagger_\nu$, BDI$_{++\nu}$, and CI$_{--\nu}$, we identify a basis in which the SYK Hamiltonian has a block structure in which some blocks are rectangular, with $\nu \in \mathbb{N}$ the difference between the number of rows and columns. We show analytically that this feature leads to the existence of robust $\nu$ purely real eigenvalues, whose level statistics follow the predictions of Hermitian random matrix theory for classes GUE, GOE, BDI, and CI, respectively. We have recently found that this $\nu$ is a topological invariant, so these classes are topological. By contrast, non-topological real eigenvalues display a crossover between Hermitian and non-Hermitian level statistics. Similarly to the case of Lindbladian dynamics, the reduction of universality classes leads to unexpected results, such as the absence of Kramers degeneracy in a given sector of the theory. Another novel feature of the classification scheme is that different sectors of the PT-symmetric Hamiltonian may have different symmetries.
翻訳日:2023-11-28 16:28:58 公開日:2023-11-27
# 潜在拡散逆解法のためのテキストによる正則化

Regularization by Texts for Latent Diffusion Inverse Solvers ( http://arxiv.org/abs/2311.15658v1 )

ライセンス: Link先を確認
Jeongsol Kim, Geon Yeong Park, Hyungjin Chung, Jong Chul Ye(参考訳) 近年の拡散モデルの出現は、これらのモデルを効果的な生成先行として活用し、逆問題の解決に大きな進歩をもたらした。 それにもかかわらず、そのような問題の不適切な性質に関する課題は、しばしば測定の固有の曖昧さのために残されている。 本稿では,知覚バイアスによる視覚の曖昧さを解決する人間の能力からインスピレーションを得て,テキストによる正規化(treg)を組み込んだ新しい潜在拡散逆解法を提案する。 具体的には、tregは逆サンプリングフェーズ中に解の先入観のテキスト記述を適用し、その記述は適応否定のためのヌルテキスト最適化によって動的に強化される。 包括的実験の結果,TRegは潜伏拡散逆解法における曖昧さを軽減し,その有効性と精度を高めた。

The recent advent of diffusion models has led to significant progress in solving inverse problems, leveraging these models as effective generative priors. Nonetheless, challenges related to the ill-posed nature of such problems remain, often due to inherent ambiguities in measurements. Drawing inspiration from the human ability to resolve visual ambiguities through perceptual biases, here we introduce a novel latent diffusion inverse solver by incorporating regularization by texts (TReg). Specifically, TReg applies the textual description of the preconception of the solution during the reverse sampling phase, of which description isndynamically reinforced through null-text optimization for adaptive negation. Our comprehensive experimental results demonstrate that TReg successfully mitigates ambiguity in latent diffusion inverse solvers, enhancing their effectiveness and accuracy.
翻訳日:2023-11-28 16:28:18 公開日:2023-11-27
# テキストエンコーダ強化学習による拡散モデルの強化

Enhancing Diffusion Models with Text-Encoder Reinforcement Learning ( http://arxiv.org/abs/2311.15657v1 )

ライセンス: Link先を確認
Chaofeng Chen, Annan Wang, Haoning Wu, Liang Liao, Wenxiu Sun, Qiong Yan, Weisi Lin(参考訳) テキストから画像への拡散モデルは、通常、画像美学や画像テキストアライメントといった下流タスクの特定の要求を満たす際の課題を示すログのような目的を最適化するために訓練される。 近年の研究では、強化学習や直接バックプロパゲーションを通じて人間の報酬を用いて拡散U-Netを精製することでこの問題に対処している。 しかし、多くはテキストエンコーダの重要性を見過ごしており、これは通常、トレーニング中に事前訓練され、固定されている。 本稿では,強化学習によるテキストエンコーダの微調整により,結果のテキストと画像のアライメントを強化し,視覚品質を向上させることを実証する。 我々の主な動機は、現在のテキストエンコーダが最適以下であり、しばしば注意深い迅速な調整を必要とすることにある。 u-netの微調整は性能を部分的に改善するが、サブ最適テキストエンコーダに苦しんでいる。 そこで本研究では,タスク固有の報酬に基づいてテキストエンコーダを微調整するために,低ランク適応による強化学習を提案する。 まず,テキストエンコーダの微調整により拡散モデルの性能が向上することを示す。 次に、TexForceが既存のU-Netファインチューニングモデルと簡単に組み合わせて、追加のトレーニングなしでより優れた結果を得ることができることを示す。 最後に,高品質な顔画像や手画像の生成など,多種多様な応用における本手法の適用性を示す。

Text-to-image diffusion models are typically trained to optimize the log-likelihood objective, which presents challenges in meeting specific requirements for downstream tasks, such as image aesthetics and image-text alignment. Recent research addresses this issue by refining the diffusion U-Net using human rewards through reinforcement learning or direct backpropagation. However, many of them overlook the importance of the text encoder, which is typically pretrained and fixed during training. In this paper, we demonstrate that by finetuning the text encoder through reinforcement learning, we can enhance the text-image alignment of the results, thereby improving the visual quality. Our primary motivation comes from the observation that the current text encoder is suboptimal, often requiring careful prompt adjustment. While fine-tuning the U-Net can partially improve performance, it remains suffering from the suboptimal text encoder. Therefore, we propose to use reinforcement learning with low-rank adaptation to finetune the text encoder based on task-specific rewards, referred as \textbf{TexForce}. We first show that finetuning the text encoder can improve the performance of diffusion models. Then, we illustrate that TexForce can be simply combined with existing U-Net finetuned models to get much better results without additional training. Finally, we showcase the adaptability of our method in diverse applications, including the generation of high-quality face and hand images.
翻訳日:2023-11-28 16:28:03 公開日:2023-11-27
# 時系列におけるユニバーサルイベント検出

Universal Event Detection in Time Series ( http://arxiv.org/abs/2311.15654v1 )

ライセンス: Link先を確認
Menouar Azib, Benjamin Renard, Philippe Garnier, Vincent G\'enot, Nicolas Andr\'e(参考訳) 先程公表した論文では,2進分類の代わりに回帰を用いた多変量時系列データにおける事象検出のための教師付きディープラーニング手法を導入した。 この単純化はデータセット全体にわたってポイントワイズラベルの必要性を回避し、ポイントやインターバルとして定義された基底真理イベントのみに依存する。 本稿では,本手法が普遍的であることを数学的に証明し,時系列上の軽度連続性仮定の下で任意の種類の事象を任意の精度で検出できることを示す。 これらのイベントには、変更点、詐欺、異常、物理的発生などが含まれる。 フィードフォワードニューラルネットワーク (ffn) に対する普遍近似定理を用いて, 理論結果を仮定した。 さらに,我々の主張を裏付ける実証的検証を行い,限られたパラメータ数で他のディープラーニングアプローチ,特にレアなイベントや異なるドメインからの不均衡データセットを上回ることを実証した。

In our previously published work, we introduced a supervised deep learning method for event detection in multivariate time series data, employing regression instead of binary classification. This simplification avoids the need for point-wise labels throughout the entire dataset, relying solely on ground truth events defined as time points or intervals. In this paper, we establish mathematically that our method is universal, and capable of detecting any type of event with arbitrary precision under mild continuity assumptions on the time series. These events may encompass change points, frauds, anomalies, physical occurrences, and more. We substantiate our theoretical results using the universal approximation theorem for feed-forward neural networks (FFN). Additionally, we provide empirical validations that confirm our claims, demonstrating that our method, with a limited number of parameters, outperforms other deep learning approaches, particularly for rare events and imbalanced datasets from different domains.
翻訳日:2023-11-28 16:27:37 公開日:2023-11-27
# MoDS: インストラクションチューニングのためのモデル指向データ選択

MoDS: Model-oriented Data Selection for Instruction Tuning ( http://arxiv.org/abs/2311.15653v1 )

ライセンス: Link先を確認
Qianlong Du, Chengqing Zong and Jiajun Zhang(参考訳) インストラクションチューニングは,大規模言語モデル(LLM)にユーザ命令に従う能力を持たせるためのデファクト手法となっている。 通常、基礎LPMを微調整するために、数十万から数百万の命令追従ペアが使用される。 近年、少数の高品質な命令データが十分であることを示す研究もある。 しかし、与えられた LLM に対して適切な命令データを選択する方法はまだ未解決の問題である。 そこで本研究では,モデル指向データ選択(MoDS)アプローチについて,品質,カバレッジ,必要性の3つの側面を考慮し,新たな基準に基づいて命令データを選択する手法を提案する。 提案手法では,まず,品質評価モデルを用いて,元の命令データセットから高品質なサブセットを抽出し,高いカバレッジを持つシード命令データセットから高品質なサブセットを更に選択するアルゴリズムを設計する。 シードデータセットを適用して基礎LLMを微調整し、初期命令追従LLMを得る。 最後に,初期命令追従LLMにおいて不適切な実行を行う命令データを見つけるために必要な評価モデルを開発し,LLMをさらに改善するための必要な命令を検討する。 このようにして、元の命令データセットから、小さな高品質で広いカバレッジと高必要のサブセットを得ることができます。 実験結果から,本手法で選択した4,000個の命令ペアを微調整したモデルは,214k命令データを含む完全なオリジナルデータセットで微調整されたモデルよりも優れた性能を示すことができた。

Instruction tuning has become the de facto method to equip large language models (LLMs) with the ability of following user instructions. Usually, hundreds of thousands or millions of instruction-following pairs are employed to fine-tune the foundation LLMs. Recently, some studies show that a small number of high-quality instruction data is enough. However, how to select appropriate instruction data for a given LLM is still an open problem. To address this problem, in this paper we present a model-oriented data selection (MoDS) approach, which selects instruction data based on a new criteria considering three aspects: quality, coverage and necessity. First, our approach utilizes a quality evaluation model to filter out the high-quality subset from the original instruction dataset, and then designs an algorithm to further select from the high-quality subset a seed instruction dataset with good coverage. The seed dataset is applied to fine-tune the foundation LLM to obtain an initial instruction-following LLM. Finally, we develop a necessity evaluation model to find out the instruction data which are performed badly in the initial instruction-following LLM and consider them necessary instructions to further improve the LLMs. In this way, we can get a small high-quality, broad-coverage and high-necessity subset from the original instruction datasets. Experimental results show that, the model fine-tuned with 4,000 instruction pairs selected by our approach could perform better than the model fine-tuned with the full original dataset which includes 214k instruction data.
翻訳日:2023-11-28 16:27:22 公開日:2023-11-27
# 拡散フィードバックによる強化学習:画像検索のためのq*

Reinforcement Learning from Diffusion Feedback: Q* for Image Search ( http://arxiv.org/abs/2311.15648v1 )

ライセンス: Link先を確認
Aboli Marathe(参考訳) 大きな視覚言語モデルでは、微調整やデータ拡張のコストで、パーソナライズ機能が着実に向上しています。 セマンティック先行と生成能力とを一致させるモデル非依存学習を用いた画像生成のための2つのモデルを提案する。 RLDF(Reinforcement Learning from Diffusion Feedback)は、事前保存型報酬関数誘導による視覚模倣のための特異なアプローチである。 これは生成にQ-ラーニング(標準Q*)を使用し、有限エンコーディング調整アクションによる画像検索のセマンティック・リワード・トラジェクトリに従う。 第2の手法であるノイズ拡散勾配は最適化駆動である。 両手法のルーツは、連続的な意味指導を提案する特別なCFG符号化である。 RLDFは、単一の入力画像のみを使用し、テキスト入力を行わず、小売、スポーツ、農業などの様々な領域で高品質な画像を生成する。 プロジェクトwebサイトはhttps://infernolia.github.io/rldf.com/。

Large vision-language models are steadily gaining personalization capabilities at the cost of fine-tuning or data augmentation. We present two models for image generation using model-agnostic learning that align semantic priors with generative capabilities. RLDF, or Reinforcement Learning from Diffusion Feedback, is a singular approach for visual imitation through prior-preserving reward function guidance. This employs Q-learning (with standard Q*) for generation and follows a semantic-rewarded trajectory for image search through finite encoding-tailored actions. The second proposed method, noisy diffusion gradient, is optimization driven. At the root of both methods is a special CFG encoding that we propose for continual semantic guidance. Using only a single input image and no text input, RLDF generates high-quality images over varied domains including retail, sports and agriculture showcasing class-consistency and strong visual diversity. Project website is available at https://infernolia.github.io/RLDF.
翻訳日:2023-11-28 16:26:57 公開日:2023-11-27
# オンラインレコメンデーションにおけるクリックベイト対策のためのメカニズム設計

Bandits Meet Mechanism Design to Combat Clickbait in Online Recommendation ( http://arxiv.org/abs/2311.15647v1 )

ライセンス: Link先を確認
Thomas Kleine Buening and Aadirupa Saha and Christos Dimitrakakis and Haifeng Xu(参考訳) 我々は,マルチアームバンディット問題の戦略的変種について検討し,戦略クリックバンディットを考案した。 このモデルは、推奨アイテムの選択がクリックスルー率とクリック後報酬の両方に依存するオンラインレコメンデーションのアプリケーションによって動機付けられる。 古典的なバンディットと同様に、報酬は一定の未知の分布に従う。 しかし、各アームのクリックレートは、クリック回数を最大化するために、arm(例えばairbnbのホスト)によって戦略的に選択されていると仮定します。 アルゴリズムデザイナは、事前にクリック後の報酬や腕の動き(すなわち、戦略的に選択されたクリックレート)を知らないため、時間とともに両方の値を学ぶ必要がある。 そこで本研究では,2つの目標を同時に達成するインセンティブ認識学習アルゴリズムucb-sを設計する。 a) 不確実性の下で望ましい腕の振舞いを動機付けること (b)未知のパラメータの学習による後悔の最小化。 UCB-Sの下でのアーム間の近似ナッシュ平衡を特徴付け、全ての平衡において一様に有界な$\tilde{\mathcal{O}} (\sqrt{KT})$後悔を示す。 また, インセンティブを意識しないアルゴリズムは, 戦略的クリックバンド化において, 一般的に低い後悔を達成できないことを示した。 最後に,提案するインセンティブ設計の有効性とロバスト性を確認する戦略アーム挙動のシミュレーションにより,理論結果を裏付ける。

We study a strategic variant of the multi-armed bandit problem, which we coin the strategic click-bandit. This model is motivated by applications in online recommendation where the choice of recommended items depends on both the click-through rates and the post-click rewards. Like in classical bandits, rewards follow a fixed unknown distribution. However, we assume that the click-rate of each arm is chosen strategically by the arm (e.g., a host on Airbnb) in order to maximize the number of times it gets clicked. The algorithm designer does not know the post-click rewards nor the arms' actions (i.e., strategically chosen click-rates) in advance, and must learn both values over time. To solve this problem, we design an incentive-aware learning algorithm, UCB-S, which achieves two goals simultaneously: (a) incentivizing desirable arm behavior under uncertainty; (b) minimizing regret by learning unknown parameters. We characterize all approximate Nash equilibria among arms under UCB-S and show a $\tilde{\mathcal{O}} (\sqrt{KT})$ regret bound uniformly in every equilibrium. We also show that incentive-unaware algorithms generally fail to achieve low regret in the strategic click-bandit. Finally, we support our theoretical results by simulations of strategic arm behavior which confirm the effectiveness and robustness of our proposed incentive design.
翻訳日:2023-11-28 16:26:41 公開日:2023-11-27
# InfoPattern: ソーシャルメディアにおける情報伝達パターンの展開

InfoPattern: Unveiling Information Propagation Patterns in Social Media ( http://arxiv.org/abs/2311.15642v1 )

ライセンス: Link先を確認
Chi Han, Jialiang Xu, Manling Li, Hanning Zhang, Tarek Abdelzaher and Heng Ji(参考訳) ソーシャルメディアは世論の形成に重要な役割を果たし、情報伝達を通じてイデオロギーコミュニティに影響を与えている。 私たちのデモInfoPatternは、言語と人間のイデオロギーの相互作用に焦点を当てています。 デモ(コード: https://github.com/blender-nlp/InfoPattern )は、(1) 相手のイデオロギーコミュニティからの敵の反応をシミュレートするレッドチーム、(2) 各メッセージの下位の政治的感情を識別するスタンス検出、(3) 情報伝搬グラフの発見、そして、様々なコミュニティにおけるクレームの進化を明らかにする。 (ライブデモ:https://incas.csl.illinois.edu/blender/About)

Social media play a significant role in shaping public opinion and influencing ideological communities through information propagation. Our demo InfoPattern centers on the interplay between language and human ideology. The demo (Code: https://github.com/blender-nlp/InfoPattern ) is capable of: (1) red teaming to simulate adversary responses from opposite ideology communities; (2) stance detection to identify the underlying political sentiments in each message; (3) information propagation graph discovery to reveal the evolution of claims across various communities over time. (Live Demo: https://incas.csl.illinois.edu/blender/About )
翻訳日:2023-11-28 16:26:14 公開日:2023-11-27
# paintnesf: 3dストロークをベクトル化したスタイリッシュなシーンの芸術的創造

PaintNeSF: Artistic Creation of Stylized Scenes with Vectorized 3D Strokes ( http://arxiv.org/abs/2311.15637v1 )

ライセンス: Link先を確認
Hao-Bin Duan, Miao Wang, Yan-Xun Li and Yong-Liang Yang(参考訳) 本稿では,多視点2次元画像から任意の視点で3次元シーンのスタイライゼーション画像を生成する新しい手法であるpaintnesfについて述べる。 ボクセルレベルのトレーニングされたニューラルラディアンスフィールドにスタイリングを適用する既存の手法とは異なり,本手法は画像から絵画へのアプローチからインスピレーションを得て,ベクターストロークによる人間のアートワークのプログレッシブペイント過程をシミュレートする。 基本的なプリミティブとスプラインからの3次元ストロークのパレットを開発し,これら3次元ストロークプリミティブに基づく多視点復元プロセスとして3次元シーンスタイライゼーションタスクを考察する。 これらの3Dストロークのパラメータを直接検索する代わりに、勾配勾配勾配を用いてストロークパラメータを最適化できる微分可能なレンダラーを導入し、消滅する勾配問題を緩和するためのトレーニングスキームを提案する。 本手法は,異なる視点で一貫した外観を維持しつつ,重要な幾何学的,美的スタイライゼーションを伴う3dシーンを効果的に合成することを示す。 本手法は,カラートランスファーやテキスト駆動の3Dシーン描画など,スタイル損失や画像テキストのコントラストモデルとさらに統合してアプリケーションを拡張することができる。

We present Paint Neural Stroke Field (PaintNeSF), a novel technique to generate stylized images of a 3D scene at arbitrary novel views from multi-view 2D images. Different from existing methods which apply stylization to trained neural radiance fields at the voxel level, our approach draws inspiration from image-to-painting methods, simulating the progressive painting process of human artwork with vector strokes. We develop a palette of stylized 3D strokes from basic primitives and splines, and consider the 3D scene stylization task as a multi-view reconstruction process based on these 3D stroke primitives. Instead of directly searching for the parameters of these 3D strokes, which would be too costly, we introduce a differentiable renderer that allows optimizing stroke parameters using gradient descent, and propose a training scheme to alleviate the vanishing gradient issue. The extensive evaluation demonstrates that our approach effectively synthesizes 3D scenes with significant geometric and aesthetic stylization while maintaining a consistent appearance across different views. Our method can be further integrated with style loss and image-text contrastive models to extend its applications, including color transfer and text-driven 3D scene drawing.
翻訳日:2023-11-28 16:25:57 公開日:2023-11-27
# 線形微分方程式をcarlemanとkoopman-von neumannによる量子アルゴリズムのためのschr\"{o}dinger方程式に写像する方法

How to Map Linear Differential Equations to Schr\"{o}dinger Equations via Carleman and Koopman-von Neumann Embeddings for Quantum Algorithms ( http://arxiv.org/abs/2311.15628v1 )

ライセンス: Link先を確認
Yuki Ito, Yu Tanaka, Keisuke Fujii(参考訳) 自由度が大きい線形および非線形微分方程式を解くことは、科学的および工業的応用にとって重要な課題である。 このような微分方程式を量子コンピュータ上で解くためには、古典変数を量子状態に組み込む必要がある。 カールマンとクープマン・フォン・ノイマンの埋め込みはこれまでに研究されているが、シュルンディンガー方程式に写像できる問題のクラスは線型微分方程式においてもよく理解されていない。 そこで本研究では,線形微分方程式をSchr\"{o}dinger方程式にマッピングし,量子コンピュータ上で解く条件について検討する。 興味深いことに、これらの条件はCarleman と Koopman-von Neumann の埋め込みと同一である。 また,可観測器の期待値の推定に関連する計算量を計算する。 これは状態準備の神託を仮定し、カールマンまたはクープマン・フォン・ノイマンの埋め込みを通して写像されたハミルトンンのブロック符号化を仮定し、$O(\log M)$ qubits with $M$は写像されたシステムサイズである。 さらに、一般の古典的二次ハミルトニアン力学を考察し、それをschr\"{o}dinger方程式に写像するのに十分な条件を見つける。 特別の場合、これは結合調和振動子モデル [Babbush et al., \cite{babbush_exponential_2023}] を含む。 また、結合調和振動子として説明できない具体的な例も見つかるが、我々のフレームワークの「シュル」{o}ディンガー方程式に写像できる。 これらの結果は、大自由度微分方程式を解くための量子アルゴリズムの構築において重要である。

Solving linear and nonlinear differential equations with large degrees of freedom is an important task for scientific and industrial applications. In order to solve such differential equations on a quantum computer, it is necessary to embed classical variables into a quantum state. While the Carleman and Koopman-von Neumann embeddings have been investigated so far, the class of problems that can be mapped to the Schr\"{o}dinger equation is not well understood even for linear differential equations. In this work, we investigate the conditions for linear differential equations to be mapped to the Schr\"{o}dinger equation and solved on a quantum computer. Interestingly, we find that these conditions are identical for both Carleman and Koopman-von Neumann embeddings. We also compute the computational complexity associated with estimating the expected values of an observable. This is done by assuming a state preparation oracle, block encoding of the mapped Hamiltonian via either Carleman or Koopman-von Neumann embedding, and block encoding of the observable using $O(\log M)$ qubits with $M$ is the mapped system size. Furthermore, we consider a general classical quadratic Hamiltonian dynamics and find a sufficient condition to map it into the Schr\"{o}dinger equation. As a special case, this includes the coupled harmonic oscillator model [Babbush et al., \cite{babbush_exponential_2023}]. We also find a concrete example that cannot be described as the coupled harmonic oscillator but can be mapped to the Schr\"{o}dinger equation in our framework. These results are important in the construction of quantum algorithms for solving differential equations of large-degree-of-freedom.
翻訳日:2023-11-28 16:25:33 公開日:2023-11-27
# 遠距離話者照合のための音声認識型話者埋め込み

Phonetic-aware speaker embedding for far-field speaker verification ( http://arxiv.org/abs/2311.15627v1 )

ライセンス: Link先を確認
Zezhong Jin, Youzhi Tu, Man-Wai Mak(参考訳) スピーカ検証(sv)システムが音源から遠く離れた場所で動作した場合、ノイズや残響の干渉によって重大な課題が発生する。 話者埋め込みに音声情報を組み込むことで、テキストに依存しないSVの性能を向上させることが研究で示されている。 この観測に触発されて、遠距離場SVのための音声コンテンツを利用する共同学習音声認識と話者認識(JTSS)フレームワークを提案する。 このフレームワークは、話者埋め込みネットワークのフレームベースの特徴マップとwav2vecのベクトルをマッチングすることにより、話者埋め込みが音声情報を保存することを奨励する。 直感的には、音声情報は話者情報による低レベル音響力学を保ち、雑音や残響による劣化を部分的に補うことができる。 提案したフレームワークは,VOiCES Challenge 2019評価セットとVoxCeleb1テストセットの標準話者埋め込みよりも優れていた。 このことは,遠距離条件下で音声情報を活用することが,頑健な話者表現の学習に有効であることを示す。

When a speaker verification (SV) system operates far from the sound sourced, significant challenges arise due to the interference of noise and reverberation. Studies have shown that incorporating phonetic information into speaker embedding can improve the performance of text-independent SV. Inspired by this observation, we propose a joint-training speech recognition and speaker recognition (JTSS) framework to exploit phonetic content for far-field SV. The framework encourages speaker embeddings to preserve phonetic information by matching the frame-based feature maps of a speaker embedding network with wav2vec's vectors. The intuition is that phonetic information can preserve low-level acoustic dynamics with speaker information and thus partly compensate for the degradation due to noise and reverberation. Results show that the proposed framework outperforms the standard speaker embedding on the VOiCES Challenge 2019 evaluation set and the VoxCeleb1 test set. This indicates that leveraging phonetic information under far-field conditions is effective for learning robust speaker representations.
翻訳日:2023-11-28 16:24:58 公開日:2023-11-27
# webcrow (複数形 webcrows)

The WebCrow French Crossword Solver ( http://arxiv.org/abs/2311.15626v1 )

ライセンス: Link先を確認
Giovanni Angelini, Marco Ernandes, Tommaso laquinta, Caroline Stehl\'e, Fanny Sim\~oes, Kamyar Zeinalipour, Andrea Zugarini, Marco Gori(参考訳) クロスワードパズル(crossword puzzles)は、世界中の異なる言語でプレイされる最も人気のあるワードゲームの一つであり、リドルスタイルは国によって大きく異なる。 自動クロスワード解決は困難であり、典型的なソルバは、以前に解決したクロスワードの大規模なデータベースに依存している。 本研究では,自動クロスワードソルバであるwebcrow 2.0をフランス語に拡張し,フランス語でクロスワードを解くための最初のプログラムとした。 ヒントと回答のクロスワードデータの大規模なリポジトリがないことに対処するため、WebCrow 2.0は、専門家と呼ばれる複数のモジュールを利用して、Web、知識グラフ、言語規則などの異種リソースから候補回答を取得する。 webcrowのパフォーマンスを2つの異なる課題で人間と比較した。 過去のクロスワードが限られていたにもかかわらず、フランスのWebCrowは競争力があり、スピードと精度で人間より優れており、新しい言語に一般化する能力を示した。

Crossword puzzles are one of the most popular word games, played in different languages all across the world, where riddle style can vary significantly from one country to another. Automated crossword resolution is challenging, and typical solvers rely on large databases of previously solved crosswords. In this work, we extend WebCrow 2.0, an automatic crossword solver, to French, making it the first program for crossword solving in the French language. To cope with the lack of a large repository of clue-answer crossword data, WebCrow 2.0 exploits multiple modules, called experts, that retrieve candidate answers from heterogeneous resources, such as the web, knowledge graphs, and linguistic rules. We compared WebCrow's performance against humans in two different challenges. Despite the limited amount of past crosswords, French WebCrow was competitive, actually outperforming humans in terms of speed and accuracy, thus proving its capabilities to generalize to new languages.
翻訳日:2023-11-28 16:24:40 公開日:2023-11-27
# 正の症例のみ:皮膚分節分類のための5次元高次注意相互作用モデル

Only Positive Cases: 5-fold High-order Attention Interaction Model for Skin Segmentation Derived Classification ( http://arxiv.org/abs/2311.15625v1 )

ライセンス: Link先を確認
Renkai Wu, Yinghao Liu, Pengchen Liang, Qing Chang(参考訳) 皮膚疾患のコンピュータ診断は重要なツールである。 しかし,現在,コンピュータ支援診断の解釈能力は乏しい。 皮膚科医や患者はニューラルネットワークの学習と予測過程を直感的に理解できないため、コンピュータ支援診断の信頼性は低下する。 さらに、病変の有無を予測するためには、負のサンプルを用いて従来の手法を訓練する必要があるが、医療データはしばしば不足している。 本稿では,高説明力を有する皮膚病変分割作業において,複数の高次注意相互作用モデル(MHA-UNet)を提案する。 MHA-UNetは、陰性サンプルのトレーニングを必要とせず、説明可能な推論によって病変の有無を得ることができる。 具体的には,注目度を高めるために,注目度を高めるための高次アテンションインタラクション機構を提案する。 さらに,異なる順序の異なる特徴を組み合わせることで,マルチ・ハイオーダー・アテンション・インタラクション(mhablock)モジュールを提案する。 病変の有無を分類するために,MHAblockの5つの注意順序の相互作用に関する説明可能な推論に基づいて,陰性サンプルのない複数の公開データセットの分類実験を行った。 実験で得られた高い正検出率は81.0%であり、最も高い負検出率は83.5%であった。 セグメンテーション実験では,提案手法と13の医用セグメンテーションモデルとの比較実験,および3つの公開データセットにおける8つの最先端モデルを用いた外部検証実験を行った。 コードはhttps://github.com/wurenkai/MHA-UNetから入手できる。

Computer-aided diagnosis of skin diseases is an important tool. However, the interpretability of computer-aided diagnosis is currently poor. Dermatologists and patients cannot intuitively understand the learning and prediction process of neural networks, which will lead to a decrease in the credibility of computer-aided diagnosis. In addition, traditional methods need to be trained using negative samples in order to predict the presence or absence of a lesion, but medical data is often in short supply. In this paper, we propose a multiple high-order attention interaction model (MHA-UNet) for use in a highly explainable skin lesion segmentation task. MHA-UNet is able to obtain the presence or absence of a lesion by explainable reasoning without the need for training on negative samples. Specifically, we propose a high-order attention interaction mechanism that introduces squeeze attention to a higher level for feature attention. In addition, a multiple high-order attention interaction (MHAblock) module is proposed by combining the different features of different orders. For classifying the presence or absence of lesions, we conducted classification experiments on several publicly available datasets in the absence of negative samples, based on explainable reasoning about the interaction of 5 attention orders of MHAblock. The highest positive detection rate obtained from the experiments was 81.0% and the highest negative detection rate was 83.5%. For segmentation experiments, comparison experiments of the proposed method with 13 medical segmentation models and external validation experiments with 8 state-of-the-art models in three public datasets and our clinical dataset demonstrate the state-of-the-art performance of our model. The code is available from https://github.com/wurenkai/MHA-UNet.
翻訳日:2023-11-28 16:24:24 公開日:2023-11-27
# 対話状態追跡のための言語知識をBERTに注入する

Injecting linguistic knowledge into BERT for Dialogue State Tracking ( http://arxiv.org/abs/2311.15623v1 )

ライセンス: Link先を確認
Xiaohan Feng, Xixin Wu, Helen Meng(参考訳) 対話状態追跡(DST)モデルは、しばしば複雑なニューラルネットワークアーキテクチャを使用し、実質的なトレーニングデータを必要とする。 本稿では,教師なしの枠組みを用いて言語知識を抽出し,その知識を用いてdstタスクにおけるbertの性能と解釈可能性を高める手法を提案する。 知識抽出手順は計算経済的であり、注釈や追加の訓練データを必要としない。 抽出された知識の注入は、単純な神経モジュールのみを追加する必要がある。 我々は,dstタスクの特徴抽出ツールとしてconvex polytopic model(cpm)を用い,獲得した特徴が対話における構文的・意味的パターンと関連していることを示す。 この相関は、DSTモデルの意思決定プロセスに影響を与える言語的特徴の包括的理解を促進する。 このフレームワークを様々なDSTタスクでベンチマークし、精度の顕著な改善を観察する。

Dialogue State Tracking (DST) models often employ intricate neural network architectures, necessitating substantial training data, and their inference processes lack transparency. This paper proposes a method that extracts linguistic knowledge via an unsupervised framework and subsequently utilizes this knowledge to augment BERT's performance and interpretability in DST tasks. The knowledge extraction procedure is computationally economical and does not necessitate annotations or additional training data. The injection of the extracted knowledge necessitates the addition of only simple neural modules. We employ the Convex Polytopic Model (CPM) as a feature extraction tool for DST tasks and illustrate that the acquired features correlate with the syntactic and semantic patterns in the dialogues. This correlation facilitates a comprehensive understanding of the linguistic features influencing the DST model's decision-making process. We benchmark this framework on various DST tasks and observe a notable improvement in accuracy.
翻訳日:2023-11-28 16:23:59 公開日:2023-11-27
# Cerbero-7B: チャットコーパスの生成と評価による言語特化LDMの前進

Cerbero-7B: A Leap Forward in Language-Specific LLMs Through Enhanced Chat Corpus Generation and Evaluation ( http://arxiv.org/abs/2311.15698v1 )

ライセンス: Link先を確認
Federico A. Galatolo, Mario G.C.A. Cimino(参考訳) 本研究は,自己チャット機構を用いて高品質な言語特化チャットコーパスを生成するための新しい手法を提案する。 新しいサンプルを作成するジェネレータLSMと組込みLDMを組み合わせて多様性を確保する。 コーパスの評価とフィルタリングのために,新たなマスク型言語モデリング(mlm)モデルに基づく品質評価指標を提案する。 ラマ2-70bをジェネレータとし、多言語文変換器を埋め込み器として使用し、イタリア語チャットコーパスを生成し、英訳ChatGPTセルフチャットデータに基づくファウノコーパスを洗練する。 この改良は構造的なアサーションと自然言語処理技術を使用する。 両コーパスはMLMモデルに基づく品質指標を用いて総合的な品質評価を行う。 これらのコーパスを微調整したイタリアのLLMでは、言語理解と質問応答能力が大幅に向上している。 結果、セルベロ7bはイタリアのLLMの新たな最先端技術を確立した。 このアプローチは、言語固有のLLMの開発において、特にイタリア語のような表現不足言語に対するコーパスの拡大に重点を置いている。

This study introduces a novel approach for generating high-quality, language-specific chat corpora using a self-chat mechanism. We combine a generator LLM for creating new samples and an embedder LLM to ensure diversity. A new Masked Language Modelling (MLM) model-based quality assessment metric is proposed for evaluating and filtering the corpora. Utilizing the llama2-70b as the generator and a multilingual sentence transformer as embedder, we generate an Italian chat corpus and refine the Fauno corpus, which is based on translated English ChatGPT self-chat data. The refinement uses structural assertions and Natural Language Processing techniques. Both corpora undergo a comprehensive quality evaluation using the proposed MLM model-based quality metric. The Italian LLM fine-tuned with these corpora demonstrates significantly enhanced language comprehension and question-answering skills. The resultant model, cerbero-7b, establishes a new state-of-the-art for Italian LLMs. This approach marks a substantial advancement in the development of language-specific LLMs, with a special emphasis on augmenting corpora for underrepresented languages like Italian.
翻訳日:2023-11-28 16:14:44 公開日:2023-11-27
# 量子コンピュータにおけるペプチド結合分類

Peptide Binding Classification on Quantum Computers ( http://arxiv.org/abs/2311.15696v1 )

ライセンス: Link先を確認
Charles London, Douglas Brown, Wenduan Xu, Sezen Vatansever, Christopher James Langmead, Dimitri Kartsaklis, Stephen Clark, Konstantinos Meichanetzidis(参考訳) 計算生物学の分野におけるタスクとして,短期量子コンピュータの利用に関する広範な研究を行う。 パラメータ化された量子回路に基づく量子モデルを構築することにより、治療タンパク質の設計に関連するタスクのシーケンス分類を行い、同様のスケールの古典的ベースラインと競合性を見出す。 ノイズの影響を調べるため、最先端のノイズ量子プロセッサのエミュレータ上で、最適なリソース要求を持つ最高の量子モデルを実行する。 次に,信号改善のために誤り軽減手法を適用する。 我々は、これらの量子モデルを量子H1-1トラップイオン量子プロセッサ上でさらに実行し、ノイズのない正確なシミュレーションと非常に密接な一致を観察する。 最後に、特徴帰属法を行い、量子モデルは、少なくとも古典的ベースラインと同様に、実際に有意義な関係を同定する。 この研究は、治療タンパク質の設計に不可欠なタスクに対して、短期量子コンピューティングの最初の概念実証アプリケーションを構成し、近未来の量子技術のハードウェア開発ロードマップに従って、これと関連分野における大規模アプリケーションへの道を開く。

We conduct an extensive study on using near-term quantum computers for a task in the domain of computational biology. By constructing quantum models based on parameterised quantum circuits we perform sequence classification on a task relevant to the design of therapeutic proteins, and find competitive performance with classical baselines of similar scale. To study the effect of noise, we run some of the best-performing quantum models with favourable resource requirements on emulators of state-of-the-art noisy quantum processors. We then apply error mitigation methods to improve the signal. We further execute these quantum models on the Quantinuum H1-1 trapped-ion quantum processor and observe very close agreement with noiseless exact simulation. Finally, we perform feature attribution methods and find that the quantum models indeed identify sensible relationships, at least as well as the classical baselines. This work constitutes the first proof-of-concept application of near-term quantum computing to a task critical to the design of therapeutic proteins, opening the route toward larger-scale applications in this and related fields, in line with the hardware development roadmaps of near-term quantum technologies.
翻訳日:2023-11-28 16:14:25 公開日:2023-11-27
# 機械学習モデルにおけるユーティリティ、プライバシ、公平性のトレードオフの自動発見

Automated discovery of trade-off between utility, privacy and fairness in machine learning models ( http://arxiv.org/abs/2311.15691v1 )

ライセンス: Link先を確認
Bogdan Ficiu, Neil D. Lawrence, Andrei Paleyes(参考訳) 機械学習モデルは、個人の生活に直接影響を与える意思決定と政策運用の中心的なコンポーネントとしてデプロイされる。 倫理的に行動し、政府の規制に従うためには、これらのモデルは公正な決定を行い、ユーザのプライバシーを保護する必要がある。 しかし、そのような要件は、バイアスを負い、プライバシーを侵害するモデルに比べて、モデルのパフォーマンスが低下する可能性がある。 したがって、公平性とプライバシ、mlモデルのパフォーマンスのトレードオフが生まれ、実践者はこのトレードオフを定量化し、デプロイメント決定を可能にする方法が必要です。 本研究では,このトレードオフを多目的最適化問題として解釈し,公平性,プライバシ,MLモデルの実用性といったパレート最適点の発見にベイズ最適化を用いるパイプラインであるPFairDPを提案する。 手動制約設定プロセスによって達成された既知の結果の再現にPFairDPをどのように利用できるかを示す。 さらに,複数のモデルとデータセットを用いたPFairDPの有効性を示す。

Machine learning models are deployed as a central component in decision making and policy operations with direct impact on individuals' lives. In order to act ethically and comply with government regulations, these models need to make fair decisions and protect the users' privacy. However, such requirements can come with decrease in models' performance compared to their potentially biased, privacy-leaking counterparts. Thus the trade-off between fairness, privacy and performance of ML models emerges, and practitioners need a way of quantifying this trade-off to enable deployment decisions. In this work we interpret this trade-off as a multi-objective optimization problem, and propose PFairDP, a pipeline that uses Bayesian optimization for discovery of Pareto-optimal points between fairness, privacy and utility of ML models. We show how PFairDP can be used to replicate known results that were achieved through manual constraint setting process. We further demonstrate effectiveness of PFairDP with experiments on multiple models and datasets.
翻訳日:2023-11-28 16:14:07 公開日:2023-11-27
# 同時パルス法による5状態連鎖系における量子状態工学

Quantum state engineering in a five-state chainwise system by coincident pulse technique ( http://arxiv.org/abs/2311.15686v1 )

ライセンス: Link先を確認
Jiahui Zhang(参考訳) 我々は,3状態刺激ラマン断熱路(STIRAP)システムにおける同期パルス法を5状態連鎖STIRAPシステムに一般化する。 本稿ではまず,M型構造を最も単純な共振結合を持つ一般化された$\Lambda$-type構造に還元し,三状態系から5状態連鎖系への標準共振パルス技術の適用を可能にする。 簡易化は, 4つの入射パルス間の関係の要件とともに, 断熱除去(AE)の仮定の下で実現される。 結果は、n (n\gg1)$の一致したインシデントパルスを使用することで、この手法により、初期状態と最終状態の間の任意の所望のコヒーレント重ね合わせを作成できるだけでなく、すべての中間状態において不可分な人口が存在することを示している。 この結果は、例えば、量子情報、原子光学、超低温分子の形成、空洞QED、核コヒーレント人口移動、導波路アレイにおける光伝達など、高忠実な多状態量子制御が不可欠であるアプリケーションに潜在的に関心がある。

We generalize the coincident pulse technique in three-state stimulated Raman adiabatic passage (STIRAP) system to a five-state chainwise STIRAP system. In our method, we first reduce the M-type structure into a generalized $\Lambda$-type one with the simplest resonant coupling, which principally allows us to employ the standard coincident pulse technique from three-state system into the five-state chainwise system. The simplification is realized under the assumption of adiabatic elimination (AE) together with a requirement of the relation among the four incident pulses. The results show that, by using $N (N\gg1)$ pairs of coincident incident pulses, this technique enables complete population transfer, as well as the creation of arbitrary desired coherent superposition between initial and final states, while there are negligible population in all the intermediate states. The results are of potential interest in applications where high-fidelity multi-state quantum control is essential, e.g., quantum information, atom optics, formation of ultracold molecules, cavity QED, nuclear coherent population transfer, light transfer in waveguide arrays, etc.
翻訳日:2023-11-28 16:13:52 公開日:2023-11-27
# 低資源エンティティマッチング問題に対する戦艦のアプローチ

The Battleship Approach to the Low Resource Entity Matching Problem ( http://arxiv.org/abs/2311.15685v1 )

ライセンス: Link先を確認
Bar Genossar (1), Avigdor Gal (1) and Roee Shraga (2) ((1) Technion - Israel Institute of Technology, (2) Worcester Polytechnic Institute)(参考訳) エンティティマッチングは、コアデータ統合の問題であり、2つのデータタプルが同じ現実世界のエンティティを指すかどうかを決定するタスクである。 事前学習言語モデルを用いたディープラーニング手法の最近の進歩は,エンティティマッチングの解法として提案されている。 前例のない結果を示したが、これらのソリューションはトレーニングに大量のラベル付きデータを必要とするため大きな欠点に悩まされ、低リソースのエンティティマッチング問題に適用するには不十分である。 十分なラベル付きデータを得ることの難しさを克服するために,エンティティマッチングのユニークな特性を利用する選択機構に着目した,新たなアクティブラーニングアプローチを提案する。 我々は、タプル対の分散表現は、他のペアから考えると、その情報性を示すと論じる。 これは、空間を意識した考慮を反復的に利用するアプローチで使用されます。 これらすべてを組み合わせることで、低リソースのエンティティマッチング問題を戦艦ゲームとして扱い、潜在的な空間の認識と次のサンプリングイテレーションの慎重な計画を通じて、実証的なサンプルを探索し、ポジティブなサンプルに注目します。 広範な実験分析により、提案されたアルゴリズムは、最先端のアクティブラーニングソリューションよりも低リソースのエンティティマッチングに優れており、サンプルは少ないが、最先端の完全に訓練された既知のアルゴリズムと同じくらい成功した。

Entity matching, a core data integration problem, is the task of deciding whether two data tuples refer to the same real-world entity. Recent advances in deep learning methods, using pre-trained language models, were proposed for resolving entity matching. Although demonstrating unprecedented results, these solutions suffer from a major drawback as they require large amounts of labeled data for training, and, as such, are inadequate to be applied to low resource entity matching problems. To overcome the challenge of obtaining sufficient labeled data we offer a new active learning approach, focusing on a selection mechanism that exploits unique properties of entity matching. We argue that a distributed representation of a tuple pair indicates its informativeness when considered among other pairs. This is used consequently in our approach that iteratively utilizes space-aware considerations. Bringing it all together, we treat the low resource entity matching problem as a Battleship game, hunting indicative samples, focusing on positive ones, through awareness of the latent space along with careful planning of next sampling iterations. An extensive experimental analysis shows that the proposed algorithm outperforms state-of-the-art active learning solutions to low resource entity matching, and although using less samples, can be as successful as state-of-the-art fully trained known algorithms.
翻訳日:2023-11-28 16:13:31 公開日:2023-11-27
# スピン依存駆動型正常金属-bcs超伝導接合における電流とショットノイズ

Current and shot noise in a spin dependent driven normal metal -- BCS superconductor junction ( http://arxiv.org/abs/2311.15684v1 )

ライセンス: Link先を確認
Bruno Bertin-Johannet, Beno\^it Gr\'emaud, Flavio Ronneti, Laurent Raymond, J\'er\^ome Rech, Thibaut Jonckheere, and Thierry Martin(参考訳) アンドレフ反射(Andreev reflection)は、通常の金属と超伝導体(N-S接合)の接合で起こる基本的な輸送過程であり、通常の金属の穴を反射して、通常の側からの入射電子をクーパー対として超伝導体に伝達することができる。 BCSクーパー対のスピン一重項の性質の結果、N-S接合におけるアンドレフ反射による電流は常にスピンにおいて対称である。 解析計算と数値計算を組み合わせたケルディシュ・ナムブ・フロケ法を用いて、通常の金属中の2つのスピン成分が異なる周期駆動によって駆動されるとき、N-S接合における交流輸送の詳細を研究する。 アンドレエフ系では、超伝導ギャップがドライブの周波数よりはるかに大きい場合、スピン分解されたフォトアシスト電流は、2つのドライブが異なる場合でも常に等しいことが示されている。 さらに,本手法では過大ノイズが周期駆動の和にのみ依存することを示すとともに,特にローレンツパルス(レビトン)の場合を考える。 また、これらのプロパティがandreevレジームを超えてどのように変更されるかを示す。 最後に、特定の N-N 接合への正確な写像を用いて、アンドレーフ則の特殊性質の簡単な解析的証明を与える。

Andreev reflection is a fundamental transport process occurring at the junction between a normal metal and a superconductor (a N-S junction), when an incident electron from the normal side can only be transmitted in the superconductor as a Cooper pair, with the reflection of a hole in the normal metal. As a consequence of the spin singlet nature of the BCS Cooper pairs, the current due to Andreev reflection at a N-S junction is always symmetric in spin. Using a Keldysh Nambu Floquet approach, combining analytical and numerical calculations, we study in details the AC transport at a N-S junction, when the two spin components in the normal metal are driven by different periodic drives. We show that, in the Andreev regime, i.e. when the superconducting gap is much larger than the frequency of the drives, the spin-resolved photo-assisted currents are always equal even if the two drives are different. In addition, we show that in this regime the excess noise depends only on the sum of the periodic drives, and we consider in particular the case of Lorentzian pulses (Levitons). We also show how these properties get modified when going beyond the Andreev regime. Finally we give a simple analytical proof of the special properties of the Andreev regime using an exact mapping to a particular N-N junction.
翻訳日:2023-11-28 16:13:10 公開日:2023-11-27
# カテゴリー学習による神経形状の情報理論的研究

Information theoretic study of the neural geometry induced by category learning ( http://arxiv.org/abs/2311.15682v1 )

ライセンス: Link先を確認
Laurent Bonnasse-Gahot and Jean-Pierre Nadal(参考訳) 分類は、生物学的ニューラルネットワークと人工ニューラルネットワークの両方にとって重要なトピックである。 本稿では,カテゴリ学習によって引き起こされる表現の効率を評価するために,情報理論のアプローチをとる。 ベイズコストを符号化部と復号部とで2つの成分に分解できることを示す。 コーディングコストの最小化は、カテゴリの集合と神経活動の間の相互情報の最大化を意味する。 この相互情報は、解釈可能な2つの項の和として記述できることを解析的に示す。 (i)適切な表現空間を見つけること、及び (ii)この空間のニューラルフィッシャー情報に基づいて適切な指標で表現を構築すること。 主な結果は、カテゴリー学習が決定境界付近の神経空間の拡大を誘導することである。 最後に,符号化ニューラル集団のフィッシャー情報がカテゴリ間の境界とどのように一致しているかを示す数値イラストを提供する。

Categorization is an important topic both for biological and artificial neural networks. Here, we take an information theoretic approach to assess the efficiency of the representations induced by category learning. We show that one can decompose the relevant Bayesian cost into two components, one for the coding part and one for the decoding part. Minimizing the coding cost implies maximizing the mutual information between the set of categories and the neural activities. We analytically show that this mutual information can be written as the sum of two terms that can be interpreted as (i) finding an appropriate representation space, and, (ii) building a representation with the appropriate metrics, based on the neural Fisher information on this space. One main consequence is that category learning induces an expansion of neural space near decision boundaries. Finally, we provide numerical illustrations that show how Fisher information of the coding neural population aligns with the boundaries between categories.
翻訳日:2023-11-28 16:12:46 公開日:2023-11-27
# モデル非依存体部歩行者検出の妥当性評価

Model-agnostic Body Part Relevance Assessment for Pedestrian Detection ( http://arxiv.org/abs/2311.15679v1 )

ライセンス: Link先を確認
Maurice G\"under, Sneha Banerjee, Rafet Sifa, Christian Bauckhage(参考訳) ディープラーニングモデルのモデル非依存な説明方法は、ユーザビリティと可用性に関して柔軟である。 しかしながら、入力を操作してアウトプットの変化を見ることしかできないという事実から、複雑なモデルアーキテクチャで使用すると、パフォーマンスが低下する。 例えばオブジェクト検出のような大きな入力を持つモデルでは、KernelSHAPのようなサンプリングベースの手法は、多くの計算量の多い前方通過のために非効率である。 本稿では,歩行者検出のための身体部適合度評価によるコンピュータビジョンコンテキストにおけるサンプリングに基づく説明モデルを用いた枠組みを提案する。 さらに,より低いサンプリングサイズに対するロバスト性を示すkernelshapと類似した新しいサンプリングベース手法を導入し,大規模データセットにおける説明可能性解析に有効であることを示す。

Model-agnostic explanation methods for deep learning models are flexible regarding usability and availability. However, due to the fact that they can only manipulate input to see changes in output, they suffer from weak performance when used with complex model architectures. For models with large inputs as, for instance, in object detection, sampling-based methods like KernelSHAP are inefficient due to many computation-heavy forward passes through the model. In this work, we present a framework for using sampling-based explanation models in a computer vision context by body part relevance assessment for pedestrian detection. Furthermore, we introduce a novel sampling-based method similar to KernelSHAP that shows more robustness for lower sampling sizes and, thus, is more efficient for explainability analyses on large-scale datasets.
翻訳日:2023-11-28 16:12:33 公開日:2023-11-27
# 階層型連想記憶の高速化 : 深い平衡アプローチ

Accelerating Hierarchical Associative Memory: A Deep Equilibrium Approach ( http://arxiv.org/abs/2311.15673v1 )

ライセンス: Link先を確認
C\'edric Goemaere, Johannes Deleu, Thomas Demeester(参考訳) 近年,連続ホップフィールドネットワークの拡張として階層的連想メモリモデルが提案されている。 このようなモデル,特に大規模モデルの今後の研究を促進するため,我々は,デジタルハードウェアにおけるシミュレーション効率の向上に注力する。 特に,これらのモデルにおけるメモリ検索を高速化するための2つの戦略を提案する。 まず、より高速で安定した解法を利用できるDeep Equilibrium Modelsとしてキャストする方法を示す。 第二に、初期の研究に触発されて、偶数層と奇数の層を交互に最適化することで、メモリの検索が2倍に加速することを示した。 この2つの手法を組み合わせることで、概念実証実験結果に示すように、より高速なエネルギー最小化が可能になります。 コードはhttps://github.com/cgoemaere/hamdeqで入手できる。

Hierarchical Associative Memory models have recently been proposed as a versatile extension of continuous Hopfield networks. In order to facilitate future research on such models, especially at scale, we focus on increasing their simulation efficiency on digital hardware. In particular, we propose two strategies to speed up memory retrieval in these models, which corresponds to their use at inference, but is equally important during training. First, we show how they can be cast as Deep Equilibrium Models, which allows using faster and more stable solvers. Second, inspired by earlier work, we show that alternating optimization of the even and odd layers accelerates memory retrieval by a factor close to two. Combined, these two techniques allow for a much faster energy minimization, as shown in our proof-of-concept experimental results. The code is available at https://github.com/cgoemaere/hamdeq
翻訳日:2023-11-28 16:12:19 公開日:2023-11-27
# HAVE-FUN:Few-Shot Unconstrained Imagesによる人間のアバター再構成

HAVE-FUN: Human Avatar Reconstruction from Few-Shot Unconstrained Images ( http://arxiv.org/abs/2311.15672v1 )

ライセンス: Link先を確認
Xihe Yang, Xingyu Chen, Shaohui Wang, Daiheng Gao, Xiaoguang Han, Baoyuan Wang(参考訳) ヒトのアバター再構成では、現代の技術は一般的に費用のかかるデータの取得を必要とし、少数のカジュアル画像から満足な結果を得るのに苦労する。 本稿では,この課題を数枚の未制約写真アルバムから考察する。 このようなデータソースからの人間のアバターの再構築は、データ量と動的関節ポーズが限られているため困難である。 動的データを扱うために,DMTetが生成した任意のメッシュトポロジを非拘束画像の適応のために駆動する,乾燥可能な四面体表現を生成するために,深行四面体(DMTet)とスキニング機構を統合する。 少数ショットデータから効果的なインストラクティブ情報を抽出するために,少数ショット参照と少数ショットガイダンスを備えた2フェーズ最適化手法を提案する。 前者はアバターのアイデンティティと参照画像の整合に重点を置いており、後者は見当たらない領域に対して妥当な外観を作り出すことを目指している。 全体として、私たちのフレームワークはHaveFunと呼ばれ、アバターの再構築、レンダリング、アニメーションを実行できます。 開発したベンチマークの大規模な実験により、HaveFunは人体と手を再構築する上で、かなり優れたパフォーマンスを示しています。 プロジェクトサイト: https://seanchenxy.github.io/havefunweb/

As for human avatar reconstruction, contemporary techniques commonly necessitate the acquisition of costly data and struggle to achieve satisfactory results from a small number of casual images. In this paper, we investigate this task from a few-shot unconstrained photo album. The reconstruction of human avatars from such data sources is challenging because of limited data amount and dynamic articulated poses. For handling dynamic data, we integrate a skinning mechanism with deep marching tetrahedra (DMTet) to form a drivable tetrahedral representation, which drives arbitrary mesh topologies generated by the DMTet for the adaptation of unconstrained images. To effectively mine instructive information from few-shot data, we devise a two-phase optimization method with few-shot reference and few-shot guidance. The former focuses on aligning avatar identity with reference images, while the latter aims to generate plausible appearances for unseen regions. Overall, our framework, called HaveFun, can undertake avatar reconstruction, rendering, and animation. Extensive experiments on our developed benchmarks demonstrate that HaveFun exhibits substantially superior performance in reconstructing the human body and hand. Project website: https://seanchenxy.github.io/HaveFunWeb/.
翻訳日:2023-11-28 16:12:04 公開日:2023-11-27
# 変形誘導非教師なし形状マッチング

Deformation-Guided Unsupervised Non-Rigid Shape Matching ( http://arxiv.org/abs/2311.15668v1 )

ライセンス: Link先を確認
Aymen Merrouche, Joao Regateiro, Stefanie Wuhrer, Edmond Boyer(参考訳) 非剛体形状マッチングのための教師なしデータ駆動アプローチを提案する。 形状マッチングは2つの形状間の対応を識別し、多くのコンピュータビジョンやグラフィックスアプリケーションにおける基本的なステップである。 空間的に近接した領域の合体によって生じるトポロジカルノイズを含む様々な種類のノイズに悩まされる3Dスキャナーを用いて、形状をデジタル化した場合、特にロバストに設計されている。 私たちは2つの戦略を構築します。 まず、階層的なパッチベースの形状表現を用いて、連続した形状を粗い方法で微妙に整合させ、ノイズに対する堅牢性を実現する。 このマルチスケール表現は、粗いスケールでマッチングする際の問題の次元を劇的に減らし、教師なし学習を可能にする。 次に,この階層的マッチングをパッチワイズ近似剛性変形モデルに適合させて3次元に反映するように制約する。 この制約を用いて,空間連続性を異なるスケールで活用し,大域的な形状特性を捉えることにより,変形やノイズ特性の異なるデータによく一般化したマッチングを実現する。 実験により,本手法は,標準的なテストシナリオにおいて,最先端の手法よりも生の3Dスキャンの方がはるかに優れた結果が得られることが示された。

We present an unsupervised data-driven approach for non-rigid shape matching. Shape matching identifies correspondences between two shapes and is a fundamental step in many computer vision and graphics applications. Our approach is designed to be particularly robust when matching shapes digitized using 3D scanners that contain fine geometric detail and suffer from different types of noise including topological noise caused by the coalescence of spatially close surface regions. We build on two strategies. First, using a hierarchical patch based shape representation we match shapes consistently in a coarse to fine manner, allowing for robustness to noise. This multi-scale representation drastically reduces the dimensionality of the problem when matching at the coarsest scale, rendering unsupervised learning feasible. Second, we constrain this hierarchical matching to be reflected in 3D by fitting a patch-wise near-rigid deformation model. Using this constraint, we leverage spatial continuity at different scales to capture global shape properties, resulting in matchings that generalize well to data with different deformations and noise characteristics. Experiments demonstrate that our approach obtains significantly better results on raw 3D scans than state-of-the-art methods, while performing on-par on standard test scenarios.
翻訳日:2023-11-28 16:11:43 公開日:2023-11-27
# 集合スピン-スピン相互作用によるスピンスクイーズ

Spin Squeezing through Collective Spin-Spin Interactions ( http://arxiv.org/abs/2311.15667v1 )

ライセンス: Link先を確認
Yanzhen Wang and Xuanchen Zhang and Yong-Chun Liu(参考訳) スピンスクイージングは量子力学と量子情報科学にとって重要な量子資源を提供する。 本稿では, スピンスピン相互作用を持つ一般結合スピンモデルにおいて, 自由発展から1つの軸幅(oat)スピンスクイージングを生成できることを示す。 さらに,パラメータ不完全性からスクイーズを回復するパルススキームを提案し,ハイゼンベルク限界測定精度を1/N$$$$N$とする極端スクイーズに到達した。 本研究は、極端スピンスクイーズを生成するための実現可能な方法を提供する。

Spin squeezing provides crucial quantum resource for quantum metrology and quantum information science. Here we propose that one axis-twisted (OAT) spin squeezing can be generated from free evolution under a general coupled-spin model with collective spin-spin interactions. We further propose pulse schemes to recover squeezing from parameter imperfections, and reach the extreme squeezing with Heisenberg-limited measurement precision scaling as $1/N$ for $N$ particles. This work provides a feasible method for generating extreme spin squeezing.
翻訳日:2023-11-28 16:11:19 公開日:2023-11-27
# テンソルネットワークと変分量子分類器の比較

Comparison between Tensor Networks and Variational Quantum Classifier ( http://arxiv.org/abs/2311.15663v1 )

ライセンス: Link先を確認
Georgios Laskaris, Artem A. Melnikov, Michael R. Perelshtein, Reuben Brasher, Thomas Baeck, Florian Neukart(参考訳) 本研究の目的は、テンソルネットワーク(TN)と変分量子分類器(VQC)の2つの機械学習手法の比較分析を行うことである。 どちらのアプローチも、パラメータの対数数を使ってヒルベルト空間の表現において類似性を共有するが、それらは彼らがカバーする多様体に発散する。 したがって、これらのアプローチの表現可能性と訓練可能性を評価し比較することを目的としている。 この比較を行うことで、量子アドバンテージが見つかる可能性のある領域について洞察を得ることができる。 以上の結果から,vqcは少ない特徴量で特徴付けられるデータを扱う際に,速度と精度の点で有利であることが示唆された。 しかし、高次元データの場合、TNはVQCを超える。 この格差は主に、量子回路のトレーニング中に遭遇した課題に起因すると我々は信じている。 この記事では、特定のタスクのみに集中し、結果の徹底的な平均化を行なわないことを強調したい。 したがって,本論文の結果を過度な一般化を伴わないユニークな事例として考えることを推奨する。

The primary objective of this paper is to conduct a comparative analysis between two Machine Learning approaches: Tensor Networks (TN) and Variational Quantum Classifiers (VQC). While both approaches share similarities in their representation of the Hilbert space using a logarithmic number of parameters, they diverge in the manifolds they cover. Thus, the aim is to evaluate and compare the expressibility and trainability of these approaches. By conducting this comparison, we can gain insights into potential areas where quantum advantage may be found. Our findings indicate that VQC exhibits advantages in terms of speed and accuracy when dealing with data, characterized by a small number of features. However, for high-dimensional data, TN surpasses VQC in overall classification accuracy. We believe that this disparity is primarily attributed to challenges encountered during the training of quantum circuits. We want to stress that in this article, we focus on only one particular task and do not conduct thorough averaging of the results. Consequently, we recommend considering the results of this article as a unique case without excessive generalization.
翻訳日:2023-11-28 16:11:11 公開日:2023-11-27
# 4次元占有予測におけるargoverse challengeの技術報告

Technical Report for Argoverse Challenges on 4D Occupancy Forecasting ( http://arxiv.org/abs/2311.15660v1 )

ライセンス: Link先を確認
Pengfei Zheng, Kanokphan Lertniphonphan, Feng Chen, Siwei Chen, Bingchuan Sun, Jun Xie, Zhepeng Wang(参考訳) 本稿では, CVPR 2023 Workshop on Autonomous Driving (WAD) において, 4D Occupancy Forecasting in Argoverse ChallengesのLe3DE2E_Occソリューションについて紹介する。 我々のソリューションは、強力なLiDARベースのBird's Eye View(BEV)エンコーダと、DETRヘッドとUNetデコーダを組み合わせた2段階デコーダで構成される。 このソリューションはArgoverse 2センサーデータセットでテストされ、将来3秒間の占有状態を評価する。 提案手法はベースラインより18%低いl1誤差 (3.57) を達成し, cvpr 2023において4次元占有予測タスクにおいて1位を得た。

This report presents our Le3DE2E_Occ solution for 4D Occupancy Forecasting in Argoverse Challenges at CVPR 2023 Workshop on Autonomous Driving (WAD). Our solution consists of a strong LiDAR-based Bird's Eye View (BEV) encoder with temporal fusion and a two-stage decoder, which combines a DETR head and a UNet decoder. The solution was tested on the Argoverse 2 sensor dataset to evaluate the occupancy state 3 seconds in the future. Our solution achieved 18% lower L1 Error (3.57) than the baseline and got the 1 place on the 4D Occupancy Forecasting task in Argoverse Challenges at CVPR 2023.
翻訳日:2023-11-28 16:10:47 公開日:2023-11-27
# 多周波数部分相関グラフの学習

Learning Multi-Frequency Partial Correlation Graphs ( http://arxiv.org/abs/2311.15756v1 )

ライセンス: Link先を確認
Gabriele D'Acunto, Paolo Di Lorenzo, Francesco Bonchi, Stefania Sardellitti and Sergio Barbarossa(参考訳) 時系列間の依存関係を学習するための大規模な研究努力にもかかわらず、最先端技術は依然として大きな限界に直面している: 既存の手法は部分的相関を学習するが、異なる周波数帯域間で区別することができない。 この微分が中心となる多くのアプリケーションによって動機付けられ、ブロックスパース、周波数依存、部分相関グラフを学習することで、この制限を克服する。 本研究の目的は,2つの非凸学習問題の定式化と解法である。第1は閉形式解を持ち,部分相関数に関する事前知識がある場合に適したもので,第2は連続凸近似に基づく反復解に基づくヒンジであり,事前知識が得られない場合に有効である。 合成データを用いた数値実験の結果,提案手法が現在の技術に勝ることがわかった。 最後に、ファイナンシャル・タイム・シリーズの分析により、部分的相関が数個の周波数帯域内でのみ存在することが確認され、我々の手法が周波数領域に沿って識別することなく検出されない貴重な洞察の獲得をいかに可能かが示される。

Despite the large research effort devoted to learning dependencies between time series, the state of the art still faces a major limitation: existing methods learn partial correlations but fail to discriminate across distinct frequency bands. Motivated by many applications in which this differentiation is pivotal, we overcome this limitation by learning a block-sparse, frequency-dependent, partial correlation graph, in which layers correspond to different frequency bands, and partial correlations can occur over just a few layers. To this aim, we formulate and solve two nonconvex learning problems: the first has a closed-form solution and is suitable when there is prior knowledge about the number of partial correlations; the second hinges on an iterative solution based on successive convex approximation, and is effective for the general case where no prior knowledge is available. Numerical results on synthetic data show that the proposed methods outperform the current state of the art. Finally, the analysis of financial time series confirms that partial correlations exist only within a few frequency bands, underscoring how our methods enable the gaining of valuable insights that would be undetected without discriminating along the frequency domain.
翻訳日:2023-11-28 16:02:23 公開日:2023-11-27
# GPT4Vis: GPT-4はゼロショット視覚認識に何ができるか?

GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition? ( http://arxiv.org/abs/2311.15732v1 )

ライセンス: Link先を確認
Wenhao Wu, Huanjin Yao, Mengxi Zhang, Yuxin Song, Wanli Ouyang, Jingdong Wang(参考訳) 本論文は,新しい手法を提示しない。 代わりに、ジェネレーティブ・人工知能(GenAI:Generative Artificial Intelligence)の最新の進歩、つまり視覚的理解のための GPT-4 の利用に照らして、必要不可欠なベースラインへと発展する。 本研究は,ゼロショット視覚認識タスクにおけるGPT-4の言語的・視覚的能力の評価に焦点を当てた。 具体的には、様々なカテゴリにまたがるリッチテキスト記述の可能性を探り、学習なしに認識性能を向上させる。 さらに,多様な視覚コンテンツを直接認識する能力を評価する。 そこで我々は,gpt-4の性能を画像,ビデオ,ポイントクラウドの3つのモダリティで体系的に定量化する一連の実験を行った。 この包括的な評価は、合計16の広く認識されているベンチマークデータセットを含み、トップ1とトップ5の精度メトリクスを提供する。 本研究は,gpt-4の高度な言語知識を活用し,ゼロショット認識を著しく改善することを示す。 視覚的習熟度に関しては、GPT-4Vの16データセットの平均性能は、OpenAI-CLIPのViT-LとEVA-CLIPのViT-Eのほぼ中間にある。 この研究が今後の研究に貴重なデータポイントと経験をもたらすことを願っています。 コードはhttps://github.com/whwu95/gpt4visでリリースします。

This paper does not present a novel method. Instead, it delves into an essential, yet must-know baseline in light of the latest advancements in Generative Artificial Intelligence (GenAI): the utilization of GPT-4 for visual understanding. Our study centers on the evaluation of GPT-4's linguistic and visual capabilities in zero-shot visual recognition tasks. Specifically, we explore the potential of its generated rich textual descriptions across various categories to enhance recognition performance without any training. Additionally, we evaluate its visual proficiency in directly recognizing diverse visual content. To achieve this, we conduct an extensive series of experiments, systematically quantifying the performance of GPT-4 across three modalities: images, videos, and point clouds. This comprehensive evaluation encompasses a total of 16 widely recognized benchmark datasets, providing top-1 and top-5 accuracy metrics. Our study reveals that leveraging GPT-4's advanced linguistic knowledge to generate rich descriptions markedly improves zero-shot recognition. In terms of visual proficiency, GPT-4V's average performance across 16 datasets sits roughly between the capabilities of OpenAI-CLIP's ViT-L and EVA-CLIP's ViT-E. We hope that this research will contribute valuable data points and experience for future studies. We release our code at https://github.com/whwu95/GPT4Vis.
翻訳日:2023-11-28 16:02:01 公開日:2023-11-27
# 古典的機械学習とディープラーニングを用いたアドインクラ記号認識

Adinkra Symbol Recognition using Classical Machine Learning and Deep Learning ( http://arxiv.org/abs/2311.15728v1 )

ライセンス: Link先を確認
Michael Adjeisah, Kwame Omono Asamoah, Martha Asamoah Yeboah, Raji Rafiu King, Godwin Ferguson Achaab and Kingsley Adjei(参考訳) 人工知能(AI)は、世界社会にパラダイムシフトをもたらし、アカデミックと産業にまたがる変革的な影響として登場した。 しかし、これらの急速な進歩を踏まえて、AIにおける黒人コミュニティとアフリカ諸国の不足に対処することが不可欠である。 AIに対する熱意を高めることは、Adinkraシンボルやコミュニティ内の馴染みのあるオブジェクトなど、従来のシンボルの識別と分類といったタスクに関する簡単なアプリケーションを示すことで、効果的に達成できる。 本研究では,従来の機械学習に潜り込み,深層学習モデルの力を利用して,Adinkraシンボルの分類と認識という複雑な課題に取り組む。 このアイデアは新しく構築されたADINKRAデータセットに、174,338の画像が厳密に62の異なるクラスに分類され、それぞれが特異かつエンブレマ的なシンボルを表している。 6つの畳み込み層,3つの完全連結(FC)層,オプションのドロップアウト正規化を用いて,分類と認識のためのCNNモデルを構築した。 モデルはVGGのよりシンプルで小さなバージョンで、レイヤは少なく、チャンネルサイズも小さく、カーネルサイズも固定されている。 さらに,vggやresnetなどの事前学習モデルが提供するトランスファー学習機能を活用した。 これらのモデルは、画像の分類と、古典的な機械学習モデルで使用できる特徴の抽出の両方に役立つ。 モデルの精度と収束率を測定し,予測に大きく影響を及ぼす領域を可視化することにより,モデルの性能を評価する。 これらの評価は、ADINKRAデータセットの将来の評価のための基礎的なベンチマークとなる。 この応用が、私たちの伝統的かつモダンな生活を組織する上で、AIのさまざまな用途に関するアイデアを刺激することを期待しています。

Artificial intelligence (AI) has emerged as a transformative influence, engendering paradigm shifts in global societies, spanning academia and industry. However, in light of these rapid advances, addressing the underrepresentation of black communities and African countries in AI is crucial. Boosting enthusiasm for AI can be effectively accomplished by showcasing straightforward applications around tasks like identifying and categorizing traditional symbols, such as Adinkra symbols, or familiar objects within the community. In this research endeavor, we dived into classical machine learning and harnessed the power of deep learning models to tackle the intricate task of classifying and recognizing Adinkra symbols. The idea led to a newly constructed ADINKRA dataset comprising 174,338 images meticulously organized into 62 distinct classes, each representing a singular and emblematic symbol. We constructed a CNN model for classification and recognition using six convolutional layers, three fully connected (FC) layers, and optional dropout regularization. The model is a simpler and smaller version of VGG, with fewer layers, smaller channel sizes, and a fixed kernel size. Additionally, we tap into the transfer learning capabilities provided by pre-trained models like VGG and ResNet. These models assist us in both classifying images and extracting features that can be used with classical machine learning models. We assess the model's performance by measuring its accuracy and convergence rate and visualizing the areas that significantly influence its predictions. These evaluations serve as a foundational benchmark for future assessments of the ADINKRA dataset. We hope this application exemplar inspires ideas on the various uses of AI in organizing our traditional and modern lives.
翻訳日:2023-11-28 16:01:37 公開日:2023-11-27
# MARIS: 相互認識型アテンション機能によるイメージセグメンテーションの参照

MARIS: Referring Image Segmentation via Mutual-Aware Attention Features ( http://arxiv.org/abs/2311.15727v1 )

ライセンス: Link先を確認
Mengxi Zhang, Yiming Liu, Xiangjun Yin, Huanjing Yue, Jingyu Yang(参考訳) イメージセグメンテーション(RIS)は、言語表現プロンプトに基づいて特定の領域をセグメンテーションすることを目的としている。 既存の手法では、言語的特徴を視覚的特徴に取り入れ、マスク復号のためのマルチモーダル特徴を得る。 しかし、これらの手法は、多モードの特徴が豊富な視覚的コンテキストに支配されるため、正しい参照領域の代わりに視覚的に健全な実体を分割することができる。 本稿では,Segment Anything Model(SAM)を利用した参照画像分割手法MARISを提案する。 具体的には、視覚的特徴と言語的特徴の関係を双方向にモデル化する視覚誘導注意と言語誘導注意から構成される。 対応するマスクデコーダは,言語表現とより一貫したセグメンテーションのための明示的な言語指導を可能にする。 この目的のために,言語情報を統合し,同時に視覚情報と対話するマルチモーダルクエリトークンを提案する。 3つのベンチマークデータセットの大規模な実験により、我々の手法は最先端のRIS法よりも優れていることが示された。 私たちのコードは公開されます。

Referring image segmentation (RIS) aims to segment a particular region based on a language expression prompt. Existing methods incorporate linguistic features into visual features and obtain multi-modal features for mask decoding. However, these methods may segment the visually salient entity instead of the correct referring region, as the multi-modal features are dominated by the abundant visual context. In this paper, we propose MARIS, a referring image segmentation method that leverages the Segment Anything Model (SAM) and introduces a mutual-aware attention mechanism to enhance the cross-modal fusion via two parallel branches. Specifically, our mutual-aware attention mechanism consists of Vision-Guided Attention and Language-Guided Attention, which bidirectionally model the relationship between visual and linguistic features. Correspondingly, we design a Mask Decoder to enable explicit linguistic guidance for more consistent segmentation with the language expression. To this end, a multi-modal query token is proposed to integrate linguistic information and interact with visual information simultaneously. Extensive experiments on three benchmark datasets show that our method outperforms the state-of-the-art RIS methods. Our code will be publicly available.
翻訳日:2023-11-28 16:01:09 公開日:2023-11-27
# 連続測定による空洞結合原子アンサンブルのスピンスクイーズ生成の解析

Analysis of spin-squeezing generation in cavity-coupled atomic ensembles with continuous measurements ( http://arxiv.org/abs/2311.15725v1 )

ライセンス: Link先を確認
A. Caprotti, M. Barbiero, M. G. Tarallo, M. G. Genoni, G. Bertaina(参考訳) 我々は3レベル原子を光学キャビティに結合させることによりスピンスクイーズ状態の生成を分析し、原子アンサンブルの進化を監視するために連続的にキャビティ伝達を測定する。 解析処理と顕微鏡シミュレーションを用いて、最適なアプローチで提案される継続的なフィードバックを使わずに、重要なスピンスクイーズを実現できることを示す。 断熱キャビティ除去近似と大量の原子数$N$制限では、スピンスクイーズのためのスケーリング指数$N^{-2/3}と、対応するプロトコル長に対する$N^{-1/3}は、集合ブロッホ球曲率によって決定的に影響を受ける。 完全なシミュレーションにより, スピンスクイーズ生成がシステムパラメータにどのように依存するかを特徴付けるとともに, キャビティ充填のダイナミクスと徐々に混合して, メトロジー上の優位性が失われるまで, 悪いキャビティ状態から逸脱する。 最後に、このスピンスキーズプロトコルが最先端の光時計に与える影響について論じる。

We analyze the generation of spin-squeezed states by coupling three-level atoms to an optical cavity and continuously measuring the cavity transmission in order to monitor the evolution of the atomic ensemble. Using analytical treatment and microscopic simulations of the dynamics, we show that one can achieve significant spin squeezing even without the continuous feedback that is proposed in optimal approaches. In the adiabatic cavity removal approximation and large number of atoms $N$ limit, we find the scaling exponents $N^{-2/3}$ for spin squeezing and $N^{-1/3}$ for the corresponding protocol duration, which are crucially impacted by the collective Bloch sphere curvature. With full simulations, we characterize how spin-squeezing generation depends on the system parameters and departs from the bad cavity regime, by gradually mixing with cavity-filling dynamics until metrological advantage is lost. Finally, we discuss the relevance of this spin-squeezing protocol to state-of-the-art optical clocks.
翻訳日:2023-11-28 16:00:50 公開日:2023-11-27
# イタリア語クロスワード生成:対話型単語パズルによる教育の強化

Italian Crossword Generator: Enhancing Education through Interactive Word Puzzles ( http://arxiv.org/abs/2311.15723v1 )

ライセンス: Link先を確認
Kamyar Zeinalipour, Tommaso laquinta, Asya Zanollo, Giovanni Angelini, Leonardo Rigutini, Marco Maggini, Marco Gori(参考訳) 教育クロスワードは、エンゲージメントの向上、理解の改善、批判的思考、記憶保持など、学生に多くの恩恵をもたらす。 高品質な教育用クロスワードの作成は難しいが、近年の自然言語処理と機械学習の進歩により、言語モデルを使用して優れたワードプレイを生成することが可能になった。 GPT3-DaVinci、GPT3-Curie、GPT3-Babbage、GPT3-Ada、BERT-uncasedといった最先端言語モデルの活用により、クロスワードの手がかりの生成と検証のための包括的なシステムの開発が進められている。 ヒントと答えのペアの大規模なデータセットがコンパイルされ、教師付き方法でモデルを微調整し、与えられたキーワードからオリジナルで挑戦的な手がかりを生成する。 一方、与えられたテキストからクロスワード手がかりを生成するために、ゼロショット学習技術を用いて入力テキストからヒントを抽出し、パズルに多様性と創造性を付加した。 データを生成するために微調整されたモデルを採用し,人間の監督により手がかり抽出部品の受容性をラベル付けした。 品質を確保するため,ラベル付きデータセット上で既存の言語モデルを微調整した分類器を開発した。 逆に,ゼロショット学習を用いて,与えられたテキストから生成した手掛かりの品質を評価するために,ゼロショット学習手法を適用した。 評価の結果は非常に有望であり、学生が学習経験に参加し、報酬を与えるための、高水準の教育用クロスワードの作成におけるアプローチの有効性を示した。

Educational crosswords offer numerous benefits for students, including increased engagement, improved understanding, critical thinking, and memory retention. Creating high-quality educational crosswords can be challenging, but recent advances in natural language processing and machine learning have made it possible to use language models to generate nice wordplays. The exploitation of cutting-edge language models like GPT3-DaVinci, GPT3-Curie, GPT3-Babbage, GPT3-Ada, and BERT-uncased has led to the development of a comprehensive system for generating and verifying crossword clues. A large dataset of clue-answer pairs was compiled to fine-tune the models in a supervised manner to generate original and challenging clues from a given keyword. On the other hand, for generating crossword clues from a given text, Zero/Few-shot learning techniques were used to extract clues from the input text, adding variety and creativity to the puzzles. We employed the fine-tuned model to generate data and labeled the acceptability of clue-answer parts with human supervision. To ensure quality, we developed a classifier by fine-tuning existing language models on the labeled dataset. Conversely, to assess the quality of clues generated from the given text using zero/few-shot learning, we employed a zero-shot learning approach to check the quality of generated clues. The results of the evaluation have been very promising, demonstrating the effectiveness of the approach in creating high-standard educational crosswords that offer students engaging and rewarding learning experiences.
翻訳日:2023-11-28 16:00:27 公開日:2023-11-27
# GLIME: 一般,安定,ローカルなLIME説明

GLIME: General, Stable and Local LIME Explanation ( http://arxiv.org/abs/2311.15722v1 )

ライセンス: Link先を確認
Zeren Tan, Yang Tian, Jian Li(参考訳) ブラックボックス機械学習モデルは複雑さが増し、高リスクシナリオでアプリケーションを見つけるため、その予測を説明することが不可欠である。 局所解釈可能なモデル非依存説明法(LIME) [22] はモデル行動を理解するための広く提案された手法であるが, ランダムな種子 [35,24,3] に対して不安定であり, 局所的忠実度が低い(モデルの局所的挙動をどの程度よく近似するか) [21,16] である。 本研究は, この不安定性問題は小標本重みに起因することを示し, 正規化と緩やかな収束の優位に導く。 加えて、LIMEのサンプリング地区は非局所的であり、参照に偏りがあるため、局所的な忠実度が低く、参照選択に敏感である。 これらの課題に対処するために,LIMEを拡張する拡張フレームワークであるGLIMEを導入し,いくつかの先行メソッドを統合する。 GLIMEフレームワーク内ではLIMEの等価な定式化が導出され,より高速な収束と安定性の向上を実現している。 局所的および非バイアスなサンプリング分布を用いることで、GLIMEはLIMEと比較して局所的忠実度の高い説明を生成する。 GLIMEの説明は参照の選択とは無関係である。 さらに、GLIMEは、特定のシナリオに基づいてサンプリングディストリビューションを選択する柔軟性を提供する。

As black-box machine learning models grow in complexity and find applications in high-stakes scenarios, it is imperative to provide explanations for their predictions. Although Local Interpretable Model-agnostic Explanations (LIME) [22] is a widely adpoted method for understanding model behaviors, it is unstable with respect to random seeds [35,24,3] and exhibits low local fidelity (i.e., how well the explanation approximates the model's local behaviors) [21,16]. Our study shows that this instability problem stems from small sample weights, leading to the dominance of regularization and slow convergence. Additionally, LIME's sampling neighborhood is non-local and biased towards the reference, resulting in poor local fidelity and sensitivity to reference choice. To tackle these challenges, we introduce GLIME, an enhanced framework extending LIME and unifying several prior methods. Within the GLIME framework, we derive an equivalent formulation of LIME that achieves significantly faster convergence and improved stability. By employing a local and unbiased sampling distribution, GLIME generates explanations with higher local fidelity compared to LIME. GLIME explanations are independent of reference choice. Moreover, GLIME offers users the flexibility to choose a sampling distribution based on their specific scenarios.
翻訳日:2023-11-28 15:59:56 公開日:2023-11-27
# ESR-STM絶対磁力計によるスピン分極の探索

Probing spin fractionalization with ESR-STM absolute magnetometry ( http://arxiv.org/abs/2311.15720v1 )

ライセンス: Link先を確認
Y. del Castillo, J. Fern\'andez-Rossier(参考訳) 効率的な$S=1/2$スピンの出現は、分数化の最も単純な例の1つである。 この現象の間接的な証拠はあるが、個々のエッジスピンの磁気モーメントの直接測定はまだ行われていない。 本稿では, 走査型トンネル顕微鏡による電子スピン共鳴(ESR-STM)を用いて, 分数$S=1/2$エッジスピンで生成したひずみ場をマッピングし, エッジ磁化マップを用いてバイオレット・サーバルト方程式を反転させる効率的な方法を提案する。 これにより、分数次自由度の2つの顕著な創発的性質、すなわち、その分数的磁気モーメントとその局在長$\xi$を明らかに決定することができる。

The emergence of effective $S=1/2$ spins at the edges of $S=1$ Haldane spin chains is one of the simplest examples of fractionalization. Whereas there is indirect evidence of this phenomenon, direct measurement of the magnetic moment of an individual edge spin remains to be done. Here we show how scanning tunnel microscopy electron-spin resonance (ESR-STM) can be used to map the stray field created by the fractional $S=1/2$ edge spin and we propose efficient methods to invert the Biot-Savart equation, obtaining the edge magnetization map. This permits one to determine unambiguously the two outstanding emergent properties of fractional degrees of freedom, namely, their fractional magnetic moment and their localization length $\xi$.
翻訳日:2023-11-28 15:59:33 公開日:2023-11-27
# 肺病変の特徴探索と悪性度予測のための変分オートエンコーダ

Variational Autoencoders for Feature Exploration and Malignancy Prediction of Lung Lesions ( http://arxiv.org/abs/2311.15719v1 )

ライセンス: Link先を確認
Benjamin Keel, Aaron Quyn, David Jayne, Samuel D. Relton(参考訳) 肺がんは英国のがん死亡率の21%を占め、5年間の生存率は、がんが特定された段階で大きく影響を受けている。 最近の研究は、定期的なスキャンから肺がんの正確な早期診断のためのAI手法の能力を実証している。 しかし、この証拠は、解釈可能なモデルが欠如していることから、臨床実践に変換されていない。 本研究では, 変異型オートエンコーダ(VAE)の肺癌病変に対する応用について検討した。 LIDC-IDRI公開データセットの3次元CTスキャンから抽出した病変について,提案したモデルを用いた。 VAEによって生成された2Dスライスの潜在ベクトル表現はクラスタリングを通してその品質を正当化し、肺がん診断のためのMLP分類器モデルで使用し、最良のモデルはAUC 0.98と93.1%の精度で最先端の計測値を達成した。 クラスター分析により、VAE潜伏空間は腫瘍の大きさ、形状、患者および悪性度クラスを含む有意義な特徴成分に基づいて悪性病変と良性病変のデータセットを分離することが示された。 また、標準ガウス VAE (GVAE) とより最近のディリクレ VAE (DirVAE) の比較分析も含む。 最後に,臨床的に有意な特徴変化に対応する潜在空間トラバースの可能性を示す。

Lung cancer is responsible for 21% of cancer deaths in the UK and five-year survival rates are heavily influenced by the stage the cancer was identified at. Recent studies have demonstrated the capability of AI methods for accurate and early diagnosis of lung cancer from routine scans. However, this evidence has not translated into clinical practice with one barrier being a lack of interpretable models. This study investigates the application Variational Autoencoders (VAEs), a type of generative AI model, to lung cancer lesions. Proposed models were trained on lesions extracted from 3D CT scans in the LIDC-IDRI public dataset. Latent vector representations of 2D slices produced by the VAEs were explored through clustering to justify their quality and used in an MLP classifier model for lung cancer diagnosis, the best model achieved state-of-the-art metrics of AUC 0.98 and 93.1% accuracy. Cluster analysis shows the VAE latent space separates the dataset of malignant and benign lesions based on meaningful feature components including tumour size, shape, patient and malignancy class. We also include a comparative analysis of the standard Gaussian VAE (GVAE) and the more recent Dirichlet VAE (DirVAE), which replaces the prior with a Dirichlet distribution to encourage a more explainable latent space with disentangled feature representation. Finally, we demonstrate the potential for latent space traversals corresponding to clinically meaningful feature changes.
翻訳日:2023-11-28 15:59:18 公開日:2023-11-27
# 正当性のある人工知能: 法律応用のための大規模言語モデル

Justifiable Artificial Intelligence: Engineering Large Language Models for Legal Applications ( http://arxiv.org/abs/2311.15716v1 )

ライセンス: Link先を確認
Sabine Wehnert(参考訳) 本稿では,Large Language Modelsを法的領域に適用して,現在の欠点を回避する方法について論じる。 その大きな成功と受容にもかかわらず、その説明責任の欠如は、法的専門家が彼らのアウトプットを信頼することを妨げる。 しかし,本稿では,説明可能な人工知能に注目するのではなく,新たな視点として正当化可能な人工知能を提唱する。 この論文では、Large Language Modelのアウトプットに対する証拠の取得が、どのようにして生成されたテキストをより信頼できるものにするか、あるいは誤報の責任を負うかを論じます。

In this work, I discuss how Large Language Models can be applied in the legal domain, circumventing their current drawbacks. Despite their large success and acceptance, their lack of explainability hinders legal experts to trust in their output, and this happens rightfully so. However, in this paper, I argue in favor of a new view, Justifiable Artificial Intelligence, instead of focusing on Explainable Artificial Intelligence. I discuss in this paper how gaining evidence for and against a Large Language Model's output may make their generated texts more trustworthy - or hold them accountable for misinformation.
翻訳日:2023-11-28 15:58:52 公開日:2023-11-27
# リンドブラッドレート方程式を持つ量子ラチェット

Quantum ratchet with Lindblad rate equations ( http://arxiv.org/abs/2311.15713v1 )

ライセンス: Link先を確認
Luis Octavio Casta\~nos-Cervantes and Jes\'us Casado-Pascual(参考訳) 量子ランダムウォークモデルは、2つの可能な状態の間で変動する1次元周期格子上に成立する。 このモデルは2つの格子状態間の遷移率を組み込んだリンドブラッドレート方程式によって定義される。 系の対称性を利用して、状態空間が無限次元であるにもかかわらず、粒子速度は有限の方程式を用いて記述することができる。 これらの方程式は、方向運動の特性を分析するために用いられる長時間極限の速度の解析式を与える。 特に、速度は複数の反転を示し、指向運動を達成するためには格子状態間の非ゼロ遷移速度が必要である。

A quantum random walk model is established on a one-dimensional periodic lattice that fluctuates between two possible states. This model is defined by Lindblad rate equations that incorporate the transition rates between the two lattice states. Leveraging the system's symmetries, the particle velocity can be described using a finite set of equations, even though the state space is of infinite dimension. These equations yield an analytical expression for the velocity in the long-time limit, which is employed to analyze the characteristics of directed motion. Notably, the velocity can exhibit multiple inversions, and to achieve directed motion, distinct, nonzero transition rates between lattice states are required.
翻訳日:2023-11-28 15:58:41 公開日:2023-11-27
# 原子ドープ光子エンジン:放射圧による量子系からの機械的作業の抽出

An atom-doped photon engine: Extracting mechanical work from a quantum system via radiation pressure ( http://arxiv.org/abs/2311.15712v1 )

ライセンス: Link先を確認
\'Alvaro Tejero, Daniel Manzano, Pablo I. Hurtado(参考訳) マイクロスケールでの効率的な熱変換の可能性は、古典的な熱機関よりも量子的に優れているという期待から、量子熱エンジンを理解するための激しい研究のきっかけとなった。 本研究では,原子ドープ光量子空洞を用いたピストンを放射圧で推進するモデルを提案する。 このモデルは、量子電磁力学のjaynes-cummings hamiltonianに基づくもので、熱エネルギー注入による機械的作業の生成を示す。 本稿では, alicki の作業定義, 準静的変換解析, 有限時間プロトコルの数値計算を用いてピストン展開の等価性を確立する。 さらに,このモデルを用いて量子オットーとカルノーのエンジンを構築し,その性能を様々な条件下でのエネルギー,作業出力,効率,電力の面で比較した。 このモデルにより、オープン量子システムから有用な仕事を抽出し、ネットの動きを生成し、仕事と熱の量子概念に光を当てるプラットフォームを提供する。

The possibility of efficiently converting heat into work at the microscale has triggered an intense research effort to understand quantum heat engines, driven by the hope of quantum superiority over classical counterparts. In this work, we introduce a model featuring an atom-doped optical quantum cavity propelling a classical piston through radiation pressure. The model, based on the Jaynes-Cummings Hamiltonian of quantum electrodynamics, demonstrates the generation of mechanical work through thermal energy injection. We establish the equivalence of the piston expansion work with Alicki's work definition, analytically for quasistatic transformations and numerically for finite time protocols. We further employ the model to construct quantum Otto and Carnot engines, comparing their performance in terms of energetics, work output, efficiency, and power under various conditions. This model thus provides a platform to extract useful work from an open quantum system to generate net motion, and sheds light on the quantum concepts of work and heat.
翻訳日:2023-11-28 15:58:31 公開日:2023-11-27
# sam-6d: segment anythingモデルによるゼロショット6dオブジェクトポーズ推定

SAM-6D: Segment Anything Model Meets Zero-Shot 6D Object Pose Estimation ( http://arxiv.org/abs/2311.15707v1 )

ライセンス: Link先を確認
Jiehong Lin and Lihua Liu and Dekun Lu and Kui Jia(参考訳) ゼロショットの6dオブジェクトポーズ推定は、6dのポーズが散らばったシーンで新しいオブジェクトを検出することを伴う。 幸いなことに、Segment Anything Model (SAM) は驚くべきゼロショット転送性能を示しており、この課題に対処するための有望なソリューションを提供している。 そこで本研究では,インスタンス分割とポーズ推定を含む2つのステップでタスクを実現するための新しいフレームワークであるsam-6dを提案する。 SAM-6Dは、ターゲットオブジェクトが与えられた場合、インスタンスセグメンテーションモデル(ISM)とポス推定モデル(PEM)という2つの専用サブネットワークを使用し、RGB-D画像の断片化を行う。 ismはsamをあらゆる可能なオブジェクトプロポーザルを生成するための先進的な出発点とし、セマンティック、外観、幾何学の観点で細心の注意深いオブジェクトマッチングスコアによって有効なものを選択的に保存する。 ポーズ推定を部分対部分マッチング問題として扱うことにより、pemは、密接な3d-3d対応を構築するために背景トークンの新しい設計を特徴とする2段階のポイントマッチングプロセスを実行し、最終的にポーズ推定を生成する。 SAM-6Dは、ベルとホイッスルなしで、インスタンスセグメンテーションと新しいオブジェクトのポーズ推定の両方において、BOPベンチマークの7つのコアデータセット上の既存のメソッドよりも優れている。

Zero-shot 6D object pose estimation involves the detection of novel objects with their 6D poses in cluttered scenes, presenting significant challenges for model generalizability. Fortunately, the recent Segment Anything Model (SAM) has showcased remarkable zero-shot transfer performance, which provides a promising solution to tackle this task. Motivated by this, we introduce SAM-6D, a novel framework designed to realize the task through two steps, including instance segmentation and pose estimation. Given the target objects, SAM-6D employs two dedicated sub-networks, namely Instance Segmentation Model (ISM) and Pose Estimation Model (PEM), to perform these steps on cluttered RGB-D images. ISM takes SAM as an advanced starting point to generate all possible object proposals and selectively preserves valid ones through meticulously crafted object matching scores in terms of semantics, appearance and geometry. By treating pose estimation as a partial-to-partial point matching problem, PEM performs a two-stage point matching process featuring a novel design of background tokens to construct dense 3D-3D correspondence, ultimately yielding the pose estimates. Without bells and whistles, SAM-6D outperforms the existing methods on the seven core datasets of the BOP Benchmark for both instance segmentation and pose estimation of novel objects.
翻訳日:2023-11-28 15:58:14 公開日:2023-11-27
# 負条件エントロピーを破壊する量子チャネルについて

On quantum channels that destroy negative conditional entropy ( http://arxiv.org/abs/2311.15705v1 )

ライセンス: Link先を確認
PV Srinidhi, Indranil Chakrabarty, Samyadeb Bhattacharya, Nirman Ganguly(参考訳) 古典的概念に反する直観的な量子条件エントロピーは、情報処理タスクにおいて重要な役割を果たす。 この記事では、量子チャネルに深く入り込み、負条件エントロピー破断チャネル(nceb)を強調し、負条件エントロピー消滅チャネル(ncea)を導入する。 我々は,これらのチャネルを位相的および情報論的視点から特徴付け,連続的および並列的に組み合わせた場合の特性を調べる。 本研究は,NCEBに付随する補足チャネルにまで拡張し,情報学習チャネルの導入に繋がる。 標準偏極チャネルのパラメータを利用して、具体的な例とさらなる特徴付けを提供する。 本研究では,新たに導入したcoherent information breaking (cib) や mutual information breaking (mib) などのチャネルと nceb と ncea の関係を示す。 量子資源の保存は量子情報理論の不可欠な構成要素である。 これを認識し,条件エントロピーのネガティビティを損なうことのないチャネルの検出を処方し,この量子資源の保存を確保する。

Counter-intuitive to classical notions, quantum conditional entropy can be negative, playing a pivotal role in information-processing tasks. This article delves deeply into quantum channels, emphasizing negative conditional entropy breaking channels (NCEB) and introducing negative conditional entropy annihilating channels (NCEA). We characterize these channels from both topological and information-theoretic perspectives, examining their properties when combined serially and in parallel. Our exploration extends to complimentary channels associated with NCEB, leading to the introduction of information-leaking channels. Utilizing the parameters of the standard depolarizing channel, we provide tangible examples and further characterization. We demonstrate the relationship of NCEB and NCEA with newly introduced channels like coherent information breaking (CIB) and mutual information breaking (MIB), along with standard channels like zero capacity channels. Preservation of quantum resources is an integral constituent of quantum information theory. Recognizing this, we lay prescriptions to detect channels that do not break the negativity of conditional entropy, ensuring the conservation of this quantum resource.
翻訳日:2023-11-28 15:57:46 公開日:2023-11-27
# 多面キャラクタリゼーションデータの表2次元相関解析

Tabular Two-Dimensional Correlation Analysis for Multifaceted Characterization Data ( http://arxiv.org/abs/2311.15703v1 )

ライセンス: Link先を確認
Shun Muroga, Satoshi Yamazaki, Koji Michishio, Hideaki Nakajima, Takahiro Morimoto, Nagayasu Oshima, Kazufumi Kobashi, Toshiya Okazaki(参考訳) 材料特性の理解に不可欠な多面的特徴データから特徴を抽出するための表2次元相関解析を提案する。 本手法は,階層クラスタリングと非同期相関を組み合わせた熱マップによる構造パラメータ変化の類似性と位相ラグを可視化する。 本研究では,様々な温度でアニールしたカーボンナノチューブ(cnts)フィルムのデータセットに適用し,空洞,バンドル,アモルファス炭素などを含む階層構造の複雑さを明らかにした。 解析では,8つのキャラクタリゼーション法から導出した11個の構造パラメータが複雑な挙動と相互作用する多面的キャラクタリゼーションデータにおいて,構造変化のシーケンスを理解することの課題に対処した。 その結果, アモルファス炭素の除去や熱処理によるCNTの黒鉛化などの現象を解明するために, 位相ラグ(刺激からの非同期変化)とパラメータ類似性が材料の構造変化のシーケンスを照らし出すことができた。 このアプローチは限られたデータであっても有益であり、複雑な物質の挙動や性質を解明する可能性を示す幅広い材料分析の可能性を秘めている。

We propose tabular two-dimensional correlation analysis for extracting features from multifaceted characterization data, essential for understanding material properties. This method visualizes similarities and phase lags in structural parameter changes through heatmaps, combining hierarchical clustering and asynchronous correlations. We applied the proposed method to datasets of carbon nanotube (CNTs) films annealed at various temperatures and revealed the complexity of their hierarchical structures, which include elements like voids, bundles, and amorphous carbon. Our analysis addresses the challenge of attempting to understand the sequence of structural changes, especially in multifaceted characterization data where 11 structural parameters derived from 8 characterization methods interact with complex behavior. The results show how phase lags (asynchronous changes from stimuli) and parameter similarities can illuminate the sequence of structural changes in materials, providing insights into phenomena like the removal of amorphous carbon and graphitization in annealed CNTs. This approach is beneficial even with limited data and holds promise for a wide range of material analyses, demonstrating its potential in elucidating complex material behaviors and properties.
翻訳日:2023-11-28 15:57:12 公開日:2023-11-27
# 音声匿名化 -音声プライバシーチャレンジベースラインシステムのバイアス評価-

Voice Anonymization for All -- Bias Evaluation of the Voice Privacy Challenge Baseline System ( http://arxiv.org/abs/2311.15804v1 )

ライセンス: Link先を確認
Anna Leschanowsky, \"Unal Ege Gaznepoglu, Nils Peters(参考訳) 音声対応技術の時代において、音声匿名化は人々のプライバシーを保護するためのソリューションを提供する。 本研究では,ボイスプライバシチャレンジの文脈における音声匿名化システムのバイアスについて検討する。 性別と方言に基づく話者サブグループ間のパフォーマンス格差を評価するために,新しいベンチマークデータセットを収集した。 3つの匿名化システムと攻撃モデルが話者群バイアスに与える影響を分析し,有意な性能変動を明らかにした。 特に、サブグループバイアスは高度な攻撃能力によって強化され、すべてのサブグループで同等のパフォーマンスを達成するという課題を強調している。 本研究は,音声匿名化におけるサブグループバイアスに対処する包括的ベンチマークデータセットと包括的評価戦略の必要性を強調する。

In an age of voice-enabled technology, voice anonymization offers a solution to protect people's privacy, provided these systems work equally well across subgroups. This study investigates bias in voice anonymization systems within the context of the Voice Privacy Challenge. We curate a novel benchmark dataset to assess performance disparities among speaker subgroups based on sex and dialect. We analyze the impact of three anonymization systems and attack models on speaker subgroup bias and reveal significant performance variations. Notably, subgroup bias intensifies with advanced attacker capabilities, emphasizing the challenge of achieving equal performance across all subgroups. Our study highlights the need for inclusive benchmark datasets and comprehensive evaluation strategies that address subgroup bias in voice anonymization.
翻訳日:2023-11-28 15:35:34 公開日:2023-11-27
# 社会ロボットの迅速な開発のためのモジュールカスタマイズ可能なROSベースのフレームワーク

Modular Customizable ROS-Based Framework for Rapid Development of Social Robots ( http://arxiv.org/abs/2311.15780v1 )

ライセンス: Link先を確認
Mahta Akhyani, Hadi Moradi(参考訳) 社会的に有能なロボットを開発するには、ロボット工学、コンピュータビジョン、音声処理、ウェブ技術の緊密な統合が必要である。 我々は,このニーズに対応するオープンソースフレームワークであるsros(socially-interactive robot software platform)を提案する。 SROSは、標準メッセージングとAPIを使用して、WebおよびAndroidインターフェースレイヤと移動するためのRobot Operating System(ROS)レイヤをブリッジする。 特別な知覚的およびインタラクティブなスキルは、あらゆるロボットに再利用可能な展開のためのrosサービスとして実装されます。 これにより、知覚と物理的動作を同期させる協調行動の迅速なプロトタイピングが促進される。 コンピュータビジョン, 音声処理, GPT2 自動補完音声をプラグアンドプレイ ROS サービスとして実装し, SROS のコア技術の有効性を実験的に検証した。 モジュール性は、ハードウェアやソフトウェアプラットフォームを変更することなく、追加のROSパッケージをうまく統合することで実証される。 この能力によってSROSは、同期されたドメイン間相互作用を通じて、社会的に対話的なロボットを開発することができる。 実例プラットフォーム上での同期マルチモーダル動作を示すデモンストレーションを通じて、SROSアーキテクチャアプローチは、知覚能力と社会的能力を統合する新しいアプリケーションを通じて、適応的で協調的なカスタマイズ可能な人間ロボットシステムにおいて、研究者が最先端の最先端を前進させる障壁を低くすることで、従来の作業の欠点にどのように対処するかを説明する。

Developing socially competent robots requires tight integration of robotics, computer vision, speech processing, and web technologies. We present the Socially-interactive Robot Software platform (SROS), an open-source framework addressing this need through a modular layered architecture. SROS bridges the Robot Operating System (ROS) layer for mobility with web and Android interface layers using standard messaging and APIs. Specialized perceptual and interactive skills are implemented as ROS services for reusable deployment on any robot. This facilitates rapid prototyping of collaborative behaviors that synchronize perception with physical actuation. We experimentally validated core SROS technologies including computer vision, speech processing, and GPT2 autocomplete speech implemented as plug-and-play ROS services. Modularity is demonstrated through the successful integration of an additional ROS package, without changes to hardware or software platforms. The capabilities enabled confirm SROS's effectiveness in developing socially interactive robots through synchronized cross-domain interaction. Through demonstrations showing synchronized multimodal behaviors on an example platform, we illustrate how the SROS architectural approach addresses shortcomings of previous work by lowering barriers for researchers to advance the state-of-the-art in adaptive, collaborative customizable human-robot systems through novel applications integrating perceptual and social abilities.
翻訳日:2023-11-28 15:35:22 公開日:2023-11-27
# 安定セグメントオールモデル

Stable Segment Anything Model ( http://arxiv.org/abs/2311.15776v1 )

ライセンス: Link先を確認
Qi Fan, Xin Tao, Lei Ke, Mingqiao Ye, Yuan Zhang, Pengfei Wan, Zhongyuan Wang, Yu-Wing Tai, Chi-Keung Tang(参考訳) SAM(Segment Anything Model)は、高品質なプロンプトが与えられた場合、顕著に迅速なセグメンテーションを実現する。 SAMをカジュアルなプロンプトに頑健にするために,本論文はSAMのセグメンテーション安定性について,特に不正確なバウンディングボックスと不足点の多種多様な特性のスペクトルにわたって包括的解析を行った。 我々の重要な発見は、このような低品質のプロンプトが与えられた場合、SAMのマスクデコーダは背景に偏ったり、特定のオブジェクトに制限された画像特徴を活性化する傾向があることを示している。 この問題を緩和するために、我々は学習可能な変形可能なオフセットを用いて画像特徴のサンプリング位置を調整し、オリジナルのSAMモデルアーキテクチャと重みは変化しない。 その結果,DSP (Deformable sample plugin) により, SAM はデータ駆動方式で誘導対象領域に適応的に注意を移すことが可能となり, 効率的なロバストトレーニング戦略 (RTS) によって促進される。 推論中、動的ルーティングプラグイン(DRP)が提案され、インプットプロンプトの品質を条件に、変形可能なグリッドサンプリングモードと正規のグリッドサンプリングモードの間でSAMを切り替える。 したがって、私たちのソリューションであるStable-SAMは、機能サンプリングロケーションの調整のみに重点を置いており、いくつかの利点があります。 1)SAMのセグメンテーション安定性は、幅広い即興品質で改善されている。 2)SAMの強力なセグメンテーション効率と一般性を維持すること 3) 学習可能な最小パラメータ(0.08M)と高速適応(1トレーニングエポック)。 複数のデータセットにわたる大規模な実験により、アプローチの有効性とメリットが検証され、Stable-SAMはより堅牢なセグメンテーションソリューションとして評価される。 コードは受理後に公開される。

The Segment Anything Model (SAM) achieves remarkable promptable segmentation given high-quality prompts which, however, often require good skills to specify. To make SAM robust to casual prompts, this paper presents the first comprehensive analysis on SAM's segmentation stability across a diverse spectrum of prompt qualities, notably imprecise bounding boxes and insufficient points. Our key finding reveals that given such low-quality prompts, SAM's mask decoder tends to activate image features that are biased towards the background or confined to specific object parts. To mitigate this issue, our key idea consists of adjusting the sampling locations of image feature using learnable deformable offsets, while the original SAM model architecture and weights remain unchanged. Consequently, our deformable sampling plugin (DSP) enables SAM to adaptively shift attention to the prompted target regions in a data-driven manner, facilitated by our effective robust training strategy (RTS). During inference, dynamic routing plugin (DRP) is proposed that toggles SAM between the deformable and regular grid sampling modes, conditioned on the input prompt quality. Thus, our solution, termed Stable-SAM, is one of its kind focusing on solely adjusting feature sampling locations, which offers several advantages: 1) improved SAM's segmentation stability across a wide range of prompt qualities, while 2) retaining SAM's powerful promptable segmentation efficiency and generality, with 3) minimal learnable parameters (0.08 M) and fast adaptation (by 1 training epoch). Extensive experiments across multiple datasets validate the effectiveness and advantages of our approach, underscoring Stable-SAM as a more robust solution for segmenting anything. Codes will be released upon acceptance.
翻訳日:2023-11-28 15:34:59 公開日:2023-11-27
# check, location, rectify:テキスト対画像生成のためのトレーニングフリーレイアウトキャリブレーションシステム

Check, Locate, Rectify: A Training-Free Layout Calibration System for Text-to-Image Generation ( http://arxiv.org/abs/2311.15773v1 )

ライセンス: Link先を確認
Biao Gong, Siteng Huang, Yutong Feng, Shiwei Zhang, Yuyuan Li, Yu Liu(参考訳) 拡散モデルは最近、現実的な画像の生成において顕著な進歩を遂げた。 しかし、テキストプロンプトのレイアウト要求を正確に理解し、合成することは依然として課題である。 生成した画像をレイアウト指示と整合させるため,推定時間中に生成過程に介入するトレーニング不要なレイアウトキャリブレーションシステムSimMを提案する。 具体的には、"チェック位置修正"パイプラインに従って、システムはまずターゲットレイアウトを生成するプロンプトを分析し、中間出力と比較してエラーを自動的に検出する。 そして、配置されたアクティベーションを移動させ、マップ内およびマップ間調整を行うことで、整流処理を無視できる計算オーバーヘッドで行うことができる。 レイアウト要求の範囲でSimMを評価するため,既存のデータセットの空間関係の欠如を補うベンチマークSimMBenchを提案する。 また, 定量的および定性的な結果から, レイアウトの不整合の校正におけるSimMの有効性が示された。

Diffusion models have recently achieved remarkable progress in generating realistic images. However, challenges remain in accurately understanding and synthesizing the layout requirements in the textual prompts. To align the generated image with layout instructions, we present a training-free layout calibration system SimM that intervenes in the generative process on the fly during inference time. Specifically, following a "check-locate-rectify" pipeline, the system first analyses the prompt to generate the target layout and compares it with the intermediate outputs to automatically detect errors. Then, by moving the located activations and making intra- and inter-map adjustments, the rectification process can be performed with negligible computational overhead. To evaluate SimM over a range of layout requirements, we present a benchmark SimMBench that compensates for the lack of superlative spatial relations in existing datasets. And both quantitative and qualitative results demonstrate the effectiveness of the proposed SimM in calibrating the layout inconsistencies.
翻訳日:2023-11-28 15:34:27 公開日:2023-11-27
# 弱者:クロス・フリーの対人訓練によるグラフ凝縮の促進

Attend Who is Weak: Enhancing Graph Condensation via Cross-Free Adversarial Training ( http://arxiv.org/abs/2311.15772v1 )

ライセンス: Link先を確認
Xinglin Li, Kun Wang, Hanhui Deng, Yuxuan Liang, Di Wu(参考訳) 本稿では,大規模で複雑なグラフを簡潔な合成表現に圧縮し,構造と特徴の最も本質的かつ判別的な情報を保存することによる, \textit{graph condensation}問題の研究を行う。 我々は, 対向訓練法の変化に対して, 元のグラフのロバスト性と安定性を高める衝撃吸収器(摂動の一種)の概念を半々的に提案する。 具体的には,合成・単純化グラフ上で訓練された事前選択されたグラフニューラルネットワーク(gnns)と,間隔の間隔が一定である元のトレーニンググラフとの勾配を強制的に一致させる。 (II) 衝撃吸収器は、各更新合成グラフポイントに先立って勾配攻撃として機能し、合成データセットと元のグラフとの距離を最大化し、表現不足または不十分な部分の摂動を選択的に行う。 我々は、上記の2つのプロセス(I,II)を、元のデータセットとの相関を損なうことなく、高度に非形式的なコンテキストを維持するために繰り返し繰り返す。 さらに重要なことに, 衝撃吸収剤と合成グラフは, 後方過程を自由訓練方法で並列に共有する。 元々の敵の訓練と比べて、ほとんど追加の時間的オーバーヘッドは発生しない。 例えば、cora、citeseer、ogbn-arxivでは、sataモデルと比較して1.13%から5.5%近く改善できます。 さらに、我々のアルゴリズムはFlicker, Citeseer, Ogbn-Arxivに対して、わずか0.2%から2.2%の時間オーバーヘッドを追加する。 一般的な敵意訓練と比較して,我々のアプローチは時間効率を約4倍向上させる。

In this paper, we study the \textit{graph condensation} problem by compressing the large, complex graph into a concise, synthetic representation that preserves the most essential and discriminative information of structure and features. We seminally propose the concept of Shock Absorber (a type of perturbation) that enhances the robustness and stability of the original graphs against changes in an adversarial training fashion. Concretely, (I) we forcibly match the gradients between pre-selected graph neural networks (GNNs) trained on a synthetic, simplified graph and the original training graph at regularly spaced intervals. (II) Before each update synthetic graph point, a Shock Absorber serves as a gradient attacker to maximize the distance between the synthetic dataset and the original graph by selectively perturbing the parts that are underrepresented or insufficiently informative. We iteratively repeat the above two processes (I and II) in an adversarial training fashion to maintain the highly-informative context without losing correlation with the original dataset. More importantly, our shock absorber and the synthesized graph parallelly share the backward process in a free training manner. Compared to the original adversarial training, it introduces almost no additional time overhead. We validate our framework across 8 datasets (3 graph and 5 node classification datasets) and achieve prominent results: for example, on Cora, Citeseer and Ogbn-Arxiv, we can gain nearly 1.13% to 5.03% improvements compare with SOTA models. Moreover, our algorithm adds only about 0.2% to 2.2% additional time overhead over Flicker, Citeseer and Ogbn-Arxiv. Compared to the general adversarial training, our approach improves time efficiency by nearly 4-fold.
翻訳日:2023-11-28 15:34:10 公開日:2023-11-27
# Side4Video: メモリ効率の良い画像-映像間伝達学習のための空間時間側ネットワーク

Side4Video: Spatial-Temporal Side Network for Memory-Efficient Image-to-Video Transfer Learning ( http://arxiv.org/abs/2311.15769v1 )

ライセンス: Link先を確認
Huanjin Yao, Wenhao Wu, Zhiheng Li(参考訳) 大きな事前訓練されたビジョンモデルは、コンピュータビジョンで素晴らしい成功を収めます。 しかし、下流のタスク、特にビデオ理解において、完全に微調整された大規模モデルは、計算量的に高価である。 最近の研究は、効率的な画像からビデオへの転送学習に焦点をあてている。 それでも、既存の効率的な微調整手法は、トレーニングメモリの使用率や、より大きなモデルをビデオ領域に転送する探索に注意を払わなかった。 本稿では,Side4Videoという,メモリ効率の良い大画面画像モデルのための空間時間側ネットワークを提案する。 具体的には、凍結視覚モデルに付随する軽量な空間時間側ネットワークを導入し、重度事前学習モデルによるバックプロパゲーションを回避し、原画像モデルから多層空間特徴を利用する。 メモリ効率の高いアーキテクチャにより,従来のアダプタ方式に比べて75%のメモリ使用量を削減できる。 このようにして、ビデオ理解タスクに巨大なViT-E(4.4B)を転送することができる。 特に,Something V1&V2 (67.3%, 74.6%), Kinetics-400 (88.6%), MSR-VTT (52.3%), MSVD (56.1%), VATEX (68.8%) では,非モーダルタスクとクロスモーダルタスク(アクション認識とテキストビデオ検索)の様々なビデオデータセットにおいて顕著なパフォーマンスを実現している。 コードはhttps://github.com/hjyao00/side4videoでリリースします。

Large pre-trained vision models achieve impressive success in computer vision. However, fully fine-tuning large models for downstream tasks, particularly in video understanding, can be prohibitively computationally expensive. Recent studies turn their focus towards efficient image-to-video transfer learning. Nevertheless, existing efficient fine-tuning methods lack attention to training memory usage and exploration of transferring a larger model to the video domain. In this paper, we present a novel Spatial-Temporal Side Network for memory-efficient fine-tuning large image models to video understanding, named Side4Video. Specifically, we introduce a lightweight spatial-temporal side network attached to the frozen vision model, which avoids the backpropagation through the heavy pre-trained model and utilizes multi-level spatial features from the original image model. Extremely memory-efficient architecture enables our method to reduce 75% memory usage than previous adapter-based methods. In this way, we can transfer a huge ViT-E (4.4B) for video understanding tasks which is 14x larger than ViT-L (304M). Our approach achieves remarkable performance on various video datasets across unimodal and cross-modal tasks (i.e., action recognition and text-video retrieval), especially in Something-Something V1&V2 (67.3% & 74.6%), Kinetics-400 (88.6%), MSR-VTT (52.3%), MSVD (56.1%) and VATEX (68.8%). We release our code at https://github.com/HJYao00/Side4Video.
翻訳日:2023-11-28 15:33:40 公開日:2023-11-27
# LLMの知識学習:課題,方法,課題

Knowledge Unlearning for LLMs: Tasks, Methods, and Challenges ( http://arxiv.org/abs/2311.15766v1 )

ライセンス: Link先を確認
Nianwen Si, Hao Zhang, Heyu Chang, Wenlin Zhang, Dan Qu, Weiqiang Zhang(参考訳) 近年,大規模言語モデル (LLM) が自然言語処理の新しい研究パラダイムを刺激している。 知識に基づく質問応答と推論の優れた能力にもかかわらず、欠陥や有害な知識を保持する能力は悪意のあるアプリケーションにリスクをもたらす。 この問題を緩和し、これらのモデルを純粋なアシスタントに変換するという課題は、その適用性に不可欠である。 残念ながら、望ましくない知識を取り除くために繰り返しLLMを訓練することは、その膨大なパラメータのために現実的ではない。 ナレッジ・アンラーニングは、機械学習の類似研究から派生したもので、この懸念に対処するための有望な道を示し、特にLLMの文脈において有利である。 モデル内の無関係な知識に影響を与えることなく、有害な知識を効率的に除去することができる。 この目的のために,LLM時代における知識未学習の調査を行った。 まず,知識未学習問題を正式に定義し,関連する作業と区別する。 次に,既存の知識アンラーニング手法をパラメータ最適化,パラメータマージ,インコンテキスト学習という3つのクラスに分類し,これらの学習手法の詳細を紹介する。 さらに,既存手法を用いた評価データセットを提示し,現在進行中の課題と今後の方向性を示すことで,最終的にこの調査を結論づける。

In recent years, large language models (LLMs) have spurred a new research paradigm in natural language processing. Despite their excellent capability in knowledge-based question answering and reasoning, their potential to retain faulty or even harmful knowledge poses risks of malicious application. The challenge of mitigating this issue and transforming these models into purer assistants is crucial for their widespread applicability. Unfortunately, Retraining LLMs repeatedly to eliminate undesirable knowledge is impractical due to their immense parameters. Knowledge unlearning, derived from analogous studies on machine unlearning, presents a promising avenue to address this concern and is notably advantageous in the context of LLMs. It allows for the removal of harmful knowledge in an efficient manner, without affecting unrelated knowledge in the model. To this end, we provide a survey of knowledge unlearning in the era of LLMs. Firstly, we formally define the knowledge unlearning problem and distinguish it from related works. Subsequently, we categorize existing knowledge unlearning methods into three classes: those based on parameter optimization, parameter merging, and in-context learning, and introduce details of these unlearning methods. We further present evaluation datasets used in existing methods, and finally conclude this survey by presenting the ongoing challenges and future directions.
翻訳日:2023-11-28 15:33:08 公開日:2023-11-27
# 量子ゲートにおける普遍忠実度-散逸関係

Universal fidelity-dissipation relations in quantum gates ( http://arxiv.org/abs/2311.15762v1 )

ライセンス: Link先を確認
Tan Van Vu and Tomotaka Kuwahara and Keiji Saito(参考訳) 正確な量子コンピューティングは、量子ゲートの精度に依存する。 しかし、実際の量子ゲートは一般的に散逸環境の影響を受け、その忠実度は著しく低下する。 本稿では,汎用量子ゲートの平均忠実度と計算過程中に発生する散逸の関係を明らかにする。 量子ゲートがマルコフ環境に従属するシナリオを考えると、任意の操作時間に普遍的に保持される忠実解離関係を厳格に導出する。 興味深いことに、量子ゲートが熱緩和を受けると、その結果は、散逸構造に関する詳細な知識を必要とせず、実験的に測定可能な忠実度を通じて散逸を推定するための貴重なツールとして用いられる。 任意の環境の場合、平均忠実度とエネルギー散逸のトレードオフ関係を明らかにすることにより、これらの量は同時に大きくなることができないことを示す。 熱力学と量子コンピューティングの深い関係に光を当てて,熱力学によって課される計算量制限を明らかにした。

Accurate quantum computing relies on the precision of quantum gates. However, quantum gates in practice are generally affected by dissipative environments, which can significantly reduce their fidelity. In this Letter, we elucidate universal relations between the average fidelity of generic quantum gates and the dissipation that occurs during the computing processes. Considering scenarios in which a quantum gate is subject to Markovian environments, we rigorously derive fidelity-dissipation relations that universally hold for arbitrary operational times. Intriguingly, when the quantum gate undergoes thermal relaxation, the result can be used as a valuable tool for estimating dissipation through experimentally measurable fidelity, without requiring detailed knowledge of the dissipative structure. For the case of arbitrary environments, we uncover a tradeoff relation between the average fidelity and energy dissipation, implying that these quantities cannot be large simultaneously. Our results unveil the computational limitations imposed by thermodynamics, shedding light on the profound connection between thermodynamics and quantum computing.
翻訳日:2023-11-28 15:32:47 公開日:2023-11-27
# LLMのビジョン化に向けて - LLMにおけるマルチモーダル知識ストレージと共有の活用-

Towards Vision Enhancing LLMs: Empowering Multimodal Knowledge Storage and Sharing in LLMs ( http://arxiv.org/abs/2311.15759v1 )

ライセンス: Link先を確認
Yunxin Li, Baotian Hu, Wei Wang, Xiaochun Cao, Min Zhang(参考訳) マルチモーダル大言語モデル(mllm)の最近の進歩は、gpt-4のような重要なマルチモーダル生成能力を達成している。 これらのモデルは主に視覚情報を言語表現空間にマッピングし、LLMの膨大な知識と強力なテキスト生成能力を利用してマルチモーダルな命令追従応答を生成する。 視覚言語理解にLLMを用いるため、この手法を視覚用LLMと呼ぶことができるが、これらのMLLMは視覚知識を活用してLLMの全体的な能力を高める可能性を無視している。 本稿では,LLMにおけるマルチモーダル知識ストレージと共有の強化によるLLMの強化を目的としたMKS2という手法を提案する。 具体的には,オープンワールドの視覚情報を効率的に格納するように設計された,llmの内部ブロックに統合されたコンポーネントであるモジュラービジュアルメモリを紹介する。 さらに,LLMにソフトなMultimodal Expertsアーキテクチャを導入し,世代間マルチモーダルな知識コラボレーションを実現する。 我々の総合的な実験により、MKS2は物理的または常識的な知識を必要とする文脈においてLLMの推論能力を大幅に増強することを示した。 マルチモーダルベンチマークで競合する結果も提供する。

Recent advancements in multimodal large language models (MLLMs) have achieved significant multimodal generation capabilities, akin to GPT-4. These models predominantly map visual information into language representation space, leveraging the vast knowledge and powerful text generation abilities of LLMs to produce multimodal instruction-following responses. We could term this method as LLMs for Vision because of its employing LLMs for visual-language understanding, yet observe that these MLLMs neglect the potential of harnessing visual knowledge to enhance overall capabilities of LLMs, which could be regraded as Vision Enhancing LLMs. In this paper, we propose an approach called MKS2, aimed at enhancing LLMs through empowering Multimodal Knowledge Storage and Sharing in LLMs. Specifically, we introduce the Modular Visual Memory, a component integrated into the internal blocks of LLMs, designed to store open-world visual information efficiently. Additionally, we present a soft Mixtures-of-Multimodal Experts architecture in LLMs to invoke multimodal knowledge collaboration during generation. Our comprehensive experiments demonstrate that MKS2 substantially augments the reasoning capabilities of LLMs in contexts necessitating physical or commonsense knowledge. It also delivers competitive results on multimodal benchmarks.
翻訳日:2023-11-28 15:32:30 公開日:2023-11-27
# PyNanospacing: 歪み解析と可視化のためのTEM画像処理ツール

PyNanospacing: TEM image processing tool for strain analysis and visualization ( http://arxiv.org/abs/2311.15751v1 )

ライセンス: Link先を確認
Mehmet Ali Sarsil, Mubashir Mansoor, Mert Saracoglu, Servet Timur, Mustafa Urgen, Onur Ergen(参考訳) バンドギャップ, メカニカルモジュラー, 色, フォノンおよび状態の電子密度を含む材料特性の多彩なスペクトルと触媒および表面特性は、原子構造と対応する原子間結合長と複雑に相互作用する。 この相互接続は結晶格子内の平面間間隔の出現にまで拡張される。 これらの平面間間隔の解析と、格子圧縮やひずみと呼ばれる膨張などの偏差の理解は、フィールド内の様々な未知を解き放つ上で最重要となる。 透過電子顕微鏡(TEM)は原子スケールの秩序を捉えるために広く使われており、平面間間隔の直接調査を容易にする。 しかしながら、tem画像における格子応力を可視化し解釈するための重要な輪郭マップの作成は、依然として困難な課題である。 ここでは, ナノ粒子, 2次元材料, 純結晶, 固溶体など幅広い材料を処理可能なtem画像処理のためのpythonコードを開発した。 このアルゴリズムは、平面間隔の局所的な差異を輪郭写像に変換し、格子展開と圧縮の視覚的表現を可能にする。 このツールは極めて汎用的で、tem画像を用いた材料特性の分析に大いに役立ち、原子レベルで歪輪郭マップを介してひずみ工学の背後にある基礎となる科学をより深く探究することができる。

The diverse spectrum of material characteristics including band gap, mechanical moduli, color, phonon and electronic density of states, along with catalytic and surface properties are intricately intertwined with the atomic structure and the corresponding interatomic bond-lengths. This interconnection extends to the manifestation of interplanar spacings within a crystalline lattice. Analysis of these interplanar spacings and the comprehension of any deviations, whether it be lattice compression or expansion, commonly referred to as strain, hold paramount significance in unraveling various unknowns within the field. Transmission Electron Microscopy (TEM) is widely used to capture atomic-scale ordering, facilitating direct investigation of interplanar spacings. However, creating critical contour maps for visualizing and interpreting lattice stresses in TEM images remains a challenging task. Here we developed a Python code for TEM image processing that can handle a wide range of materials including nanoparticles, 2D materials, pure crystals and solid solutions. This algorithm converts local differences in interplanar spacings into contour maps allowing for a visual representation of lattice expansion and compression. The tool is very generic and can significantly aid in analyzing material properties using TEM images, allowing for a more in-depth exploration of the underlying science behind strain engineering via strain contour maps at the atomic level.
翻訳日:2023-11-28 15:32:08 公開日:2023-11-27
# 1つのステップ:拡散スケジュール欠陥の緩和と低周波制御の強化のためのVersatile Plug-and-Playモジュール

One More Step: A Versatile Plug-and-Play Module for Rectifying Diffusion Schedule Flaws and Enhancing Low-Frequency Controls ( http://arxiv.org/abs/2311.15744v1 )

ライセンス: Link先を確認
Minghui Hu, Jianbin Zheng, Chuanxia Zheng, Chaoyue Wang, Dacheng Tao, Tat-Jen Cham(参考訳) 多くの公開基礎拡散モデルでは、トレーニングデータにそのような画像が存在するにもかかわらず、平均輝度から実質的に離れた画像を生成するのが難しいことが知られている。 これは、推論中の純粋なガウス雑音から起立するが、トレーニングノイズスケジュールは、メインストリームの定式化における数値条件付けの困難のため、最終時間ステップ分布においても残余データを保持し、推論中に意図しないバイアスを生じさせる。 この問題を緩和するために、ある$\epsilon$-predictionモデルとアドホックオフセットノイズ手法を組み合わせる。 並行して、いくつかの現代モデルは、事前訓練されたモデルへの大きな変更を必要とする$\mathbf{v}$-predictionとともに、ゼロ終端SNRノイズスケジュールを採用した。 しかし、こうした変更は、これらの事前訓練されたモデルに固定された多数のコミュニティ主導のアプリケーションを不安定にするリスクがある。 これを踏まえて,我々の研究は根本的な原因を再検討し,革新的かつ原理的な治療法であるone more step (oms) の提案を導いた。 推論中にコンパクトネットワークを統合することで、OMSは画像の忠実度を高め、トレーニングと推論の二分法を調和させ、元のモデルパラメータを保存する。 トレーニングが完了すると、同じ潜在ドメインを持つ様々な事前訓練された拡散モデルが同じOMSモジュールを共有することができる。

It is well known that many open-released foundational diffusion models have difficulty in generating images that substantially depart from average brightness, despite such images being present in the training data. This is due to an inconsistency: while denoising starts from pure Gaussian noise during inference, the training noise schedule retains residual data even in the final timestep distribution, due to difficulties in numerical conditioning in mainstream formulation, leading to unintended bias during inference. To mitigate this issue, certain $\epsilon$-prediction models are combined with an ad-hoc offset-noise methodology. In parallel, some contemporary models have adopted zero-terminal SNR noise schedules together with $\mathbf{v}$-prediction, which necessitate major alterations to pre-trained models. However, such changes risk destabilizing a large multitude of community-driven applications anchored on these pre-trained models. In light of this, our investigation revisits the fundamental causes, leading to our proposal of an innovative and principled remedy, called One More Step (OMS). By integrating a compact network and incorporating an additional simple yet effective step during inference, OMS elevates image fidelity and harmonizes the dichotomy between training and inference, while preserving original model parameters. Once trained, various pre-trained diffusion models with the same latent domain can share the same OMS module.
翻訳日:2023-11-28 15:31:43 公開日:2023-11-27
# 機械学習によるJamun Leaf病検出 : 総合的レビュー

Machine Learning-Based Jamun Leaf Disease Detection: A Comprehensive Review ( http://arxiv.org/abs/2311.15741v1 )

ライセンス: Link先を確認
Auvick Chandra Bhowmik, Dr. Md. Taimur Ahad, Yousuf Rayhan Emon(参考訳) ジャムン葉病は農業生産に重大な脅威をもたらし、ジャムン産業の収量と品質に悪影響を及ぼす。 機械学習の出現は、これらの病気に効果的に取り組むための新しい道を開いた。 早期発見と診断は作物管理の成功に不可欠である。 ジャム葉病検出のための自動システムはまだ開発されていないが、画像処理技術を用いた類似の疾患検出のために様々な自動システムが実装されている。 本稿では,植物葉病の診断に用いられている機械学習手法を,画像分類によって総合的に検討し,ジャム葉病の検出に応用する。 トランスファーラーニングモデルとビジョントランスフォーマー(TLMViT)、SLViT、SE-ViT、IterationViT、Tiny-LeViT、IMM-ViT、GreenViT、PMViTなど、様々なビジョントランスフォーマーモデルの強度と限界を慎重に評価する。 さらに,高密度畳み込みニューラルネットワーク(densenet),残留ニューラルネットワーク(resnet)-50v2,効率ネット,アンサンブルモデル,畳み込みニューラルネットワーク(cnn),局所可逆トランスなどのモデルについて検討した。 これらの機械学習モデルはさまざまなデータセットで評価され、実際の適用性を示している。 このレビューは、この分野の現在の進歩に光を当てるだけでなく、機械学習ベースのjamun leaf diseaseの検出と分類における今後の研究方向性に関する貴重な洞察を提供する。

Jamun leaf diseases pose a significant threat to agricultural productivity, negatively impacting both yield and quality in the jamun industry. The advent of machine learning has opened up new avenues for tackling these diseases effectively. Early detection and diagnosis are essential for successful crop management. While no automated systems have yet been developed specifically for jamun leaf disease detection, various automated systems have been implemented for similar types of disease detection using image processing techniques. This paper presents a comprehensive review of machine learning methodologies employed for diagnosing plant leaf diseases through image classification, which can be adapted for jamun leaf disease detection. It meticulously assesses the strengths and limitations of various Vision Transformer models, including Transfer learning model and vision transformer (TLMViT), SLViT, SE-ViT, IterationViT, Tiny-LeViT, IEM-ViT, GreenViT, and PMViT. Additionally, the paper reviews models such as Dense Convolutional Network (DenseNet), Residual Neural Network (ResNet)-50V2, EfficientNet, Ensemble model, Convolutional Neural Network (CNN), and Locally Reversible Transformer. These machine-learning models have been evaluated on various datasets, demonstrating their real-world applicability. This review not only sheds light on current advancements in the field but also provides valuable insights for future research directions in machine learning-based jamun leaf disease detection and classification.
翻訳日:2023-11-28 15:31:16 公開日:2023-11-27
# 文化文書における文字認識のための画像処理アルゴリズムの最適化

Optimization of Image Processing Algorithms for Character Recognition in Cultural Typewritten Documents ( http://arxiv.org/abs/2311.15740v1 )

ライセンス: Link先を確認
Mariana Dias and Carla Teixeira Lopes(参考訳) リンクされたデータは、データの構造化と接続の新しい方法として様々な分野で使用される。 文化遺産機関は、リンクデータを使用してアーカイブ記述を改善し、情報の発見を促進する。 ほとんどのアーキヴルレコードは、物理的アーティファクトのデジタル表現を持ち、スキャンされた画像は機械で読めない。 光文字認識(OCR)は画像中のテキストを認識し、それを機械符号化されたテキストに変換する。 本稿では,OCRにおける画像処理手法とパラメータチューニングの影響について検討する。 このアプローチは多目的問題定式化を用いて、Levenshtein編集距離を最小化し、非支配的ソート遺伝的アルゴリズム(NSGA-II)で正しく識別された単語数を最大化し、メソッドのパラメータをチューニングする。 評価の結果,OCRにおける画像前処理アルゴリズムの性能は,デジタル表現型によるパラメータ化が有効であることがわかった。 さらに,OCRにおける画像前処理アルゴリズムの活用は,前処理なしのテキスト認識タスクが良い結果を出さないタイプに適している可能性が示唆された。 特に、アダプティブ・しきい値、バイラテラル・フィルター、オープニングは、演劇のカバー、文字、データセット全体において、それぞれ最もパフォーマンスの高いアルゴリズムであり、ocrの前に適用してパフォーマンスを向上させる必要がある。

Linked Data is used in various fields as a new way of structuring and connecting data. Cultural heritage institutions have been using linked data to improve archival descriptions and facilitate the discovery of information. Most archival records have digital representations of physical artifacts in the form of scanned images that are non-machine-readable. Optical Character Recognition (OCR) recognizes text in images and translates it into machine-encoded text. This paper evaluates the impact of image processing methods and parameter tuning in OCR applied to typewritten cultural heritage documents. The approach uses a multi-objective problem formulation to minimize Levenshtein edit distance and maximize the number of words correctly identified with a non-dominated sorting genetic algorithm (NSGA-II) to tune the methods' parameters. Evaluation results show that parameterization by digital representation typology benefits the performance of image pre-processing algorithms in OCR. Furthermore, our findings suggest that employing image pre-processing algorithms in OCR might be more suitable for typologies where the text recognition task without pre-processing does not produce good results. In particular, Adaptive Thresholding, Bilateral Filter, and Opening are the best-performing algorithms for the theatre plays' covers, letters, and overall dataset, respectively, and should be applied before OCR to improve its performance.
翻訳日:2023-11-28 15:30:46 公開日:2023-11-27
# SceneDM: 連続拡散モデルを用いたシーンレベルのマルチエージェント軌道生成

SceneDM: Scene-level Multi-agent Trajectory Generation with Consistent Diffusion Models ( http://arxiv.org/abs/2311.15736v1 )

ライセンス: Link先を確認
Zhiming Guo, Xing Gao, Jianlan Zhou, Xinyu Cai, Botian Shi(参考訳) リアルなシーンレベルのマルチエージェントモーションシミュレーションは、自動運転アルゴリズムの開発と評価に不可欠である。 しかし、既存の作品の多くは、特定の単一のエージェントタイプに対する軌道生成に焦点を当てており、通常は生成した軌道の一貫性を無視している。 本稿では,車,自転車,歩行者などすべてのエージェントがシーン内でジョイントかつ一貫した未来動作を生成するために,シーンdmと呼ばれる拡散モデルに基づく新しい枠組みを提案する。 生成した軌道の一貫性を高めるために, 移動拡散の逆過程においてエージェント・エージェント間相互作用を効果的に処理するための新しいトランスベースネットワークを用いる。 エージェントトラジェクタの滑らかさを考慮して, 短時間の時間依存性を利用したモデルを改善するために, 単純かつ効果的に一貫した拡散アプローチを更に設計する。 さらに、シーンレベルのスコアリング機能を取り付けて、生成されたエージェントの動作の安全性と道順を評価し、非現実的なシミュレーションをフィルタリングする。 最後に、SceneDMはWaymo Sim Agents Benchmarkで最先端の結果を得る。 project webpageはhttps://alperen-hub.github.io/scenedmで入手できる。

Realistic scene-level multi-agent motion simulations are crucial for developing and evaluating self-driving algorithms. However, most existing works focus on generating trajectories for a certain single agent type, and typically ignore the consistency of generated trajectories. In this paper, we propose a novel framework based on diffusion models, called SceneDM, to generate joint and consistent future motions of all the agents, including vehicles, bicycles, pedestrians, etc., in a scene. To enhance the consistency of the generated trajectories, we resort to a new Transformer-based network to effectively handle agent-agent interactions in the inverse process of motion diffusion. In consideration of the smoothness of agent trajectories, we further design a simple yet effective consistent diffusion approach, to improve the model in exploiting short-term temporal dependencies. Furthermore, a scene-level scoring function is attached to evaluate the safety and road-adherence of the generated agent's motions and help filter out unrealistic simulations. Finally, SceneDM achieves state-of-the-art results on the Waymo Sim Agents Benchmark. Project webpage is available at https://alperen-hub.github.io/SceneDM.
翻訳日:2023-11-28 15:30:22 公開日:2023-11-27
# アクションカスタマイズテキスト・画像生成のための不整合同定器の学習

Learning Disentangled Identifiers for Action-Customized Text-to-Image Generation ( http://arxiv.org/abs/2311.15841v1 )

ライセンス: Link先を確認
Siteng Huang, Biao Gong, Yutong Feng, Xi Chen, Yuqian Fu, Yu Liu, Donglin Wang(参考訳) 本研究では,テキスト・ツー・イメージ(T2I)生成における新しいタスク,すなわちアクション・カスタマイズに焦点を当てた。 このタスクの目的は、限られたデータから共存する行動を学習し、目に見えない人間や動物に一般化することである。 実験の結果,既存の主観的カスタマイズ手法では,行動の代表的な特徴を学習できず,外観を含む文脈特徴から行動の分離に苦慮していることがわかった。 低レベルの特徴の嗜好と高レベルの特徴の絡み合いを克服するため,従来の画像からアクション固有識別子を学習するための逆解析法であるADIを提案する。 ADIはまず、レイヤワイド識別子トークンを導入してセマンティックコンディショニング空間を拡張し、異なる特徴にまたがってインバージョンを分散しながら表現の豊かさを高める。 次に、動作非依存な特徴の反転をブロックするために、adiは構築されたサンプルトリプルから勾配不変性を抽出し、無関係チャネルの更新をマスクする。 タスクを包括的に評価するために,様々なアクションを含むactionbenchを,細心の注意を払って選択したサンプルとともに提示する。 定量的および定性的な結果から,我々のADIは既存のT2I生成のベースラインよりも優れていた。

This study focuses on a novel task in text-to-image (T2I) generation, namely action customization. The objective of this task is to learn the co-existing action from limited data and generalize it to unseen humans or even animals. Experimental results show that existing subject-driven customization methods fail to learn the representative characteristics of actions and struggle in decoupling actions from context features, including appearance. To overcome the preference for low-level features and the entanglement of high-level features, we propose an inversion-based method Action-Disentangled Identifier (ADI) to learn action-specific identifiers from the exemplar images. ADI first expands the semantic conditioning space by introducing layer-wise identifier tokens, thereby increasing the representational richness while distributing the inversion across different features. Then, to block the inversion of action-agnostic features, ADI extracts the gradient invariance from the constructed sample triples and masks the updates of irrelevant channels. To comprehensively evaluate the task, we present an ActionBench that includes a variety of actions, each accompanied by meticulously selected samples. Both quantitative and qualitative results show that our ADI outperforms existing baselines in action-customized T2I generation.
翻訳日:2023-11-28 15:22:41 公開日:2023-11-27
# スケールドロップアウト:確率スケールを用いたディープニューラルネットワークの不確かさ推定

Scale-Dropout: Estimating Uncertainty in Deep Neural Networks Using Stochastic Scale ( http://arxiv.org/abs/2311.15816v1 )

ライセンス: Link先を確認
Soyed Tuhin Ahmed, Kamal Danouchi, Michael Hefenbrock, Guillaume Prenat, Lorena Anghel, Mehdi B. Tahoori(参考訳) ニューラルネットワーク(NN)の不確実性推定は、特に安全クリティカルなアプリケーションにおいて、予測の信頼性と信頼性を向上させる上で不可欠である。 近似としてドロップアウトを持つベイズニューラルネットワーク(baynns)は、不確かさを定量化する体系的なアプローチを提供するが、本質的には、電力、メモリ、計算の面で高いハードウェアオーバーヘッドを被る。 したがって、限られたリソースを持つエッジデバイスや高性能アプリケーションにベイNNを適用することは困難である。 BayNNの固有のコストのいくつかは、スピントロニックメモリを備えた計算メモリ(CIM)アーキテクチャ上でハードウェアで高速化し、パラメータをバイナライズすることで削減することができる。 しかし、従来のドロップアウトベースのBayNNの実装には多くの確率的ユニットが必要である。 本稿では,BNN(Binary Neural Networks)の新たな正規化手法であるScale Dropoutと,MC-Scale Dropout(MC-Scale Dropout)をベースとしたBayNNを提案する。 提案手法では,モデルのサイズに関わらず,モデル全体の確率単位を1つだけ必要としており,非常にスケーラブルなベイズNNが実現している。 さらに,提案するBayNN用のスピントロニクスメモリベースのCIMアーキテクチャを導入し,最先端技術と比較して100ドル以上の省エネを実現した。 提案手法を検証し,予測性能の最大1~%改善と,関連する作業と比較して不確実性推定が優れていることを示した。

Uncertainty estimation in Neural Networks (NNs) is vital in improving reliability and confidence in predictions, particularly in safety-critical applications. Bayesian Neural Networks (BayNNs) with Dropout as an approximation offer a systematic approach to quantifying uncertainty, but they inherently suffer from high hardware overhead in terms of power, memory, and computation. Thus, the applicability of BayNNs to edge devices with limited resources or to high-performance applications is challenging. Some of the inherent costs of BayNNs can be reduced by accelerating them in hardware on a Computation-In-Memory (CIM) architecture with spintronic memories and binarizing their parameters. However, numerous stochastic units are required to implement conventional dropout-based BayNN. In this paper, we propose the Scale Dropout, a novel regularization technique for Binary Neural Networks (BNNs), and Monte Carlo-Scale Dropout (MC-Scale Dropout)-based BayNNs for efficient uncertainty estimation. Our approach requires only one stochastic unit for the entire model, irrespective of the model size, leading to a highly scalable Bayesian NN. Furthermore, we introduce a novel Spintronic memory-based CIM architecture for the proposed BayNN that achieves more than $100\times$ energy savings compared to the state-of-the-art. We validated our method to show up to a $1\%$ improvement in predictive performance and superior uncertainty estimates compared to related works.
翻訳日:2023-11-28 15:22:18 公開日:2023-11-27
# FlowZero: LLM駆動動的シーンシンタクスによるゼロショットテキスト・ビデオ合成

FlowZero: Zero-Shot Text-to-Video Synthesis with LLM-Driven Dynamic Scene Syntax ( http://arxiv.org/abs/2311.15813v1 )

ライセンス: Link先を確認
Yu Lu, Linchao Zhu, Hehe Fan, Yi Yang(参考訳) テキスト・ツー・ビデオ(T2V)生成は、複雑なビデオテキスト内のシーン、オブジェクト、アクションをコヒーレントな視覚フレームのシーケンスに変換することを目的とした、急速に成長する研究領域である。 大規模言語モデル(llms)と画像拡散モデルを組み合わせて,時間的コヒーレントな映像を生成する新しいフレームワークであるflowzeroを提案する。 FlowZeroはLLMを使ってテキストから複雑な時空間ダイナミクスを理解し、LLMはシーン記述、オブジェクトレイアウト、背景動作パターンを含む包括的な動的シーン構文(DSS)を生成する。 DSSのこれらの要素は、スムーズなオブジェクトの動きとフレーム間コヒーレンスを持つビデオ生成のための画像拡散モデルを導くために使用される。 さらに、FlowZeroは反復的な自己リファインメントプロセスを導入し、時空間レイアウトとビデオのテキストプロンプトとの整合性を高める。 グローバルコヒーレンスを高めるために,各フレームの初期ノイズを動きダイナミクスで高め,背景の動きとカメラの動きを適応的に制御する。 拡散過程のガイドに時空間構文を用いることで、FlowZeroはゼロショットビデオ合成の改善を実現し、鮮明な動きでコヒーレントなビデオを生成する。

Text-to-video (T2V) generation is a rapidly growing research area that aims to translate the scenes, objects, and actions within complex video text into a sequence of coherent visual frames. We present FlowZero, a novel framework that combines Large Language Models (LLMs) with image diffusion models to generate temporally-coherent videos. FlowZero uses LLMs to understand complex spatio-temporal dynamics from text, where LLMs can generate a comprehensive dynamic scene syntax (DSS) containing scene descriptions, object layouts, and background motion patterns. These elements in DSS are then used to guide the image diffusion model for video generation with smooth object motions and frame-to-frame coherence. Moreover, FlowZero incorporates an iterative self-refinement process, enhancing the alignment between the spatio-temporal layouts and the textual prompts for the videos. To enhance global coherence, we propose enriching the initial noise of each frame with motion dynamics to control the background movement and camera motion adaptively. By using spatio-temporal syntaxes to guide the diffusion process, FlowZero achieves improvement in zero-shot video synthesis, generating coherent videos with vivid motion.
翻訳日:2023-11-28 15:21:49 公開日:2023-11-27
# C-SAW:リモートセンシングにおける画像一般化のための自己監督型プロンプト学習

C-SAW: Self-Supervised Prompt Learning for Image Generalization in Remote Sensing ( http://arxiv.org/abs/2311.15812v1 )

ライセンス: Link先を確認
Avigyan Bhattacharya, Mainak Singha, Ankit Jha, Biplab Banerjee(参考訳) 大規模事前学習型視覚言語モデル(vlm)クリップを用いて,光リモートセンシング画像の解析における領域およびクラス一般化問題に焦点を当てた。 対照的にトレーニングされたvlmは印象的なゼロショット一般化性能を示すが、トレーニングやテストでさまざまなドメインを扱う場合、その効果は限られている。 既存のプロンプト学習技術では,プロンプトにドメイン情報とコンテンツ情報を組み込むことの重要性を見落としているため,マルチドメインデータを扱う場合のパフォーマンスが低下する。 これらの課題に対処するため,視覚的特徴の表現性を高めつつ,ドメイン不変の即時学習を実現するソリューションを提案する。 CLIPのビジョンエンコーダは,特に画像パッチのジャンブルアップ時に,コンテキストイメージ情報の識別に苦慮している。 この問題は、ランドカバークラスが明確に定義されたコンテキストの外観を示す光学リモートセンシング画像において特に深刻である。 そこで我々は,CLIPを視覚空間の自己監督的損失に補完する手法であるC-SAWと,視覚領域とコンテンツ固有の特徴の両方を強調する新しいプロンプト学習技術を紹介する。 私たちはCLIPのバックボーンを凍結させ、CLIPエンコーダがC-SAWを対照的に訓練するための小さなプロジェクタを導入します。 複数のリモートセンシングベンチマークと異なる一般化タスクにおけるC-SAWの優位性を示す実験結果が得られた。

We focus on domain and class generalization problems in analyzing optical remote sensing images, using the large-scale pre-trained vision-language model (VLM), CLIP. While contrastively trained VLMs show impressive zero-shot generalization performance, their effectiveness is limited when dealing with diverse domains during training and testing. Existing prompt learning techniques overlook the importance of incorporating domain and content information into the prompts, which results in a drop in performance while dealing with such multi-domain data. To address these challenges, we propose a solution that ensures domain-invariant prompt learning while enhancing the expressiveness of visual features. We observe that CLIP's vision encoder struggles to identify contextual image information, particularly when image patches are jumbled up. This issue is especially severe in optical remote sensing images, where land-cover classes exhibit well-defined contextual appearances. To this end, we introduce C-SAW, a method that complements CLIP with a self-supervised loss in the visual space and a novel prompt learning technique that emphasizes both visual domain and content-specific features. We keep the CLIP backbone frozen and introduce a small set of projectors for both the CLIP encoders to train C-SAW contrastively. Experimental results demonstrate the superiority of C-SAW across multiple remote sensing benchmarks and different generalization tasks.
翻訳日:2023-11-28 15:21:27 公開日:2023-11-27
# 医療施設におけるエネルギー予測のための人工知能手法の探索 : 詳細なシステムレビュー

Exploring Artificial Intelligence Methods for Energy Prediction in Healthcare Facilities: An In-Depth Extended Systematic Review ( http://arxiv.org/abs/2311.15807v1 )

ライセンス: Link先を確認
Marjan FatehiJananloo, Helen Stopps, J.J. McArthur(参考訳) 病院はその複雑さとユニークな要件のために、グローバルなエネルギー消費パターンにおいて重要な役割を果たす。 本研究では,病院ビルのエネルギー消費予測に機械学習と人工知能を用いた論文のprismaフレームワークを用いて,総合的な文献レビューを行った。 1884年に特定された出版物のうち、17件がこの特定の領域に対処できることが判明し、最新の技術を確立し、将来の研究が必要なギャップを特定するために徹底的に検討された。 このレビューは、エネルギー予測に影響を及ぼす様々なデータ入力を明らかにし、占有率と気象データが重要な予測要因として出現した。 しかし、多くの研究はデータ選択の意義を深く掘り下げることはできず、時間ダイナミクス、運用状況、前処理方法の理解に関してギャップがあることは明らかであった。 機械学習、特にANNのようなディープラーニングモデルは、この分野においてポテンシャルを示してきたが、解釈可能性や計算上の要求といった課題が伴っている。 この発見は、病院のエネルギー消費を最適化するaiの膨大な可能性を支えると同時に、より包括的で詳細な研究の必要性を強調している。 今後の研究分野としては、ANNアプローチの最適化、新しい最適化とデータ統合技術、インテリジェントエネルギー管理システムへのリアルタイムデータの統合、長期エネルギー予測への注力などがある。

Hospitals, due to their complexity and unique requirements, play a pivotal role in global energy consumption patterns. This study conducted a comprehensive literature review, utilizing the PRISMA framework, of articles that employed machine learning and artificial intelligence techniques for predicting energy consumption in hospital buildings. Of the 1884 publications identified, 17 were found to address this specific domain and have been thoroughly reviewed to establish the state-of-the-art and identify gaps where future research is needed. This review revealed a diverse range of data inputs influencing energy prediction, with occupancy and meteorological data emerging as significant predictors. However, many studies failed to delve deep into the implications of their data choices, and gaps were evident regarding the understanding of time dynamics, operational status, and preprocessing methods. Machine learning, especially deep learning models like ANNs, have shown potential in this domain, yet they come with challenges, including interpretability and computational demands. The findings underscore the immense potential of AI in optimizing hospital energy consumption but also highlight the need for more comprehensive and granular research. Key areas for future research include the optimization of ANN approaches, new optimization and data integration techniques, the integration of real-time data into Intelligent Energy Management Systems, and increasing focus on long-term energy forecasting.
翻訳日:2023-11-28 15:21:02 公開日:2023-11-27
# 管 : 残留膨張の逐次量子化による並列化推定

PIPE : Parallelized Inference Through Post-Training Quantization Ensembling of Residual Expansions ( http://arxiv.org/abs/2311.15806v1 )

ライセンス: Link先を確認
Edouard Yvinec, Arnaud Dapogny, Kevin Bailly(参考訳) ディープニューラルネットワーク(DNN)はコンピュータビジョンや自然言語処理においてユビキタスであるが、推論コストが高い。 この問題は、浮動小数点ペレーションを低ビット幅フォーマットに変換する量子化によって解決できる。 プライバシーの権利に関する懸念が高まる中、私たちはデータフリーの手法に取り組みます。 しかしながら、そのような技術はターゲットデバイスへの適応性の欠如に悩まされ、ハードウェアは通常特定のビット幅しかサポートしていない。 したがって、様々なデバイスに適応するために、量子化法は、各ビット幅とターゲットデバイスに対する速度トレードオフに対して適切な精度を求めるのに十分柔軟である。 これを実現するために,残差誤差展開を利用する量子化法であるPIPEとグループ間隔とアンサンブル近似を用いて並列化を改善する。 PIPEは強力な理論的保証によって支持され、すべてのベンチマークアプリケーション(ビジョンからNLPタスクまで)、アーキテクチャ(ConvNet、トランスフォーマー)、ビット幅(int8から3次量子化まで)において優れたパフォーマンスを達成する。

Deep neural networks (DNNs) are ubiquitous in computer vision and natural language processing, but suffer from high inference cost. This problem can be addressed by quantization, which consists in converting floating point perations into a lower bit-width format. With the growing concerns on privacy rights, we focus our efforts on data-free methods. However, such techniques suffer from their lack of adaptability to the target devices, as a hardware typically only support specific bit widths. Thus, to adapt to a variety of devices, a quantization method shall be flexible enough to find good accuracy v.s. speed trade-offs for every bit width and target device. To achieve this, we propose PIPE, a quantization method that leverages residual error expansion, along with group sparsity and an ensemble approximation for better parallelization. PIPE is backed off by strong theoretical guarantees and achieves superior performance on every benchmarked application (from vision to NLP tasks), architecture (ConvNets, transformers) and bit-width (from int8 to ternary quantization).
翻訳日:2023-11-28 15:20:40 公開日:2023-11-27
# SOAC: ニューラルラジアンス場を用いた時空間オーバーラップ対応マルチセンサ校正

SOAC: Spatio-Temporal Overlap-Aware Multi-Sensor Calibration using Neural Radiance Fields ( http://arxiv.org/abs/2311.15803v1 )

ライセンス: Link先を確認
Quentin Herau, Nathan Piasco, Moussab Bennehar, Luis Rold\~ao, Dzmitry Tsishkou, Cyrille Migniot, Pascal Vasseur, C\'edric Demonceaux(参考訳) 自動運転のような急速に進化する領域では、高い運用精度と安定性を確保するためには、異なるモードを持つ複数のセンサを使用することが不可欠である。 各センサが提供した情報を単一の共通フレームで正確に活用するためには、これらのセンサを正確に校正することが不可欠である。 本稿では,ニューラル・ラジアンス・フィールド(NeRF)を用いて,一般的なボリューム表現における異なるセンサのモダリティを表現し,ロバストかつ高精度な時空間センサキャリブレーションを実現する。 各センサのシーンの可視部分に基づいて分割法を設計することにより,重なり合う領域のみを用いてキャリブレーション問題を定式化する。 この戦略により、より堅牢で正確なキャリブレーションが可能になり、失敗しやすい。 提案手法は、複数の確立された運転データセット上で検証することにより、屋外の都市景観に作用することを示す。 その結果,本手法は既存手法に比べて精度と堅牢性が高いことがわかった。

In rapidly-evolving domains such as autonomous driving, the use of multiple sensors with different modalities is crucial to ensure high operational precision and stability. To correctly exploit the provided information by each sensor in a single common frame, it is essential for these sensors to be accurately calibrated. In this paper, we leverage the ability of Neural Radiance Fields (NeRF) to represent different sensors modalities in a common volumetric representation to achieve robust and accurate spatio-temporal sensor calibration. By designing a partitioning approach based on the visible part of the scene for each sensor, we formulate the calibration problem using only the overlapping areas. This strategy results in a more robust and accurate calibration that is less prone to failure. We demonstrate that our approach works on outdoor urban scenes by validating it on multiple established driving datasets. Results show that our method is able to get better accuracy and robustness compared to existing methods.
翻訳日:2023-11-28 15:20:19 公開日:2023-11-27
# 離散時間量子ウォークを用いた量子磁気計測

Quantum magnetometry using discrete-time quantum walk ( http://arxiv.org/abs/2311.15801v1 )

ライセンス: Link先を確認
Kunal Shukla and C.M. Chandrashekar(参考訳) 量子磁気学は量子資源を用いて、古典的な磁場では達成できない精度と精度で磁場を測定する。 本稿では,マルチパス干渉が中心的な役割を果たす離散時間量子ウォーク(dtqw)を用いた量子磁気計測手法を提案する。 1次元格子上にDTQWを実装するスピン半粒子のダイナミクスは磁場の影響を受け、DTQWの制御されたダイナミクスは磁場の強さを推定するのに役立つ。 磁場の影響を測るために、粒子の位置確率分布(PD)のばらつきを調べ、それを用いて、量子ウォークに最大影響を及ぼす磁場の方向を決定する。 次に,量子フィッシャー情報 (qfi) やフィッシャー情報 (fi) などの統計的手法を用いて粒子の位置とスピン測定を行い,システムの磁場に対する感度を評価する。 磁場の強さを推定するために、位置測定とスピン測定が利用できることが判明した。 50の時間ステップで量子ウォークを行う電子の計算は、推定値が0.1ピコテスラのルート平均二乗誤差を持つことを示している。 さらに, 本システムの感度は任意の所望の磁場を測定するように調整できる。 以上の結果から,最適量子磁気測定のツールとして使用できることが示唆された。

Quantum magnetometry uses quantum resources to measure magnetic fields with precision and accuracy that cannot be achieved by its classical counterparts. In this paper, we propose a scheme for quantum magnetometry using discrete-time quantum walk (DTQW) where multi-path interference plays a central role. The dynamics of a spin-half particle implementing DTQW on a one-dimensional lattice gets affected by magnetic fields, and the controlled dynamics of DTQW help in estimating the fields' strength. To gauge the effects of the field, we study the variance of the particle's position probability distribution (PD) and use it to determine the direction of the magnetic field maximally affecting the quantum walk. We then employ statistical tools like quantum Fisher information (QFI) and Fisher information (FI) of the particle's position and spin measurements to assess the system's sensitivity to the magnetic fields. We find that one can use the position and spin measurements to estimate the strengths of the magnetic fields. Calculations for an electron implementing quantum walk of fifty time steps show that the estimate had a root-mean-square error of the order of 0.1 picoTesla. Moreover, the sensitivity of our system can be tuned to measure any desired magnetic field. Our results indicate that the system can be used as a tool for optimal quantum magnetometry.
翻訳日:2023-11-28 15:20:03 公開日:2023-11-27
# RedditのメンタルヘルスにおけるChatGPTに関する社会的感情分析とトピックモデリング:ネガティブ感情は時間とともに増加する

Public sentiment analysis and topic modeling regarding ChatGPT in mental health on Reddit: Negative sentiments increase over time ( http://arxiv.org/abs/2311.15800v1 )

ライセンス: Link先を確認
Yunna Cai, Fan Wang, Haowei Wang, Qianwen Qian(参考訳) 本研究は, メンタルヘルスにおけるChatGPTに対するユーザの態度を明らかにするために, Redditにおけるメンタルヘルス議論におけるChatGPTに関する世論を考察する。 研究者は感情分析にbert-base-multilingual-uncased-sentiment技術、トピックモデリングにbertopicモデルを用いた。 その結果, 全体的, 否定的な感情が, 肯定的な感情が続き, 中立的な感情が最も一般的でないことが判明した。 ネガティブ感情の流行は時間とともに増加している。 否定的な感情には、悪いメンタルヘルスアドバイスを提供するChatGPTに関する議論、マシン対人間の価値に関する議論、AIへの恐怖、Universal Basic Income(UBI)に関する懸念が含まれる。 対照的に、ポジティブな感情はカウンセリングにおけるchatgptの有効性を強調し、「時間」や「ワレット」といったキーワードに言及している。 プライベートデータに関する中立的な議論の中心。 これらの知見は、メンタルヘルスにおけるChatGPTに対する公衆の態度に光を当て、公衆の観点からのメンタルヘルスにおける信頼できるAIの発展に寄与する可能性がある。

In order to uncover users' attitudes towards ChatGPT in mental health, this study examines public opinions about ChatGPT in mental health discussions on Reddit. Researchers used the bert-base-multilingual-uncased-sentiment techniques for sentiment analysis and the BERTopic model for topic modeling. It was found that overall, negative sentiments prevail, followed by positive ones, with neutral sentiments being the least common. The prevalence of negative emotions has increased over time. Negative emotions encompass discussions on ChatGPT providing bad mental health advice, debates on machine vs. human value, the fear of AI, and concerns about Universal Basic Income (UBI). In contrast, positive emotions highlight ChatGPT's effectiveness in counseling, with mentions of keywords like "time" and "wallet." Neutral discussions center around private data concerns. These findings shed light on public attitudes toward ChatGPT in mental health, potentially contributing to the development of trustworthy AI in mental health from the public perspective.
翻訳日:2023-11-28 15:19:44 公開日:2023-11-27
# 情報フロー制御の観点からの機械学習パイプラインのプライバシ再考

Rethinking Privacy in Machine Learning Pipelines from an Information Flow Control Perspective ( http://arxiv.org/abs/2311.15792v1 )

ライセンス: Link先を確認
Lukas Wutschitz, Boris K\"opf, Andrew Paverd, Saravan Rajmohan, Ahmed Salem, Shruti Tople, Santiago Zanella-B\'eguelin, Menglin Xia, Victor R\"uhle(参考訳) 現代の機械学習システムは、成長を続けるコーパスで訓練されたモデルを使用する。 通常、トレーニング中にオーナシップ、アクセス制御、ライセンス情報などのメタデータは無視される。 代わりに、プライバシのリスクを軽減するために、私たちは、データセットのサニタイズや差分的にプライベートなモデルトレーニングといった一般的なテクニックに依存しています。 さらに、これらの技術は、複数の参加者間で機密情報を共有し、きめ細かいアクセス制御を必要とするシナリオに制限がある。 メタデータを無視することで、セキュリティやプライバシ、機密性といった問題に対処する機会を逃します。 本稿では,機械学習システムを記述するための情報フロー制御の観点から,アクセス制御ポリシーなどのメタデータを活用し,情報フローを解釈可能な形で明確化されたプライバシーと機密性保証を定義する。 この観点から、ユーザレベルの非干渉を実現するための2つの異なるアプローチを対比する。 1)ユーザ毎の微調整,及び 2) 推論時にユーザ固有のデータセットにアクセスする拡張モデル。 これら2つのアプローチを,公開モデルを用いた自明な非干渉ゼロショットベースラインと,このモデルをコーパス全体に微調整するベースラインと比較した。 我々は,科学論文の2つのデータセットで訓練されたモデルを評価し,検索拡張アーキテクチャが,厳格な非干渉保証を満たしながら,最良の実用性,拡張性,柔軟性をもたらすことを実証する。

Modern machine learning systems use models trained on ever-growing corpora. Typically, metadata such as ownership, access control, or licensing information is ignored during training. Instead, to mitigate privacy risks, we rely on generic techniques such as dataset sanitization and differentially private model training, with inherent privacy/utility trade-offs that hurt model performance. Moreover, these techniques have limitations in scenarios where sensitive information is shared across multiple participants and fine-grained access control is required. By ignoring metadata, we therefore miss an opportunity to better address security, privacy, and confidentiality challenges. In this paper, we take an information flow control perspective to describe machine learning systems, which allows us to leverage metadata such as access control policies and define clear-cut privacy and confidentiality guarantees with interpretable information flows. Under this perspective, we contrast two different approaches to achieve user-level non-interference: 1) fine-tuning per-user models, and 2) retrieval augmented models that access user-specific datasets at inference time. We compare these two approaches to a trivially non-interfering zero-shot baseline using a public model and to a baseline that fine-tunes this model on the whole corpus. We evaluate trained models on two datasets of scientific articles and demonstrate that retrieval augmented architectures deliver the best utility, scalability, and flexibility while satisfying strict non-interference guarantees.
翻訳日:2023-11-28 15:19:20 公開日:2023-11-27
# 効果的なコールドスタート推薦のためのソーシャルアウェアガウシアン事前学習モデル

A Social-aware Gaussian Pre-trained Model for Effective Cold-start Recommendation ( http://arxiv.org/abs/2311.15790v1 )

ライセンス: Link先を確認
Siwei Liu, Xi Wang, Craig Macdonald, Iadh Ounis(参考訳) プレトレーニングの使用は、ニューラルモデルの性能を高める新しいテクニックであり、BERTのような多くのニューラル言語モデルに有効であることが示されている。 この技術はレコメンデーションシステムの性能向上にも利用されている。 このようなレコメンデーションシステムでは、事前学習モデルを使用して、ユーザとアイテムの両方のより良い初期化を学ぶ。 しかし、最近の既存の事前学習レコメンデータシステムは、事前学習段階でのみユーザインタラクションデータを組み込む傾向にあり、特にインタラクションデータが不足している場合には、良いレコメンデーションを提供することが困難である。 この共通データ空間の問題を軽減するため,ユーザ間の交流データだけでなく,ユーザ間の社会的関係などの情報も事前学習し,ユーザ間のインタラクションデータに依存するよりも,より優れた初期化が可能なレコメンデーションシステムを提供することを提案する。 本稿では,グラフニューラルネットワーク(GNN)の事前学習段階におけるユーザの社会的関係とインタラクションデータを符号化する,ソーシャル・アウェア・ガウス事前学習モデル(SGP)を提案する。 その後, 微調整段階において, sgpモデルがガウス混合モデル(gmm)を採用し, 事前学習された組込みを, さらなる訓練のために分解することで, 冷スタートユーザをこれらの構築済みの社会関係から恩恵を受ける。 3つの公開データセットに関する広範な実験から,16の競合ベースラインと比較して,ndcg@10では,sgpモデルが最高ベースラインを最大7.7%上回っていることが分かりました。 さらに,SGPは,特にユーザが友人の提案を通じてシステムに新規に登録する場合に,コールドスタート問題を効果的に軽減できることを示す。

The use of pre-training is an emerging technique to enhance a neural model's performance, which has been shown to be effective for many neural language models such as BERT. This technique has also been used to enhance the performance of recommender systems. In such recommender systems, pre-training models are used to learn a better initialisation for both users and items. However, recent existing pre-trained recommender systems tend to only incorporate the user interaction data at the pre-training stage, making it difficult to deliver good recommendations, especially when the interaction data is sparse. To alleviate this common data sparsity issue, we propose to pre-train the recommendation model not only with the interaction data but also with other available information such as the social relations among users, thereby providing the recommender system with a better initialisation compared with solely relying on the user interaction data. We propose a novel recommendation model, the Social-aware Gaussian Pre-trained model (SGP), which encodes the user social relations and interaction data at the pre-training stage in a Graph Neural Network (GNN). Afterwards, in the subsequent fine-tuning stage, our SGP model adopts a Gaussian Mixture Model (GMM) to factorise these pre-trained embeddings for further training, thereby benefiting the cold-start users from these pre-built social relations. Our extensive experiments on three public datasets show that, in comparison to 16 competitive baselines, our SGP model significantly outperforms the best baseline by upto 7.7% in terms of NDCG@10. In addition, we show that SGP permits to effectively alleviate the cold-start problem, especially when users newly register to the system through their friends' suggestions.
翻訳日:2023-11-28 15:18:46 公開日:2023-11-27
# YUAN 2.0: ローカライズされたフィルタリングベースの注意を伴う大規模言語モデル

YUAN 2.0: A Large Language Model with Localized Filtering-based Attention ( http://arxiv.org/abs/2311.15786v1 )

ライセンス: Link先を確認
Shaohua Wu, Xudong Zhao, Shenling Wang, Jiangang Luo, Lingjun Li, Xi Chen, Bing Zhao, Wei Wang, Tong Yu, Rongguo Zhang, Jiahua Zhang, Chao Wang(参考訳) 本研究では,自然言語の局所的依存関係に関する事前知識を注意に組み込むために,局所フィルタリングに基づく注意(LFA)を導入する。 LFAに基づいて、パラメータが210億から102.6億までの大きな言語モデルであるYuan 2.0を開発しリリースする。 事前学習および微調整データセットを高品質で構築するためのデータフィルタリングおよび生成方法を提案する。 非一様パイプライン並列,データ並列,オプティマイザ並列の分散トレーニング手法を提案し,ノード間通信の帯域幅要求を大幅に低減し,大規模分散トレーニングにおいて優れた性能を実現する。 Yuan 2.0モデルは、既存のモデルと比較して、コード生成、数学の問題解決、チャットにおいて素晴らしい能力を示している。 モデルウェイトとソースコードを含むYUAN 2.0の最新バージョンはGithubで公開されている。

In this work, the Localized Filtering-based Attention (LFA) is introduced to incorporate prior knowledge of local dependencies of natural language into Attention. Based on LFA, we develop and release Yuan 2.0, a large language model with parameters ranging from 2.1 billion to 102.6 billion. A data filtering and generation method is presented to build pretraining and fine-tuning dataset in high quality. A distributed training method with non-uniform pipeline parallel, data parallel, and optimizer parallel is proposed, which greatly reduces the bandwidth requirements of intra-node communication, and achieves good performance in large-scale distributed training. Yuan 2.0 models display impressive ability in code generation, math problem-solving, and chat compared with existing models. The latest version of YUAN 2.0, including model weights and source code, is accessible at Github.
翻訳日:2023-11-28 15:17:55 公開日:2023-11-27
# モデル圧縮と敵対的ロバスト性の関係--現在のエビデンスを振り返って

Relationship between Model Compression and Adversarial Robustness: A Review of Current Evidence ( http://arxiv.org/abs/2311.15782v1 )

ライセンス: Link先を確認
Svetlana Pavlitska, Hannes Grolig and J. Marius Z\"ollner(参考訳) モデル能力の増大は、ディープラーニングネットワークの敵対的堅牢性を高めるための既知のアプローチである。 一方、プルーニングや量子化など様々なモデル圧縮技術は、精度を保ちながらネットワークのサイズを小さくすることができる。 最近のいくつかの研究はモデル圧縮と敵対的ロバスト性の関係を扱っているが、いくつかの実験では矛盾した結果が報告されている。 この研究は、利用可能な証拠を要約し、観察された効果の可能な説明について論じる。

Increasing the model capacity is a known approach to enhance the adversarial robustness of deep learning networks. On the other hand, various model compression techniques, including pruning and quantization, can reduce the size of the network while preserving its accuracy. Several recent studies have addressed the relationship between model compression and adversarial robustness, while some experiments have reported contradictory results. This work summarizes available evidence and discusses possible explanations for the observed effects.
翻訳日:2023-11-28 15:17:29 公開日:2023-11-27
# 多言語知識グラフにおけるテキスト情報のカバレッジと精度の向上

Increasing Coverage and Precision of Textual Information in Multilingual Knowledge Graphs ( http://arxiv.org/abs/2311.15781v1 )

ライセンス: Link先を確認
Simone Conia and Min Li and Daniel Lee and Umar Farooq Minhas and Ihab Ilyas and Yunyao Li(参考訳) 自然言語処理とコンピュータビジョンに関する最近の研究では、知識グラフで利用可能なテキスト情報(エンティティ名や記述など)を使用して、高品質な構造化データにニューラルモデルを基礎としている。 しかし、英語以外の言語に関しては、テキスト情報の量と質が比較的少ない。 この問題に対処するために,kge(automated knowledge graph enhancement)という新しいタスクを導入し,英語と非英語言語間のテキスト情報量と品質のギャップの橋渡しについて徹底的に検討する。 より具体的に言えば 一 ウィキデータにおける実体名及び記述の多言語的範囲の増大及び正確性の問題を明らかにすること。 二 機械翻訳(MT)、Web検索(WS)、Large Language Models(LLM)といった最先端の手法がこの課題に苦しむことを実証すること。 三 MT、WS及びLCMを組み合わせて高品質なテキスト情報を生成する新しい非監督的アプローチ、M-NTA iv) エンティティリンク,ナレッジグラフ補完,質問応答における非英語テキスト情報の多言語カバレッジと精度の向上の影響について検討する。 また、多言語知識グラフの改善に向けた取り組みの一環として、7つの言語ファミリーの10言語でKGEアプローチを評価する最初の人為的なベンチマークであるWikiKGE-10を紹介します。

Recent work in Natural Language Processing and Computer Vision has been using textual information -- e.g., entity names and descriptions -- available in knowledge graphs to ground neural models to high-quality structured data. However, when it comes to non-English languages, the quantity and quality of textual information are comparatively scarce. To address this issue, we introduce the novel task of automatic Knowledge Graph Enhancement (KGE) and perform a thorough investigation on bridging the gap in both the quantity and quality of textual information between English and non-English languages. More specifically, we: i) bring to light the problem of increasing multilingual coverage and precision of entity names and descriptions in Wikidata; ii) demonstrate that state-of-the-art methods, namely, Machine Translation (MT), Web Search (WS), and Large Language Models (LLMs), struggle with this task; iii) present M-NTA, a novel unsupervised approach that combines MT, WS, and LLMs to generate high-quality textual information; and, iv) study the impact of increasing multilingual coverage and precision of non-English textual information in Entity Linking, Knowledge Graph Completion, and Question Answering. As part of our effort towards better multilingual knowledge graphs, we also introduce WikiKGE-10, the first human-curated benchmark to evaluate KGE approaches in 10 languages across 7 language families.
翻訳日:2023-11-28 15:17:15 公開日:2023-11-27
# 複素吸収ポテンシャルを持つ量子コンピュータ上の非単位時間依存シュロディンガー方程式の効率的な解法

Efficient solution of the non-unitary time-dependent Schrodinger equation on a quantum computer with complex absorbing potential ( http://arxiv.org/abs/2311.15859v1 )

ライセンス: Link先を確認
Mariane Mangin-Brinet, Jing Zhang, Denis Lacroix, and Edgar Andres Ruiz Guzman(参考訳) 我々は,n$ qubitレジスタ上に記述された完全量子アルゴリズムを持つ量子コンピュータを用いて,グリッド上の1次元実時間schr\"odinger進化を解く際に,境界に複雑な吸収電位を加える可能性を検討する。 複雑なポテンシャルのため、進化は実時間と想像時間の伝搬を混合し、波動関数は時間伝播中に継続的に吸収される可能性がある。 拡張量子アルゴリズムを用いて,実時間伝播に並行して虚時発展を扱う。 本手法は, 所望の仮想時間進化を実装するために, 一定の成功確率で測定した, 一度に1つの貯水池量子ビットのみを用いるという利点を有する。 本稿では,メッシュ上で進化する連続吸収状態の物理ノルムに直接,成功確率を関連付けるダイレーション法について,特定の処方則を提案する。 提案される処方は,ほとんどの物理的状況において高い成功率を維持するという利点を期待する。 この手法の応用はメッシュ上での1次元波動関数の進化に応用される。 量子コンピュータで得られた結果は、古典コンピュータで得られたものと同一視される。 最後に、拡張行列の実装の複雑さについて詳細な議論を行う。 ポテンシャルの局所的性質のため、拡張行列は時間ステップごとに2^n$ CNOTと2^n$ユニタリ回転しか必要としないが、一般ユニタリ行列に対して最もよく知られたアルゴリズムを用いて実装するためには4^{n+1}$ C-NOTゲートの順序が必要となる。

We explore the possibility of adding complex absorbing potential at the boundaries when solving the one-dimensional real-time Schr\"odinger evolution on a grid using a quantum computer with a fully quantum algorithm described on a $n$ qubit register. Due to the complex potential, the evolution mixes real- and imaginary-time propagation and the wave function can potentially be continuously absorbed during the time propagation. We use the dilation quantum algorithm to treat the imaginary-time evolution in parallel to the real-time propagation. This method has the advantage of using only one reservoir qubit at a time, that is measured with a certain success probability to implement the desired imaginary-time evolution. We propose a specific prescription for the dilation method where the success probability is directly linked to the physical norm of the continuously absorbed state evolving on the mesh. We expect that the proposed prescription will have the advantage of keeping a high probability of success in most physical situations. Applications of the method are made on one-dimensional wave functions evolving on a mesh. Results obtained on a quantum computer identify with those obtained on a classical computer. We finally give a detailed discussion on the complexity of implementing the dilation matrix. Due to the local nature of the potential, for $n$ qubits, the dilation matrix only requires $2^n$ CNOT and $2^n$ unitary rotation for each time step, whereas it would require of the order of $4^{n+1}$ C-NOT gates to implement it using the best-known algorithm for general unitary matrices.
翻訳日:2023-11-28 15:09:25 公開日:2023-11-27
# 適応グラフを用いた無線ネットワークの電力制御のためのマルチエージェント強化学習

Multi-Agent Reinforcement Learning for Power Control in Wireless Networks via Adaptive Graphs ( http://arxiv.org/abs/2311.15858v1 )

ライセンス: Link先を確認
Lorenzo Mario Amorosa, Marco Skocaj, Roberto Verdone, and Deniz G\"und\"uz(参考訳) 高品質で異質な無線通信サービスの需要は、無線ネットワークにおける動的最適化戦略に関する広範な研究を推進している。 いくつかの考えられるアプローチの中で、マルチエージェント深層強化学習(madrl)は、電力制御のような幅広い複雑な最適化問題に対処するための有望な方法として登場した。 しかし、様々なネットワーク最適化問題に対するMADRLのシームレスな適用は、収束に関するいくつかの課題に直面している。 本稿では,分散エージェント間の通信誘導構造としてのグラフの利用を,これらの課題を軽減する効果的な方法として提案する。 具体的には,グラフニューラルネットワーク(gnns)を,政策パラメータ化のためのニューラルアーキテクチャとして活用し,集団意思決定プロセスに関係帰納バイアスを導入する。 最も重要な点は,統合コミュニケーションと学習のためのグラフ誘導フレームワークを定義するための革新的手法の導入を通じて,隣接エージェント群間の動的相互作用のモデル化に注目することである。 最後に,提案手法のより広いネットワークと異なるユーザカテゴリのネットワークへの優れた一般化能力をシミュレーションにより検証した。

The ever-increasing demand for high-quality and heterogeneous wireless communication services has driven extensive research on dynamic optimization strategies in wireless networks. Among several possible approaches, multi-agent deep reinforcement learning (MADRL) has emerged as a promising method to address a wide range of complex optimization problems like power control. However, the seamless application of MADRL to a variety of network optimization problems faces several challenges related to convergence. In this paper, we present the use of graphs as communication-inducing structures among distributed agents as an effective means to mitigate these challenges. Specifically, we harness graph neural networks (GNNs) as neural architectures for policy parameterization to introduce a relational inductive bias in the collective decision-making process. Most importantly, we focus on modeling the dynamic interactions among sets of neighboring agents through the introduction of innovative methods for defining a graph-induced framework for integrated communication and learning. Finally, the superior generalization capabilities of the proposed methodology to larger networks and to networks with different user categories is verified through simulations.
翻訳日:2023-11-28 15:08:58 公開日:2023-11-27
# JSSL:MRI再建のための共同指導と自己指導型学習

JSSL: Joint Supervised and Self-supervised Learning for MRI Reconstruction ( http://arxiv.org/abs/2311.15856v1 )

ライセンス: Link先を確認
George Yiasemis, Nikita Moriakov, Clara I. S\'anchez, Jan-Jakob Sonke, Jonas Teuwen(参考訳) 磁気共鳴イメージングは重要な診断モードであるが、腹部、心臓、前立腺画像などの臨床シナリオにおいて、本質的に緩やかな取得プロセスは、動作中の完全なk空間データを得るのに困難をもたらす。 基底真理データとして機能する完全サンプル取得がない場合、基礎となる基底真理画像を予測するために教師付き方法でディープラーニングアルゴリズムを訓練することは不可能な課題となる。 この制限に対処するために、MRI再構成のためのディープラーニングネットワークをトレーニングするために利用可能なサブサンプルk空間データを活用する、自己教師付き手法が実現可能な代替手段として登場した。 しかしながら、これらの自己監督的アプローチは、教師付き方法論と比較して、しばしば不足する。 本稿では,完全サンプリングk空間計測を含むターゲットデータセットが利用できないシナリオにおける再構成品質の向上を目的とした,ディープラーニングに基づくMRI再構成アルゴリズムの新しいトレーニング手法であるJSSL(Joint Supervised and Self-supervised Learning)を紹介する。 提案手法は,対象データセットからのサブサンプルデータを用いて,自己教師付き学習環境でモデルを同時に訓練し,また,完全にサンプリングされたk空間のデータにアクセス可能なプロキシデータセットと呼ばれる他のデータセットのデータを活用する。 JSSLの有効性を実証するために,脳と膝のk空間の完全な取得をプロキシデータセットとして使用しながら,サブサンプリングされた前立腺平行MRI計測をターゲットデータセットとして利用した。 本研究は,従来の自己指導型訓練法よりも大幅に改善され,共同アプローチの有効性が強調された。 我々はJSSLの理論的モチベーションを提供し、深部MRI再建のための最も適切なトレーニングアプローチを選択するための実践的な「反動」を確立する。

Magnetic Resonance Imaging represents an important diagnostic modality; however, its inherently slow acquisition process poses challenges in obtaining fully sampled k-space data under motion in clinical scenarios such as abdominal, cardiac, and prostate imaging. In the absence of fully sampled acquisitions, which can serve as ground truth data, training deep learning algorithms in a supervised manner to predict the underlying ground truth image becomes an impossible task. To address this limitation, self-supervised methods have emerged as a viable alternative, leveraging available subsampled k-space data to train deep learning networks for MRI reconstruction. Nevertheless, these self-supervised approaches often fall short when compared to supervised methodologies. In this paper, we introduce JSSL (Joint Supervised and Self-supervised Learning), a novel training approach for deep learning-based MRI reconstruction algorithms aimed at enhancing reconstruction quality in scenarios where target dataset(s) containing fully sampled k-space measurements are unavailable. Our proposed method operates by simultaneously training a model in a self-supervised learning setting, using subsampled data from the target dataset(s), and in a supervised learning manner, utilizing data from other datasets, referred to as proxy datasets, where fully sampled k-space data is accessible. To demonstrate the efficacy of JSSL, we utilized subsampled prostate parallel MRI measurements as the target dataset, while employing fully sampled brain and knee k-space acquisitions as proxy datasets. Our results showcase a substantial improvement over conventional self-supervised training methods, thereby underscoring the effectiveness of our joint approach. We provide a theoretical motivation for JSSL and establish a practical "rule-of-thumb" for selecting the most appropriate training approach for deep MRI reconstruction.
翻訳日:2023-11-28 15:08:43 公開日:2023-11-27
# SiTH:画像共有拡散を用いた単視点テクスチャ再構築

SiTH: Single-view Textured Human Reconstruction with Image-Conditioned Diffusion ( http://arxiv.org/abs/2311.15855v1 )

ライセンス: Link先を確認
Hsuan-I Ho, Jie Song, Otmar Hilliges(参考訳) 3d人間再建の長年の目標は、単一の画像から生命のような詳細な3d人間を作ることだ。 主な課題は、画像に見えない領域で、未知の人間の形、衣服、テクスチャ情報を推測することである。 そこで本研究では,画像条件拡散モデルを3次元メッシュ再構成ワークフローに一意に統合する新しいパイプライン sith を提案する。 提案手法の核心は,不正な単一視点再構成問題を幻覚・再構成サブプロブレムに分解することである。 前者には強力な生成拡散モデルを用いて,入力画像から後方の外観を幻覚させる。 後者では,入力画像とバックビュー画像から全身のテクスチャメッシュを復元するためのガイダンスとして,肌付きボディーメッシュを利用する。 われわれの設計では、その汎用性と堅牢性を保ちながら、約500人の人間のスキャンでパイプラインを訓練できる。 2つの3次元再構成ベンチマークに関する広範囲な実験とユーザ研究により、様々な非知覚画像からリアルで完全なテクスチャの3d人間を生成できることが実証された。

A long-standing goal of 3D human reconstruction is to create lifelike and fully detailed 3D humans from single images. The main challenge lies in inferring unknown human shapes, clothing, and texture information in areas not visible in the images. To address this, we propose SiTH, a novel pipeline that uniquely integrates an image-conditioned diffusion model into a 3D mesh reconstruction workflow. At the core of our method lies the decomposition of the ill-posed single-view reconstruction problem into hallucination and reconstruction subproblems. For the former, we employ a powerful generative diffusion model to hallucinate back appearances from the input images. For the latter, we leverage skinned body meshes as guidance to recover full-body texture meshes from the input and back-view images. Our designs enable training of the pipeline with only about 500 3D human scans while maintaining its generality and robustness. Extensive experiments and user studies on two 3D reconstruction benchmarks demonstrated the efficacy of our method in generating realistic, fully textured 3D humans from a diverse range of unseen images.
翻訳日:2023-11-28 15:08:12 公開日:2023-11-27
# グラフデータに対するハイパーパラメータ最適化エンジンの比較に関する体系的研究

A systematic study comparing hyperparameter optimization engines on tabular data ( http://arxiv.org/abs/2311.15854v1 )

ライセンス: Link先を確認
Balazs Kegl(参考訳) ray tuneライブラリで利用可能なすべてのハイパーパラメータ最適化(hyperopt)エンジンを独立に比較します。 本稿では、データセットとモデル間で統計を正規化し集約する2つの方法、ランクに基づく1つの方法、ランダム検索スコアと全グリッド検索スコアの間のスコアをサンドイッチする1つの方法を紹介する。 これで私達は i)hyperoptエンジンのランク付け 二 ランダム検索における改善の程度を一般化し、統計的に有意なものにすること。 iii) 与えられた学習アルゴリズムをハイパーオペするためにどのエンジンを使用するべきかを推奨する。 ほとんどの検索エンジンがランダム検索を上回ったが、そのうち3つ(hebo、ax、blendsearch)だけが際立っていた。 また,ハイパーオプト技術の選択によっては,ハイパーオプトモデルが好まれる可能性があるため,ハイパーオプトを比較研究に使用するのが難しくなるため,ハイパーオプトアルゴリズムを専門とするエンジンもあることが分かった。

We run an independent comparison of all hyperparameter optimization (hyperopt) engines available in the Ray Tune library. We introduce two ways to normalize and aggregate statistics across data sets and models, one rank-based, and another one sandwiching the score between the random search score and the full grid search score. This affords us i) to rank the hyperopt engines, ii) to make generalized and statistically significant statements on how much they improve over random search, and iii) to make recommendations on which engine should be used to hyperopt a given learning algorithm. We find that most engines beat random search, but that only three of them (HEBO, AX, and BlendSearch) clearly stand out. We also found that some engines seem to specialize in hyperopting certain learning algorithms, which makes it tricky to use hyperopt in comparison studies, since the choice of the hyperopt technique may favor some of the models in the comparison.
翻訳日:2023-11-28 15:07:54 公開日:2023-11-27
# ビデオオブジェクト追跡のための単一モデルとany-modality

Single-Model and Any-Modality for Video Object Tracking ( http://arxiv.org/abs/2311.15851v1 )

ライセンス: Link先を確認
Zongwei Wu, Jilai Zheng, Xiangxuan Ren, Florin-Alexandru Vasluianu, Chao Ma, Danda Pani Paudel, Luc Van Gool, Radu Timofte(参考訳) ビデオオブジェクト追跡の分野では、RGBトラッカーを補完する貴重な資産として、深度、熱、イベントデータなどの補助的なモダリティが出現している。 実際には、既存のRGBトラッカーのほとんどは、データセットやアプリケーション間で使用するためのパラメータセットを1セット学習している。 しかし、類似したマルチモーダリティ追跡のための単一モデル統一はいくつかの課題を呈している。 これらの課題は、入力の固有の不均一性 - モダリティ固有の表現、マルチモーダルデータセットの不足、そして常にすべてのモダリティがないことに由来する。 本研究では,任意のモダリティに対するパラメータセットの単一集合のアンダーライン{Un}ified TrackerであるUn-Trackを紹介する。 任意のモダリティを扱うために,本手法は低位因子分解と再構成技術を用いて,共通の潜在空間を学習する。 さらに重要なのは、RGB-Xペアのみを使用して、一般的な潜在空間を学習することです。 このユニークな共有表現は、すべてのモダリティをシームレスに結合し、効率的な統一と、欠落したモダリティの調整を可能にする。 我々のUn-Trackは2.14(21.50以上)のGFLOPと+6.6M(93M以上)のパラメータのみを導入し、DepthTrackデータセットで+8.1絶対Fスコアゲインを達成した。 異なるモダリティを持つ5つのベンチマークデータセットの大規模な比較では、Un-TrackはSOTA統合トラッカーとモダリティ固有の微調整の双方を上回り、我々の有効性と実用性を検証する。

In the realm of video object tracking, auxiliary modalities such as depth, thermal, or event data have emerged as valuable assets to complement the RGB trackers. In practice, most existing RGB trackers learn a single set of parameters to use them across datasets and applications. However, a similar single-model unification for multi-modality tracking presents several challenges. These challenges stem from the inherent heterogeneity of inputs -- each with modality-specific representations, the scarcity of multi-modal datasets, and the absence of all the modalities at all times. In this work, we introduce Un-Track, a \underline{Un}ified Tracker of a single set of parameters for any modality. To handle any modality, our method learns their common latent space through low-rank factorization and reconstruction techniques. More importantly, we use only the RGB-X pairs to learn the common latent space. This unique shared representation seamlessly binds all modalities together, enabling effective unification and accommodating any missing modality, all within a single transformer-based architecture and without the need for modality-specific fine-tuning. Our Un-Track achieves +8.1 absolute F-score gain, on the DepthTrack dataset, by introducing only +2.14 (over 21.50) GFLOPs with +6.6M (over 93M) parameters, through a simple yet efficient prompting strategy. Extensive comparisons on five benchmark datasets with different modalities show that Un-Track surpasses both SOTA unified trackers and modality-specific finetuned counterparts, validating our effectiveness and practicality.
翻訳日:2023-11-28 15:07:38 公開日:2023-11-27
# 全スライド画像における肺腺癌成長パターンの細胞マップ表示

Cell Maps Representation For Lung Adenocarcinoma Growth Patterns Classification In Whole Slide Images ( http://arxiv.org/abs/2311.15847v1 )

ライセンス: Link先を確認
Arwa Al-Rubaian, Gozde N. Gunesli, Wajd A. Althakfi, Ayesha Azam, Nasir Rajpoot, Shan E Ahmed Raza(参考訳) 肺腺癌は, 形態学的に異質な疾患であり, 5つの組織像が特徴である。 これらのパターンの量は腫瘍の挙動と関係があり、患者の予後に大きな影響を及ぼす。 本研究では, 組織タイルを5パターンの1つあるいは非腫瘍に分類し, 受信者特性曲線 (aucroc) 下の0.97の領域に分類できる新しい機械学習パイプラインを提案する。 我々のモデルの強みは、まずヘマトキシリンとEosin(H&E)の全スライド画像(WSI)から細胞マップを生成し、その後畳み込みニューラルネットワーク分類モデルに入力するという、細胞空間パターンの包括的考察にある。 これらのセルマップを利用すると、新しいデータに対する堅牢な一般化性が得られ、現在の技術アプローチと比較して、見えないテストセットで約30%高い精度が得られる。 本モデルから得られた知見は予後予測や患者の予後向上に有効である。

Lung adenocarcinoma is a morphologically heterogeneous disease, characterized by five primary histologic growth patterns. The quantity of these patterns can be related to tumor behavior and has a significant impact on patient prognosis. In this work, we propose a novel machine learning pipeline capable of classifying tissue tiles into one of the five patterns or as non-tumor, with an Area Under the Receiver Operating Characteristic Curve (AUCROC) score of 0.97. Our model's strength lies in its comprehensive consideration of cellular spatial patterns, where it first generates cell maps from Hematoxylin and Eosin (H&E) whole slide images (WSIs), which are then fed into a convolutional neural network classification model. Exploiting these cell maps provides the model with robust generalizability to new data, achieving approximately 30% higher accuracy on unseen test-sets compared to current state of the art approaches. The insights derived from our model can be used to predict prognosis, enhancing patient outcomes.
翻訳日:2023-11-28 15:07:05 公開日:2023-11-27
# デュアルバイアス校正による画質評価のための低騒音mosによる学習

Learning with Noisy Low-Cost MOS for Image Quality Assessment via Dual-Bias Calibration ( http://arxiv.org/abs/2311.15846v1 )

ライセンス: Link先を確認
Lei Wang, Qingbo Wu, Desen Yuan, King Ngi Ngan, Hongliang Li, Fanman Meng, and Linfeng Xu(参考訳) 学習に基づく画像品質評価(IQA)モデルは、平均評価スコア(MOS)が最も一般的な選択肢である信頼性の高い主観的品質ラベルの助けを借りて、印象的なパフォーマンスを得た。 しかしながら、個々のアノテータの主観的バイアスを考慮すると、労働環境に配慮したMOS(LA-MOS)は、通常、各画像に対する複数のアノテータからの意見スコアの収集を必要とし、学習コストを大幅に増加させる。 本稿では,低コストMOS (LC-MOS) からロバストIQAモデルを学習することを目的とした。 具体的には、LC-MOSをLA-MOSのノイズ観測とみなし、LC-MOSから学んだIQAモデルを適用し、LA-MOSのバイアスのない推定にアプローチする。 このようにして、LC-MOSとLA-MOSの主観バイアスと、LC-MOSとLA-MOS(二重バイアス)から得られたIQA予測のモデルバイアスを、未知のパラメータを持つ2つの潜在変数として表現する。 予測最大化に基づく交互最適化により、二バイアスのパラメータを共同で推定し、二バイアスキャリブレーション(GDBC)モジュールによるLC-MOSの誤解を抑えることができる。 我々の知る限りでは、これはノイズの多い低コストラベルからの堅牢なIQAモデル学習の最初の調査である。 4つの一般的なIQAデータセットに関する理論的解析と広範な実験により、提案手法は異なるバイアス率とアノテーション数に対して頑健であり、LC-MOSのみが利用できる場合、他の学習ベースIQAモデルよりも大幅に優れていることが示された。 さらに,la-mosで学習した他のモデルと同等の性能を実現する。

Learning based image quality assessment (IQA) models have obtained impressive performance with the help of reliable subjective quality labels, where mean opinion score (MOS) is the most popular choice. However, in view of the subjective bias of individual annotators, the labor-abundant MOS (LA-MOS) typically requires a large collection of opinion scores from multiple annotators for each image, which significantly increases the learning cost. In this paper, we aim to learn robust IQA models from low-cost MOS (LC-MOS), which only requires very few opinion scores or even a single opinion score for each image. More specifically, we consider the LC-MOS as the noisy observation of LA-MOS and enforce the IQA model learned from LC-MOS to approach the unbiased estimation of LA-MOS. In this way, we represent the subjective bias between LC-MOS and LA-MOS, and the model bias between IQA predictions learned from LC-MOS and LA-MOS (i.e., dual-bias) as two latent variables with unknown parameters. By means of the expectation-maximization based alternating optimization, we can jointly estimate the parameters of the dual-bias, which suppresses the misleading of LC-MOS via a gated dual-bias calibration (GDBC) module. To the best of our knowledge, this is the first exploration of robust IQA model learning from noisy low-cost labels. Theoretical analysis and extensive experiments on four popular IQA datasets show that the proposed method is robust toward different bias rates and annotation numbers and significantly outperforms the other learning based IQA models when only LC-MOS is available. Furthermore, we also achieve comparable performance with respect to the other models learned with LA-MOS.
翻訳日:2023-11-28 15:06:48 公開日:2023-11-27
# 電気通信分野における信頼のオントロギング

Ontologising Trustworthy in the Telecommunications Domain ( http://arxiv.org/abs/2311.15839v1 )

ライセンス: Link先を確認
Ian Oliver , Pekka Kuure, Wiktor Sedkowski ,Thore Sommer(参考訳) 信頼性が高く機密性の高いコンピューティングプラットフォームに基づいて、電気通信システムはそれらの上で実行されるプロセスとデータに対して保証されたセキュリティを提供する必要がある。 これにより、信頼できるシステムの提供が求められます。 信頼に値するという用語は、対応する誤解と誤用によって定義が不十分である。 我々は、この用語の定義を、他のものと同様に、特定の電気通信のユースケースに対する適用を実証し、これらの構造のオンロジ化から学んだことが、電気通信規格やホスティング組織におけるFAIRオントロジーの標準化と必要性にどのように貢献するかを論じる。

Based upon trusted and confidential computing platforms, telecommunications systems must provide guaranteed security for the processes and data running atop them. This in turn requires us to provide trustworthy systems. The term trustworthy is poorly defined with corresponding misunderstanding and misapplication. We present a definition of this term, as well as others, demonstrate its application against certain telecommunications use cases and address how the learnings from ontologising these structures contribute to standardisation and the necessity for FAIR ontologies across telecommunications standards and hosting organisations.
翻訳日:2023-11-28 15:06:13 公開日:2023-11-27
# 説明可能性を用いた強化学習モデル保証

Utilizing Explainability Techniques for Reinforcement Learning Model Assurance ( http://arxiv.org/abs/2311.15838v1 )

ライセンス: Link先を確認
Alexander Tapley and Kyle Gatesman and Luis Robaina and Brett Bissey and Joseph Weissman(参考訳) 説明可能な強化学習(XRL)は、Deep Reinforcement Learning(DRL)モデルの意思決定プロセスへの透明性を提供し、現実世界のユースケースにおけるユーザの信頼と採用を高める。 XRL技術を利用することで、研究者はデプロイ前に訓練されたDRLモデル内の潜在的な脆弱性を特定できるため、システムによるミッションの失敗やミスの可能性を制限できる。 本稿では,訓練されたDRLモデルの潜在的な脆弱性と臨界点を,人間の解釈可能な詳細な説明可能性出力を通じて識別するオープンソースPythonライブラリであるARLIN(Assured RL Model Interrogation) Toolkitを紹介する。 arlinの有効性を説明するために、公開のdrlモデルに対して、説明可能性の可視化と脆弱性分析を提供する。 オープンソースコードリポジトリはhttps://github.com/mitre/arlin.comからダウンロードできる。

Explainable Reinforcement Learning (XRL) can provide transparency into the decision-making process of a Deep Reinforcement Learning (DRL) model and increase user trust and adoption in real-world use cases. By utilizing XRL techniques, researchers can identify potential vulnerabilities within a trained DRL model prior to deployment, therefore limiting the potential for mission failure or mistakes by the system. This paper introduces the ARLIN (Assured RL Model Interrogation) Toolkit, an open-source Python library that identifies potential vulnerabilities and critical points within trained DRL models through detailed, human-interpretable explainability outputs. To illustrate ARLIN's effectiveness, we provide explainability visualizations and vulnerability analysis for a publicly available DRL model. The open-source code repository is available for download at https://github.com/mitre/arlin.
翻訳日:2023-11-28 15:06:03 公開日:2023-11-27
# Syn3DWound: 3D描画層解析のための合成データセット

Syn3DWound: A Synthetic Dataset for 3D Wound Bed Analysis ( http://arxiv.org/abs/2311.15836v1 )

ライセンス: Link先を確認
L\'eo Lebrat, Rodrigo Santa Cruz, Remi Chierchia, Yulia Arzhaeva, Mohammad Ali Armin, Joshua Goldsmith, Jeremy Oorloff, Prithvi Reddy, Chuong Nguyen, Lars Petersson, Michelle Barakat-Johnson, Georgina Luscombe, Clinton Fookes, Olivier Salvado, David Ahmedt-Aristizabal(参考訳) 創傷管理は特に寝たきり患者や高齢者にとって大きな課題となる。 正確な診断と治療のモニタリングは、現代の画像分析から著しく恩恵を受け、傷の正確な測定を提供する。 既存のいくつかのテクニックにもかかわらず、拡張的で多様なトレーニングデータセットの不足は、機械学習ベースのフレームワークを構築する上で重要な障害である。 本稿では,2Dおよび3Dアノテーションを用いた高忠実度創傷のオープンソースデータセットであるSyn3DWoundを紹介する。 本稿では,3次元形態素解析と2D/3D創傷分割のためのベースライン法とベンチマークフレームワークを提案する。

Wound management poses a significant challenge, particularly for bedridden patients and the elderly. Accurate diagnostic and healing monitoring can significantly benefit from modern image analysis, providing accurate and precise measurements of wounds. Despite several existing techniques, the shortage of expansive and diverse training datasets remains a significant obstacle to constructing machine learning-based frameworks. This paper introduces Syn3DWound, an open-source dataset of high-fidelity simulated wounds with 2D and 3D annotations. We propose baseline methods and a benchmarking framework for automated 3D morphometry analysis and 2D/3D wound segmentation.
翻訳日:2023-11-28 15:05:49 公開日:2023-11-27
# 慣性に基づく人間活動認識のための時間的行動定位

Temporal Action Localization for Inertial-based Human Activity Recognition ( http://arxiv.org/abs/2311.15831v1 )

ライセンス: Link先を確認
Marius Bock, Michael Moeller, Kristof Van Laerhoven(参考訳) ディープラーニングにおける永続的な傾向は、もともと導入されていた他の分野への機械学習の概念の適用性である。 今日では、ウェアラブルセンサーによる最先端のアクティビティ認識は、データの固定ウィンドウで訓練される分類器に依存している。 ビデオベースのヒューマンアクティビティ認識は、開始から終了までのアクティビティをローカライズするセグメントベースの予測アプローチに従っている。 本稿では,生慣性データを入力として用いたウェアラブルヒューマンアクティビティ・リコンジション(HAR)における最先端のTALモデルの適用性を,初めて体系的に実証した。 その結果、最先端のtalモデルは6つのウェアラブルアクティビティ認識ベンチマークデータセットのうち4つで一般的な慣性モデルよりも優れており、f1-scoreでは最大25%の改善が見られた。 talコミュニティで最もポピュラーなメトリックである平均精度(平均精度)を導入することで、talモデルがすべてのデータセットにまたがる全体的なnullクラス精度とともに、よりコヒーレントなセグメントを生成できることが分かりました。 このような分析を最初に提供したTALコミュニティは、慣性ベースのHARに対して興味深い新たな視点を提供し、設計選択やトレーニングの概念はまだ検討されていないが、慣性ベースのHARコミュニティにとって重要な価値を持つ可能性がある。

A persistent trend in Deep Learning has been the applicability of machine learning concepts to other areas than originally introduced for. As of today, state-of-the-art activity recognition from wearable sensors relies on classifiers being trained on fixed windows of data. Contrarily, video-based Human Activity Recognition has followed a segment-based prediction approach, localizing activity occurrences from start to end. This paper is the first to systematically demonstrate the applicability of state-of-the-art TAL models for wearable Human Activity Recongition (HAR) using raw inertial data as input. Our results show that state-of-the-art TAL models are able to outperform popular inertial models on 4 out of 6 wearable activity recognition benchmark datasets, with improvements ranging as much as 25% in F1-score. Introducing the TAL community's most popular metric to inertial-based HAR, namely mean Average Precision, our analysis shows that TAL models are able to produce more coherent segments along with an overall higher NULL-class accuracy across all datasets. Being the first to provide such an analysis, the TAL community offers an interesting new perspective to inertial-based HAR with yet to be explored design choices and training concepts, which could be of significant value for the inertial-based HAR community.
翻訳日:2023-11-28 15:05:41 公開日:2023-11-27
# A-JEPA: 統合組み込み予測アーキテクチャ

A-JEPA: Joint-Embedding Predictive Architecture Can Listen ( http://arxiv.org/abs/2311.15830v1 )

ライセンス: Link先を確認
Zhengcong Fei, Mingyuan Fan, Junshi Huang(参考訳) 本稿では,大規模視覚モデルの成功を駆動するマスク・モデリングの原理を,潜時空間での予測により効果的に適用できることを示す。 本稿では,音声スペクトルから自己教師付き学習を行うシンプルな拡張手法であるA-JEPAを提案する。 i-jpeaの設計に続いて、a-jepaは、可視オーディオスペクトログラムパッチを、コンテキストエンコーダを介してカリキュラムマスキング戦略で符号化し、よく設計された場所でサンプリングされた領域の表現を予測する。 これらの領域のターゲット表現は、スペクトル全体について、文脈エンコーダの指数的移動平均である \emph{i.e}, 目標エンコーダによって抽出される。 音声スペクトログラムの局所時間と周波数に高度に相関する複雑さを考慮して,ランダムブロックマスキングを時間周波数対応マスキングにカリキュラム的に移行することは有益である。 文脈意味理解とロバスト性を高めるため、入力ドロップやゼロではなく、ターゲットデータセットに正規化マスキングを施したエンコーダを微調整する。 経験的に、Vision Transformers構造で構築すると、A-JEPAは高度にスケーラブルであり、複数のオーディオおよび音声分類タスクで新しい最先端のパフォーマンスを設定できる。

This paper presents that the masked-modeling principle driving the success of large foundational vision models can be effectively applied to audio by making predictions in a latent space. We introduce Audio-based Joint-Embedding Predictive Architecture (A-JEPA), a simple extension method for self-supervised learning from the audio spectrum. Following the design of I-JPEA, our A-JEPA encodes visible audio spectrogram patches with a curriculum masking strategy via context encoder, and predicts the representations of regions sampled at well-designed locations. The target representations of those regions are extracted by the exponential moving average of context encoder, \emph{i.e.}, target encoder, on the whole spectrogram. We find it beneficial to transfer random block masking into time-frequency aware masking in a curriculum manner, considering the complexity of highly correlated in local time and frequency in audio spectrograms. To enhance contextual semantic understanding and robustness, we fine-tune the encoder with a regularized masking on target datasets, instead of input dropping or zero. Empirically, when built with Vision Transformers structure, we find A-JEPA to be highly scalable and sets new state-of-the-art performance on multiple audio and speech classification tasks, outperforming other recent models that use externally supervised pre-training.
翻訳日:2023-11-28 15:05:18 公開日:2023-11-27
# 模擬災害環境における森林火災軽減のための強化学習

Reinforcement Learning for Wildfire Mitigation in Simulated Disaster Environments ( http://arxiv.org/abs/2311.15925v1 )

ライセンス: Link先を確認
Alexander Tapley and Marissa Dotter and Michael Doyle and Aidan Fennelly and Dhanuj Gandikota and Savanna Smith and Michael Threet and Tim Welsh(参考訳) 気候変動により、年間を通じて悪天候や気象条件が増大し、火災の季節が激しさを増している。 効果的な緩和がなければ、これらの火災は生命、財産、生態、文化遺産、重要なインフラに脅威をもたらす。 野火の脅威の増大に備え、対応するためには、より正確な火のモデラーと緩和反応が必要である。 本稿では,実写的な野火シナリオを生成できるように設計された多用途の野火投射シミュレータであるsimfireと,simfire内の土地管理戦略を自動的に生成して地域全体の被害を低減するモジュールエージェントベースの機械学習ラッパーsimharnessを紹介する。 この公開システムにより、研究者や実践者は、消防士の介入の有効性をエミュレートし、評価し、価値の保存と資源割り当ての最適化を優先する戦略計画を策定することができる。 リポジトリはhttps://github.com/mitrefirelineからダウンロードできる。

Climate change has resulted in a year over year increase in adverse weather and weather conditions which contribute to increasingly severe fire seasons. Without effective mitigation, these fires pose a threat to life, property, ecology, cultural heritage, and critical infrastructure. To better prepare for and react to the increasing threat of wildfires, more accurate fire modelers and mitigation responses are necessary. In this paper, we introduce SimFire, a versatile wildland fire projection simulator designed to generate realistic wildfire scenarios, and SimHarness, a modular agent-based machine learning wrapper capable of automatically generating land management strategies within SimFire to reduce the overall damage to the area. Together, this publicly available system allows researchers and practitioners the ability to emulate and assess the effectiveness of firefighter interventions and formulate strategic plans that prioritize value preservation and resource allocation optimization. The repositories are available for download at https://github.com/mitrefireline.
翻訳日:2023-11-28 14:56:50 公開日:2023-11-27
# MetaDefa: 単一ドメインの一般化のためのドメイン拡張と機能アライメントに基づくメタラーニング

MetaDefa: Meta-learning based on Domain Enhancement and Feature Alignment for Single Domain Generalization ( http://arxiv.org/abs/2311.15906v1 )

ライセンス: Link先を確認
Can Sun, Hao Zheng, Zhigang Hu, Liu Yang, Meiguang Zheng, Bo Xu(参考訳) メタラーニングに基づく単一領域一般化(SDG)がドメインシフト問題の解決に有効な手法として登場した。 しかし、ソースと拡張ドメイン間のデータ分布の整合性が不十分であり、ドメイン関連の特徴からドメイン不変の特徴を分離することが難しいため、SDGモデルは非常に一般化が難しい。 そこで,ドメイン拡張と特徴アライメント(MetaDefa)に基づくメタラーニング手法を提案し,モデル一般化性能を向上させる。 まず、背景置換と視覚的汚職技術を用いて、多種多様な効果的な拡張ドメインを生成する。 そして、クラスアクティベーションマップとクラス非アクティベーションマップに基づくマルチチャネル特徴アライメントモジュールを設計し、適切な転送可能性知識を効果的に抽出する。 このモジュールでは、ソースと拡張ドメインの間の類似のターゲット領域に注目し、非類似のターゲット領域の特徴表現を抑制することで、ドメイン不変の機能を完全に探求することができる。 公開されている2つのデータセットに関する広範囲な実験は、metadefaが未知の複数のターゲットドメインにおいて大きな一般化性能の利点を持っていることを示している。

The single domain generalization(SDG) based on meta-learning has emerged as an effective technique for solving the domain-shift problem. However, the inadequate match of data distribution between source and augmented domains and difficult separation of domain-invariant features from domain-related features make SDG model hard to achieve great generalization. Therefore, a novel meta-learning method based on domain enhancement and feature alignment (MetaDefa) is proposed to improve the model generalization performance. First, the background substitution and visual corruptions techniques are used to generate diverse and effective augmented domains. Then, the multi-channel feature alignment module based on class activation maps and class agnostic activation maps is designed to effectively extract adequate transferability knowledge. In this module, domain-invariant features can be fully explored by focusing on similar target regions between source and augmented domains feature space and suppressing the feature representation of non-similar target regions. Extensive experiments on two publicly available datasets show that MetaDefa has significant generalization performance advantages in unknown multiple target domains.
翻訳日:2023-11-28 14:56:35 公開日:2023-11-27
# キリル文字のポストOCR補正のためのデータ生成

Data Generation for Post-OCR correction of Cyrillic handwriting ( http://arxiv.org/abs/2311.15896v1 )

ライセンス: Link先を確認
Evgenii Davydkin, Aleksandr Markelov, Egor Iuldashev, Anton Dudkin, Ivan Krivorotov(参考訳) 本稿では,手書きキリル文字に対するポストオプティカル文字認識補正(POC)の新たなアプローチを提案する。 このギャップは、コーパスサイズが要求される言語ベースのPOCモデルのさらなるトレーニングにOCRエラーを提供する大きなテキストコーパスがないためである。 本研究は主にB'ezier曲線に基づく合成手書き生成エンジンの開発と応用に焦点を当てている。 このようなエンジンは、任意の量で非常にリアルな手書きテキストを生成し、それを利用して、インターネットからソースされたロシアのテキストコーパスを変換することで、実質的なデータセットを作成する。 本データセットに手書きテキスト認識(HTR)モデルを適用し,OCRエラーを識別し,POCモデルトレーニングの基礎となる。 この補正モデルは、事前訓練されたT5アーキテクチャとSeq2seq補正タスクを用いて90シンボル入力コンテキストで訓練される。 HTR領域における課題として,HWR200と School_notebooks_RUデータセットに対するアプローチを評価した。 さらに、POCは教師のエラーを強調し、生徒のパフォーマンスを評価するために使用することができる。 これは単に訂正前後の文を比較し、テキストの相違を表示するだけでできる。 我々の主な貢献は、キリル文字生成におけるB\'ezier曲線の革新的利用と、特殊POCモデルを用いたその後の誤り訂正である。 我々は,手書きキリル文字の実際のオープンコーパスを用いて,単語の精度(WAR)と文字の精度(CAR)の結果をOCR後の訂正の有無にかかわらず提示することで,我々のアプローチを検証する。 これらの結果は,本手法と組み合わせて再現可能であり,OCRと手書きテキスト解析の分野におけるさらなる進歩の道を開くものである。 論文はhttps://github.com/dbrainio/CyrillicHandwritingPOCにある。

This paper introduces a novel approach to post-Optical Character Recognition Correction (POC) for handwritten Cyrillic text, addressing a significant gap in current research methodologies. This gap is due to the lack of large text corporas that provide OCR errors for further training of language-based POC models, which are demanding in terms of corpora size. Our study primarily focuses on the development and application of a synthetic handwriting generation engine based on B\'ezier curves. Such an engine generates highly realistic handwritten text in any amounts, which we utilize to create a substantial dataset by transforming Russian text corpora sourced from the internet. We apply a Handwritten Text Recognition (HTR) model to this dataset to identify OCR errors, forming the basis for our POC model training. The correction model is trained on a 90-symbol input context, utilizing a pre-trained T5 architecture with a seq2seq correction task. We evaluate our approach on HWR200 and School_notebooks_RU datasets as they provide significant challenges in the HTR domain. Furthermore, POC can be used to highlight errors for teachers, evaluating student performance. This can be done simply by comparing sentences before and after correction, displaying differences in text. Our primary contribution lies in the innovative use of B\'ezier curves for Cyrillic text generation and subsequent error correction using a specialized POC model. We validate our approach by presenting Word Accuracy Rate (WAR) and Character Accuracy Rate (CAR) results, both with and without post-OCR correction, using real open corporas of handwritten Cyrillic text. These results, coupled with our methodology, are designed to be reproducible, paving the way for further advancements in the field of OCR and handwritten text analysis. Paper contributions can be found in https://github.com/dbrainio/CyrillicHandwritingPOC
翻訳日:2023-11-28 14:56:16 公開日:2023-11-27
# ハイブリッド古典量子計算アルゴリズムによる稀なタンパク質転移のサンプリング

Sampling a rare protein transition with a hybrid classical-quantum computing algorithm ( http://arxiv.org/abs/2311.15891v1 )

ライセンス: Link先を確認
Danial Ghamari, Roberto Covino, Pietro Faccioli(参考訳) 古典分子動力学(MD)によるマクロ分子の自発的構造再構成のシミュレーションは顕著な課題である。 従来のスーパーコンピュータは数十ドルまでの時間間隔にアクセスできるが、多くの重要なイベントは指数関数的に長い時間スケールで発生する。 遷移経路サンプリング技術は、障壁交差軌道に計算力を集中する利点があるが、様々な共形領域を探索する非相関な遷移経路を生成することは未解決の問題である。 我々は、機械学習(ML)と量子コンピューティング(QC)を組み合わせたパスサンプリングパラダイムを用いてこの問題に対処する。 従来のコンピュータ上でMLを用いてコンフォメーション空間の予備的な未チャート探索を行う。 この探索で生成されたデータセットは後処理され、反応速度のネットワーク表現が得られる。 量子アニーリングマシンは量子重ね合わせを利用して、このネットワーク内の全ての遷移経路を初期量子状態にエンコードし、完全に無相関な遷移経路を生成することができる。 特に、DWAVE量子コンピュータを用いて、ms時間スケールで起こるタンパク質配座遷移の全原子シミュレーションを行う。 この結果はMDシミュレーションを行うために設計された特別目的スーパーコンピュータと一致する。 これらの結果は、量子技術の適用、試験、進歩の基盤としての生体分子シミュレーションの役割を強調している。

Simulating spontaneous structural rearrangements in macromolecules with classical Molecular Dynamics (MD) is an outstanding challenge. Conventional supercomputers can access time intervals up to tens of $\mu$s, while many key events occur on exponentially longer time scales. Transition path sampling techniques have the advantage of focusing the computational power on barrier-crossing trajectories, but generating uncorrelated transition paths that explore diverse conformational regions remains an unsolved problem. We employ a path-sampling paradigm combining machine learning (ML) with quantum computing (QC) to address this issue. We use ML on a classical computer to perform a preliminary uncharted exploration of the conformational space. The data set generated in this exploration is then post-processed to obtain a network representation of the reactive kinetics. Quantum annealing machines can exploit quantum superposition to encode all the transition pathways in this network in the initial quantum state and ensure the generation of completely uncorrelated transition paths. In particular, we resort to the DWAVE quantum computer to perform an all-atom simulation of a protein conformational transition that occurs on the ms timescale. Our results match those of a special purpose supercomputer designed to perform MD simulations. These results highlight the role of biomolecular simulation as a ground for applying, testing, and advancing quantum technologies.
翻訳日:2023-11-28 14:55:46 公開日:2023-11-27
# 神経常微分方程式の安定な初期化

Stability-Informed Initialization of Neural Ordinary Differential Equations ( http://arxiv.org/abs/2311.15890v1 )

ライセンス: Link先を確認
Theodor Westny and Arman Mohammadi and Daniel Jung and Erik Frisk(参考訳) 本稿では,ニューラル正規微分方程式 (Neural Ordinary Differential Equations,neural ODEs) の学習について考察し,特に数値積分法,安定領域,ステップサイズ,初期化技術との相互作用について考察する。 統合手法の選択が学習モデルを暗黙的に正規化する方法と,学習者の安定領域がトレーニングや予測性能にどのように影響するかを示す。 この分析から,安定性インフォームドパラメータ初期化手法を提案する。 初期化手法の有効性は、いくつかの学習ベンチマークと産業応用で示される。

This paper addresses the training of Neural Ordinary Differential Equations (neural ODEs), and in particular explores the interplay between numerical integration techniques, stability regions, step size, and initialization techniques. It is shown how the choice of integration technique implicitly regularizes the learned model, and how the solver's corresponding stability region affects training and prediction performance. From this analysis, a stability-informed parameter initialization technique is introduced. The effectiveness of the initialization method is displayed across several learning benchmarks and industrial applications.
翻訳日:2023-11-28 14:55:24 公開日:2023-11-27
# IIoTデバイスの適応RF指紋認証に向けて

Towards Adaptive RF Fingerprint-based Authentication of IIoT devices ( http://arxiv.org/abs/2311.15888v1 )

ライセンス: Link先を確認
Emmanuel Lomba and Ricardo Severino and Ana Fern\'andez Vilas(参考訳) IoT技術が成熟するにつれて、安全とサイバーセキュリティが極めて重要であるメディカルやインダストリアルIoTといった、よりセンシティブな分野への道を見出している。 デプロイされたIoTデバイスの数は指数関数的に増え続けているが、それでも深刻なサイバーセキュリティ脆弱性が存在する。 効果的な認証は、信頼できるIIoT通信をサポートする上で最重要であるが、現在のソリューションは、不均一なIIoT環境に不適当な上位層のID認証やキーベースの暗号化に焦点を当てている。 本研究では,AI適応型無線周波数フィンガープリント技術の選択とチューニングをPHY層で活用し,RF環境に挑戦する高精度なデバイス認証を実現することにより,強力で柔軟なIIoTデバイス認証を実現するための第一歩を示す。

As IoT technologies mature, they are increasingly finding their way into more sensitive domains, such as Medical and Industrial IoT, in which safety and cyber-security are of great importance. While the number of deployed IoT devices continues to increase exponentially, they still present severe cyber-security vulnerabilities. Effective authentication is paramount to support trustworthy IIoT communications, however, current solutions focus on upper-layer identity verification or key-based cryptography which are often inadequate to the heterogeneous IIoT environment. In this work, we present a first step towards achieving powerful and flexible IIoT device authentication, by leveraging AI adaptive Radio Frequency Fingerprinting technique selection and tuning, at the PHY layer for highly accurate device authentication over challenging RF environments.
翻訳日:2023-11-28 14:55:13 公開日:2023-11-27
# FLASC:クラスタ内の分岐を検出するためのHDBSCAN*の拡張

FLASC: A Flare-Sensitive Clustering Algorithm: Extending HDBSCAN* for Detecting Branches in Clusters ( http://arxiv.org/abs/2311.15887v1 )

ライセンス: Link先を確認
D. M. Bot, J. Peeters, J. Liesenborgs, J. Aerts(参考訳) フレアセンシティブクラスタリングのためのアルゴリズムflascを提案する。 我々のアルゴリズムは、検出されたクラスタの多様体内の分岐を識別する後処理ステップを通じて、高品質な密度ベースのクラスタリング性能を提供するHDBSCAN*の上に構築され、検出可能なパターンの種類が追加される。 アルゴリズムの2つの変種が提示され、ノイズの堅牢性に対する計算コストが取引される。 両変種は計算コストの観点からHDBSCAN*と類似してスケールし、合成データセットを用いて安定した出力を提供し、効率的なフレア感応性クラスタリングアルゴリズムを実現する。 さらに,HDBSCAN*クラスタリングによる2つの実世界のデータセット上のデータ探索におけるアルゴリズムの利点を示す。

We present FLASC, an algorithm for flare-sensitive clustering. Our algorithm builds upon HDBSCAN* -- which provides high-quality density-based clustering performance -- through a post-processing step that differentiates branches within the detected clusters' manifold, adding a type of pattern that can be discovered. Two variants of the algorithm are presented, which trade computational cost for noise robustness. We show that both variants scale similarly to HDBSCAN* in terms of computational cost and provide stable outputs using synthetic data sets, resulting in an efficient flare-sensitive clustering algorithm. In addition, we demonstrate the algorithm's benefit in data exploration over HDBSCAN* clustering on two real-world data sets.
翻訳日:2023-11-28 14:54:58 公開日:2023-11-27
# 量子関数の量子多対数時間計算可能性を取り込む基本量子再帰スキーム

Elementary Quantum Recursion Schemes That Capture Quantum Polylogarithmic Time Computability of Quantum Functions ( http://arxiv.org/abs/2311.15884v1 )

ライセンス: Link先を確認
Tomoyuki Yamakami(参考訳) 量子コンピューティングは、過去40年間、量子回路と量子チューリングマシンの2つの計算モデルに基づいて研究されてきた。 量子多項式時間計算性を捉えるために, 山上(J. Symb. Logic 80, pp. 1546-1587, 2020)により, 6つの初期量子関数と合成,分岐,多ビット量子再帰の3つの構成スキームを構成する再帰的スキーマ定義を用いて, 新たな再帰論的アプローチを最近行った。 同様のアプローチをとることで、量子対数時間計算可能性を調べ、そのような量子計算のために設計された基本スキームの表現力をさらに探究する。 特に、高速量子再帰(fast quantum recursion)と呼ばれる量子再帰の基本形式を導入し、"要素的"量子関数のeqs(elementary quantum schemes)を定式化する。 このクラスEQSは、BQPOLYLOGTIMEで表される正確に量子対数時間計算性をキャプチャする。 また,NLOGTIMEとPPOLYLOGTIMEの分離を実証した。 EQSの自然な拡張として、よく知られた分割・参照戦略を実装するアルゴリズム的な手続きスキームについても検討する。 この分譲・分譲方式はパリティ関数の計算に役立ちますが,システムEQSでは実現できません。

Quantum computing has been studied over the past four decades based on two computational models of quantum circuits and quantum Turing machines. To capture quantum polynomial-time computability, a new recursion-theoretic approach was taken lately by Yamakami [J. Symb. Logic 80, pp. 1546--1587, 2020] by way of recursion schematic definitions, which constitute six initial quantum functions and three construction schemes of composition, branching, and multi-qubit quantum recursion. By taking a similar approach, we look into quantum logarithmic-time computability and further explore the expressing power of elementary schemes designed for such quantum computation. In particular, we introduce an elementary form of the quantum recursion, called the fast quantum recursion and formulate EQS (elementary quantum schemes) of "elementary" quantum functions. This class EQS captures exactly quantum logarithmic-time computability, represented by BQPOLYLOGTIME. We also demonstrate the separation of BQPOLYLOGTIME from NLOGTIME and PPOLYLOGTIME. As a natural extension of EQS, we further consider an algorithmic procedural scheme that implements the well-known divide-and-conquer strategy. This divide-and-conquer scheme helps compute the parity function but the scheme cannot be realized within our system EQS.
翻訳日:2023-11-28 14:54:45 公開日:2023-11-27
# EVCap: オープンワールド理解のための外部ビジュアルネームメモリを備えた検索拡張イメージキャプション

EVCap: Retrieval-Augmented Image Captioning with External Visual-Name Memory for Open-World Comprehension ( http://arxiv.org/abs/2311.15879v1 )

ライセンス: Link先を確認
Jiaxuan Li, Duc Minh Vo, Akihiro Sugimoto, Hideki Nakayama(参考訳) 大規模言語モデル(LLM)に基づく画像キャプションは、トレーニングデータで明示的に観察されていないオブジェクトを記述する能力を持つが、新しいオブジェクトは頻繁に発生し、オープンワールドの理解のために最新のオブジェクト知識を維持する必要がある。 大量のデータに頼らず、ネットワークパラメータをスケールアップする代わりに、外部視覚名メモリ(EVCap)から取得したオブジェクト名でLLMを高速に検索する画像キャプション手法を導入する。 オブジェクトのビジュアルと名前を使って、絶えず変化するオブジェクト知識メモリを構築します。 (i)最小限のコストでメモリを更新し、 (II)軽量かつ高速な列車モデルを用いたオブジェクト名検索によるLCMの強化。 我々のモデルはCOCOデータセットでのみトレーニングされており、追加の微調整や再トレーニングをすることなく、ドメイン外のデータに適応することができる。 各種ベンチマークおよび合成コモンセンス違反データを用いて実施した総合実験により,3.97Mのトレーニング可能なパラメータのみからなるEVCapは,同等のモデルサイズスケールの他の手法に比べて優れた性能を示した。 特に、非常に多くのパラメータを持つ専門のSOTAに対して、競争性能を達成する。 私たちのコードはhttps://jiaxuan-li.github.io/EVCapで公開されています。

Large language models (LLMs)-based image captioning has the capability of describing objects not explicitly observed in training data; yet novel objects occur frequently, necessitating the requirement of sustaining up-to-date object knowledge for open-world comprehension. Instead of relying on large amounts of data and scaling up network parameters, we introduce a highly effective retrieval-augmented image captioning method that prompts LLMs with object names retrieved from External Visual--name memory (EVCap). We build ever-changing object knowledge memory using objects' visuals and names, enabling us to (i) update the memory at a minimal cost and (ii) effortlessly augment LLMs with retrieved object names utilizing a lightweight and fast-to-train model. Our model, which was trained only on the COCO dataset, can be adapted to out-domain data without additional fine-tuning or retraining. Our comprehensive experiments conducted on various benchmarks and synthetic commonsense-violating data demonstrate that EVCap, comprising solely 3.97M trainable parameters, exhibits superior performance compared to other methods of equivalent model size scale. Notably, it achieves competitive performance against specialist SOTAs with an enormous number of parameters. Our code is available at https://jiaxuan-li.github.io/EVCap.
翻訳日:2023-11-28 14:54:20 公開日:2023-11-27
# 分散福祉を伴う個別治療配置

Individualized Treatment Allocations with Distributional Welfare ( http://arxiv.org/abs/2311.15878v1 )

ライセンス: Link先を確認
Yifan Cui, Sukjin Han(参考訳) 本稿では,分配福祉を対象とする最適治療配分政策について検討する。 治療選択に関する文献の多くは、条件付き平均治療効果(ATE)に基づく実用的福祉を考察している。 平均的な福祉は直感的であるが、特に個人が不均一な場合(例えば、不均一な場合)に好ましくない割り当てをもたらす可能性がある。 本研究の目的は, 個別治療効果の条件付き 'emph{quantile of individual treatment effect} (QoTE) に基づいて治療を割り当てる最適な政策を提案することである。 量的確率の選択によっては、この基準は慎重または無神経な政策立案者に対応することができる。 QoTEを特定することの課題は、実験データにおいても回復が困難である対実的な結果の共分散に関する知識の要求にある。 そこで我々は,不確実性のモデル化にロバストなミニマックス最適ポリシーを導入する。 次に、QoTEを指差す、あるいは部分的に識別できる仮定の特定範囲を提案する。 提案された方針を履行したことの後悔に基づく漸近的な境界を確立する。 我々は確率的および決定論的ルールの両方を考慮する。 シミュレーションと2つの経験的応用において、QoTEに基づく最適決定と他の基準に基づく決定を比較する。

In this paper, we explore optimal treatment allocation policies that target distributional welfare. Most literature on treatment choice has considered utilitarian welfare based on the conditional average treatment effect (ATE). While average welfare is intuitive, it may yield undesirable allocations especially when individuals are heterogeneous (e.g., with outliers) - the very reason individualized treatments were introduced in the first place. This observation motivates us to propose an optimal policy that allocates the treatment based on the conditional \emph{quantile of individual treatment effects} (QoTE). Depending on the choice of the quantile probability, this criterion can accommodate a policymaker who is either prudent or negligent. The challenge of identifying the QoTE lies in its requirement for knowledge of the joint distribution of the counterfactual outcomes, which is generally hard to recover even with experimental data. Therefore, we introduce minimax optimal policies that are robust to model uncertainty. We then propose a range of identifying assumptions under which we can point or partially identify the QoTE. We establish the asymptotic bound on the regret of implementing the proposed policies. We consider both stochastic and deterministic rules. In simulations and two empirical applications, we compare optimal decisions based on the QoTE with decisions based on other criteria.
翻訳日:2023-11-28 14:53:58 公開日:2023-11-27
# RO-LLaMA:騒音増強と一貫性規則化による放射線腫瘍学一般LLM

RO-LLaMA: Generalist LLM for Radiation Oncology via Noise Augmentation and Consistency Regularization ( http://arxiv.org/abs/2311.15876v1 )

ライセンス: Link先を確認
Kwanyoung Kim, Yujin Oh, Sangjoon Park, Hwa Kyung Byun, Jin Sung Kim, Yong Bae Kim, Jong Chul Ye(参考訳) 近年の人工知能(ai)の進歩は、臨床作業を減らすツールを提供することで医療分野に大きな影響を与えている。 しかし、ほとんどのAIモデルは、医療専門家が利用する包括的なアプローチとは対照的に、ユニモーダルタスクの実行に制約されている。 そこで本研究では,放射線腫瘍学の分野に適した汎用汎用大規模言語モデル(LLM)であるRO-LLaMAについて述べる。 本モデルは,臨床報告の要約,放射線治療計画の提案,計画誘導療法のボリュームセグメンテーションなど,幅広い放射線腫瘍専門医のワークフローをシームレスにカバーする。 特に,エンド・ツー・エンドのパフォーマンスを最大化するために,中間部における追加エラーに対するllmの頑健性を高めるとともに,クリーン入力の処理能力を維持しつつ,この概念を,一貫性埋め込みセグメンテーション(ceseg)としてllm駆動セグメンテーションフレームワークに創造的に変換する,新たな一貫性埋め込みファインチューニング(ceftune)手法を提案する。 多中心コホート集合の実験結果から,一般化機能を持つ多様なタスクに対するRO-LLaMAの有望な性能を示す。

Recent advancements in Artificial Intelligence (AI) have profoundly influenced medical fields, by providing tools to reduce clinical workloads. However, most AI models are constrained to execute uni-modal tasks, in stark contrast to the comprehensive approaches utilized by medical professionals. To address this, here we present RO-LLaMA, a versatile generalist large language model (LLM) tailored for the field of radiation oncology. This model seamlessly covers a wide range of the workflow of radiation oncologists, adept at various tasks such as clinical report summarization, radiation therapy plan suggestion, and plan-guided therapy target volume segmentation. In particular, to maximize the end-to-end performance, we further present a novel Consistency Embedding Fine-Tuning (CEFTune) technique, which boosts LLM's robustness to additional errors at the intermediates while preserving the capability of handling clean inputs, and creatively transform this concept into LLM-driven segmentation framework as Consistency Embedding Segmentation (CESEG). Experimental results on multi-centre cohort sets demonstrate our proposed RO-LLaMA's promising performance for diverse tasks with generalization capabilities.
翻訳日:2023-11-28 14:53:40 公開日:2023-11-27
# 水のネットワークにおけるデータ駆動漏洩位置推定のための無音カルマンフィルタによる潮水頭推定

Nodal Hydraulic Head Estimation through Unscented Kalman Filter for Data-driven Leak Localization in Water Networks ( http://arxiv.org/abs/2311.15875v1 )

ライセンス: Link先を確認
Luis Romero-Ben, Paul Irofti, Florin Stoican and Vicen\c{c} Puig(参考訳) 本稿では,非香気カルマンフィルタ(unscented kalman filter, ukf)に基づく配水ネットワークにおける非晶質水頭推定手法と漏洩位置推定への応用について述べる。 ukfは予測モデルと利用可能な圧力と需要の測定を考慮し、水圧状態の初期推定を洗練している。 この目的のために、カスタマイズされた予測とデータ同化ステップを提供する。 さらに、予測関数の重み行列を動的に更新することにより、その方法を強化する。 現実的な条件下でのモデナベンチマークのパフォーマンステストは、状態推定とデータ駆動のリークローカライゼーションを向上させる方法の有効性を示す。

In this paper, we present a nodal hydraulic head estimation methodology for water distribution networks (WDN) based on an Unscented Kalman Filter (UKF) scheme with application to leak localization. The UKF refines an initial estimation of the hydraulic state by considering the prediction model, as well as available pressure and demand measurements. To this end, it provides customized prediction and data assimilation steps. Additionally, the method is enhanced by dynamically updating the prediction function weight matrices. Performance testing on the Modena benchmark under realistic conditions demonstrates the method's effectiveness in enhancing state estimation and data-driven leak localization.
翻訳日:2023-11-28 14:53:15 公開日:2023-11-27
# 量子時間の複雑さを和らげる

Taming Quantum Time Complexity ( http://arxiv.org/abs/2311.15873v1 )

ライセンス: Link先を確認
Aleksandrs Belovs, Stacey Jeffery, Duyal Yolcu(参考訳) 量子クエリの複雑性には、合成に関していくつかの優れた特性がある。 まず、境界エラー量子クエリアルゴリズムは、エラー低減(実効性)によってログファクタを発生させることなく構成できる。 第二に、注意深い会計 (thriftiness) を通じて、サブルーチンがより安価な入力で実行される場合、クエリ全体の複雑さは小さくなります。 これらの性質は、以前はスパンプログラムのモデルを通して見られたが、最近の2人の著者 (Belovs, Yolcu 2023) による研究は、量子ラスベガスのクエリ複雑性を定義することによって、スパンプログラムに変換せずにこれらの利点を実現する方法を示した。 独立して、著者の1人(jeffery 2022)を含む最近の研究は、量子時間複雑性のより実質的な設定に難解さをもたらすために取り組んできた。 本稿では,時間複雑性の設定において,厳密性と難解性の両方を達成する方法を示す。 我々はJeffery 2022の量子サブルーチン合成結果を一般化し、特にエラーの低減は不要である。 量子クエリー複雑性におけるよく知られた結果の時間複雑性バージョン、$q(f\circ) g)=O(Q) (f)\cdot Q (g)$、ログファクタなし。 我々は、量子アルゴリズムの設計に新しいアプローチを採用し、これをトランスデューサ(transducers)と呼ぶものに基づいて実現している。 スパンプログラムは完全に異なる計算モデルであるが、トランスデューサは量子アルゴリズムの直接的な一般化であり、透明性と制御をより大きくすることができる。 トランスデューサは、決定問題だけでなく、一般的な状態変換を自然に特徴付け、量子ウォークのような他の量子プリミティブの非常に単純な処理を提供し、時間複雑性解析によく役立てる。

Quantum query complexity has several nice properties with respect to composition. First, bounded-error quantum query algorithms can be composed without incurring log factors through error reduction (exactness). Second, through careful accounting (thriftiness), the total query complexity is smaller if subroutines are mostly run on cheaper inputs -- a property that is much less obvious in quantum algorithms than in their classical counterparts. While these properties were previously seen through the model of span programs (alternatively, the dual adversary bound), a recent work by two of the authors (Belovs, Yolcu 2023) showed how to achieve these benefits without converting to span programs, by defining quantum Las Vegas query complexity. Independently, recent works, including by one of the authors (Jeffery 2022), have worked towards bringing thriftiness to the more practically significant setting of quantum time complexity. In this work, we show how to achieve both exactness and thriftiness in the setting of time complexity. We generalize the quantum subroutine composition results of Jeffery 2022 so that, in particular, no error reduction is needed. We give a time complexity version of the well-known result in quantum query complexity, $Q(f\circ g)=O(Q(f)\cdot Q(g))$, without log factors. We achieve this by employing a novel approach to the design of quantum algorithms based on what we call transducers, and which we think is of large independent interest. While a span program is a completely different computational model, a transducer is a direct generalisation of a quantum algorithm, which allows for much greater transparency and control. Transducers naturally characterize general state conversion, rather than only decision problems; provide a very simple treatment of other quantum primitives such as quantum walks; and lend themselves well to time complexity analysis.
翻訳日:2023-11-28 14:53:04 公開日:2023-11-27
# 線形物質パワースペクトルの正確な記号エミュレータ

A precise symbolic emulator of the linear matter power spectrum ( http://arxiv.org/abs/2311.15865v1 )

ライセンス: Link先を確認
Deaglan J. Bartlett, Lukas Kammerer, Gabriel Kronberger, Harry Desmond, Pedro G. Ferreira, Benjamin D. Wandelt, Bogdan Burlacu, David Alonso and Matteo Zennaro(参考訳) 物質パワースペクトル ($p(k)$) を宇宙論的パラメータの関数として計算することは、宇宙論的解析において制限的に遅くなるため、この計算をエミュレートすることが望ましい。 従来の解析近似は現代の応用では不十分であり、ブラックボックス、非解釈エミュレータがしばしば用いられる。 我々は、効率的な遺伝的プログラミングに基づく記号回帰フレームワークを用いて、パワースペクトルと$\sigma_8$を近似できる潜在的な数学的表現の空間を探索する。 我々は、P(k)$の既存の低精度適合関数とボルツマン方程式を解くことで得られるものとの比を学習し、なおもこの初期の近似を動機づけた物理学を取り入れている。 我々は、yk = 9\times10^{-3} - 9 \, h{\rm \, mpc^{-1}} の間と幅広い宇宙パラメータの間の間に、根平均二乗分数誤差 0.2% の線形パワースペクトルに対する解析的近似を求め、表現における様々な項に対する物理的解釈を提供する。 また、同様の精度で$\sigma_8$の簡単な解析近似を提供し、同じ範囲の宇宙で評価すると、根平均二乗分数誤差はわずか0.4%である。 この関数は容易に可逆的であり、好ましくは$\sigma_8$の関数として$a_{\rm s}$を得ることができる。 深層学習技術に頼ることなく、現在および将来の宇宙分析に必要な精度で、一見複雑な関数に対する記号近似を得ることができ、ブラックボックスの性質や多数のパラメータを避けることができる。 私たちのエミュレータは、数値近似が構築されるコードが時代遅れになってからずっと使えるでしょう。

Computing the matter power spectrum, $P(k)$, as a function of cosmological parameters can be prohibitively slow in cosmological analyses, hence emulating this calculation is desirable. Previous analytic approximations are insufficiently accurate for modern applications, so black-box, uninterpretable emulators are often used. We utilise an efficient genetic programming based symbolic regression framework to explore the space of potential mathematical expressions which can approximate the power spectrum and $\sigma_8$. We learn the ratio between an existing low-accuracy fitting function for $P(k)$ and that obtained by solving the Boltzmann equations and thus still incorporate the physics which motivated this earlier approximation. We obtain an analytic approximation to the linear power spectrum with a root mean squared fractional error of 0.2% between $k = 9\times10^{-3} - 9 \, h{\rm \, Mpc^{-1}}$ and across a wide range of cosmological parameters, and we provide physical interpretations for various terms in the expression. We also provide a simple analytic approximation for $\sigma_8$ with a similar accuracy, with a root mean squared fractional error of just 0.4% when evaluated across the same range of cosmologies. This function is easily invertible to obtain $A_{\rm s}$ as a function of $\sigma_8$ and the other cosmological parameters, if preferred. It is possible to obtain symbolic approximations to a seemingly complex function at a precision required for current and future cosmological analyses without resorting to deep-learning techniques, thus avoiding their black-box nature and large number of parameters. Our emulator will be usable long after the codes on which numerical approximations are built become outdated.
翻訳日:2023-11-28 14:52:32 公開日:2023-11-27
# InterControl: 全関節制御による人間の動作インタラクションの生成

InterControl: Generate Human Motion Interactions by Controlling Every Joint ( http://arxiv.org/abs/2311.15864v1 )

ライセンス: Link先を確認
Zhenzhi Wang, Jingbo Wang, Dahua Lin, Bo Dai(参考訳) テキスト条件付き人間の動き生成モデルは拡散モデルと対応する制御信号を導入することで大きな進歩を遂げた。 しかし、人間同士の相互作用はまだ検討中である。 任意の数の人間の相互作用をモデル化するために、相互作用を接触または分離されたヒトの関節対として定義し、相互作用記述を接触計画に翻訳するために {\em Large Language Model (LLM) Planner} を利用する。 接触計画に基づいて、関節接触を空間条件とする空間制御可能な運動生成法により、相互作用生成を実現することができる。 本稿では,一人称データのみを訓練した運動拡散モデルを用いて,任意の時点における各関節の柔軟な空間制御のためのintercontrolという新しい手法を提案する。 Inverse Kinematics (IK) を用いた分類器誘導方式で, 粗い空間制御信号が与えられたコヒーレントで現実的な動きを生成するためのモーション制御ネットと, 任意の関節を所望の位置に正確に整合させるための損失誘導モジュールを組み込んだ。 HumanML3DとKIT-MLデータセットの大規模な実験は、多目的関節制御におけるその効果を実証している。 また,人間のインタラクション生成におけるInterControlの能力を示すために,LLMによる関節接触対のデータも収集する。

Text-conditioned human motion generation model has achieved great progress by introducing diffusion models and corresponding control signals. However, the interaction between humans are still under explored. To model interactions of arbitrary number of humans, we define interactions as human joint pairs that are either in contact or separated, and leverage {\em Large Language Model (LLM) Planner} to translate interaction descriptions into contact plans. Based on the contact plans, interaction generation could be achieved by spatially controllable motion generation methods by taking joint contacts as spatial conditions. We present a novel approach named InterControl for flexible spatial control of every joint in every person at any time by leveraging motion diffusion model only trained on single-person data. We incorporate a motion controlnet to generate coherent and realistic motions given sparse spatial control signals and a loss guidance module to precisely align any joint to the desired position in a classifier guidance manner via Inverse Kinematics (IK). Extensive experiments on HumanML3D and KIT-ML dataset demonstrate its effectiveness in versatile joint control. We also collect data of joint contact pairs by LLMs to show InterControl's ability in human interaction generation.
翻訳日:2023-11-28 14:51:41 公開日:2023-11-27
# CheapNET:投影損失関数による軽量音声強調ネットワークの改善

CheapNET: Improving Light-weight speech enhancement network by projected loss function ( http://arxiv.org/abs/2311.15959v1 )

ライセンス: Link先を確認
Kaijun Tan, Benzhe Dai, Jiakui Li, Wenyu Mao(参考訳) 雑音抑制とエコーキャンセリングは音声強調に重要であり、スマートデバイスやリアルタイム通信に不可欠である。 音声処理のフロントエンドとエッジデバイスにデプロイされるこれらのアルゴリズムは、低計算要求で効率的なリアルタイム推論を保証する必要がある。 従来のエッジベースノイズ抑圧は、しばしばMSEベースの振幅スペクトルマスクトレーニングを使用するが、このアプローチには制限がある。 我々は,MSEから分岐した新しい投射損失関数を導入し,雑音抑制を向上する。 本手法は提案手法を用いて重要音成分をノイズから分離し,モデル性能を大幅に向上させる。 エコーキャンセレーションでは、laecプリプロセス出力の直接予測が可能となり、性能が大幅に向上する。 ノイズ抑圧モデルは3.1mパラメータと0.4gflops/s計算負荷で最先端に近い結果を得る。 さらに, エコーキャンセリングモデルは, 産業主導型モデルよりも優れ, 音声強調の新しい視点を導入している。

Noise suppression and echo cancellation are critical in speech enhancement and essential for smart devices and real-time communication. Deployed in voice processing front-ends and edge devices, these algorithms must ensure efficient real-time inference with low computational demands. Traditional edge-based noise suppression often uses MSE-based amplitude spectrum mask training, but this approach has limitations. We introduce a novel projection loss function, diverging from MSE, to enhance noise suppression. This method uses projection techniques to isolate key audio components from noise, significantly improving model performance. For echo cancellation, the function enables direct predictions on LAEC pre-processed outputs, substantially enhancing performance. Our noise suppression model achieves near state-of-the-art results with only 3.1M parameters and 0.4GFlops/s computational load. Moreover, our echo cancellation model outperforms replicated industry-leading models, introducing a new perspective in speech enhancement.
翻訳日:2023-11-28 14:43:27 公開日:2023-11-27
# 変換幾何および多様体に対する物理学的不定形ニューラルネットワーク

Physics-informed neural networks for transformed geometries and manifolds ( http://arxiv.org/abs/2311.15940v1 )

ライセンス: Link先を確認
Samuel Burbulla(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、物理原理を機械学習に効果的に組み込むが、複雑または交互なジオメトリに苦しむことが多い。 そこで本研究では, PINN内に幾何変換を統合する手法を提案する。 本手法は、参照領域の写像として微分同相を組み込み、物理インフォームド損失関数の微分計算を適用する。 これにより、PINNは滑らかに変形した領域だけでなく、低次元多様体にも適用でき、ネットワークのトレーニング中に直接形状最適化が可能となる。 いくつかの問題に対する我々のアプローチの効果を示す。 (i)アルキメデススパイラルの固有方程式 (ii)表面多様体上のポアソン問題 (iii)変形管内の非圧縮性ストークス流、及び (iv)ラプラス演算子による形状最適化。 これらの例を通して,従来のピンの柔軟性,特に幾何学的変動について述べる。 提案したフレームワークは、パラメータ化されたジオメトリよりも深いニューラル演算子を訓練するための見通しを示し、科学と工学における複雑なジオメトリ上のPDEを用いた高度なモデリングの道を開く。

Physics-informed neural networks (PINNs) effectively embed physical principles into machine learning, but often struggle with complex or alternating geometries. We propose a novel method for integrating geometric transformations within PINNs to robustly accommodate geometric variations. Our method incorporates a diffeomorphism as a mapping of a reference domain and adapts the derivative computation of the physics-informed loss function. This generalizes the applicability of PINNs not only to smoothly deformed domains, but also to lower-dimensional manifolds and allows for direct shape optimization while training the network. We demonstrate the effectivity of our approach on several problems: (i) Eikonal equation on Archimedean spiral, (ii) Poisson problem on surface manifold, (iii) Incompressible Stokes flow in deformed tube, and (iv) Shape optimization with Laplace operator. Through these examples, we demonstrate the enhanced flexibility over traditional PINNs, especially under geometric variations. The proposed framework presents an outlook for training deep neural operators over parametrized geometries, paving the way for advanced modeling with PDEs on complex geometries in science and engineering.
翻訳日:2023-11-28 14:43:11 公開日:2023-11-27
# Prompt-driven Nucleus Instance Segmentation のパワーを解放する

Unleashing the Power of Prompt-driven Nucleus Instance Segmentation ( http://arxiv.org/abs/2311.15939v1 )

ライセンス: Link先を確認
Zhongyi Shui and Yunlong Zhang and Kai Yao and Chenglu Zhu and Yuxuan Sun and Lin Yang(参考訳) 組織像における核インスタンスのセグメンテーションは、幅広い臨床応用に不可欠である。 現在の一般的な核インスタンスセグメンテーションアルゴリズムは、核輪郭の回帰、距離マップ、流域マーカー、あるいは恒星凸多角形のプロキシ核表現に依存する。 したがって、これらの方法は、エラーになりやすくパラメータに敏感であると一般に認識される核インスタンスを区別するために、洗練された後処理操作を必要とする。 近年,segment anything model (sam) が医用画像セグメンテーションの分野で注目されている。 それでも、核インスタンスのセグメンテーションに対するその可能性はほとんど未調査のままである。 本稿では,ポイントプロンプトと自動核インスタンスセグメンテーションのためのSAMから構成される新しいプロンプト駆動フレームワークを提案する。 具体的には、SAMが微調整されてキュード核の対応するマスクが出力される間、プロンプトは各核に対してユニークな点プロンプトを生成することを学習する。 さらに, 隣接核を負のプロンプトとして付加し, 重なり合う核を認識する能力を促進することを提案する。 提案手法では,3つの難解なベンチマークで最先端のパフォーマンスを新たに設定する。 私たちのコードは、textcolor{magenta}{\url{https://github.com/windygoo/PromptNucSeg}}で利用可能です。

Nuclear instance segmentation in histology images is crucial for a broad spectrum of clinical applications. Current prevailing nuclear instance segmentation algorithms rely on regression of nuclei contours, distance maps, watershed markers or a proxy nuclear representation of star-convex polygons. Consequently, these methods necessitate sophisticated post-processing operations to distinguish nuclei instances, which are commonly acknowledged to be error-prone and parameter-sensitive. Recently, the segment anything model (SAM) has earned attracted huge attention within the domain of medical image segmentation due to its impressive generalization ability and promptable property. Nevertheless, its potential on nuclear instance segmentation remains largely underexplored. In this paper, we present a novel prompt-driven framework that consists of a point prompter and a SAM for automatic nuclei instance segmentation. Specifically, the prompter learns to generate a unique point prompt for each nucleus while the SAM is fine tuned to output the corresponding mask of the cued nucleus. Furthermore, we propose to add adjacent nuclei as negative prompts to promote the model's ability to recognize overlapping nuclei. Without bells and whistles, our proposed method sets a new state-of-the-art performance on three challenging benchmarks. Our code is available at \textcolor{magenta}{\url{https://github.com/windygoo/PromptNucSeg}} .
翻訳日:2023-11-28 14:42:52 公開日:2023-11-27
# 視覚位置認識のための最適輸送集約

Optimal Transport Aggregation for Visual Place Recognition ( http://arxiv.org/abs/2311.15937v1 )

ライセンス: Link先を確認
Sergio Izquierdo, Javier Civera(参考訳) ビジュアルプレイス認識(vpr)のタスクは、視覚的な手がかりのみに頼りながら、異なる場所からの広範な画像データベースからの参照に対してクエリイメージをマッチングすることを目的としている。 state-of-the-artパイプラインは、ディープバックボーンから抽出された機能の集約に注目し、各イメージのグローバルディスクリプタを形成する。 本稿では,SALAD(Sinkhorn Algorithm for Locally Aggregated Descriptors)を導入し,NetVLADの局所特徴のソフトアサインを最適な輸送問題としてクラスタに再構成する。 サラダでは,クラスタ間およびクラスタ間関係を検討するとともに,非インフォーマティブと考えられる機能を選択的に破棄し,全体的なディスクリプタ品質を向上させるために設計された"ダストビン"クラスタも導入する。 さらに、DINOv2をバックボーンとして微調整し、ローカル機能の記述能力を強化し、必要なトレーニング時間を劇的に短縮します。 その結果,提案手法は,公開vprデータセットの単段ベースラインを超過するだけでなく,コストの高い再ランク付けを行う二段法を超過する。 コードとモデルはhttps://github.com/serizba/saladで入手できる。

The task of Visual Place Recognition (VPR) aims to match a query image against references from an extensive database of images from different places, relying solely on visual cues. State-of-the-art pipelines focus on the aggregation of features extracted from a deep backbone, in order to form a global descriptor for each image. In this context, we introduce SALAD (Sinkhorn Algorithm for Locally Aggregated Descriptors), which reformulates NetVLAD's soft-assignment of local features to clusters as an optimal transport problem. In SALAD, we consider both feature-to-cluster and cluster-to-feature relations and we also introduce a 'dustbin' cluster, designed to selectively discard features deemed non-informative, enhancing the overall descriptor quality. Additionally, we leverage and fine-tune DINOv2 as a backbone, which provides enhanced description power for the local features, and dramatically reduces the required training time. As a result, our single-stage method not only surpasses single-stage baselines in public VPR datasets, but also surpasses two-stage methods that add a re-ranking with significantly higher cost. Code and models are available at https://github.com/serizba/salad.
翻訳日:2023-11-28 14:42:30 公開日:2023-11-27
# 生物デザインツールの責任あるガバナンスに向けて

Towards Responsible Governance of Biological Design Tools ( http://arxiv.org/abs/2311.15936v1 )

ライセンス: Link先を確認
Richard Moulange, Max Langenkamp, Tessa Alexanian, Samuel Curtis, Morgan Livingston(参考訳) 生成機械学習の最近の進歩は、タンパク質構造やシーケンス予測モデルなどの生物設計ツール(BDT)の急速な進歩を可能にしている。 前例のないBDTの予測精度と新規設計能力は、新しい重要な二重利用リスクをもたらす。 例えば、それらの予測精度は、ワクチンや病原体などの生物学的エージェントをより迅速に開発することを可能にし、その設計能力は薬物の発見やDNAスクリーニングの回避に利用できる。 他のデュアルユースAIシステムと同様、BDTも悪質な問題を抱えている。 我々は、大規模な言語モデルに主に適合する現在の規制提案が、トレーニングする計算リソースを少なくし、しばしばオープンソースで開発されるBDTにとって、いかに効果が低いかを強調した。 我々は、bdtが誤用されるリスクを軽減し、責任ある開発、リスクアセスメント、透明性、アクセス管理、サイバーセキュリティ、レジリエンス投資の分野にまたがる幅広い対策を提案する。 このような措置を実施するには、開発者と政府間の緊密な調整が必要である。

Recent advancements in generative machine learning have enabled rapid progress in biological design tools (BDTs) such as protein structure and sequence prediction models. The unprecedented predictive accuracy and novel design capabilities of BDTs present new and significant dual-use risks. For example, their predictive accuracy allows biological agents, whether vaccines or pathogens, to be developed more quickly, while the design capabilities could be used to discover drugs or evade DNA screening techniques. Similar to other dual-use AI systems, BDTs present a wicked problem: how can regulators uphold public safety without stifling innovation? We highlight how current regulatory proposals that are primarily tailored toward large language models may be less effective for BDTs, which require fewer computational resources to train and are often developed in an open-source manner. We propose a range of measures to mitigate the risk that BDTs are misused, across the areas of responsible development, risk assessment, transparency, access management, cybersecurity, and investing in resilience. Implementing such measures will require close coordination between developers and governments.
翻訳日:2023-11-28 14:42:06 公開日:2023-11-27
# TOPSISと最適化モデルに基づくファジィ多属性群決定法

A new fuzzy multi-attribute group decision-making method based on TOPSIS and optimization models ( http://arxiv.org/abs/2311.15933v1 )

ライセンス: Link先を確認
Qixiao Hu, Shiquan Zhang, Chaolang Hu, Yuetong Liu(参考訳) 本稿では,各専門家の個人評価と全体整合性評価との差の和を最小化することにより,専門家の重み決定のための新しい最適化モデルを構築することを目的として,TOPSISと最適化モデルに基づく新しい手法を提案する。 次に、TOPSIS法に基づいて、各選択肢を評価するための改良されたクローズネス指数を求める。 最後に、各選択肢の近さを最大化することを目的として最適化モデルを確立することで属性重みを判定し、近さ指数にその選択肢をランク付けする。 これらを組み合わせることで、完全なファジィ多属性集団意思決定アルゴリズムが定式化され、主観的および客観的重み付け法の利点をフルに活用することができる。 最後に、実ケーススタディにより、提案手法の有効性と有効性を検証する。

In this paper, a new method based on TOPSIS and optimization models is proposed for multi-attribute group decision-making in the environment of interval-valued intuitionistic fuzzy sets.Firstly, by minimizing the sum of differences between individual evaluations and the overallconsistent evaluations of all experts, a new optimization model is established for determining expert weights. Secondly, based on TOPSIS method, the improved closeness index for evaluating each alternative is obtained. Finally, the attribute weight is determined by establishing an optimization model with the goal of maximizing the closeness of each alternative, and it is brought into the closeness index so that the alternatives can be ranked. Combining all these together, the complete fuzzy multi-attribute group decision-making algorithm is formulated, which can give full play to the advantages of subjective and objective weighting methods. In the end, the feasibility and effectiveness of the provided method are verified by a real case study.
翻訳日:2023-11-28 14:41:50 公開日:2023-11-27
# WorldSense: 大規模言語モデルにおけるグラウンドド推論のための合成ベンチマーク

WorldSense: A Synthetic Benchmark for Grounded Reasoning in Large Language Models ( http://arxiv.org/abs/2311.15930v1 )

ライセンス: Link先を確認
Youssef Benchekroun, Megi Dervishi, Mark Ibrahim, Jean-Baptiste Gaya, Xavier Martinet, Gr\'egoire Mialon, Thomas Scialom, Emmanuel Dupoux, Dieuwke Hupkes, Pascal Vincent(参考訳) 我々は、エンティティの単純なアレンジメントの記述から単純な推論をいかに引き出すかをテストすることによって、llmが一貫してtacitの世界モデルを維持することができる程度を評価するために設計されたベンチマークであるworldsenseを提案する。 worldsenseは3つの問題タイプを持つ合成ベンチマークであり、それぞれが自明な制御を持ち、語彙と表現から問題の抽象構造を分離し、すべての問題部分と正しい応答を分離することで、バイアスを明示的に回避する。 我々は,最先端の3つのチャット-LLM(GPT3.5,GPT4,Llama2-chat)上でベンチマークを行い,これらのモデルが3つのオブジェクトでもエラーを発生させることを示す。 さらに、それらは非常に重い反応バイアスを持ち、質問に関係なく特定の反応を好む。 エラーは、チェーン・オブ・シークレットのプロンプトやコンテキスト内学習でも継続する。 最後に、同様の問題に対する微調整は、内的および外的という実質的な改善をもたらすが、微調整されたモデルは制約問題空間を超えて一般化しないことを示す。

We propose WorldSense, a benchmark designed to assess the extent to which LLMs are consistently able to sustain tacit world models, by testing how they draw simple inferences from descriptions of simple arrangements of entities. Worldsense is a synthetic benchmark with three problem types, each with their own trivial control, which explicitly avoids bias by decorrelating the abstract structure of problems from the vocabulary and expressions, and by decorrelating all problem subparts with the correct response. We run our benchmark on three state-of-the-art chat-LLMs (GPT3.5, GPT4 and Llama2-chat) and show that these models make errors even with as few as three objects. Furthermore, they have quite heavy response biases, preferring certain responses irrespective of the question. Errors persist even with chain-of-thought prompting and in-context learning. Lastly, we show that while finetuning on similar problems does result in substantial improvements -- within- and out-of-distribution -- the finetuned models do not generalise beyond a constraint problem space.
翻訳日:2023-11-28 14:41:35 公開日:2023-11-27
# $s_3$パーティショニングから構築した$\mathrm{su}(2)$格子ハミルトニアンのテスト

Testing the $\mathrm{SU}(2)$ lattice Hamiltonian built from $S_3$ partitionings ( http://arxiv.org/abs/2311.15926v1 )

ライセンス: Link先を確認
Marco Garofalo, Tobias Hartung, Timo Jakobs, Karl Jansen, Johann Ostmeyer, Dominik Rolfes, Simone Romiti, Carsten Urbach(参考訳) 我々は、球面 $s_3$ の分割に基づく$\mathrm{su}(2)$格子ゲージ理論のデジタル化の可能性をテストする。 我々の構成では、リンク演算子はユニタリかつ対角的であり、分割の頂点によって固有値が決定される。 正準モータは多様体上のリー微分を近似する有限差分作用素である。 この形式主義では、標準のウィルソン・ハミルトン多様体を実装している。 1Dの2サイトシュウィンガー型モデルと2Dの1ページラケットシステムの結果を示す。 我々の計算は古典的コンピュータ上で行われるが、原理的には量子デバイス上でも実装できる。

We test a possible digitization of $\mathrm{SU}(2)$ lattice gauge theories based on partitionings of the sphere $S_3$. In our construction the link operators are unitary and diagonal, with eigenvalues determined by the vertices of the partitioning. The canonical momenta are finite difference operators approximating the Lie derivatives on the manifold. In this formalism we implement the standard Wilson Hamiltonian. We show results for a 2-site Schwinger-type model in 1D and a single-plaquette system in 2D. Our calculations are performed on a classical computer, though in principle they can be implemented also on a quantum device.
翻訳日:2023-11-28 14:41:16 公開日:2023-11-27
# CPSにおける診断駆動型異常検出

Diagnosis driven Anomaly Detection for CPS ( http://arxiv.org/abs/2311.15924v1 )

ライセンス: Link先を確認
Henrik S. Steude and Lukas Moddemann and Alexander Diedrich and Jonas Ehrhardt and Oliver Niggemann(参考訳) サイバーフィジカルシステム(cps)の研究では、異常検出(異常行動の検出)と診断(根本原因の特定)は、しばしば異なる独立したタスクとして扱われる。 しかし、診断アルゴリズムは症状、すなわち時間的および空間的に孤立した異常を入力として要求する。 したがって、CPSの診断に総合的な解決策を提供するために、異常検出と診断を一緒に開発する必要がある。 そこで我々は,深層学習に基づく異常検出を利用して,一貫性に基づく診断(CBD)のための入力を生成する手法を提案する。 我々は、シミュレーションと実世界のCPSデータセットに対する我々のアプローチを評価し、我々のモデルは、他の最先端モデルと比較して強い性能を示す。

In Cyber-Physical Systems (CPS) research, anomaly detection (detecting abnormal behavior) and diagnosis (identifying the underlying root cause) are often treated as distinct, isolated tasks. However, diagnosis algorithms require symptoms, i.e. temporally and spatially isolated anomalies, as input. Thus, anomaly detection and diagnosis must be developed together to provide a holistic solution for diagnosis in CPS. We therefore propose a method for utilizing deep learning-based anomaly detection to generate inputs for Consistency-Based Diagnosis (CBD). We evaluate our approach on a simulated and a real-world CPS dataset, where our model demonstrates strong performance relative to other state-of-the-art models.
翻訳日:2023-11-28 14:41:06 公開日:2023-11-27
# オフライン強化学習を用いたリアルタイム交通信号制御のための完全データ駆動アプローチ

A Fully Data-Driven Approach for Realistic Traffic Signal Control Using Offline Reinforcement Learning ( http://arxiv.org/abs/2311.15920v1 )

ライセンス: Link先を確認
Jianxiong Li, Shichao Lin, Tianyu Shi, Chujie Tian, Yu Mei, Jian Song, Xianyuan Zhan, Ruimin Li(参考訳) 交通信号制御(TSC)の最適化は,効率的な交通システムにとって重要である。 近年、強化学習(RL)技術がTSCの一般的なアプローチとして登場し、高度適応制御のための有望な結果を示している。 しかし、既存のrlベースのメソッドは、実際の適用性が著しく悪く、デプロイが成功しない。 このような失敗の原因は、政策最適化のために過度に理想化された交通シミュレータに依存することや、現実世界のセンサーから直接取得できない非現実的なきめ細かい状態観測や報奨信号を使用することにある。 本稿では,リアルタイム信号制御(D2TSC)のための完全データ駆動型シミュレータフリーフレームワークを提案する。 具体的には、確立されたトラフィックフロー理論と機械学習を組み合わせることで、粗いトラフィックデータから報酬信号を推測する報酬推論モデルを構築する。 さらに,実世界の交差点の過去のオフラインデータセットから直接信号制御ポリシーを学習するための,サンプル効率のよいオフラインRL手法を提案する。 本手法を評価するために,実世界の交差点から過去のトラヒックデータを収集し,実データ特性を厳密に追従する高度にカスタマイズされたシミュレーション環境を構築する。 従来のRLベースラインやオフラインのRLベースラインよりも優れた性能を実現するとともに,実世界の適用性も向上することを示す。

The optimization of traffic signal control (TSC) is critical for an efficient transportation system. In recent years, reinforcement learning (RL) techniques have emerged as a popular approach for TSC and show promising results for highly adaptive control. However, existing RL-based methods suffer from notably poor real-world applicability and hardly have any successful deployments. The reasons for such failures are mostly due to the reliance on over-idealized traffic simulators for policy optimization, as well as using unrealistic fine-grained state observations and reward signals that are not directly obtainable from real-world sensors. In this paper, we propose a fully Data-Driven and simulator-free framework for realistic Traffic Signal Control (D2TSC). Specifically, we combine well-established traffic flow theory with machine learning to construct a reward inference model to infer the reward signals from coarse-grained traffic data. With the inferred rewards, we further propose a sample-efficient offline RL method to enable direct signal control policy learning from historical offline datasets of real-world intersections. To evaluate our approach, we collect historical traffic data from a real-world intersection, and develop a highly customized simulation environment that strictly follows real data characteristics. We demonstrate through extensive experiments that our approach achieves superior performance over conventional and offline RL baselines, and also enjoys much better real-world applicability.
翻訳日:2023-11-28 14:40:55 公開日:2023-11-27
# ADM-Loc:ポイント教師付き時間行動定位のための行動性分布モデリング

ADM-Loc: Actionness Distribution Modeling for Point-supervised Temporal Action Localization ( http://arxiv.org/abs/2311.15916v1 )

ライセンス: Link先を確認
Elahe Vahdani, Yingli Tian(参考訳) 本稿では,アクションインスタンス毎に1フレームのみをアノテートする,ポイント教師付き時間的動作検出の課題について述べる。 自己学習は、ベースモデルから擬似ラベル(行動提案)を生成することにより、トレーニングプロセスの補助的監督を提供することを目的としている。 しかし、現在のほとんどの手法は、手動で設計した閾値をアクション分類の確率に適用し、隣接するスニペットを独立したエンティティとして扱うことでアクション提案を生成する。 結果として、これらの手法は完全なアクション提案の生成に苦労し、アクション分類スコアの変動に対する感受性を示し、冗長で重複したアクション提案を生成する。 本稿では,点教師付き動作定位のための行動分布モデリングの指標である adm-loc という新しい枠組みを提案する。 ADM-Locは、ガウス分布と均一分布の両方からなる複合分布を作用分類信号に適合させて作用提案を生成する。 このフィッティングプロセスは、ビデオに存在する各アクションクラスに合わせて調整され、各アクションインスタンスに対して別々に適用され、その分布の特異性を保証する。 ADM-Locは生成されたアクション提案と地味なアクションインスタンスの整合性を大幅に向上させ、自己学習のための高品質な擬似ラベルを提供する。 さらに、動作境界スニペットをモデル化するために、提案する損失関数を監督するガウス核を用いて、トレーニング中の行動分類スコアの一貫性を強制する。 ADM-LocはTHUMOS14とActivityNet-v1.2データセットの最先端のポイント管理手法より優れている。

This paper addresses the challenge of point-supervised temporal action detection, in which only one frame per action instance is annotated in the training set. Self-training aims to provide supplementary supervision for the training process by generating pseudo-labels (action proposals) from a base model. However, most current methods generate action proposals by applying manually designed thresholds to action classification probabilities and treating adjacent snippets as independent entities. As a result, these methods struggle to generate complete action proposals, exhibit sensitivity to fluctuations in action classification scores, and generate redundant and overlapping action proposals. This paper proposes a novel framework termed ADM-Loc, which stands for Actionness Distribution Modeling for point-supervised action Localization. ADM-Loc generates action proposals by fitting a composite distribution, comprising both Gaussian and uniform distributions, to the action classification signals. This fitting process is tailored to each action class present in the video and is applied separately for each action instance, ensuring the distinctiveness of their distributions. ADM-Loc significantly enhances the alignment between the generated action proposals and ground-truth action instances and offers high-quality pseudo-labels for self-training. Moreover, to model action boundary snippets, it enforces consistency in action classification scores during training by employing Gaussian kernels, supervised with the proposed loss functions. ADM-Loc outperforms the state-of-the-art point-supervised methods on THUMOS14 and ActivityNet-v1.2 datasets.
翻訳日:2023-11-28 14:40:32 公開日:2023-11-27
# キャリアのためのコンピュータビジョン:PATRIOT

Computer Vision for Carriers: PATRIOT ( http://arxiv.org/abs/2311.15914v1 )

ライセンス: Link先を確認
Ari Goodman, Gurpreet Singh, James Hing, Ryan O'Shea(参考訳) 現在、キャリア上でのデックトラッキングには、航空機を手動で識別し、Ouija Boardと呼ばれるデジタルユーザーインターフェースを更新する水兵のチームが含まれる。 デッキトラッキングプロセスの改善は、ソーティ生成率の向上をもたらすため、自動化を適用することがデッキトラッキングを改善する重要な方法であると見なされる。 しかしながら、キャリア船の要求は、GPS(Global Positioning System)センサーのようなハードウェアベースの位置検知技術のインストールを許可していない。 patriot (panoramic asset tracking of real-time information for the ouija tabletop)は、パッシブセンシングによるデッキトラッキングを、gpsセンサーを必要とせずに行うための研究とソリューションである。 PATRIOTは、既存のカメラフィードを受信し、航空機のポーズを計算し、仮想のOuijaボードインターフェースを現在の資産と更新するプロトタイプシステムである。 PATRIOTは、航空機、人、支援機器のより速く、より正確で、より労力の少ない資産追跡を可能にする。 PATRIOTは、認知作業量の削減、管理要件の削減、ロジスティクス改善のためのデータ収集、将来の効率と安全性向上のための自動化ゲートウェイの実現によって、戦闘者にとってメリットが期待されている。 著者らは、OpenPifPaf、High-Resolution Network (HRNet)、HigherHRNet (HHRNet)、Faster R-CNN、社内開発エンコーダデコーダネットワークなど、リアルタイムに資産のポーズ推定を行うアルゴリズムを開発した。 ソフトウェアは合成データと実世界のデータを使ってテストされ、資産の状況を正確に抽出することができた。 フュージョン、追跡、現実世界の汎用性は艦隊への移行を成功させるために改善される予定である。

Deck tracking performed on carriers currently involves a team of sailors manually identifying aircraft and updating a digital user interface called the Ouija Board. Improvements to the deck tracking process would result in increased Sortie Generation Rates, and therefore applying automation is seen as a critical method to improve deck tracking. However, the requirements on a carrier ship do not allow for the installation of hardware-based location sensing technologies like Global Positioning System (GPS) sensors. PATRIOT (Panoramic Asset Tracking of Real-Time Information for the Ouija Tabletop) is a research effort and proposed solution to performing deck tracking with passive sensing and without the need for GPS sensors. PATRIOT is a prototype system which takes existing camera feeds, calculates aircraft poses, and updates a virtual Ouija board interface with the current status of the assets. PATRIOT would allow for faster, more accurate, and less laborious asset tracking for aircraft, people, and support equipment. PATRIOT is anticipated to benefit the warfighter by reducing cognitive workload, reducing manning requirements, collecting data to improve logistics, and enabling an automation gateway for future efforts to improve efficiency and safety. The authors have developed and tested algorithms to perform pose estimations of assets in real-time including OpenPifPaf, High-Resolution Network (HRNet), HigherHRNet (HHRNet), Faster R-CNN, and in-house developed encoder-decoder network. The software was tested with synthetic and real-world data and was able to accurately extract the pose of assets. Fusion, tracking, and real-world generality are planned to be improved to ensure a successful transition to the fleet.
翻訳日:2023-11-28 14:40:05 公開日:2023-11-27
# lift off: 将来のフライトラインのためのlorawanの設置とfiducial tracking operations

LIFT OFF: LoRaWAN Installation and Fiducial Tracking Operations for the Flightline of the Future ( http://arxiv.org/abs/2311.15912v1 )

ライセンス: Link先を確認
Ari Goodman, Ryan O'Shea(参考訳) ミッションが効率的に完了し、要求を満たすためには、資産の位置に関するリアルタイムの状況認識が不可欠である。 多くの商用環境では、人や機器の位置に関するタイムリーな知識を得るのにグローバル測位システム(GPS)の応用が適している。 しかし、フライトクリアランスや運用上のセキュリティ上の懸念から、GPSセンサーはあらゆる状況に適していない。 LIFT OFF: LoRaWAN Installation and Fiducial Tracking Operations for the Flightline of the Futureは、環境に関わらず、人、支援機器、航空機の位置をリアルタイムに認識するためのハイブリッドフレームワークソリューションを提案する。 このフレームワークには、航空機の側面に設置されたエイプリルタグデカルを検出するためにカメラを設置するマシンビジョンコンポーネントが含まれていた。 このフレームワークにはGPSセンサーを支持装置やヘルメットに装着する位置情報センサーコンポーネントが含まれていた。 このフレームワークには、データ転送のための長距離広域ネットワーク(lorawan)の作成や、データを表示するユーザインターフェースの開発も含まれていた。 このフレームワークは、アメリカ海軍航空基地オセアニア飛行場、アメリカ海軍試験パイロット学校、および海軍航空戦センター航空機部門レイクハーストでテストされた。 LIFT OFFは、人や支援機器のGPSセンサーと航空機の視覚的フィジュアルを使って、追跡された全ての資産のリアルタイム更新マップを成功させた。 資産の軌跡は、物流分析と再生のために記録された。 今後、この技術は空母や水陸両用攻撃船を含む他の環境にも適用される予定である。

Real-time situational awareness for the location of assets is critical to ensure missions are completed efficiently and requirements are satisfied. In many commercial settings, the application of global positioning system (GPS) sensors is appropriate to achieve timely knowledge of the position of people and equipment. However, GPS sensors are not appropriate for all situations due to flight clearance and operations security concerns. LIFT OFF: LoRaWAN Installation and Fiducial Tracking Operations for the Flightline of the Future proposes a hybrid framework solution to achieve real-time situational awareness for people, support equipment, and aircraft positions regardless of the environment. This framework included a machine-vision component, which involved setting up cameras to detect AprilTag decals that were installed on the sides of aircraft. The framework included a geolocation sensor component, which involved installing GPS sensors on support equipment and helmets. The framework also included creating a long-range wide area network (LoRaWAN) to transfer data and developing a user interface to display the data. The framework was tested at Naval Air Station Oceana Flightline, the United States Naval Test Pilot School, and at Naval Air Warfare Center Aircraft Division Lakehurst. LIFT OFF successfully provided a real-time updating map of all tracked assets using GPS sensors for people and support equipment and with visual fiducials for aircraft. The trajectories of the assets were recorded for logistical analysis and playback. Future follow-on work is anticipated to apply the technology to other environments including carriers and amphibious assault ships in addition to the flightline.
翻訳日:2023-11-28 14:39:32 公開日:2023-11-27
# 拡散モデルを用いた時間連続デテール合成によるビデオ超解像の知覚品質向上

Enhancing Perceptual Quality in Video Super-Resolution through Temporally-Consistent Detail Synthesis using Diffusion Models ( http://arxiv.org/abs/2311.15908v1 )

ライセンス: Link先を確認
Claudio Rota, Marco Buzzelli, Joost van de Weijer(参考訳) 本稿では,Diffusion Models (DM) を用いたビデオ超解像(VSR)の問題点と,現状のStableVSRについて述べる。 提案手法は,現実的かつ時間的に一貫性のある細部を合成することにより,アップスケール映像の知覚品質を著しく向上させる。 超解像のための訓練済みDMを時間条件付きモジュール(TCM)を導入し,VSR法に変換する。 tcmは時間的テクスチャガイダンスを使用し、隣接するフレームで合成された空間的に整列し、詳細なテクスチャ情報を提供する。 これは、現在のフレームの生成過程を高品質で時間的に一貫性のある結果へと導く。 本稿では,過去から未来への情報活用を促進するためのフレームワイド双方向サンプリング戦略を提案する。 この戦略は、結果の知覚的品質とフレーム間の時間的一貫性を改善する。 本稿では、既存のVSRの最先端手法と比較して、アップスケールビデオの知覚品質を高めるためのStableVSRの有効性を示す。 コードはhttps://github.com/claudiom4sir/stablevsrで入手できる。

In this paper, we address the problem of video super-resolution (VSR) using Diffusion Models (DM), and present StableVSR. Our method significantly enhances the perceptual quality of upscaled videos by synthesizing realistic and temporally-consistent details. We turn a pre-trained DM for single image super-resolution into a VSR method by introducing the Temporal Conditioning Module (TCM). TCM uses Temporal Texture Guidance, which provides spatially-aligned and detail-rich texture information synthesized in adjacent frames. This guides the generative process of the current frame toward high-quality and temporally-consistent results. We introduce a Frame-wise Bidirectional Sampling strategy to encourage the use of information from past to future and vice-versa. This strategy improves the perceptual quality of the results and the temporal consistency across frames. We demonstrate the effectiveness of StableVSR in enhancing the perceptual quality of upscaled videos compared to existing state-of-the-art methods for VSR. The code is available at https://github.com/claudiom4sir/StableVSR.
翻訳日:2023-11-28 14:39:07 公開日:2023-11-27
# アニーリング型量子ボルツマンマシンを用いた大規模画像分類のための転送学習に向けて

Towards Transfer Learning for Large-Scale Image Classification Using Annealing-based Quantum Boltzmann Machines ( http://arxiv.org/abs/2311.15966v1 )

ライセンス: Link先を確認
Dani\"elle Schuman, Leo S\"unkel, Philipp Altmann, Jonas Stein, Christoph Roch, Thomas Gabor, Claudia Linnhoff-Popien(参考訳) 量子トランスファー学習(qtl)は最近、大規模畳み込みニューラルネットワークの特徴抽出能力と量子機械学習(qml)の潜在的な利点を効率的に組み合わせ、画像分類タスクのためのハイブリッド量子古典的手法として人気を博した。 しかし、既存のアプローチでは、これらの手順の量子部分に対してゲートベースの変分量子回路のみを使用する。 本稿ではQTLに基づく画像分類において量子アニーリング(QA)を用いる手法を提案する。 具体的には,アニーリングベースのQuantum Boltzmann Machinesをハイブリッド量子古典パイプラインの一部として使用して,医用画像などの実世界の大規模データの分類学習を行う。 肺CTスキャンスライス(CT)のコレクションであるCOVID-CT-MDデータセットにこれを適用することで,我々のアプローチを実証する。 実QAのスタンドインとしてSimulated Annealingを用いて,同桁のニューラルネットワークを用いた古典的伝達学習との比較を行い,その性能向上を図った。 我々の手法は、テスト精度とAUC-ROC-Scoreの点で、古典的なベースラインを一貫して上回り、これを行うには、より少ないトレーニングエポックを必要とする。

Quantum Transfer Learning (QTL) recently gained popularity as a hybrid quantum-classical approach for image classification tasks by efficiently combining the feature extraction capabilities of large Convolutional Neural Networks with the potential benefits of Quantum Machine Learning (QML). Existing approaches, however, only utilize gate-based Variational Quantum Circuits for the quantum part of these procedures. In this work we present an approach to employ Quantum Annealing (QA) in QTL-based image classification. Specifically, we propose using annealing-based Quantum Boltzmann Machines as part of a hybrid quantum-classical pipeline to learn the classification of real-world, large-scale data such as medical images through supervised training. We demonstrate our approach by applying it to the three-class COVID-CT-MD dataset, a collection of lung Computed Tomography (CT) scan slices. Using Simulated Annealing as a stand-in for actual QA, we compare our method to classical transfer learning, using a neural network of the same order of magnitude, to display its improved classification performance. We find that our approach consistently outperforms its classical baseline in terms of test accuracy and AUC-ROC-Score and needs less training epochs to do this.
翻訳日:2023-11-28 14:31:11 公開日:2023-11-27
# FALCON: オープンワールドにおける連続的セマンティックシーン理解へのコントラスト注意アプローチによるフェアネス学習

FALCON: Fairness Learning via Contrastive Attention Approach to Continual Semantic Scene Understanding in Open World ( http://arxiv.org/abs/2311.15965v1 )

ライセンス: Link先を確認
Thanh-Dat Truong, Utsav Prabhu, Bhiksha Raj, Jackson Cothren, Khoa Luu(参考訳) セマンティクスシーンセグメンテーションにおける連続学習は、以前に学んだ知識を維持しつつ、動的環境における新しい未知のクラスを継続的に学習することを目的としている。 先行研究は、継続的学習における破滅的な忘れ方と背景シフトの課題をモデル化することに焦点を当てた。 しかし、不公平な予測を引き起こすもうひとつの大きな課題である公平さは、メジャークラスとマイナークラスのパフォーマンス低下につながっている。 さらに、以前のメソッドは未知のクラスをうまくモデル化していないため、未知のクラス間で非識別的な特徴を生成することになる。 本稿では,セマンティックシーン理解における連続学習へのコントラスト的注意アプローチによる新しいフェアネス学習を提案する。 特に,我々はまず,破滅的な忘れ方と公平性の問題に対処するために,新たなフェアネス比較クラスタリングロスを導入する。 次に,背景シフト問題と未知クラスを効果的にモデル化し,未知クラスに対してより優れた特徴表現を生成するための注意に基づく視覚的文法手法を提案する。 提案手法は,ade20k,cityscapes,pascal vocの3つの標準ベンチマークの異なる連続学習環境において,最先端(sota)性能を実現する。 継続的な意味セグメンテーションモデルの公平性を促進する。

Continual Learning in semantic scene segmentation aims to continually learn new unseen classes in dynamic environments while maintaining previously learned knowledge. Prior studies focused on modeling the catastrophic forgetting and background shift challenges in continual learning. However, fairness, another major challenge that causes unfair predictions leading to low performance among major and minor classes, still needs to be well addressed. In addition, prior methods have yet to model the unknown classes well, thus resulting in producing non-discriminative features among unknown classes. This paper presents a novel Fairness Learning via Contrastive Attention Approach to continual learning in semantic scene understanding. In particular, we first introduce a new Fairness Contrastive Clustering loss to address the problems of catastrophic forgetting and fairness. Then, we propose an attention-based visual grammar approach to effectively model the background shift problem and unknown classes, producing better feature representations for different unknown classes. Through our experiments, our proposed approach achieves State-of-the-Art (SOTA) performance on different continual learning settings of three standard benchmarks, i.e., ADE20K, Cityscapes, and Pascal VOC. It promotes the fairness of the continual semantic segmentation model.
翻訳日:2023-11-28 14:30:50 公開日:2023-11-27
# ビデオの局所的命令生成のための効率的事前学習

Efficient Pre-training for Localized Instruction Generation of Videos ( http://arxiv.org/abs/2311.15964v1 )

ライセンス: Link先を確認
Anil Batra, Davide Moltisanti, Laura Sevilla-Lara, Marcus Rohrbach, Frank Keller(参考訳) 手順ビデオは、レシピの準備などのタスクのステップバイステップのデモを示している。 このようなビデオを理解することは困難であり、ステップの正確なローカライズとテキスト命令の生成が伴う。 手作業による注釈付けと命令の記述はコストがかかり、現在のデータセットのサイズが制限され、効果的な学習を妨げる。 事前トレーニングのために大きくて騒がしいビデオ書き起こしデータセットを活用すると、パフォーマンスは向上するが、大きな計算資源を必要とする。 さらに、書き起こしには無関係な内容が含まれており、人間の注釈者による指示と比較してスタイルの変化を示す。 この問題を軽減するために,より小さなデータセットを自動的にキュレートする手法であるsieve-&-swapを提案する。 (i)無関係な転写物及びフィルター (ii)スワップはテキストのみのレシピデータセットから人書きの命令に書き起こしを自動的に置き換えることでテキスト命令の品質を向上させる。 キュレートされたデータセットは、現在のWebスケールデータセットよりも3桁小さく、競争力のある大規模モデルの効率的なトレーニングを可能にする。 プロシージャビデオのステップローカライゼーションと命令生成のためのプロシージャトランスフォーマー(ProcX)を用いて,Sieve-\-Swapアプローチを補完する。 このモデルがキュレートされたデータセット上で事前トレーニングされている場合,YouCook2 と Tasty のゼロショットおよび微調整設定において,計算資源のごく一部を使用しながら最先端のパフォーマンスを達成する。

Procedural videos show step-by-step demonstrations of tasks like recipe preparation. Understanding such videos is challenging, involving the precise localization of steps and the generation of textual instructions. Manually annotating steps and writing instructions is costly, which limits the size of current datasets and hinders effective learning. Leveraging large but noisy video-transcript datasets for pre-training can boost performance, but demands significant computational resources. Furthermore, transcripts contain irrelevant content and exhibit style variation compared to instructions written by human annotators. To mitigate both issues, we propose a technique, Sieve-&-Swap, to automatically curate a smaller dataset: (i) Sieve filters irrelevant transcripts and (ii) Swap enhances the quality of the text instruction by automatically replacing the transcripts with human-written instructions from a text-only recipe dataset. The curated dataset, three orders of magnitude smaller than current web-scale datasets, enables efficient training of large-scale models with competitive performance. We complement our Sieve-\&-Swap approach with a Procedure Transformer (ProcX) for end-to-end step localization and instruction generation for procedural videos. When this model is pre-trained on our curated dataset, it achieves state-of-the-art performance in zero-shot and finetuning settings on YouCook2 and Tasty, while using a fraction of the computational resources.
翻訳日:2023-11-28 14:30:27 公開日:2023-11-27
# ピクセルからタイトルへ:畳み込みニューラルネットワークを用いたスクリーンショットによるビデオゲームの識別

From Pixels to Titles: Video Game Identification by Screenshots using Convolutional Neural Networks ( http://arxiv.org/abs/2311.15963v1 )

ライセンス: Link先を確認
Fabricio Breve(参考訳) 本稿では,Atari 2600からPlayStation 5にまたがる22のホームコンソールシステムにおいて,CNNアーキテクチャ(MobileNet,DenseNet,EfficientNetB0,EfficientNetB2,EfficientNetB3)を用いて,シングルスクリーンショットによるゲーム識別について検討する。 仮説を確認することで、CNNは自動で画像の特徴を抽出し、追加機能なしでスクリーンショットからゲームタイトルを識別できる。 ImageNetの事前トレーニングされた重量を用いて、EfficientNetB3は最高平均精度(74.51%)を達成する。 他のスクリーンショットからの代替的な初期重みを用いてデータセットは efficientnetb2 と efficientnetb3 の精度を高め、後者は 76.36% のピークに達した。 全体的なアーキテクチャと重みの組み合わせは77.67%に達し、主に19のシステムでEfficientNetB3がリードしている。 これらの結果は,スクリーンショットによるゲーム識別におけるCNNの有効性を裏付けるものである。

This paper investigates video game identification through single screenshots, utilizing five convolutional neural network (CNN) architectures (MobileNet, DenseNet, EfficientNetB0, EfficientNetB2, and EfficientNetB3) across 22 home console systems, spanning from Atari 2600 to PlayStation 5. Confirming the hypothesis, CNNs autonomously extract image features, enabling the identification of game titles from screenshots without additional features. Using ImageNet pre-trained weights, EfficientNetB3 achieves the highest average accuracy (74.51%), while DenseNet169 excels in 14 of the 22 systems. Employing alternative initial weights from another screenshots dataset boosts accuracy for EfficientNetB2 and EfficientNetB3, with the latter reaching a peak accuracy of 76.36% and demonstrating reduced convergence epochs from 23.7 to 20.5 on average. Overall, the combination of optimal architecture and weights attains 77.67% accuracy, primarily led by EfficientNetB3 in 19 systems. These findings underscore the efficacy of CNNs in video game identification through screenshots.
翻訳日:2023-11-28 14:30:00 公開日:2023-11-27
# 十分特定された共変量シフトに必要な最大確率の推定

Maximum Likelihood Estimation is All You Need for Well-Specified Covariate Shift ( http://arxiv.org/abs/2311.15961v1 )

ライセンス: Link先を確認
Jiawei Ge, Shange Tang, Jianqing Fan, Cong Ma, Chi Jin(参考訳) 現代の機械学習システムの重要な課題は、アウト・オブ・ディストリビューション(OOD)の一般化 -- ソースデータと分布が異なるターゲットデータへの一般化 -- を達成することである。 その重要な重要性にもかかわらず、「OOD一般化の最も効果的なアルゴリズムは何か」という根本的な疑問は、共変量シフトの標準設定の下でも未解決のままである。 本稿では,(修正を伴わずに)純粋にソースデータを用いた古典的最大度推定 (mle) が,定式化された条件下での共変量シフトの最小最適性を達成することを証明し,この基本的な問題に対処する。 つまり、この設定でMLEよりも優れたアルゴリズムは存在しない(定数係数まで)。 この結果はパラメトリックモデルの非常に豊富なクラスであり、密度比の有界性条件を必要としない。 線形回帰、ロジスティック回帰、位相探索という3つの具体例にインスタンス化することで、我々のフレームワークの幅広い適用性を説明する。 本論文は,不特定の設定下ではmleがもはや最適選択ではなく,mwle (maximum weighted likelihood estimator) がミニマックス最適であることを示すことにより,研究をさらに補完するものである。

A key challenge of modern machine learning systems is to achieve Out-of-Distribution (OOD) generalization -- generalizing to target data whose distribution differs from that of source data. Despite its significant importance, the fundamental question of ``what are the most effective algorithms for OOD generalization'' remains open even under the standard setting of covariate shift. This paper addresses this fundamental question by proving that, surprisingly, classical Maximum Likelihood Estimation (MLE) purely using source data (without any modification) achieves the minimax optimality for covariate shift under the well-specified setting. That is, no algorithm performs better than MLE in this setting (up to a constant factor), justifying MLE is all you need. Our result holds for a very rich class of parametric models, and does not require any boundedness condition on the density ratio. We illustrate the wide applicability of our framework by instantiating it to three concrete examples -- linear regression, logistic regression, and phase retrieval. This paper further complement the study by proving that, under the misspecified setting, MLE is no longer the optimal choice, whereas Maximum Weighted Likelihood Estimator (MWLE) emerges as minimax optimal in certain scenarios.
翻訳日:2023-11-28 14:29:33 公開日:2023-11-27
# プログラム合成と状態機械の統合によるロングホリゾン課題の解決

Addressing Long-Horizon Tasks by Integrating Program Synthesis and State Machines ( http://arxiv.org/abs/2311.15960v1 )

ライセンス: Link先を確認
Yu-An Lin, Chen-Tao Lee, Guan-Ting Liu, Pu-Jen Cheng, Shao-Hua Sun(参考訳) 深層強化学習は様々な領域で優れているが、一般化性と相互運用性に欠ける。 プログラム的RL法(Trivedi et al., 2021; Liu et al., 2023)は、RLタスクを環境下で実行可能な解釈可能なプログラムの合成として再構成する。 奨励的な結果にもかかわらず、これらの手法は短期的なタスクに限られる。 一方、国家機械(イナラなど)を用いたRL政策の表現は、長期的タスクに誘導的に一般化することができるが、多様で複雑な行動を得るためにスケールアップに苦労している。 本研究は,プログラム型rlとステートマシンポリシの利点を橋渡しし,複雑な動作の表現と長期的なタスクの対応を可能にするプログラムマシンポリシ(pomp)を提案する。 具体的には,効率良く多様な互換性のあるプログラム群を検索する手法を提案する。 そして、これらのプログラムを状態マシンのモードとして使用し、モードプログラム間の遷移関数を学習し、長い水平反復動作をキャプチャする。 提案手法は,プログラム的なRLと深いRLのベースラインを様々なタスクで上回り,微調整を伴わずにより長い水平線に一般化できることを示す。 アブレーション研究は,一連のプログラムをモードとして検索するための探索アルゴリズムの有効性を正当化する。

Deep reinforcement learning excels in various domains but lacks generalizability and interoperability. Programmatic RL methods (Trivedi et al., 2021; Liu et al., 2023) reformulate solving RL tasks as synthesizing interpretable programs that can be executed in the environments. Despite encouraging results, these methods are limited to short-horizon tasks. On the other hand, representing RL policies using state machines (Inala et al., 2020) can inductively generalize to long-horizon tasks; however, it struggles to scale up to acquire diverse and complex behaviors. This work proposes Program Machine Policies (POMPs), which bridge the advantages of programmatic RL and state machine policies, allowing for the representation of complex behaviors and the address of long-term tasks. Specifically, we introduce a method that can retrieve a set of effective, diverse, compatible programs. Then, we use these programs as modes of a state machine and learn a transition function to transition among mode programs, allowing for capturing long-horizon repetitive behaviors. Our proposed framework outperforms programmatic RL and deep RL baselines on various tasks and demonstrates the ability to generalize to even longer horizons without any fine-tuning inductively. Ablation studies justify the effectiveness of our proposed search algorithm for retrieving a set of programs as modes.
翻訳日:2023-11-28 14:29:07 公開日:2023-11-27
# 9999 忠実度を持つ M{\o}lmer S{\o}rensen Gate に向けて

Toward a M{\o}lmer S{\o}rensen Gate With .9999 Fidelity ( http://arxiv.org/abs/2311.15958v1 )

ライセンス: Link先を確認
Reinhold Bl\"umel, Andrii Maksymov, Ming Li(参考訳) 妥当なオーバーヘッドで現実的なフォールトトレラント量子コンピューティングは、2量子ビットゲートを必要とする。 通常、文献では$\lesssim 10^{-4}$の不忠実さが推奨される。 実験室や商用企業が量子コンピュータを実装するために使用する位相感受性アーキテクチャに注目して、M{\o}lmer-S{\o}rensen XX ゲートを生成するためにM{\o}lmer-S{\o}rensen XX ゲートを生成するために使われるハミルトニアンのキャリア項を無視し、ランブ・ディッケ項を線形化する、ノイズフリーで理想的な条件下であっても、目標が 10^{-4} の不忠実な目標であれば、正当化されないことを示す。 これらの結果は,計算空間に加えて,フォノン空間の最も関連性の高い部分を考慮に入れたゲートシミュレータコードを用いて得られる。 ラム・ディッケパラメータにおいて第4次まで条件を保ちながら第3次マグナス展開の助けを借りて、位相空間閉鎖条件に1つの線形方程式を加え、制御パルス(校正)の振幅を調整することによって、コヒーレントエラーの主原因を特定する。 このようにして、不完全性 $<10^{-4}$ の XX ゲートを得る。

Realistic fault-tolerant quantum computing at reasonable overhead requires two-qubit gates with the highest possible fidelity. Typically, an infidelity of $\lesssim 10^{-4}$ is recommended in the literature. Focusing on the phase-sensitive architecture used in laboratories and by commercial companies to implement quantum computers, we show that even under noise-free, ideal conditions, neglecting the carrier term and linearizing the Lamb-Dicke term in the Hamiltonian used for control-pulse construction for generating M{\o}lmer-S{\o}rensen XX gates based on the Raman scheme are not justified if the goal is an infidelity target of $10^{-4}$. We obtain these results with a gate simulator code that, in addition to the computational space, explicitly takes the most relevant part of the phonon space into account. With the help of a Magnus expansion carried to the third order, keeping terms up to the fourth order in the Lamb-Dicke parameters, we identify the leading sources of coherent errors, which we show can be eliminated by adding a single linear equation to the phase-space closure conditions and subsequently adjusting the amplitude of the control pulse (calibration). This way, we obtain XX gates with infidelities $< 10^{-4}$.
翻訳日:2023-11-28 14:28:42 公開日:2023-11-27
# 言語間特徴外乱として自己監督モデルを理解するための定量的アプローチ

A Quantitative Approach to Understand Self-Supervised Models as Cross-lingual Feature Extractors ( http://arxiv.org/abs/2311.15954v1 )

ライセンス: Link先を確認
Shuyue Stella Li, Beining Xu, Xiangyu Zhang, Hexin Liu, Wenhan Chao, Leibny Paola Garcia(参考訳) 本研究では,英語の自己教師付き学習(SSL)モデルによって抽出された特徴を言語間文脈で検討し,特徴表現の品質を予測するための新しい指標を提案する。 下流タスクとして自動音声認識(ASR)を用いて, モデルサイズ, 訓練目標, モデルアーキテクチャが, トポロジ的に多様なコーパスの集合に対する特徴抽出器としての性能に与える影響を分析する。 我々は,抽出された表現の音声情報と合成情報を,深い一般化正準相関解析を用いて測定する新しい指標である音声合成比(PSR)を開発した。 その結果,wav2vec2.0目的のコントラスト損失は,より効果的な言語間特徴抽出を促進することがわかった。 PSRスコアとASRパフォーマンスの間には正の相関関係があり、モノリンガルSSLモデルによって抽出された音声情報は、言語間設定で下流タスクに使用できることを示唆している。 提案手法は,表現の質の指標として有効であり,モデル選択に有用である。

In this work, we study the features extracted by English self-supervised learning (SSL) models in cross-lingual contexts and propose a new metric to predict the quality of feature representations. Using automatic speech recognition (ASR) as a downstream task, we analyze the effect of model size, training objectives, and model architecture on the models' performance as a feature extractor for a set of topologically diverse corpora. We develop a novel metric, the Phonetic-Syntax Ratio (PSR), to measure the phonetic and synthetic information in the extracted representations using deep generalized canonical correlation analysis. Results show the contrastive loss in the wav2vec2.0 objective facilitates more effective cross-lingual feature extraction. There is a positive correlation between PSR scores and ASR performance, suggesting that phonetic information extracted by monolingual SSL models can be used for downstream tasks in cross-lingual settings. The proposed metric is an effective indicator of the quality of the representations and can be useful for model selection.
翻訳日:2023-11-28 14:28:12 公開日:2023-11-27
# 実験間のリプレイ:オフポリシーrlの自然な拡張

Replay across Experiments: A Natural Extension of Off-Policy RL ( http://arxiv.org/abs/2311.15951v1 )

ライセンス: Link先を確認
Dhruva Tirumala, Thomas Lampe, Jose Enrique Chen, Tuomas Haarnoja, Sandy Huang, Guy Lever, Ben Moran, Tim Hertweck, Leonard Hasenclever, Martin Riedmiller, Nicolas Heess and Markus Wulfmeier(参考訳) データの再生は、オフポリティクス強化学習(RL)の安定性とデータ効率の基盤となる主要なメカニズムである。 複数の実験にまたがってリプレイを効果的に拡張し、RLワークフローを最小限に適用し、コントローラの性能と研究のイテレーション時間を大幅に改善する。 中心となるのがreplay across experiments(rae)で、以前の実験からの経験を再利用して、探索とブートストラップ学習を改善し、必要な変更を最小限に抑える。 我々は経験的に、多くのrlアルゴリズムと、自発的なビジョンからの厳しい探索タスクを含む、ロコモーションと操作の両方にまたがる困難な制御ドメインにまたがる利点を示す。 包括的アブレーションにより、利用可能なデータの品質と量、および様々なハイパーパラメータの選択に対するロバスト性を示す。 最後に,このアプローチを研究ライフサイクル全体にわたってより広く適用し,ランダムシードやハイパーパラメータの変動に対してデータを再ロードすることでレジリエンスを向上させる方法について論じる。

Replaying data is a principal mechanism underlying the stability and data efficiency of off-policy reinforcement learning (RL). We present an effective yet simple framework to extend the use of replays across multiple experiments, minimally adapting the RL workflow for sizeable improvements in controller performance and research iteration times. At its core, Replay Across Experiments (RaE) involves reusing experience from previous experiments to improve exploration and bootstrap learning while reducing required changes to a minimum in comparison to prior work. We empirically show benefits across a number of RL algorithms and challenging control domains spanning both locomotion and manipulation, including hard exploration tasks from egocentric vision. Through comprehensive ablations, we demonstrate robustness to the quality and amount of data available and various hyperparameter choices. Finally, we discuss how our approach can be applied more broadly across research life cycles and can increase resilience by reloading data across random seeds or hyperparameter variations.
翻訳日:2023-11-28 14:27:53 公開日:2023-11-27
# Auto-CsiNet: 大規模MIMO CSIフィードバックのためのシナリオカスタマイズ型ニューラルネットワークアーキテクチャ生成

Auto-CsiNet: Scenario-customized Automatic Neural Network Architecture Generation for Massive MIMO CSI Feedback ( http://arxiv.org/abs/2311.15950v1 )

ライセンス: Link先を確認
Xiangyi Li, Jiajia Guo, Chao-Kai Wen, and Shi Jin(参考訳) 深層学習は、無線通信におけるチャネル状態情報(CSI)フィードバックモジュールの設計に革命をもたらした。 しかし、CSIフィードバックのための最適なニューラルネットワーク(NN)アーキテクチャを設計することは、手間と時間を要するプロセスである。 手動設計は、nnを異なるシナリオにカスタマイズするのに非常に高価である。 本稿では,NAS(Neural Architecture Search)を用いてシナリオ適応型CSIフィードバックNNアーキテクチャの生成を自動化し,排他的環境におけるディープラーニングの可能性の最大化を提案する。 自動機械学習と勾配descentベースのnasを使用することで、効率的でコスト効率の良いアーキテクチャ設計プロセスを実現する。 提案手法は暗黙的なシーン知識を活用し,それをデータ駆動方式でシナリオカスタマイズプロセスに統合し,各シナリオに対するディープラーニングの可能性を完全に活用する。 過剰探索の問題に対処するため, 早期停止と弾性選択機構を採用し, 提案手法の効率化を図る。 実験の結果,自動生成アーキテクチャであるAuto-CsiNetは,復元性能(約14%の改善)と複雑性(約50%改善)の両方において,手作業で設計したモデルを上回る性能を示した。 さらに,本論文では,シナリオがNNアーキテクチャに与える影響とその能力について分析する。

Deep learning has revolutionized the design of the channel state information (CSI) feedback module in wireless communications. However, designing the optimal neural network (NN) architecture for CSI feedback can be a laborious and time-consuming process. Manual design can be prohibitively expensive for customizing NNs to different scenarios. This paper proposes using neural architecture search (NAS) to automate the generation of scenario-customized CSI feedback NN architectures, thereby maximizing the potential of deep learning in exclusive environments. By employing automated machine learning and gradient-descent-based NAS, an efficient and cost-effective architecture design process is achieved. The proposed approach leverages implicit scene knowledge, integrating it into the scenario customization process in a data-driven manner, and fully exploits the potential of deep learning for each specific scenario. To address the issue of excessive search, early stopping and elastic selection mechanisms are employed, enhancing the efficiency of the proposed scheme. The experimental results demonstrate that the automatically generated architecture, known as Auto-CsiNet, outperforms manually-designed models in both reconstruction performance (achieving approximately a 14% improvement) and complexity (reducing it by approximately 50%). Furthermore, the paper analyzes the impact of the scenario on the NN architecture and its capacity.
翻訳日:2023-11-28 14:27:34 公開日:2023-11-27
# GloNets:グローバルに接続されたニューラルネットワーク

GloNets: Globally Connected Neural Networks ( http://arxiv.org/abs/2311.15947v1 )

ライセンス: Link先を確認
Antonio Di Cecco, Carlo Metta, Marco Fantozzi, Francesco Morandin, Maurizio Parton(参考訳) ディープラーニングアーキテクチャは、ニューラルネットワークの効果的な深さを制限するために、深さに関連したパフォーマンス低下に苦しむ。 ResNetのようなアプローチは、これを緩和できるが、問題を完全に排除するわけではない。 我々はGlobally Connected Neural Networks (GloNet)を紹介した。GloNetは深度に関連する問題を克服する新しいアーキテクチャで、あらゆるモデルに重畳され、複雑さを増大させることなく、性能を低下させるように設計されている。 GloNetでは、ネットワークの頭は抽象化のレベルに関わらず、ネットワークのすべての部分から均一に情報を受信する。 これにより、glonetはトレーニング中に情報フローを自己制御し、より効果的な深層の影響を低減し、ネットワークの深さに関係なく安定したトレーニングを可能にする。 本稿では,GloNetの設計,理論的基礎,および既存の類似アーキテクチャとの比較について述べる。 実験では、glonetの自己調節能力と、パフォーマンスの低下など、深い学習課題に対する弾力性が示されている。 我々の発見は、GloNetがResNetsのような従来のアーキテクチャの強力な代替となることを示唆している。

Deep learning architectures suffer from depth-related performance degradation, limiting the effective depth of neural networks. Approaches like ResNet are able to mitigate this, but they do not completely eliminate the problem. We introduce Globally Connected Neural Networks (GloNet), a novel architecture overcoming depth-related issues, designed to be superimposed on any model, enhancing its depth without increasing complexity or reducing performance. With GloNet, the network's head uniformly receives information from all parts of the network, regardless of their level of abstraction. This enables GloNet to self-regulate information flow during training, reducing the influence of less effective deeper layers, and allowing for stable training irrespective of network depth. This paper details GloNet's design, its theoretical basis, and a comparison with existing similar architectures. Experiments show GloNet's self-regulation ability and resilience to depth-related learning challenges, like performance degradation. Our findings suggest GloNet as a strong alternative to traditional architectures like ResNets.
翻訳日:2023-11-28 14:27:13 公開日:2023-11-27
# ディープ・アクティブ・ラーニングを活用した公共臨床ノートにおける低リソース・モビリティ情報の同定

Leveraging deep active learning to identify low-resource mobility functioning information in public clinical notes ( http://arxiv.org/abs/2311.15946v1 )

ライセンス: Link先を確認
Tuan-Dung Le, Zhuqi Miao, Samuel Alvarado, Brittany Smith, William Paiva and Thanh Thieu(参考訳) 機能は、臨床自然言語処理研究ではほとんど注目されていないが、人体全体の健康の重要指標としてますます認識されている。 フリーテキスト臨床ノートから機能情報の自動抽出と解析を容易にすることを目的として,国際機能分類・障害・健康分類(ICF)のモビリティ領域に特化して,最初のパブリックアノテートデータセットを紹介した。 我々はNational NLP Clinical Challenges (n2c2) 研究データセットを用いてキーワード拡張を用いた候補文のプールを構築する。 密度代表性に重みづけられた質問毎サンプリングを用いて,人間アノテーションのための情報文を選択するアクティブラーニング手法を提案する。 我々はBERTモデルとCRFモデルを訓練し、これらのモデルからの予測を用いて、後続のアノテーション反復に対する新しい文の選択を誘導する。 最終的なデータセットは,5,511のアクションエンティティ,5,328のモビリティエンティティ,306のアシストエンティティ,639の量子化エンティティを含む,合計11,784のエンティティからなる4,265の文で構成されています。 アノテーション間の合意(IAA)は、すべてのエンティティタイプの平均で、正確なマッチングは0.72、部分的なマッチングは0.91である。 また、一般的なBERTモデルと最先端Nested NERモデルをトレーニングし評価する。 ベストのf1スコアはアクション0.84、モビリティ0.7、アシスト0.62、定量化0.71である。 実験結果から,NERモデルが臨床テキストからモビリティ機能情報を正確に抽出する可能性を示す。 注釈付きデータセットの公開は、電子健康記録(EHRs)における機能情報を包括的に把握するためのさらなる研究に役立つだろう。

Function is increasingly recognized as an important indicator of whole-person health, although it receives little attention in clinical natural language processing research. We introduce the first public annotated dataset specifically on the Mobility domain of the International Classification of Functioning, Disability and Health (ICF), aiming to facilitate automatic extraction and analysis of functioning information from free-text clinical notes. We utilize the National NLP Clinical Challenges (n2c2) research dataset to construct a pool of candidate sentences using keyword expansion. Our active learning approach, using query-by-committee sampling weighted by density representativeness, selects informative sentences for human annotation. We train BERT and CRF models, and use predictions from these models to guide the selection of new sentences for subsequent annotation iterations. Our final dataset consists of 4,265 sentences with a total of 11,784 entities, including 5,511 Action entities, 5,328 Mobility entities, 306 Assistance entities, and 639 Quantification entities. The inter-annotator agreement (IAA), averaged over all entity types, is 0.72 for exact matching and 0.91 for partial matching. We also train and evaluate common BERT models and state-of-the-art Nested NER models. The best F1 scores are 0.84 for Action, 0.7 for Mobility, 0.62 for Assistance, and 0.71 for Quantification. Empirical results demonstrate promising potential of NER models to accurately extract mobility functioning information from clinical text. The public availability of our annotated dataset will facilitate further research to comprehensively capture functioning information in electronic health records (EHRs).
翻訳日:2023-11-28 14:26:55 公開日:2023-11-27
# リーマングラフニューラルネットワークにおけるオーバースカッシング

Over-Squashing in Riemannian Graph Neural Networks ( http://arxiv.org/abs/2311.15945v1 )

ライセンス: Link先を確認
Julia Balla(参考訳) ほとんどのグラフニューラルネットワーク(gnn)は、グラフの遠方のノードからの情報にノードの特徴が敏感になる過剰スワッシング現象に起因している。 近年の研究では、グラフのトポロジがオーバースカッシングに最も大きな影響を与えていることが示されており、グラフ再構成アプローチを適切な解として提案している。 本研究は,GNN の埋め込み空間を通じてオーバー・スクワッシングを緩和できるかどうかを考察する。 特に、埋め込み空間の幾何学がグラフの位相に忠実であるような変数曲率のリーマン多様体への双曲GNN(HGNN)の一般化を考える。 これらのリーマン GNN におけるノードの特徴の感度は、層数の増加に伴って導出され、負の曲率を持つグラフのオーバー・スクアッシングを緩和する有望な理論的および経験的な結果が得られる。

Most graph neural networks (GNNs) are prone to the phenomenon of over-squashing in which node features become insensitive to information from distant nodes in the graph. Recent works have shown that the topology of the graph has the greatest impact on over-squashing, suggesting graph rewiring approaches as a suitable solution. In this work, we explore whether over-squashing can be mitigated through the embedding space of the GNN. In particular, we consider the generalization of Hyperbolic GNNs (HGNNs) to Riemannian manifolds of variable curvature in which the geometry of the embedding space is faithful to the graph's topology. We derive bounds on the sensitivity of the node features in these Riemannian GNNs as the number of layers increases, which yield promising theoretical and empirical results for alleviating over-squashing in graphs with negative curvature.
翻訳日:2023-11-28 14:26:23 公開日:2023-11-27
# tell2design: 言語誘導フロアプラン生成のためのデータセット

Tell2Design: A Dataset for Language-Guided Floor Plan Generation ( http://arxiv.org/abs/2311.15941v1 )

ライセンス: Link先を確認
Sicong Leng, Yang Zhou, Mohammed Haroon Dupty, Wee Sun Lee, Sam Conrad Joyce, Wei Lu(参考訳) 本研究は,自然言語記述から設計を直接生成するタスクを考察し,フロアプラン生成を初期研究分野として検討する。 言語条件生成モデルは最近、高品質な芸術的画像の生成に非常に成功している。 しかし、デザインは芸術的イメージ、特に空間的および関係的制約の生成に存在しない異なる制約を満たす必要がある。 我々はこの課題の研究に複数の貢献をしている。 まず、自然言語命令に関連する80k以上のフロアプラン設計を含む新しいデータセットである \textit{Tell2Design} (T2D) を紹介する。 第二に,将来の研究のベースラインとして機能するシーケンシャル・ツー・シーケンスモデルを提案する。 第3に、このタスクをテキスト条件の画像生成モデルでベンチマークする。 生成したサンプルに対して人的評価を行い,人的性能の分析を行った。 われわれの貢献が、言語によるデザイン生成の研究を前進させることを期待している。

We consider the task of generating designs directly from natural language descriptions, and consider floor plan generation as the initial research area. Language conditional generative models have recently been very successful in generating high-quality artistic images. However, designs must satisfy different constraints that are not present in generating artistic images, particularly spatial and relational constraints. We make multiple contributions to initiate research on this task. First, we introduce a novel dataset, \textit{Tell2Design} (T2D), which contains more than $80k$ floor plan designs associated with natural language instructions. Second, we propose a Sequence-to-Sequence model that can serve as a strong baseline for future research. Third, we benchmark this task with several text-conditional image generation models. We conclude by conducting human evaluations on the generated samples and providing an analysis of human performance. We hope our contributions will propel the research on language-guided design generation forward.
翻訳日:2023-11-28 14:26:07 公開日:2023-11-27
# 電気自動車の補助エネルギー消費量予測

Forecasting Auxiliary Energy Consumption for Electric Heavy-Duty Vehicles ( http://arxiv.org/abs/2311.16003v1 )

ライセンス: Link先を確認
Yuantao Fan, Zhenkan Wang, Sepideh Pashami, Slawomir Nowaczyk, Henrik Ydreskog(参考訳) 正確なエネルギー消費予測は、充電のためのルートプランニングなど、電動商用重役車の運転を最適化するために重要である。 さらに、そのような予測モデルがユーザ信頼を得て実際にデプロイされる上で、なぜ特定の予測が投じられるのかを理解する。 商用車両は輸送作業、環境、運転者によって異なるため、エネルギー消費を予測するAIシステムを構築する際には異種人口が予想される。 入力特徴とターゲット値の依存関係もサブポピュレーションによって異なることが期待されている。 そのような統計現象のよく知られた例はシンプソンパラドックスである。 本稿では,LIME や SHAP などのグローバルな特徴統計を生成する既存の XAI 手法に対して,そのような設定が課題となり,誤った結果をもたらすことを示す。 データのサブセット上で複数の回帰モデルをトレーニングすることで,潜在的なソリューションを実証する。 優れたレグレッションパフォーマンスをもたらすだけでなく、より関連性があり一貫性のあるLIME説明につながる。 採用したグループ化が関連するサブ人口に対応することを考えると、入力特徴と対象値の関連性はクラスタ毎に一貫性があるが、クラスタ間で異なる。 合成データと実世界のデータセットの両方の実験は、複雑な問題をより単純なデータに分解することで、回帰性能と解釈性が向上することを示している。

Accurate energy consumption prediction is crucial for optimizing the operation of electric commercial heavy-duty vehicles, e.g., route planning for charging. Moreover, understanding why certain predictions are cast is paramount for such a predictive model to gain user trust and be deployed in practice. Since commercial vehicles operate differently as transportation tasks, ambient, and drivers vary, a heterogeneous population is expected when building an AI system for forecasting energy consumption. The dependencies between the input features and the target values are expected to also differ across sub-populations. One well-known example of such a statistical phenomenon is the Simpson paradox. In this paper, we illustrate that such a setting poses a challenge for existing XAI methods that produce global feature statistics, e.g. LIME or SHAP, causing them to yield misleading results. We demonstrate a potential solution by training multiple regression models on subsets of data. It not only leads to superior regression performance but also more relevant and consistent LIME explanations. Given that the employed groupings correspond to relevant sub-populations, the associations between the input features and the target values are consistent within each cluster but different across clusters. Experiments on both synthetic and real-world datasets show that such splitting of a complex problem into simpler ones yields better regression performance and interpretability.
翻訳日:2023-11-28 14:18:18 公開日:2023-11-27
# 深層学習による大腿骨内膜切除術患者の血管石灰化自動測定

Automated Measurement of Vascular Calcification in Femoral Endarterectomy Patients Using Deep Learning ( http://arxiv.org/abs/2311.16001v1 )

ライセンス: Link先を確認
Alireza Bagheri Rajeoni, Breanna Pederson, Daniel G. Clair, Susan M. Lessner, Homayoun Valafar(参考訳) 大きな動脈に影響を及ぼす慢性炎症性疾患である動脈硬化症は、世界的な健康リスクをもたらす。 末梢動脈疾患(PAD)を含む動脈硬化関連疾患の進行のステージングとモニタリングには,CTA(Computed Tomographic Angiograms)などの診断画像の正確な解析が不可欠である。 しかし、CTA画像の手動解析は時間がかかり、面倒である。 この制限に対処するために,大腿動脈切除手術中のパッド患者のcta画像の血管系を分割し,左腎動脈から膝蓋骨への血管石灰化を計測するために,深層学習モデルを用いた。 プリズマ・ヘルス・ミッドランズ(Prisma Health Midlands)による大腿動脈内膜切除術を施行した27例のプロプライエタリなCTA画像を用いて,下行大動脈から膝蓋骨まで,および動脈石灰化の指標を提供するディープニューラルネットワーク(Deep Neural Network, DNN)モデルを開発した。 我々の設計したDNNは大動脈から膝蓋骨への動脈分割において平均Dice精度83.4%を達成し,最先端を0.8%向上させた。 さらに,本研究は,9.5%の平均絶対パーセンテージ誤差(MAPE)と,自動石灰化スコアと手動石灰化スコアの相関係数0.978を,ディープラーニングを用いた下肢における石灰化自動測定の頑健な統計的解析を行った最初のものである。 これらの知見は,深層学習技術が,腹部大動脈および膝蓋下枝の石灰化を迅速かつ正確に評価するためのツールとしての可能性を示している。 このプロジェクトで開発されたDNNモデルと関連するドキュメントはGitHubのhttps://github.com/pip-alireza/DeepCalcScoring.comにある。

Atherosclerosis, a chronic inflammatory disease affecting the large arteries, presents a global health risk. Accurate analysis of diagnostic images, like computed tomographic angiograms (CTAs), is essential for staging and monitoring the progression of atherosclerosis-related conditions, including peripheral arterial disease (PAD). However, manual analysis of CTA images is time-consuming and tedious. To address this limitation, we employed a deep learning model to segment the vascular system in CTA images of PAD patients undergoing femoral endarterectomy surgery and to measure vascular calcification from the left renal artery to the patella. Utilizing proprietary CTA images of 27 patients undergoing femoral endarterectomy surgery provided by Prisma Health Midlands, we developed a Deep Neural Network (DNN) model to first segment the arterial system, starting from the descending aorta to the patella, and second, to provide a metric of arterial calcification. Our designed DNN achieved 83.4% average Dice accuracy in segmenting arteries from aorta to patella, advancing the state-of-the-art by 0.8%. Furthermore, our work is the first to present a robust statistical analysis of automated calcification measurement in the lower extremities using deep learning, attaining a Mean Absolute Percentage Error (MAPE) of 9.5% and a correlation coefficient of 0.978 between automated and manual calcification scores. These findings underscore the potential of deep learning techniques as a rapid and accurate tool for medical professionals to assess calcification in the abdominal aorta and its branches above the patella. The developed DNN model and related documentation in this project are available at GitHub page at https://github.com/pip-alireza/DeepCalcScoring.
翻訳日:2023-11-28 14:17:57 公開日:2023-11-27
# Fokker-Planck方程式によるスコアベース拡散モデルにおけるODE-SDEギャップの閉包

Closing the ODE-SDE gap in score-based diffusion models through the Fokker-Planck equation ( http://arxiv.org/abs/2311.15996v1 )

ライセンス: Link先を確認
Teo Deveney, Jan Stanczuk, Lisa Maria Kreusser, Chris Budd, Carola-Bibiane Sch\"onlieb(参考訳) スコアベース拡散モデルは、確率微分方程式 (SDE) や常微分方程式 (ODE) のような数学的基礎を頼りながら、多くの世代のタスクにおける最先端技術の性能のため、深層生成モデリングの最も有望なフレームワークの1つである。 経験的に、ODEベースのサンプルはSDEベースのサンプルより劣っていることが報告されている。 本稿では、真のsde動力学、神経近似、その結果生じる様々な近似粒子動力学、およびそれらの関連するフォッカー・プランク方程式、およびこれらのフォッカー・プランク方程式のニューラルネットワーク近似を含む、スコアに基づく拡散モデルをトレーニングする際に生じるダイナミクスと近似の範囲を厳密に記述する。 我々は、スコアベース拡散モデルのODEとSDEのダイナミクスの違いを系統的に解析し、関連するFokker-Planck方程式にリンクする。 我々は、Fokker-Planck残差の観点から、ODE-とSDE-誘導分布間のワッサーシュタイン2-距離の理論上界を導出する。 また,従来のスコアベース拡散モデルでは,オデとsdeにより引き起こされる分布に有意な差があることを示す。 さらに,追加正規化項として追加することにより,fokker-planck残差の低減がode分布とsde分布のギャップを縮めることを数値的に示す。 この正規化は, ODE が生成する分布を改善することができるが, SDE サンプルの品質低下のコストがかかる可能性が示唆された。

Score-based diffusion models have emerged as one of the most promising frameworks for deep generative modelling, due to their state-of-the art performance in many generation tasks while relying on mathematical foundations such as stochastic differential equations (SDEs) and ordinary differential equations (ODEs). Empirically, it has been reported that ODE based samples are inferior to SDE based samples. In this paper we rigorously describe the range of dynamics and approximations that arise when training score-based diffusion models, including the true SDE dynamics, the neural approximations, the various approximate particle dynamics that result, as well as their associated Fokker--Planck equations and the neural network approximations of these Fokker--Planck equations. We systematically analyse the difference between the ODE and SDE dynamics of score-based diffusion models, and link it to an associated Fokker--Planck equation. We derive a theoretical upper bound on the Wasserstein 2-distance between the ODE- and SDE-induced distributions in terms of a Fokker--Planck residual. We also show numerically that conventional score-based diffusion models can exhibit significant differences between ODE- and SDE-induced distributions which we demonstrate using explicit comparisons. Moreover, we show numerically that reducing the Fokker--Planck residual by adding it as an additional regularisation term leads to closing the gap between ODE- and SDE-induced distributions. Our experiments suggest that this regularisation can improve the distribution generated by the ODE, however that this can come at the cost of degraded SDE sample quality.
翻訳日:2023-11-28 14:17:24 公開日:2023-11-27
# 残留およびフィードフォワードニューラルネットワークのための感度に基づく層挿入

Sensitivity-Based Layer Insertion for Residual and Feedforward Neural Networks ( http://arxiv.org/abs/2311.15995v1 )

ライセンス: Link先を確認
Evelyn Herberg and Roland Herzog and Frederik K\"ohne and Leonie Kreis and Anton Schiela(参考訳) ニューラルネットワークのトレーニングには、面倒でしばしば手動でネットワークアーキテクチャをチューニングする必要がある。 トレーニングプロセス中に新たなレイヤを挿入する体系的手法を提案する。 本手法は,制約付き最適化から手法を借用し,付加層が提案する仮想パラメータに対して,目的物の1次感度情報に基づく。 活性化関数を選択した完全連結フィードフォワードネットワークと残差ニューラルネットワークを考察する。 数値実験で提案した感度ベース層挿入法では, 層を挿入しない場合に比べてトレーニング劣化が改善した。 さらに、最初に層を挿入するよりも計算労力が削減される。 コードは \url{https://github.com/leoniekreis/layer_insertion_sensitivity_based} で入手できる。

The training of neural networks requires tedious and often manual tuning of the network architecture. We propose a systematic method to insert new layers during the training process, which eliminates the need to choose a fixed network size before training. Our technique borrows techniques from constrained optimization and is based on first-order sensitivity information of the objective with respect to the virtual parameters that additional layers, if inserted, would offer. We consider fully connected feedforward networks with selected activation functions as well as residual neural networks. In numerical experiments, the proposed sensitivity-based layer insertion technique exhibits improved training decay, compared to not inserting the layer. Furthermore, the computational effort is reduced in comparison to inserting the layer from the beginning. The code is available at \url{https://github.com/LeonieKreis/layer_insertion_sensitivity_based}.
翻訳日:2023-11-28 14:16:56 公開日:2023-11-27
# adversaral doodles: 解釈可能で人身売買可能な攻撃は非難に値する洞察をもたらす

Adversaral Doodles: Interpretable and Human-drawable Attacks Provide Describable Insights ( http://arxiv.org/abs/2311.15994v1 )

ライセンス: Link先を確認
Ryoya Nara and Yusuke Matsui(参考訳) DNNに基づく画像分類モデルは、敵対的攻撃の影響を受けやすい。 これまでのほとんどの敵攻撃は、生成した敵の例の解釈可能性に焦点を合わせておらず、攻撃から標的分類器のメカニズムを把握できない。 そこで本研究では,解釈可能な形状を持つ逆ドゥードルを提案する。 黒のb\'ezier曲線を最適化し、対象の分類器を入力画像に重ねて騙す。 ランダムな視点変換を導入し, doodled領域を正則化することにより, 人間が手で複製した場合でも, 誤分類を引き起こすコンパクトな攻撃が得られる。 adversarial doodlesは、攻撃と分類器の出力との関係について、批判的で興味深い洞察を与えてくれる。 逆向きのドゥードルを利用して、「頭部に2つのストローク、体に1つの三角形、鳥の画像に三角形の内側に2つの線を加えます。そして、分類器は画像を蝶と誤分類します。」というように、対象の分類器に固有のバイアスを発見する。

DNN-based image classification models are susceptible to adversarial attacks. Most previous adversarial attacks do not focus on the interpretability of the generated adversarial examples, and we cannot gain insights into the mechanism of the target classifier from the attacks. Therefore, we propose Adversarial Doodles, which have interpretable shapes. We optimize black b\'ezier curves to fool the target classifier by overlaying them onto the input image. By introducing random perspective transformation and regularizing the doodled area, we obtain compact attacks that cause misclassification even when humans replicate them by hand. Adversarial doodles provide describable and intriguing insights into the relationship between our attacks and the classifier's output. We utilize adversarial doodles and discover the bias inherent in the target classifier, such as "We add two strokes on its head, a triangle onto its body, and two lines inside the triangle on a bird image. Then, the classifier misclassifies the image as a butterfly."
翻訳日:2023-11-28 14:16:43 公開日:2023-11-27
# 統一バッチ正規化: バッチ正規化における特徴凝縮の同定と緩和と統一フレームワーク

Unified Batch Normalization: Identifying and Alleviating the Feature Condensation in Batch Normalization and a Unified Framework ( http://arxiv.org/abs/2311.15993v1 )

ライセンス: Link先を確認
Shaobo Wang, Xiangdong Zhang, Junchi Yan(参考訳) バッチ正規化(BN)は、現代のニューラルネットワーク設計において不可欠な技術となり、トレーニングの安定性を高めている。 特にbnは、バッチ次元に沿って機能を標準化するためにセンタリングとスケーリング操作を採用し、アフィン変換を使用して機能を復元する。 標準BNは、ディープニューラルネットワークトレーニングと収束を改善する能力を示しているが、特定のケースには固有の制限がある。 BNを強化する既存の技術のほとんどはBNの1つまたはいくつかの側面を考慮している。 本稿では,機能の観点からBNの問題を特定し,BNを用いた場合の特徴凝縮がテスト性能に悪影響を及ぼすことを考察する。 この問題に対処するため,Unified Batch Normalization (UBN) と呼ばれる2段階の統合フレームワークを提案する。 第1段階では、単純な特徴凝縮閾値を用いて特徴凝縮を緩和し、正規化における不適切な統計更新を妨げる。 第2段階では、種々の正規化変種を統一し、BNの各成分を増強する。 実験の結果,UBNは視覚的バックボーン間の性能を著しく向上させ,特に早期トレーニングにおいてネットワークトレーニングの収束を早めることが明らかとなった。 特に,本手法は,バッチサイズが大きいImageNet分類において,約3%の精度向上を実現し,実世界のシナリオにおけるアプローチの有効性を示した。

Batch Normalization (BN) has become an essential technique in contemporary neural network design, enhancing training stability. Specifically, BN employs centering and scaling operations to standardize features along the batch dimension and uses an affine transformation to recover features. Although standard BN has shown its capability to improve deep neural network training and convergence, it still exhibits inherent limitations in certain cases. Most existing techniques that enhance BN consider a single or a few aspects of BN. In this paper, we first identify problems with BN from a feature perspective and explore that feature condensation exists in the learning when employing BN, which negatively affects testing performance. To tackle this problem, we propose a two-stage unified framework called Unified Batch Normalization (UBN). In the first stage, we utilize a simple feature condensation threshold to alleviate the feature condensation, which hinders inappropriate statistic updates in normalization. In the second stage, we unify various normalization variants to boost each component of BN. Our experimental results reveal that UBN significantly enhances performance across different visual backbones and notably expedites network training convergence, particularly in early training stages. Notably, our method improved about 3% in top-1 accuracy on ImageNet classification with large batch sizes, showing the effectiveness of our approach in real-world scenarios.
翻訳日:2023-11-28 14:16:23 公開日:2023-11-27
# DiffAnt: アクション予測のための拡散モデル

DiffAnt: Diffusion Models for Action Anticipation ( http://arxiv.org/abs/2311.15991v1 )

ライセンス: Link先を確認
Zeyun Zhong, Chengzhi Wu, Manuel Martin, Michael Voit, Juergen Gall, J\"urgen Beyerer(参考訳) 将来の行動は本質的に不確実である。 進行中のアクションを含む観察ビデオセグメントが与えられた後、複数のアクションが確実に続く。 この不確実性は、未来まで予測するとさらに大きくなる。 しかし、既存の行動予測モデルの大部分は決定論的アプローチに固執しており、将来の不確実性を考慮することを怠っている。 本研究では, 異なる将来的行動を捉えるために拡散モデルを用いて, 生成的視点から行動予測を再考する。 この枠組みでは、潜伏空間における標準ガウス雑音から将来の動作を反復的に生成し、観測されたビデオ上で条件付けし、その後、アクション空間に遷移する。 4つのベンチマークデータセット、すなわち朝食、50サラド、エピックキッチェン、egtea gaze+に関する広範な実験を行い、提案手法は最先端の手法に匹敵する結果を得ることができ、行動予測のための生成的アプローチの有効性を示す。 コードとトレーニングされたモデルはGitHubで公開される予定です。

Anticipating future actions is inherently uncertain. Given an observed video segment containing ongoing actions, multiple subsequent actions can plausibly follow. This uncertainty becomes even larger when predicting far into the future. However, the majority of existing action anticipation models adhere to a deterministic approach, neglecting to account for future uncertainties. In this work, we rethink action anticipation from a generative view, employing diffusion models to capture different possible future actions. In this framework, future actions are iteratively generated from standard Gaussian noise in the latent space, conditioned on the observed video, and subsequently transitioned into the action space. Extensive experiments on four benchmark datasets, i.e., Breakfast, 50Salads, EpicKitchens, and EGTEA Gaze+, are performed and the proposed method achieves superior or comparable results to state-of-the-art methods, showing the effectiveness of a generative approach for action anticipation. Our code and trained models will be published on GitHub.
翻訳日:2023-11-28 14:15:59 公開日:2023-11-27
# 最もよく似た関数やパラメータを学ぶべきか?

Should We Learn Most Likely Functions or Parameters? ( http://arxiv.org/abs/2311.15990v1 )

ライセンス: Link先を確認
Shikai Qiu, Tim G. J. Rudner, Sanyam Kapoor, Andrew Gordon Wilson(参考訳) 標準正規化訓練手順は、最大アフター(MAP)推定として知られるパラメータの後方分布の最大化に対応する。 しかし、モデルパラメータは、良い予測ができる関数を提供するために、モデルの機能形式と組み合わせているため、興味をそそるだけです。 さらに、パラメータ後部の最も可能性の高いパラメータは、一般にパラメータ後部によって誘導される最も可能性の高い関数に対応しない。 実際、パラメータの設定が後方のパラメータを最大化できるように、モデルを再パラメータ化することができる。 代替案として,モデルとデータに含意される最も可能性の高い関数を直接推定する利点と欠点について検討する。 この手法は,ニューラルネットワークを用いた場合の病理学的解決につながることを示し,その方法が十分に整備された条件とスケーラブルな近似を証明できることを示した。 これらの条件下では、関数空間マップの推定がより平坦な最小値となり、より一般化され、オーバーフィッティングに対するロバスト性が向上する。

Standard regularized training procedures correspond to maximizing a posterior distribution over parameters, known as maximum a posteriori (MAP) estimation. However, model parameters are of interest only insomuch as they combine with the functional form of a model to provide a function that can make good predictions. Moreover, the most likely parameters under the parameter posterior do not generally correspond to the most likely function induced by the parameter posterior. In fact, we can re-parametrize a model such that any setting of parameters can maximize the parameter posterior. As an alternative, we investigate the benefits and drawbacks of directly estimating the most likely function implied by the model and the data. We show that this procedure leads to pathological solutions when using neural networks and prove conditions under which the procedure is well-behaved, as well as a scalable approximation. Under these conditions, we find that function-space MAP estimation can lead to flatter minima, better generalization, and improved robustness to overfitting.
翻訳日:2023-11-28 14:15:41 公開日:2023-11-27
# Sparsify-then-classify:大言語モデルの内部ニューロンから効率的なテキスト分類器へ

Sparsify-then-Classify: From Internal Neurons of Large Language Models To Efficient Text Classifiers ( http://arxiv.org/abs/2311.15983v1 )

ライセンス: Link先を確認
Yilun Liu, Difan Jiao, Ashton Anderson(参考訳) 大きな言語モデル(LLM)が革新した多くのタスクの1つは、テキスト分類である。 しかし、テキスト分類に事前訓練されたLLMを適用するための既存のアプローチは、主に隠れ状態の最後の層のみから単一のトークン出力を使用することに依存している。 その結果、効率性、タスク特異性、解釈可能性の制限に悩まされる。 本研究では,すべてのアクティベーションと隠蔽状態に複数のプーリング戦略を適用することで,すべての内部表現を利用するアプローチに貢献する。 私たちの新しい軽量戦略であるSparsify-then-Classify (STC) は、まずタスク固有の機能を階層ごとに分散し、次にテキスト分類のために階層に集約します。 STCは既存のLLM上にシームレスなプラグイン・アンド・プレイモジュールとして適用することができる。 総合的なモデルとデータセットに関する実験により,stcは事前学習モデルと微調整モデルの分類性能を一貫して向上させるだけでなく,トレーニングと推論の両方においてより効率的であり,本質的に解釈可能であることが示された。

Among the many tasks that Large Language Models (LLMs) have revolutionized is text classification. However, existing approaches for applying pretrained LLMs to text classification predominantly rely on using single token outputs from only the last layer of hidden states. As a result, they suffer from limitations in efficiency, task-specificity, and interpretability. In our work, we contribute an approach that uses all internal representations by employing multiple pooling strategies on all activation and hidden states. Our novel lightweight strategy, Sparsify-then-Classify (STC) first sparsifies task-specific features layer-by-layer, then aggregates across layers for text classification. STC can be applied as a seamless plug-and-play module on top of existing LLMs. Our experiments on a comprehensive set of models and datasets demonstrate that STC not only consistently improves the classification performance of pretrained and fine-tuned models, but is also more efficient for both training and inference, and is more intrinsically interpretable.
翻訳日:2023-11-28 14:15:23 公開日:2023-11-27
# Direct2.5:マルチビュー2.5D拡散によるテキスト・ツー・3D生成

Direct2.5: Diverse Text-to-3D Generation via Multi-view 2.5D Diffusion ( http://arxiv.org/abs/2311.15980v1 )

ライセンス: Link先を確認
Yuanxun Lu, Jingyang Zhang, Shiwei Li, Tian Fang, David McKinnon, Yanghai Tsin, Long Quan, Xun Cao, and Yao Yao(参考訳) 生成AIの最近の進歩は、3Dコンテンツを作成する大きな可能性を明らかにしている。 しかし、現在の方法では、時間消費スコア蒸留サンプリング(SDS)による事前学習された2次元拡散モデルや、生成多様性を損なう限られた3次元データに基づいて訓練された直接3次元拡散モデルを適用する。 本研究では, 事前学習した2次元拡散モデルを用いて, 多視点2.5D拡散モデルを用いてこの問題に対処する。 マルチビュー2.5D拡散は、3Dデータの構造分布を直接モデル化するが、元の2D拡散モデルの強力な一般化能力は保ち、2D拡散ベースと直接3D拡散ベースによる3Dコンテンツ生成のギャップを埋める。 推論中に2.5次元拡散を用いて多視点正規写像が生成され、ほぼ一貫した多視点正規写像を一貫した3次元モデルに融合させる新しい微分可能ラスタライズスキームが導入された。 さらに、3次元形状から高速な外観生成のための正規条件付きマルチビュー画像生成モジュールを設計する。 本手法は1パス拡散プロセスであり,後処理としてSDSの最適化は不要である。 提案手法を用いた2.5Dの直接生成により,多種多様,モードフリー,高忠実な3Dコンテンツ生成を10秒で実現できることを示す。 プロジェクトページ: https://nju-3dv.github.io/projects/direct25。

Recent advances in generative AI have unveiled significant potential for the creation of 3D content. However, current methods either apply a pre-trained 2D diffusion model with the time-consuming score distillation sampling (SDS), or a direct 3D diffusion model trained on limited 3D data losing generation diversity. In this work, we approach the problem by employing a multi-view 2.5D diffusion fine-tuned from a pre-trained 2D diffusion model. The multi-view 2.5D diffusion directly models the structural distribution of 3D data, while still maintaining the strong generalization ability of the original 2D diffusion model, filling the gap between 2D diffusion-based and direct 3D diffusion-based methods for 3D content generation. During inference, multi-view normal maps are generated using the 2.5D diffusion, and a novel differentiable rasterization scheme is introduced to fuse the almost consistent multi-view normal maps into a consistent 3D model. We further design a normal-conditioned multi-view image generation module for fast appearance generation given the 3D geometry. Our method is a one-pass diffusion process and does not require any SDS optimization as post-processing. We demonstrate through extensive experiments that, our direct 2.5D generation with the specially-designed fusion scheme can achieve diverse, mode-seeking-free, and high-fidelity 3D content generation in only 10 seconds. Project page: https://nju-3dv.github.io/projects/direct25.
翻訳日:2023-11-28 14:15:02 公開日:2023-11-27
# グラフニューラルネットワークによる気候特性からの土壌有機炭素推定

Soil Organic Carbon Estimation from Climate-related Features with Graph Neural Network ( http://arxiv.org/abs/2311.15979v1 )

ライセンス: Link先を確認
Weiying Zhao and Natalia Efremova(参考訳) 土壌有機炭素(SOC)は、地球規模の炭素循環において重要な役割を担い、気候動態に影響し、持続可能な土地と農業管理の正確な評価を必要とする。 SOC推定の従来の手法は解像度と精度の課題があるが、最近の技術はリモートセンシング、機械学習、高解像度衛星マッピングを利用する。 グラフニューラルネットワーク(gnns)は、特に位置エンコーダと統合することで、土壌と気候の間の複雑な関係を捉えることができる。 LUCASデータベースを用いて、4つのGNN演算子を位置エンコーダフレームワークで比較した。 その結果, PESAGEモデルとPETransformerモデルは, SOC推定において他のモデルよりも優れており, SOCと気候特性の複雑な関係を捉える可能性を示した。 SOC予測におけるGNNアーキテクチャの適用可能性を確認し,より先進的なGNNモデルによる今後の研究の枠組みを確立した。

Soil organic carbon (SOC) plays a pivotal role in the global carbon cycle, impacting climate dynamics and necessitating accurate estimation for sustainable land and agricultural management. While traditional methods of SOC estimation face resolution and accuracy challenges, recent technological solutions harness remote sensing, machine learning, and high-resolution satellite mapping. Graph Neural Networks (GNNs), especially when integrated with positional encoders, can capture complex relationships between soil and climate. Using the LUCAS database, this study compared four GNN operators in the positional encoder framework. Results revealed that the PESAGE and PETransformer models outperformed others in SOC estimation, indicating their potential in capturing the complex relationship between SOC and climate features. Our findings confirm the feasibility of applications of GNN architectures in SOC prediction, establishing a framework for future explorations of this topic with more advanced GNN models.
翻訳日:2023-11-28 14:14:37 公開日:2023-11-27
# Text2Loc: 自然言語からの3Dポイントクラウドローカライゼーション

Text2Loc: 3D Point Cloud Localization from Natural Language ( http://arxiv.org/abs/2311.15977v1 )

ライセンス: Link先を確認
Yan Xia, Letian Shi, Zifeng Ding, Jo\~ao F. Henriques, Daniel Cremers(参考訳) 我々は,いくつかの自然言語記述に基づく3Dポイントクラウドローカライゼーションの問題に取り組み,ポイントとテキスト間の意味的関係を完全に解釈する新しいニューラルネットワークText2Locを導入する。 text2locは、細かなローカライズパイプラインであるtext-submap global place recognitionに続いて、細かなローカライズを行う。 グローバルな位置認識では、各テキストヒント間の関係ダイナミクスを最大プーリング(HTM)付き階層変換器でキャプチャする一方、正対と負対のバランスはテキストサブマップコントラスト学習を用いて維持する。 さらに,複雑なテキストインテンスマッチングの必要性を完全に排除し,従来手法よりも軽量,高速,高精度な位置予測を行うための,マッチングフリーなファインローカライズ手法を提案する。 大規模な実験により、Text2LocはKITTI360Poseデータセットの最先端技術よりも、最大2\times$のローカライズ精度を向上している。 私たちはそのコードを公開します。

We tackle the problem of 3D point cloud localization based on a few natural linguistic descriptions and introduce a novel neural network, Text2Loc, that fully interprets the semantic relationship between points and text. Text2Loc follows a coarse-to-fine localization pipeline: text-submap global place recognition, followed by fine localization. In global place recognition, relational dynamics among each textual hint are captured in a hierarchical transformer with max-pooling (HTM), whereas a balance between positive and negative pairs is maintained using text-submap contrastive learning. Moreover, we propose a novel matching-free fine localization method to further refine the location predictions, which completely removes the need for complicated text-instance matching and is lighter, faster, and more accurate than previous methods. Extensive experiments show that Text2Loc improves the localization accuracy by up to $2\times$ over the state-of-the-art on the KITTI360Pose dataset. We will make the code publicly available.
翻訳日:2023-11-28 14:14:21 公開日:2023-11-27
# 量子プロセッサにおける絡み合いダイナミクスの量子シミュレーション

Quantum simulation of entanglement dynamics in a quantum processor ( http://arxiv.org/abs/2311.15973v1 )

ライセンス: Link先を確認
C. Inzulza, S. Saavedra-Pino, F. Albarr\'an-Arriagada, P. Roman, and J. C. Retamal(参考訳) 我々は,ibm量子プロセッサに5量子ビットプロトコルを実装し,環境の存在下で2量子ビットシステム内の絡み合いダイナミクスを得る。 具体的には、2つの量子ビットがメインシステムを表し、もう2つの量子ビットが環境を表し、追加の量子ビットが量子絡み合い推定を行う補助量子ビットとして使用される。 この超伝導量子プロセッサでは、突然の死亡と突然の絡み合いの発生を計測することに集中する。 本研究は,本システム量子ビットと環境量子ビットの量子エンタングルメント進化を,同じ量子デバイス上でのn=10$独立実験の平均値として求め,現在の量子プロセッサのノイズの多い性質が突然の死亡を示唆する時間変化を発生させ,エンタングルメントの突然発生を観測した。 この研究は、量子情報の基本的な概念をテストするために、現在のノイズ量子デバイスの有用性を示す。

We implement a five-qubit protocol in IBM quantum processors to get entanglement dynamics in a two qubit system in the presence of an environment. Specifically, two qubits represent the main system, another two qubits the environment, and an additional qubit is used as an auxiliary qubit to perform the quantum entanglement estimation. We focus on measuring, in this superconducting quantum processor, the sudden death and sudden birth of entanglement. We obtain the quantum entanglement evolution of the main system qubits and the environment qubits as the average of $N=10$ independent experiments in the same quantum device, observing that the noisy nature of current quantum processors produce a shift on times signaling sudden death o sudden birth of entanglement. This work takes relevance showing the usefulness of current noisy quantum devices to test fundamental concepts in quantum information.
翻訳日:2023-11-28 14:14:02 公開日:2023-11-27
# 大スピン軌道相互作用による高忠実スピン量子ビットシャットリング

High-fidelity spin qubit shuttling via large spin-orbit interaction ( http://arxiv.org/abs/2311.15970v1 )

ライセンス: Link先を確認
Stefano Bosco, Ji Zou, Daniel Loss(参考訳) 高い忠実度を持つシャットリングスピンは、半導体量子コンピュータをスケールアップする鍵となる要件であり、大距離での量子ビットの絡み合いを可能にし、チップ上の制御エレクトロニクスの統合を好んでいる。 スピンを避けられない電荷ノイズから切り離すために、最先端のスピンシャトルはゼーマン場の不均一性を最小化しようとする。 しかし、この分離はシリコンやゲルマニウムのホールスピン量子ビットのような有望な量子コンピューティングプラットフォームでは困難であり、大きなスピン軌道相互作用と電気的に調整可能な量子ビット周波数が特徴である。 本研究では,ゼマン場の大きな不均一性が移動スピン状態のコヒーレンスを安定化させることにより,これらの系においても高忠実性シャットリングが可能となることを示す。 この忠実度の向上は、電荷雑音の優性低周波寄与をフィルターするスピンの決定論的ダイナミクスと関係している。 いくつかの異なるシナリオとノイズ源をシミュレートすることにより、これは大域不均質で一般的に発生する堅牢な現象であることを示す。 量子ドットの運動を適切に調整することにより、より高速でよりコヒーレントなスピンシャットリングを可能にする現実的なプロトコルを設計する。 我々の発見は一般に幅広い設定に適用でき、大規模量子プロセッサへの道を開くことができる。

Shuttling spins with high fidelity is a key requirement to scale up semiconducting quantum computers, enabling qubit entanglement over large distances and favoring the integration of control electronics on-chip. To decouple the spin from the unavoidable charge noise, state-of-the-art spin shuttlers try to minimize the inhomogeneity of the Zeeman field. However, this decoupling is challenging in otherwise promising quantum computing platforms such as hole spin qubits in silicon and germanium, characterized by a large spin-orbit interaction and electrically-tunable qubit frequency. In this work, we show that, surprisingly, the large inhomogeneity of the Zeeman field stabilizes the coherence of a moving spin state, thus enabling high-fidelity shuttling also in these systems. We relate this enhancement in fidelity to the deterministic dynamics of the spin which filters out the dominant low-frequency contributions of the charge noise. By simulating several different scenarios and noise sources, we show that this is a robust phenomenon generally occurring at large field inhomogeneity. By appropriately adjusting the motion of the quantum dot, we also design realistic protocols enabling faster and more coherent spin shuttling. Our findings are generally applicable to a wide range of setups and could pave the way toward large-scale quantum processors.
翻訳日:2023-11-28 14:13:45 公開日:2023-11-27
# 超強光物質結合系におけるキャビティ光学 自己調整と光メカニック相転移

Cavity optomechanics in ultrastrong light matter coupling regime. Self-alignment and optomechanic phase transition ( http://arxiv.org/abs/2311.15969v1 )

ライセンス: Link先を確認
Denis Ilin, I. V. Tokatly, and Ivan Iorsh(参考訳) 理論的には、光学キャビティ内に置かれる量子二量体の集合を考える。 まず、共振器光子の放出と再吸収を媒介する二量体間の角運動量の交換により、二量体が配向する。 さらに、キラルキャビティの真空状態の光学角運動量はダイマーのアンサンブルに伝達され、特定のレベルの光マッター結合強度でダイマーの同期回転に繋がる。

We theoretically consider an ensemble of quantum dimers placed inside an optical cavity. We predict two effects: first, an exchange of angular momentum between the dimers mediated by the emission and re-absorption of the cavity photons leads to the alignment of dimers. Furthermore, the optical angular momentum of the vacuum state of the chiral cavity is transferred to the ensemble of dimers which leads to the synchronous rotation of the dimers at certain levels of light-matter coupling strength.
翻訳日:2023-11-28 14:13:24 公開日:2023-11-27
# OccWorld: 自動運転のための3D作業世界モデルを学ぶ

OccWorld: Learning a 3D Occupancy World Model for Autonomous Driving ( http://arxiv.org/abs/2311.16038v1 )

ライセンス: Link先を確認
Wenzhao Zheng, Weiliang Chen, Yuanhui Huang, Borui Zhang, Yueqi Duan, Jiwen Lu(参考訳) 3Dシーンの進化を理解することは、自動運転の意思決定に不可欠である。 既存の方法の多くは、よりきめ細かいシーン情報をキャプチャできないオブジェクトボックスの動きを予測することでこれを達成する。 本稿では,エゴカーの移動と周囲のシーンの進化を同時に予測するために,世界モデルOccWorldを3次元空間で学習する新たな枠組みを探求する。 3dバウンディングボックスやセグメンテーションマップではなく、3d占有率に基づく世界モデルを学ぶことを3つの理由から提案する。 1)表現性。 3Dの占有は、シーンのよりきめ細かい3D構造を記述することができる。 2)効率性。 3D占有率はより経済的である(例えば、疎LiDAR点から)。 3)汎用性。 3D占有力は視覚とLiDARの両方に適応できる。 世界発展のモデル化を容易にするために,3次元空間における再構成型シーントークン化装置を学習し,周辺シーンを記述するための個別のシーントークンを得る。 次に、gptライクな時空間生成トランスを用い、後続のシーンとegoトークンを生成し、将来の占有とego軌道をデコードする。 広く使われているnuScenesベンチマークに関する大規模な実験は、運転シーンの進化を効果的にモデル化するOccWorldの能力を実証している。 OccWorldはインスタンスとマップの監視を使わずに、競合する計画結果も生成する。 コード: https://github.com/wzzheng/occworld。

Understanding how the 3D scene evolves is vital for making decisions in autonomous driving. Most existing methods achieve this by predicting the movements of object boxes, which cannot capture more fine-grained scene information. In this paper, we explore a new framework of learning a world model, OccWorld, in the 3D Occupancy space to simultaneously predict the movement of the ego car and the evolution of the surrounding scenes. We propose to learn a world model based on 3D occupancy rather than 3D bounding boxes and segmentation maps for three reasons: 1) expressiveness. 3D occupancy can describe the more fine-grained 3D structure of the scene; 2) efficiency. 3D occupancy is more economical to obtain (e.g., from sparse LiDAR points). 3) versatility. 3D occupancy can adapt to both vision and LiDAR. To facilitate the modeling of the world evolution, we learn a reconstruction-based scene tokenizer on the 3D occupancy to obtain discrete scene tokens to describe the surrounding scenes. We then adopt a GPT-like spatial-temporal generative transformer to generate subsequent scene and ego tokens to decode the future occupancy and ego trajectory. Extensive experiments on the widely used nuScenes benchmark demonstrate the ability of OccWorld to effectively model the evolution of the driving scenes. OccWorld also produces competitive planning results without using instance and map supervision. Code: https://github.com/wzzheng/OccWorld.
翻訳日:2023-11-28 14:05:12 公開日:2023-11-27
# gaussianeditor: 3d gaussianをテキスト命令で微妙に編集する

GaussianEditor: Editing 3D Gaussians Delicately with Text Instructions ( http://arxiv.org/abs/2311.16037v1 )

ライセンス: Link先を確認
Jiemin Fang, Junjie Wang, Xiaopeng Zhang, Lingxi Xie, Qi Tian(参考訳) 近年,2次元拡散モデルに基づくテキスト命令による3次元シーン編集において印象的な結果が得られた。 しかし、現在の拡散モデルは、主に潜伏空間のノイズを予測して画像を生成し、通常、編集は画像全体に適用されるため、3Dシーンの微妙な、特に局所的な編集は困難である。 近年の3次元ガウシアン製版法に触発されて, 3次元ガウシアンをテキスト命令で繊細に編集するための体系的フレームワークgaussianeditorを提案する。 3Dガウスの明示的な性質を活かして、繊細な編集を実現するための一連のテクニックを設計する。 具体的には、まずテキスト命令に対応する関心領域(RoI)を抽出し、それを3Dガウスアンにアライメントする。 ガウスRoIは編集プロセスを制御するためにさらに使用される。 私たちのフレームワークは、以前の方法よりも繊細で正確な3dシーンの編集を可能にし、単一のv100 gpuで20分以内、instruct-nerf2nerf(45分2時間)の2倍以上の速さでトレーニング速度を享受できます。

Recently, impressive results have been achieved in 3D scene editing with text instructions based on a 2D diffusion model. However, current diffusion models primarily generate images by predicting noise in the latent space, and the editing is usually applied to the whole image, which makes it challenging to perform delicate, especially localized, editing for 3D scenes. Inspired by recent 3D Gaussian splatting, we propose a systematic framework, named GaussianEditor, to edit 3D scenes delicately via 3D Gaussians with text instructions. Benefiting from the explicit property of 3D Gaussians, we design a series of techniques to achieve delicate editing. Specifically, we first extract the region of interest (RoI) corresponding to the text instruction, aligning it to 3D Gaussians. The Gaussian RoI is further used to control the editing process. Our framework can achieve more delicate and precise editing of 3D scenes than previous methods while enjoying much faster training speed, i.e. within 20 minutes on a single V100 GPU, more than twice as fast as Instruct-NeRF2NeRF (45 minutes -- 2 hours).
翻訳日:2023-11-28 14:04:51 公開日:2023-11-27
# 波長可変遷移金属ジカルコゲナイド絡み合い光子対源

A Tunable Transition Metal Dichalcogenide Entangled Photon-Pair Source ( http://arxiv.org/abs/2311.16036v1 )

ライセンス: Link先を確認
Maximilian A. Weissflog, Anna Fedotova, Yilin Tang, Elkin A. Santos, Benjamin Laudert, Saniya Shinde, Fatemeh Abtahi, Mina Afsharnia, Inmaculada P\'erez P\'erez, Sebastian Ritter, Hao Qin, Jiri Janousek, Sai Shradha, Isabelle Staude, Sina Saravi, Thomas Pertsch, Frank Setzpfandt, Yuerui Lu, Falk Eilenberger(参考訳) 絡み合った光子対光源は、量子鍵分布、センシング、イメージングなどの量子応用の核心にある。 衛星ベースの通信や移動通信のような空間制限や有害な環境での運用は、最小サイズと重量の要求で頑丈な絡み合い源を必要とする。 ここでは,3r積層遷移金属ダイカルコゲナイド結晶中の立方晶マイクロメートルの光子対源を実現することで,この課題を克服する。 その結晶対称性は、追加の成分を使わずに偏光絡み合うベル状態の生成を可能にし、ポンプ偏光の簡単な制御によって調整性を提供する。 驚くべきことに、生成速度と状態チューニングは分離され、同じ生成効率となり、絡み合いを失うことはない。 遷移金属ジアルコゲナイドとモノリシックキャビティと集積フォトニック回路の組み合わせ、または準位相整合を用いると、極小でスケーラブルな量子デバイスへのゲートが開く。

Entangled photon-pair sources are at the core of quantum applications like quantum key distribution, sensing, and imaging. Operation in space-limited and adverse environments such as in satellite-based and mobile communication requires robust entanglement sources with minimal size and weight requirements. Here, we meet this challenge by realizing a cubic micrometer scale entangled photon-pair source in a 3R-stacked transition metal dichalcogenide crystal. Its crystal symmetry enables the generation of polarization-entangled Bell states without additional components and provides tunability by simple control of the pump polarization. Remarkably, generation rate and state tuning are decoupled, leading to equal generation efficiency and no loss of entanglement. Combining transition metal dichalcogenides with monolithic cavities and integrated photonic circuitry or using quasi-phasematching opens the gate towards ultrasmall and scalable quantum devices.
翻訳日:2023-11-28 14:04:28 公開日:2023-11-27
# RobustState:ノイズ対応変分訓練による量子状態生成の忠実度向上

RobustState: Boosting Fidelity of Quantum State Preparation via Noise-Aware Variational Training ( http://arxiv.org/abs/2311.16035v1 )

ライセンス: Link先を確認
Hanrui Wang and Yilian Liu and Pengyu Liu and Jiaqi Gu and Zirui Li and Zhiding Liang and Jinglei Cheng and Yongshan Ding and Xuehai Qian and Yiyu Shi and David Z. Pan and Frederic T. Chong and Song Han(参考訳) 量子状態の準備は量子コンピューティングにおいて重要なサブルーチンであり、初期化量子ビットからターゲット量子状態を生成する。 任意状態準備アルゴリズムは、算術分解(AD)と変分量子状態準備(VQSP)に広く分類することができる。 ADはターゲット状態を一連のゲートに分解するために事前に定義された手順を採用しているが、VQSPはアンサッツパラメータを近似ターゲット状態に反復的にチューニングする。 VQSPは、回路が短いため、ノイズ・中間量子(NISQ)マシンに特に適している。 しかし、ノイズロバストパラメータ最適化の実現は依然として困難である。 本稿では,高ロバスト性と高トレーニング効率を組み合わせた新しいVQSPトレーニング手法であるRobustStateを提案する。 核となるアイデアは、実際の機械からの計測結果を利用して古典的なシミュレータを通してバックプロパゲーションを行い、従って実際の量子ノイズを勾配計算に取り入れることである。 robuststateは、スクラッチからパラメータをトレーニングしたり、既存のパラメータを微調整してターゲットマシンの忠実度を高めるための、汎用的でプラグアンドプレイのテクニックとして機能する。 ゲートレベルとパルスレベルの様々なアンサーゼに適応し、変分ユニタリ合成のような他の変分アルゴリズムの恩恵を受けることができる。 10個の実量子マシンを用いた4つの異なる量子アルゴリズムの状態準備タスクにおけるRobostStateの総合的な評価は、コヒーレントエラーの最大7.1$\times$と4-Qおよび5-Q状態の最大96\%と81\%の改善を示す。 RobustStateは、ベースラインアプローチと比較して、4-Qおよび5-Qのフィデリティを平均50\%、72\%改善する。

Quantum state preparation, a crucial subroutine in quantum computing, involves generating a target quantum state from initialized qubits. Arbitrary state preparation algorithms can be broadly categorized into arithmetic decomposition (AD) and variational quantum state preparation (VQSP). AD employs a predefined procedure to decompose the target state into a series of gates, whereas VQSP iteratively tunes ansatz parameters to approximate target state. VQSP is particularly apt for Noisy-Intermediate Scale Quantum (NISQ) machines due to its shorter circuits. However, achieving noise-robust parameter optimization still remains challenging. We present RobustState, a novel VQSP training methodology that combines high robustness with high training efficiency. The core idea involves utilizing measurement outcomes from real machines to perform back-propagation through classical simulators, thus incorporating real quantum noise into gradient calculations. RobustState serves as a versatile, plug-and-play technique applicable for training parameters from scratch or fine-tuning existing parameters to enhance fidelity on target machines. It is adaptable to various ansatzes at both gate and pulse levels and can even benefit other variational algorithms, such as variational unitary synthesis. Comprehensive evaluation of RobustState on state preparation tasks for 4 distinct quantum algorithms using 10 real quantum machines demonstrates a coherent error reduction of up to 7.1 $\times$ and state fidelity improvement of up to 96\% and 81\% for 4-Q and 5-Q states, respectively. On average, RobustState improves fidelity by 50\% and 72\% for 4-Q and 5-Q states compared to baseline approaches.
翻訳日:2023-11-28 14:04:09 公開日:2023-11-27
# 不確実性下での機械学習による航空機着陸スケジューリング

Machine Learning-Enhanced Aircraft Landing Scheduling under Uncertainties ( http://arxiv.org/abs/2311.16030v1 )

ライセンス: Link先を確認
Yutian Pang, Peng Zhao, Jueming Hu, Yongming Liu(参考訳) 本稿では、航空機の遅延に対処し、安全性と経済的損失に対する影響を強調した。 これらの問題を緩和するために、自動化と安全性の向上を目的とした、革新的な機械学習(ML)によるランディングスケジューリング手法を提案する。 飛行の到着遅延シナリオを分析すると、到着の飛行時間内に強いマルチモーダル分布とクラスターが現れる。 多段条件ML予測器は、飛行イベントに基づく分離時間予測を強化する。 ml予測は、milp(mixed-integer linear programming)を用いて解く時間制約付きセールスマン問題定式化において、安全制約として統合される。 歴史的飛行記録とモデル予測は、連続する飛行間の不確実性に対処し、信頼性を確保する。 提案手法はatlanta air route traffic control center (artcc ztl) の実世界データを用いて検証される。 ケーススタディでは、FCFS(First-Come-First-Served)ルールと比較して、総着陸時間が平均17.2%減少している。 FCFSとは異なり、提案手法は不確実性を考慮し、スケジューリングに自信を与える。 研究の結論は、今後の研究方針の概要である。

This paper addresses aircraft delays, emphasizing their impact on safety and financial losses. To mitigate these issues, an innovative machine learning (ML)-enhanced landing scheduling methodology is proposed, aiming to improve automation and safety. Analyzing flight arrival delay scenarios reveals strong multimodal distributions and clusters in arrival flight time durations. A multi-stage conditional ML predictor enhances separation time prediction based on flight events. ML predictions are then integrated as safety constraints in a time-constrained traveling salesman problem formulation, solved using mixed-integer linear programming (MILP). Historical flight recordings and model predictions address uncertainties between successive flights, ensuring reliability. The proposed method is validated using real-world data from the Atlanta Air Route Traffic Control Center (ARTCC ZTL). Case studies demonstrate an average 17.2% reduction in total landing time compared to the First-Come-First-Served (FCFS) rule. Unlike FCFS, the proposed methodology considers uncertainties, instilling confidence in scheduling. The study concludes with remarks and outlines future research directions.
翻訳日:2023-11-28 14:03:38 公開日:2023-11-27
# HCAI方法論フレームワーク:人間中心のAIを実現するためのアクションにそれを組み込む

An HCAI Methodological Framework: Putting It Into Action to Enable Human-Centered AI ( http://arxiv.org/abs/2311.16027v1 )

ライセンス: Link先を確認
Wei Xu, Zaifeng Gao, Marvin Dainoff(参考訳) 人間中心型AI(HCAI)は、設計哲学として、人間に対してAI技術の利点を最大化し、その潜在的な悪影響を避けることを目的として、インテリジェントシステムの設計、開発、デプロイにおいて人間の優先順位を主張する。 HCAIは勢いを増しているが、その実装における方法論に関するガイダンスの欠如は、その採用を困難にしている。 本稿では,hcaiの方法論的枠組みの必要性を評価し,まず設計目標,設計原則,実装アプローチ,設計パラダイム,学際チーム,方法,プロセスを含む7つの要素を統合した総合的かつ学際的なhcai方法論フレームワークを提案する。 フレームワークの意味についても論じている。 本稿では,フレームワークの実装を容易にする"3層"アプローチを提案する。 提案するフレームワークは体系的で実行可能であり、現在のフレームワークの弱点と現在HCAIの実装で直面している課題を克服できると考えています。 したがって、このフレームワークはHCAIを実際に開発、移行、実装するためのアクションに役立ち、最終的にHCAIベースのインテリジェントシステムの設計、開発、デプロイを可能にします。

Human-centered AI (HCAI), as a design philosophy, advocates prioritizing humans in designing, developing, and deploying intelligent systems, aiming to maximize the benefits of AI technology to humans and avoid its potential adverse effects. While HCAI has gained momentum, the lack of guidance on methodology in its implementation makes its adoption challenging. After assessing the needs for a methodological framework for HCAI, this paper first proposes a comprehensive and interdisciplinary HCAI methodological framework integrated with seven components, including design goals, design principles, implementation approaches, design paradigms, interdisciplinary teams, methods, and processes. THe implications of the framework are also discussed. This paper also presents a "three-layer" approach to facilitate the implementation of the framework. We believe the proposed framework is systematic and executable, which can overcome the weaknesses in current frameworks and the challenges currently faced in implementing HCAI. Thus, the framework can help put it into action to develop, transfer, and implement HCAI in practice, eventually enabling the design, development, and deployment of HCAI-based intelligent systems.
翻訳日:2023-11-28 14:03:22 公開日:2023-11-27
# 汎用因果感度解析のためのニューラルフレームワーク

A Neural Framework for Generalized Causal Sensitivity Analysis ( http://arxiv.org/abs/2311.16026v1 )

ライセンス: Link先を確認
Dennis Frauen, Fergus Imrie, Alicia Curth, Valentyn Melnychuk, Stefan Feuerriegel, Mihaela van der Schaar(参考訳) 観測されていない結合は多くのアプリケーションで一般的であり、観測データからの因果推論を困難にしている。 治療薬として、因果感受性分析は、数学的保証に見合うことなく因果的結論を導出する重要なツールである。 本稿では,汎用因果感度解析のためのニューラルネットワークであるneuralcsaを提案する。 以前の作業とは異なり、私たちのフレームワークは互換性があります (i)限界感度モデル、f感性モデル、ローズバウム感性モデルを含む、大きな種類の感度モデル (二)異なる治療種(二分体及び連続体)及び (iii)複数の結果に対する(条件付き)平均治療効果と同時効果を含む、異なる因果的問合せ。 frameworknameの一般性は、2つの条件付き正規化フローを用いた治療介入に対応する潜在分布シフトを学習することによって達成される。 我々は,neuralcsaが興味のある因果クエリの有効な境界を推測できることを理論的に保証し,シミュレーションデータと実世界データの両方を用いて実証的に示す。

Unobserved confounding is common in many applications, making causal inference from observational data challenging. As a remedy, causal sensitivity analysis is an important tool to draw causal conclusions under unobserved confounding with mathematical guarantees. In this paper, we propose NeuralCSA, a neural framework for generalized causal sensitivity analysis. Unlike previous work, our framework is compatible with (i) a large class of sensitivity models, including the marginal sensitivity model, f-sensitivity models, and Rosenbaum's sensitivity model; (ii) different treatment types (i.e., binary and continuous); and (iii) different causal queries, including (conditional) average treatment effects and simultaneous effects on multiple outcomes. The generality of \frameworkname is achieved by learning a latent distribution shift that corresponds to a treatment intervention using two conditional normalizing flows. We provide theoretical guarantees that NeuralCSA is able to infer valid bounds on the causal query of interest and also demonstrate this empirically using both simulated and real-world data.
翻訳日:2023-11-28 14:03:02 公開日:2023-11-27
# ジェネレーティブAIと米国知的財産法

Generative AI and US Intellectual Property Law ( http://arxiv.org/abs/2311.16023v1 )

ライセンス: Link先を確認
Cherie M Poland(参考訳) 生成AIが採用され進歩した急激さは、アーティストの権利、コンテンツ制作、データ収集、プライバシー、情報の正確性、知的財産権への影響に関する法的および倫理的な疑問を提起している。 最近の行政とケースローの課題は、生成するAIソフトウェアシステムは、生成するコンテンツに独立した知的財産権を持っていないことを示している。 人間のコンテンツ制作者が、既存の法律の基準と限界を考慮すれば、創造的なaiソフトウェア、その開発者、オペレーター、そして所有者に対して知的財産権を保持することができるかどうかは、まだわからない。 様々な裁判所の初期の兆候は、aiモデルによって生成された結果が既存の法律による侵害の法的基準にどの程度適合するか、あるいはどの程度の程度で混ざっている。

The rapidity with which generative AI has been adopted and advanced has raised legal and ethical questions related to the impact on artists rights, content production, data collection, privacy, accuracy of information, and intellectual property rights. Recent administrative and case law challenges have shown that generative AI software systems do not have independent intellectual property rights in the content that they generate. It remains to be seen whether human content creators can retain their intellectual property rights against generative AI software, its developers, operators, and owners for the misappropriation of the work of human creatives, given the metes and bounds of existing law. Early signs from various courts are mixed as to whether and to what degree the results generated by AI models meet the legal standards of infringement under existing law.
翻訳日:2023-11-28 14:02:46 公開日:2023-11-27
# 分散連合学習のためのスケジューリングと通信方式

Scheduling and Communication Schemes for Decentralized Federated Learning ( http://arxiv.org/abs/2311.16021v1 )

ライセンス: Link先を確認
Bahaa-Eldin Ali Abdelghany and Ana Fern\'andez-Vilas and Manuel Fern\'andez-Veiga and Nashwa El-Bendary and Ammar M. Hassan and Walid M. Abdelmoez(参考訳) Federated Learning(FL)は、多数のクライアントが中央サーバとコーディネートして、独自のトレーニングデータを共有せずにモデルを学習する分散機械学習パラダイムである。 クライアントとの接続に問題があるため、ひとつの中央サーバでは不十分である。 本稿では,任意のトポロジを持つエージェントのネットワークにおける学習性能を向上させるための,よりスケーラブルな手法として,確率的勾配降下(sgd)アルゴリズムを用いた分散連立学習(dfl)モデルを提案する。 DFLの3つのスケジューリングポリシがクライアントと並列サーバ間の通信のために提案され、SGDの完全分散実装において収束、精度、損失がテストされている。 実験の結果,提案した計画警察は,収束速度と最終グローバルモデルの両方に影響を及ぼすことがわかった。

Federated learning (FL) is a distributed machine learning paradigm in which a large number of clients coordinate with a central server to learn a model without sharing their own training data. One central server is not enough, due to problems of connectivity with clients. In this paper, a decentralized federated learning (DFL) model with the stochastic gradient descent (SGD) algorithm has been introduced, as a more scalable approach to improve the learning performance in a network of agents with arbitrary topology. Three scheduling policies for DFL have been proposed for communications between the clients and the parallel servers, and the convergence, accuracy, and loss have been tested in a totally decentralized mplementation of SGD. The experimental results show that the proposed scheduling polices have an impact both on the speed of convergence and in the final global model.
翻訳日:2023-11-28 14:02:32 公開日:2023-11-27
# RIDE:Memristorハードウェアアーキテクチャで実装された説明可能な機械学習によるリアルタイム侵入検出

RIDE: Real-time Intrusion Detection via Explainable Machine Learning Implemented in a Memristor Hardware Architecture ( http://arxiv.org/abs/2311.16018v1 )

ライセンス: Link先を確認
Jingdi Chen, Lei Zhang, Joseph Riem, Gina Adam, Nathaniel D. Bastian, Tian Lan(参考訳) ディープラーニング(dl)ベースの手法は、悪意のあるネットワークトラフィックのパターンを高精度に識別することで、ネットワーク侵入検出において大きな期待が持たれているが、高速通信ネットワークにおけるリアルタイムパケットレベルの検出への応用は、ディープニューラルネットワーク(dnn)の計算時間とリソース要件の増大と説明可能性の欠如により困難である。 そこで本研究では,パケットの任意の長さのシーケンスをDNNベースの分類器に入力する,よりコンパクトな結合機能埋め込みに統合するために,リカレントオートエンコーダを用いたパケットレベルのネットワーク侵入検出ソリューションを提案する。 マイクロ秒速でリアルタイム検出を実現するために,学習した検出ポリシーを決定木に変換し,memristor デバイスに基づく新しいアーキテクチャを用いて実装することにより,提案手法を効率的に実現するための Software-Hardware Co-Design アプローチ を開発した。 ソフトウェアとハードウェアの制約を共同で最適化することで,パケットレベルで検出精度の高い,非常に効率的かつリアルタイムなソリューションが実現できることを実証する。 実世界のデータセット(例えばUNSWとCIC-IDSデータセット)の評価結果は、ほぼ4桁の実質的なスピードアップで、ほぼ3次元の検出精度を示す。

Deep Learning (DL) based methods have shown great promise in network intrusion detection by identifying malicious network traffic behavior patterns with high accuracy, but their applications to real-time, packet-level detections in high-speed communication networks are challenging due to the high computation time and resource requirements of Deep Neural Networks (DNNs), as well as lack of explainability. To this end, we propose a packet-level network intrusion detection solution that makes novel use of Recurrent Autoencoders to integrate an arbitrary-length sequence of packets into a more compact joint feature embedding, which is fed into a DNN-based classifier. To enable explainability and support real-time detections at micro-second speed, we further develop a Software-Hardware Co-Design approach to efficiently realize the proposed solution by converting the learned detection policies into decision trees and implementing them using an emerging architecture based on memristor devices. By jointly optimizing associated software and hardware constraints, we show that our approach leads to an extremely efficient, real-time solution with high detection accuracy at the packet level. Evaluation results on real-world datasets (e.g., UNSW and CIC-IDS datasets) demonstrate nearly three-nines detection accuracy with a substantial speedup of nearly four orders of magnitude.
翻訳日:2023-11-28 14:02:17 公開日:2023-11-27
# 論理エラーの復号化:学生と大規模言語モデルによるバグ検出の比較研究

Decoding Logic Errors: A Comparative Study on Bug Detection by Students and Large Language Models ( http://arxiv.org/abs/2311.16017v1 )

ライセンス: Link先を確認
Stephen MacNeil, Paul Denny, Andrew Tran, Juho Leinonen, Seth Bernstein, Arto Hellas, Sami Sarsa and Joanne Kim(参考訳) ロジックエラーの特定と解決は初心者プログラマにとって最もイライラする課題の1つだ。 コンパイラやインタプリタがメッセージを発行できる構文エラーとは異なり、ロジックエラーは微妙である。 ある種の状況では、バギーコードは正しい振る舞いを示すことさえある -- 他のケースでは、問題ステートメントがどのように解釈されたかが問題になるかもしれない。 このようなエラーは、コードを読み込むときに見つけるのが難しく、自動テストによって見逃されることもある。 特に初心者向けの適切なフィードバックと組み合わせた場合、ロジックエラーを自動的に検出する大きな教育的可能性がある。 大規模言語モデル(llms)は最近、コードの生成や説明など、さまざまなコンピューティングタスクにおいて驚くべきパフォーマンスを示している。 これらの機能は、LLMの次のトークン予測動作と一致したコード構文と密接に関連している。 一方、ロジックエラーはコードの実行時のパフォーマンスに関係しており、LLMによる解析には適していない可能性がある。 そこで本研究では,GPT-3 と GPT-4 の2つの LLM の性能について検討する。 我々は,LLMの性能を,導入型コンピューティングの学生の大きなコホートである$(n=964)$と比較した。 学生とモデル応答の混合手法分析により,前世代と現世代のLLM間の論理的誤り同定の大幅な改善が観察され,両者のLLM世代は学生よりも著しく優れていた。 このようなモデルをコンピュータ教育ツールに統合する方法を概説し,プログラミング学習における学生支援の可能性について論じる。

Identifying and resolving logic errors can be one of the most frustrating challenges for novices programmers. Unlike syntax errors, for which a compiler or interpreter can issue a message, logic errors can be subtle. In certain conditions, buggy code may even exhibit correct behavior -- in other cases, the issue might be about how a problem statement has been interpreted. Such errors can be hard to spot when reading the code, and they can also at times be missed by automated tests. There is great educational potential in automatically detecting logic errors, especially when paired with suitable feedback for novices. Large language models (LLMs) have recently demonstrated surprising performance for a range of computing tasks, including generating and explaining code. These capabilities are closely linked to code syntax, which aligns with the next token prediction behavior of LLMs. On the other hand, logic errors relate to the runtime performance of code and thus may not be as well suited to analysis by LLMs. To explore this, we investigate the performance of two popular LLMs, GPT-3 and GPT-4, for detecting and providing a novice-friendly explanation of logic errors. We compare LLM performance with a large cohort of introductory computing students $(n=964)$ solving the same error detection task. Through a mixed-methods analysis of student and model responses, we observe significant improvement in logic error identification between the previous and current generation of LLMs, and find that both LLM generations significantly outperform students. We outline how such models could be integrated into computing education tools, and discuss their potential for supporting students when learning programming.
翻訳日:2023-11-28 14:01:50 公開日:2023-11-27
# 純粋非一貫性の完全可解モデルにおける長期的挙動とマルコフ埋め込み問題

Long-term behaviour in an exactly solvable model of pure decoherence and the problem of Markovian embedding ( http://arxiv.org/abs/2311.16010v1 )

ライセンス: Link先を確認
Anton Trushechkin(参考訳) 我々は、純粋にデコヒーレンスを持つ開量子系のよく知られた解決可能なモデルを考える。 この論文の目的は二つある。 第一に、デコヒーレンス(decoherence)は、量子技術と量子古典遷移の基本問題の両方において重要なオープン量子システムの性質である。 長期デコヒーレンスの速度が、この正確に解けるモデルにおけるシステム-バス相互作用を特徴づけるスペクトル密度にどのように依存するかを研究する価値がある。 第二に、マルコフ的でない開系力学のマルコフ的埋め込みのより一般的な問題に対処する。 非マルコフ的開量子系はより大きなマルコフ系に埋め込むことができるとしばしば仮定される。 しかし、そのような埋め込みは(正の浴温の場合)オームスペクトル密度に対してのみ可能であり、サブオームスペクトル密度とスーパーオームスペクトル密度の両方では不可能であることを示した。 他方では、オーミックスペクトル密度に対して、漸近的な大規模マルコフ性(量子回帰公式(英語版)(quantum regression formula))が起こる。

We consider a well-known exactly solvable model of an open quantum system with pure decoherence. The aim of this paper is twofold. Firstly, decoherence is a property of open quantum systems important for both quantum technologies and the fundamental question of quantum-classical transition. It is worthwhile to study how the long-term rate of decoherence depends on the spectral density characterizing the system-bath interaction in this exactly solvable model. Secondly, we address a more general problem of the Markovian embedding of a non-Markovian open system dynamics. It is often assumed that a non-Markovian open quantum system can be embedded into a larger Markovian system. However, we show that such embedding is possible only for the Ohmic spectral densities (for the case of a positive bath temperature) and is impossible for both the sub- and super-Ohmic spectral densities. From the other side, for the Ohmic spectral densities, an asymptotic large-time Markovianity (in terms of the quantum regression formula) takes place.
翻訳日:2023-11-28 14:01:22 公開日:2023-11-27
# 分割状態量子タンパ検出と非可算性について

On Split-State Quantum Tamper Detection and Non-Malleability ( http://arxiv.org/abs/2311.16009v1 )

ライセンス: Link先を確認
Thiago Bergamaschi, Naresh Goud Boddu(参考訳) タンパー検出符号 (TDC) と非可逆符号 (NMC) は現在では暗号理論と符号化理論の交わる基本対象となっている。 これらのプリミティブは、エラー訂正コードの自然な緩和を表し、エラー訂正が不可能な敵の設定で関連するセキュリティ保証を提供する。 TDCでは、デコーダは元のメッセージを復元するか拒否するかをタスクするが、NMCでは、デコーダは完全に無関係なメッセージを出力することを許可する。 本研究では,最もよく研究されている対向型テーパーモデル,いわゆるスプリットステート型テーパーモデルの量子アナログについて検討する。 t$-split-stateモデルでは、codeword(またはcode-state)は$t$の株式に分割され、各シェアは「ローカルに」改ざんされる。 従来の研究は主に、敵の局所量子操作が非有界な事前共有の絡み合いによって補助されるような設定に焦点が当てられていた。 我々はいくつかの$\textit{resource-restricted}$ analogs of the split-state model で量子 TDC と NMC を構築する。 特に、スプリットステートの敵は、ローカル(アンエンタングル)操作、ローカル操作、古典的な通信に制限されており、また、有限の事前共有されたエンタングルメントに制限される「バウンドストレージモデル」である。 コード構成を2つの方向に補完します。 まず,類似の非可逆検出および改ざん検出保証を継承する秘密共有スキームの設計に応用する。 第2に、分割状態モデルにおける量子NMCの特定のファミリーの容量に対するシングルトン型境界を証明するために、コードと量子暗号化スキームの接続について論じる。

Tamper-detection codes (TDCs) and non-malleable codes (NMCs) are now fundamental objects at the intersection of cryptography and coding theory. Both of these primitives represent natural relaxations of error-correcting codes and offer related security guarantees in adversarial settings where error correction is impossible. While in a TDC, the decoder is tasked with either recovering the original message or rejecting it, in an NMC, the decoder is additionally allowed to output a completely unrelated message. In this work, we study quantum analogs of one of the most well-studied adversarial tampering models: the so-called split-state tampering model. In the $t$-split-state model, the codeword (or code-state) is divided into $t$ shares, and each share is tampered with "locally". Previous research has primarily focused on settings where the adversaries' local quantum operations are assisted by an unbounded amount of pre-shared entanglement, while the code remains unentangled, either classical or separable. We construct quantum TDCs and NMCs in several $\textit{resource-restricted}$ analogs of the split-state model, which are provably impossible using just classical codes. In particular, against split-state adversaries restricted to local (unentangled) operations, local operations and classical communication, as well as a "bounded storage model" where they are limited to a finite amount of pre-shared entanglement. We complement our code constructions in two directions. First, we present applications to designing secret sharing schemes, which inherit similar non-malleable and tamper-detection guarantees. Second, we discuss connections between our codes and quantum encryption schemes, which we leverage to prove singleton-type bounds on the capacity of certain families of quantum NMCs in the split-state model.
翻訳日:2023-11-28 14:01:07 公開日:2023-11-27
# 分散アグリゲーションを用いた差分プライバシーを用いたフェデレーション学習

Using Decentralized Aggregation for Federated Learning with Differential Privacy ( http://arxiv.org/abs/2311.16008v1 )

ライセンス: Link先を確認
Hadeel Abd El-Kareem and Abd El-Moaty Saleh and Ana Fern\'andez-Vilas and Manuel Fern\'andez-Veiga and asser El-Sonbaty(参考訳) 今日では、モバイルデバイスやネットワークのユビキタスな利用は、個人データのコントロールの喪失や、交換通信、ビッグデータ、分散協調型(P2P)機械学習技術を組み合わせたシナリオにおける、プライバシとユーティリティのトレードオフに向けた研究の進展を懸念している。 一方で、フェデレーション学習(fl)は、グローバルモデルを強化するためにローカルトレーニングを実行するローカルノードにデータを保持することで、ある程度のプライバシを提供するが、このシナリオは、メンバシップ推論攻撃としてプライバシ侵害の影響を受けやすい。 より強力なプライバシを提供するため、ベンチマークデータセットを使用して、差分プライバシー(DP)を用いたFLの実験環境をデプロイする。 その結果,DPのパラメータと手法の選定は,前述のプライバシーとユーティリティのトレードオフにおいて,分類例による中心的な役割を担っていることがわかった。

Nowadays, the ubiquitous usage of mobile devices and networks have raised concerns about the loss of control over personal data and research advance towards the trade-off between privacy and utility in scenarios that combine exchange communications, big databases and distributed and collaborative (P2P) Machine Learning techniques. On the other hand, although Federated Learning (FL) provides some level of privacy by retaining the data at the local node, which executes a local training to enrich a global model, this scenario is still susceptible to privacy breaches as membership inference attacks. To provide a stronger level of privacy, this research deploys an experimental environment for FL with Differential Privacy (DP) using benchmark datasets. The obtained results show that the election of parameters and techniques of DP is central in the aforementioned trade-off between privacy and utility by means of a classification example.
翻訳日:2023-11-28 14:00:35 公開日:2023-11-27
# 資産配分強化のためのデータ生成の改善:固定所得宇宙のための合成データセットアプローチ

Improved Data Generation for Enhanced Asset Allocation: A Synthetic Dataset Approach for the Fixed Income Universe ( http://arxiv.org/abs/2311.16004v1 )

ライセンス: Link先を確認
Szymon Kubiak, Tillman Weyde, Oleksandr Galkin, Dan Philps and Ram Gopal(参考訳) 固定所得宇宙における資産配分手法の評価とポートフォリオ構築に適した合成データセットを生成する新しいプロセスを提案する。 我々のアプローチは、合成相関行列を生成するためにCorrGANモデルを強化することから始まる。 次に,与えられた相関行列に基づく追加データをサンプリングするエンコーダ・デコーダモデルを提案する。 得られた合成データセットは、様々な資産宇宙における資産配分手法の詳細な分析を容易にする。 さらに,シミュレーションに基づく資産配分プロセスにおいて構築されたポートフォリオを改善するために,合成データセットの使用例を示すケーススタディを提案する。

We present a novel process for generating synthetic datasets tailored to assess asset allocation methods and construct portfolios within the fixed income universe. Our approach begins by enhancing the CorrGAN model to generate synthetic correlation matrices. Subsequently, we propose an Encoder-Decoder model that samples additional data conditioned on a given correlation matrix. The resulting synthetic dataset facilitates in-depth analyses of asset allocation methods across diverse asset universes. Additionally, we provide a case study that exemplifies the use of the synthetic dataset to improve portfolios constructed within a simulation-based asset allocation process.
翻訳日:2023-11-28 14:00:19 公開日:2023-11-27
# Transformer-QEC:Transformable Transformerを用いた量子誤り訂正符号デコード

Transformer-QEC: Quantum Error Correction Code Decoding with Transferable Transformers ( http://arxiv.org/abs/2311.16082v1 )

ライセンス: Link先を確認
Hanrui Wang and Pengyu Liu and Kevin Shao and Dantong Li and Jiaqi Gu and David Z. Pan and Yongshan Ding and Song Han(参考訳) 量子コンピューティングは古典的システムにとって難解な問題を解決する可能性を持っているが、現代の量子デバイスにおける高いエラー率はしばしば有用なアルゴリズムの実行に許容可能な限界を超えている。 量子エラー補正(Quantum Error Correction, QEC)は、冗長性を利用し、複数のデータキュービットに量子情報を分散し、シンドロームキュービットを使用して状態のエラーを監視することでこれを緩和する。 その後、このシンドロームはデコードアルゴリズムによって解釈され、データキュービット内のエラーを特定し修正する。 このタスクは、データおよびシンドロームキュービットとシンドローム抽出操作の両方に影響を与えるエラーソースの多重性のため複雑である。 さらに、同一のシンドロームは異なるエラー源から発生し、同時にシンドロームを評価するデコードアルゴリズムを必要とする。 多層パーセプトロン(MLP)や畳み込みニューラルネットワーク(CNN)のような機械学習(ML)デコーダが提案されているが、それらはしばしば局所症候群領域に焦点を当て、異なるコード距離を調整する際に再訓練を必要とする。 本稿では,全ての入力症候群に対してグローバルな受容場を実現するために自己注意を用いたトランスフォーマーベースのQECデコーダを提案する。 これは、局所的な物理的エラーとグローバルパリティラベルの損失を組み合わせる混合損失トレーニングアプローチを取り入れている。 さらに、可変長入力に対するトランスフォーマーアーキテクチャ固有の適応性により、効率的なトランスファー学習が可能となり、デコーダは再トレーニングすることなく、様々なコード距離に適応できる。 6つのコード距離と10の異なるエラー構成の評価により、我々のモデルは、Union Find (UF) やMinimum Weight Perfect Matching (MWPM) などの非MLデコーダを一貫して上回り、最良の論理的エラー率を達成することを示した。 さらに、トランスファー学習はトレーニングコストの10倍以上を節約できる。

Quantum computing has the potential to solve problems that are intractable for classical systems, yet the high error rates in contemporary quantum devices often exceed tolerable limits for useful algorithm execution. Quantum Error Correction (QEC) mitigates this by employing redundancy, distributing quantum information across multiple data qubits and utilizing syndrome qubits to monitor their states for errors. The syndromes are subsequently interpreted by a decoding algorithm to identify and correct errors in the data qubits. This task is complex due to the multiplicity of error sources affecting both data and syndrome qubits as well as syndrome extraction operations. Additionally, identical syndromes can emanate from different error sources, necessitating a decoding algorithm that evaluates syndromes collectively. Although machine learning (ML) decoders such as multi-layer perceptrons (MLPs) and convolutional neural networks (CNNs) have been proposed, they often focus on local syndrome regions and require retraining when adjusting for different code distances. We introduce a transformer-based QEC decoder which employs self-attention to achieve a global receptive field across all input syndromes. It incorporates a mixed loss training approach, combining both local physical error and global parity label losses. Moreover, the transformer architecture's inherent adaptability to variable-length inputs allows for efficient transfer learning, enabling the decoder to adapt to varying code distances without retraining. Evaluation on six code distances and ten different error configurations demonstrates that our model consistently outperforms non-ML decoders, such as Union Find (UF) and Minimum Weight Perfect Matching (MWPM), and other ML decoders, thereby achieving best logical error rates. Moreover, the transfer learning can save over 10x of training cost.
翻訳日:2023-11-28 13:54:15 公開日:2023-11-27
# ViT-Lens-2:Omniモードインテリジェンスへのゲートウェイ

ViT-Lens-2: Gateway to Omni-modal Intelligence ( http://arxiv.org/abs/2311.16081v1 )

ライセンス: Link先を確認
Weixian Lei, Yixiao Ge, Kun Yi, Jianfeng Zhang, Difei Gao, Dylan Sun, Yuying Ge, Ying Shan, Mike Zheng Shou(参考訳) AIエージェントの進歩を目指すため、大規模な基盤モデルは推論と命令実行を大幅に改善するが、現在のビジョンと言語へのフォーカスは、オープンワールド環境における多様なモダリティを知覚する可能性を無視している。 しかし、データ駆動型ビジョンと言語モデルの成功は、稀なモダリティのために再現するには費用がかかり、あるいは不可能である。 本稿では,事前学習された vit で新しい様相を知覚し,それらを事前定義された空間に整列させることにより,効率的な全モーダル表現学習を容易にする vit-lens-2 を提案する。 具体的には、モダリティ特異的レンズは任意のモーダル信号を中間埋め込み空間に投影するように調整され、その後、トレーニング済みの視覚知識を持つ強力なViTによって処理される。 符号化された表現は、オフザシェルフ基礎モデルによって事前に定義されたモード非依存空間との整合に最適化される。 ViT-Lens-2は、2つの魅力的な利点を持つモダリティ増加の表現学習のための統一されたソリューションを提供する。 一 効率的なデータ体制により、新規なモダリティに事前訓練されたViTの大きな可能性を効果的に解き放つこと。 (ii)モダリティアライメントと共有vitパラメータによる創発的な下流機能の実現。 我々は3Dポイントクラウド、深度、オーディオ、触覚、脳波の表現を学習するためにViT-Lens-2を調整し、ゼロショット分類などの様々な理解タスクに新しい最先端結果を設定する。 ViT-Lens-2をシームレスにMultimodal Foundation Modelsに統合することにより、テキストおよび画像生成に対するAny-modalityを可能にする。 コードとモデルはhttps://github.com/TencentARC/ViT-Lens.comで公開されている。

Aiming to advance AI agents, large foundation models significantly improve reasoning and instruction execution, yet the current focus on vision and language neglects the potential of perceiving diverse modalities in open-world environments. However, the success of data-driven vision and language models is costly or even infeasible to be reproduced for rare modalities. In this paper, we present ViT-Lens-2 that facilitates efficient omni-modal representation learning by perceiving novel modalities with a pretrained ViT and aligning them to a pre-defined space. Specifically, the modality-specific lens is tuned to project any-modal signals to an intermediate embedding space, which are then processed by a strong ViT with pre-trained visual knowledge. The encoded representations are optimized toward aligning with the modal-independent space, pre-defined by off-the-shelf foundation models. ViT-Lens-2 provides a unified solution for representation learning of increasing modalities with two appealing advantages: (i) Unlocking the great potential of pretrained ViTs to novel modalities effectively with efficient data regime; (ii) Enabling emergent downstream capabilities through modality alignment and shared ViT parameters. We tailor ViT-Lens-2 to learn representations for 3D point cloud, depth, audio, tactile and EEG, and set new state-of-the-art results across various understanding tasks, such as zero-shot classification. By seamlessly integrating ViT-Lens-2 into Multimodal Foundation Models, we enable Any-modality to Text and Image Generation in a zero-shot manner. Code and models are available at https://github.com/TencentARC/ViT-Lens.
翻訳日:2023-11-28 13:53:40 公開日:2023-11-27
# xlb: 微分可能な科学的機械学習のための分散マルチgpu格子ボルツマンシミュレーションフレームワーク

XLB: Distributed Multi-GPU Lattice Boltzmann Simulation Framework for Differentiable Scientific Machine Learning ( http://arxiv.org/abs/2311.16080v1 )

ライセンス: Link先を確認
Mohammadmehdi Ataei and Hesam Salehipour(参考訳) 格子ボルツマン法 (LBM) は計算スケーラビリティのアルゴリズム的ポテンシャルから流体力学問題の解法として注目されている。 JAXフレームワークの機能を利用するPythonベースの差別化可能なLBMライブラリであるXLBフレームワークを紹介します。 XLBのアーキテクチャはアクセシビリティ、拡張性、計算性能の確保を前提としており、CPU、マルチGPU、分散マルチGPUシステム間で効果的にスケーリングできる。 このフレームワークは、新しい境界条件、衝突モデル、あるいはシミュレーション機能によって容易に拡張することができる。 XLBは、JAXの広範な機械学習エコーシステムとの統合のユニークな利点と、物理ベースの機械学習、最適化、逆問題に対処するために自動微分を利用する能力を提供する。 XLBは数十億のセルでのシミュレーション処理に成功し、毎秒ギガスケールの格子更新を実現している。 XLBはApache-2.0ライセンスでリリースされており、GitHubでhttps://github.com/Autodesk/XLBで入手できる。

The lattice Boltzmann method (LBM) has emerged as a prominent technique for solving fluid dynamics problems due to its algorithmic potential for computational scalability. We introduce XLB framework, a Python-based differentiable LBM library which harnesses the capabilities of the JAX framework. The architecture of XLB is predicated upon ensuring accessibility, extensibility, and computational performance, enabling scaling effectively across CPU, multi-GPU, and distributed multi-GPU systems. The framework can be readily augmented with novel boundary conditions, collision models, or simulation capabilities. XLB offers the unique advantage of integration with JAX's extensive machine learning echosystem, and the ability to utilize automatic differentiation for tackling physics-based machine learning, optimization, and inverse problems. XLB has been successfully scaled to handle simulations with billions of cells, achieving giga-scale lattice updates per second. XLB is released under the permissive Apache-2.0 license and is available on GitHub at https://github.com/Autodesk/XLB.
翻訳日:2023-11-28 13:53:09 公開日:2023-11-27
# MEDITRON-70B:大規模言語モデルのための医療訓練のスケーリング

MEDITRON-70B: Scaling Medical Pretraining for Large Language Models ( http://arxiv.org/abs/2311.16079v1 )

ライセンス: Link先を確認
Zeming Chen, Alejandro Hern\'andez Cano, Angelika Romanou, Antoine Bonnet, Kyle Matoba, Francesco Salvi, Matteo Pagliardini, Simin Fan, Andreas K\"opf, Amirkeivan Mohtashami, Alexandre Sallinen, Alireza Sakhaeirad, Vinitra Swamy, Igor Krawczuk, Deniz Bayazit, Axel Marmet, Syrielle Montariol, Mary-Anne Hartley, Martin Jaggi, Antoine Bosselut(参考訳) 大きな言語モデル(LLM)は、医療知識へのアクセスを民主化することができる。 LLMの医療知識と推論能力の活用と改善に多くの努力がなされているが、結果として得られたモデルはクローズドソース(例えば PaLM, GPT-4)かスケール(= 13B パラメータ)に制限されている。 本研究では,医療領域に適応した7Bおよび70BパラメータのオープンソースLLMスイートであるMEDITRONをリリースすることにより,大規模医療LLMへのアクセスを改善する。 MEDITRONはLlama-2(NvidiaのMegatron-LM分散トレーナーの適応を通じて)をベースとして構築されており、選択されたPubMed記事、抽象化、国際的に認められた医療ガイドラインを含む包括的に訓練された医療コーパスの事前訓練を拡張している。 4つの主要な医療ベンチマークによる評価は、タスク固有の微調整前後の最先端のベースラインよりも顕著なパフォーマンス向上を示した。 全体として、MEDITRONはパラメータクラスで最高の公開ベースラインに対して6%、Llama-2から微調整した最強ベースラインに対して3%という絶対的なパフォーマンス向上を達成した。 MEDITRON-70BはGPT-3.5とMed-PaLMより優れており、GPT-4の5%、Med-PaLM-2の10%以内である。 我々は,より有能な医療用LLMのオープンソース開発を促進するために,医用プレトレーニングコーパスとMEDITRONモデルの重み付けをキュレートするためのコードをリリースした。

Large language models (LLMs) can potentially democratize access to medical knowledge. While many efforts have been made to harness and improve LLMs' medical knowledge and reasoning capacities, the resulting models are either closed-source (e.g., PaLM, GPT-4) or limited in scale (<= 13B parameters), which restricts their abilities. In this work, we improve access to large-scale medical LLMs by releasing MEDITRON: a suite of open-source LLMs with 7B and 70B parameters adapted to the medical domain. MEDITRON builds on Llama-2 (through our adaptation of Nvidia's Megatron-LM distributed trainer), and extends pretraining on a comprehensively curated medical corpus, including selected PubMed articles, abstracts, and internationally-recognized medical guidelines. Evaluations using four major medical benchmarks show significant performance gains over several state-of-the-art baselines before and after task-specific finetuning. Overall, MEDITRON achieves a 6% absolute performance gain over the best public baseline in its parameter class and 3% over the strongest baseline we finetuned from Llama-2. Compared to closed-source LLMs, MEDITRON-70B outperforms GPT-3.5 and Med-PaLM and is within 5% of GPT-4 and 10% of Med-PaLM-2. We release our code for curating the medical pretraining corpus and the MEDITRON model weights to drive open-source development of more capable medical LLMs.
翻訳日:2023-11-28 13:52:52 公開日:2023-11-27
# BioLORD-2023: LLMと臨床知識グラフを用いた意味的テクスチャ表現

BioLORD-2023: Semantic Textual Representations Fusing LLM and Clinical Knowledge Graph Insights ( http://arxiv.org/abs/2311.16075v1 )

ライセンス: Link先を確認
Fran\c{c}ois Remy and Kris Demuynck and Thomas Demeester(参考訳) 本研究では,バイオメディカルおよび臨床領域のセマンティックモデルのトレーニングにおいて,バイオメディカル知識グラフを補完する大規模言語モデルの可能性を検討する。 UMLS知識グラフの富と最先端のLarge Language Modelsを活用することにより,改良されたコントラスト学習フェーズ,新しい自己蒸留フェーズ,および平均化フェーズの3段階からなる,バイオメディカル概念と文の高忠実度表現を得るための最先端のアプローチを提案する。 幅広いBioLORDテストスイートと様々なダウンストリームタスクによる厳密な評価を通じて、従来の最先端技術(MedSTSの+2pts、MedNLI-Sの+2.5pts、EHR-Rel-Bの+6.1ptsなど)に対して一貫した、実質的なパフォーマンス改善を示す。 最新のバイオメディカルモデルに加えて、50以上の言語に対応し、7つのヨーロッパ言語で微調整された多言語モデルを蒸留・リリースしています。 最新のモデルから多くの臨床パイプラインを活用できます。 我々の新しい多言語モデルは、世界中のバイオインフォマティクス研究者のための新たな道を開く、バイオメディカルセマンティックな表現学習の進歩の恩恵を受けることができる。 その結果,BioLORD-2023が今後のバイオメディカル応用にとって重要なツールになることを願っている。

In this study, we investigate the potential of Large Language Models to complement biomedical knowledge graphs in the training of semantic models for the biomedical and clinical domains. Drawing on the wealth of the UMLS knowledge graph and harnessing cutting-edge Large Language Models, we propose a new state-of-the-art approach for obtaining high-fidelity representations of biomedical concepts and sentences, consisting of three steps: an improved contrastive learning phase, a novel self-distillation phase, and a weight averaging phase. Through rigorous evaluations via the extensive BioLORD testing suite and diverse downstream tasks, we demonstrate consistent and substantial performance improvements over the previous state of the art (e.g. +2pts on MedSTS, +2.5pts on MedNLI-S, +6.1pts on EHR-Rel-B). Besides our new state-of-the-art biomedical model for English, we also distill and release a multilingual model compatible with 50+ languages and finetuned on 7 European languages. Many clinical pipelines can benefit from our latest models. Our new multilingual model enables a range of languages to benefit from our advancements in biomedical semantic representation learning, opening a new avenue for bioinformatics researchers around the world. As a result, we hope to see BioLORD-2023 becoming a precious tool for future biomedical applications.
翻訳日:2023-11-28 13:52:22 公開日:2023-11-27
# フェデレーション学習の脆弱性に関する調査:学習アルゴリズムの視点から

A Survey on Vulnerability of Federated Learning: A Learning Algorithm Perspective ( http://arxiv.org/abs/2311.16065v1 )

ライセンス: Link先を確認
Xianghua Xie, Chen Hu, Hanchi Ren, Jingjing Deng(参考訳) 本稿では,flに対する悪意のある攻撃を包括的に検討し,攻撃の起源とターゲットに関する新たな視点からそれらを分類し,その方法論と影響に関する洞察を提供する。 本研究では,flシステムの学習プロセスを対象とした脅威モデルに注目する。 攻撃のソースとターゲットに基づいて、既存の脅威モデルを4つのタイプ、data to model (d2m)、model to data (m2d)、model to model (m2m)、composite attackに分類する。 各攻撃タイプについて,提案した防衛戦略について考察し,その有効性,仮定,潜在的な改善領域を明らかにする。 防衛戦略は、特異なメトリックを使用して悪意のあるクライアントを除外し、様々なフェーズでクライアントモデルを調べる多面的アプローチを採用するまで進化してきた。 本研究は,各段階における学習データ,学習勾配,学習モデルを操作して,モデル性能の低下から個人データの再構築,バックドアの挿入に至るまで,悪意ある攻撃を発生させることができることを示唆する。 また、こうした脅威はますます深刻化しつつある。 初期の研究は悪質な勾配を増幅するが、最近の取り組みは防御策をバイパスするために局所的なモデルで最小の重み付けを微妙に変更している。 この文献レビューは、現在のFL脅威の全体像を包括的に理解し、現実のアプリケーションにおけるFLの安全で信頼性の高い採用を保証するために、堅牢で効率的でプライバシー保護の防衛を開発することの重要性を強調している。

This review paper takes a comprehensive look at malicious attacks against FL, categorizing them from new perspectives on attack origins and targets, and providing insights into their methodology and impact. In this survey, we focus on threat models targeting the learning process of FL systems. Based on the source and target of the attack, we categorize existing threat models into four types, Data to Model (D2M), Model to Data (M2D), Model to Model (M2M) and composite attacks. For each attack type, we discuss the defense strategies proposed, highlighting their effectiveness, assumptions and potential areas for improvement. Defense strategies have evolved from using a singular metric to excluding malicious clients, to employing a multifaceted approach examining client models at various phases. In this survey paper, our research indicates that the to-learn data, the learning gradients, and the learned model at different stages all can be manipulated to initiate malicious attacks that range from undermining model performance, reconstructing private local data, and to inserting backdoors. We have also seen these threat are becoming more insidious. While earlier studies typically amplified malicious gradients, recent endeavors subtly alter the least significant weights in local models to bypass defense measures. This literature review provides a holistic understanding of the current FL threat landscape and highlights the importance of developing robust, efficient, and privacy-preserving defenses to ensure the safe and trusted adoption of FL in real-world applications.
翻訳日:2023-11-28 13:51:55 公開日:2023-11-27
# DiffSLVA:手話ビデオ匿名化のための拡散モデル

DiffSLVA: Harnessing Diffusion Models for Sign Language Video Anonymization ( http://arxiv.org/abs/2311.16060v1 )

ライセンス: Link先を確認
Zhaoyang Xia, Carol Neidle, Dimitris N. Metaxas(参考訳) American Sign Language (ASL) は標準の書式を持たないため、Deafシグナーはネイティブ言語でのコミュニケーションのために頻繁にビデオを共有する。 しかし、手と顔の両方が署名言語で重要な言語情報を伝達しているため、手話ビデオは署名者のプライバシーを保持することはできない。 署名者は興味を示してきたが、手の動きや表情の複雑さを考えると、手話ビデオの匿名化が効果的に言語コンテンツを保存しようとする試みは、成功に至らなかった。 既存のアプローチは、ビデオ映像におけるシグナーの正確なポーズ推定に大きく依存しており、しばしばトレーニングのために手話ビデオデータセットを必要とする。 これらの要件は、現在の手話ビデオデータセットに存在する多様性が限られているため、動画を「野放しで」処理することを妨げる。 そこで本研究では,ゼロショットテキストガイドによる手話ビデオの匿名化のために,事前学習した大規模拡散モデルを用いた新しい手法diffslvaを提案する。 我々は,HED(Holistically-Nested Edge Detection)エッジなどの低レベルの画像特徴を活用するControlNetを導入し,ポーズ推定の必要性を回避する。 さらに,署名された言語で重要な言語情報を伝えるために重要な,表情をキャプチャーする専用のモジュールを開発する。 次に、上記の手法を組み合わせて匿名化を実現し、元のシグナの本質的な言語内容をよりよく保存する。 この革新的な手法は、初めて現実世界のアプリケーションで使える手話ビデオの匿名化を可能にし、聴覚障害者や聴覚障害者のコミュニティに大きな利益をもたらす。 我々は, シグナー匿名化実験によるアプローチの有効性を示す。

Since American Sign Language (ASL) has no standard written form, Deaf signers frequently share videos in order to communicate in their native language. However, since both hands and face convey critical linguistic information in signed languages, sign language videos cannot preserve signer privacy. While signers have expressed interest, for a variety of applications, in sign language video anonymization that would effectively preserve linguistic content, attempts to develop such technology have had limited success, given the complexity of hand movements and facial expressions. Existing approaches rely predominantly on precise pose estimations of the signer in video footage and often require sign language video datasets for training. These requirements prevent them from processing videos 'in the wild,' in part because of the limited diversity present in current sign language video datasets. To address these limitations, our research introduces DiffSLVA, a novel methodology that utilizes pre-trained large-scale diffusion models for zero-shot text-guided sign language video anonymization. We incorporate ControlNet, which leverages low-level image features such as HED (Holistically-Nested Edge Detection) edges, to circumvent the need for pose estimation. Additionally, we develop a specialized module dedicated to capturing facial expressions, which are critical for conveying essential linguistic information in signed languages. We then combine the above methods to achieve anonymization that better preserves the essential linguistic content of the original signer. This innovative methodology makes possible, for the first time, sign language video anonymization that could be used for real-world applications, which would offer significant benefits to the Deaf and Hard-of-Hearing communities. We demonstrate the effectiveness of our approach with a series of signer anonymization experiments.
翻訳日:2023-11-28 13:51:28 公開日:2023-11-27
# 量子クエリアルゴリズムにおける適応性のパワー

The Power of Adaptivity in Quantum Query Algorithms ( http://arxiv.org/abs/2311.16057v1 )

ライセンス: Link先を確認
Uma Girish, Makrand Sinha, Avishay Ta, Kewen Wu(参考訳) 短期量子デバイスの深さの制限によって動機づけられた問合せモデルの深度計算トレードオフについて検討し,その深さは適応的な問合せラウンド数に対応し,各層毎の計算はラウンド毎の並列クエリ数に対応している。 我々は、量子アルゴリズム間の最も強力な分離を$r$対$r-1$の適応性を持つラウンドで達成する。 我々は、Aaronson and Ambainis (SICOMP'18) が導入した$k$-fold Forrelation 問題を用いる。 この問題は、$k=2r$の場合、1ラウンドにつき1つのクエリしか持たない$r$ラウンド量子アルゴリズムで解決できるが、任意の$r-1$ラウンド量子アルゴリズムが1ラウンド当たりの並列クエリの指数(キュービット数)を必要とすることを示す。 この結果は、量子古典的分離に関する最近の研究で開発されたフーリエ解析機械によって証明される。 我々の結果における重要な新しい要素は、適応性の有界数を持つ量子クエリアルゴリズムのフーリエ重みに関するものである。 これらは、そのようなアルゴリズムから生じる多項式と、同じ次数の任意の有界多項式を区別するため、独立した関心を持つかもしれない。

Motivated by limitations on the depth of near-term quantum devices, we study the depth-computation trade-off in the query model, where the depth corresponds to the number of adaptive query rounds and the computation per layer corresponds to the number of parallel queries per round. We achieve the strongest known separation between quantum algorithms with $r$ versus $r-1$ rounds of adaptivity. We do so by using the $k$-fold Forrelation problem introduced by Aaronson and Ambainis (SICOMP'18). For $k=2r$, this problem can be solved using an $r$ round quantum algorithm with only one query per round, yet we show that any $r-1$ round quantum algorithm needs an exponential (in the number of qubits) number of parallel queries per round. Our results are proven following the Fourier analytic machinery developed in recent works on quantum-classical separations. The key new component in our result are bounds on the Fourier weights of quantum query algorithms with bounded number of rounds of adaptivity. These may be of independent interest as they distinguish the polynomials that arise from such algorithms from arbitrary bounded polynomials of the same degree.
翻訳日:2023-11-28 13:50:57 公開日:2023-11-27
# spiにおけるホログラフィック絡み合いエントロピー

A Holographic Entanglement Entropy at Spi ( http://arxiv.org/abs/2311.16056v1 )

ライセンス: Link先を確認
Abir Ghosh, Chethan Krishnan(参考訳) 場の量子論における部分領域に対する有限エンタングルメントエントロピーを定義するには、2つの論理的に独立なスケール、すなわち部分領域のサイズを制御するIRスケールとUVカットオフが必要である。 AdS/CFTでは、IRスケールはAdS長尺、UVカットオフはバルクラジアルカットオフ、サブリージョンは無次元の角度で指定される。 これはAdS/CFTにおける龍高柳表面とその領域を決定するデータである。 漸近的に平坦な空間には、空間無限大(spi)に関連付けられる「spi-部分領域」という概念が存在すると主張する。 幾何的にAdS部分領域とは全く異なるが、この角度データはスピの2分割として解釈できる重要な特徴を持っている。 したがって、スパイス領域に関連するRT面の面積は、AdS/CFTのように、この二分割の下でのバルク状態の還元密度行列の絡み合いエントロピーと解釈できる。 対称スパイサブリージョンでは、これらのRT面は漸近カウサルダイヤモンドの腰である。 空平面空間では、それらはリンドラー地平線に還元され、カッシーニ、フエルタ・マイヤーズのAdS-リンドラー地平線に類似する。 これらの定義を、空空間のスクリーンに固定された極小曲面に関する以前の仕事と結びつけると同時に、バルクにブラックホールが存在する場合の議論を一般化する。 スパイス領域としてのブラックホール RT の表面の位相は変化しており、自然にAdSのブラックホール(小、大)と結合する。 重要な観測は、放射状カットオフは平らな空間におけるIRスケールと関連しており、実際には紫外線の発散は存在しないということである。 これは、サブAdSスケールにおいてホログラフィック双対性はIR/IR対応であり、自由度は局所QFTのそれではなく長弦のものであるという以前の提案と一致している。 弦はもちろん、UV有限である。

Defining finite entanglement entropy for a subregion in quantum field theory requires the introduction of two logically independent scales: an IR scale that controls the size of the subregion, and a UV cut-off. In AdS/CFT, the IR scale is the AdS lengthscale, the UV cut-off is the bulk radial cut-off, and the subregion is specified by dimensionless angles. This is the data that determines Ryu-Takayanagi surfaces and their areas in AdS/CFT. We argue that in asymptotically flat space there exists the notion of a "spi-subregion" that one can associate to spatial infinity (spi). Even though geometrically quite different from an AdS subregion, this angle data has the crucial feature that it allows an interpretation as a bi-partitioning of spi. Therefore, the area of the RT surface associated to the spi-subregion can be interpreted as the entanglement entropy of the reduced density matrix of the bulk state under this bi-partition, as in AdS/CFT. For symmetric spi-subregions, these RT surfaces are the waists of Asymptotic Causal Diamonds. In empty flat space they reduce to Rindler horizons, and are analogues of the AdS-Rindler horizons of Casini, Huerta \& Myers. We connect these definitions to previous work on minimal surfaces anchored to screens in empty space, but also generalize the discussion to the case where there are black holes in the bulk. The phases of black hole RT surfaces as the spi-subregion is varied, naturally connect with those of black holes (small and large) in AdS. A key observation is that the radial cut-off is associated to an IR scale in flat space -- and in fact there are no UV divergences. We argue that this is consistent with previous suggestions that in sub-AdS scales the holographic duality is an IR/IR correspondence and that the degrees of freedom are {\em not} those of a local QFT, but those of long strings. Strings are of course, famously UV finite.
翻訳日:2023-11-28 13:50:36 公開日:2023-11-27
# 教師なし表現学習評価のための計量空間マグニチュード

Metric Space Magnitude for Evaluating Unsupervised Representation Learning ( http://arxiv.org/abs/2311.16054v1 )

ライセンス: Link先を確認
Katharina Limbeck, Rayna Andreeva, Rik Sarkar, Bastian Rieck(参考訳) 距離空間の大きさは、最近、新しい不変量として確立され、複数のスケールにわたる空間の「有効サイズ」の尺度を提供する。 データの幾何学的特性とトポロジカル特性の両方を捉えることで、大小は教師なし表現学習タスクの課題に対処することができる。 有限距離空間の等級関数間の相似性の新たな概念を定式化し、それらを用いて次元減少タスクの品質尺度を導出する。 この尺度はデータの摂動の下で確実に安定し、効率的に計算でき、埋め込みの厳密なマルチスケール比較が可能となる。 データビジュアライゼーションの比較を含む,異なる領域とタスクからなる実験スイートにおいて,我々の測定値の有用性を示す。

The magnitude of a metric space was recently established as a novel invariant, providing a measure of the `effective size' of a space across multiple scales. By capturing both geometrical and topological properties of data, magnitude is poised to address challenges in unsupervised representation learning tasks. We formalise a novel notion of dissimilarity between magnitude functions of finite metric spaces and use them to derive a quality measure for dimensionality reduction tasks. Our measure is provably stable under perturbations of the data, can be efficiently calculated, and enables a rigorous multi-scale comparison of embeddings. We show the utility of our measure in an experimental suite that comprises different domains and tasks, including the comparison of data visualisations.
翻訳日:2023-11-28 13:49:59 公開日:2023-11-27
# 拡散モデルを用いたスタイルベースGANの属性変動探索

Exploring Attribute Variations in Style-based GANs using Diffusion Models ( http://arxiv.org/abs/2311.16052v1 )

ライセンス: Link先を確認
Rishubh Parihar, Prasanna Balaji, Raghav Magazine, Sarthak Vora, Tejan Karmali, Varun Jampani, R. Venkatesh Babu(参考訳) 既存の属性編集メソッドでは、セマンティクス属性をバイナリとして扱い、属性毎に単一の編集を行う。 しかし、眼鏡、笑顔、髪型といった特徴は幅広い多様性を示している。 本研究では,属性編集の多次元的性質をモデル化することにより,「textit{diverse attribute editing}」のタスクを定式化する。 これにより、属性ごとに複数のもっともらしい編集を生成することができる。 我々は、事前訓練されたGANの非絡み合った潜伏空間を利用して、様々な編集のための潜伏分布を学習するために、Denoising Diffusion Probabilistic Model (DDPM)を訓練する。 具体的には,画像ペアを1つの属性変化で埋め込んだ遅延方向のデータセット上でDDPMをトレーニングする。 これは多彩な属性編集を可能にする潜在サブスペースにつながる。 高度に圧縮された潜在空間に拡散を適用することで、限られた計算資源内で編集のリッチな分布をモデル化することができる。 様々なデータセットの質的,定量的な実験を通じて,多様な属性編集に対するアプローチの有効性を実証した。 また,様々な顔属性の3d編集に応用した手法について紹介する。

Existing attribute editing methods treat semantic attributes as binary, resulting in a single edit per attribute. However, attributes such as eyeglasses, smiles, or hairstyles exhibit a vast range of diversity. In this work, we formulate the task of \textit{diverse attribute editing} by modeling the multidimensional nature of attribute edits. This enables users to generate multiple plausible edits per attribute. We capitalize on disentangled latent spaces of pretrained GANs and train a Denoising Diffusion Probabilistic Model (DDPM) to learn the latent distribution for diverse edits. Specifically, we train DDPM over a dataset of edit latent directions obtained by embedding image pairs with a single attribute change. This leads to latent subspaces that enable diverse attribute editing. Applying diffusion in the highly compressed latent space allows us to model rich distributions of edits within limited computational resources. Through extensive qualitative and quantitative experiments conducted across a range of datasets, we demonstrate the effectiveness of our approach for diverse attribute editing. We also showcase the results of our method applied for 3D editing of various face attributes.
翻訳日:2023-11-28 13:49:47 公開日:2023-11-27
# 非パラメトリック教師なし学習を用いた局所化遷移の解析

An analysis of localization transitions using non-parametric unsupervised learning ( http://arxiv.org/abs/2311.16050v1 )

ライセンス: Link先を確認
Carlo Vanoni, Vittorio Vitale(参考訳) 量子系における乱れによって引き起こされる局在遷移は、過去数十年間で激しい議論の対象となっている。 特に、局所化相が熱力学的極限における相互作用の存在に安定であるか否かは、数値的および解析的アプローチの両方に取り組むのが難しいオープンな問題である。 本稿では、乱れた量子系状態の古典的なエンコーディング構成を解析し、その重要な性質をデータ空間における幾何学的遷移としても見ることができることを示す。 我々は、定常ランダムグラフ上のアンダーソンモデルに対する我々のアプローチを示し、文献の結果と一致する遷移点を推定する。 本研究は,実世界のシナリオにおける手法の適用可能性について,簡易かつコヒーレントな説明を提供する。

Localization transitions induced by disorder in quantum systems have been subject of intense discussion in the past decades. In particular, whether or not a localized phase is stable to the presence of interactions in the thermodynamic limit, is still an open question which is difficult to tackle both with numerical and analytical approaches. Here, we provide an alternative viewpoint by analyzing the classical encoding configurations of the disordered quantum system state and showing that its critical properties can be seen also as a geometric transition in data space. We showcase our approach on the Anderson model on regular random graphs, estimating the transition point in agreement with results in the literature. We provide a simple and coherent explanation of our findings, discussing the applicability of the method in real-world scenarios with a modest number of measurements.
翻訳日:2023-11-28 13:49:30 公開日:2023-11-27
# BCHエンコーディングによるロバスト症候群の抽出

Robust Syndrome Extraction via BCH Encoding ( http://arxiv.org/abs/2311.16044v1 )

ライセンス: Link先を確認
Eren Guttentag, Andrew Nemec, and Kenneth R. Brown(参考訳) 量子データシンドローム符号(Quantum Data-syndrome codes、QDS)は、データキュービットとシンドローム自体のエラーに対して、安定化器群要素の冗長な測定によって保護する量子エラー訂正符号のクラスである。 QDSコードを定義する1つの方法は、量子コードのシンドロームを符号化する古典的ブロックコードであるシンドローム測定コードを選択することである。 シンドローム測定符号としてプリミティブな狭義bch符号を用いることを提案する。 これらの符号は漸近的に$o(t\log\ell)$余分な測定が必要であり、ここで$\ell$は量子コードの安定化子生成数、$t$はbch符号によって修正されたエラー数である。 これまでQDS符号を量子コードから構築するには、$O(t^3\log\ell)$余分な測定が必要である。 一般のQDSコードに要する追加時間について,追加のシンドローム測定回数が妥当な基準であることから,本研究は,時間的オーバーヘッドを著しく低減した同一数のシンドロームエラーに対して,我々の構成が保護されていると結論づける。

Quantum data-syndrome (QDS) codes are a class of quantum error-correcting codes that protect against errors both on the data qubits and on the syndrome itself via redundant measurement of stabilizer group elements. One way to define a QDS code is to choose a syndrome measurement code, a classical block code that encodes the syndrome of the underlying quantum code by defining additional stabilizer measurements. We propose the use of primitive narrow-sense BCH codes as syndrome measurement codes. We show that these codes asymptotically require $O(t\log\ell)$ extra measurements, where $\ell$ is the number of stabilizer generators of the quantum code and $t$ is the number of errors corrected by the BCH code. Previously, the best known general method of constructing QDS codes out of quantum codes requires $O(t^3\log\ell)$ extra measurements. As the number of additional syndrome measurements is a reasonable metric for the amount of additional time a general QDS code requires, we conclude that our construction protects against the same number of syndrome errors with significantly less time overhead.
翻訳日:2023-11-28 13:49:18 公開日:2023-11-27
# Relightable 3D Gaussian: BRDF分解とレイトレーシングによるリアルタイムポイントクラウドリライト

Relightable 3D Gaussian: Real-time Point Cloud Relighting with BRDF Decomposition and Ray Tracing ( http://arxiv.org/abs/2311.16043v1 )

ライセンス: Link先を確認
Jian Gao, Chun Gu, Youtian Lin, Hao Zhu, Xun Cao, Li Zhang, Yao Yao(参考訳) 本稿では,多視点画像から素材や照明を分解し,編集,光線トレーシング,リアルタイムの3Dポイントクラウドのリライトを可能にする,新たなポイントベースレンダリングフレームワークを提案する。 具体的には、3Dシーンを3Dガウス点の集合として表現し、各点が通常方向、BRDFパラメータ、異なる方向からの入射光と付加的に関連付けられている。 強固な照明推定を実現するために,各点の入射光をさらにグローバルおよびローカル成分に分割し,ビュー依存のビジビティを得る。 3Dシーンは3Dガウススティング技術によって最適化され、BRDFと照明は物理的に微分可能なレンダリングによって分解される。 さらに,バウンディングボリューム階層に基づく,より効率的な視認性ベイキングのための革新的なポイントベースレイトレーシング手法を導入し,正確な影効果を持つ3次元ガウス点のリアルタイムレンダリングとリライトを可能にした。 BRDF推定と新しいビューレンダリングは、最先端の材料推定手法と比較して改善された。 当社のフレームワークでは,ポイントクラウドのみをベースとした,ライトナブルでトレーサビリティ,編集可能なレンダリングパイプラインによって,メッシュベースのグラフィックパイプラインに革命をもたらす可能性を実証しています。 プロジェクトページ:https://nju-3dv.github.io/projects/relightable3dgaussian/

We present a novel differentiable point-based rendering framework for material and lighting decomposition from multi-view images, enabling editing, ray-tracing, and real-time relighting of the 3D point cloud. Specifically, a 3D scene is represented as a set of relightable 3D Gaussian points, where each point is additionally associated with a normal direction, BRDF parameters, and incident lights from different directions. To achieve robust lighting estimation, we further divide incident lights of each point into global and local components, as well as view-dependent visibilities. The 3D scene is optimized through the 3D Gaussian Splatting technique while BRDF and lighting are decomposed by physically-based differentiable rendering. Moreover, we introduce an innovative point-based ray-tracing approach based on the bounding volume hierarchy for efficient visibility baking, enabling real-time rendering and relighting of 3D Gaussian points with accurate shadow effects. Extensive experiments demonstrate improved BRDF estimation and novel view rendering results compared to state-of-the-art material estimation approaches. Our framework showcases the potential to revolutionize the mesh-based graphics pipeline with a relightable, traceable, and editable rendering pipeline solely based on point cloud. Project page:https://nju-3dv.github.io/projects/Relightable3DGaussian/.
翻訳日:2023-11-28 13:48:55 公開日:2023-11-27
# 正規地図による衣服の3次元再構築

Weakly-Supervised 3D Reconstruction of Clothed Humans via Normal Maps ( http://arxiv.org/abs/2311.16042v1 )

ライセンス: Link先を確認
Jane Wu, Diego Thomas, Ronald Fedkiw(参考訳) そこで本研究では,2次元正規地図を用いた布地人の3次元再構築のための新しい深層学習手法を提案する。 一つのRGB画像またはマルチビュー画像から、我々のネットワークは、静止ポーズで体を囲む四面体メッシュ上で識別された符号付き距離関数(SDF)を推定する。 その後、推測されたポーズとカメラパラメータを使用して、SDFから正規マップを生成する。 我々のアプローチの重要な側面は、テトラヘドラを(一意に)四面体メッシュ上のSDFから三角面を計算し、容易に微分しやすくする(つまり、バックプロパゲーション)ことである。 したがって、基底真理正規写像のみを前提として(体積情報基底真理情報を持たない)、対応するRGB画像からSDF値を生成するようにネットワークを訓練することができる。 オプションとして、追加のマルチビュー損失は、結果の改善につながります。 ネットワーク推論と3次元再構成におけるアプローチの有効性を実証する。

We present a novel deep learning-based approach to the 3D reconstruction of clothed humans using weak supervision via 2D normal maps. Given a single RGB image or multiview images, our network infers a signed distance function (SDF) discretized on a tetrahedral mesh surrounding the body in a rest pose. Subsequently, inferred pose and camera parameters are used to generate a normal map from the SDF. A key aspect of our approach is the use of Marching Tetrahedra to (uniquely) compute a triangulated surface from the SDF on the tetrahedral mesh, facilitating straightforward differentiation (and thus backpropagation). Thus, given only ground truth normal maps (with no volumetric information ground truth information), we can train the network to produce SDF values from corresponding RGB images. Optionally, an additional multiview loss leads to improved results. We demonstrate the efficacy of our approach for both network inference and 3D reconstruction.
翻訳日:2023-11-28 13:48:32 公開日:2023-11-27
# Video-Bench: ビデオベース大規模言語モデル評価のための総合ベンチマークとツールキット

Video-Bench: A Comprehensive Benchmark and Toolkit for Evaluating Video-based Large Language Models ( http://arxiv.org/abs/2311.16103v1 )

ライセンス: Link先を確認
Munan Ning and Bin Zhu and Yujia Xie and Bin Lin and Jiaxi Cui and Lu Yuan and Dongdong Chen and Li Yuan(参考訳) ビデオベースの大規模言語モデル(Video-LLMs)が最近導入され、認識と理解の基本的な改善と多様なユーザからの問い合わせの両方をターゲットにしている。 人工知能の実現という究極の目標を追求するために、真にインテリジェントなビデオllmモデルは、周囲を観察し理解するだけでなく、人間レベルの常識を持ち、ユーザに適切に決定を下すべきである。 このようなモデルの開発を導くため、堅牢で包括的な評価システムの構築が重要となる。 そこで本稿では,ビデオllm評価のためのツールキットとともに,新しい総合ベンチマークである \textit{video-bench} を提案する。 このベンチマークは、ビデオ排他的理解、事前知識に基づく質問回答、理解と意思決定の3つのレベルにまたがる、ビデオLLMの能力を評価する10の精巧なタスクで構成されている。 さらに,各種タスクのプロセスモデル出力に適した自動ツールキットを導入し,メトリクスの計算を容易にし,便利な最終スコアを生成する。 ビデオ-LLMの代表的な8種をtextit{Video-Bench} を用いて評価した。 この結果によると、現在のビデオ-LLMは人間のような理解と実世界のビデオの分析を達成できない状態にあり、将来の研究の方向性に貴重な洞察を与えている。 ベンチマークとツールキットは: \url{https://github.com/PKU-YuanGroup/Video-Bench}.comで入手できる。

Video-based large language models (Video-LLMs) have been recently introduced, targeting both fundamental improvements in perception and comprehension, and a diverse range of user inquiries. In pursuit of the ultimate goal of achieving artificial general intelligence, a truly intelligent Video-LLM model should not only see and understand the surroundings, but also possess human-level commonsense, and make well-informed decisions for the users. To guide the development of such a model, the establishment of a robust and comprehensive evaluation system becomes crucial. To this end, this paper proposes \textit{Video-Bench}, a new comprehensive benchmark along with a toolkit specifically designed for evaluating Video-LLMs. The benchmark comprises 10 meticulously crafted tasks, evaluating the capabilities of Video-LLMs across three distinct levels: Video-exclusive Understanding, Prior Knowledge-based Question-Answering, and Comprehension and Decision-making. In addition, we introduce an automatic toolkit tailored to process model outputs for various tasks, facilitating the calculation of metrics and generating convenient final scores. We evaluate 8 representative Video-LLMs using \textit{Video-Bench}. The findings reveal that current Video-LLMs still fall considerably short of achieving human-like comprehension and analysis of real-world videos, offering valuable insights for future research directions. The benchmark and toolkit are available at: \url{https://github.com/PKU-YuanGroup/Video-Bench}.
翻訳日:2023-11-28 13:41:00 公開日:2023-11-27
# 拡散生成フィードバックによる識別モデルのテスト時間適応

Test-time Adaptation of Discriminative Models via Diffusion Generative Feedback ( http://arxiv.org/abs/2311.16102v1 )

ライセンス: Link先を確認
Mihir Prabhudesai and Tsung-Wei Ke and Alexander C. Li and Deepak Pathak and Katerina Fragkiadaki(参考訳) 生成的モデリングの進歩、特に拡散モデルの出現は、基本的な問題を引き起こした:これらのモデルは、どのようにして差別的タスクに効果的に使用できるのか? 本研究では, 判別モデルに対して, 生成モデルが優れたテスト時アダプタとなりうることを示す。 Diffusion-TTAは,画像分類器,セグメンタ,深度予測器などの事前学習した識別モデルを,拡散モデルからの生成的フィードバックを用いて,テストセット内の各未学習例に適用する。 識別モデルの出力を用いて拡散モデルのコンディショニングを変調することでこれを実現する。 次に、勾配を識別モデルのパラメータにバックプロパゲーションすることにより、画像のゆらぎ目標を最大化する。 Diffusion-TTAは、画像ネット分類器、CLIPモデル、画像ピクセルラベルラー、画像深度予測器など、様々な大規模事前学習型識別モデルの精度を著しく向上させる。 Diffusion-TTA は TTT-MAE や TENT などの既存のテスト時間適応手法よりも優れており、特にオンライン適応方式では差別モデルがテストセットの各例に継続的に適応している。 私たちのwebサイトでは、コード、結果、視覚化へのアクセスを提供しています。

The advancements in generative modeling, particularly the advent of diffusion models, have sparked a fundamental question: how can these models be effectively used for discriminative tasks? In this work, we find that generative models can be great test-time adapters for discriminative models. Our method, Diffusion-TTA, adapts pre-trained discriminative models such as image classifiers, segmenters and depth predictors, to each unlabelled example in the test set using generative feedback from a diffusion model. We achieve this by modulating the conditioning of the diffusion model using the output of the discriminative model. We then maximize the image likelihood objective by backpropagating the gradients to discriminative model's parameters. We show Diffusion-TTA significantly enhances the accuracy of various large-scale pre-trained discriminative models, such as, ImageNet classifiers, CLIP models, image pixel labellers and image depth predictors. Diffusion-TTA outperforms existing test-time adaptation methods, including TTT-MAE and TENT, and particularly shines in online adaptation setups, where the discriminative model is continually adapted to each example in the test set. We provide access to code, results, and visualizations on our website: https://diffusion-tta.github.io/.
翻訳日:2023-11-28 13:40:35 公開日:2023-11-27
# この画像のユニコーンは何人いますか。 vision llmの安全性評価ベンチマーク

How Many Unicorns Are in This Image? A Safety Evaluation Benchmark for Vision LLMs ( http://arxiv.org/abs/2311.16101v1 )

ライセンス: Link先を確認
Haoqin Tu, Chenhang Cui, Zijun Wang, Yiyang Zhou, Bingchen Zhao, Junlin Han, Wangchunshu Zhou, Huaxiu Yao, Cihang Xie(参考訳) 本研究は視覚推論におけるビジョンLLM(VLLM)の可能性に焦点を当てる。 従来の研究と異なり、我々は標準性能の評価から総合的な安全評価スイートの導入に焦点を移し、アウト・オブ・ディストリビューション(OOD)の一般化と敵の堅牢性の両方をカバーした。 ood評価のために,課題条件下でモデル性能をテストするために設計された2つの新しいvqaデータセットを提示する。 本稿では,視覚的無関係な応答を生成するために,VLLMを誤誘導する攻撃戦略を提案する。 さらに,VLLMの視覚的,言語的要素を標的とした2つのジェイルブレイク戦略の有効性を評価する。 オープンソース VLLM から GPT-4V まで,21種類の多種多様なモデルの評価を行った。 1)現在のVLLMは、視覚情報に制限がない限り、OODテキストと競合するが画像ではない。 2)これらのVLLMは、視覚エンコーダのみを誤認することで容易に誤認でき、視覚言語訓練が安全プロトコルを損なうことがしばしばある。 我々はこの安全性評価スイートをhttps://github.com/UCSC-VLAA/vllm-safety-benchmarkでリリースします。

This work focuses on the potential of Vision LLMs (VLLMs) in visual reasoning. Different from prior studies, we shift our focus from evaluating standard performance to introducing a comprehensive safety evaluation suite, covering both out-of-distribution (OOD) generalization and adversarial robustness. For the OOD evaluation, we present two novel VQA datasets, each with one variant, designed to test model performance under challenging conditions. In exploring adversarial robustness, we propose a straightforward attack strategy for misleading VLLMs to produce visual-unrelated responses. Moreover, we assess the efficacy of two jailbreaking strategies, targeting either the vision or language component of VLLMs. Our evaluation of 21 diverse models, ranging from open-source VLLMs to GPT-4V, yields interesting observations: 1) Current VLLMs struggle with OOD texts but not images, unless the visual information is limited; and 2) These VLLMs can be easily misled by deceiving vision encoders only, and their vision-language training often compromise safety protocols. We release this safety evaluation suite at https://github.com/UCSC-VLAA/vllm-safety-benchmark.
翻訳日:2023-11-28 13:40:11 公開日:2023-11-27
# GART:ガウスアートテンプレートモデル

GART: Gaussian Articulated Template Models ( http://arxiv.org/abs/2311.16099v1 )

ライセンス: Link先を確認
Jiahui Lei and Yufu Wang and Georgios Pavlakos and Lingjie Liu and Kostas Daniilidis(参考訳) 本稿では,単眼映像からの非剛性構音表現のための明示的,効率的,表現的表現であるgaussian articulated template model gartを紹介する。 GARTは、変形可能な対象の幾何学と外観を明示的に近似するために、動く3Dガウスの混合を利用する。 学習可能な前方スキンによる分類的テンプレートモデル(smpl、smalなど)の利点を活かし、さらに新しい潜在骨によるより複雑な非剛性変形を一般化する。 GARTは、モノクロビデオから数秒または数分で差別化可能なレンダリングによって再構築でき、150fps以上の新しいポーズでレンダリングできる。

We introduce Gaussian Articulated Template Model GART, an explicit, efficient, and expressive representation for non-rigid articulated subject capturing and rendering from monocular videos. GART utilizes a mixture of moving 3D Gaussians to explicitly approximate a deformable subject's geometry and appearance. It takes advantage of a categorical template model prior (SMPL, SMAL, etc.) with learnable forward skinning while further generalizing to more complex non-rigid deformations with novel latent bones. GART can be reconstructed via differentiable rendering from monocular videos in seconds or minutes and rendered in novel poses faster than 150fps.
翻訳日:2023-11-28 13:39:51 公開日:2023-11-27
# ロボットを家に持ち帰る

On Bringing Robots Home ( http://arxiv.org/abs/2311.16098v1 )

ライセンス: Link先を確認
Nur Muhammad Mahi Shafiullah and Anant Rai and Haritheja Etukuru and Yiqian Liu and Ishan Misra and Soumith Chintala and Lerrel Pinto(参考訳) 歴史上、我々は様々な機械を家庭に組み込むことに成功した。 食器洗い機、洗濯機、スタンドミキサー、ロボット掃除機などが最近の例である。 しかし、これらの機械は1つのタスクしか効果的に実行できない。 家庭における「ジェネラリストマシン」の概念は、コスト効率を保ちながら、我々のニーズに適応し学習できる家庭内アシスタントであり、長年着実に追求されてきたロボティクスの目標だった。 本研究では,家庭内でロボット操作を学習する汎用システムDobb-Eを導入することで,この目標に向けて大規模な取り組みを開始する。 dobb-eは、安価な部品とiphoneで作ったデモ収集ツール(the stick)のおかげで、ユーザの5分で新しいタスクを学習できる。 The Stickを使って、ニューヨーク市の22の家で13時間のデータを収集し、Home Pretrained Representations(HPR)を訓練します。 そして、新しい家庭環境において、5分間のデモンストレーションと15分間のhprモデルの適用により、dobb-eが市場に出回っている移動ロボットであるストレッチのタスクを確実に解決できることを実証する。 ニューヨーク市や周辺地域での約30日間の実験を通じて、私たちのシステムを10の家庭でテストし、合計109のタスクを異なる環境で実行し、最終的に81%の成功率を達成しました。 成功率以外にも、実験では、ラボロボティクスに欠けている、あるいは無視された、ユニークな課題が数多く見つかりました。 これらは、強いシャドウの影響から、非熟練ユーザによるさまざまなデモ品質まで様々である。 私たちは、ホームロボットの研究を加速し、最終的にはすべての家庭でロボットバトラーを見ることを期待して、dobb-eソフトウェアスタックとモデル、データ、ハードウェア設計をhttps://dobb-e.comでオープンソース化しました。

Throughout history, we have successfully integrated various machines into our homes. Dishwashers, laundry machines, stand mixers, and robot vacuums are a few recent examples. However, these machines excel at performing only a single task effectively. The concept of a "generalist machine" in homes - a domestic assistant that can adapt and learn from our needs, all while remaining cost-effective - has long been a goal in robotics that has been steadily pursued for decades. In this work, we initiate a large-scale effort towards this goal by introducing Dobb-E, an affordable yet versatile general-purpose system for learning robotic manipulation within household settings. Dobb-E can learn a new task with only five minutes of a user showing it how to do it, thanks to a demonstration collection tool ("The Stick") we built out of cheap parts and iPhones. We use the Stick to collect 13 hours of data in 22 homes of New York City, and train Home Pretrained Representations (HPR). Then, in a novel home environment, with five minutes of demonstrations and fifteen minutes of adapting the HPR model, we show that Dobb-E can reliably solve the task on the Stretch, a mobile robot readily available on the market. Across roughly 30 days of experimentation in homes of New York City and surrounding areas, we test our system in 10 homes, with a total of 109 tasks in different environments, and finally achieve a success rate of 81%. Beyond success percentages, our experiments reveal a plethora of unique challenges absent or ignored in lab robotics. These range from effects of strong shadows, to variable demonstration quality by non-expert users. With the hope of accelerating research on home robots, and eventually seeing robot butlers in every home, we open-source Dobb-E software stack and models, our data, and our hardware designs at https://dobb-e.com
翻訳日:2023-11-28 13:39:38 公開日:2023-11-27
# CG-HOI:接触誘導型3次元物体インタラクション生成

CG-HOI: Contact-Guided 3D Human-Object Interaction Generation ( http://arxiv.org/abs/2311.16097v1 )

ライセンス: Link先を確認
Christian Diller, Angela Dai(参考訳) 本稿では,テキストから動的3次元オブジェクト間相互作用(HOI)を生成するタスクに最初に対処するCG-HOIを提案する。 人間と物体の動作を相互依存的にモデル化し、意味論的にリッチな人間の動きは、相互作用なしに孤立して起こることは滅多にない。 我々の重要な洞察は、トレーニングと推論の両方において、人体表面と物体形状との間の接触を明示的にモデル化することが強力なプロキシガイダンスとして使用できることである。 このガイダンスを用いて人間と物体の動きをブリッジすることで、より現実的で物理的に妥当な相互作用シーケンスを生成することができる。 本手法はまず, 関節拡散過程における人間の動き, 物体の動き, 接触のモデル化を学習する。 そして、この学習したコンタクトを利用して、現実的なコヒーレントなhoisの推論合成を指導します。 広範囲な評価により,我々の関節接触に基づく人間-物体相互作用アプローチは,現実的かつ物理的に妥当なシーケンスを生成できることが示され,本手法の能力を強調する2つの応用が示された。 対象物軌跡に条件付きで、再学習することなく、対応する人間の動きを生成でき、強い人間-物体相互依存学習を示す。 われわれのアプローチはフレキシブルで、静的な現実世界の3Dシーンスキャンにも適用できる。

We propose CG-HOI, the first method to address the task of generating dynamic 3D human-object interactions (HOIs) from text. We model the motion of both human and object in an interdependent fashion, as semantically rich human motion rarely happens in isolation without any interactions. Our key insight is that explicitly modeling contact between the human body surface and object geometry can be used as strong proxy guidance, both during training and inference. Using this guidance to bridge human and object motion enables generating more realistic and physically plausible interaction sequences, where the human body and corresponding object move in a coherent manner. Our method first learns to model human motion, object motion, and contact in a joint diffusion process, inter-correlated through cross-attention. We then leverage this learned contact for guidance during inference synthesis of realistic, coherent HOIs. Extensive evaluation shows that our joint contact-based human-object interaction approach generates realistic and physically plausible sequences, and we show two applications highlighting the capabilities of our method. Conditioned on a given object trajectory, we can generate the corresponding human motion without re-training, demonstrating strong human-object interdependency learning. Our approach is also flexible, and can be applied to static real-world 3D scene scans.
翻訳日:2023-11-28 13:39:08 公開日:2023-11-27
# Animatable Gaussian:高忠実な人間のアバターモデリングのためのPose-dependent Gaussian Mapsの学習

Animatable Gaussians: Learning Pose-dependent Gaussian Maps for High-fidelity Human Avatar Modeling ( http://arxiv.org/abs/2311.16096v1 )

ライセンス: Link先を確認
Zhe Li, Zerong Zheng, Lizhen Wang, Yebin Liu(参考訳) rgbビデオからのアニメーション可能な人間のアバターのモデリングは、長年の課題である。 最近の研究は、通常3次元人間を表現するためにMLPベースの神経放射場(NeRF)を採用するが、純粋なMLPがポーズ依存の衣服の詳細を抑えることは困難である。 この目的のために,強力な2d cnnと3d gaussian splattingを利用した新しいアバター表現であるanimatable gaussianを紹介する。 アニマタブルなアバターと3Dガウスアンを関連付けるために,入力ビデオからパラメトリックテンプレートを学習し,各画素が3Dガウスアンを表す2つの前後カノニカルガウス地図上でテンプレートをパラメータ化する。 学習されたテンプレートは、ドレスのようなゆるい服をモデル化するために着用服に適応する。 このようなテンプレート誘導型2次元パラメータ化により,skinganベースのcnnを用いてポーズ依存ガウス写像を学習し,詳細な動的外観をモデル化することができる。 さらに,新規なポーズを一般化するためのポーズ投影戦略を提案する。 全体として,本手法は動的,現実的,一般化された外観を持つ生活型アバターを作成できる。 実験の結果,本手法は他の手法よりも優れていることがわかった。 コード: https://github.com/lizhe00/animatablegaussians

Modeling animatable human avatars from RGB videos is a long-standing and challenging problem. Recent works usually adopt MLP-based neural radiance fields (NeRF) to represent 3D humans, but it remains difficult for pure MLPs to regress pose-dependent garment details. To this end, we introduce Animatable Gaussians, a new avatar representation that leverages powerful 2D CNNs and 3D Gaussian splatting to create high-fidelity avatars. To associate 3D Gaussians with the animatable avatar, we learn a parametric template from the input videos, and then parameterize the template on two front \& back canonical Gaussian maps where each pixel represents a 3D Gaussian. The learned template is adaptive to the wearing garments for modeling looser clothes like dresses. Such template-guided 2D parameterization enables us to employ a powerful StyleGAN-based CNN to learn the pose-dependent Gaussian maps for modeling detailed dynamic appearances. Furthermore, we introduce a pose projection strategy for better generalization given novel poses. Overall, our method can create lifelike avatars with dynamic, realistic and generalized appearances. Experiments show that our method outperforms other state-of-the-art approaches. Code: https://github.com/lizhe00/AnimatableGaussians
翻訳日:2023-11-28 13:38:46 公開日:2023-11-27
# street tryon:未舗装の人物画像から仮想トライオンを学ぶ

Street TryOn: Learning In-the-Wild Virtual Try-On from Unpaired Person Images ( http://arxiv.org/abs/2311.16094v1 )

ライセンス: Link先を確認
Aiyu Cui, Jay Mahajan, Viraj Shah, Preeti Gomathinayagam, Svetlana Lazebnik(参考訳) 仮想試行はポピュラーな研究トピックとなっているが、既存のほとんどの手法はクリーンな背景を持つスタジオイメージに焦点を当てている。 対のトレーニングデータ、すなわち、同じ服を着ている人のイメージと対になる衣料画像から、身体に合う衣料画像に警告することで、このスタジオ試着設定において、妥当な結果が得られる。 このようなデータは、しばしば商業ウェブサイトから収集され、各衣服は単独で、複数のモデルで展示される。 対照的に、撮影現場でのペアデータ収集は困難であり、乱雑な背景に対するカジュアル画像の仮想試行はめったに行われない。 本研究では,(1)ストリート・トライオン・ベンチマークを導入し,(1)ストリート・シーンにおけるパフォーマンス評価を行い,(2)一組の人物画像からペアデータなしで学習できる新しい手法を提案することで,現在の仮想・トライ・オン研究のギャップを埋める。 提案手法は,新しいDensePoseワープ補正法と,ポーズとセマンティックセマンティックセグメンテーションによって制御された拡散型インペインティングを組み合わせることで,店舗・街路領域におけるロバストな性能を実現する。 実験では、標準的なスタジオトライオンタスクと、ストリートトライオンタスクとクロスドメイントライオンタスクのSOTAパフォーマンスの競合性能を実証した。

Virtual try-on has become a popular research topic, but most existing methods focus on studio images with a clean background. They can achieve plausible results for this studio try-on setting by learning to warp a garment image to fit a person's body from paired training data, i.e., garment images paired with images of people wearing the same garment. Such data is often collected from commercial websites, where each garment is demonstrated both by itself and on several models. By contrast, it is hard to collect paired data for in-the-wild scenes, and therefore, virtual try-on for casual images of people against cluttered backgrounds is rarely studied. In this work, we fill the gap in the current virtual try-on research by (1) introducing a Street TryOn benchmark to evaluate performance on street scenes and (2) proposing a novel method that can learn without paired data, from a set of in-the-wild person images directly. Our method can achieve robust performance across shop and street domains using a novel DensePose warping correction method combined with diffusion-based inpainting controlled by pose and semantic segmentation. Our experiments demonstrate competitive performance for standard studio try-on tasks and SOTA performance for street try-on and cross-domain try-on tasks.
翻訳日:2023-11-28 13:38:25 公開日:2023-11-27
# 人を思わせる機械を作ったか?

Have we built machines that think like people? ( http://arxiv.org/abs/2311.16093v1 )

ライセンス: Link先を確認
Luca M. Schulze Buschoff, Elif Akata, Matthias Bethge, Eric Schulz(参考訳) 人工知能の主な目標は、人間のように考える機械を作ることだ。 しかし、ディープニューラルネットワークアーキテクチャはそれを達成できないと主張されている。 研究者は、因果推論、直観物理学、直観心理学の領域におけるこれらのモデルの限界を主張している。 しかし、最近の進歩、特に視覚処理用に設計された大規模言語モデルの台頭は、人間のような認知能力をエミュレートする可能性に対する関心を再び高めている。 本稿では,直観的物理学,因果推論,直観的心理学の領域における視覚に基づく大規模言語モデルの現状を評価する。 これらのモデルが複雑な物理的相互作用、因果関係、他者の嗜好の直感的理解を把握できる範囲について、一連の制御実験を通じて検討した。 以上の結果から,これらのモデルでは視覚データの処理や解釈に有意な能力があるものの,その領域では人間の能力に欠けることが明らかとなった。 これらのモデルは、物理的法則と因果関係の初歩的な理解を示すが、その性能は人間の認知の重要な側面である深い洞察の欠如によって妨げられている。 さらに、直感的な心の理論を必要とするタスクでは、モデルは完全に失敗する。 本研究は,因果性,身体的ダイナミクス,社会的認知を現代的な視覚言語モデルに統合するためのより強固なメカニズムの必要性を強調し,認知的にインスパイアされたベンチマークの重要性を指摘する。

A chief goal of artificial intelligence is to build machines that think like people. Yet it has been argued that deep neural network architectures fail to accomplish this. Researchers have asserted these models' limitations in the domains of causal reasoning, intuitive physics, and intuitive psychology. Yet recent advancements, namely the rise of large language models, particularly those designed for visual processing, have rekindled interest in the potential to emulate human-like cognitive abilities. This paper evaluates the current state of vision-based large language models in the domains of intuitive physics, causal reasoning, and intuitive psychology. Through a series of controlled experiments, we investigate the extent to which these modern models grasp complex physical interactions, causal relationships, and intuitive understanding of others' preferences. Our findings reveal that, while these models demonstrate a notable proficiency in processing and interpreting visual data, they still fall short of human capabilities in these areas. The models exhibit a rudimentary understanding of physical laws and causal relationships, but their performance is hindered by a lack of deeper insights-a key aspect of human cognition. Furthermore, in tasks requiring an intuitive theory of mind, the models fail altogether. Our results emphasize the need for integrating more robust mechanisms for understanding causality, physical dynamics, and social cognition into modern-day, vision-based language models, and point out the importance of cognitively-inspired benchmarks.
翻訳日:2023-11-28 13:37:57 公開日:2023-11-27
# 内部状態推論と相互活動推定を用いた対話型自律ナビゲーション

Interactive Autonomous Navigation with Internal State Inference and Interactivity Estimation ( http://arxiv.org/abs/2311.16091v1 )

ライセンス: Link先を確認
Jiachen Li and David Isele and Kanghoon Lee and Jinkyoo Park and Kikuo Fujimura and Mykel J. Kochenderfer(参考訳) 深層強化学習(DRL)は、インテリジェントエージェント(例えば自動運転車)が複雑なシナリオをナビゲートする有望な方法を提供する。 しかしながら、関数近似器としてのニューラルネットワークを持つDRLは、説明可能性の少ないブラックボックスと見なされ、特に高度にインタラクティブなマルチエージェント環境での自律的なナビゲーションにおいて、最適以下の性能に悩まされることが多い。 これらの課題に対処するため、時空間関係推論を用いた3つの補助タスクを提案し、それらを標準DRLフレームワークに統合し、意思決定性能を改善し、説明可能な中間指標を提供する。 本研究では,周囲のエージェント(例えば,人間ドライバー)の内部状態(特性や意図)を明示的に推測するとともに,エゴエージェントを介さない状況下での将来の軌跡を予測することを提案する。 これらの補助的なタスクは、他の対話エージェントの行動パターンを推測するための追加の監視信号を提供する。 フレームワーク統合戦略の複数のバリエーションを比較します。 また,動的エンティティ間の関係をエンコードする時空間グラフニューラルネットワークを用いて,egoエージェントの内部状態推論と意思決定の両方を強化する。 さらに,これらの2つの状況における予測軌跡の差に基づく相互作用性推定機構を提案し,エゴ剤が他のエージェントに与える影響の度合いを示す。 提案手法を検証するため,車と歩行者をシミュレートするIntelligent Intersection Driver Model (IIDM) に基づく交差点運転シミュレータを設計した。 本手法は,標準評価指標を用いてロバストかつ最先端のパフォーマンスを達成し,意思決定のための説明可能な中間指標(内部状態,対話性スコア)を提供する。

Deep reinforcement learning (DRL) provides a promising way for intelligent agents (e.g., autonomous vehicles) to learn to navigate complex scenarios. However, DRL with neural networks as function approximators is typically considered a black box with little explainability and often suffers from suboptimal performance, especially for autonomous navigation in highly interactive multi-agent environments. To address these issues, we propose three auxiliary tasks with spatio-temporal relational reasoning and integrate them into the standard DRL framework, which improves the decision making performance and provides explainable intermediate indicators. We propose to explicitly infer the internal states (i.e., traits and intentions) of surrounding agents (e.g., human drivers) as well as to predict their future trajectories in the situations with and without the ego agent through counterfactual reasoning. These auxiliary tasks provide additional supervision signals to infer the behavior patterns of other interactive agents. Multiple variants of framework integration strategies are compared. We also employ a spatio-temporal graph neural network to encode relations between dynamic entities, which enhances both internal state inference and decision making of the ego agent. Moreover, we propose an interactivity estimation mechanism based on the difference between predicted trajectories in these two situations, which indicates the degree of influence of the ego agent on other agents. To validate the proposed method, we design an intersection driving simulator based on the Intelligent Intersection Driver Model (IIDM) that simulates vehicles and pedestrians. Our approach achieves robust and state-of-the-art performance in terms of standard evaluation metrics and provides explainable intermediate indicators (i.e., internal states, and interactivity scores) for decision making.
翻訳日:2023-11-28 13:37:36 公開日:2023-11-27
# 自己補正LDM制御拡散モデル

Self-correcting LLM-controlled Diffusion Models ( http://arxiv.org/abs/2311.16090v1 )

ライセンス: Link先を確認
Tsung-Han Wu, Long Lian, Joseph E. Gonzalez, Boyi Li, Trevor Darrell(参考訳) テキスト・ツー・イメージ世代は拡散モデルの出現によって大きな進歩をみせた。 フォトリアリスティックな画像を生成する能力にもかかわらず、現在のテキストと画像の拡散モデルは、複雑な入力のプロンプトを正確に解釈し追従するのに苦戦することが多い。 画像生成を最善を尽くす既存のモデルとは対照的に,自己補正型LPM制御拡散(SLD)を導入する。 SLDは、入力プロンプトから画像を生成し、プロンプトとアライメントを評価し、生成した画像の不正確性に対して自己補正を行うフレームワークである。 LLMコントローラによって制御され、SLDはテキスト・ツー・イメージ生成を反復的なクローズドループプロセスに変換し、結果の画像の正確性を保証する。 SLDはトレーニングフリーであるだけでなく、DALL-E 3のようなAPIアクセスの背後にある拡散モデルとシームレスに統合することで、最先端の拡散モデルの性能をさらに向上することができる。 実験結果から, 提案手法は不正確な世代, 特に生成数, 属性結合, 空間的関係のほとんどを補正できることがわかった。 さらに、LCMへの指示を単純に調整することで、SLDは画像編集タスクを実行でき、テキスト・ツー・イメージ生成と画像編集パイプラインのギャップを埋めることができる。 将来の研究とアプリケーションでコードを利用できるようにします。

Text-to-image generation has witnessed significant progress with the advent of diffusion models. Despite the ability to generate photorealistic images, current text-to-image diffusion models still often struggle to accurately interpret and follow complex input text prompts. In contrast to existing models that aim to generate images only with their best effort, we introduce Self-correcting LLM-controlled Diffusion (SLD). SLD is a framework that generates an image from the input prompt, assesses its alignment with the prompt, and performs self-corrections on the inaccuracies in the generated image. Steered by an LLM controller, SLD turns text-to-image generation into an iterative closed-loop process, ensuring correctness in the resulting image. SLD is not only training-free but can also be seamlessly integrated with diffusion models behind API access, such as DALL-E 3, to further boost the performance of state-of-the-art diffusion models. Experimental results show that our approach can rectify a majority of incorrect generations, particularly in generative numeracy, attribute binding, and spatial relationships. Furthermore, by simply adjusting the instructions to the LLM, SLD can perform image editing tasks, bridging the gap between text-to-image generation and image editing pipelines. We will make our code available for future research and applications.
翻訳日:2023-11-28 13:37:06 公開日:2023-11-27
# ランダムボソニック回転符号の性能

The performance of random bosonic rotation codes ( http://arxiv.org/abs/2311.16089v1 )

ライセンス: Link先を確認
Saurabh Totey, Akira Kyle, Steven Liu, Pratik J. Barge, Noah Lordi, and Joshua Combes(参考訳) ボソニック誤り訂正符号は調和振動子の無限次元ヒルベルト空間を利用して量子ビットを符号化する。 ボソニック回転符号は,そのウィグナー関数における離散的回転対称性を特徴とし,猫や二項符号などの符号を含む。 最善のランダム回転符号は,損失が大きく,誤差が小さいパラメータ領域において,猫や二項符号よりも優れることがわかった。

Bosonic error correcting codes utilize the infinite dimensional Hilbert space of a harmonic oscillator to encode a qubit. Bosonic rotation codes are characterized by a discrete rotation symmetry in their Wigner functions and include codes such as the cat and binomial codes.We define two different notions of random bosonic rotation codes and numerically explore their performance against loss and dephasing. We find that the best random rotation codes can outperform cat and binomial codes in a certain parameter regime where loss is large and dephasing errors are small.
翻訳日:2023-11-28 13:36:43 公開日:2023-11-27
# DUnE: 統一編集のためのデータセット

DUnE: Dataset for Unified Editing ( http://arxiv.org/abs/2311.16087v1 )

ライセンス: Link先を確認
Afra Feyza Aky\"urek, Eric Pan, Garry Kuwanto, Derry Wijaya(参考訳) 最も先進的な言語モデルでさえ、包括的なリトレーニングプロセスを開始することなく、これらのモデルを変更する必要のあるエラーを受けやすいままである。 モデル編集は、望ましい結果を生み出す方法でモデルの知識や表現を変更することを指す。 それまでの研究は主に事実データを編集することに焦点を当てており、例えば"Messi play for Inter Miami" は知識三重項 (subject, object, relation) に編集の定義を定めている。 しかし、言語モデルの応用が拡大するにつれて、我々はそのアウトプットを編集し洗練したいと願う様々な方法を実行します。 本研究では,編集問題の範囲を広げて,デバイアスや推論誤りの修正などの編集事例を含むようにし,モデル出力の変化を誘発する自然言語表現として編集を定義する。 我々は、自然言語文を編集するDUnE-an編集ベンチマークを導入し、DUnEが困難だが関連性のある課題を示すことを提案する。 この主張を裏付けるために、砂丘に対処するために様々な編集アプローチをテストし、それぞれの強みと弱みを示す一連の実験を行う。 検索型言語モデリングは,特殊編集技術よりも優れており,いずれの手法も,本ベンチマークでカバーする汎用編集問題を完全に解決していない。

Even the most advanced language models remain susceptible to errors necessitating to modify these models without initiating a comprehensive retraining process. Model editing refers to the modification of a model's knowledge or representations in a manner that produces the desired outcomes. Prior research primarily centered around editing factual data e.g. "Messi plays for Inter Miami" confining the definition of an edit to a knowledge triplet i.e. (subject, object, relation). However, as the applications of language models expand, so do the diverse ways in which we wish to edit and refine their outputs. In this study, we broaden the scope of the editing problem to include an array of editing cases such as debiasing and rectifying reasoning errors and define an edit as any natural language expression that solicits a change in the model's outputs. We are introducing DUnE-an editing benchmark where edits are natural language sentences and propose that DUnE presents a challenging yet relevant task. To substantiate this claim, we conduct an extensive series of experiments testing various editing approaches to address DUnE, demonstrating their respective strengths and weaknesses. We show that retrieval-augmented language modeling can outperform specialized editing techniques and neither set of approaches has fully solved the generalized editing problem covered by our benchmark.
翻訳日:2023-11-28 13:36:35 公開日:2023-11-27
# MAST: モデルに依存しないスパシファイドトレーニング

MAST: Model-Agnostic Sparsified Training ( http://arxiv.org/abs/2311.16086v1 )

ライセンス: Link先を確認
Yury Demidovich, Grigory Malinovsky, Egor Shulgin, Peter Richt\'arik(参考訳) 本稿では,機械学習モデルの損失をブラックボックス関数として最小化する従来の方法から外れた,新しい最適化問題定式化を提案する。 従来の定式化とは異なり、提案されたアプローチは初期訓練されたモデルとランダムなスケッチ演算子を明示的に組み込んでおり、トレーニング中のモデルと勾配の両方をスパース化できる。 提案する目的関数の洞察に富む性質を確立し,標準定式化との関係を強調する。 さらに,新しい問題定式化に適応した確率勾配 Descent (SGD) 法には,一般サンプリングによるSGD,分散バージョン,分散縮小手法によるSGDなど,いくつかの変種が提案されている。 より厳密な収束率を実現し、仮定を緩和し、理論原理と実践的応用のギャップを埋め、ドロップアウトやスパーストレーニングのような重要なテクニックを網羅する。 本研究は、スパーシフィケーション・アウェア最適化アプローチによるモデルトレーニングの理論的理解を深める有望な機会を提供する。

We introduce a novel optimization problem formulation that departs from the conventional way of minimizing machine learning model loss as a black-box function. Unlike traditional formulations, the proposed approach explicitly incorporates an initially pre-trained model and random sketch operators, allowing for sparsification of both the model and gradient during training. We establish insightful properties of the proposed objective function and highlight its connections to the standard formulation. Furthermore, we present several variants of the Stochastic Gradient Descent (SGD) method adapted to the new problem formulation, including SGD with general sampling, a distributed version, and SGD with variance reduction techniques. We achieve tighter convergence rates and relax assumptions, bridging the gap between theoretical principles and practical applications, covering several important techniques such as Dropout and Sparse training. This work presents promising opportunities to enhance the theoretical understanding of model training through a sparsification-aware optimization approach.
翻訳日:2023-11-28 13:36:12 公開日:2023-11-27
# BERTがオフトピックに - Genre 分類を用いたドメイン転送チャレンジの調査

BERT Goes Off-Topic: Investigating the Domain Transfer Challenge using Genre Classification ( http://arxiv.org/abs/2311.16083v1 )

ライセンス: Link先を確認
Dmitri Roussinov, Serge Sharoff(参考訳) 予備学習言語モデル(PLM)により,多くのテキスト分類タスクのパフォーマンスが最近改善されているが,本論文では,トピックの下位分布が変化しても,まだパフォーマンスのギャップに悩まされていることを示す。 例えば、 \textit{political}トピックでトレーニングされたジャンル分類器は、 \textit{sport} や \textit{medicine} に関するドキュメントでテストされると、しばしば失敗する。 本研究では,この現象を大規模コーパスと大規模トピックセットで実証的に定量化する。 その結果,BERT のような古典的 PLM や GPT-3 のような近代的な大規模モデルではドメイン転送が依然として困難であることが確認された。 局所的に制御された合成テキストでトレーニングデータセットを増強した後、いくつかのトピックについてf1スコアを最大50\%改善し、オントピックのトレーニング結果に近づいたり、あるいはほとんど改善しなかったりする。 実験結果はジャンル分類に着目するが, 性別, 著者性, 感情分類などの他の分類課題にも適用できる。 実験を再現するためのコードとデータは、https://github.com/dminus1/genreで入手できる。

While performance of many text classification tasks has been recently improved due to Pre-trained Language Models (PLMs), in this paper we show that they still suffer from a performance gap when the underlying distribution of topics changes. For example, a genre classifier trained on \textit{political} topics often fails when tested on documents about \textit{sport} or \textit{medicine}. In this work, we quantify this phenomenon empirically with a large corpus and a large set of topics. Consequently, we verify that domain transfer remains challenging both for classic PLMs, such as BERT, and for modern large models, such as GPT-3. We also suggest and successfully test a possible remedy: after augmenting the training dataset with topically-controlled synthetic texts, the F1 score improves by up to 50\% for some topics, nearing on-topic training results, while others show little to no improvement. While our empirical results focus on genre classification, our methodology is applicable to other classification tasks such as gender, authorship, or sentiment classification. The code and data to replicate the experiments are available at https://github.com/dminus1/genre
翻訳日:2023-11-28 13:35:54 公開日:2023-11-27
# 適応サンプリングと重要度サンプリングによる効率的勾配推定

Efficient Gradient Estimation via Adaptive Sampling and Importance Sampling ( http://arxiv.org/abs/2311.14468v2 )

ライセンス: Link先を確認
Corentin Sala\"un, Xingchang Huang, Iliyan Georgiev, Niloy J. Mitra, Gurprit Singh(参考訳) 機械学習の問題は最適化のために確率勾配降下(SGD)に大きく依存している。 sgdの有効性は,データサンプルのミニバッチから勾配を正確に推定することにある。 一般に使用される一様サンプリングの代わりに、適応サンプリングまたは重要サンプリングは、重要なデータポイントを優先するミニバッチを形成することにより、勾配推定におけるノイズを低減する。 以前の研究では、データポイントは勾配ノルムに比例する確率で選択されるべきであることが示唆された。 それでも、既存のアルゴリズムは、機械学習フレームワークに重要なサンプリングを統合するのに苦労している。 この作品では、私たちは2つの貢献をします。 まず,既存の重要な機能をフレームワークに組み込むアルゴリズムを提案する。 次に,出力層の損失勾配のみに依存する簡易な重要度関数を提案する。 提案手法を応用して,計算オーバーヘッドを最小限に抑えた分類および回帰タスクの収束性を改善する。 画像およびポイントクラウドデータセットに対する適応的および重要サンプリング手法の有効性を検証する。

Machine learning problems rely heavily on stochastic gradient descent (SGD) for optimization. The effectiveness of SGD is contingent upon accurately estimating gradients from a mini-batch of data samples. Instead of the commonly used uniform sampling, adaptive or importance sampling reduces noise in gradient estimation by forming mini-batches that prioritize crucial data points. Previous research has suggested that data points should be selected with probabilities proportional to their gradient norm. Nevertheless, existing algorithms have struggled to efficiently integrate importance sampling into machine learning frameworks. In this work, we make two contributions. First, we present an algorithm that can incorporate existing importance functions into our framework. Second, we propose a simplified importance function that relies solely on the loss gradient of the output layer. By leveraging our proposed gradient estimation techniques, we observe improved convergence in classification and regression tasks with minimal computational overhead. We validate the effectiveness of our adaptive and importance-sampling approach on image and point-cloud datasets.
翻訳日:2023-11-28 11:52:45 公開日:2023-11-27
# 正規化流れとSurVAEによるPDF投影の比較

A Comparison of PDF Projection with Normalizing Flows and SurVAE ( http://arxiv.org/abs/2311.14412v2 )

ライセンス: Link先を確認
Paul M. Baggenstoss and Felix Govaers(参考訳) 正規化フロー (NF) は, 構成可能な層から正確な確率計算で生成ネットワークを構築する方法として注目されている。 しかし、NF は次元保存変換に制限される。 サージェクションVAE(SurVAE)は、NFを次元変化変換に拡張するために提案されている。 このようなネットワークは表現力があり、正確に訓練できるので望ましい。 提案手法は,20年以上前に現れたPDFプロジェクションの再発明であり,さらに発展していることを示す。

Normalizing flows (NF) recently gained attention as a way to construct generative networks with exact likelihood calculation out of composable layers. However, NF is restricted to dimension-preserving transformations. Surjection VAE (SurVAE) has been proposed to extend NF to dimension-altering transformations. Such networks are desirable because they are expressive and can be precisely trained. We show that the approaches are a re-invention of PDF projection, which appeared over twenty years earlier and is much further developed.
翻訳日:2023-11-28 11:52:32 公開日:2023-11-27
# Average Token Delay: 同時翻訳のための経時的遅延メトリクス

Average Token Delay: A Duration-aware Latency Metric for Simultaneous Translation ( http://arxiv.org/abs/2311.14353v2 )

ライセンス: Link先を確認
Yasumasa Kano, Katsuhito Sudoh, Satoshi Nakamura(参考訳) 同時翻訳は、入力された音声セグメントの終了前に翻訳が始まるタスクである。 その評価は品質に加えてレイテンシに基づいて行うべきであり、ユーザにとっては最小限のレイテンシが望ましい。 既存のメトリクスのほとんどは、部分翻訳の開始タイミングに基づいてレイテンシを測定し、その期間を無視する。 これは、長い翻訳出力によるレイテンシをペナルティにしないことを意味しており、ユーザの理解とその後の翻訳を遅らせる。 本研究では,部分翻訳の継続時間に着目した同時翻訳のための新しい遅延評価指標である 'emph{Average Token Delay} (ATD) を提案する。 本稿では,Ear-Voice Span (EVS) に基づくユーザ側遅延の解析により,その効果を実証する。 実験では,ほとんどの条件下でのベースライン遅延測定値において,ATDとEVSの相関が最も高かった。

Simultaneous translation is a task in which the translation begins before the end of an input speech segment. Its evaluation should be conducted based on latency in addition to quality, and for users, the smallest possible amount of latency is preferable. Most existing metrics measure latency based on the start timings of partial translations and ignore their duration. This means such metrics do not penalize the latency caused by long translation output, which delays the comprehension of users and subsequent translations. In this work, we propose a novel latency evaluation metric for simultaneous translation called \emph{Average Token Delay} (ATD) that focuses on the duration of partial translations. We demonstrate its effectiveness through analyses simulating user-side latency based on Ear-Voice Span (EVS). In our experiment, ATD had the highest correlation with EVS among baseline latency metrics under most conditions.
翻訳日:2023-11-28 11:52:25 公開日:2023-11-27
# テキスト画像検索に可視的関連バイアスをもたらすai生成画像

AI-Generated Images Introduce Invisible Relevance Bias to Text-Image Retrieval ( http://arxiv.org/abs/2311.14084v2 )

ライセンス: Link先を確認
Shicheng Xu, Danyang Hou, Liang Pang, Jingcheng Deng, Jun Xu, Huawei Shen, Xueqi Cheng(参考訳) 世代モデルの発展に伴い、AIGC(AI- generated content)がより現実的になり、インターネットが溢れている。 最近の研究は、この現象がウェブ検索のテキスト検索におけるソースバイアスの問題を増加させたことを示唆している。 具体的には、ニューラル検索モデルは、人間が書いたテキストよりも高いテキストをランク付けする傾向にある。 本稿では,このバイアスの研究をクロスモーダル検索に拡張する。 まず,バイアスの存在を調べるための適切なベンチマークの構築に成功しました。 このベンチマークのさらなる実験により、AI生成画像はテキスト画像検索モデルに目に見えない関連性バイアスをもたらすことが明らかになった。 具体的には,テキスト画像検索モデルが,実際の画像よりも視覚的に関連した特徴を提示していないにもかかわらず,実際の画像よりもai生成画像を上位にランク付けする傾向があることを示す。 この目に見えない関連性バイアスは、トレーニングデータやアーキテクチャの異なる検索モデルに共通している。 さらに, 検索モデルの学習データにai生成画像が組み込まれることにより, 可視性バイアスが悪化することが明らかとなった。 上記の現象は悪循環を引き起こし、目に見えない関連性バイアスがますます深刻になる。 見えない関連性の潜在的原因を解明し、上記の問題に対処するために、目に見えない関連性バイアスを緩和するための効果的なトレーニング手法を提案する。 次に,提案手法を適用して,視覚的関連性の原因を遡及的に同定し,AI生成画像が画像エンコーダを誘導し,その表現に付加情報を埋め込むことを示した。 この情報は、異なる意味を持つ生成された画像間で一定の一貫性を示し、レトリバーが高い関連性スコアを推定することができる。

With the advancement of generation models, AI-generated content (AIGC) is becoming more realistic, flooding the Internet. A recent study suggests that this phenomenon has elevated the issue of source bias in text retrieval for web searches. Specifically, neural retrieval models tend to rank generated texts higher than human-written texts. In this paper, we extend the study of this bias to cross-modal retrieval. Firstly, we successfully construct a suitable benchmark to explore the existence of the bias. Subsequent extensive experiments on this benchmark reveal that AI-generated images introduce an invisible relevance bias to text-image retrieval models. Specifically, our experiments show that text-image retrieval models tend to rank the AI-generated images higher than the real images, even though the AI-generated images do not exhibit more visually relevant features to the query than real images. This invisible relevance bias is prevalent across retrieval models with varying training data and architectures. Furthermore, our subsequent exploration reveals that the inclusion of AI-generated images in the training data of the retrieval models exacerbates the invisible relevance bias. The above phenomenon triggers a vicious cycle, which makes the invisible relevance bias become more and more serious. To elucidate the potential causes of invisible relevance and address the aforementioned issues, we introduce an effective training method aimed at alleviating the invisible relevance bias. Subsequently, we apply our proposed debiasing method to retroactively identify the causes of invisible relevance, revealing that the AI-generated images induce the image encoder to embed additional information into their representation. This information exhibits a certain consistency across generated images with different semantics and can make the retriever estimate a higher relevance score.
翻訳日:2023-11-28 11:52:12 公開日:2023-11-27
# VLC IoTネットワークのための機械学習に基づく分散TDMA

Machine learning-based decentralized TDMA for VLC IoT networks ( http://arxiv.org/abs/2311.14078v2 )

ライセンス: Link先を確認
Armin Makvandi, Yousef Seifi Kavian(参考訳) 本稿では,可視光通信(vlc)モノのインターネット(iot)ネットワークのための機械学習に基づく分散時分割多重アクセス(tdma)アルゴリズムを提案する。 提案アルゴリズムは強化学習アルゴリズムであるQ-learningに基づいている。 本稿では、同期フレームを送信し、他のノードに送信時間スロットを割り当てるコーディネータノードが存在しない分散状態を考える。 提案アルゴリズムは同期に分散的手法を用いており,各ノードはQ学習アルゴリズムを用いて衝突のないデータ送信に最適な送信時間スロットを求める。 提案アルゴリズムは,本研究所で設計・実装されたVLCハードウェアシステム上に実装されている。 評価パラメータは、平均報酬、収束時間、出力、平均遅延、データパケットサイズである。 その結果,提案アルゴリズムは高速に収束し,ネットワークに無衝突分散TDMAを提供することがわかった。 提案アルゴリズムは、分散VLC IoTネットワークの潜在的選択として、衝突回避によるキャリアセンス多重アクセス(CSMA/CA)アルゴリズムと比較する。 その結果,提案アルゴリズムはCSMA/CAよりも最大61%,平均遅延を最大49%低減できることがわかった。

In this paper, a machine learning-based decentralized time division multiple access (TDMA) algorithm for visible light communication (VLC) Internet of Things (IoT) networks is proposed. The proposed algorithm is based on Q-learning, a reinforcement learning algorithm. This paper considers a decentralized condition in which there is no coordinator node for sending synchronization frames and assigning transmission time slots to other nodes. The proposed algorithm uses a decentralized manner for synchronization, and each node uses the Q-learning algorithm to find the optimal transmission time slot for sending data without collisions. The proposed algorithm is implemented on a VLC hardware system, which had been designed and implemented in our laboratory. Average reward, convergence time, goodput, average delay, and data packet size are evaluated parameters. The results show that the proposed algorithm converges quickly and provides collision-free decentralized TDMA for the network. The proposed algorithm is compared with carrier-sense multiple access with collision avoidance (CSMA/CA) algorithm as a potential selection for decentralized VLC IoT networks. The results show that the proposed algorithm provides up to 61% more goodput and up to 49% less average delay than CSMA/CA.
翻訳日:2023-11-28 11:51:47 公開日:2023-11-27
# RankFeat&Rank Weight: Rank-1 Feature/Weight removal for Out-of-distriion Detection

RankFeat&RankWeight: Rank-1 Feature/Weight Removal for Out-of-distribution Detection ( http://arxiv.org/abs/2311.13959v2 )

ライセンス: Link先を確認
Yue Song, Nicu Sebe, Wei Wang(参考訳) out-of-distribution(ood)検出のタスクは、実際の環境で機械学習モデルをデプロイする上で非常に重要です。 本稿では,in-distribution (id) と ood の特徴の特異値分布がかなり異なることを観察する。 ood 特徴行列は id 特徴よりも支配的特異値が大きい傾向にあり,ood サンプルのクラス予測はそれらによって決定される。 この観察は、最大特異値と関連する特異ベクトルからなるランク1行列を高次特徴量から取り除き、OOD検出のための単純で効果的な \emph{post hoc} アプローチである \texttt{RankFeat} を提案する動機付けとなる。 texttt{RankFeat} は \emph{state-of-the-art} のパフォーマンスを達成し、以前のベストメソッドと比較して平均偽陽性率 (FPR95) を 17.90 % 削減する。 texttt{RankFeat} の成功は、ニューラルネットワークのパラメータ行列に同様の現象が存在するかどうかを調べる動機となる。 そこで我々は,1つの深層パラメータ行列からランク1重みを除去する‘texttt{RankWeight} を提案する。 我々の \texttt{RankWeight} もまた \emph{post hoc} であり、ランク1行列を一度だけ計算する必要がある。 スタンドアロンのアプローチとして、 \texttt{RankWeight} は様々なバックボーンにわたる他のメソッドと非常に競合するパフォーマンスを持つ。 さらに \texttt{RankWeight} は、幅広い OOD 検出方法との柔軟な互換性を享受しています。 texttt{rankweight} と \texttt{rankfeat} の組み合わせは、新しい \emph{state-of-the-art} のパフォーマンスをリフレッシュし、imagenet-1k ベンチマークで fpr95 を 16.13\% まで低くした。 実験結果を支持するために,広範囲なアブレーション研究と包括的理論解析を行った。

The task of out-of-distribution (OOD) detection is crucial for deploying machine learning models in real-world settings. In this paper, we observe that the singular value distributions of the in-distribution (ID) and OOD features are quite different: the OOD feature matrix tends to have a larger dominant singular value than the ID feature, and the class predictions of OOD samples are largely determined by it. This observation motivates us to propose \texttt{RankFeat}, a simple yet effective \emph{post hoc} approach for OOD detection by removing the rank-1 matrix composed of the largest singular value and the associated singular vectors from the high-level feature. \texttt{RankFeat} achieves \emph{state-of-the-art} performance and reduces the average false positive rate (FPR95) by 17.90\% compared with the previous best method. The success of \texttt{RankFeat} motivates us to investigate whether a similar phenomenon would exist in the parameter matrices of neural networks. We thus propose \texttt{RankWeight} which removes the rank-1 weight from the parameter matrices of a single deep layer. Our \texttt{RankWeight}is also \emph{post hoc} and only requires computing the rank-1 matrix once. As a standalone approach, \texttt{RankWeight} has very competitive performance against other methods across various backbones. Moreover, \texttt{RankWeight} enjoys flexible compatibility with a wide range of OOD detection methods. The combination of \texttt{RankWeight} and \texttt{RankFeat} refreshes the new \emph{state-of-the-art} performance, achieving the FPR95 as low as 16.13\% on the ImageNet-1k benchmark. Extensive ablation studies and comprehensive theoretical analyses are presented to support the empirical results.
翻訳日:2023-11-28 11:51:31 公開日:2023-11-27
# 教育蒸留:学生モデルを用いてシュクールで学ぶ

Education distillation:getting student models to learn in shcools ( http://arxiv.org/abs/2311.13811v2 )

ライセンス: Link先を確認
Ling Feng, Danyang Li, Tianhao Wu, Xuliang Duan(参考訳) 知識蒸留はモデル圧縮の方法の一つであり、既存の知識蒸留技術は蒸留効率を高めるために蒸留アルゴリズムを改善する方法に焦点を当てている。 本稿では,知識蒸留における動的漸進学習を導入し,教育蒸留のための蒸留戦略を提案する。 具体的には, 学生モデルの断片化を, 学生モデルから下位モデルへと分割することを提案する。 学級レベルが上がるにつれて、断片化された学生モデルはデザインされた教育基準層と共に深くなり、さらに多くの教師モデルから学び、蒸留する。 低学年から高学年への移行により、断片化された学生モデルは徐々に完全な対象の学生モデルに統合され、学生モデルの性能は段階の下位から上位へと徐々に向上した。 教育蒸留戦略と蒸留アルゴリズムの組み合わせは、公開データセットであるcifar100,caltech256,food-101データセットで単一蒸留アルゴリズムの結果を上回る。

Knowledge distillation is one of the methods for model compression, and existing knowledge distillation techniques focus on how to improve the distillation algorithm so as to enhance the distillation efficiency. This paper introduces dynamic incremental learning into knowledge distillation and proposes a distillation strategy for education distillation. Specifically, it is proposed to take fragmented student models divided from the complete student model as lower-grade models. As the grade level rises, fragmented student models deepen in conjunction with designed teaching reference layers, while learning and distilling from more teacher models. By moving from lower to higher grades, fragmented student models were gradually integrated into a complete target student model, and the performance of the student models gradually improved from lower to higher grades of the stage. Education distillation strategies combined with distillation algorithms outperform the results of single distillation algorithms on the public dataset CIFAR100,Caltech256, Food-101 dataset.
翻訳日:2023-11-28 11:50:17 公開日:2023-11-27
# 単一捕捉イオンを伴うボソニック系のlee-yang零点

Lee-Yang Zeros of a Bosonic system associated with a single trapped ion ( http://arxiv.org/abs/2311.13790v2 )

ライセンス: Link先を確認
Wenjie Shao, Yulian Chen, Ren-bao Liu, Yiheng Lin(参考訳) 分割関数の零点、特にlee-yang零点は、複素平面において位相遷移を理解する上で重要な情報を提供する。 中心量子系のコヒーレンスと複素平面における環境の分配関数との等価性に関する最近の発見は、スピン系に関するいくつかの先駆的な実験でLee-Yangゼロの実験的な研究を可能にした。 リー・ヤンゼロはボソニック系では観測されていない。 本稿では,スピンと運動の自由度の間の強い結合,すなわち弱結合ラム・ダイク状態を超えて,単一閉じ込めイオンに関連するボソニック系のリー・ヤン零点を実験的に示す手法を提案する。 我々のスキームは、複素平面におけるボソン系の熱力学の量子シミュレーションの新しい可能性を提供する。

Zeros of partition functions, in particular Lee-Yang zeros, in a complex plane provide important information for understanding phase transitions. A recent discovery on the equivalence between the coherence of a central quantum system and the partition function of the environment in the complex plane enabled the experimental study of Lee-Yang zeros, with several pioneering experiments on spin systems. Lee-Yang zeros have not been observed in Bosonic systems. Here we propose an experimental scheme to demonstrate Lee-Yang zeros in Bosonic systems associated with a single trapped ion by introducing strong coupling between the spin and motion degrees of freedom, i.e. beyond the weak coupling Lamb-Dicke regime. Our scheme provides new possibilities for quantum simulation of the thermodynamics of Bosonic systems in the complex plane.
翻訳日:2023-11-28 11:50:02 公開日:2023-11-27
# 身体運動のアーカイブ:中国書道の集合的生成

Archiving Body Movements: Collective Generation of Chinese Calligraphy ( http://arxiv.org/abs/2311.13770v2 )

ライセンス: Link先を確認
Aven Le Zhou, Jiayi Ye, Tianchen Liu, Kang Zhang(参考訳) コミュニケーションチャネルとして、身体運動は行動研究やキネシクスで広く研究されている。 演技と視覚芸術は同じ関心を持っているが、ダンス表記や視覚作品の作成など、人間の身体運動の文書化と表現に焦点を当てている。 本稿では,東洋書道における身体運動と,身体運動を刺激し,アーカイブする書道原理について検討する。 作品(ウーシュ)を通して,著者らは,生成した書道の要約として,身体的参加や身体運動のアーカイブを行うための対話的かつ生成的なアプローチを試した。 読者は作家と読者の両方の役割を引き受け、文字や書道に関するさらなる注意と議論の動機となる無限の「本」の中で、生成した書を創造し、鑑賞する(読む)ことは循環的なプロセスとなる。

As a communication channel, body movements have been widely explored in behavioral studies and kinesics. Performing and visual arts share the same interests but focus on documenting and representing human body movements, such as for dance notation and visual work creation. This paper investigates body movements in oriental calligraphy and how to apply calligraphy principles to stimulate and archive body movements. Through an artwork (Wushu), the authors experiment with an interactive and generative approach to engage the audience's bodily participation and archive the body movements as a compendium of generated calligraphy. The audience assumes the role of both writers and readers; creating ("writing") and appreciating ("reading") the generated calligraphy becomes a cyclical process within this infinite "Book," which can motivate further attention and discussions concerning Chinese characters and calligraphy.
翻訳日:2023-11-28 11:49:46 公開日:2023-11-27
# 連続乱数変数の右翼確率に基づく上下境界の新しいタイプ

A New Type Of Upper And Lower Bounds On Right-Tail Probabilities Of Continuous Random Variables ( http://arxiv.org/abs/2311.12612v3 )

ライセンス: Link先を確認
Nikola Zlatanov(参考訳) 本稿では,非有界支持と半有界支持を持つ連続確率変数の右尾確率に対して,左からの半有界支持と全く新しい上下有界分布を示す。 提示される右辺と下辺の境界は、確率密度関数(PDF)、その第一微分、および境界を締め付けるために使用される2つのパラメータにのみ依存する。 これらのテール境界は、PDF、その第1および第2微分、および2つのパラメータに依存する特定の条件の下で保持される。 新しいテール境界は、数値的な例を通して、幅広い連続確率変数に対して厳密であることが示されている。

In this paper, I present a completely new type of upper and lower bounds on the right-tail probabilities of continuous random variables with unbounded support and with semi-bounded support from the left. The presented upper and lower right-tail bounds depend only on the probability density function (PDF), its first derivative, and two parameters that are used for tightening the bounds. These tail bounds hold under certain conditions that depend on the PDF, its first and second derivatives, and the two parameters. The new tail bounds are shown to be tight for a wide range of continuous random variables via numerical examples.
翻訳日:2023-11-28 11:49:31 公開日:2023-11-27
# 大規模基礎モデルの自律運転への適用

Applications of Large Scale Foundation Models for Autonomous Driving ( http://arxiv.org/abs/2311.12144v4 )

ライセンス: Link先を確認
Yu Huang, Yue Chen, Zhu Li(参考訳) 2004/05年のDARPA Grand Challenges、2007年のUrban Challenges以来、自動運転はAIアプリケーションの最も活発な分野となっている。 近年,大規模言語モデル (LLM) を基盤として,チャットGPT や PaLM などのチャットシステムが出現し,自然言語処理 (NLP) において人工知能 (AGI) を実現するための有望な方向となった。 自動運転の改革にこれらの能力を使うことは自然な考えだ。 llmを基礎モデルと組み合わせることで、人間の知識、常識、推論を利用して、現在のロングテールのaiジレンマから自動運転システムを再構築することができる。 本稿では、シミュレーション、世界モデル、データアノテーションと計画、E2Eソリューションなどに分類される、自動運転に応用された基礎モデルとLLMの技術について検討する。

Since DARPA Grand Challenges (rural) in 2004/05 and Urban Challenges in 2007, autonomous driving has been the most active field of AI applications. Recently powered by large language models (LLMs), chat systems, such as chatGPT and PaLM, emerge and rapidly become a promising direction to achieve artificial general intelligence (AGI) in natural language processing (NLP). There comes a natural thinking that we could employ these abilities to reformulate autonomous driving. By combining LLM with foundation models, it is possible to utilize the human knowledge, commonsense and reasoning to rebuild autonomous driving systems from the current long-tailed AI dilemma. In this paper, we investigate the techniques of foundation models and LLMs applied for autonomous driving, categorized as simulation, world model, data annotation and planning or E2E solutions etc.
翻訳日:2023-11-28 11:49:19 公開日:2023-11-27
# 超解法の再定義:古典的シミュレーションを伴わないPDE予測

Redefining Super-Resolution: Fine-mesh PDE predictions without classical simulations ( http://arxiv.org/abs/2311.09740v3 )

ライセンス: Link先を確認
Rajat Kumar Sarkar, Ritam Majumdar, Vishal Jadhav, Sagar Srinivas Sakhinana, Venkataramana Runkana(参考訳) 計算流体力学(CFD)では、粗いメッシュシミュレーションは計算効率を提供するが、精度は低いことが多い。 これらのシミュレーションに従来の超解像を適用することは、高分解能画像のダウンサンプリングと低分解能物理のオーステンシャルエミュレーションの基本的なコントラストのために大きな課題となる。 前者の手法は、現実のシナリオの通常の制約を超越して、基礎となる物理学をより保存する。 PDEに基づく問題に適した超解像の新たな定義を提案する。 高解像度データセットから単純にサンプリングする代わりに、粗いグリッドシミュレーションデータを入力として使用し、細粒度シミュレーション結果を予測する。 物理拡散型UNetアップスケーリング法を用いて,バーガー方程式の不連続検出,メタン燃焼,産業熱交換器のファウリングなど,様々な2次元CFD問題に対して有効性を示す。 提案手法は,従来のシミュレーションを通過させることで,基礎となる真理結果に対する計算的保存と忠実性の確保を可能にする。 トレーニング中の境界条件の多様さにより,本手法の堅牢性をさらに確立し,工学および科学的CFD解法における幅広い応用の道を開く。

In Computational Fluid Dynamics (CFD), coarse mesh simulations offer computational efficiency but often lack precision. Applying conventional super-resolution to these simulations poses a significant challenge due to the fundamental contrast between downsampling high-resolution images and authentically emulating low-resolution physics. The former method conserves more of the underlying physics, surpassing the usual constraints of real-world scenarios. We propose a novel definition of super-resolution tailored for PDE-based problems. Instead of simply downsampling from a high-resolution dataset, we use coarse-grid simulated data as our input and predict fine-grid simulated outcomes. Employing a physics-infused UNet upscaling method, we demonstrate its efficacy across various 2D-CFD problems such as discontinuity detection in Burger's equation, Methane combustion, and fouling in Industrial heat exchangers. Our method enables the generation of fine-mesh solutions bypassing traditional simulation, ensuring considerable computational saving and fidelity to the original ground truth outcomes. Through diverse boundary conditions during training, we further establish the robustness of our method, paving the way for its broad applications in engineering and scientific CFD solvers.
翻訳日:2023-11-28 11:49:03 公開日:2023-11-27
# PACuna: 粒子加速器のための言語モデルの自動調整

PACuna: Automated Fine-Tuning of Language Models for Particle Accelerators ( http://arxiv.org/abs/2310.19106v3 )

ライセンス: Link先を確認
Antonin Sulc, Raimund Kammering, Annika Eichler, Tim Wilksen(参考訳) 粒子加速器の展望のナビゲートは、近年の貢献の急増とともにますます困難になっている。 これらの複雑なデバイスは、個々の施設内でさえ、理解に挑戦する。 カンファレンスやプレプリント,書籍など,公開されているアクセラレーションリソースを通じて洗練された,微調整された言語モデルであるpacunaを紹介する。 専門家の関与を最小限に抑え、データを公開できるように、データ収集と質問生成を自動化する。 PACunaは、専門家によって検証された複雑なアクセラレーター問題に対処する能力を示す。 提案手法は, 専門文献を微調整し, 自動生成コーパスを抽出することにより, 市販のアシスタントが個々の施設のインテリジェントアシスタントとして機能し得ない, 複雑な質問に答えるために, 事前学習されたモデルをさらに作成できることを示す。

Navigating the landscape of particle accelerators has become increasingly challenging with recent surges in contributions. These intricate devices challenge comprehension, even within individual facilities. To address this, we introduce PACuna, a fine-tuned language model refined through publicly available accelerator resources like conferences, pre-prints, and books. We automated data collection and question generation to minimize expert involvement and make the data publicly available. PACuna demonstrates proficiency in addressing intricate accelerator questions, validated by experts. Our approach shows adapting language models to scientific domains by fine-tuning technical texts and auto-generated corpora capturing the latest developments can further produce pre-trained models to answer some intricate questions that commercially available assistants cannot and can serve as intelligent assistants for individual facilities.
翻訳日:2023-11-28 11:48:42 公開日:2023-11-27
# 時空間映像の高分解能化のためのスケール適応型特徴集約

Scale-Adaptive Feature Aggregation for Efficient Space-Time Video Super-Resolution ( http://arxiv.org/abs/2310.17294v3 )

ライセンス: Link先を確認
Zhewei Huang, Ailin Huang, Xiaotao Hu, Chen Hu, Jun Xu, Shuchang Zhou(参考訳) Space-Time Video Super-Resolution (STVSR)タスクは、ビデオフレーム補間(VFI)とビデオ超解像(VSR)を同時に行うことで、ビデオの視覚的品質を高めることを目的としている。 しかし、追加の時間次元とスケールの不整合の課題に直面し、既存のSTVSR法の多くは、異なる動き振幅を動的にモデル化する際に複雑で非柔軟である。 本研究では,適切な処理スケールを選択することで,フローに基づく機能伝達において顕著なメリットが得られることを示す。 本稿では,個々のサンプルに対して異なる処理スケールのサブネットワークを適応的に選択する,SAFA(Scale-Adaptive Feature Aggregation)ネットワークを提案する。 4つの公開STVSRベンチマークの実験は、SAFAが最先端のパフォーマンスを達成することを示した。 我々のSAFAネットワークは,PSNRにおける平均0.5dB以上の改善により,TMNetやVideoINRといった最近の最先端手法よりも優れており,パラメータの半数未満と計算コストは1/3に満たない。

The Space-Time Video Super-Resolution (STVSR) task aims to enhance the visual quality of videos, by simultaneously performing video frame interpolation (VFI) and video super-resolution (VSR). However, facing the challenge of the additional temporal dimension and scale inconsistency, most existing STVSR methods are complex and inflexible in dynamically modeling different motion amplitudes. In this work, we find that choosing an appropriate processing scale achieves remarkable benefits in flow-based feature propagation. We propose a novel Scale-Adaptive Feature Aggregation (SAFA) network that adaptively selects sub-networks with different processing scales for individual samples. Experiments on four public STVSR benchmarks demonstrate that SAFA achieves state-of-the-art performance. Our SAFA network outperforms recent state-of-the-art methods such as TMNet and VideoINR by an average improvement of over 0.5dB on PSNR, while requiring less than half the number of parameters and only 1/3 computational costs.
翻訳日:2023-11-28 11:48:26 公開日:2023-11-27
# プロンプトベースのテスト時間実画像デハジング:新しいパイプライン

Prompt-based test-time real image dehazing: a novel pipeline ( http://arxiv.org/abs/2309.17389v4 )

ライセンス: Link先を確認
Zixuan Chen, Zewei He, Ziqian Lu, Xuecheng Sun, Zhe-Ming Lu(参考訳) 既存の手法は、よく設計されたトレーニングスキーム(例えば、CycleGAN、事前損失)を探索することで、実世界のハジー画像におけるモデルの一般化能力を向上しようとする。 しかし、そのほとんどは満足な結果を得るために非常に複雑な訓練手順が必要である。 そこで本研究では,提案手法を用いたプロンプトベーステストタイムデハジング(pttd)と呼ばれる全く新しいテストパイプラインを提案する。 PTTDは、合成データに基づいて訓練された復調モデルを用いて、符号化機能の統計(平均偏差と標準偏差)を微調整することにより、領域ギャップを狭め、実画像の復調性能を高めることができることを実験的に見出した。 そこで我々はまず,平均および標準偏差に対する適切な統計的摂動の源である視覚的プロンプトを生成するために,プロンプト生成モジュール(PGM)を適用した。 そして,既存のデハージングモデルに特徴適応モジュール(FAM)を用いて,生成したプロンプトのガイダンスを用いて,元の統計量を調整する。 なお、PTTDはモデル非依存であり、合成ヘイズクリーンペアで訓練された様々な最先端の脱ハージングモデルを備えることができる。 PTTDは現実のシナリオにおける最先端の脱ハージング手法に対して優れた性能を達成可能であることを示す。 PTTDのソースコードはhttps://github.com/cecret3350/PTTD-Dehazing.comで公開されます。

Existing methods attempt to improve models' generalization ability on real-world hazy images by exploring well-designed training schemes (e.g., CycleGAN, prior loss). However, most of them need very complicated training procedures to achieve satisfactory results. In this work, we present a totally novel testing pipeline called Prompt-based Test-Time Dehazing (PTTD) to help generate visually pleasing results of real-captured hazy images during the inference phase. We experimentally find that given a dehazing model trained on synthetic data, by fine-tuning the statistics (i.e., mean and standard deviation) of encoding features, PTTD is able to narrow the domain gap, boosting the performance of real image dehazing. Accordingly, we first apply a prompt generation module (PGM) to generate a visual prompt, which is the source of appropriate statistical perturbations for mean and standard deviation. And then, we employ the feature adaptation module (FAM) into the existing dehazing models for adjusting the original statistics with the guidance of the generated prompt. Note that, PTTD is model-agnostic and can be equipped with various state-of-the-art dehazing models trained on synthetic hazy-clean pairs. Extensive experimental results demonstrate that our PTTD is flexible meanwhile achieves superior performance against state-of-the-art dehazing methods in real-world scenarios. The source code of our PTTD will be made available at https://github.com/cecret3350/PTTD-Dehazing.
翻訳日:2023-11-28 11:48:06 公開日:2023-11-27