このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231121となっている論文です。

PDF登録状況(公開日: 20231121)

TitleAuthorsAbstract論文公表日・翻訳日
# 保証のための設計:3PIPにおけるハードウェアトロイジャンの脅威回避のための機能検証ツールの利用

Design for Assurance: Employing Functional Verification Tools for Thwarting Hardware Trojan Threat in 3PIPs ( http://arxiv.org/abs/2311.12321v1 )

ライセンス: Link先を確認
Wei Hu, Beibei Li, Lingjuan Wu, Yiwei Li, Xuefei Li, Liang Hong, (参考訳) サードパーティの知的財産コアは、現代のシステムオンチップと集積回路の設計において必須の構成要素である。 しかしながら、これらの設計コンポーネントは通常、異なる信頼レベルを持つベンダーから来ており、文書化されていない設計機能を含んでいる可能性がある。 このようなステルスな軽量な悪質なデザイン変更を廃止することは、黄金の基準が欠如しているため、難しい作業になる可能性がある。 本研究では,ハードウェア設計者になじみのある機能検証ツールや言語を用いて,ハードウェアトロイの木馬を識別・防止する手法を開発することにより,保証のための設計を進める。 我々は、フィールドプログラマブルゲートアレイ技術ライブラリにマップされた合成設計ネットリストを廃棄し、特異な信号や細胞を特定するために、ルックアップテーブル(LUT)の粒度でのカバレッジ解析を行う。 スイッチングやカバレッジに関連するプロパティを自動的に抽出し,正式に証明することで,Trojanのトリガ条件の取得を可能にします。 さらに、確認された悪意のあるLUTを再構成することで、トロイの木馬の活性化を防ぐソリューションを提供する。 実験の結果,Trust-Hubの検出と緩和が可能であり,最近報告されたトロイの木馬は気にしていないことがわかった。

Third-party intellectual property cores are essential building blocks of modern system-on-chip and integrated circuit designs. However, these design components usually come from vendors of different trust levels and may contain undocumented design functionality. Distinguishing such stealthy lightweight malicious design modification can be a challenging task due to the lack of a golden reference. In this work, we make a step towards design for assurance by developing a method for identifying and preventing hardware Trojans, employing functional verification tools and languages familiar to hardware designers. We dump synthesized design netlist mapped to a field programmable gate array technology library and perform switching as well as coverage analysis at the granularity of look-up-tables (LUTs) in order to identify specious signals and cells. We automatically extract and formally prove properties related to switching and coverage, which allows us to retrieve Trojan trigger condition. We further provide a solution to preventing Trojan from activation by reconfiguring the confirmed malicious LUTs. Experimental results have demonstrated that our method can detect and mitigate Trust-Hub as well as recently reported don't care Trojans.
翻訳日:2024-03-25 13:26:22 公開日:2023-11-21
# 複数レベル特徴注意ネットワークを用いた事前学習型言語モデルによる悪質URL検出

Malicious URL Detection via Pretrained Language Model Guided Multi-Level Feature Attention Network ( http://arxiv.org/abs/2311.12372v1 )

ライセンス: Link先を確認
Ruitong Liu, Yanbin Wang, Haitao Xu, Zhan Qin, Yiwei Liu, Zheng Cao, (参考訳) インターネットの普及は情報検索法に革命をもたらした。 しかし、このトランスフォーメーションは重要なサイバーセキュリティの課題も生み出した。悪意のあるURLが急速に急増し、幅広いサイバー脅威のエントリポイントとして機能する。 本研究では,悪質なURL検出のための学習前モデルに基づく効率的なフレームワークを提案する。 サブワードと文字認識事前学習モデルCharBERTを基盤として,階層的特徴抽出,層認識,空間的ピラミッドプールという3つの重要なモジュールを開発した。 階層的な特徴抽出モジュールはピラミッドの特徴学習の原則に従い、CharBERTの異なるトランスフォーマー層から多層URLの埋め込みを抽出する。 その後、層認識アテンションモジュールは、様々な階層レベルで特徴間の接続を自律的に学習し、各特徴レベルに様々な重み係数を割り当てる。 最後に、空間ピラミッドプーリングモジュールは、重み付けされた多層特徴ピラミッド上でマルチスケールのダウンサンプリングを行い、局所的な特徴の捕捉とグローバルな特徴の集約を達成する。 提案手法は複数の公開データセットに対して広範囲に検証され,従来の最先端手法と比較して,最大精度ギャップが8.43%に達するなど,先行処理よりも大幅に改善されている。 さらに,クロスデータセット評価や敵攻撃といったシナリオにおいて,モデルの一般化とロバスト性を評価した。 最後に,アクティブフィッシングURLについて実世界のケーススタディを行った。

The widespread use of the Internet has revolutionized information retrieval methods. However, this transformation has also given rise to a significant cybersecurity challenge: the rapid proliferation of malicious URLs, which serve as entry points for a wide range of cyber threats. In this study, we present an efficient pre-training model-based framework for malicious URL detection. Leveraging the subword and character-aware pre-trained model, CharBERT, as our foundation, we further develop three key modules: hierarchical feature extraction, layer-aware attention, and spatial pyramid pooling. The hierarchical feature extraction module follows the pyramid feature learning principle, extracting multi-level URL embeddings from the different Transformer layers of CharBERT. Subsequently, the layer-aware attention module autonomously learns connections among features at various hierarchical levels and allocates varying weight coefficients to each level of features. Finally, the spatial pyramid pooling module performs multiscale downsampling on the weighted multi-level feature pyramid, achieving the capture of local features as well as the aggregation of global features. The proposed method has been extensively validated on multiple public datasets, demonstrating a significant improvement over prior works, with the maximum accuracy gap reaching 8.43% compared to the previous state-of-the-art method. Additionally, we have assessed the model's generalization and robustness in scenarios such as cross-dataset evaluation and adversarial attacks. Finally, we conducted real-world case studies on the active phishing URLs.
翻訳日:2024-03-25 13:26:22 公開日:2023-11-21
# Hyena: プライベートCNN推論のための同型暗号化コンボリューションの最適化

Hyena: Optimizing Homomorphically Encrypted Convolution for Private CNN Inference ( http://arxiv.org/abs/2311.12519v1 )

ライセンス: Link先を確認
Hyeri Roh, Woo-Seok Choi, (参考訳) 畳み込み層を処理することは、大規模なデータセットに対するプライベートディープ畳み込みニューラルネットワーク(CNN)の推論において、依然として大きなボトルネックとなっている。 そこで本稿では, 高速化, 通信コスト, ストレージを節約できる新しい同型畳み込みアルゴリズムを提案する。 最初に、パッドド・コンボリューションはモデルストレージの利点を提供するが、チャネルパッキングをサポートせず、計算量や通信量が増加することに留意する。 本稿では,Walsh-Hadamard行列を用いた新しい平文乗算アルゴリズムを提案する。 さらに、最適な暗号化パラメータを選択し、遅延削減を適用することにより、提案する畳み込みの遅延を著しく低減する最適化手法を提案する。 1.6-3.8倍のスピードアップを達成し、従来の畳み込みに比べて2000-8000倍の重量貯蔵を実現する。 ImageNet上のVGG-16、ResNet-20、MobileNetV1などのCNNで提案された畳み込みは、エンドツーエンドのレイテンシを1.3-2.6x、メモリ使用率を2.1-7.9x、通信コストを1.7-2.0x削減する。

Processing convolution layers remains a huge bottleneck for private deep convolutional neural network (CNN) inference for large datasets. To solve this issue, this paper presents a novel homomorphic convolution algorithm that provides speedup, communication cost, and storage saving. We first note that padded convolution provides the advantage of model storage saving, but it does not support channel packing, thereby increasing the amount of computation and communication. We address this limitation by proposing a novel plaintext multiplication algorithm using the Walsh-Hadamard matrix. Furthermore, we propose the optimization techniques to significantly reduce the latency of the proposed convolution by selecting the optimal encryption parameters and applying lazy reduction. It achieves 1.6-3.8x speedup and reduces the weight storage by 2000-8000x compared to the conventional convolution. When the proposed convolution is employed for CNNs like VGG-16, ResNet-20, and MobileNetV1 on ImageNet, it reduces the end-to-end latency by 1.3-2.6x, the memory usage by 2.1-7.9x and communication cost by 1.7-2.0x compared to conventional method.
翻訳日:2024-03-25 13:26:22 公開日:2023-11-21
# D-GATE:分散型測地と利用制御のための時間強化

D-GATE: Decentralized Geolocation and Time Enforcement for Usage Control ( http://arxiv.org/abs/2311.12647v1 )

ライセンス: Link先を確認
Hendrik Meyer zum Felde, Jean-Luc Reding, Michael Lux, (参考訳) クラウド環境のコンテキストにおいて、データプロバイダは、自身のITインフラストラクチャ上でさらなるコンピューティングを可能にするために、データをデータコンシューマに委譲する。 利用制御対策により、データプロバイダは、データコンシューマのシステム上でも、データの使用を制限することができる。 これらの制限のうちの2つは、地理的な位置と時間的制限である。 このような制約を強制するために使用できる現在の解は、容易に操作できる。 これらには、システム時間、組織合意、GPSベースの技術、あるいは既知の参照サーバまでの距離を推定するための単純な遅延測定に基づくソリューションが含まれる。 D-GATEでは、信頼性の高い実行環境を利用し、参照ノードの分散メッシュであるGeoClientsに依存した信頼性の高いソリューションを提案する。 ここでは、参加者が互いに最も低いネットワーク遅延を定期的に測定し、自らを位置決めする。 したがって、データプロバイダは、集中的な参照システムに依存することなく、時間と位置情報の制約による利用制御を技術的に検証することが可能である。

In the context of cloud environments, data providers entrust their data to data consumers in order to allow further computing on their own IT infrastructure. Usage control measures allow the data provider to restrict the usage of its data even on the data consumer's system. Two of these restrictions can be the geographic location and time limitations. Current solutions that could be used to enforce such constraints can be easily manipulated. These include solutions based on the system time, organizational agreements, GPS-based techniques or simple delay measurements to derive the distance to known reference servers. With D-GATE, we propose a reliable solution that uses trusted execution environments and relies on a decentralized mesh of reference nodes, so-called GeoClients. Here, participants periodically measure the lowest network delay to each other to geolocate themselves. For data providers, it is thus possible to technically attest usage control with time and geolocation constraints without depending on centralized reference systems.
翻訳日:2024-03-25 13:16:38 公開日:2023-11-21
# 実践的なコード投票のための短い投票コード

Short Voting Codes For Practical Code Voting ( http://arxiv.org/abs/2311.12710v1 )

ライセンス: Link先を確認
Florian Moser, (参考訳) 不信任投票装置における投票者の秘密を守るために,短時間の投票コードの使用を提案する。 これにより、投票者が複数の投票選択を選択できたとしても、投票コードは実用的である。 セットアップと投票フェーズの両方で複雑な暗号を回避し、標準暗号プリミティブにのみ依存するプロトコルにこのメカニズムを組み込む。 セットアップを信頼し、複数のサーバコンポーネントのうちの1つとして、投票秘密、キャスト・アズ・ア・キャスト、集計・アズ・ア・レコーダ、信頼性、普遍的検証を提供する。

To preserve voter secrecy on untrusted voter devices we propose to use short voting codes. This ensures voting codes remain practical even if the voter is able to select multiple voting choices. We embed the mechanism in a protocol that avoids complex cryptography in both the setup and the voting phase and relies only on standard cryptographic primitives. Trusting the setup, and one out of multiple server components, the protocol provides vote secrecy, cast-as-intended, recorded-as-cast, tallied-as-recorded, eligibility and universal verifiability.
翻訳日:2024-03-25 13:16:38 公開日:2023-11-21
# 非線形性を復号する:クープマン解釈と暗号系の解析

Decrypting Nonlinearity: Koopman Interpretation and Analysis of Cryptosystems ( http://arxiv.org/abs/2311.12714v1 )

ライセンス: Link先を確認
Robin Strässer, Sebastian Schlor, Frank Allgöwer, (参考訳) 公開鍵暗号系は、伝統的に数論法を用いて解析される、計算的に難しいセキュリティ問題に頼っている。 本稿では,Diffie-Hellman鍵交換系とRivest-Shamir-Adleman暗号系を非線形力学系として見ることによって,暗号系に対する新たな視点を紹介する。 クープマン理論を適用することで、これらの力学系を高次元空間に変換し、解析的に同値な純粋線型系を導出する。 この定式化により、線形システム解析に利用可能なツールを活用し、簡単な操作によって暗号システムの秘密整数を再構築することができる。 さらに、完全精度を達成するために必要な最小昇降寸法の上限を確立する。 必要な昇降寸法はブルートフォース攻撃の難易度と一致した。 提案手法の可能性を実証するため,アルゴリズムの複雑さに関する知見と既存の結果との関連性を確立する。 さらに、この方法論をデータ駆動コンテキストに拡張し、暗号システムのデータサンプルからクープマン表現を学習する。

Public-key cryptosystems rely on computationally difficult problems for security, traditionally analyzed using number theory methods. In this paper, we introduce a novel perspective on cryptosystems by viewing the Diffie-Hellman key exchange and the Rivest-Shamir-Adleman cryptosystem as nonlinear dynamical systems. By applying Koopman theory, we transform these dynamical systems into higher-dimensional spaces and analytically derive equivalent purely linear systems. This formulation allows us to reconstruct the secret integers of the cryptosystems through straightforward manipulations, leveraging the tools available for linear systems analysis. Additionally, we establish an upper bound on the minimum lifting dimension required to achieve perfect accuracy. Our results on the required lifting dimension are in line with the intractability of brute-force attacks. To showcase the potential of our approach, we establish connections between our findings and existing results on algorithmic complexity. Furthermore, we extend this methodology to a data-driven context, where the Koopman representation is learned from data samples of the cryptosystems.
翻訳日:2024-03-25 13:16:38 公開日:2023-11-21
# 現代ペンテストの新たな課題

Towards new challenges of modern Pentest ( http://arxiv.org/abs/2311.12952v1 )

ライセンス: Link先を確認
Daniel Dalalana Bertoglio, Arthur Gil, Juan Acosta, Julia Godoy, Roben Castagna Lunardi, Avelino Francisco Zorzo, (参考訳) インターネットベースのリソースやアプリケーションの増加に伴い、企業による攻撃の数はここ数年で大幅に増加した。 同様に、セキュリティをテストし、攻撃をエミュレートするテクニックは継続的に改善され、結果として攻撃を緩和する必要があります。 これらの技術の中で、浸透試験(Pentest)は、特定のシナリオに適用されるさまざまなツールや方法論を使用して、資産のセキュリティ姿勢を評価する方法を提供する。 そこで本研究では,Pentestに適用される方法論,ツール,潜在的な課題について,最新の体系的な文献レビューから紹介することを目的としている。 結果として、この研究は、浸透テストが行われるシナリオについて、新たな視点を提供する。 また、技術自動化、攻撃的セキュリティに関連するコストの管理、Pentestを行う資格のある専門家を雇うことの難しさなど、新たな課題も提示する。

With the increasing number of internet-based resources and applications, the amount of attacks faced by companies has increased significantly in the past years. Likewise, the techniques to test security and emulate attacks need to be constantly improved and, as a consequence, help to mitigate attacks. Among these techniques, penetration test (Pentest) provides methods to assess the security posture of assets, using different tools and methodologies applied in specific scenarios. Therefore, this study aims to present current methodologies, tools, and potential challenges applied to Pentest from an updated systematic literature review. As a result, this work provides a new perspective on the scenarios where penetration tests are performed. Also, it presents new challenges such as automation of techniques, management of costs associated with offensive security, and the difficulty in hiring qualified professionals to perform Pentest.
翻訳日:2024-03-25 13:16:38 公開日:2023-11-21
# 投票は本当に秘密か? 投票の秘密:必要な条件の証明とケーススタディの分析

Is your vote truly secret? Ballot Secrecy iff Ballot Independence: Proving necessary conditions and analysing case studies ( http://arxiv.org/abs/2311.12977v1 )

ライセンス: Link先を確認
Aida Manzano Kharman, Ben Smyth, Freddie Page, (参考訳) 我々は、Smyth, JCS'21による投票秘密と投票独立の定義を、セキュリティの計算モデルにおける識別不能ゲームとして定式化する。 これらの定義は、より広範な投票体系を検討するための '21 の草案である Smyth により改善された。 Smyth, JCS'21 と Smyth はどちらも'21 を、より現実的な反対モデルとして、投票コレクションへのアクセスを考慮し、以前の作品に改良を加えた。 我々は投票の秘密が投票の独立を意味することを証明している。 システムに不適合な投票がある場合、投票独立が成立する。 我々は,投票の秘密化と非可逆性のためのゲームを構築し,可換投票を用いた投票方式は投票の秘密化を保たないことを示す。 我々はHeliosが我々の投票秘密の定義を満たさないことを示した。 さらに、我々がケーススタディのために構築したPythonフレームワークは、非可逆性に対する攻撃が存在する場合、この攻撃は投票の秘密を破るために使用できることを示している。

We formalise definitions of ballot secrecy and ballot independence by Smyth, JCS'21 as indistinguishability games in the computational model of security. These definitions improve upon Smyth, draft '21 to consider a wider class of voting systems. Both Smyth, JCS'21 and Smyth, draft '21 improve on earlier works by considering a more realistic adversary model wherein they have access to the ballot collection. We prove that ballot secrecy implies ballot independence. We say ballot independence holds if a system has non-malleable ballots. We construct games for ballot secrecy and non-malleability and show that voting schemes with malleable ballots do not preserve ballot secrecy. We demonstrate that Helios does not satisfy our definition of ballot secrecy. Furthermore, the Python framework we constructed for our case study shows that if an attack exists against non-malleability, this attack can be used to break ballot secrecy.
翻訳日:2024-03-25 13:16:38 公開日:2023-11-21
# zkTax:ゼロ知識税の開示をサポートする実践的な方法

zkTax: A pragmatic way to support zero-knowledge tax disclosures ( http://arxiv.org/abs/2311.13008v1 )

ライセンス: Link先を確認
Alex Berke, Tobin South, Robert Mahari, Kent Larson, Alex Pentland, (参考訳) 公務員は透明性のために財務データを共有するよう求められ、企業はビジネスパートナーの財務状況を評価し、個人は家主に収入を証明したり、利益を得る必要がある。 税額申告書には、プライバシーを損なうような機密データも含まれている。 我々は,ゼロ知識税開示システム(zkTax)を導入し,個人や組織が,第三者が独自に検証可能な追加情報を公開することなく,税額申告書に選択情報に関する証明可能な主張を行えるようにした。 このシステムは3つの異なるサービスで構成されており、税務当局が公開鍵で署名された税務文書を提供する。Redact & Prove Serviceは、ユーザーが修正されたデータの証明を証明したゼロ知識証明で税務文書の修正版を作成できるようにする。 我々は、米国の税制形態と互換性のあるユーザーインターフェースを備えたプロトタイプを実装し、既存の税制インフラに最小限の変更を加えることで、この設計をどのように実装できるかを実証する。 私たちのシステムは、他の文脈や管轄区域に拡張できるように設計されています。 この研究は、暗号を利用した分散ツールが、既存の政府や金融インフラを強化し、システムのオーバーホールなしに、プライバシと同時に即時に透明性を提供する実践的な例を提供する。

Tax returns contain key financial information of interest to third parties: public officials are asked to share financial data for transparency, companies seek to assess the financial status of business partners, and individuals need to prove their income to landlords or to receive benefits. Tax returns also contain sensitive data such that sharing them in their entirety undermines privacy. We introduce a zero-knowledge tax disclosure system (zkTax) that allows individuals and organizations to make provable claims about select information in their tax returns without revealing additional information, which can be independently verified by third parties. The system consists of three 3distinct services that can be distributed: a tax authority provides tax documents signed with a public key; a Redact & Prove Service enables users to produce a redacted version of the tax documents with a zero-knowledge proof attesting the provenance of the redacted data; a Verify Service enables anyone to verify the proof. We implement a prototype with a user interface, compatible with U.S. tax forms, and demonstrate how this design could be implemented with minimal changes to existing tax infrastructure. Our system is designed to be extensible to other contexts and jurisdictions. This work provides a practical example of how distributed tools leveraging cryptography can enhance existing government or financial infrastructures, providing immediate transparency alongside privacy without system overhauls.
翻訳日:2024-03-25 13:16:38 公開日:2023-11-21
# Dazed & Confused: reCAPTCHAv2の大規模実世界のユーザスタディ

Dazed & Confused: A Large-Scale Real-World User Study of reCAPTCHAv2 ( http://arxiv.org/abs/2311.10911v2 )

ライセンス: Link先を確認
Andrew Searles, Renascence Tarafder Prapty, Gene Tsudik, (参考訳) 2003年ごろから、カプチャはボットに対する障壁として広く使われてきたが、同時に世界中の多くのユーザーを悩ませている。 彼らの使用が進むにつれて、カプチャを倒したり、バイパスする技術は改善され続け、カプチャ自体は洗練と多様性の観点から進化し、ボットと人間の両方にとって解決がますます困難になった。 この長く続く軍備競争を考えると、現代のカプチャのユーザビリティ、パフォーマンスの解決、およびユーザ認識を調査することが重要である。 この研究では、大規模な(3,600以上の異なるユーザ)13ヶ月の現実世界のユーザ調査とポストスタディ調査を通じて実施しています。 大規模な公立大学で実施されたこの研究は、現在広く使われているCaptchaタイプであるreCAPTCHAv2のアカウント作成とパスワード回復サービスに基づいていた。 結果は、より多くの試みによって、ユーザーがチェックボックスの課題を解決することを改善することを示している。 Webサイト開発者とユーザスタディデザイナにとって、結果は、Webサイトコンテキストがパスワード回復とアカウント作成の間の解決時間に直接(統計的に大きな違いのある)影響を与えていることを示している。 参加者の主観的・教育的レベルの影響を考察し,特定の主観的レベルが優れたパフォーマンスを示す一方で,一般論として,学習水準が問題解決に直接的な影響を与えることを示す。 当然のことながら、参加者は画像上の課題が煩わしいと感じているのに対して、チェックボックスの課題は簡単だと認識されている。 また、SUS(System Usability Scale)を通じて評価された画像タスクをOKとみなし、チェックボックスタスクを「良い」とみなすことを示す。 我々は、reCAPTCHAv2のコストとセキュリティを調査し、それは膨大なコストとセキュリティがないと結論づける。 全体として、本研究の結果は、reCAPTCHAv2および同様のreCAPTCHA技術を非推奨にすべきである、という自然な結論を導いたと信じている。

Since about 2003, captchas have been widely used as a barrier against bots, while simultaneously annoying great multitudes of users worldwide. As their use grew, techniques to defeat or bypass captchas kept improving, while captchas themselves evolved in terms of sophistication and diversity, becoming increasingly difficult to solve for both bots and humans. Given this long-standing and still-ongoing arms race, it is important to investigate usability, solving performance, and user perceptions of modern captchas. In this work, we do so via a large-scale (over 3, 600 distinct users) 13-month real-world user study and post-study survey. The study, conducted at a large public university, was based on a live account creation and password recovery service with currently prevalent captcha type: reCAPTCHAv2. Results show that, with more attempts, users improve in solving checkbox challenges. For website developers and user study designers, results indicate that the website context directly influences (with statistically significant differences) solving time between password recovery and account creation. We consider the impact of participants' major and education level, showing that certain majors exhibit better performance, while, in general, education level has a direct impact on solving time. Unsurprisingly, we discover that participants find image challenges to be annoying, while checkbox challenges are perceived as easy. We also show that, rated via System Usability Scale (SUS), image tasks are viewed as "OK", while checkbox tasks are viewed as "good". We explore the cost and security of reCAPTCHAv2 and conclude that it has an immense cost and no security. Overall, we believe that this study's results prompt a natural conclusion: reCAPTCHAv2 and similar reCAPTCHA technology should be deprecated.
翻訳日:2024-03-18 23:02:51 公開日:2023-11-21
# QuasiNet: トレーニング可能な製品レイヤを備えたニューラルネットワーク

QuasiNet: a neural network with trainable product layers ( http://arxiv.org/abs/2401.06137v1 )

ライセンス: Link先を確認
Krist\'ina Malinovsk\'a, Slavom\'ir Holenda and \v{L}udov\'it Malinovsk\'y(参考訳) 古典的ニューラルネットワークは、隠れたニューロンの数が少ない場合、XORやパリティのような難しい問題において限られた収束しか達成しない。 これらの問題において、ニューラルネットワークの成功率を向上させるモチベーションとして、製品ニューロンと呼ばれる既存のニューラルネットワークモデルに触発された新しいニューラルネットワークモデルと、相互排他的状況の問題をエレガントに解決する古典的なエラーバックプロパゲーションに由来する学習規則を提案する。 既定で適応できない重みを持つ既存の製品ニューロンとは異なり、私たちの製品層のニューロンも学習します。 このモデルを用いて実験を行い、上記の問題や2つのスパイラルのような他の難しい問題において、その成功率を古典的多層パーセプトロンと比較した。 以上の結果から,我々のモデルは従来のMLPよりも明らかに成功しており,多くのタスクやアプリケーションに応用できる可能性が示唆された。

Classical neural networks achieve only limited convergence in hard problems such as XOR or parity when the number of hidden neurons is small. With the motivation to improve the success rate of neural networks in these problems, we propose a new neural network model inspired by existing neural network models with so called product neurons and a learning rule derived from classical error backpropagation, which elegantly solves the problem of mutually exclusive situations. Unlike existing product neurons, which have weights that are preset and not adaptable, our product layers of neurons also do learn. We tested the model and compared its success rate to a classical multilayer perceptron in the aforementioned problems as well as in other hard problems such as the two spirals. Our results indicate that our model is clearly more successful than the classical MLP and has the potential to be used in many tasks and applications.
翻訳日:2024-01-22 13:03:11 公開日:2023-11-21
# 産業用IoTにおけるURLLCを実現する分散ニューラルネットワーク線形トンプソンサンプリングフレームワーク

A Distributed Neural Linear Thompson Sampling Framework to Achieve URLLC in Industrial IoT ( http://arxiv.org/abs/2401.06135v1 )

ライセンス: Link先を確認
Francesco Pase, Marco Giordani, Sara Cavallero, Malte Schellmann, Josef Eichinger, Roberto Verdone, Michele Zorzi(参考訳) 産業用IoT(Industrial Internet of Things)ネットワークは、生産チェーンを支える重要なプロセスをサポートするために、ウルトラ信頼性の低い低レイテンシ通信(URLLC)を提供する。 しかし、無線リソースを割り当てる標準的なプロトコルは、特にアップリンク通信において遅延-信頼性トレードオフを最適化しない可能性がある。 例えば、集中的な認可ベースのスケジューリングは、ほとんどゼロの衝突を保証できるが、ユーザー機器(UE)がリソースを要求し、gNBが許可する方法に遅延をもたらす。 逆に、UEが自律的に送信するリソースを選択する分散スケジューリング(例えばランダムアクセスに基づく)は、特にトラフィックが増加すると、潜在的に多くの衝突を引き起こす可能性がある。 本研究では,2つの世界の長所を組み合わせた新しいスケジューリングフレームワークであるDISNETSを提案する。 UEは、gNBからのフィードバック信号と強化学習を利用して、gNBへのメッセージ交換を必要とせず、利用可能なリソースを選択して衝突回数を最小限にすることで、アップリンク送信を自律的に最適化するように訓練される。 DISNETSはニューラル線形トンプソンサンプリング(NLTS)アルゴリズムの分散マルチエージェント適応であり、複数の並列動作を許容するようにさらに拡張されている。 他のベースラインと比較して,IIoTシナリオのURLLCに対処する上で,DisNETSの優れた性能を示す。

Industrial Internet of Things (IIoT) networks will provide Ultra-Reliable Low-Latency Communication (URLLC) to support critical processes underlying the production chains. However, standard protocols for allocating wireless resources may not optimize the latency-reliability trade-off, especially for uplink communication. For example, centralized grant-based scheduling can ensure almost zero collisions, but introduces delays in the way resources are requested by the User Equipments (UEs) and granted by the gNB. In turn, distributed scheduling (e.g., based on random access), in which UEs autonomously choose the resources for transmission, may lead to potentially many collisions especially when the traffic increases. In this work we propose DIStributed combinatorial NEural linear Thompson Sampling (DISNETS), a novel scheduling framework that combines the best of the two worlds. By leveraging a feedback signal from the gNB and reinforcement learning, the UEs are trained to autonomously optimize their uplink transmissions by selecting the available resources to minimize the number of collisions, without additional message exchange to/from the gNB. DISNETS is a distributed, multi-agent adaptation of the Neural Linear Thompson Sampling (NLTS) algorithm, which has been further extended to admit multiple parallel actions. We demonstrate the superior performance of DISNETS in addressing URLLC in IIoT scenarios compared to other baselines.
翻訳日:2024-01-22 13:02:46 公開日:2023-11-21
# 化学対電気シナプスによる学習-それは違いをもたらすか?

Learning with Chemical versus Electrical Synapses -- Does it Make a Difference? ( http://arxiv.org/abs/2401.08602v1 )

ライセンス: Link先を確認
M\'onika Farsang, Mathias Lechner, David Lung, Ramin Hasani, Daniela Rus, Radu Grosu(参考訳) バイオインスパイアされたニューラルネットワークは、ニューラルネットワークの理解を深め、AIシステムの最先端を改善する可能性がある。 生体電気シナプスはニューロン間の速い電流の流れを可能にすることで、神経信号を直接伝達する。 対照的に、生体化学的シナプスは神経伝達物質を介して間接的に神経信号を伝達する。 以前の研究では、複雑なロボット制御のための解釈可能なダイナミクスは、ニューラル・サーキット・ポリシーズ(NCP)と呼ばれるスパースでバイオインスパイアされたアーキテクチャ内で、化学シナプスを使用することで達成できることを示した。 しかし、同じアーキテクチャ内のこれらの2つのシナプスモデルの比較は、まだ未解明領域である。 本研究の目的は, 疎結合ネットワークと全接続ネットワークの両方において, 電気シナプスと比較して化学シナプスを用いることによる影響を判定することである。 我々は,フォトリアリスティックな自律運転シミュレータを用いて自律走行車線維持実験を行い,様々な条件下および騒音下における車線性能評価を行った。 実験は、それぞれアーキテクチャとシナプスモデルの選択の実質的な影響を強調している。 その結果, 化学シナプスを用いた場合, 電気シナプスに比べて顕著な改善が得られ, NCPsは両シナプスモデルにおいて良好な結果をもたらすことがわかった。

Bio-inspired neural networks have the potential to advance our understanding of neural computation and improve the state-of-the-art of AI systems. Bio-electrical synapses directly transmit neural signals, by enabling fast current flow between neurons. In contrast, bio-chemical synapses transmit neural signals indirectly, through neurotransmitters. Prior work showed that interpretable dynamics for complex robotic control, can be achieved by using chemical synapses, within a sparse, bio-inspired architecture, called Neural Circuit Policies (NCPs). However, a comparison of these two synaptic models, within the same architecture, remains an unexplored area. In this work we aim to determine the impact of using chemical synapses compared to electrical synapses, in both sparse and all-to-all connected networks. We conduct experiments with autonomous lane-keeping through a photorealistic autonomous driving simulator to evaluate their performance under diverse conditions and in the presence of noise. The experiments highlight the substantial influence of the architectural and synaptic-model choices, respectively. Our results show that employing chemical synapses yields noticeable improvements compared to electrical synapses, and that NCPs lead to better results in both synaptic models.
翻訳日:2024-01-22 10:04:55 公開日:2023-11-21
# 逆問題と機械学習のための微分可能ビジュアルコンピューティング

Differentiable Visual Computing for Inverse Problems and Machine Learning ( http://arxiv.org/abs/2312.04574v1 )

ライセンス: Link先を確認
Andrew Spielberg, Fangcheng Zhong, Konstantinos Rematas, Krishna Murthy Jatavallabhula, Cengiz Oztireli, Tzu-Mao Li, and Derek Nowrouzezahrai(参考訳) もともとコンピュータグラフィックスの応用のために設計されたビジュアルコンピューティング(VC)法は、空間コンピューティングに最適化された所定のアルゴリズムを用いて、物理的および仮想世界の情報を合成する。 VCは、幾何学を分析し、固体、流体、その他のメディアを物理的にシミュレートし、光学技術で世界をレンダリングするために使用される。 特定の入力に対して明示的に動作する微調整された計算は、いわゆる前方問題を解く。 対照的に、ディープラーニング(DL)は一般的なアルゴリズムモデルの構築を可能にする。 dlは、高度にパラメータ化されたニューラルネットワークアーキテクチャ -- ユニバーサル関数近似器 -- と、その大きなパラメータ空間を最適モデルのために効率的に探索できる勾配ベースの探索アルゴリズムによって駆動される。 このアプローチはニューラルネットワークの微分可能性によって予測され、与えられた問題のタスクメトリックの分析微分は、ニューラルネットワークのパラメータに関して計算可能である。 ニューラルネットワークは、明示的なモデルが知られていない場合に優れており、ニューラルネットワークトレーニングは、モデルがデータから計算される逆問題を解く。

Originally designed for applications in computer graphics, visual computing (VC) methods synthesize information about physical and virtual worlds, using prescribed algorithms optimized for spatial computing. VC is used to analyze geometry, physically simulate solids, fluids, and other media, and render the world via optical techniques. These fine-tuned computations that operate explicitly on a given input solve so-called forward problems, VC excels at. By contrast, deep learning (DL) allows for the construction of general algorithmic models, side stepping the need for a purely first principles-based approach to problem solving. DL is powered by highly parameterized neural network architectures -- universal function approximators -- and gradient-based search algorithms which can efficiently search that large parameter space for optimal models. This approach is predicated by neural network differentiability, the requirement that analytic derivatives of a given problem's task metric can be computed with respect to neural network's parameters. Neural networks excel when an explicit model is not known, and neural network training solves an inverse problem in which a model is computed from data.
翻訳日:2024-01-15 14:56:56 公開日:2023-11-21
# 不特定区間における強化学習による混合交通の挙動解析

Analyzing Behaviors of Mixed Traffic via Reinforcement Learning at Unsignalized Intersections ( http://arxiv.org/abs/2312.05325v1 )

ライセンス: Link先を確認
Supriya Sarker(参考訳) 本報告では,二つの批判的研究を考察する。 まず,Reinforcement Learning(RL)エージェントが,停止・停止交通シナリオの文脈において,マルチモーダルな分布を示すかを検討する。 第2に、複雑な交通環境下で、RL制御ロボット車両(RV)が、その方向を効果的にナビゲートし、他の車両と協調する方法について検討する。 本分析では,ロボットおよび人間駆動車(HV)の待ち行列長,アウトフロー,小隊サイズ分布の多様性を検討した。 さらに,Pearson係数の相関,待ち行列長とアウトフローの関係に関する光を,同一方向と異なる方向の両方を考慮して評価する。 さらに、因果推論モデルを調べ、進行方向の異なるシナリオにまたがる待ち行列の長さに影響を与える要因について光を当てる。 これらの調査を通じて,交通管理・調整における混在交通(RV,HV)の挙動に関する貴重な知見を提供する。

In this report, we delve into two critical research inquiries. Firstly, we explore the extent to which Reinforcement Learning (RL) agents exhibit multimodal distributions in the context of stop-and-go traffic scenarios. Secondly, we investigate how RL-controlled Robot Vehicles (RVs) effectively navigate their direction and coordinate with other vehicles in complex traffic environments. Our analysis encompasses an examination of multimodality within queue length, outflow, and platoon size distributions for both Robot and Human-driven Vehicles (HVs). Additionally, we assess the Pearson coefficient correlation, shedding light on relationships between queue length and outflow, considering both identical and differing travel directions. Furthermore, we delve into causal inference models, shedding light on the factors influencing queue length across scenarios involving varying travel directions. Through these investigations, this report contributes valuable insights into the behaviors of mixed traffic (RVs and HVs) in traffic management and coordination.
翻訳日:2024-01-15 14:46:28 公開日:2023-11-21
# スパースイジングマシンによるオールトゥオールリコンフィギュアビリティ:p-bitsによるxorsatチャレンジ

All-to-all reconfigurability with sparse Ising machines: the XORSAT challenge with p-bits ( http://arxiv.org/abs/2312.08748v1 )

ライセンス: Link先を確認
Navid Anjum Aadit, Srijan Nikhar, Sidharth Kannan, Shuvro Chowdhury and Kerem Y. Camsari(参考訳) 計算の難解な最適化問題を解決するためのドメイン固有のハードウェアは、近年大きな興奮を巻き起こしている。 ここでは、確率ビット(pビット)ベースのIsing Machines(IM)またはベンチマーク組合せ最適化問題を持つpコンピュータ、すなわち3規則3-XOR満足度(R3X)を評価する。 3R3X問題にはガラス状のエネルギー環境があり、近年は様々なIMやその他の解決器のベンチマークに使われている。 並列化されたギブズサンプリングを実現するため,マルチプレクサアーキテクチャを導入し,全全(完全)グラフ機能をエミュレートする。 我々はこのアーキテクチャをFPGAに実装し、D-Waveや東芝などによる代替IMに対する競合的アルゴリズムと事前ファクターの利点を示す強力な並列テンパリングアルゴリズムの適応バージョンを実行するpビットネットワークを示す。 スケールド磁気ナノデバイスベースのp-コンピュータの実現は、実験的に確立された投影法に従って、さらにマグニチュードが向上する可能性がある。

Domain-specific hardware to solve computationally hard optimization problems has generated tremendous excitement recently. Here, we evaluate probabilistic bit (p-bit) based Ising Machines (IM), or p-computers with a benchmark combinatorial optimization problem, namely the 3-regular 3-XOR Satisfiability (3R3X). The 3R3X problem has a glassy energy landscape and it has recently been used to benchmark various IMs and other solvers. We introduce a multiplexed architecture where p-computers emulate all-to-all (complete) graph functionality despite being interconnected in highly sparse networks, enabling highly parallelized Gibbs sampling. We implement this architecture in FPGAs and show that p-bit networks running an adaptive version of the powerful parallel tempering algorithm demonstrate competitive algorithmic and prefactor advantages over alternative IMs by D-Wave, Toshiba and others. Scaled magnetic nanodevice-based realizations of p-computers could lead to orders-of-magnitude further improvement according to experimentally established projections.
翻訳日:2024-01-15 14:38:19 公開日:2023-11-21
# データサイロ - AIOpsの障害

Data Silos A Roadblock for AIOps ( http://arxiv.org/abs/2312.10039v1 )

ライセンス: Link先を確認
Subhadip Kumar(参考訳) 人工知能を使ってIT運用を管理するAIOpsは、近年、多くの関心と期待を集めているトレンドだ。 ITオペレーションの課題は、破壊することなく定常的なオペレーションを実行することであり、アジリティをサポートすること"は、"ITオペレーションは、安定性をサポートしながら、定常的なオペレーションを維持するという課題に直面している"と表現できる。 AIOpsは、IT運用の需要と、その需要を満たす人間の能力のギャップを埋めるのを支援する。 しかし、現在の組織環境でAIOpsを適用するのは容易ではない。 Cisco [1]による最近の調査によると、データ集中化はAIOpsを採用する上での大きな障害である。 この調査では、500人以上の従業員を抱える組織から8,161人のシニアビジネスリーダが参加し、その81%が、自身のデータが組織内のさまざまなサイロに分散していることを認めた。 本稿では、データサイロ、その原因、結果、解決策について説明する。

Using artificial intelligence to manage IT operations, also known as AIOps, is a trend that has attracted a lot of interest and anticipation in recent years. The challenge in IT operations is to run steady-state operations without disruption as well as support agility" can be rephrased as "IT operations face the challenge of maintaining steady-state operations while also supporting agility [11]. AIOps assists in bridging the gap between the demand for IT operations and the ability of humans to meet that demand. However, it is not easy to apply AIOps in current organizational settings. Data Centralization is a major obstacle for adopting AIOps, according to a recent survey by Cisco [1]. The survey, which involved 8,161 senior business leaders from organizations with more than 500 employees, found that 81% of them acknowledged that their data was scattered across different silos within their organizations. This paper illustrates the topic of data silos, their causes, consequences, and solutions.
翻訳日:2024-01-15 13:58:18 公開日:2023-11-21
# 原子運動誘起密度依存性効果を考慮した非線形サブドップラーレーザー分光法の理論

Theory of nonlinear sub-Doppler laser spectroscopy taking into account atomic-motion-induced density-dependent effects in a gas ( http://arxiv.org/abs/2401.06123v1 )

ライセンス: Link先を確認
V. I. Yudin, A. V. Taichenachev, M. Yu. Basalaev, O. N. Prudnikov, V. G. Pal'chikov, T. Zanon-Willette, S. N. Bagayev(参考訳) 平均場におけるマクスウェルブロッホ方程式と単原子密度行列近似の自己整合解に基づいて、2レベル原子の気体中のサブドップラー分光法の場非線形理論を開発した。 これにより、ガス中の原子の自由運動による効果を正しく考慮することができ、直接原子間相互作用(例えば双極子-双極子相互作用)がなくても、分光信号が原子密度に非線形に依存することにつながる。 このアプローチの枠組みの中では、任意の数の共鳴波とガス媒体の任意の光学的厚さに対して光場の解析式が得られた。 2つの逆伝搬波と共伝播波の伝送信号におけるサブドップラー分光について詳細に研究した。 一方の波の周波数が固定され、他方の波の周波数が変化した場合、反伝搬波スキームにおいて、狭小サブドップラー共鳴の既知赤方偏移を予測する。 このシフトの大きさは原子密度に依存し、原子間双極子-双極子相互作用(lorentz-lorenzシフト)からの既知のシフトよりも1桁以上大きい。 発見された効果は、原子の自由運動によって引き起こされ、ガス中の原子の密度に依存する既存の分光効果のイメージを著しく修正する必要がある。 基礎的な側面とは別に、得られた結果は精密レーザー分光法や光学原子時計において重要である。

We develop a field-nonlinear theory of sub-Doppler spectroscopy in a gas of two-level atoms, based on a self-consistent solution of the Maxwell-Bloch equations in the mean field and single-atom density matrix approximations. This makes it possible to correctly take into account the effects caused by the free motion of atoms in a gas, which lead to a nonlinear dependence of the spectroscopic signal on the atomic density even in the absent of a direct interatomic interaction (e.g., dipole-dipole interaction). Within the framework of this approach, analytical expressions for the light field were obtained for an arbitrary number of resonant waves and arbitrary optical thickness of a gas medium. Sub-Doppler spectroscopy in the transmission signal for two counterpropagating and co-propagating waves has been studied in detail. A previously unknown red shift of a narrow sub-Doppler resonance is predicted in a counterpropagating waves scheme, when the frequency of one wave is fixed and the frequency of the other wave is varied. The magnitude of this shift depends on the atomic density and can be more than an order of magnitude greater than the known shift from the interatomic dipole-dipole interaction (Lorentz-Lorenz shift). The found effects, caused by the free motion of atoms, require a significant revision of the existing picture of spectroscopic effects depending on the density of atoms in a gas. Apart of fundamental aspect, obtained results are important for precision laser spectroscopy and optical atomic clocks.
翻訳日:2024-01-15 08:25:10 公開日:2023-11-21
# パーソナライズされたモデル難読化によるプライバシ保護負荷予測

Privacy-Preserving Load Forecasting via Personalized Model Obfuscation ( http://arxiv.org/abs/2312.00036v1 )

ライセンス: Link先を確認
Shourya Bose, Yu Zhang, Kibaek Kim(参考訳) スマートメーターの普及により、ビルレベルの負荷予測モデルのトレーニングに適した、詳細かつ局所的な負荷消費データへのアクセスが可能になる。 モデルによるデータ漏洩によるプライバシー問題を軽減するため,フェデレートラーニング(FL)が提案されている。 本稿では,FLを用いて訓練した短期負荷予測モデルの異種データに対する性能課題について述べる。 提案するアルゴリズムであるprivacy preservation federated learning(ppfl)では,各スマートメータの局所化トレーニングにパーソナライズレイヤを取り入れている。 さらに,共有層からのデータの漏洩を防止するために,差分プライベート機構を採用している。 NREL ComStockデータセットのシミュレーションは、我々のアプローチの有効性を裏付けるものである。

The widespread adoption of smart meters provides access to detailed and localized load consumption data, suitable for training building-level load forecasting models. To mitigate privacy concerns stemming from model-induced data leakage, federated learning (FL) has been proposed. This paper addresses the performance challenges of short-term load forecasting models trained with FL on heterogeneous data, emphasizing privacy preservation through model obfuscation. Our proposed algorithm, Privacy Preserving Federated Learning (PPFL), incorporates personalization layers for localized training at each smart meter. Additionally, we employ a differentially private mechanism to safeguard against data leakage from shared layers. Simulations on the NREL ComStock dataset corroborate the effectiveness of our approach.
翻訳日:2023-12-11 03:56:15 公開日:2023-11-21
# FBChain: 効率性とセキュア通信を備えたブロックチェーンベースのフェデレーション学習モデル

FBChain: A Blockchain-based Federated Learning Model with Efficiency and Secure Communication ( http://arxiv.org/abs/2312.00035v1 )

ライセンス: Link先を確認
Yang Li, Chunhe Xia, Wei Liu, Weidong Zhou, Chen Chen and Tianbo Wang(参考訳) 連合学習のパラメータ伝達プロセスにおけるプライバシーとセキュリティは、現在最も顕著な懸念事項である。 しかし、保護されていない通信方法によって引き起こされる悪質な問題は、"parameter-leakage" と "in efficient-communication" の2つある。 本稿では、上記の2つの問題を克服するために、ブロックチェーンベースのフェデレートラーニング(FBChain)モデルを提案する。 まず、ブロックチェーンの不変性を利用して、通信プロセス中の改ざん時にローカルモデルパラメータのグローバルモデルとハッシュ値を格納し、パラメータを暗号化することでデータのプライバシを保護し、ローカルパラメータのハッシュ値を比較してデータの一貫性を検証する。 第二に、Proof of Weighted Link Speed (PoWLS)コンセンサスアルゴリズムは、より高重み付きリンク速度のノードを包括的に選択することで、グローバルモデルとパッケージブロックを集約し、"非効率な通信"問題を解決する。 実験により,FBChainモデルの有効性と,フェデレート学習におけるモデル通信効率を向上させる能力を示す。

Privacy and security in the parameter transmission process of federated learning are currently among the most prominent concerns. However, there are two thorny problems caused by unprotected communication methods: "parameter-leakage" and "inefficient-communication". This article proposes Blockchain-based Federated Learning (FBChain) model for federated learning parameter communication to overcome the above two problems. First, we utilize the immutability of blockchain to store the global model and hash value of local model parameters in case of tampering during the communication process, protect data privacy by encrypting parameters, and verify data consistency by comparing the hash values of local parameters, thus addressing the "parameter-leakage" problem. Second, the Proof of Weighted Link Speed (PoWLS) consensus algorithm comprehensively selects nodes with the higher weighted link speed to aggregate global model and package blocks, thereby solving the "inefficient-communication" problem. Experimental results demonstrate the effectiveness of our proposed FBChain model and its ability to improve model communication efficiency in federated learning.
翻訳日:2023-12-11 03:55:21 公開日:2023-11-21
# グローバル紛争に関するtwitter投稿の感情分析

Sentiment Analysis of Twitter Posts on Global Conflicts ( http://arxiv.org/abs/2312.03715v1 )

ライセンス: Link先を確認
Ujwal Sasikumar, Ank Zaman, Abdul-Rahman Mawlood-Yunis, Prosenjit Chatterjee(参考訳) ソーシャルメディアデータの感性分析は、様々な分野で広く応用されている分野である。 本研究では,ソーシャルメディアの感情,特につぶやきをグローバルなコンフリクトシナリオで分析する感情分析モデルを開発した。 われわれの研究実験を確立するために、Twitterで最近起きた全世界の紛争事件を特定し、3万1000件のフィルタリングツイートを数ヶ月間収集し、世界中の人間の感情を分析した。

Sentiment analysis of social media data is an emerging field with vast applications in various domains. In this study, we developed a sentiment analysis model to analyze social media sentiment, especially tweets, during global conflicting scenarios. To establish our research experiment, we identified a recent global dispute incident on Twitter and collected around 31,000 filtered Tweets for several months to analyze human sentiment worldwide.
翻訳日:2023-12-11 03:35:06 公開日:2023-11-21
# TRIDENT: 入射神経表現の非線形トリオロジー

TRIDENT: The Nonlinear Trilogy for Implicit Neural Representations ( http://arxiv.org/abs/2311.13610v1 )

ライセンス: Link先を確認
Zhenda Shen, Yanqi Cheng, Raymond H. Chan, Pietro Li\`o, Carola-Bibiane Sch\"onlieb, Angelica I Aviles-Rivero(参考訳) 暗黙の神経表現(INR)は、パラメータ化を明示せずに複雑な高次元データをモデル化する能力において、近年大きな関心を集めている。 本稿では,非線形三部作を特徴とする暗黙的ニューラル表現のための新しい関数TRIDENTを紹介する。 第一に、順序コンパクト性を通じて高次特徴を表現するように設計されている。 次に、TRIDENTは周波数情報を効率的に取得する。 第3に、エネルギーのほとんどが限られた空間領域に集中し、空間的コンパクト性を示すような信号や画像を表現する能力がある。 提案する関数が既存の暗黙的神経表現関数より優れる様々な逆問題に関する広範な実験を行った。

Implicit neural representations (INRs) have garnered significant interest recently for their ability to model complex, high-dimensional data without explicit parameterisation. In this work, we introduce TRIDENT, a novel function for implicit neural representations characterised by a trilogy of nonlinearities. Firstly, it is designed to represent high-order features through order compactness. Secondly, TRIDENT efficiently captures frequency information, a feature called frequency compactness. Thirdly, it has the capability to represent signals or images such that most of its energy is concentrated in a limited spatial region, denoting spatial compactness. We demonstrated through extensive experiments on various inverse problems that our proposed function outperforms existing implicit neural representation functions.
翻訳日:2023-12-03 14:13:49 公開日:2023-11-21
# モンテカルロ・ツリー・サーチによる樹木選択政策の信頼度向上が一様,多様,偽りの景観に及ぼす影響に関する分析

An Analysis on the Effects of Evolving the Monte Carlo Tree Search Upper Confidence for Trees Selection Policy on Unimodal, Multimodal and Deceptive Landscapes ( http://arxiv.org/abs/2311.13609v1 )

ライセンス: Link先を確認
Edgar Galvan and Fred Valdez Ameneyro(参考訳) Monte Carlo Tree Search (MCTS) は最適な決定を探索するために最も優れたサンプリング手法である。 MCTSの有効性は、選択政策が重要な役割を果たす統計木の構築に依存している。 MCTSで特にうまく機能する選択ポリシーは、樹上の信頼境界であり、UCTと呼ばれる。 研究コミュニティは、特定の問題領域におけるMCTSのパフォーマンス向上を目的とした、より洗練された境界も設けている。 したがって、MCTS UCTは一般的によく機能するが、それを上回る変異があるかもしれない。 これにより、mctsで使用する選択ポリシーを進化させる様々な取り組みがなされた。 これらの以前の作品は全て刺激的だが、MCTS UCTの進化的な代替品が有利であるという状況に光を当てるために詳細な分析を行っていない。 これらの研究のほとんどは、単一のタイプの問題に焦点を当てている。 対照的に、この研究は、ユニモーダルからマルチモーダル、および偽りの関数まで、異なる性質の5つの関数の使用を探求する。 MCTS UCTの進化は, マルチモーダル, 偽りのシナリオにおいて, MCTS UCTの利点を生み出すのに対して, MCTS UCTは, 本研究で使用されるすべての機能において堅牢であることを示す。

Monte Carlo Tree Search (MCTS) is a best-first sampling method employed in the search for optimal decisions. The effectiveness of MCTS relies on the construction of its statistical tree, with the selection policy playing a crucial role. A selection policy that works particularly well in MCTS is the Upper Confidence Bounds for Trees, referred to as UCT. The research community has also put forth more sophisticated bounds aimed at enhancing MCTS performance on specific problem domains. Thus, while MCTS UCT generally performs well, there may be variants that outperform it. This has led to various efforts to evolve selection policies for use in MCTS. While all of these previous works are inspiring, none have undertaken an in-depth analysis to shed light on the circumstances in which an evolved alternative to MCTS UCT might prove advantageous. Most of these studies have focused on a single type of problem. In sharp contrast, this work explores the use of five functions of different natures, ranging from unimodal to multimodal and deceptive functions. We illustrate how the evolution of MCTS UCT can yield benefits in multimodal and deceptive scenarios, whereas MCTS UCT is robust in all of the functions used in this work.
翻訳日:2023-12-03 14:13:31 公開日:2023-11-21
# テキスト・ビデオ・プリミティブによるスケッチの呼吸生活

Breathing Life Into Sketches Using Text-to-Video Priors ( http://arxiv.org/abs/2311.13608v1 )

ライセンス: Link先を確認
Rinon Gal, Yael Vinker, Yuval Alaluf, Amit H. Bermano, Daniel Cohen-Or, Ariel Shamir, Gal Chechik(参考訳) スケッチは、人間がアイデアを視覚的に伝えるために使う、最も直感的で多用途なツールの1つです。 アニメーションスケッチはアイデアの表現に別の次元を開き、様々な目的のためにデザイナーによって広く使用されている。 スケッチのアニメーションは面倒なプロセスであり、広範な経験と専門的な設計スキルを必要とします。 そこで本研究では,単に所望の動作を示すテキストプロンプトを提供することによって,単品のスケッチに自動的に動きを加える手法(hence, "breathing life into it")を提案する。 出力はベクトル表現で提供される短いアニメーションであり、簡単に編集できる。 本手法は,大規模な訓練を必要とせず,スコア蒸留損失を用いた大規模事前学習されたテキスト・ビデオ拡散モデルに先立って動作を活用し,ストロークの配置を誘導する。 自然で滑らかな動きを促進し、スケッチの外観をよりよく保存するために、2つのコンポーネントを通して学習した動きをモデル化する。 第1は小さな局所的な変形を制御し、第2はグローバルなアフィン変換を制御する。 驚いたことに、スケッチビデオを自分で作るのに苦労しているモデルでさえ、抽象表現をアニメーションするのに有用なバックボーンとして機能する。

A sketch is one of the most intuitive and versatile tools humans use to convey their ideas visually. An animated sketch opens another dimension to the expression of ideas and is widely used by designers for a variety of purposes. Animating sketches is a laborious process, requiring extensive experience and professional design skills. In this work, we present a method that automatically adds motion to a single-subject sketch (hence, "breathing life into it"), merely by providing a text prompt indicating the desired motion. The output is a short animation provided in vector representation, which can be easily edited. Our method does not require extensive training, but instead leverages the motion prior of a large pretrained text-to-video diffusion model using a score-distillation loss to guide the placement of strokes. To promote natural and smooth motion and to better preserve the sketch's appearance, we model the learned motion through two components. The first governs small local deformations and the second controls global affine transformations. Surprisingly, we find that even models that struggle to generate sketch videos on their own can still serve as a useful backbone for animating abstract representations.
翻訳日:2023-12-03 14:12:56 公開日:2023-11-21
# HEPデータから直接BSM物理パラメータを抽出する深部3次元畳み込みニューラルネットワークの訓練:モンテカルロシミュレーションを用いた概念実証研究

Training Deep 3D Convolutional Neural Networks to Extract BSM Physics Parameters Directly from HEP Data: a Proof-of-Concept Study Using Monte Carlo Simulations ( http://arxiv.org/abs/2311.13060v1 )

ライセンス: Link先を確認
S. Dubey, T.E. Browder, S.Kohani, R. Mandal, A. Sibidanov, R. Sinha(参考訳) 本稿では,高エネルギー物理(HEP)フレーバーデータから直接標準モデル(BSM)パラメータを抽出するためのコンピュータビジョン技術の新たな応用について報告する。 我々は,角分布とキネマティック分布を「準画像」に変換する手法を開発し,畳み込みニューラルネットワークをトレーニングし,適合性に似た回帰処理を行う。 これは、HEPでML/AIを使用して実行される通常の分類関数とは対照的である。 概念実証として、34層の残留ニューラルネットワークをトレーニングし、これらの画像を回帰させ、Wilson Coefficient $C_{9}$ in MC (Monte Carlo) シミュレーションで$B \rightarrow K^{*}\mu^{+}\mu^{-}$崩壊を判定する。 ここで述べる手法は一般化することができ、様々なhep実験や他の場所で適用可能である。

We report on a novel application of computer vision techniques to extract beyond the Standard Model (BSM) parameters directly from high energy physics (HEP) flavor data. We develop a method of transforming angular and kinematic distributions into "quasi-images" that can be used to train a convolutional neural network to perform regression tasks, similar to fitting. This contrasts with the usual classification functions performed using ML/AI in HEP. As a proof-of-concept, we train a 34-layer Residual Neural Network to regress on these images and determine the Wilson Coefficient $C_{9}$ in MC (Monte Carlo) simulations of $B \rightarrow K^{*}\mu^{+}\mu^{-}$ decays. The technique described here can be generalized and may find applicability across various HEP experiments and elsewhere.
翻訳日:2023-12-03 14:12:05 公開日:2023-11-21
# ディスクリプタとワードスープ : アウトオブディストリビューション・マイノショット学習におけるパラメータ効率のトレードオフを克服する

Descriptor and Word Soups: Overcoming the Parameter Efficiency Accuracy Tradeoff for Out-of-Distribution Few-shot Learning ( http://arxiv.org/abs/2311.13612v1 )

ライセンス: Link先を確認
Christopher Liao, Theodoros Tsiligkaridis, Brian Kulis(参考訳) 近年,gptディスクリプタを用いたゼロショット評価を中心に,マルチモーダル研究が盛んに行われている。 これらの研究は、事前訓練されたVLモデルのゼロショット精度を高める。 最近の研究であるWaffleCLIPは、同じゼロショット精度をランダムな記述子のアンサンブルで達成できることを示した。 しかし、両方のゼロショット法は訓練不可能であり、結果として数発のアウト・オブ・ディストリビューション(OOD)トレーニングデータが利用できる場合、サブ最適である。 これらの先行研究に触発されて,テスト時にllmを必要とせず,oodターゲット精度を向上させるためのトレーニングデータを活用する,descriptorとword soupsという,より柔軟な2つの方法を提案する。 Descriptor soupは、ジェネリックな数ショットのトレーニングデータを使用して小さなテキスト記述子を選択し、選択した記述子を使って堅牢なクラス埋め込みを計算する。 単語スープも同様に単語の連鎖を強欲に組み立てる。 既存のマイナショットソフトプロンプトチューニング方法と比較して、word soupはバックプロパゲーションを必要としないため、構成によるパラメータの削減とgpuメモリの削減が求められている。 どちらのスープも、データセットとドメインの一般化ベンチマークにおいて、SoTAゼロショットメソッドと組み合わせても、現在の数ショットメソッドよりも優れている。 ProDAやWaffleCLIPのようなSoTAプロンプトやディスクリプタのアンサンブル手法と比較して、単語スープはアンサンブルメンバーが少なくて高いOOD精度を実現する。 私たちのコード: github.com/chris210634/word_soups

Over the past year, a large body of multimodal research has emerged around zero-shot evaluation using GPT descriptors. These studies boost the zero-shot accuracy of pretrained VL models with an ensemble of label-specific text generated by GPT. A recent study, WaffleCLIP, demonstrated that similar zero-shot accuracy can be achieved with an ensemble of random descriptors. However, both zero-shot methods are un-trainable and consequently sub-optimal when some few-shot out-of-distribution (OOD) training data is available. Inspired by these prior works, we present two more flexible methods called descriptor and word soups, which do not require an LLM at test time and can leverage training data to increase OOD target accuracy. Descriptor soup greedily selects a small set of textual descriptors using generic few-shot training data, then calculates robust class embeddings using the selected descriptors. Word soup greedily assembles a chain of words in a similar manner. Compared to existing few-shot soft prompt tuning methods, word soup requires fewer parameters by construction and less GPU memory, since it does not require backpropagation. Both soups outperform current published few-shot methods, even when combined with SoTA zero-shot methods, on cross-dataset and domain generalization benchmarks. Compared with SoTA prompt and descriptor ensembling methods, such as ProDA and WaffleCLIP, word soup achieves higher OOD accuracy with fewer ensemble members. Please checkout our code: github.com/Chris210634/word_soups
翻訳日:2023-12-03 14:03:06 公開日:2023-11-21
# ロバストなインストラクションチューニングのためのデータ多様性

Data Diversity Matters for Robust Instruction Tuning ( http://arxiv.org/abs/2311.14736v1 )

ライセンス: Link先を確認
Alexander Bukharin and Tuo Zhao(参考訳) インストラクションチューニングは、大きな言語モデルを調整するための重要なステップとして現れている。 命令チューニングの中心的な課題の1つはデータセットの選択であり、命令チューニングデータセットの構成は下流のパフォーマンスに大きな影響を与える可能性がある。 特に研究者は、データセットの多様性とデータセットの品質が下流のパフォーマンスの重要な指標であると仮定している。 しかし、高品質で多様なデータを自動的に選択する方法や、正確な品質と多様性がインストラクション追従能力にどのように影響するかは明らかではない。 これらの問題を解決するため、我々はQDIT(Quality-Diversity Instruction Tuning)という新しいアルゴリズムを提案する。 qditは、データセットの多様性と品質を制御するための原則化されたアルゴリズムを提供し、多様性と品質が命令のチューニング性能に与える影響を深く研究できます。 本研究では,(1)データセットの多様性と品質の間に自然なトレードオフが存在すること,(2)データセットの多様性を増大させることで,パフォーマンスが悪化し,堅牢性が向上することを示す。 そこで,品質駆動ベースラインに比べて平均性能を維持したり向上させたりしながら,最悪ケース性能を18%向上させることができることを示す。

Instruction tuning has emerged as a key step in aligning large language models. One of the central challenges of instruction tuning is dataset selection, as the composition of the instruction tuning dataset can significantly impact downstream performance. In particular, researchers have hypothesized that dataset diversity and dataset quality are important indicators of downstream performance. However, it is not clear how to automatically select high quality and diverse data or how exactly quality and diversity affect instruction following ability. To resolve these issues, we propose a new algorithm, Quality-Diversity Instruction Tuning (QDIT). QDIT provides a principled algorithm to control dataset diversity and quality, allowing us to conduct an in depth study on the effect of diversity and quality on instruction tuning performance. From this study we draw two key insights (1) there is a natural tradeoff between dataset diversity and quality and (2) increasing dataset diversity significantly improves the worst case instruction following performance, therefore improving robustness. We validate the performance of QDIT on several large scale instruction tuning datasets, where we find it can improve worst case performance by 18% while maintaining or improving average performance compared to quality driven baselines.
翻訳日:2023-12-03 13:44:07 公開日:2023-11-21
# 多変量復帰のための生成機械学習

Generative Machine Learning for Multivariate Equity Returns ( http://arxiv.org/abs/2311.14735v1 )

ライセンス: Link先を確認
Ruslan Tepelyan, Achintya Gopal(参考訳) 合成データを生成する機械学習の利用は、テキスト・ツー・イメージモデルや特に大きな言語モデルの普及によって人気が高まっている。 これらのモデルが使用する中核となる方法論は、統計モデルとデータに適合する財務に共通する古典的な手法と同様に、基礎となるデータの分布を学習することである。 本研究では,最近の機械学習手法,特に条件付き重み付きオートエンコーダ(変分型オートエンコーダの変種)と条件付き正規化フローを用いて,エクイティのリターンをモデル化する作業の有効性について検討する。 私たちが取り組んだ主な問題は、S&P 500の全てのメンバーの関節分布をモデル化すること、すなわち500次元の関節分布を学習することである。 この生成モデルは、現実的な合成データの生成、ボラティリティと相関推定、リスク分析(例えば、ポートフォリオのリスク値、VaR)、ポートフォリオ最適化など、ファイナンスに幅広い応用があることを示します。

The use of machine learning to generate synthetic data has grown in popularity with the proliferation of text-to-image models and especially large language models. The core methodology these models use is to learn the distribution of the underlying data, similar to the classical methods common in finance of fitting statistical models to data. In this work, we explore the efficacy of using modern machine learning methods, specifically conditional importance weighted autoencoders (a variant of variational autoencoders) and conditional normalizing flows, for the task of modeling the returns of equities. The main problem we work to address is modeling the joint distribution of all the members of the S&P 500, or, in other words, learning a 500-dimensional joint distribution. We show that this generative model has a broad range of applications in finance, including generating realistic synthetic data, volatility and correlation estimation, risk analysis (e.g., value at risk, or VaR, of portfolios), and portfolio optimization.
翻訳日:2023-12-03 13:43:35 公開日:2023-11-21
# 箱の外を考える:保護属性の等式化への直交的アプローチ

Thinking Outside the Box: Orthogonal Approach to Equalizing Protected Attributes ( http://arxiv.org/abs/2311.14733v1 )

ライセンス: Link先を確認
Jiahui Liu, Xiaohao Cai and Mahesan Niranjan(参考訳) ブラックボックスAIの可能性は、臨床意思決定における健康に関する格差や性別や民族性などの偏見を悪化させる可能性があるとの懸念が高まっている。 バイアスのある決定は、データ可用性と収集プロセス、および保護された属性自体の基盤となる効果から生じる。 本研究は,保護属性の識別的次元化と直交化を通じて,共同創設者の効果を解析・抑制することを目的とした機械学習に基づく直交的アプローチを提案する。 これにより、保護された属性が疾患診断に与える影響を認識し、望ましくない特徴相関を緩和し、モデル予測性能を向上させることができる。

There is growing concern that the potential of black box AI may exacerbate health-related disparities and biases such as gender and ethnicity in clinical decision-making. Biased decisions can arise from data availability and collection processes, as well as from the underlying confounding effects of the protected attributes themselves. This work proposes a machine learning-based orthogonal approach aiming to analyze and suppress the effect of the confounder through discriminant dimensionality reduction and orthogonalization of the protected attributes against the primary attribute information. By doing so, the impact of the protected attributes on disease diagnosis can be realized, undesirable feature correlations can be mitigated, and the model prediction performance can be enhanced.
翻訳日:2023-12-03 13:42:34 公開日:2023-11-21
# 暗号価格予測のための深部状態空間モデル

Deep State-Space Model for Predicting Cryptocurrency Price ( http://arxiv.org/abs/2311.14731v1 )

ライセンス: Link先を確認
Shalini Sharma, Angshul Majumdar, Emilie Chouzenoux, Victor Elvira(参考訳) 私たちの作品は2つの基本的な貢献がある。 アプリケーション側では、日々の暗号通貨価格を予測するという困難な問題に取り組む。 方法論的な側面から,新しい動的モデリング手法を提案する。 提案手法は状態空間モデルの確率的定式化を保ち,推定値に対する不確実な定量化と深部ニューラルネットワークの関数近似能力を提供する。 提案手法を深層状態空間モデルと呼ぶ。 実験は、確立した暗号通貨(ヤフーファイナンスから取得)上で実施される。 その仕事の目標は、翌日の価格を予測することだった。 ベンチマークは最先端技術と古典力学モデリング技術の両方で行われている。 その結果,提案手法は精度の面で最高の結果が得られることがわかった。

Our work presents two fundamental contributions. On the application side, we tackle the challenging problem of predicting day-ahead crypto-currency prices. On the methodological side, a new dynamical modeling approach is proposed. Our approach keeps the probabilistic formulation of the state-space model, which provides uncertainty quantification on the estimates, and the function approximation ability of deep neural networks. We call the proposed approach the deep state-space model. The experiments are carried out on established cryptocurrencies (obtained from Yahoo Finance). The goal of the work has been to predict the price for the next day. Benchmarking has been done with both state-of-the-art and classical dynamical modeling techniques. Results show that the proposed approach yields the best overall results in terms of accuracy.
翻訳日:2023-12-03 13:42:17 公開日:2023-11-21
# 走査透過電子顕微鏡によるグラフェン中のシリコンドーパント転移の学習と制御

Learning and Controlling Silicon Dopant Transitions in Graphene using Scanning Transmission Electron Microscopy ( http://arxiv.org/abs/2311.17894v1 )

ライセンス: Link先を確認
Max Schwarzer, Jesse Farebrother, Joshua Greaves, Ekin Dogus Cubuk, Rishabh Agarwal, Aaron Courville, Marc G. Bellemare, Sergei Kalinin, Igor Mordatch, Pablo Samuel Castro, Kevin M. Roccapriore(参考訳) 走査透過電子顕微鏡(STEM)の電子ビームにより励起された場合, 炭素原子の単一層上でのシリコン原子の遷移ダイナミクスを機械学習で決定する手法を提案する。 我々の手法はデータ中心であり、STEMで収集されたデータを活用する。 データサンプルは、ニューラルネットワークをトレーニングして遷移確率を予測するために、シンボリック表現を生成するために処理され、フィルタリングされる。 これらの学習された遷移ダイナミクスは、格子全体に単一のシリコン原子を予め決められた目標先に導くために利用される。 提案手法の有効性と汎用性を示す実証分析を行う。

We introduce a machine learning approach to determine the transition dynamics of silicon atoms on a single layer of carbon atoms, when stimulated by the electron beam of a scanning transmission electron microscope (STEM). Our method is data-centric, leveraging data collected on a STEM. The data samples are processed and filtered to produce symbolic representations, which we use to train a neural network to predict transition probabilities. These learned transition dynamics are then leveraged to guide a single silicon atom throughout the lattice to pre-determined target destinations. We present empirical analyses that demonstrate the efficacy and generality of our approach.
翻訳日:2023-12-03 13:09:15 公開日:2023-11-21
# 物理画像における量子クラスター検出

Quantum-enhanced cluster detection in physical images ( http://arxiv.org/abs/2208.05522v2 )

ライセンス: Link先を確認
Jason L. Pereira, Leonardo Banchi, Stefano Pirandola(参考訳) データ内のクラスタを特定することは、多くの分野で重要なタスクです。 本稿では,データが物理的に存在する状況について考察するので,まずセンサを用いて画像の収集を行い,クラスタリングを行う。 量子エンタングルメントによって強化されたセンサを用いて、純粋に古典的な戦略よりも正確に表面を撮像することができる。 しかし、我々が得る利点がクラスタリングのようなデータ処理ステップに耐えられるほど堅牢かどうか、すぐには明らかではない。 従来,量子化センサを用いた画像認識とパターン認識は,教師付き学習タスクに有利であることが確認されており,この利点が教師なし学習タスク,すなわちクラスタリングにも有効であることを示す。

Identifying clusters in data is an important task in many fields. In this paper, we consider situations in which data live in a physical world, so we have to first collect the images using sensors before clustering them. Using sensors enhanced by quantum entanglement, we can image surfaces more accurately than using purely classical strategies. However, it is not immediately obvious if the advantage we gain is robust enough to survive data processing steps such as clustering. It has previously been found that using quantum-enhanced sensors for imaging and pattern recognition can give an advantage for supervised learning tasks, and here we demonstrate that this advantage also holds for an unsupervised learning task, namely clustering.
翻訳日:2023-11-23 19:39:10 公開日:2023-11-21
# 割引マルコフ決定過程における厳密な政策ミラー降下の最適収束率

Optimal Convergence Rate for Exact Policy Mirror Descent in Discounted Markov Decision Processes ( http://arxiv.org/abs/2302.11381v3 )

ライセンス: Link先を確認
Emmeran Johnson, Ciara Pike-Burke, Patrick Rebeschini(参考訳) Policy Mirror Descent (PMD) は、強化学習における様々な新しい基本的な手法を網羅するアルゴリズムの一般的なファミリーである。 不正確な政策評価を伴う政策反復(PI)の不安定性に動機づけられたPMDは、PIの政策改善ステップをアルゴリズム的に規則化する。 正確な政策評価では、PIはマルコフ決定過程の割引係数$\gamma$によって与えられるレートで線形収束することが知られている。 本研究では, PI と PMD のギャップを厳密なポリシー評価で埋めるとともに, 適応的なステップサイズで非正規化 PMD アルゴリズムの一般ファミリーによって, PI の次元自由な$\gamma$-rate が達成可能であることを示す。 我々は,PMD法およびPI法において,$\gamma$-rateが最適であること,およびそれを実現するためには適応的なステップサイズが必要であることを示す,一致した下界を提供する。 我々の研究は、PMDを利率最適化とステップサイズの必要性に関連付ける最初のものである。 PMDの収束に関する我々の研究は、性能差補題の使用を回避し、独立利害の直接的な分析に繋がる。 また,解析を不正確な設定にまで拡張し,非正規化PMDに対する第1次元最適サンプル複雑性を生成モデルで確立し,最もよく知られた結果を改善する。

Policy Mirror Descent (PMD) is a general family of algorithms that covers a wide range of novel and fundamental methods in reinforcement learning. Motivated by the instability of policy iteration (PI) with inexact policy evaluation, PMD algorithmically regularises the policy improvement step of PI. With exact policy evaluation, PI is known to converge linearly with a rate given by the discount factor $\gamma$ of a Markov Decision Process. In this work, we bridge the gap between PI and PMD with exact policy evaluation and show that the dimension-free $\gamma$-rate of PI can be achieved by the general family of unregularised PMD algorithms under an adaptive step-size. We show that both the rate and step-size are unimprovable for PMD: we provide matching lower bounds that demonstrate that the $\gamma$-rate is optimal for PMD methods as well as PI, and that the adaptive step-size is necessary for PMD to achieve it. Our work is the first to relate PMD to rate-optimality and step-size necessity. Our study of the convergence of PMD avoids the use of the performance difference lemma, which leads to a direct analysis of independent interest. We also extend the analysis to the inexact setting and establish the first dimension-optimal sample complexity for unregularised PMD under a generative model, improving upon the best-known result.
翻訳日:2023-11-23 19:33:38 公開日:2023-11-21
# 言語接地におけるプラグマティクス:現象,課題,モデリングアプローチ

Pragmatics in Language Grounding: Phenomena, Tasks, and Modeling Approaches ( http://arxiv.org/abs/2211.08371v3 )

ライセンス: Link先を確認
Daniel Fried, Nicholas Tomlin, Jennifer Hu, Roma Patel, Aida Nematzadeh(参考訳) 人々は文字通りの言葉を超えて意味を豊かにするためにコンテキストに大きく依存し、簡潔だが効果的なコミュニケーションを可能にします。 人々とうまく、そして自然に対話するためには、ユーザインタフェースの人工知能システムは、さまざまな種類のコンテキスト(共通言語目標や慣習、視覚的および具体的世界など)に依存して、言語を効果的に活用する、という、実用的なスキルを必要とします。 既存の接地設定と実用的モデリングのアプローチを調査し,各作業における課題目標,環境文脈,コミュニケーション的余裕が言語的意味をいかに高めているかを分析した。 本稿では,自然に現実的な現象を誘発するタスクデザインを推奨し,より広い範囲のコミュニケーション状況と余裕に焦点を当てた方向性を提案する。

People rely heavily on context to enrich meaning beyond what is literally said, enabling concise but effective communication. To interact successfully and naturally with people, user-facing artificial intelligence systems will require similar skills in pragmatics: relying on various types of context -- from shared linguistic goals and conventions, to the visual and embodied world -- to use language effectively. We survey existing grounded settings and pragmatic modeling approaches and analyze how the task goals, environmental contexts, and communicative affordances in each work enrich linguistic meaning. We present recommendations for future grounded task design to naturally elicit pragmatic phenomena, and suggest directions that focus on a broader range of communicative contexts and affordances.
翻訳日:2023-11-23 19:33:11 公開日:2023-11-21
# 経験的リスク最小化のためのfrank-wolfe法の改良にtaylor近似勾配を用いる

Using Taylor-Approximated Gradients to Improve the Frank-Wolfe Method for Empirical Risk Minimization ( http://arxiv.org/abs/2208.13933v2 )

ライセンス: Link先を確認
Zikai Xiong and Robert M. Freund(参考訳) フランク=ウルフ法(frank-wolfe method)は、イテレートの構造誘導性や、特に可算集合上の線形最小化が射影よりも計算効率が高い設定により、統計学や機械学習の応用においてますます有用である。 統計的および機械学習における基本的な最適化問題の1つである経験的リスク最小化の設定において、フランク・ウルフ法の計算効率は通常、データ観測数n$で線形に増加する。 これは典型的な確率的射影法の場合とは全く対照的である。 n$への依存を減らすために、典型的な滑らかな損失関数(例えば、左方形損失とロジスティック損失)の2階の滑らかさを調べ、決定論的および確率的設定の変種を含むテイラー級数近似勾配でフランク=ウルフ法を修正を提案する。 最適性トレランス$\varepsilon$が十分小さい体制における現在の最先端手法と比較して、我々の手法は凸と非凸の両方の設定においてフランク・ウルフ法の最適収束率を得ながら、大きな$n$への依存を同時に低減することができる。 また,計算保証を実現するための適応的なステップサイズアプローチを提案する。 最後に,コンベックスおよび非凸二項分類問題に対する実世界のデータセット上での既存手法に対する高速化を示す計算実験を行った。

The Frank-Wolfe method has become increasingly useful in statistical and machine learning applications, due to the structure-inducing properties of the iterates, and especially in settings where linear minimization over the feasible set is more computationally efficient than projection. In the setting of Empirical Risk Minimization -- one of the fundamental optimization problems in statistical and machine learning -- the computational effectiveness of Frank-Wolfe methods typically grows linearly in the number of data observations $n$. This is in stark contrast to the case for typical stochastic projection methods. In order to reduce this dependence on $n$, we look to second-order smoothness of typical smooth loss functions (least squares loss and logistic loss, for example) and we propose amending the Frank-Wolfe method with Taylor series-approximated gradients, including variants for both deterministic and stochastic settings. Compared with current state-of-the-art methods in the regime where the optimality tolerance $\varepsilon$ is sufficiently small, our methods are able to simultaneously reduce the dependence on large $n$ while obtaining optimal convergence rates of Frank-Wolfe methods, in both the convex and non-convex settings. We also propose a novel adaptive step-size approach for which we have computational guarantees. Last of all, we present computational experiments which show that our methods exhibit very significant speed-ups over existing methods on real-world datasets for both convex and non-convex binary classification problems.
翻訳日:2023-11-23 19:31:53 公開日:2023-11-21
# 非漸近的非対称状態判別のための解析的境界

Analytical bounds for non-asymptotic asymmetric state discrimination ( http://arxiv.org/abs/2207.10699v3 )

ライセンス: Link先を確認
Jason L. Pereira, Leonardo Banchi, Stefano Pirandola(参考訳) 2つのタイプの誤りは、量子状態のペアを識別するときに発生する。 非対称な状態判別は、一方の種類のエラーの確率を最小化し、他方の制約を受ける。 我々は、トレースノルム、忠実度、量子チャーノフ境界を用いて、達成可能な誤差の集合を有界に表現する。 上界は漸近的に狭く、下界は純粋な状態に対して正確である。 漸近境界とは異なり、我々の境界は指数の代わりに誤差値を与えるので、有限コピー状態識別問題に適用するとより正確な結果が得られる。

Two types of errors can occur when discriminating pairs of quantum states. Asymmetric state discrimination involves minimizing the probability of one type of error, subject to a constraint on the other. We give explicit expressions bounding the set of achievable errors, using the trace norm, the fidelity, and the quantum Chernoff bound. The upper bound is asymptotically tight and the lower bound is exact for pure states. Unlike asymptotic bounds, our bounds give error values instead of exponents, so can give more precise results when applied to finite-copy state discrimination problems.
翻訳日:2023-11-23 19:30:52 公開日:2023-11-21
# 表現射影不変性は表現の崩壊を軽減する

Representation Projection Invariance Mitigates Representation Collapse ( http://arxiv.org/abs/2205.11603v3 )

ライセンス: Link先を確認
Anastasia Razdaibiedina, Ashish Khetan, Zohar Karnin, Daniel Khashabi, Vishaal Kapoor, Vivek Madan(参考訳) 事前訓練された言語モデルによって学習された微調整された文脈表現は、現在でもNLPにおいて一般的である。 しかし、微調整は表現劣化(表現崩壊とも呼ばれる)を引き起こし、不安定性、準最適性能、弱一般化をもたらす。 本稿では,表現の意図しない変化を回避し,微調整中の表現内容の保持と表現崩壊を低減するための新しい正規化手法であるRepresentation Projection Invariance (REPINA)を提案する。 13言語理解タスク(GLUEベンチマークと6つの追加データセット)にまたがる5つの同等のベースラインと比較して,提案した正規化の実証的挙動について検討した。 ドメイン内のパフォーマンスを評価する場合、REPINAは、ほとんどのタスク(13点中10点)において、他のベースラインよりも一貫して優れています。 また,ラベル摂動に対する数ショット設定の有効性と頑健性を示す。 副産物として,表現の崩壊に関する先行研究を拡張し,定量化のためのいくつかの指標を提案する。 実験結果から,提案手法は表現崩壊の緩和に有効であることが示唆された。

Fine-tuning contextualized representations learned by pre-trained language models remains a prevalent practice in NLP. However, fine-tuning can lead to representation degradation (also known as representation collapse), which may result in instability, sub-optimal performance, and weak generalization. In this paper, we propose Representation Projection Invariance (REPINA), a novel regularization method to maintain the information content of representation and reduce representation collapse during fine-tuning by discouraging undesirable changes in the representations. We study the empirical behavior of the proposed regularization in comparison to 5 comparable baselines across 13 language understanding tasks (GLUE benchmark and six additional datasets). When evaluating in-domain performance, REPINA consistently outperforms other baselines on most tasks (10 out of 13). We also demonstrate its effectiveness in few-shot settings and robustness to label perturbation. As a by-product, we extend previous studies of representation collapse and propose several metrics to quantify it. Our empirical findings show that our approach is significantly more effective at mitigating representation collapse.
翻訳日:2023-11-23 19:30:22 公開日:2023-11-21
# 領域一般化のためのランダム化逆流摂動

Randomized Adversarial Style Perturbations for Domain Generalization ( http://arxiv.org/abs/2304.01959v2 )

ライセンス: Link先を確認
Taehoon Kim, Bohyung Han(参考訳) 本稿では,各領域の特性をスタイルに対応する特徴統計量で捉えた,ランダム化逆型摂動 (rasp) と呼ばれる新しい領域一般化手法を提案する。 提案アルゴリズムは, ランダムに選択されたクラスに対して, 対角方向の特徴のスタイルを乱し, 予期せぬ対象領域で観測される予期せぬスタイルに誤解されないよう学習する。 RASPはドメインシフトを扱うのに効果的だが、訓練手順への素直な統合は、表現の摂動に制限がないため、ソースドメインから知識を学ぶ能力を低下させる可能性がある。 この課題は正規化された特徴混在(NFM)によって緩和され、トレーニング中に混在した表現に対して堅牢性を確保しながら、元の特徴の学習を容易にする。 提案アルゴリズムは,様々なベンチマークによる広範な実験により評価され,特に大規模ベンチマークにおいて,領域一般化性能が向上することを示す。

We propose a novel domain generalization technique, referred to as Randomized Adversarial Style Perturbation (RASP), which is motivated by the observation that the characteristics of each domain are captured by the feature statistics corresponding to style. The proposed algorithm perturbs the style of a feature in an adversarial direction towards a randomly selected class, and makes the model learn against being misled by the unexpected styles observed in unseen target domains. While RASP is effective to handle domain shifts, its naive integration into the training procedure might degrade the capability of learning knowledge from source domains because it has no restriction on the perturbations of representations. This challenge is alleviated by Normalized Feature Mixup (NFM), which facilitates the learning of the original features while achieving robustness to perturbed representations via their mixup during training. We evaluate the proposed algorithm via extensive experiments on various benchmarks and show that our approach improves domain generalization performance, especially in large-scale benchmarks.
翻訳日:2023-11-23 19:20:11 公開日:2023-11-21
# 単一波動関数から高次中心電荷を抽出する

Extracting higher central charge from a single wave function ( http://arxiv.org/abs/2303.04822v4 )

ライセンス: Link先を確認
Ryohei Kobayashi, Taige Wang, Tomohiro Soejima, Roger S. K. Mong, Shinsei Ryu(参考訳) 2+1)Dトポロジカル秩序相は、キラル中心電荷$c_-$が消滅しても、ギャップ可能なエッジを持つかもしれない。 近年,キラル中心電荷の「高い」バージョンと見なされる量によって,先端を突き出すのに$c_-$を超えるさらなる障害が生じることが判明した。 この手紙では、高次中心電荷は位相的に順序付けられた状態の波動関数に作用する \textit{partial rotation} 作用素の期待値によって特徴づけられることを示した。 これにより、1つの波動関数から高い中心電荷を抽出し、量子コンピュータで評価することができる。 高次中心電荷のキャラクタリゼーションは、エッジ共形場理論のモジュラー特性と、それぞれ$\mathrm{U}(1)_2$およびIsingトポロジカルオーダーに対応する、$\nu=1/2$bosonic Laughlin状態とKITEの非アベリアギャップ位相による数値結果から解析的に導かれる。 この文字は、(2+1)dボソニック位相次数が$c_-$を超える、(2+1)dボソニック位相次数のガッパブルエッジに対する一連の障害を得るための数値的方法を確立し、(2+1)dボソニックアーベル位相位数がガッパブルエッジを持つか否かを完全に決定する。 また、単一波動関数上の部分回転の期待値は、リーブ・シュルツ・マティス型定理を思わせる (2+1)D ボソニックトポロジー次数のバルク境界系の低エネルギースペクトルに制約を与えることを指摘した。

A (2+1)D topologically ordered phase may or may not have a gappable edge, even if its chiral central charge $c_-$ is vanishing. Recently, it is discovered that a quantity regarded as a "higher" version of chiral central charge gives a further obstruction beyond $c_-$ to gapping out the edge. In this Letter, we show that the higher central charges can be characterized by the expectation value of the \textit{partial rotation} operator acting on the wavefunction of the topologically ordered state. This allows us to extract the higher central charge from a single wavefunction, which can be evaluated on a quantum computer. Our characterization of the higher central charge is analytically derived from the modular properties of edge conformal field theory, as well as the numerical results with the $\nu=1/2$ bosonic Laughlin state and the non-Abelian gapped phase of the Kitaev honeycomb model, which corresponds to $\mathrm{U}(1)_2$ and Ising topological order respectively. The letter establishes a numerical method to obtain a set of obstructions to the gappable edge of (2+1)D bosonic topological order beyond $c_-$, which enables us to completely determine if a (2+1)D bosonic Abelian topological order has a gappable edge or not. We also point out that the expectation values of the partial rotation on a single wavefunction put a constraint on the low-energy spectrum of the bulk-boundary system of (2+1)D bosonic topological order, reminiscent of the Lieb-Schultz-Mattis type theorems.
翻訳日:2023-11-23 19:19:29 公開日:2023-11-21
# 連続可変ポートベーステレポーテーション

Continuous variable port-based teleportation ( http://arxiv.org/abs/2302.08522v2 )

ライセンス: Link先を確認
Jason L. Pereira, Leonardo Banchi, Stefano Pirandola(参考訳) ポートベースのテレポーテーションは、受信機によるユニタリ操作を必要としない標準テレポーテーションプロトコルの一般化である。 これは、標準のテレポーテーションプロトコルが$n=1$であるのに対して、n>1$エンタングルペアが必要となる。 補正ユニタリの欠如により、ポートベースのテレポーテーションは、一般的なリソースで任意のチャネルをシミュレートするための基本的な理論的ツールとなり、量子通信、暗号、センシングの基本的な限界を研究し、一般的なプログラマブル量子コンピュータを定義するための応用が可能になる。 ここでは,連続変数系におけるポートベーステレポーテーションの一般的な定式化について紹介し,$n=2$ケースについて詳細に検討する。 特に、得られたチャネルをエネルギー遮断として解釈し、この制限により自然にシミュレートできるチャネルの種類を分析する。

Port-based teleportation is generalization of the standard teleportation protocol which does not require unitary operations by the receiver. This comes at the price of requiring $N>1$ entangled pairs, while $N=1$ for the standard teleportation protocol. The lack of correction unitaries allows port-based teleportation to be used as a fundamental theoretical tool to simulate arbitrary channels with a general resource, with applications to study fundamental limits of quantum communication, cryptography and sensing, and to define general programmable quantum computers. Here we introduce a general formulation of port-based teleportation in continuous variable systems and study in detail the $N=2$ case. In particular, we interpret the resulting channel as an energy truncation and analyse the kinds of channels that can be naturally simulated after this restriction.
翻訳日:2023-11-23 19:18:51 公開日:2023-11-21
# カラム構成型ネットワークを用いたスケーラブルリアルタイム並行学習

Scalable Real-Time Recurrent Learning Using Columnar-Constructive Networks ( http://arxiv.org/abs/2302.05326v3 )

ライセンス: Link先を確認
Khurram Javed, Haseeb Shah, Rich Sutton, Martha White(参考訳) 一連の観察から状態を構築することは強化学習エージェントの重要な構成要素である。 状態構築のソリューションのひとつは、リカレントニューラルネットワークを使用することだ。 時間によるバックプロパゲーション(BPTT)とリアルタイムリカレント学習(RTRL)は、再カレント学習のための2つの一般的な勾配に基づく手法である。 BPTTは勾配を計算する前に完全な観測軌道を必要とし、オンライン更新には適さない。 rtrlはオンライン更新は可能だが、大規模ネットワークへのスケール性は低い。 本稿ではRTRLをスケーラブルにする2つの制約を提案する。 ネットワークを独立したモジュールに分解するか、段階的にネットワークを学習することで、RTRLをパラメータ数と線形にスケールできることを示す。 UOROやTrncated-BPTTのような従来のスケーラブルな勾配推定アルゴリズムとは異なり、我々のアルゴリズムは勾配推定にノイズやバイアスを加えない。 代わりに、計算効率のよい学習のためにネットワークの機能容量を交換する。 本稿では,動物学習とアタリ2600ゲームに対する事前学習ポリシーのポリシー評価により,Trncated-BPTTに対するアプローチの有効性を示す。

Constructing states from sequences of observations is an important component of reinforcement learning agents. One solution for state construction is to use recurrent neural networks. Back-propagation through time (BPTT), and real-time recurrent learning (RTRL) are two popular gradient-based methods for recurrent learning. BPTT requires complete trajectories of observations before it can compute the gradients and is unsuitable for online updates. RTRL can do online updates but scales poorly to large networks. In this paper, we propose two constraints that make RTRL scalable. We show that by either decomposing the network into independent modules or learning the network in stages, we can make RTRL scale linearly with the number of parameters. Unlike prior scalable gradient estimation algorithms, such as UORO and Truncated-BPTT, our algorithms do not add noise or bias to the gradient estimate. Instead, they trade off the functional capacity of the network for computationally efficient learning. We demonstrate the effectiveness of our approach over Truncated-BPTT on a prediction benchmark inspired by animal learning and by doing policy evaluation of pre-trained policies for Atari 2600 games.
翻訳日:2023-11-23 19:18:35 公開日:2023-11-21
# 対称量子系をシミュレートする効率的な古典アルゴリズム

Efficient classical algorithms for simulating symmetric quantum systems ( http://arxiv.org/abs/2211.16998v4 )

ライセンス: Link先を確認
Eric R. Anschuetz and Andreas Bauer and Bobak T. Kiani and Seth Lloyd(参考訳) 量子アドバンテージを期待して、最近提案された量子アルゴリズムに対称性を組み込むことにより、古典的アルゴリズムは、入力の特定の古典的記述を与えられた量子対応するものを効率的にエミュレートできることを示す。 具体的には,可換不変ハミルトニアンに対する基底状態と時間発展期待値を計算する古典的アルゴリズムを,システムサイズのランタイム多項式を用いて対称性のパウリ基底で指定する。 テンソルネットワーク法を用いて対称同値作用素を多項式サイズであるブロック対角シュアー基底へ変換し、この基底において厳密な行列乗算や対角化を行う。 これらの方法は、シュア基底で規定された値を含む幅広い入力および出力状態、行列積状態、または低深さ回路と単一量子ビット測定を適用するパワーを与えられたときの任意の量子状態に適用可能である。

In light of recently proposed quantum algorithms that incorporate symmetries in the hope of quantum advantage, we show that with symmetries that are restrictive enough, classical algorithms can efficiently emulate their quantum counterparts given certain classical descriptions of the input. Specifically, we give classical algorithms that calculate ground states and time-evolved expectation values for permutation-invariant Hamiltonians specified in the symmetrized Pauli basis with runtimes polynomial in the system size. We use tensor-network methods to transform symmetry-equivariant operators to the block-diagonal Schur basis that is of polynomial size, and then perform exact matrix multiplication or diagonalization in this basis. These methods are adaptable to a wide range of input and output states including those prescribed in the Schur basis, as matrix product states, or as arbitrary quantum states when given the power to apply low depth circuits and single qubit measurements.
翻訳日:2023-11-23 19:16:39 公開日:2023-11-21
# 比較推論のための事前学習言語モデル

Pre-training Language Models for Comparative Reasoning ( http://arxiv.org/abs/2305.14457v3 )

ライセンス: Link先を確認
Mengxia Yu, Zhihan Zhang, Wenhao Yu, Meng Jiang(参考訳) 比較推論は、対象、概念または実体を比較して結論を引き出す過程であり、基本的な認知能力を構成する。 本稿では,テキストに対する比較推論能力を高めるための,事前学習型言語モデルのための新しいフレームワークを提案する。 比較推論を必要とするNLPタスクにはアプローチがあるが、コストのかかる手動データラベリングと、異なるタスクに対する限定的な一般化性に悩まされている。 本手法では,構造化データと非構造化データの両方を活用する,テキストベースのエンティティ比較のためのスケーラブルなデータ収集手法を提案する。 さらに, 比較推論に関する3つの新しい目的を通して, 事前学習言語モデルの枠組みを提案する。 比較質問応答,質問生成,要約などの下流タスクの評価は,特に低リソース条件下で,我々の事前学習フレームワークが言語モデルの比較推論能力を大幅に向上させることを示す。 この研究は、比較推論のための最初の統合ベンチマークもリリースしている。

Comparative reasoning is a process of comparing objects, concepts, or entities to draw conclusions, which constitutes a fundamental cognitive ability. In this paper, we propose a novel framework to pre-train language models for enhancing their abilities of comparative reasoning over texts. While there have been approaches for NLP tasks that require comparative reasoning, they suffer from costly manual data labeling and limited generalizability to different tasks. Our approach introduces a novel method of collecting scalable data for text-based entity comparison, which leverages both structured and unstructured data. Moreover, we present a framework of pre-training language models via three novel objectives on comparative reasoning. Evaluation on downstream tasks including comparative question answering, question generation, and summarization shows that our pre-training framework significantly improves the comparative reasoning abilities of language models, especially under low-resource conditions. This work also releases the first integrated benchmark for comparative reasoning.
翻訳日:2023-11-23 19:05:30 公開日:2023-11-21
# サブスペース構成可能なネットワーク

Subspace-Configurable Networks ( http://arxiv.org/abs/2305.13536v2 )

ライセンス: Link先を確認
Olga Saukh, Dong Wang, Xiaoxi He, Lothar Thiele(参考訳) エッジデバイスへのディープラーニングモデルのデプロイは増加しているが、知覚されたデータの動的変化に直面した場合、これらのモデルは堅牢性に欠けることが多い。 これはセンサーのドリフトや、特定のセンサー配置や自然に変化する感知条件などの要因によってオフライントレーニングで使用されたものと比較して、データの変動に起因する可能性がある。 したがって、望まれる堅牢性を達成するには、不変アーキテクチャまたはデータ拡張のような特別なトレーニングアプローチのいずれかを活用する必要がある。 あるいは、入力変換はドメインシフト問題として扱われ、デプロイ後のモデル適応によって解決される。 本稿では、パラメータ設定のための最適なネットワークがサブ空間の一部である構成可能なネットワークのパラメータ化部分空間を訓練する。 得られた部分空間は低次元であり、複雑な非可逆変換であっても驚くほど単純な構造を持ち、限られた記憶資源や計算資源がある場合、サブスペース構成可能なネットワーク(SCN)の極めて高い効率をもたらす。 我々は、SCNを幅広い標準データセット、アーキテクチャ、変換で評価し、リソースに制約のあるIoTデバイスにおいて、同じテストセットの精度を達成するモデルよりも、最大2.4倍のRAMと7.6倍高速な推論が可能でありながら、所望の入力変換の範囲をカバーするためにデータ拡張でトレーニングされている。

While the deployment of deep learning models on edge devices is increasing, these models often lack robustness when faced with dynamic changes in sensed data. This can be attributed to sensor drift, or variations in the data compared to what was used during offline training due to factors such as specific sensor placement or naturally changing sensing conditions. Hence, achieving the desired robustness necessitates the utilization of either an invariant architecture or specialized training approaches, like data augmentation. Alternatively, input transformations can be treated as a domain shift problem, and solved by post-deployment model adaptation. In this paper, we train a parameterized subspace of configurable networks, where an optimal network for a particular parameter setting is part of this subspace. The obtained subspace is low-dimensional and has a surprisingly simple structure even for complex, non-invertible transformations of the input, leading to an exceptionally high efficiency of subspace-configurable networks (SCNs) when limited storage and computing resources are at stake. We evaluate SCNs on a wide range of standard datasets, architectures, and transformations, and demonstrate their power on resource-constrained IoT devices, where they can take up to 2.4 times less RAM and be 7.6 times faster at inference time than a model that achieves the same test set accuracy, yet is trained with data augmentations to cover the desired range of input transformations.
翻訳日:2023-11-23 19:04:35 公開日:2023-11-21
# アルゴリズム生成ミススペルを用いた深層ニューラルネットワークを用いたペルシャタイポグラフィー型誤り検出

Persian Typographical Error Type Detection Using Deep Neural Networks on Algorithmically-Generated Misspellings ( http://arxiv.org/abs/2305.11731v2 )

ライセンス: Link先を確認
Mohammad Dehghani, Heshaam Faili(参考訳) スペル補正は自然言語処理の分野において顕著な課題である。 スペル訂正タスクの目的は、スペルエラーを自動的に認識し修正することである。 ペルシャ語のスペルや文法上の誤りを効果的に診断・修正できるアプリケーションの開発は、ペルシア語のテキストの品質を向上させるためにますます重要になっている。 タイポグラフィーによるペルシャのエラータイプ検出は比較的調査の少ない地域である。 そこで本稿では,ペルシャ語文の誤字を検出するための説得力のあるアプローチを提案する。 私たちの研究には、FarsTypoという、時系列で並べられた340万語からなる、公開データセットのプレゼンテーションが含まれています。 これらの言葉は幅広い話題や言語スタイルをカバーしている。 我々は,これらの単語のスケーラブルな部分にペルシャ特有の誤りを適用するアルゴリズムを開発し,その結果として,正しい単語と間違った単語の並列データセットを生成する。 farstypoを活用することで,強固な基盤を確立し,異なるアーキテクチャを用いた様々な方法論を徹底的に比較する。 さらに,単語と文字の埋め込みと双方向のLSTMレイヤを併用して,51の異なるクラスにまたがるタイポグラフィ的誤りの検出を目的としたトークン分類を行う,画期的なDeep Sequential Neural Networkを導入する。 本研究と異なり,本手法は多種多様な資源を用いて開発されている高度産業システムとは対照的である。 最終手法の結果は競争力が高く、精度は97.62%、精度は98.83%、リコールは98.61%、速度は他を上回った。

Spelling correction is a remarkable challenge in the field of natural language processing. The objective of spelling correction tasks is to recognize and rectify spelling errors automatically. The development of applications that can effectually diagnose and correct Persian spelling and grammatical errors has become more important in order to improve the quality of Persian text. The Typographical Error Type Detection in Persian is a relatively understudied area. Therefore, this paper presents a compelling approach for detecting typographical errors in Persian texts. Our work includes the presentation of a publicly available dataset called FarsTypo, which comprises 3.4 million words arranged in chronological order and tagged with their corresponding part-of-speech. These words cover a wide range of topics and linguistic styles. We develop an algorithm designed to apply Persian-specific errors to a scalable portion of these words, resulting in a parallel dataset of correct and incorrect words. By leveraging FarsTypo, we establish a strong foundation and conduct a thorough comparison of various methodologies employing different architectures. Additionally, we introduce a groundbreaking Deep Sequential Neural Network that utilizes both word and character embeddings, along with bidirectional LSTM layers, for token classification aimed at detecting typographical errors across 51 distinct classes. Our approach is contrasted with highly advanced industrial systems that, unlike this study, have been developed using a diverse range of resources. The outcomes of our final method proved to be highly competitive, achieving an accuracy of 97.62%, precision of 98.83%, recall of 98.61%, and surpassing others in terms of speed.
翻訳日:2023-11-23 19:03:53 公開日:2023-11-21
# 確率的組成勾配降下アルゴリズムの安定性と一般化

Stability and Generalization of Stochastic Compositional Gradient Descent Algorithms ( http://arxiv.org/abs/2307.03357v2 )

ライセンス: Link先を確認
Ming Yang, Xiyuan Wei, Tianbao Yang, Yiming Ying(参考訳) 多くの機械学習タスクは、強化学習、AUC最大化、メタラーニングなどの確率的合成最適化(SCO)問題として定式化することができる。 scoアルゴリズムの収束挙動の研究に多くの研究が費やされているが、その一般化、すなわち、トレーニング例から構築されたこれらの学習アルゴリズムが将来のテスト例でどのように振る舞うかを理解する作業は少ない。 本稿では,統計的学習理論の枠組みにおけるアルゴリズム安定性のレンズを通して,確率的組成勾配降下アルゴリズムの安定性と一般化解析を行う。 まず,合成一様安定性と呼ばれる安定性概念を導入し,sco問題の一般化と定量的関係を確立する。 次に,scgd と scsc の2つの確率的組成勾配降下アルゴリズムについて,構成一様安定性結果を確立する。 最後に,SCGDとSCSCの寸法非依存過剰リスク境界を,安定性と最適化誤差をトレードオフすることによって導出する。 我々の知る限り、これらは確率的組成勾配勾配アルゴリズムの安定性と一般化解析に関する最初の既知の結果である。

Many machine learning tasks can be formulated as a stochastic compositional optimization (SCO) problem such as reinforcement learning, AUC maximization, and meta-learning, where the objective function involves a nested composition associated with an expectation. While a significant amount of studies has been devoted to studying the convergence behavior of SCO algorithms, there is little work on understanding their generalization, i.e., how these learning algorithms built from training examples would behave on future test examples. In this paper, we provide the stability and generalization analysis of stochastic compositional gradient descent algorithms through the lens of algorithmic stability in the framework of statistical learning theory. Firstly, we introduce a stability concept called compositional uniform stability and establish its quantitative relation with generalization for SCO problems. Then, we establish the compositional uniform stability results for two popular stochastic compositional gradient descent algorithms, namely SCGD and SCSC. Finally, we derive dimension-independent excess risk bounds for SCGD and SCSC by trade-offing their stability results and optimization errors. To the best of our knowledge, these are the first-ever-known results on stability and generalization analysis of stochastic compositional gradient descent algorithms.
翻訳日:2023-11-23 18:54:49 公開日:2023-11-21
# アーティファクトマッピング:オブジェクト検出と3次元局所化のためのマルチモーダル意味マッピング

Artifacts Mapping: Multi-Modal Semantic Mapping for Object Detection and 3D Localization ( http://arxiv.org/abs/2307.01121v2 )

ライセンス: Link先を確認
Federico Rollo, Gennaro Raiola, Andrea Zunino, Nikolaos Tsagarakis, Arash Ajoudani(参考訳) 幾何学的ナビゲーションは現在、ロボット工学の確立された分野であり、セマンティックマッピングのような高度なシーン理解に焦点が移っている。 ロボットが環境と相互作用する必要がある場合、その環境の文脈情報を理解できなければならない。 この作業は、構築中の(SLAM)またはすでに構築されている、マップ内のオブジェクトの分類とローカライズに焦点を当てている。 この方向をさらに探求するため,マルチモーダルセンサフュージョン(RGBとRGB-Dカメラとライダーからの深度データを組み合わせた)を用いて,既定義物体を既知の環境下で自律的に検出・ローカライズするフレームワークを提案する。 フレームワークは、RGBデータによる環境理解、マルチモーダルセンサー融合による深さ推定、アーティファクトの管理(フィルタリングと安定化測定)の3つの重要な要素で構成されている。 実験の結果,提案フレームワークは実サンプル環境におけるオブジェクトの98%を後処理なしで正確に検出でき,対象物の85%と80%は1台のRGBDカメラまたはRGB + lidar設定でマッピングされていることがわかった。 単一センサー(カメラまたはライダー)との比較実験により、センサー融合によりロボットは、純粋に視覚的またはレーザーベースのアプローチでノイズや不正確であった近距離障害物を正確に検出できることを示した。

Geometric navigation is nowadays a well-established field of robotics and the research focus is shifting towards higher-level scene understanding, such as Semantic Mapping. When a robot needs to interact with its environment, it must be able to comprehend the contextual information of its surroundings. This work focuses on classifying and localising objects within a map, which is under construction (SLAM) or already built. To further explore this direction, we propose a framework that can autonomously detect and localize predefined objects in a known environment using a multi-modal sensor fusion approach (combining RGB and depth data from an RGB-D camera and a lidar). The framework consists of three key elements: understanding the environment through RGB data, estimating depth through multi-modal sensor fusion, and managing artifacts (i.e., filtering and stabilizing measurements). The experiments show that the proposed framework can accurately detect 98% of the objects in the real sample environment, without post-processing, while 85% and 80% of the objects were mapped using the single RGBD camera or RGB + lidar setup respectively. The comparison with single-sensor (camera or lidar) experiments is performed to show that sensor fusion allows the robot to accurately detect near and far obstacles, which would have been noisy or imprecise in a purely visual or laser-based approach.
翻訳日:2023-11-23 18:54:30 公開日:2023-11-21
# 浅層ネットワークが高周波の近似と学習に苦戦する理由:数値的研究

Why Shallow Networks Struggle with Approximating and Learning High Frequency: A Numerical Study ( http://arxiv.org/abs/2306.17301v2 )

ライセンス: Link先を確認
Shijun Zhang, Hongkai Zhao, Yimin Zhong, Haomin Zhou(参考訳) 本研究では,解析と実験を含む包括的数値実験により,機械の精度と計算コストが実運用において重要な要因である場合の近似と学習において,2層ニューラルネットワークが高周波数を扱うのになぜ困難かを示す。 特に,(1)有限機械精度で達成できる最小の数値誤差,(2)精度を達成する計算コスト,(3)摂動に対する安定性,といった基本的な計算問題について検討した。 この研究の鍵は、表現の条件付けとその学習ダイナミクスにある。 上記の質問に対して,数値的な検証を行う。

In this work, a comprehensive numerical study involving analysis and experiments shows why a two-layer neural network has difficulties handling high frequencies in approximation and learning when machine precision and computation cost are important factors in real practice. In particular, the following basic computational issues are investigated: (1) the minimal numerical error one can achieve given a finite machine precision, (2) the computation cost to achieve a given accuracy, and (3) stability with respect to perturbations. The key to the study is the conditioning of the representation and its learning dynamics. Explicit answers to the above questions with numerical verifications are presented.
翻訳日:2023-11-23 18:53:36 公開日:2023-11-21
# 医用画像解析の基礎モデルの挑戦と展望

On the Challenges and Perspectives of Foundation Models for Medical Image Analysis ( http://arxiv.org/abs/2306.05705v2 )

ライセンス: Link先を確認
Shaoting Zhang, Dimitris Metaxas(参考訳) 本稿では,医療画像解析のための大規模事前学習モデル(基礎モデル)の機会,応用,今後の方向性について述べる。 医療基盤モデルは、正確で堅牢なモデルの開発を加速し、大量のラベル付きデータを削減し、患者データのプライバシーと機密性を維持するため、幅広い下流のタスクを解決する上で大きな可能性を秘めている。 具体的には、一般的な視覚モデル、モダリティ固有モデルからオルガン/タスク固有モデルまで、医療基礎モデルの「スペクトラム」を説明し、その課題、機会、応用を強調する。 また,下級医療タスクにおいて基礎モデルをどのように活用し,医用画像解析の精度と効率を高めるかについて議論し,より正確な診断と治療の決定に繋がる。

This article discusses the opportunities, applications and future directions of large-scale pre-trained models, i.e., foundation models, for analyzing medical images. Medical foundation models have immense potential in solving a wide range of downstream tasks, as they can help to accelerate the development of accurate and robust models, reduce the large amounts of required labeled data, preserve the privacy and confidentiality of patient data. Specifically, we illustrate the "spectrum" of medical foundation models, ranging from general vision models, modality-specific models, to organ/task-specific models, highlighting their challenges, opportunities and applications. We also discuss how foundation models can be leveraged in downstream medical tasks to enhance the accuracy and efficiency of medical image analysis, leading to more precise diagnosis and treatment decisions.
翻訳日:2023-11-23 18:51:35 公開日:2023-11-21
# 患者記録からの実際の治療経路の推測

Inferring Actual Treatment Pathways from Patient Records ( http://arxiv.org/abs/2309.01897v2 )

ライセンス: Link先を確認
Adrian Wilkins-Caruana, Madhushi Bandara, Katarzyna Musial, Daniel Catchpoole and Paul J. Kennedy(参考訳) 治療経路は、特定の疾患に対する推奨医療を概説するステップ・バイ・ステップの計画であり、異なる治療が患者の予後を改善すると修正される。 健康記録の検査は, この改訂プロセスにおいて重要な部分であるが, 複雑なイベントコーディング手法と経路関連アノテーションの欠如により, 患者の実際の治療を健康データから推測することは困難である。 本研究は, 表型医療データの共通形態である行政医療記録(ahr)から特定の患者集団の実際の治療手順を推測し, 治療経路関連研究における技術と方法論に基づくギャップに対処することを目的とする。 特定の患者群に対する現実的な治療手順を推測するためのAHRの検査方法であるDefragを紹介する。 Defragは、医療イベントシーケンスの意味と時間的意味を学び、複雑な医療データから治療ステップを確実に推測する。 私たちの知る限り、Defragはニューラルネットワーク(NN)を利用する最初の経路推論手法です。 また,経路推定のためのテストおよび検証フレームワークを開発し,Defragの経路推定能力を特徴付け,評価し,ベースラインと比較した。 乳がん, 肺癌, メラノーマに最も有効な経路断片を公衆医療記録で同定し, Defragの有効性を実証した。 さらに,defrag法の特性を示すために合成データ実験を行い,非nn法を大きく上回る複数のベースラインと比較した。 defragは既存の経路参照法を著しく上回り、ahrsから治療経路を推定する革新的な効果的なアプローチを提供する。 オープンソースコードは、この分野のさらなる研究を促進するために提供されている。

Treatment pathways are step-by-step plans outlining the recommended medical care for specific diseases; they get revised when different treatments are found to improve patient outcomes. Examining health records is an important part of this revision process, but inferring patients' actual treatments from health data is challenging due to complex event-coding schemes and the absence of pathway-related annotations. This study aims to infer the actual treatment steps for a particular patient group from administrative health records (AHR) - a common form of tabular healthcare data - and address several technique- and methodology-based gaps in treatment pathway-inference research. We introduce Defrag, a method for examining AHRs to infer the real-world treatment steps for a particular patient group. Defrag learns the semantic and temporal meaning of healthcare event sequences, allowing it to reliably infer treatment steps from complex healthcare data. To our knowledge, Defrag is the first pathway-inference method to utilise a neural network (NN), an approach made possible by a novel, self-supervised learning objective. We also developed a testing and validation framework for pathway inference, which we use to characterise and evaluate Defrag's pathway inference ability and compare against baselines. We demonstrate Defrag's effectiveness by identifying best-practice pathway fragments for breast cancer, lung cancer, and melanoma in public healthcare records. Additionally, we use synthetic data experiments to demonstrate the characteristics of the Defrag method, and to compare Defrag to several baselines where it significantly outperforms non-NN-based methods. Defrag significantly outperforms several existing pathway-inference methods and offers an innovative and effective approach for inferring treatment pathways from AHRs. Open-source code is provided to encourage further research in this area.
翻訳日:2023-11-23 18:42:24 公開日:2023-11-21
# ガウス混合分布潜在空間における探索による反事実説明

Counterfactual Explanation via Search in Gaussian Mixture Distributed Latent Space ( http://arxiv.org/abs/2307.13390v3 )

ライセンス: Link先を確認
Xuan Zhao, Klaus Broelemann, Gjergji Kasneci(参考訳) 対実説明(CE)はアルゴリズム・リコースにおいて重要なツールである。 1. 自動予測/決定に繋がった重要な要因は何ですか? 2. ユーザの視点からより好ましい結果を得るために、これらの要因をどのように変えることができるか。 したがって、AIシステムの信頼性の高い採用と長期的な受け入れには、理解し易い説明と到達し易い変更を提案することによって、AIシステムとのユーザのインタラクションを導くことが不可欠である。 文献では,CEを生成するための様々な手法が提案されており,これらの手法を評価するための異なる品質対策が提案されている。 しかし、CEの生成は通常計算コストが高く、結果として提案される提案は非現実的であり、従って非現実的である。 本稿では,まず,自動エンコーダの潜伏空間をガウス分布の混合として形成することにより,事前学習されたバイナリ分類器のCEを生成する手法を提案する。 次にcesは、クエリサンプルとターゲットクラスのセンタロイドの間の線形補間によって潜在空間で生成される。 本手法は,反事実探索中に入力サンプルの特性を維持していることを示す。 様々な実験において,提案手法は,画像と表データ集合の異なる品質尺度に基づいて競争的であることを示し,現実の高次元機械学習応用に必須な3つの最先端手法と比較して,元のデータ多様体に近い結果が効率的に返されることを示した。

Counterfactual Explanations (CEs) are an important tool in Algorithmic Recourse for addressing two questions: 1. What are the crucial factors that led to an automated prediction/decision? 2. How can these factors be changed to achieve a more favorable outcome from a user's perspective? Thus, guiding the user's interaction with AI systems by proposing easy-to-understand explanations and easy-to-attain feasible changes is essential for the trustworthy adoption and long-term acceptance of AI systems. In the literature, various methods have been proposed to generate CEs, and different quality measures have been suggested to evaluate these methods. However, the generation of CEs is usually computationally expensive, and the resulting suggestions are unrealistic and thus non-actionable. In this paper, we introduce a new method to generate CEs for a pre-trained binary classifier by first shaping the latent space of an autoencoder to be a mixture of Gaussian distributions. CEs are then generated in latent space by linear interpolation between the query sample and the centroid of the target class. We show that our method maintains the characteristics of the input sample during the counterfactual search. In various experiments, we show that the proposed method is competitive based on different quality measures on image and tabular datasets -- efficiently returns results that are closer to the original data manifold compared to three state-of-the-art methods, which are essential for realistic high-dimensional machine learning applications.
翻訳日:2023-11-23 18:39:37 公開日:2023-11-21
# epsilon*: マシンラーニングモデルのためのプライバシメトリック

Epsilon*: Privacy Metric for Machine Learning Models ( http://arxiv.org/abs/2307.11280v2 )

ライセンス: Link先を確認
Diana M. Negoescu, Humberto Gonzalez, Saad Eddin Al Orjany, Jilei Yang, Yuliia Lut, Rahul Tandra, Xiaowen Zhang, Xinyi Zheng, Zach Douglas, Vidita Nolkha, Parvez Ahammad, Gennady Samorodnitsky(参考訳) epsilon*は,プライバシ緩和戦略の展開前後において,単一のモデルインスタンスのプライバシリスクを測定するための,新たなプライバシ指標です。 このメトリクスは、モデル予測へのブラックボックスアクセスのみを必要とし、トレーニングデータの再サンプリングやモデル再トレーニングを必要とせず、差分プライバシでトレーニングされていないモデルのプライバシリスクを測定するために使用することができる。 エプシロン*は、メンバーシップ推論攻撃で敵が使用する仮説テストにおいて真正正正率と偽正率の関数である。 我々は、経験的プライバシと呼ぶトレーニングモデルインスタンスのプライバシ損失の定量化と、このモデルインスタンスを生成するトレーニングメカニズムのプライバシ損失の定量化を区別する。 既存のプライバシ監査文献のアプローチでは、後者のバウンダリは低いが、我々のメトリクスは、トレーニングされたモデルインスタンスのプライバシの定量化のタイプ(${\epsilon}$, ${\delta}$)に依存することで、前者のバウンダリを経験的に低くする。 我々は,これらの下界の関係を確立し,数値および雑音増幅の不安定性を回避するためにEpsilon*の実装方法を示す。 さらに,非dpトレーニングベースラインモデルのepsilon*値と比較して,epsilon*値が最大800%低減される差分プライバシ(dp)を用いたトレーニングにより,epsilon*がプライバシリスク軽減に敏感であることをベンチマーク公開データセットで実証した。 このメトリクスは、プライバシ監査者がモデル所有者から独立することを可能にし、プライバシユーティリティの展望を視覚化して、モデルプライバシとユーティリティ間のトレードオフに関する情報的な決定を可能にする。

We introduce Epsilon*, a new privacy metric for measuring the privacy risk of a single model instance prior to, during, or after deployment of privacy mitigation strategies. The metric requires only black-box access to model predictions, does not require training data re-sampling or model re-training, and can be used to measure the privacy risk of models not trained with differential privacy. Epsilon* is a function of true positive and false positive rates in a hypothesis test used by an adversary in a membership inference attack. We distinguish between quantifying the privacy loss of a trained model instance, which we refer to as empirical privacy, and quantifying the privacy loss of the training mechanism which produces this model instance. Existing approaches in the privacy auditing literature provide lower bounds for the latter, while our metric provides an empirical lower bound for the former by relying on an (${\epsilon}$, ${\delta}$)-type of quantification of the privacy of the trained model instance. We establish a relationship between these lower bounds and show how to implement Epsilon* to avoid numerical and noise amplification instability. We further show in experiments on benchmark public data sets that Epsilon* is sensitive to privacy risk mitigation by training with differential privacy (DP), where the value of Epsilon* is reduced by up to 800% compared to the Epsilon* values of non-DP trained baseline models. This metric allows privacy auditors to be independent of model owners, and enables visualizing the privacy-utility landscape to make informed decisions regarding the trade-offs between model privacy and utility.
翻訳日:2023-11-23 18:39:14 公開日:2023-11-21
# ccaファミリーの効率的なアルゴリズム:不偏勾配を持つ非拘束目的

Efficient Algorithms for the CCA Family: Unconstrained Objectives with Unbiased Gradients ( http://arxiv.org/abs/2310.01012v2 )

ライセンス: Link先を確認
James Chapman, Lennie Wells, Ana Lawry Aguila(参考訳) カノニカル相関解析(CCA)は多視点学習の基礎となる手法である。 正規化線形CAA法は、部分最小正方形(PLS)を一般化し、一般化固有値問題(GEP)フレームワークと統一することができる。 しかし、これらの線形手法の古典的アルゴリズムは大規模データに対して計算不可能である。 Deep CCAの拡張は有望だが、現在のトレーニング手順は遅く、複雑である。 まず,gepsの最上位部分空間を特徴付ける新しい非拘束目的を提案する。 我々のコアコントリビューションは、確率的PSS、確率的CAA、Deep CCAのための高速アルゴリズムのファミリーであり、対応するCAの目的に確率的勾配勾配(SGD)を適用するだけで得られる。 これらの手法は、すべての標準CCAおよびDeep CCAベンチマークにおいて、従来よりもはるかに高速な収束と高い相関関係の回復を示す。 このスピードにより、英国バイオバンクの非常に大きなバイオメディカルデータセットを、約3万3000人以上の個人と50万の変種で分析することができます。 最後に, CIFAR-10 と CIFAR-100 における 'CCA- Family' Self-Supervised Learning (SSL) 手法の性能を最小限のハイパーパラメータチューニングで再現するだけでなく, 従来の CCA との最初の理論的リンクを確立し, 今後の知見の基盤となる。

The Canonical Correlation Analysis (CCA) family of methods is foundational in multi-view learning. Regularised linear CCA methods can be seen to generalise Partial Least Squares (PLS) and be unified with a Generalized Eigenvalue Problem (GEP) framework. However, classical algorithms for these linear methods are computationally infeasible for large-scale data. Extensions to Deep CCA show great promise, but current training procedures are slow and complicated. First we propose a novel unconstrained objective that characterizes the top subspace of GEPs. Our core contribution is a family of fast algorithms for stochastic PLS, stochastic CCA, and Deep CCA, simply obtained by applying stochastic gradient descent (SGD) to the corresponding CCA objectives. These methods show far faster convergence and recover higher correlations than the previous state-of-the-art on all standard CCA and Deep CCA benchmarks. This speed allows us to perform a first-of-its-kind PLS analysis of an extremely large biomedical dataset from the UK Biobank, with over 33,000 individuals and 500,000 variants. Finally, we not only match the performance of `CCA-family' Self-Supervised Learning (SSL) methods on CIFAR-10 and CIFAR-100 with minimal hyper-parameter tuning, but also establish the first solid theoretical links to classical CCA, laying the groundwork for future insights.
翻訳日:2023-11-23 18:30:04 公開日:2023-11-21
# 相互距離予測によるシーン認識型人間の動き予測

Scene-aware Human Motion Forecasting via Mutual Distance Prediction ( http://arxiv.org/abs/2310.00615v2 )

ライセンス: Link先を確認
Chaoyue Xing and Wei Mao and Miaomiao Liu(参考訳) 本稿では,シーン認識型3次元ヒューマンモーション予測の問題に取り組む。 この課題の重要な課題は、人間とシーンの相互作用をモデル化することで、シーンと一致する未来の人間の動きを予測することである。 近年の研究では、人間とシーンの相互作用に対する明示的な制約がゴースト運動の発生を妨げていることが示されているが、それらは部分的な人間の動き、例えば人間の大域的な動きやシーンに接触するいくつかの関節にのみ制約を与え、残りの動きは拘束されない。 この制限に対処するため,人体とシーン間の相互距離との人間とシーンの相互作用をモデル化する。 このような相互距離は局所的な動きと大域的な動きの両方を制約し、結果として全身的な動きは予測される。 特に、相互距離制約は、人間のメッシュ上の各頂点からシーン表面への符号付き距離と、基本シーンポイントからヒューマンメッシュへの距離という2つの構成要素から構成されている。 さらに、符号付き距離関数(SDF)ボリュームから学習したグローバルシーン表現を導入し、グローバルシーン表現と相互距離からの明示的制約との整合性を確保する。 2つのステップでパイプラインを構築し、まず、将来の相互距離を予測し、次に、将来の人間の動きを予測する。 トレーニング中、予測されたポーズと相互距離の一貫性を明示的に促進する。 既存の合成データと実データに関する広範な評価は、我々のアプローチが最先端の手法を一貫して上回っていることを示している。

In this paper, we tackle the problem of scene-aware 3D human motion forecasting. A key challenge of this task is to predict future human motions that are consistent with the scene by modeling the human-scene interactions. While recent works have demonstrated that explicit constraints on human-scene interactions can prevent the occurrence of ghost motion, they only provide constraints on partial human motion e.g., the global motion of the human or a few joints contacting the scene, leaving the rest of the motion unconstrained. To address this limitation, we propose to model the human-scene interaction with the mutual distance between the human body and the scene. Such mutual distances constrain both the local and global human motion, resulting in a whole-body motion constrained prediction. In particular, mutual distance constraints consist of two components, the signed distance of each vertex on the human mesh to the scene surface and the distance of basis scene points to the human mesh. We further introduce a global scene representation learned from a signed distance function (SDF) volume to ensure coherence between the global scene representation and the explicit constraint from the mutual distance. We develop a pipeline with two sequential steps: predicting the future mutual distances first, followed by forecasting future human motion. During training, we explicitly encourage consistency between predicted poses and mutual distances. Extensive evaluations on the existing synthetic and real datasets demonstrate that our approach consistently outperforms the state-of-the-art methods.
翻訳日:2023-11-23 18:29:37 公開日:2023-11-21
# GeoCLIP: 位置と画像のクリップインスパイアされたアライメントによる世界規模のジオローカライゼーション

GeoCLIP: Clip-Inspired Alignment between Locations and Images for Effective Worldwide Geo-localization ( http://arxiv.org/abs/2309.16020v2 )

ライセンス: Link先を確認
Vicente Vivanco Cepeda, Gaurav Kumar Nayak, Mubarak Shah(参考訳) 世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。 この課題は、地理的景観の大幅な変化による大きな課題である。 画像から画像への検索に基づくアプローチは、世界全体をカバーする大規模な画像ギャラリーを構築することができないため、この問題を解決できない。 代わりに、既存のアプローチは地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。 しかし、それらの性能は予め定義されたクラスによって制限され、しばしば、画像の位置がクラス中心から著しくずれるときに不正確なローカライズをもたらす。 このような制約を克服するために,新しいCLIPにインスパイアされた画像からGPSへの検索手法であるGeoCLIPを提案する。 GeoCLIPのロケーションエンコーダは、ランダムなフーリエ特徴を通して位置エンコーディングを使用して地球を連続関数としてモデル化し、様々な解像度で情報をキャプチャして、地理的ローカライゼーションを超えて使うのに適した意味的にリッチな高次元特徴を与える階層的な表現を構築する。 我々の知る限りでは、ジオローカライゼーションにGPSエンコーディングを利用した最初の作品である。 ベンチマークデータセットにおける広範囲な実験とアブレーションにより,本手法の有効性を実証する。 トレーニングデータのわずか20%で競合性能を達成し、限られたデータ設定でもその有効性を強調します。 さらに,画像エンコーダのCLIPバックボーンを活用することで,テキストクエリを用いた地理的ローカライゼーションを質的に実証する。 プロジェクトのwebページは、https://vicentevivan.github.io/geoclip

Worldwide Geo-localization aims to pinpoint the precise location of images taken anywhere on Earth. This task has considerable challenges due to immense variation in geographic landscapes. The image-to-image retrieval-based approaches fail to solve this problem on a global scale as it is not feasible to construct a large gallery of images covering the entire world. Instead, existing approaches divide the globe into discrete geographic cells, transforming the problem into a classification task. However, their performance is limited by the predefined classes and often results in inaccurate localizations when an image's location significantly deviates from its class center. To overcome these limitations, we propose GeoCLIP, a novel CLIP-inspired Image-to-GPS retrieval approach that enforces alignment between the image and its corresponding GPS locations. GeoCLIP's location encoder models the Earth as a continuous function by employing positional encoding through random Fourier features and constructing a hierarchical representation that captures information at varying resolutions to yield a semantically rich high-dimensional feature suitable to use even beyond geo-localization. To the best of our knowledge, this is the first work employing GPS encoding for geo-localization. We demonstrate the efficacy of our method via extensive experiments and ablations on benchmark datasets. We achieve competitive performance with just 20% of training data, highlighting its effectiveness even in limited-data settings. Furthermore, we qualitatively demonstrate geo-localization using a text query by leveraging CLIP backbone of our image encoder. The project webpage is available at: https://vicentevivan.github.io/GeoCLIP
翻訳日:2023-11-23 18:28:50 公開日:2023-11-21
# HINT: 健康なインフルエンシャルノイズをベースとしたデータ攻撃防止トレーニング

HINT: Healthy Influential-Noise based Training to Defend against Data Poisoning Attacks ( http://arxiv.org/abs/2309.08549v3 )

ライセンス: Link先を確認
Minh-Hao Van, Alycia N. Carey, Xintao Wu(参考訳) 信頼できないデータソースからの有毒な攻撃を禁止するために、多くの防衛方法が提案されているが、ほとんどの研究は特定の攻撃に対してのみ防御する。 本研究では,影響関数に基づくデータ中毒攻撃から守るための効率的かつ堅牢なトレーニング手法である health influential-noise based trainingを提案する。 影響関数を用いることで,検査データの一般化能力に悪影響を与えることなく,中毒攻撃に対する分類モデルを強固にするための健全なノイズを作成する。 さらに,本手法は,これまでのいくつかの研究で使用されてきたすべての例にノイズを加える方法ではなく,トレーニングデータのサブセットだけを修正した場合に有効に動作する。 我々は,異なる現実的な攻撃シナリオにおいて,最先端の中毒攻撃を伴う2つの画像データセットを総合的に評価する。 実験の結果,HINTは非標的および標的の毒殺攻撃の効果に対して,ディープラーニングモデルを効果的に保護できることがわかった。

While numerous defense methods have been proposed to prohibit potential poisoning attacks from untrusted data sources, most research works only defend against specific attacks, which leaves many avenues for an adversary to exploit. In this work, we propose an efficient and robust training approach to defend against data poisoning attacks based on influence functions, named Healthy Influential-Noise based Training. Using influence functions, we craft healthy noise that helps to harden the classification model against poisoning attacks without significantly affecting the generalization ability on test data. In addition, our method can perform effectively when only a subset of the training data is modified, instead of the current method of adding noise to all examples that has been used in several previous works. We conduct comprehensive evaluations over two image datasets with state-of-the-art poisoning attacks under different realistic attack scenarios. Our empirical results show that HINT can efficiently protect deep learning models against the effect of both untargeted and targeted poisoning attacks.
翻訳日:2023-11-23 18:27:46 公開日:2023-11-21
# 拡散モデルによるEHR時系列の信頼性生成

Reliable Generation of EHR Time Series via Diffusion Models ( http://arxiv.org/abs/2310.15290v2 )

ライセンス: Link先を確認
Muhang Tian, Bernie Chen, Allan Guo, Shiyi Jiang, Anru R. Zhang(参考訳) 電子健康記録(ehrs)は、検査、医薬品、診断を含む患者レベルのデータの豊富な情報源であり、医療データ分析に有用なリソースを提供する。 しかし、プライバシーに関する懸念はしばしばEHRへのアクセスを制限し、下流の分析を妨げる。 研究者たちは、プライバシー保護のEHRデータを生成する様々な方法を模索してきた。 本研究では,Denoising Diffusion Probabilistic Models (DDPM) を用いて,多種多様なリアルな合成EHR時系列データを生成する手法を提案する。 提案手法と既存手法を比較検討し、6つのデータセットについて実験を行った。 以上の結果から,本手法はトレーニングの労力を少なくしながら,データユーティリティの観点から既存手法を著しく上回ります。 本手法は,多様で現実的なehrデータを提供することにより,下流医療データ解析も強化する。

Electronic Health Records (EHRs) are rich sources of patient-level data, including laboratory tests, medications, and diagnoses, offering valuable resources for medical data analysis. However, concerns about privacy often restrict access to EHRs, hindering downstream analysis. Researchers have explored various methods for generating privacy-preserving EHR data. In this study, we introduce a new method for generating diverse and realistic synthetic EHR time series data using Denoising Diffusion Probabilistic Models (DDPM). We conducted experiments on six datasets, comparing our proposed method with eight existing methods. Our results demonstrate that our approach significantly outperforms all existing methods in terms of data utility while requiring less training effort. Our approach also enhances downstream medical data analysis by providing diverse and realistic synthetic EHR data.
翻訳日:2023-11-23 18:15:32 公開日:2023-11-21
# 専門家を1つにマージする:専門家の混合の計算効率を改善する

Merging Experts into One: Improving Computational Efficiency of Mixture of Experts ( http://arxiv.org/abs/2310.09832v3 )

ライセンス: Link先を確認
Shwai He, Run-Ze Fan, Liang Ding, Li Shen, Tianyi Zhou, Dacheng Tao(参考訳) 言語モデルのサイズを拡大することは、通常、NLPタスクにおいて顕著な進歩をもたらす。 しかし、しばしば計算コストが増加するという価格が伴う。 スパースミキチャー・オブ・エキスパート(MoE)は、入力ごとにパラメータの小さなサブセット(例えば1つのエキスパート)を活性化することでコストを削減できるが、その計算はアクティベートされた専門家の数を増やして実用性を制限すると著しく増大する。 計算コストを大幅に高めることなく、専門家を増やすという利点を維持できるだろうか? 本稿では,まず,複数の専門家を選択することの優位性を実証し,その上で,計算コストを1人の専門家に還元する「textbf{\texttt{Merging Experts into One}} (MEO)」という計算効率の高い手法を提案する。 大規模な実験により、MEOは計算効率を著しく改善し、例えば、FLOPSはバニラMoEの72.0Gから28.6G(MEO)へと低下する。 さらに,トークンレベルのMEO(例えば 83.3\% (MEO) 対 82.6\% (vanilla MoE) 平均スコア) の GLUE ベンチマークにおける効率と性能をさらに向上させるトークンレベルの注目ブロックを提案する。 私たちのコードは受け入れ次第解放されます。 コードは \url{https://github.com/shwai-he/meo} でリリースされる。

Scaling the size of language models usually leads to remarkable advancements in NLP tasks. But it often comes with a price of growing computational cost. Although a sparse Mixture of Experts (MoE) can reduce the cost by activating a small subset of parameters (e.g., one expert) for each input, its computation escalates significantly if increasing the number of activated experts, limiting its practical utility. Can we retain the advantages of adding more experts without substantially increasing the computational costs? In this paper, we first demonstrate the superiority of selecting multiple experts and then propose a computation-efficient approach called \textbf{\texttt{Merging Experts into One}} (MEO), which reduces the computation cost to that of a single expert. Extensive experiments show that MEO significantly improves computational efficiency, e.g., FLOPS drops from 72.0G of vanilla MoE to 28.6G (MEO). Moreover, we propose a token-level attention block that further enhances the efficiency and performance of token-level MEO, e.g., 83.3\% (MEO) vs. 82.6\% (vanilla MoE) average score on the GLUE benchmark. Our code will be released upon acceptance. Code will be released at: \url{https://github.com/Shwai-He/MEO}.
翻訳日:2023-11-23 18:14:47 公開日:2023-11-21
# 視覚的注意喚起予測と学習

Visual Attention-Prompted Prediction and Learning ( http://arxiv.org/abs/2310.08420v2 )

ライセンス: Link先を確認
Yifei Zhang, Siyi Gu, Bo Pan, Guangji Bai, Xiaofeng Yang, Liang Zhao(参考訳) explanation(attention)-guided learningは、トレーニングフェーズ中に人間の理解を取り入れることで、モデルの予測能力を高める手法である。 注意誘導学習は有望な結果を示しているが、しばしば時間と計算コストのかかるモデル再訓練を伴う。 そこで本研究では,モデルの再トレーニングを必要とせず,注意プロンプトによる直接予測を可能にする注意喚起予測手法を提案する。 しかし、このアプローチにはいくつかの課題がある。 1) モデルの意思決定プロセスに視覚注意プロンプトを組み込んで,プロンプトがなくても将来の予測に活用するにはどうすればよいか? そして 2)不完全な情報を視覚注意プロンプトからどのように扱うか? これらの課題に対処するために,視覚的注意喚起をモデル決定プロセスにシームレスに統合し,注意喚起を伴わずに画像に適応する,視覚的注意喚起予測学習という新しいフレームワークを提案する。 視覚注意プロンプトの不完全な情報に対処するために,摂動に基づく注意マップ修正法を提案する。 さらに,アテンションマップ修正過程における適応的摂動アノテーションアグリゲーションのための新しい重み学習機能を備えた,最適化に基づくマスクアグリゲーション手法を提案する。 我々のフレームワークは、注意喚起のないサンプルであっても将来予測を高めるために、注意喚起ガイド付きマルチタスク方式で学習し、より良い収束のために交互に訓練するように設計されている。 2つのデータセットで実施した大規模な実験により,提案手法の有効性が示された。

Explanation(attention)-guided learning is a method that enhances a model's predictive power by incorporating human understanding during the training phase. While attention-guided learning has shown promising results, it often involves time-consuming and computationally expensive model retraining. To address this issue, we introduce the attention-prompted prediction technique, which enables direct prediction guided by the attention prompt without the need for model retraining. However, this approach presents several challenges, including: 1) How to incorporate the visual attention prompt into the model's decision-making process and leverage it for future predictions even in the absence of a prompt? and 2) How to handle the incomplete information from the visual attention prompt? To tackle these challenges, we propose a novel framework called Visual Attention-Prompted Prediction and Learning, which seamlessly integrates visual attention prompts into the model's decision-making process and adapts to images both with and without attention prompts for prediction. To address the incomplete information of the visual attention prompt, we introduce a perturbation-based attention map modification method. Additionally, we propose an optimization-based mask aggregation method with a new weight learning function for adaptive perturbed annotation aggregation in the attention map modification process. Our overall framework is designed to learn in an attention-prompt guided multi-task manner to enhance future predictions even for samples without attention prompts and trained in an alternating manner for better convergence. Extensive experiments conducted on two datasets demonstrate the effectiveness of our proposed framework in enhancing predictions for samples, both with and without provided prompts.
翻訳日:2023-11-23 18:14:17 公開日:2023-11-21
# 超伝導準粒子増幅トランスモン:MeVスケールフォノンと単一THz光子のためのQubitベースのセンサ

The Superconducting Quasiparticle-Amplifying Transmon: A Qubit-Based Sensor for meV Scale Phonons and Single THz Photons ( http://arxiv.org/abs/2310.01345v2 )

ライセンス: Link先を確認
Caleb W. Fink, Chiara P. Salemi, Betty A. Young, David I. Schuster, Noah A. Kurinsky(参考訳) 量子コンピューティングコミュニティから大きな関心が寄せられ、超伝導量子ビットの改善に多大な研究開発が費やされてきた。 これらの量子ビットの設計と製造のために開発された技術は、超低閾値粒子検出器、例えば低質量ダークマターや遠赤外線フォトンセンシングへの応用に直接適用することができる。 本稿では,トランスモン量子ビットアーキテクチャに基づく新しいセンサと,信号エンハンシング超電導準粒子増幅段を提案する。 これらのセンサをSQUATs: Superconducting Quasi Particle-Amplifying Transmonsと呼ぶ。 この新しいセンサの動作原理と設計について詳述し、これらのセンサでパターン化された固体検出器は、最小の研究開発努力で、単一のTHz光子に対する感度、および1,\mathrm{meV}$フォノンに対する感度を、$\mu\mathrm{s}$タイムスケールの検出器吸収基板上の1,\mathrm{meV}$フォノンに達成できると予測する。

With great interest from the quantum computing community, an immense amount of R&D effort has been invested into improving superconducting qubits. The technologies developed for the design and fabrication of these qubits can be directly applied to applications for ultra-low threshold particle detectors, e.g. low-mass dark matter and far-IR photon sensing. We propose a novel sensor based on the transmon qubit architecture combined with a signal-enhancing superconducting quasiparticle amplification stage. We refer to these sensors as SQUATs: Superconducting Quasiparticle-Amplifying Transmons. We detail the operating principle and design of this new sensor and predict that with minimal R&D effort, solid-state based detectors patterned with these sensors can achieve sensitivity to single THz photons, and sensitivity to $1\,\mathrm{meV}$ phonons in the detector absorber substrate on the $\mu\mathrm{s}$ timescale.
翻訳日:2023-11-23 18:12:51 公開日:2023-11-21
# 3+1)Dフェルミオン$\mathbb{Z}_2$ゲージ理論の高次群対称性:高次対称性からの論理CCZ,CS,Tゲート

Higher-group symmetry of (3+1)D fermionic $\mathbb{Z}_2$ gauge theory: logical CCZ, CS, and T gates from higher symmetry ( http://arxiv.org/abs/2311.05674v2 )

ライセンス: Link先を確認
Maissam Barkeshli, Po-Shen Hsin, Ryohei Kobayashi(参考訳) 最近、有限群位相ゲージ理論の完全な大域対称性は、より高い群の構造を含むことが理解されている。 ここでは、3+1)D $\mathbb{Z}_2$ゲージ理論の高群構造を創発的なフェルミオンで研究し、キラル$p+ip$位相状態の励起は混合重力異常を伴う$\mathbb{Z}_{8}$ 0-形式対称性をもたらすことを指摘した。 この通常の対称性は他の高次対称性と混合し、3つの群構造を形成する。 次に、安定化器量子符号の文脈において、それぞれ$T^3$ (3-torus) と $T^2 \rtimes_{C_2} S^1$ (2-torus bundle over the circle) の離散化に符号を配置し、$p+ip$状態の励起を行うことにより、論理CCZ と CS ゲートが得られることを示す。 我々はまた、$\mathbb{RP}^3$にコードを配置し、$p+ip$トポロジカルステートをポンプすることで、論理的な$T$ゲートの可能性も示唆している。

It has recently been understood that the complete global symmetry of finite group topological gauge theories contains the structure of a higher-group. Here we study the higher-group structure in (3+1)D $\mathbb{Z}_2$ gauge theory with an emergent fermion, and point out that pumping chiral $p+ip$ topological states gives rise to a $\mathbb{Z}_{8}$ 0-form symmetry with mixed gravitational anomaly. This ordinary symmetry mixes with the other higher symmetries to form a 3-group structure, which we examine in detail. We then show that in the context of stabilizer quantum codes, one can obtain logical CCZ and CS gates by placing the code on a discretization of $T^3$ (3-torus) and $T^2 \rtimes_{C_2} S^1$ (2-torus bundle over the circle) respectively, and pumping $p+ip$ states. Our considerations also imply the possibility of a logical $T$ gate by placing the code on $\mathbb{RP}^3$ and pumping a $p+ip$ topological state.
翻訳日:2023-11-23 18:02:50 公開日:2023-11-21
# 正則化マルチタスク学習による恒星スペクトルのパラメータ化

deep-REMAP: Parameterization of Stellar Spectra Using Regularized Multi-Task Learning ( http://arxiv.org/abs/2311.03738v2 )

ライセンス: Link先を確認
Sankalp Gilda(参考訳) 従来のスペクトル分析法は、現代の天文学調査によって生成されたデータの爆発によってますます困難になってきた。 そこで我々は,PHOENIXライブラリからのリッチな合成スペクトルとMARVELSサーベイによる観測データを用いて,恒星大気パラメータを正確に予測する新しいフレームワークである,確率推論のための非対称損失を用いた深層正規化型マルチタスク学習("\rm{deep-REMAP}$")を開発した。 マルチタスク学習や革新的な非対称損失関数を含む高度な機械学習技術を活用することで、$\rm{deep-REMAP}$は観測されたスペクトルから有効温度、表面重力、および金属性を決定する優れた予測能力を示す。 本結果は,他の恒星ライブラリやプロパティに拡張する上でのフレームワークの有効性を明らかにし,より高度で自動的な特徴付け手法の道を開いた。

Traditional spectral analysis methods are increasingly challenged by the exploding volumes of data produced by contemporary astronomical surveys. In response, we develop deep-Regularized Ensemble-based Multi-task Learning with Asymmetric Loss for Probabilistic Inference ($\rm{deep-REMAP}$), a novel framework that utilizes the rich synthetic spectra from the PHOENIX library and observational data from the MARVELS survey to accurately predict stellar atmospheric parameters. By harnessing advanced machine learning techniques, including multi-task learning and an innovative asymmetric loss function, $\rm{deep-REMAP}$ demonstrates superior predictive capabilities in determining effective temperature, surface gravity, and metallicity from observed spectra. Our results reveal the framework's effectiveness in extending to other stellar libraries and properties, paving the way for more sophisticated and automated techniques in stellar characterization.
翻訳日:2023-11-23 18:02:02 公開日:2023-11-21
# 複数のデータセットにまたがる宇宙パラメータを制約するドメイン適応グラフニューラルネットワーク

Domain Adaptive Graph Neural Networks for Constraining Cosmological Parameters Across Multiple Data Sets ( http://arxiv.org/abs/2311.01588v2 )

ライセンス: Link先を確認
Andrea Roncoli, Aleksandra \'Ciprijanovi\'c, Maggie Voetberg, Francisco Villaescusa-Navarro, Brian Nord(参考訳) 深層学習モデルは、複雑な宇宙データから情報を取り出す際に、パワースペクトルのような要約統計に依存する方法よりも優れていることが示されている。 しかし、サブグリッド物理学の実装と異なるシミュレーションスイートの数値近似の違いから、ある宇宙論シミュレーションのデータに基づいて訓練されたモデルは、別のシミュレーションでテストした場合のパフォーマンス低下を示す。 同様に、シミュレーションでトレーニングされたモデルも、観測データに適用するとパフォーマンスが低下する可能性がある。 CAMELS流体力学シミュレーションの2つの異なるスイートからのデータを学習し、ドメイン適応グラフニューラルネットワーク(DA-GNN)の一般化能力について検討する。 GNNを利用することで、銀河分布から構造化された無スケール宇宙情報を取得する能力に乗じる。 さらに,MMD(Maximum Mean Discrepancy)による教師なしドメイン適応を組み込むことで,ドメイン不変の特徴を抽出することができる。 DA-GNNは、データセット間のタスクにおいて高い精度とロバスト性を達成する(最大28 % の相対誤差と、ほぼ1 桁の約$\chi^2$)。 データ可視化を用いて,適切な潜在空間データアライメントに対する領域適応の効果を示す。 このことは、DA-GNNがドメインに依存しない宇宙情報抽出の有望な方法であり、実際の宇宙調査データに対する堅牢な深層学習に向けた重要なステップであることを示している。

Deep learning models have been shown to outperform methods that rely on summary statistics, like the power spectrum, in extracting information from complex cosmological data sets. However, due to differences in the subgrid physics implementation and numerical approximations across different simulation suites, models trained on data from one cosmological simulation show a drop in performance when tested on another. Similarly, models trained on any of the simulations would also likely experience a drop in performance when applied to observational data. Training on data from two different suites of the CAMELS hydrodynamic cosmological simulations, we examine the generalization capabilities of Domain Adaptive Graph Neural Networks (DA-GNNs). By utilizing GNNs, we capitalize on their capacity to capture structured scale-free cosmological information from galaxy distributions. Moreover, by including unsupervised domain adaptation via Maximum Mean Discrepancy (MMD), we enable our models to extract domain-invariant features. We demonstrate that DA-GNN achieves higher accuracy and robustness on cross-dataset tasks (up to $28\%$ better relative error and up to almost an order of magnitude better $\chi^2$). Using data visualizations, we show the effects of domain adaptation on proper latent space data alignment. This shows that DA-GNNs are a promising method for extracting domain-independent cosmological information, a vital step toward robust deep learning for real cosmic survey data.
翻訳日:2023-11-23 18:00:56 公開日:2023-11-21
# 確率的プログラミングのための拡散モデル

Diffusion models for probabilistic programming ( http://arxiv.org/abs/2311.00474v2 )

ライセンス: Link先を確認
Simon Dirmeier and Fernando Perez-Cruz(参考訳) 本稿では,確率型プログラミング言語 (PPL) における自動近似推論手法である拡散モデル変分推論 (DMVI) を提案する。 dmviは拡散モデルを真の後続分布の変分近似として利用し、ベイズモデルで使われる限界公約目標に束縛された新しい帰結を導出する。 DMVIは実装が容易で、例えば正規化フローを用いた変分推論の欠点を伴わずに、PPLでヘイズルフリー推論が可能であり、基礎となるニューラルネットワークモデルに制約を課さない。 DMVIを一般的なベイズモデルの集合上で評価し、その後部推論がPPLで使われている手法よりも一般的に正確であり、計算コストも同等であり、手動のチューニングも少ないことを示す。

We propose Diffusion Model Variational Inference (DMVI), a novel method for automated approximate inference in probabilistic programming languages (PPLs). DMVI utilizes diffusion models as variational approximations to the true posterior distribution by deriving a novel bound to the marginal likelihood objective used in Bayesian modelling. DMVI is easy to implement, allows hassle-free inference in PPLs without the drawbacks of, e.g., variational inference using normalizing flows, and does not make any constraints on the underlying neural network model. We evaluate DMVI on a set of common Bayesian models and show that its posterior inferences are in general more accurate than those of contemporary methods used in PPLs while having a similar computational cost and requiring less manual tuning.
翻訳日:2023-11-23 18:00:00 公開日:2023-11-21
# ガウス位相検索における加速と帰納規則化

Acceleration and Implicit Regularization in Gaussian Phase Retrieval ( http://arxiv.org/abs/2311.12888v1 )

ライセンス: Link先を確認
Tyler Maunu, Martin Molina-Fructuoso(参考訳) ガウス位相探索問題における高速化最適化法について検討する。 この設定では、Polyak や Nesterov の運動量を持つ勾配法が勾配降下に類似した暗黙的な正規化を持つことを示す。 この暗黙の正則化により、コスト関数が非凸であるにもかかわらず強く凸かつ滑らかな領域にアルゴリズムが残ることが保証される。 これにより、これらの加速手法は勾配降下よりも収束速度が速いことが保証される。 実験的証拠は、実際に加速された手法が勾配降下よりも速く収束することを示している。

We study accelerated optimization methods in the Gaussian phase retrieval problem. In this setting, we prove that gradient methods with Polyak or Nesterov momentum have similar implicit regularization to gradient descent. This implicit regularization ensures that the algorithms remain in a nice region, where the cost function is strongly convex and smooth despite being nonconvex in general. This ensures that these accelerated methods achieve faster rates of convergence than gradient descent. Experimental evidence demonstrates that the accelerated methods converge faster than gradient descent in practice.
翻訳日:2023-11-23 17:50:33 公開日:2023-11-21
# スマートルーティングルールとワークフロー管理を備えたAIアルゴリズムデプロイメントの統合と実装戦略

Integration and Implementation Strategies for AI Algorithm Deployment with Smart Routing Rules and Workflow Management ( http://arxiv.org/abs/2311.10840v2 )

ライセンス: Link先を確認
Barbaros Selnur Erdal, Vikash Gupta, Mutlu Demirer, Kim H. Fair, Richard D. White, Jeff Blair, Barbara Deichert, Laurie Lafleur, Ming Melvin Qin, David Bericat, Brad Genereaux(参考訳) 本稿では、医療産業における人工知能(AI)ソリューションの普及を妨げている課題について、医療画像のコンピュータビジョンアプリケーションに焦点をあて、相互運用性とエンタープライズグレードのスケーラビリティがこれらの課題にどう対処できるかを考察する。 医療ワークフローの複雑な性質、大規模でセキュアな医療画像データ管理の複雑さ、ai開発のための標準化されたフレームワークの欠如は、大きな障壁をもたらし、それらに対処するための新しいパラダイムを必要とする。 本稿では、医療ワークフローにおける異種アプリケーションを接続するための重要な要素として、相互運用性の役割について考察する。 dicom、health level 7 (hl7)、integration the healthcare enterprise (ihe)などの標準は、一般的なイメージングワークフローの基礎として強調されている。 この分野における変革の取り組みを主導するSmart Routing RulesとWorkflow Managementによって、DICOMゲートウェイの役割に特に焦点が当てられている。 エンタープライズのスケーラビリティを促進するには、新しいツールが必要です。 2019年に設立されたMonAIプロジェクトは、医療AIアプリケーションの開発を再定義するためのイニシアチブとして紹介されている。 Project MONAIのコンポーネントであるMONAI Deploy App SDKは、パッケージングとデプロイメントプロセスを簡素化し、AIアプリケーションの反復可能でスケーラブルで標準化されたデプロイメントパターンを可能にする重要なツールとして特定されている。 この抽象概念は、医療におけるAIの採用の成功による潜在的影響を強調し、救命と省エネの両方の洞察と、放射線科のワークフローにおける効率の促進を提供する。 学術と産業の協力的努力は、医療AIソリューションの採用を促進する上で不可欠であると強調されている。

This paper reviews the challenges hindering the widespread adoption of artificial intelligence (AI) solutions in the healthcare industry, focusing on computer vision applications for medical imaging, and how interoperability and enterprise-grade scalability can be used to address these challenges. The complex nature of healthcare workflows, intricacies in managing large and secure medical imaging data, and the absence of standardized frameworks for AI development pose significant barriers and require a new paradigm to address them. The role of interoperability is examined in this paper as a crucial factor in connecting disparate applications within healthcare workflows. Standards such as DICOM, Health Level 7 (HL7), and Integrating the Healthcare Enterprise (IHE) are highlighted as foundational for common imaging workflows. A specific focus is placed on the role of DICOM gateways, with Smart Routing Rules and Workflow Management leading transformational efforts in this area. To drive enterprise scalability, new tools are needed. Project MONAI, established in 2019, is introduced as an initiative aiming to redefine the development of medical AI applications. The MONAI Deploy App SDK, a component of Project MONAI, is identified as a key tool in simplifying the packaging and deployment process, enabling repeatable, scalable, and standardized deployment patterns for AI applications. The abstract underscores the potential impact of successful AI adoption in healthcare, offering physicians both life-saving and time-saving insights and driving efficiencies in radiology department workflows. The collaborative efforts between academia and industry, are emphasized as essential for advancing the adoption of healthcare AI solutions.
翻訳日:2023-11-23 17:47:58 公開日:2023-11-21
# 自律運転のための言語エージェント

A Language Agent for Autonomous Driving ( http://arxiv.org/abs/2311.10813v2 )

ライセンス: Link先を確認
Jiageng Mao and Junjie Ye and Yuxi Qian and Marco Pavone and Yue Wang(参考訳) 人間レベルの運転は、自動運転の究極の目標である。 従来のアプローチでは、認識予測計画の枠組みとして自律運転を定式化しているが、そのシステムは人間の固有の推論能力や経験的知識に乗じていない。 本稿では,人間のような知性を自律運転システムに統合する認知エージェントとして,Large Language Models (LLMs) を利用した現行のパイプラインからの基本パラダイムシフトを提案する。 agent-driverと呼ばれるこのアプローチは、関数呼び出しを通じてアクセス可能な汎用ツールライブラリ、意思決定のための常識と経験的知識の認知記憶、思考の連鎖推論、タスク計画、動き計画、自己回帰が可能な推論エンジンを導入することで、従来の自動運転パイプラインを変換します。 LLMによって駆動されるエージェントドライブには直感的な常識と頑健な推論能力が備わっており、自動運転に対する人間的なアプローチをより微妙に実現しています。 我々は,大規模なnuscenesベンチマークのアプローチを評価し,エージェントドライバが最先端の運転方法を大きく上回っていることを示す実験を行った。 また,本手法は,これらの手法に対して,優れた解釈可能性と少ない学習能力を示す。 コードはリリースされる。

Human-level driving is an ultimate goal of autonomous driving. Conventional approaches formulate autonomous driving as a perception-prediction-planning framework, yet their systems do not capitalize on the inherent reasoning ability and experiential knowledge of humans. In this paper, we propose a fundamental paradigm shift from current pipelines, exploiting Large Language Models (LLMs) as a cognitive agent to integrate human-like intelligence into autonomous driving systems. Our approach, termed Agent-Driver, transforms the traditional autonomous driving pipeline by introducing a versatile tool library accessible via function calls, a cognitive memory of common sense and experiential knowledge for decision-making, and a reasoning engine capable of chain-of-thought reasoning, task planning, motion planning, and self-reflection. Powered by LLMs, our Agent-Driver is endowed with intuitive common sense and robust reasoning capabilities, thus enabling a more nuanced, human-like approach to autonomous driving. We evaluate our approach on the large-scale nuScenes benchmark, and extensive experiments substantiate that our Agent-Driver significantly outperforms the state-of-the-art driving methods by a large margin. Our approach also demonstrates superior interpretability and few-shot learning ability to these methods. Code will be released.
翻訳日:2023-11-23 17:47:32 公開日:2023-11-21
# 自律運転における信頼できる強化学習のための安全対応因果表現

Safety-aware Causal Representation for Trustworthy Reinforcement Learning in Autonomous Driving ( http://arxiv.org/abs/2311.10747v2 )

ライセンス: Link先を確認
Haohong Lin, Wenhao Ding, Zuxin Liu, Yaru Niu, Jiacheng Zhu, Yuming Niu, Ding Zhao(参考訳) 自律運転の分野では、LfD(Learning from Demonstration)パラダイムは、シーケンシャルな意思決定問題に対処する上で顕著な効果を示した。 しかしながら、さまざまなトラフィック状況、特に安全-クリティカルなシナリオにおいて、一貫して安全を達成することは、オフラインデータセットにない長くて予期せぬシナリオのために、大きな課題となる。 本稿では,構造化シナリオ情報を活用した適応型エンド・ツー・エンド運転政策の学習を容易にするための先駆的手法である,安全認識型構造化シナリオ表現(fusion)を提案する。 FUSIONは、分解された報酬、コスト、状態、行動空間の因果関係に乗じて、動的交通環境下での構造化シーケンシャル推論のためのフレームワークを構築する。 自動運転車における配電シフトの典型的な2つの実世界での厳密な評価を行い、現代の安全対応型lfdベースラインと比較して、安全性コストと融合の効用報酬のバランスが良好であることを実証した。 多様な運転シナリオの下での経験的な証拠は、フュージョンが自律運転エージェントの安全性と一般化性を大幅に向上させることを証明している。 さらに, 安全なオフラインRL問題への因果表現の統合において, 顕著な改善が見られた。

In the domain of autonomous driving, the Learning from Demonstration (LfD) paradigm has exhibited notable efficacy in addressing sequential decision-making problems. However, consistently achieving safety in varying traffic contexts, especially in safety-critical scenarios, poses a significant challenge due to the long-tailed and unforeseen scenarios absent from offline datasets. In this paper, we introduce the saFety-aware strUctured Scenario representatION (FUSION), a pioneering methodology conceived to facilitate the learning of an adaptive end-to-end driving policy by leveraging structured scenario information. FUSION capitalizes on the causal relationships between decomposed reward, cost, state, and action space, constructing a framework for structured sequential reasoning under dynamic traffic environments. We conduct rigorous evaluations in two typical real-world settings of distribution shift in autonomous vehicles, demonstrating the good balance between safety cost and utility reward of FUSION compared to contemporary state-of-the-art safety-aware LfD baselines. Empirical evidence under diverse driving scenarios attests that FUSION significantly enhances the safety and generalizability of autonomous driving agents, even in the face of challenging and unseen environments. Furthermore, our ablation studies reveal noticeable improvements in the integration of causal representation into the safe offline RL problem.
翻訳日:2023-11-23 17:47:08 公開日:2023-11-21
# 生成AIの進歩: GAN、GPT、オートエンコーダ、拡散モデル、トランスフォーマーの総合的なレビュー

Advancements in Generative AI: A Comprehensive Review of GANs, GPT, Autoencoders, Diffusion Model, and Transformers ( http://arxiv.org/abs/2311.10242v2 )

ライセンス: Link先を確認
Staphord Bengesi, Hoda El-Sayed, Md Kamruzzaman Sarker, Yao Houkpati, John Irungu, Timothy Oladunni(参考訳) ChatGPTのローンチは世界的な注目を集め、生成人工知能分野における重要なマイルストーンとなった。 Generative AIはこの10年間有効だったが、ChatGPTの導入によって、AI分野における新たな研究とイノベーションの波が浮かび上がった。 この関心の高まりは、Bard、Stable Diffusion、DALL-E、Make-A-Video、Runway ML、Jukeboxなど、数多くの最先端ツールの開発とリリースにつながっている。 これらのツールには、テキスト生成や音楽合成、画像生成、ビデオ生成、コード生成、科学的な作業など、優れた機能がある。 安定拡散(Stable Diffusion)、GPT-3(最近のGPT-4)のようなトランスフォーマーモデル、変分オートエンコーダ、生成的敵ネットワークなど、様々な最先端モデルに基づいている。 このジェネレーティブAIの進歩は、多くのエキサイティングな機会と、同時に前例のない挑戦をもたらす。 本稿では,これらの最先端のモデル,達成可能なタスクの多種多様さ,課題,人工知能の将来への期待について検討した。

The launch of ChatGPT has garnered global attention, marking a significant milestone in the field of Generative Artificial Intelligence. While Generative AI has been in effect for the past decade, the introduction of ChatGPT has ignited a new wave of research and innovation in the AI domain. This surge in interest has led to the development and release of numerous cutting-edge tools, such as Bard, Stable Diffusion, DALL-E, Make-A-Video, Runway ML, and Jukebox, among others. These tools exhibit remarkable capabilities, encompassing tasks ranging from text generation and music composition, image creation, video production, code generation, and even scientific work. They are built upon various state-of-the-art models, including Stable Diffusion, transformer models like GPT-3 (recent GPT-4), variational autoencoders, and generative adversarial networks. This advancement in Generative AI presents a wealth of exciting opportunities and, simultaneously, unprecedented challenges. Throughout this paper, we have explored these state-of-the-art models, the diverse array of tasks they can accomplish, the challenges they pose, and the promising future of Generative Artificial Intelligence.
翻訳日:2023-11-23 17:46:03 公開日:2023-11-21
# 局所畳み込みによる大規模動的空間予測のためのグローバルフーリエニューラル演算子

Local Convolution Enhanced Global Fourier Neural Operator For Multiscale Dynamic Spaces Prediction ( http://arxiv.org/abs/2311.12902v1 )

ライセンス: Link先を確認
Xuanle Zhao, Yue Sun, Tielin Zhang, Bo Xu(参考訳) ニューラル演算子は、偏微分方程式(PDE)を解くために関数空間間の写像を扱えるようにすることで、従来のニューラルネットワークの機能を拡張する。 最も注目すべき手法の1つはフーリエニューラル演算子(FNO)であり、これはグリーンの関数法と周波数領域内での近似演算子カーネルにインスパイアされている。 本研究では,マルチスケールPDEの解法と等価なマルチスケール動的空間の予測に焦点をあてる。 マルチスケールのPDEは、大気対流と海洋循環のモデル化に欠かせない急激な係数変化と溶液空間の振動によって特徴づけられる。 この問題を解決するためには、モデルが迅速な変化をキャプチャし、さまざまなスケールで処理できる必要がある。 しかし、FNOは低周波領域のカーネルのみを近似しており、マルチスケールPDEの解決には不十分である。 この課題に対処するために,改良されたフーリエ層とアテンション機構を統合した階層型ニューラル演算子を提案する。 これらのメカニズムは周波数領域で互いに補完し、モデルにマルチスケールの問題を解決するよう促す。 我々は,多スケール楕円型方程式,ナビエ・ストークス方程式,その他の物理シナリオの前方および逆問題によって支配される動的空間の実験を行い,既存のPDEベンチマーク,特に高速係数の変動を特徴とする方程式において優れた性能を達成する。

Neural operators extend the capabilities of traditional neural networks by allowing them to handle mappings between function spaces for the purpose of solving partial differential equations (PDEs). One of the most notable methods is the Fourier Neural Operator (FNO), which is inspired by Green's function method and approximate operator kernel directly in the frequency domain. In this work, we focus on predicting multiscale dynamic spaces, which is equivalent to solving multiscale PDEs. Multiscale PDEs are characterized by rapid coefficient changes and solution space oscillations, which are crucial for modeling atmospheric convection and ocean circulation. To solve this problem, models should have the ability to capture rapid changes and process them at various scales. However, the FNO only approximates kernels in the low-frequency domain, which is insufficient when solving multiscale PDEs. To address this challenge, we propose a novel hierarchical neural operator that integrates improved Fourier layers with attention mechanisms, aiming to capture all details and handle them at various scales. These mechanisms complement each other in the frequency domain and encourage the model to solve multiscale problems. We perform experiments on dynamic spaces governed by forward and reverse problems of multiscale elliptic equations, Navier-Stokes equations and some other physical scenarios, and reach superior performance in existing PDE benchmarks, especially equations characterized by rapid coefficient variations.
翻訳日:2023-11-23 17:38:37 公開日:2023-11-21
# 微生物からメタンへ:乳牛の飼料添加効果のAIによる予測モデル

From Microbes to Methane: AI-Based Predictive Modeling of Feed Additive Efficacy in Dairy Cows ( http://arxiv.org/abs/2311.12901v1 )

ライセンス: Link先を確認
Yaniv Altshuler, Tzruya Calvao Chebach, Shalom Cohen(参考訳) 持続可能な農業を実現するための圧力が高まっている時代には、収量の向上と環境影響の最小化のための家畜飼料の最適化が最重要目標である。 本研究は, 乳牛の飼料添加物の有効性を予測するために, ルメン微生物データを用いた先駆的アプローチを提案する。 我々は、34箇所に分布するホルスタイン牛2,190頭のメタン排出量を含む広範なデータセットを収集した。 牛は, 乳化日数, 乳化日数, 平均乳生産量などの変数を考慮し, 二重盲検群と無バイアス群に分け, 対照群と実験群に分けた。 実験群はAgolin, Kexxtone, Allimax, Relyonの4種類の主要な市販飼料添加物のうちの1つである。 メタン排出量は添加剤投与前とその後の12週間でそれぞれ測定された。 添加効果予測モデルを開発するために, 実験開始前の同じ群落から510頭のウシからラメン微生物サンプルを採取した。 これらのサンプルは深層メタゲノミクスのショットガンシークエンシングを行い、1サンプルあたり平均1570万の読み出しが得られた。 革新的な人工知能技術を利用して、異なる農場でこれらのフィード添加剤の有効性を推定しました。 モデルの堅牢性は、独立コホートによる検証を通じてさらに確認され、その一般化性と信頼性が確認された。 本研究は,乳の収量と乳の組成を最適化し,メタン排出量を著しく低減するために,飼料添加剤戦略を目標とする形質転換能力を強調した。 特に,我々の予測モデルは,そのアプリケーションが最も有効である農場への添加物の割り当てを誘導できるシナリオを実証する。 そうすることで、全体の排出量の27対%以上を平均的に削減できるのです。

In an era of increasing pressure to achieve sustainable agriculture, the optimization of livestock feed for enhancing yield and minimizing environmental impact is a paramount objective. This study presents a pioneering approach towards this goal, using rumen microbiome data to predict the efficacy of feed additives in dairy cattle. We collected an extensive dataset that includes methane emissions from 2,190 Holstein cows distributed across 34 distinct sites. The cows were divided into control and experimental groups in a double-blind, unbiased manner, accounting for variables such as age, days in lactation, and average milk yield. The experimental groups were administered one of four leading commercial feed additives: Agolin, Kexxtone, Allimax, and Relyon. Methane emissions were measured individually both before the administration of additives and over a subsequent 12-week period. To develop our predictive model for additive efficacy, rumen microbiome samples were collected from 510 cows from the same herds prior to the study's onset. These samples underwent deep metagenomic shotgun sequencing, yielding an average of 15.7 million reads per sample. Utilizing innovative artificial intelligence techniques we successfully estimated the efficacy of these feed additives across different farms. The model's robustness was further confirmed through validation with independent cohorts, affirming its generalizability and reliability. Our results underscore the transformative capability of using targeted feed additive strategies to both optimize dairy yield and milk composition, and to significantly reduce methane emissions. Specifically, our predictive model demonstrates a scenario where its application could guide the assignment of additives to farms where they are most effective. In doing so, we could achieve an average potential reduction of over 27\% in overall emissions.
翻訳日:2023-11-23 17:38:12 公開日:2023-11-21
# 大規模微細画像検索のための自己整合性を考慮した属性認識深部ハッシュ

Attribute-Aware Deep Hashing with Self-Consistency for Large-Scale Fine-Grained Image Retrieval ( http://arxiv.org/abs/2311.12894v1 )

ライセンス: Link先を確認
Xiu-Shen Wei and Yang Shen and Xuhao Sun and Peng Wang and Yuxin Peng(参考訳) 本研究は,クエリの細かな詳細に基づいて,興味のコンセプト(すなわち同じサブカテゴリラベル)を描いた画像をランク付けすることとして,大規模精細画像検索に取り組むことに焦点を当てている。 大きなクラス内変動を伴う小さなクラス間変動のきめ細かな性質と、そのような実用的な課題のためにきめ細かいデータの爆発的成長の課題を緩和することが望ましい。 本稿では,属性対応ハッシュコードを生成するための自己整合性を持つ属性対応ハッシュネットワークを提案し,検索プロセスを効率化するだけでなく,ハッシュコードと視覚属性との明確な対応性を確立する。 具体的には、注目による視覚的表現に基づいて、属性アノテーションを使わずに高レベルな属性固有ベクトルを非教師的に抽出する再構成タスクのエンコーダ・デコーダ構造ネットワークを開発する。 また,これらの属性ベクトルに特徴デコレーション制約を設けて,それらの代表的能力を強化する。 次に、元のエンティティの類似性を保存することで、必要なハッシュコードをこれらの属性固有ベクトルから生成し、属性認識する。 さらに, 深部ハッシュにおける単純さバイアスに対処するため, 自己整合性原理の観点からモデル設計を考察し, 付加的な画像再構成経路を設けることでモデルの自己整合性をさらに高めることを提案する。 6つの細粒度検索データセットと2つのジェネリック検索データセットの多様な実験条件下での定量的実験は、競合する手法よりもモデルの方が優れていることを示す。

Our work focuses on tackling large-scale fine-grained image retrieval as ranking the images depicting the concept of interests (i.e., the same sub-category labels) highest based on the fine-grained details in the query. It is desirable to alleviate the challenges of both fine-grained nature of small inter-class variations with large intra-class variations and explosive growth of fine-grained data for such a practical task. In this paper, we propose attribute-aware hashing networks with self-consistency for generating attribute-aware hash codes to not only make the retrieval process efficient, but also establish explicit correspondences between hash codes and visual attributes. Specifically, based on the captured visual representations by attention, we develop an encoder-decoder structure network of a reconstruction task to unsupervisedly distill high-level attribute-specific vectors from the appearance-specific visual representations without attribute annotations. Our models are also equipped with a feature decorrelation constraint upon these attribute vectors to strengthen their representative abilities. Then, driven by preserving original entities' similarity, the required hash codes can be generated from these attribute-specific vectors and thus become attribute-aware. Furthermore, to combat simplicity bias in deep hashing, we consider the model design from the perspective of the self-consistency principle and propose to further enhance models' self-consistency by equipping an additional image reconstruction path. Comprehensive quantitative experiments under diverse empirical settings on six fine-grained retrieval datasets and two generic retrieval datasets show the superiority of our models over competing methods.
翻訳日:2023-11-23 17:37:42 公開日:2023-11-21
# 動的障害物軌道予測による4軸UAVのサファービジョンに基づく自律計画システムとそのLLMへの応用

A Safer Vision-based Autonomous Planning System for Quadrotor UAVs with Dynamic Obstacle Trajectory Prediction and Its Application with LLMs ( http://arxiv.org/abs/2311.12893v1 )

ライセンス: Link先を確認
Jiageng Zhong, Ming Li, Yinliang Chen, Zihang Wei, Fan Yang, Haoran Shen(参考訳) インテリジェントクアッドコプターUAVにとって、堅牢で信頼性の高い自律計画システムは非常に重要です。 現在のUAVの軌道計画手法は静的な環境に適しているが、ダイナミックな障害物に対処するのに苦労している。 そこで本研究では,動的障害物の追跡と軌道予測を組み合わせて,効率的な自律飛行を実現するビジョンベース計画システムを提案する。 我々は, 軽量物体検出アルゴリズムを用いて動的障害物を同定し, カルマンフィルタを用いて運動状態の追跡と推定を行う。 計画段階では,静的障害物を考えるだけでなく,動的障害物の潜在的動きも考慮する。 トラジェクトリ生成には,B-スプラインに基づくトラジェクトリ探索アルゴリズムを用いる。このアルゴリズムは,UAVの運動特性の安全性と整合性を高めるために,様々な制約に最適化されている。 シミュレーション環境と実環境環境の両方で実験を行い,提案手法は動的環境の障害物をリアルタイムに検出・回避し,既存の手法に比べて信頼性が高いことを示す。 さらに、例外的なゼロショット一般化能力を示す自然言語処理(NLP)技術の進歩により、よりユーザフレンドリーなヒューマンマシンインタラクションの実現が可能となり、また、大規模言語モデル(LLM)と自律計画システムの統合についても検討する。

For intelligent quadcopter UAVs, a robust and reliable autonomous planning system is crucial. Most current trajectory planning methods for UAVs are suitable for static environments but struggle to handle dynamic obstacles, which can pose challenges and even dangers to flight. To address this issue, this paper proposes a vision-based planning system that combines tracking and trajectory prediction of dynamic obstacles to achieve efficient and reliable autonomous flight. We use a lightweight object detection algorithm to identify dynamic obstacles and then use Kalman Filtering to track and estimate their motion states. During the planning phase, we not only consider static obstacles but also account for the potential movements of dynamic obstacles. For trajectory generation, we use a B-spline-based trajectory search algorithm, which is further optimized with various constraints to enhance safety and alignment with the UAV's motion characteristics. We conduct experiments in both simulation and real-world environments, and the results indicate that our approach can successfully detect and avoid obstacles in dynamic environments in real-time, offering greater reliability compared to existing approaches. Furthermore, with the advancements in Natural Language Processing (NLP) technology demonstrating exceptional zero-shot generalization capabilities, more user-friendly human-machine interactions have become feasible, and this study also explores the integration of autonomous planning systems with Large Language Models (LLMs).
翻訳日:2023-11-23 17:37:16 公開日:2023-11-21
# imjense:並列mriにおける関節コイル感度と画像推定のためのスキャン特異的暗黙表現

IMJENSE: Scan-specific Implicit Representation for Joint Coil Sensitivity and Image Estimation in Parallel MRI ( http://arxiv.org/abs/2311.12892v1 )

ライセンス: Link先を確認
Ruimin Feng, Qing Wu, Jie Feng, Huajun She, Chunlei Liu, Yuyao Zhang, and Hongjiang Wei(参考訳) 並列イメージングは、磁気共鳴イメージング(MRI)データ取得を加速するための一般的な技術である。 数学的に、並列MRI再構成は、スパースサンプリングされたk空間の測定と所望のMRI画像との逆問題として定式化することができる。 多くの既存の再構成アルゴリズムの成功にもかかわらず、高品質な画像を高度に縮小されたk空間計測から確実に再構築することは依然として課題である。 近年、暗黙的神経表現は、部分的に獲得したデータの内部情報と物理を利用して所望のオブジェクトを生成する強力なパラダイムとして登場している。 本研究では,スキャン特異的暗黙的表現に基づく並列MRI再構成法IMJENSEを提案する。 具体的には,mri画像とコイル感度を,ニューラルネットワークと多項式によってパラメータ化された空間座標の連続関数としてモデル化した。 ネットワークの重みと多項式の係数は、トレーニング用の基底真理データを完全にサンプリングすることなく、疎に得られたk空間の測定から直接学習された。 mri画像とコイル感度の強力な連続表現と共同推定の恩恵を受け、imjenseは従来の画像やk空間領域再構成アルゴリズムよりも優れている。 極めて限られたキャリブレーションデータにより、IMJENSEは教師付きキャリブレーションレスおよびキャリブレーションベースのディープラーニング手法よりも安定である。 その結果、IMJENSEは5$\mathbf{\times}$と6$\mathbf{\times}$で取得した画像を2Dカルテシア買収でわずか4行または8行のキャリブレーション線しか持たない22.0%と19.5%のアンダーサンプリングレートで頑健に再構成した。 高品質の結果と走査特異性により,提案手法は並列mriのデータ取得をさらに促進する可能性を秘めている。

Parallel imaging is a commonly used technique to accelerate magnetic resonance imaging (MRI) data acquisition. Mathematically, parallel MRI reconstruction can be formulated as an inverse problem relating the sparsely sampled k-space measurements to the desired MRI image. Despite the success of many existing reconstruction algorithms, it remains a challenge to reliably reconstruct a high-quality image from highly reduced k-space measurements. Recently, implicit neural representation has emerged as a powerful paradigm to exploit the internal information and the physics of partially acquired data to generate the desired object. In this study, we introduced IMJENSE, a scan-specific implicit neural representation-based method for improving parallel MRI reconstruction. Specifically, the underlying MRI image and coil sensitivities were modeled as continuous functions of spatial coordinates, parameterized by neural networks and polynomials, respectively. The weights in the networks and coefficients in the polynomials were simultaneously learned directly from sparsely acquired k-space measurements, without fully sampled ground truth data for training. Benefiting from the powerful continuous representation and joint estimation of the MRI image and coil sensitivities, IMJENSE outperforms conventional image or k-space domain reconstruction algorithms. With extremely limited calibration data, IMJENSE is more stable than supervised calibrationless and calibration-based deep-learning methods. Results show that IMJENSE robustly reconstructs the images acquired at 5$\mathbf{\times}$ and 6$\mathbf{\times}$ accelerations with only 4 or 8 calibration lines in 2D Cartesian acquisitions, corresponding to 22.0% and 19.5% undersampling rates. The high-quality results and scanning specificity make the proposed method hold the potential for further accelerating the data acquisition of parallel MRI.
翻訳日:2023-11-23 17:36:50 公開日:2023-11-21
# 同期多視点拡散によるテキストガイドテクスチャ

Text-Guided Texturing by Synchronized Multi-View Diffusion ( http://arxiv.org/abs/2311.12891v1 )

ライセンス: Link先を確認
Yuxin Liu, Minshan Xie, Hanyuan Liu, Tien-Tsin Wong(参考訳) 本稿では,テクスチャを合成し,テキストプロンプトにより所定の3dオブジェクトをドレスアップする新しい手法を提案する。 t2i(pretrained text-to-image)拡散モデルに基づいて、既存の手法は通常、与えられたオブジェクトのビューを最初に生成して別のビューにウォープする、プロジェクト・アンド・インペイント(project-and-inpaint)アプローチを採用している。 しかし、複数のビューの非同期拡散のため、一貫性のないテクスチャを生成する傾向がある。 このような非同期拡散とビュー間の情報共有の不足が、一貫性のないアーティファクトの根本原因であると考えている。 本稿では,異なる視点からの拡散プロセスがプロセスの初期に生成されたコンテンツのコンセンサスに到達し,テクスチャの整合性を確保するための,同期多視点拡散手法を提案する。 拡散を同期させるために、各認知段階において異なるビュー間で認知されたコンテンツを共有し、特にテクスチャ領域内の潜伏したコンテンツを重なり合うビューからブレンドする。 本手法は,最先端手法と比較して,一貫性,シームレス,高精細なテクスチャの生成において優れた性能を示す。

This paper introduces a novel approach to synthesize texture to dress up a given 3D object, given a text prompt. Based on the pretrained text-to-image (T2I) diffusion model, existing methods usually employ a project-and-inpaint approach, in which a view of the given object is first generated and warped to another view for inpainting. But it tends to generate inconsistent texture due to the asynchronous diffusion of multiple views. We believe such asynchronous diffusion and insufficient information sharing among views are the root causes of the inconsistent artifact. In this paper, we propose a synchronized multi-view diffusion approach that allows the diffusion processes from different views to reach a consensus of the generated content early in the process, and hence ensures the texture consistency. To synchronize the diffusion, we share the denoised content among different views in each denoising step, specifically blending the latent content in the texture domain from views with overlap. Our method demonstrates superior performance in generating consistent, seamless, highly detailed textures, comparing to state-of-the-art methods.
翻訳日:2023-11-23 17:36:12 公開日:2023-11-21
# de-fine:自動フィードバックによるビジュアルプログラムの分解とリファイン

De-fine: Decomposing and Refining Visual Programs with Auto-Feedback ( http://arxiv.org/abs/2311.12890v1 )

ライセンス: Link先を確認
Minghe Gao, Juncheng Li, Hao Fei, Wei Ji, Guoming Wang, Wenqiao Zhang, Siliang Tang, Yueting Zhuang(参考訳) モジュール化可能なパラダイムであるビジュアルプログラミングは、様々なモジュールとPython演算子を統合し、様々な視覚言語タスクを解決する。 タスク固有のデータを必要とするエンドツーエンドモデルとは異なり、教師なしの方法で視覚処理と推論を行う。 現在のビジュアルプログラミング手法では,フィードバックに基づいて評価と最適化を行う能力が不足しているタスク毎に,ひとつのパスでプログラムを生成する。 複雑なタスクを自動的に単純なサブタスクに分解し、自動フィードバックによってプログラムを洗練する一般的なフレームワークであるde-fineを紹介する。 このモデルに依存しないアプローチは、複数のモデルの強みを統合することで論理的推論性能を向上させることができる。 様々なビジュアルタスクで実験した結果、de-fineはより正確で堅牢なプログラムを作成し、フィールドに新しいベンチマークを設定しました。

Visual programming, a modular and generalizable paradigm, integrates different modules and Python operators to solve various vision-language tasks. Unlike end-to-end models that need task-specific data, it advances in performing visual processing and reasoning in an unsupervised manner. Current visual programming methods generate programs in a single pass for each task where the ability to evaluate and optimize based on feedback, unfortunately, is lacking, which consequentially limits their effectiveness for complex, multi-step problems. Drawing inspiration from benders decomposition, we introduce De-fine, a general framework that automatically decomposes complex tasks into simpler subtasks and refines programs through auto-feedback. This model-agnostic approach can improve logical reasoning performance by integrating the strengths of multiple models. Our experiments across various visual tasks show that De-fine creates more accurate and robust programs, setting new benchmarks in the field.
翻訳日:2023-11-23 17:35:50 公開日:2023-11-21
# 階層的関係と常識知識によるシーングラフ生成の強化

Enhancing Scene Graph Generation with Hierarchical Relationships and Commonsense Knowledge ( http://arxiv.org/abs/2311.12889v1 )

ライセンス: Link先を確認
Bowen Jiang, Zhijun Zhuang, Camillo Jose Taylor(参考訳) 本研究では,関係階層とコモンセンス知識を取り入れたシーングラフ生成手法を提案する。 具体的には,情報的階層構造を利用したベイズ分類ヘッドを提案する。 2つのオブジェクト間のスーパーカテゴリまたはタイプの関係を、それぞれのスーパーカテゴリの詳細な関係とともに共同で予測する。 我々は,大規模言語モデルを用いてシーングラフ予測システムから結果を批判し,そのフィードバックを用いてモデル性能を向上させるコモンセンス検証パイプラインを設計する。 このシステムは、テスト時に外部の大型言語モデル支援を必要としないため、実用上より便利である。 Visual GenomeとOpenImage V6データセットの実験では、階層的な関係を利用することで、モデルのパフォーマンスが大幅に向上することが示された。 提案したベイズヘッドは、既存のシーングラフ生成アルゴリズムのポータブルモジュールとして組み込んで結果を改善することもできる。 さらに、commonsense validationにより、モデルがデータセットのアノテーションを超えて、広範囲な合理的な予測を生成できる。

This work presents an enhanced approach to generating scene graphs by incorporating a relationship hierarchy and commonsense knowledge. Specifically, we propose a Bayesian classification head that exploits an informative hierarchical structure. It jointly predicts the super-category or type of relationship between the two objects, along with the detailed relationship under each super-category. We design a commonsense validation pipeline that uses a large language model to critique the results from the scene graph prediction system and then use that feedback to enhance the model performance. The system requires no external large language model assistance at test time, making it more convenient for practical applications. Experiments on the Visual Genome and the OpenImage V6 datasets demonstrate that harnessing hierarchical relationships enhances the model performance by a large margin. The proposed Bayesian head can also be incorporated as a portable module in existing scene graph generation algorithms to improve their results. In addition, the commonsense validation enables the model to generate an extensive set of reasonable predictions beyond dataset annotations.
翻訳日:2023-11-23 17:35:36 公開日:2023-11-21
# $\mathrm{XOR}^{*}$と$\mathrm{FFL}$ゲームに対する最適かつほぼ最適な量子戦略

Optimal, and approximately optimal, quantum strategies for $\mathrm{XOR}^{*}$ and $\mathrm{FFL}$ games ( http://arxiv.org/abs/2311.12887v1 )

ライセンス: Link先を確認
Pete Rigas(参考訳) 我々は、様々な非ローカルなXORゲームに対して最適で、ほぼ最適な量子戦略を解析する。 Building upon previous arguments due to Ostrev in 2016, which characterized approximately optimal, and optimal, strategies that players Alice and Bob can adopt for maximizing a linear functional to win non-local games after a Referee party examines each answer to a question drawn from some probability distribution, we identify additional applications of the framework for analyzing the performance of a broader class of quantum strategies in which it is possible for Alice and Bob to realize quantum advantage if the two players adopt strategies relying upon quantum entanglement, two-dimensional resource systems, and reversible transformations. For the Fortnow-Feige-Lovasz (FFL) game, the 2016 framework is directly applicable, which consists of five steps, including: (1) constructing a suitable, nonzero, linear transformation for the intertwining operations, (2) demonstrating that the operator has unit Frobenius norm, (3) constructing error bounds, and corresponding approximate operations, for $\big( A_k \otimes \textbf{I} \big) \ket{\psi}$, and $\big( \textbf{I} \otimes \big( \frac{\pm B_{kl} + B_{lk}}{\sqrt{2}} \big) \big) \ket{\psi}$, (4) constructing additional bounds for permuting the order in which $A^{j_i}_i$ operators are applied, (5) obtaining Frobenius norm upper bounds for Alice and Bob's strategies. 我々は,このフレームワークの規則性の低い他のゲームへの適用に読者の注意を向ける。

We analyze optimal, and approximately optimal, quantum strategies for a variety of non-local XOR games. Building upon previous arguments due to Ostrev in 2016, which characterized approximately optimal, and optimal, strategies that players Alice and Bob can adopt for maximizing a linear functional to win non-local games after a Referee party examines each answer to a question drawn from some probability distribution, we identify additional applications of the framework for analyzing the performance of a broader class of quantum strategies in which it is possible for Alice and Bob to realize quantum advantage if the two players adopt strategies relying upon quantum entanglement, two-dimensional resource systems, and reversible transformations. For the Fortnow-Feige-Lovasz (FFL) game, the 2016 framework is directly applicable, which consists of five steps, including: (1) constructing a suitable, nonzero, linear transformation for the intertwining operations, (2) demonstrating that the operator has unit Frobenius norm, (3) constructing error bounds, and corresponding approximate operations, for $\big( A_k \otimes \textbf{I} \big) \ket{\psi}$, and $\big( \textbf{I} \otimes \big( \frac{\pm B_{kl} + B_{lk}}{\sqrt{2}} \big) \big) \ket{\psi}$, (4) constructing additional bounds for permuting the order in which $A^{j_i}_i$ operators are applied, (5) obtaining Frobenius norm upper bounds for Alice and Bob's strategies. We draw the attention of the reader to applications of this framework in other games with less regular structure.
翻訳日:2023-11-23 17:35:20 公開日:2023-11-21
# モーションガイドによる細粒度オープンドメイン画像アニメーション

Fine-Grained Open Domain Image Animation with Motion Guidance ( http://arxiv.org/abs/2311.12886v1 )

ライセンス: Link先を確認
Zuozhuo Dai and Zhenghao Zhang and Yao Yao and Bingxue Qiu and Siyu Zhu and Long Qin and Weizhi Wang(参考訳) 画像アニメーションは、静的画像から動的視覚コンテンツを生成することを目的としたコンピュータビジョンの重要なタスクである。 最近の画像アニメーション手法では、ニューラルネットワークによるレンダリング技術を用いてリアルなアニメーションを生成する。 これらの進歩にもかかわらず、細粒度で制御可能な画像アニメーションをテキストで導くことは、特に様々な実環境で撮影されたオープンドメイン画像にとって、依然として困難である。 本稿では,映像拡散モデルに先行する動きを利用したオープン領域画像アニメーション手法を提案する。 本手法では,移動領域と移動速度を正確に制御できる目標運動領域誘導と運動強度誘導を導入する。 これにより、アニメーションの視覚要素とプロンプトテキストとのアライメントが向上し、複雑なモーションシーケンスのための微粒でインタラクティブなアニメーション生成プロセスが容易になる。 提案手法の有効性を,オープンドメインデータセットを用いた厳密な実験により検証し,その優れた性能を示す。 ソースコードとモデルは公開時には公開される予定だ。

Image animation is a key task in computer vision which aims to generate dynamic visual content from static image. Recent image animation methods employ neural based rendering technique to generate realistic animations. Despite these advancements, achieving fine-grained and controllable image animation guided by text remains challenging, particularly for open-domain images captured in diverse real environments. In this paper, we introduce an open domain image animation method that leverages the motion prior of video diffusion model. Our approach introduces targeted motion area guidance and motion strength guidance, enabling precise control the movable area and its motion speed. This results in enhanced alignment between the animated visual elements and the prompting text, thereby facilitating a fine-grained and interactive animation generation process for intricate motion sequences. We validate the effectiveness of our method through rigorous experiments on an open-domain dataset, with the results showcasing its superior performance. The source code and model will be made publicly available upon publication.
翻訳日:2023-11-23 17:34:56 公開日:2023-11-21
# Long-MIL:スライディング画像解析のための長期マルチインスタンス学習のスケーリング

Long-MIL: Scaling Long Contextual Multiple Instance Learning for Histopathology Whole Slide Image Analysis ( http://arxiv.org/abs/2311.12885v1 )

ライセンス: Link先を確認
Honglin Li, Yunlong Zhang, Chenglu Zhu, Jiatong Cai, Sunyi Zheng, Lin Yang(参考訳) 病理組織像解析は癌の臨床診断の黄金の基準である。 医師の日常とコンピュータ支援による診断では、病理組織の全スライド画像(WSI)が分析に用いられる。 非常に大規模な解像度のため、従来の方法は一般にwsiを多数のパッチに分けて、マルチインスタンス学習(mil)によってwsi内のすべてのパッチを集約し、コンピュータ支援診断ツールを開発する際のスライドレベルの予測を行う。 しかしながら,従来のwsi-milモデルでは,双対的相互作用や位置情報を用いないグローバル・アテンションや絶対位置埋め込みを用いたセルフアテンションでは,モデル展開後のwsisは,病理組織wsis収集の難しさから常にモデル開発セットが制限されるため,トレーニングwsisよりも大きな形状のwsisを処理できない場合がある。 この問題に対処するため,本論文では,Linear BiasをAttentionに導入することにより,形状の異なる長コンテキストWSIに対する位置埋め込みを修正し,それを1次元長コンテキストWSIから2次元長コンテキストWSIに適応させることを提案する。 さらに,flash-attentionモジュールを用いてトランスフォーマの計算複雑性に対処し,従来の注意近似作業と比較して,完全なセルフアテンション性能を維持している。 本手法は,WSI分類や生存予測タスクを含む4つのデータセットを含む広範囲な実験により,形態の異なるWSIの優越性を検証した。 ソースコードは近々公開される予定だ。

Histopathology image analysis is the golden standard of clinical diagnosis for Cancers. In doctors daily routine and computer-aided diagnosis, the Whole Slide Image (WSI) of histopathology tissue is used for analysis. Because of the extremely large scale of resolution, previous methods generally divide the WSI into a large number of patches, then aggregate all patches within a WSI by Multi-Instance Learning (MIL) to make the slide-level prediction when developing computer-aided diagnosis tools. However, most previous WSI-MIL models using global-attention without pairwise interaction and any positional information, or self-attention with absolute position embedding can not well handle shape varying large WSIs, e.g. testing WSIs after model deployment may be larger than training WSIs, since the model development set is always limited due to the difficulty of histopathology WSIs collection. To deal with the problem, in this paper, we propose to amend position embedding for shape varying long-contextual WSI by introducing Linear Bias into Attention, and adapt it from 1-d long sequence into 2-d long-contextual WSI which helps model extrapolate position embedding to unseen or under-fitted positions. We further utilize Flash-Attention module to tackle the computational complexity of Transformer, which also keep full self-attention performance compared to previous attention approximation work. Our method, Long-contextual MIL (Long-MIL) are evaluated on extensive experiments including 4 dataset including WSI classification and survival prediction tasks to validate the superiority on shape varying WSIs. The source code will be open-accessed soon.
翻訳日:2023-11-23 17:34:41 公開日:2023-11-21
# InteRACT:ロボット行動に基づく人間の意図予測のためのトランスフォーマーモデル

InteRACT: Transformer Models for Human Intent Prediction Conditioned on Robot Actions ( http://arxiv.org/abs/2311.12943v1 )

ライセンス: Link先を確認
Kushal Kedia, Atiksh Bhardwaj, Prithwish Dan, Sanjiban Choudhury(参考訳) 協調的なロボット操作では、ロボットは人間の意図を予測し、タスクを円滑に実行するために行動を調整する必要がある。 しかし、人間の意図はロボットが行う行動に依存し、鶏か卵の問題を引き起こす。 従来の手法は、そのような依存性を無視し、代わりにロボットの動作とは無関係に限界意図予測モデルを訓練する。 これは、人間とロボットのインタラクションデータセットが不足しているため、トレーニング条件モデルが難しいためです。 代わりに、よりアクセスしやすい大規模な人間と人間の対話データを活用することができるだろうか? 私たちの重要な洞察は、人間とロボットのアクションの対応を利用して、人間からロボットデータへの学習の転送を可能にすることです。 InteRACTという,大規模人文データセットの条件付き意図予測モデルと小型人文ロボットデータセットの微細構造を事前学習するアーキテクチャを提案する。 我々は,実世界の人間とロボットの協調操作タスクについて評価し,条件モデルが様々な限界ベースラインに対して改善することを示す。 また,7自由度ロボットアームを遠隔操作し,多種多様な人間とロボットの協調操作データを収集する新しい技術を導入する。

In collaborative human-robot manipulation, a robot must predict human intents and adapt its actions accordingly to smoothly execute tasks. However, the human's intent in turn depends on actions the robot takes, creating a chicken-or-egg problem. Prior methods ignore such inter-dependency and instead train marginal intent prediction models independent of robot actions. This is because training conditional models is hard given a lack of paired human-robot interaction datasets. Can we instead leverage large-scale human-human interaction data that is more easily accessible? Our key insight is to exploit a correspondence between human and robot actions that enables transfer learning from human-human to human-robot data. We propose a novel architecture, InteRACT, that pre-trains a conditional intent prediction model on large human-human datasets and fine-tunes on a small human-robot dataset. We evaluate on a set of real-world collaborative human-robot manipulation tasks and show that our conditional model improves over various marginal baselines. We also introduce new techniques to tele-operate a 7-DoF robot arm and collect a diverse range of human-robot collaborative manipulation data, which we open-source.
翻訳日:2023-11-23 17:25:18 公開日:2023-11-21
# 量子MLのための階層学習:大規模変分量子回路の新しい訓練手法

Hierarchical Learning for Quantum ML: Novel Training Technique for Large-Scale Variational Quantum Circuits ( http://arxiv.org/abs/2311.12929v1 )

ライセンス: Link先を確認
Hrant Gharibyan, Vincent Su, Hayk Tepanyan(参考訳) 大規模変動量子回路の効率的なトレーニングのための新しい変分アーキテクチャである階層学習を提案する。 量子回路生成機 (QCBM) による分散負荷試験とベンチマークを行った。 QCBMでは、ビットストリングで表される計算基底ベクトルの2乗振幅に確率分布がロードされる。 私たちの重要な洞察は、最も重要な(qu)ビットが最終分布に大きな影響を与え、最初に学習できるという事実を活用することです。 これは、変動回路のいくつかのパラメータを最初に学習し、不毛高原の現象を防ぐ、階層的学習の一般化と考えることができる。 本稿では,オブザーバブルの期待値を持たない損失関数に対して,勾配を計算するための随伴法を簡潔に検討する。 まず, ガウス分布を9量子ビットにロードするタスクにおいて, 変分アンサッツにおける接続性の役割を比較検討した結果, 2次元接続が1行に配置された量子ビットを大きく上回ることがわかった。 そこで我々は,この戦略をGPUを用いた大規模数値実験で実施し,QCBMを用いて27量子ビットの3次元多変量ガウス分布を最大$\sim4\%=全変動距離で再現する。 ここでは、オブザーバブルと結び付けられない目的関数のため、バレンプラトーの議論は厳密には適用されないが、これは多くの量子ビット上での変分学習の最初の実践的な実演である。 また、階層学習は、既存の量子ハードウェア(IBMの7および27量子ビットデバイス)の分散をFire Opalの最適化と組み合わせてロードするリソース効率のよい方法であることを示した。

We present hierarchical learning, a novel variational architecture for efficient training of large-scale variational quantum circuits. We test and benchmark our technique for distribution loading with quantum circuit born machines (QCBMs). With QCBMs, probability distributions are loaded into the squared amplitudes of computational basis vectors represented by bitstrings. Our key insight is to take advantage of the fact that the most significant (qu)bits have a greater effect on the final distribution and can be learned first. One can think of it as a generalization of layerwise learning, where some parameters of the variational circuit are learned first to prevent the phenomena of barren plateaus. We briefly review adjoint methods for computing the gradient, in particular for loss functions that are not expectation values of observables. We first compare the role of connectivity in the variational ansatz for the task of loading a Gaussian distribution on nine qubits, finding that 2D connectivity greatly outperforms qubits arranged on a line. Based on our observations, we then implement this strategy on large-scale numerical experiments with GPUs, training a QCBM to reproduce a 3-dimensional multivariate Gaussian distribution on 27 qubits up to $\sim4\%$ total variation distance. Though barren plateau arguments do not strictly apply here due to the objective function not being tied to an observable, this is to our knowledge the first practical demonstration of variational learning on large numbers of qubits. We also demonstrate hierarchical learning as a resource-efficient way to load distributions for existing quantum hardware (IBM's 7 and 27 qubit devices) in tandem with Fire Opal optimizations.
翻訳日:2023-11-23 17:24:59 公開日:2023-11-21
# スズ空白中心と1次元ダイヤモンド導波路を結合した非線形量子フォトニクス

Nonlinear Quantum Photonics with a Tin-Vacancy Center Coupled to a One-Dimensional Diamond Waveguide ( http://arxiv.org/abs/2311.12927v1 )

ライセンス: Link先を確認
Matteo Pasini, Nina Codreanu, Tim Turan, Adri\`a Riera Moral, Christian F. Primavera, Lorenzo De Santis, Hans K. C. Beukers, Julia M. Brevoord, Christopher Waas, Johannes Borregaard, Ronald Hanson(参考訳) ナノフォトニックデバイスと統合された色中心は、量子科学と技術のための魅力的なプラットフォームとして登場した。 ここでは、ダイヤモンド導波路にスズ空洞中心を統合し、単光子レベルでの光との相互作用を調べる。 我々は、透過光の単一エミッタ誘起消光を25%まで観測し、光子統計に対する非線形効果を測定する。 さらに、反射単光子場とファイバ端に後方散乱したレーザ光との完全な波長可変干渉を示し、反射場における束縛光子統計と反束光子統計の対応変化を示す。

Color-centers integrated with nanophotonic devices have emerged as a compelling platform for quantum science and technology. Here we integrate tin-vacancy centers in a diamond waveguide and investigate the interaction with light at the single-photon level. We observe single-emitter induced extinction of the transmitted light up to 25% and measure the nonlinear effect on the photon statistics. Furthermore, we demonstrate fully tunable interference between the reflected single-photon field and laser light back-scattered at the fiber end and show the corresponding controlled change between bunched and anti-bunched photon statistics in the reflected field.
翻訳日:2023-11-23 17:24:33 公開日:2023-11-21
# 後方-前方ホログラフブラックホールマップにおけるバルク再構成と非等方性

Bulk reconstruction and non-isometry in the backwards-forwards holographic black hole map ( http://arxiv.org/abs/2311.12921v1 )

ライセンス: Link先を確認
Oliver DeWolfe and Kenneth Higginbotham(参考訳) akers、engelhardt、harlow、penington、vardhanのブラックホール内部における非等尺ホログラフィックマップの一般化として導入された後方フォワードマップは、効果的記述に非自明なダイナミクスを含むために導入された。 これらの2つの形式は、動的に生成された状態の集合、すなわち、入射物質の明確に定義された初期構成に作用する単位時間進化から形成される状態に等価であるが、入射オブザーバの見かけ上の世界を記述するのに必要な状態の一般的な集合によって異なる。 両バージョンともページカーブを再現することに成功したが,bfp (backwards-forwards-post-selection) マップと呼ばれる最終段階として選択後のバージョンは,非等尺的かつ平均的に等尺的であること,バルク操作者の状態依存的再構築を提供するという望ましい特性を持っている。 したがって、BFPマップは、内部相互作用を含むブラックホールの内部を記述するのに適した非等尺符号である。

The backwards-forwards map, introduced as a generalization of the non-isometric holographic maps of the black hole interior of Akers, Engelhardt, Harlow, Penington, and Vardhan to include non-trivial dynamics in the effective description, has two possible formulations differing in when the post-selection is performed. While these two forms are equivalent on the set of dynamically generated states -- states formed from unitary time evolution acting on well-defined initial configurations of infalling matter -- they differ on the generic set of states necessary to describe the apparent world of the infalling observer. We show that while both versions successfully reproduce the Page curve, the version involving post-selection as the final step, dubbed the backwards-forwards-post-selection (BFP) map, has the desirable properties of being non-isometric but isometric on average and providing state-dependent reconstruction of bulk operators, while the other version does not. Thus the BFP map is a suitable non-isometric code describing the black hole interior including interior interactions.
翻訳日:2023-11-23 17:24:20 公開日:2023-11-21
# SPOT! イベント理解のためのビデオ言語モデルの再検討

SPOT! Revisiting Video-Language Models for Event Understanding ( http://arxiv.org/abs/2311.12919v1 )

ライセンス: Link先を確認
Gengyuan Zhang, Jinhe Bi, Jindong Gu, Volker Tresp(参考訳) ビデオを理解することはマルチモーダル学習の重要な研究テーマである。 ウェブクローリングされたビデオテキストペアの大規模データセットを弱い監視として活用することは、共同表現を学習するための事前学習パラダイムとなり、ビデオ理解タスクにおいて顕著なポテンシャルを示した。 しかし、ビデオは多段階的かつ多段階的であり、ビデオテキストペアは通常、広レベルなビデオキャプションのみを含む。 ビデオ言語モデルにおけるビデオ表現は、テキスト記述における実際の不一致を識別し、きめ細かい出来事を理解する能力を得ることができるだろうか? そこで本研究では,既存の映像言語モデルのイベント理解能力の指標として,イベントレベルの差異を識別する能力のベンチマークを行うspot proberを提案する。 提案手法では,ビデオからイベントをタプル(<subject, predicate, object, attribute, timestamps>)として抽出し,タプルコンポーネントを体系的に操作して偽のイベントタプルを生成する。 これらの肯定的・否定的なキャプションで既存のビデオ言語モデルを再評価し、操作されたイベントのほとんどを区別できないことを示した。 そこで本研究では,これらの操作したイベントキャプションをハードネガティブなサンプルとしてプラグインし,イベント理解モデルの改善に有効であることを示す。

Understanding videos is an important research topic for multimodal learning. Leveraging large-scale datasets of web-crawled video-text pairs as weak supervision has become a pre-training paradigm for learning joint representations and showcased remarkable potential in video understanding tasks. However, videos can be multi-event and multi-grained, while these video-text pairs usually contain only broad-level video captions. This raises a question: with such weak supervision, can video representation in video-language models gain the ability to distinguish even factual discrepancies in textual description and understand fine-grained events? To address this, we introduce SPOT Prober, to benchmark existing video-language models's capacities of distinguishing event-level discrepancies as an indicator of models' event understanding ability. Our approach involves extracting events as tuples (<Subject, Predicate, Object, Attribute, Timestamps>) from videos and generating false event tuples by manipulating tuple components systematically. We reevaluate the existing video-language models with these positive and negative captions and find they fail to distinguish most of the manipulated events. Based on our findings, we propose to plug in these manipulated event captions as hard negative samples and find them effective in enhancing models for event understanding.
翻訳日:2023-11-23 17:23:58 公開日:2023-11-21
# ライブストリーミングにおける標準映像圧縮のリアルタイム品質制御

Deep Learning-Based Real-Time Quality Control of Standard Video Compression for Live Streaming ( http://arxiv.org/abs/2311.12918v1 )

ライセンス: Link先を確認
Matin Mortaheb, Mohammad A. Amir Khojastepour, Srimat T. Chakradhar, Sennur Ulukus(参考訳) ワイヤレスユーザのための高品質なビデオコンテンツの確保がますます重要になっている。 それでも、ビデオ品質の一定レベルを維持することは、特にライブストリーミングのシナリオにおいて、動的ビデオコンテンツによって主に引き起こされるビットレートが変動するため、課題に直面している。 ビデオ圧縮は通常、ビデオフレーム内の不必要な冗長性を排除し、ビデオ伝送に必要な帯域幅を減らすために使用される。 符号化ビットレートと圧縮ビデオの品質は、エンコーダパラメータ、具体的には量子化パラメータ(QP)に依存する。 エンコーダパラメータの少ない選択は、帯域幅効率を低下させ、非整合の可能性が高くなる。 非コンフォーマンスとは、符号化されたビデオセグメントに対するピーク信号対雑音比(PSNR)制約に違反していることを指す。 これらの問題に対処するために,リアルタイム深層学習に基づくH.264コントローラを提案する。 このコントローラは、最小遅延でビデオチャンクの内容に基づいて最適なエンコーダパラメータを動的に推定する。 圧縮されたビデオの平均ビットレートを最小化しながら、特定の閾値を超えるPSNRで映像品質を維持することが目的である。 QCIFデータセットと公開データセットからの多様なランダムビデオの両方で実施された実験結果は、このアプローチの有効性を検証する。 特に、最先端の適応ビットレートビデオストリーミングと比較して、平均帯域幅使用量の最大2.5倍の改善を実現しており、非互換性確率は10-2$以下である。

Ensuring high-quality video content for wireless users has become increasingly vital. Nevertheless, maintaining a consistent level of video quality faces challenges due to the fluctuating encoded bitrate, primarily caused by dynamic video content, especially in live streaming scenarios. Video compression is typically employed to eliminate unnecessary redundancies within and between video frames, thereby reducing the required bandwidth for video transmission. The encoded bitrate and the quality of the compressed video depend on encoder parameters, specifically, the quantization parameter (QP). Poor choices of encoder parameters can result in reduced bandwidth efficiency and high likelihood of non-conformance. Non-conformance refers to the violation of the peak signal-to-noise ratio (PSNR) constraint for an encoded video segment. To address these issues, a real-time deep learning-based H.264 controller is proposed. This controller dynamically estimates the optimal encoder parameters based on the content of a video chunk with minimal delay. The objective is to maintain video quality in terms of PSNR above a specified threshold while minimizing the average bitrate of the compressed video. Experimental results, conducted on both QCIF dataset and a diverse range of random videos from public datasets, validate the effectiveness of this approach. Notably, it achieves improvements of up to 2.5 times in average bandwidth usage compared to the state-of-the-art adaptive bitrate video streaming, with a negligible non-conformance probability below $10^{-2}$.
翻訳日:2023-11-23 17:23:32 公開日:2023-11-21
# Orchard:確率的組合せ探索による大きな癌系統の構築

Orchard: building large cancer phylogenies using stochastic combinatorial search ( http://arxiv.org/abs/2311.12917v1 )

ライセンス: Link先を確認
E. Kulman, R. Kuang, Q. Morris(参考訳) 同じがん由来の細胞の遺伝的に異種な亜集団、すなわちがん系統の進化史を描いた系統は、がんの発生と治療に関する有益な知見を提供する。 同じ癌由来の複数の組織サンプルのバルクDNAシークエンシングから得られたデータを用いて、がんの系統を再構築することができる。 バルクDNAシークエンシングデータから検出された点変異を用いて癌系統を再構築する高速アルゴリズムOrchardを導入する。 Orchardはがんの系統を段階的に構築し、一度に1点の突然変異を行い、最終的にバルクDNAデータによって入力された後部分布から完全な系統を抽出する。 orchardは90の模擬癌と14のb-progenitor acute lymphoblastic leukemias (b-alls)に対して、最先端のがんの系統再建法よりも、より説得力のある系統を再構築する。 これらの結果から,orchardは300以上の変異を有する癌系統を正確に再構成できることが示されている。 次に,再構成された系統群を用いて,癌細胞集団間の遺伝的差異を特徴付ける変異集団の特異なグループを推定する単純なグラフベースのクラスタリングアルゴリズムを導入し,このアプローチが最先端の変異クラスタリング手法と競合していることを示す。

Phylogenies depicting the evolutionary history of genetically heterogeneous subpopulations of cells from the same cancer i.e., cancer phylogenies, provide useful insights about cancer development and inform treatment. Cancer phylogenies can be reconstructed using data obtained from bulk DNA sequencing of multiple tissue samples from the same cancer. We introduce Orchard, a fast algorithm that reconstructs cancer phylogenies using point mutations detected in bulk DNA sequencing data. Orchard constructs cancer phylogenies progressively, one point mutation at a time, ultimately sampling complete phylogenies from a posterior distribution implied by the bulk DNA data. Orchard reconstructs more plausible phylogenies than state-of-the-art cancer phylogeny reconstruction methods on 90 simulated cancers and 14 B-progenitor acute lymphoblastic leukemias (B-ALLs). These results demonstrate that Orchard accurately reconstructs cancer phylogenies with up to 300 mutations. We then introduce a simple graph based clustering algorithm that uses a reconstructed phylogeny to infer unique groups of mutations i.e., mutation clusters, that characterize the genetic differences between cancer cell populations, and show that this approach is competitive with state-of-the-art mutation clustering methods.
翻訳日:2023-11-23 17:23:11 公開日:2023-11-21
# Neural-Integrated Meshfree (NIM) Method: 計算力学のための微分可能なプログラミングベースハイブリッドソルバ

Neural-Integrated Meshfree (NIM) Method: A differentiable programming-based hybrid solver for computational mechanics ( http://arxiv.org/abs/2311.12915v1 )

ライセンス: Link先を確認
Honghui Du, QiZhi He(参考訳) 本稿では,計算力学の分野における微分可能プログラミングに基づくハイブリッドメッシュフリーアプローチであるneural-integrated meshfree (nim)法を提案する。 NIMは、従来の物理ベースのメッシュフリーな離散化技術とディープラーニングアーキテクチャをシームレスに統合する。 連続的なDNN表現と、基礎となる空間離散化に関連するユニタリ基底関数の分割を組み合わせることで、この解を効果的に表現するためにハイブリッド近似スキームであるNeuroPUを採用している。 このニューラル数値ハイブリッド化は、関数空間分解による解表現を向上するだけでなく、DNNモデルのサイズと自動微分に基づく空間勾配計算の必要性の両方を低減し、トレーニング効率を大幅に向上させる。 NIM フレームワークでは,強い形式ベース NIM (S-NIM) と局所変動形式ベース NIM (V-NIM) の2つの真のメッシュフリーな解法を提案する。 S-NIMソルバでは、強形式支配方程式は損失関数において直接考慮されるが、V-NIMソルバは任意の重複部分領域に基づく変分残差の構成を可能にする局所ペトロフ・ガレルキン法を用いる。 これにより、基礎となる物理学の満足度とメッシュフリー特性の保存が保証される。 提案手法の有効性を精度,拡張性,一般化性,収束性の観点から評価するために,定常ベンチマーク問題と過渡ベンチマーク問題の両方について広範な数値実験を行った。 さらに,nim,特にv-nimとの比較分析により,エンドツーエンド予測能力の精度と効率が著しく向上することが示された。

We present the neural-integrated meshfree (NIM) method, a differentiable programming-based hybrid meshfree approach within the field of computational mechanics. NIM seamlessly integrates traditional physics-based meshfree discretization techniques with deep learning architectures. It employs a hybrid approximation scheme, NeuroPU, to effectively represent the solution by combining continuous DNN representations with partition of unity (PU) basis functions associated with the underlying spatial discretization. This neural-numerical hybridization not only enhances the solution representation through functional space decomposition but also reduces both the size of DNN model and the need for spatial gradient computations based on automatic differentiation, leading to a significant improvement in training efficiency. Under the NIM framework, we propose two truly meshfree solvers: the strong form-based NIM (S-NIM) and the local variational form-based NIM (V-NIM). In the S-NIM solver, the strong-form governing equation is directly considered in the loss function, while the V-NIM solver employs a local Petrov-Galerkin approach that allows the construction of variational residuals based on arbitrary overlapping subdomains. This ensures both the satisfaction of underlying physics and the preservation of meshfree property. We perform extensive numerical experiments on both stationary and transient benchmark problems to assess the effectiveness of the proposed NIM methods in terms of accuracy, scalability, generalizability, and convergence properties. Moreover, comparative analysis with other physics-informed machine learning methods demonstrates that NIM, especially V-NIM, significantly enhances both accuracy and efficiency in end-to-end predictive capabilities.
翻訳日:2023-11-23 17:22:38 公開日:2023-11-21
# 注意命令が下される! 協調的対向パッチによる変形型視覚トランスフォーマーの騙し

Attention Deficit is Ordered! Fooling Deformable Vision Transformers with Collaborative Adversarial Patches ( http://arxiv.org/abs/2311.12914v1 )

ライセンス: Link先を確認
Quazi Mishkatul Alam, Bilel Tarchoun, Ihsen Alouani, Nael Abu-Ghazaleh(参考訳) 最新のトランスフォーマーベースのビジョンモデルは、いくつかのビジョンタスクにわたる畳み込みニューラルネットワーク(cnn)ベースのモデルよりも優れていることが証明されている。 変形可能な視覚変換器は、スパースアテンション構造を用いることで、モデリングアテンションの二次的複雑さを著しく低減し、マルチビュー視覚システムのような大規模アプリケーションで使用することができる。 近年の研究では, 変圧器に対する対向攻撃が示されており, これらの攻撃は軽微な注意構造のため, 変形可能な変圧器に伝達されないことが示されている。 特に、変形可能な変換器の注意は、最も関連性の高い他のトークンへのポインタを用いてモデル化される。 本研究では,変形可能なトランスフォーマーの注意を操り,画像の無関係な部分に焦点を合わせないように注意をそらす,初めて対向攻撃に寄与する。 我々はまた、ソースパッチが注意を操り、システムに逆らうターゲットパッチを指し示すような、新たな協調攻撃も開発した。 実験の結果,入力フィールドのパッチ領域は1%に過ぎず,0%のAPが得られることがわかった。 また,アタッカー制御下での注意をリダイレクトする能力から,攻撃シナリオを多角的にサポートできることを示す。

The latest generation of transformer-based vision models have proven to be superior to Convolutional Neural Network (CNN)-based models across several vision tasks, largely attributed to their remarkable prowess in relation modeling. Deformable vision transformers significantly reduce the quadratic complexity of modeling attention by using sparse attention structures, enabling them to be used in larger scale applications such as multi-view vision systems. Recent work demonstrated adversarial attacks against transformers; we show that these attacks do not transfer to deformable transformers due to their sparse attention structure. Specifically, attention in deformable transformers is modeled using pointers to the most relevant other tokens. In this work, we contribute for the first time adversarial attacks that manipulate the attention of deformable transformers, distracting them to focus on irrelevant parts of the image. We also develop new collaborative attacks where a source patch manipulates attention to point to a target patch that adversarially attacks the system. In our experiments, we find that only 1% patched area of the input field can lead to 0% AP. We also show that the attacks provide substantial versatility to support different attacker scenarios because of their ability to redirect attention under the attacker control.
翻訳日:2023-11-23 17:22:11 公開日:2023-11-21
# Q-Seg:量子アニーリングに基づく教師なしイメージセグメンテーション

Q-Seg: Quantum Annealing-based Unsupervised Image Segmentation ( http://arxiv.org/abs/2311.12912v1 )

ライセンス: Link先を確認
Supreeth Mysore Venkatesh, Antonio Macaluso, Marlon Nuske, Matthias Klusch, Andreas Dengel(参考訳) 本研究では,既存の量子ハードウェアに適した量子アニールに基づく新しい教師なし画像分割手法Q-Segを提案する。 画像のスペクトル情報と空間情報を同化する画素分割問題をグラフカット最適化タスクとして定式化する。 提案手法はD波アドバンテージ装置の相互接続量子ビットトポロジを効率的に利用し,既存の量子アプローチよりも優れたスケーラビリティと,最先端の古典的手法より優れた性能を実現する。 合成データセットに関する経験的評価から,q-segは従来のオプティマイザであるgurobiに対して,実行時のパフォーマンスが向上していることが分かる。 また,地球観測画像のセグメンテーションについて,ラベル付きデータの量が通常非常に限られているアプリケーション領域であるセグメンテーションの評価を行った。 この場合、Q-Segは、古典的な教師付き最先端機械学習手法に関して、洪水マッピング検出のほぼ最適結果を示す。 また、Q-Segは既存のアノテートマスクと比較して森林被覆のセグメンテーションを強化している。 このように、Q-Segは利用可能な量子ハードウェアを使用した現実世界のアプリケーション、特にラベル付きデータと計算ランタイムの欠如が重要となるシナリオの代替として実現可能なものとして出現する。

In this study, we present Q-Seg, a novel unsupervised image segmentation method based on quantum annealing, tailored for existing quantum hardware. We formulate the pixel-wise segmentation problem, which assimilates spectral and spatial information of the image, as a graph-cut optimization task. Our method efficiently leverages the interconnected qubit topology of the D-Wave Advantage device, offering superior scalability over existing quantum approaches and outperforming state-of-the-art classical methods. Our empirical evaluations on synthetic datasets reveal that Q-Seg offers better runtime performance against the classical optimizer Gurobi. Furthermore, we evaluate our method on segmentation of Earth Observation images, an area of application where the amount of labeled data is usually very limited. In this case, Q-Seg demonstrates near-optimal results in flood mapping detection with respect to classical supervised state-of-the-art machine learning methods. Also, Q-Seg provides enhanced segmentation for forest coverage compared to existing annotated masks. Thus, Q-Seg emerges as a viable alternative for real-world applications using available quantum hardware, particularly in scenarios where the lack of labeled data and computational runtime are critical.
翻訳日:2023-11-23 17:21:47 公開日:2023-11-21
# 分散アレイを用いた非系列アンサンブルカルマンフィルタ

Non-Sequential Ensemble Kalman Filtering using Distributed Arrays ( http://arxiv.org/abs/2311.12909v1 )

ライセンス: Link先を確認
C\'edric Travelletti, J\"org Franke, David Ginsbourger and Stefan Br\"onnimann(参考訳) 本稿では,高次元問題における大規模データセットの非逐次同化を可能にするアンサンブルカルマンフィルタ(enkf)の分散実装を提案する。 従来のenkfアルゴリズムは計算集約的であり、背景共分散行列との相互作用を必要とするアプリケーションでは困難であり、観察順序への依存性など、望ましくない結果をもたらすシーケンシャル同化のような手法の使用を促している。 本実装では,分散メモリにおける完全モデル誤差共分散行列の構築と利用を可能にするために,分散コンピューティングの最近の進歩を活用し,全観測の単一バッチ同化と順序依存の排除を実現している。 人工的および実世界の古気候復元アプリケーションを含む比較性能評価は、新しい非逐次的実装が従来の逐次的手法よりも優れていることを示している。

This work introduces a new, distributed implementation of the Ensemble Kalman Filter (EnKF) that allows for non-sequential assimilation of large datasets in high-dimensional problems. The traditional EnKF algorithm is computationally intensive and exhibits difficulties in applications requiring interaction with the background covariance matrix, prompting the use of methods like sequential assimilation which can introduce unwanted consequences, such as dependency on observation ordering. Our implementation leverages recent advancements in distributed computing to enable the construction and use of the full model error covariance matrix in distributed memory, allowing for single-batch assimilation of all observations and eliminating order dependencies. Comparative performance assessments, involving both synthetic and real-world paleoclimatic reconstruction applications, indicate that the new, non-sequential implementation outperforms the traditional, sequential one.
翻訳日:2023-11-23 17:21:25 公開日:2023-11-21
# 直接選好最適化を用いた拡散モデルアライメント

Diffusion Model Alignment Using Direct Preference Optimization ( http://arxiv.org/abs/2311.12908v1 )

ライセンス: Link先を確認
Bram Wallace, Meihua Dang, Rafael Rafailov, Linqi Zhou, Aaron Lou, Senthil Purushwalkam, Stefano Ermon, Caiming Xiong, Shafiq Joty, Nikhil Naik(参考訳) 大規模言語モデル(LLM)は、人間の好みに合うように強化学習(Reinforcement Learning from Human Feedback, RLHF)法と人間の比較データを用いて微調整される。 LLMとは対照的に、ヒトの嗜好学習はテキストから画像への拡散モデルでは広く研究されていないが、既存の最良のアプローチは、注意深くキュレートされた高品質な画像とキャプションを使用して事前訓練されたモデルを微調整し、視覚的魅力とテキストアライメントを改善することである。 本研究では,人差データを直接最適化することで,拡散モデルを人間の好みに合わせる手法であるDiffusion-DPOを提案する。 拡散-DPOは、最近開発された直接選好最適化(DPO)から適応され、RLHFの代替として、分類目的の下で人間の選好を最も満足するポリシーを直接最適化する。 我々は、DPOを再定式化し、可能性の拡散モデルの概念を考慮し、低境界の証拠を利用して微分可能な目的を導出する。 クラウドソースされた851KのPick-a-Picデータセットを用いて、Diffusion-DPOを用いた最先端の安定拡散XL(SDXL)-1.0モデルのベースモデルを微調整する。 我々の微調整ベースモデルは,人間の評価に付加的な改良モデル,視覚的魅力の向上,即時アライメントを含む,SDXL-1.0ベースモデルと大きなSDXL-1.0モデルの両方に優れていた。 また、AIフィードバックを使用し、人間の好みのトレーニングに匹敵するパフォーマンスを持つ変種を開発し、拡散モデルアライメント手法のスケーリングの扉を開く。

Large language models (LLMs) are fine-tuned using human comparison data with Reinforcement Learning from Human Feedback (RLHF) methods to make them better aligned with users' preferences. In contrast to LLMs, human preference learning has not been widely explored in text-to-image diffusion models; the best existing approach is to fine-tune a pretrained model using carefully curated high quality images and captions to improve visual appeal and text alignment. We propose Diffusion-DPO, a method to align diffusion models to human preferences by directly optimizing on human comparison data. Diffusion-DPO is adapted from the recently developed Direct Preference Optimization (DPO), a simpler alternative to RLHF which directly optimizes a policy that best satisfies human preferences under a classification objective. We re-formulate DPO to account for a diffusion model notion of likelihood, utilizing the evidence lower bound to derive a differentiable objective. Using the Pick-a-Pic dataset of 851K crowdsourced pairwise preferences, we fine-tune the base model of the state-of-the-art Stable Diffusion XL (SDXL)-1.0 model with Diffusion-DPO. Our fine-tuned base model significantly outperforms both base SDXL-1.0 and the larger SDXL-1.0 model consisting of an additional refinement model in human evaluation, improving visual appeal and prompt alignment. We also develop a variant that uses AI feedback and has comparable performance to training on human preferences, opening the door for scaling of diffusion model alignment methods.
翻訳日:2023-11-23 17:21:09 公開日:2023-11-21
# 深層学習法を用いたUAV群集の非線形システム同定

Nonlinear System Identification of Swarm of UAVs Using Deep Learning Methods ( http://arxiv.org/abs/2311.12906v1 )

ライセンス: Link先を確認
Saman Yazdannik, Morteza Tayefi, Mojtaba Farrokh(参考訳) 本研究は平面空間におけるuavスウォームシステムのモデリングのための多重非線形システム同定手法の設計と評価を行う。 RNN、CNN、Neural ODEなどの学習手法を探索し比較する。 目的は,Swarmモデルの非線形ダイナミクスを正確に近似することにより,将来のSwarm軌道を予測することである。 モデルプロセスは、Swarmシミュレーションの過渡状態データと定常状態データの両方を用いて実行される。 その結果、過渡データを用いた学習モデルとニューラルodeの組み合わせは、初期条件の変化に頑健であり、群安定性を正確に予測する他の学習方法よりも優れていた。

This study designs and evaluates multiple nonlinear system identification techniques for modeling the UAV swarm system in planar space. learning methods such as RNNs, CNNs, and Neural ODE are explored and compared. The objective is to forecast future swarm trajectories by accurately approximating the nonlinear dynamics of the swarm model. The modeling process is performed using both transient and steady-state data from swarm simulations. Results show that the combination of Neural ODE with a well-trained model using transient data is robust for varying initial conditions and outperforms other learning methods in accurately predicting swarm stability.
翻訳日:2023-11-23 17:20:38 公開日:2023-11-21
# マルチソースアクティブドメイン転送におけるドメインシフトとサンプル不確かさの再検討

Revisiting the Domain Shift and Sample Uncertainty in Multi-source Active Domain Transfer ( http://arxiv.org/abs/2311.12905v1 )

ライセンス: Link先を確認
Wenqiao Zhang, Zheqi Lv, Hao Zhou, Jia-Wei Liu, Juncheng Li, Mengze Li, Siliang Tang, Yueting Zhuang(参考訳) アクティブドメイン適応(ada)は,アノテートする対象データの限られた数を積極的に選択することにより,新たな対象領域におけるモデル適応の最大化を目標としている。 これは、adaを単一のソースドメインから複数のソースドメインに拡張し、マルチソースアクティブドメイン適応(mada:multi-source active domain adaptation)と呼ぶ新しい挑戦的な知識転送のセットをターゲットにする動機となります。 当然のことながら、従来のADAメソッドの多くは、主にすべてのソースドメインが導入した過剰なドメインギャップのために、そのような環境で直接動作できないため、その不確実性を考慮したサンプル選択は、マルチドメインシフトの下で容易に誤判定できる。 これを考慮して,マルチソースドメインとターゲットドメイン間のドメインシフトを包括的に考慮し,情報的対象サンプルを検出する動的統合不確実性評価フレームワーク(Detective)を提案する。 具体的には、動的ドメイン適応(DA)モデルを利用して、モデルのパラメータをマルチソースドメインの結合に適合させる方法を学ぶ。 これにより、動的モデルによるおおよその単一ソースドメインモデリングが可能になる。 対象領域における領域不確かさと予測不確かさの両方を包括的に測定し、明らかな深層学習を用いて情報的対象サンプルを検出することにより、不確かさの軽減を図る。 さらに,選択したサンプルの多様性を高めるために,文脈的多様性対応計算機を導入する。 実験により,3つのドメイン適応ベンチマークにおいて,既存の手法をかなりのマージンで上回る結果が得られた。

Active Domain Adaptation (ADA) aims to maximally boost model adaptation in a new target domain by actively selecting a limited number of target data to annotate.This setting neglects the more practical scenario where training data are collected from multiple sources. This motivates us to target a new and challenging setting of knowledge transfer that extends ADA from a single source domain to multiple source domains, termed Multi-source Active Domain Adaptation (MADA). Not surprisingly, we find that most traditional ADA methods cannot work directly in such a setting, mainly due to the excessive domain gap introduced by all the source domains and thus their uncertainty-aware sample selection can easily become miscalibrated under the multi-domain shifts. Considering this, we propose a Dynamic integrated uncertainty valuation framework(Detective) that comprehensively consider the domain shift between multi-source domains and target domain to detect the informative target samples. Specifically, the leverages a dynamic Domain Adaptation(DA) model that learns how to adapt the model's parameters to fit the union of multi-source domains. This enables an approximate single-source domain modeling by the dynamic model. We then comprehensively measure both domain uncertainty and predictive uncertainty in the target domain to detect informative target samples using evidential deep learning, thereby mitigating uncertainty miscalibration. Furthermore, we introduce a contextual diversity-aware calculator to enhance the diversity of the selected samples. Experiments demonstrate that our solution outperforms existing methods by a considerable margin on three domain adaptation benchmarks.
翻訳日:2023-11-23 17:20:29 公開日:2023-11-21
# gr\"obner基底を計算するための学習

Learning to Compute Gr\"obner Bases ( http://arxiv.org/abs/2311.12904v1 )

ライセンス: Link先を確認
Hiroshi Kera, Yuki Ishihara, Yuta Kambe, Tristan Vaccon, Kazuhiro Yokoyama(参考訳) 多項式系を解くこと、あるいは関連するGr\"オブナー基底を計算することは、計算代数学の基本的な課題である。 しかし、計算コストが悪名高いことでも知られており、最悪の場合の変数数の2倍の指数関数的な時間複雑性がある。 本稿では,変圧器の訓練により,初めて「オブナー基底計算」を実現する。 学習には多項式系と関連する gr\"obner 基底の多くの対が必要となるので、gr\"obner 基底のランダム生成とそれらの非gr\"obner多項式系への変換という2つの新しい代数的問題に対処する動機付けとなる。 我々は、これらの問題をゼロ次元根基イデアル(様々な応用に現れるイデアル)で解決する。 実験の結果, 5変量の場合, 提案したデータセット生成手法は, 単純アプローチよりも5桁高速であり, Gr\"オーバナーベースを計算する上で重要な課題を克服していることがわかった。

Solving a polynomial system, or computing an associated Gr\"obner basis, has been a fundamental task in computational algebra. However, it is also known for its notoriously expensive computational cost -- doubly exponential time complexity in the number of variables in the worst case. In this paper, we achieve for the first time Gr\"obner basis computation through the training of a transformer. The training requires many pairs of a polynomial system and the associated Gr\"obner basis, thus motivating us to address two novel algebraic problems: random generation of Gr\"obner bases and the transformation of them into non-Gr\"obner polynomial systems, termed as \textit{backward Gr\"obner problem}. We resolve these problems with zero-dimensional radical ideals, the ideals appearing in various applications. The experiments show that in the five-variate case, the proposed dataset generation method is five orders of magnitude faster than a naive approach, overcoming a crucial challenge in learning to compute Gr\"obner bases.
翻訳日:2023-11-23 17:20:01 公開日:2023-11-21
# 要介護患者に対する迅速かつ解釈可能な死亡リスクスコア

Fast and Interpretable Mortality Risk Scores for Critical Care Patients ( http://arxiv.org/abs/2311.13015v1 )

ライセンス: Link先を確認
Chloe Qinyu Zhu, Muhang Tian, Lesia Semenova, Jiachang Liu, Jack Xu, Joseph Scarpa, Cynthia Rudin(参考訳) 集中治療室(ICU)患者の死亡率の予測は、救命医療において重要な課題である。 死亡リスクモデルを作成する以前の作業は、ドメインエキスパートが作成したスコアリングシステムと、ブラックボックス機械学習(ml)モデルという2つの主要なカテゴリに分類される。 ブラックボックスモデルは病院での使用には受け入れられないが、モデル(ロジスティック回帰パラメータのハンドチューニングを含む)の手動作成は、人間に高次元の制約付き最適化を実行することに依存しているため、パフォーマンスが低下する。 本研究では,正確なブラックボックスモデルとハンドチューニング可能なモデルとのギャップを埋める。 現代の解釈可能なml技術を用いて、正確な致命リスクスコアを設計する。 我々は,既存の icu 監視データセット,すなわち mimic iii と eicu データセットを活用する。 医療センター全体のリスクを評価することで、ドメイン間の一般化を研究できる。 リスクスコアモデルをカスタマイズするために,グループファスターリスク(GroupFasterRisk)というアルゴリズムを開発した。(1)ハード・スパシティ制約を使用し,機能の直接制御を可能にする,(2)グループ・スパシティを取り入れて,より凝集度の高いモデルを可能にする,(3)ドメイン知識を含むモデルに対する単調性補正を可能にする,(4)ドメインの専門家が選択できる,等しく良質なモデルが複数存在する,という,いくつかの重要なメリットがある。 GroupFasterRiskは、私たちがここで研究している大規模なデータセットでさえ、数時間以内にリスクスコアを作成します。 GroupFasterRiskのリスクスコアは、現在病院で使われているリスクスコアよりも優れており、ブラックボックスMLモデルと同じような予測性能を持っている。 groupfasterriskはさまざまなリスクスコアを生成し、制約を処理するため、実用的で信頼できるモデル作成の鍵となる設計柔軟性が実現される。

Prediction of mortality in intensive care unit (ICU) patients is an important task in critical care medicine. Prior work in creating mortality risk models falls into two major categories: domain-expert-created scoring systems, and black box machine learning (ML) models. Both of these have disadvantages: black box models are unacceptable for use in hospitals, whereas manual creation of models (including hand-tuning of logistic regression parameters) relies on humans to perform high-dimensional constrained optimization, which leads to a loss in performance. In this work, we bridge the gap between accurate black box models and hand-tuned interpretable models. We build on modern interpretable ML techniques to design accurate and interpretable mortality risk scores. We leverage the largest existing public ICU monitoring datasets, namely the MIMIC III and eICU datasets. By evaluating risk across medical centers, we are able to study generalization across domains. In order to customize our risk score models, we develop a new algorithm, GroupFasterRisk, which has several important benefits: (1) it uses hard sparsity constraint, allowing users to directly control the number of features; (2) it incorporates group sparsity to allow more cohesive models; (3) it allows for monotonicity correction on models for including domain knowledge; (4) it produces many equally-good models at once, which allows domain experts to choose among them. GroupFasterRisk creates its risk scores within hours, even on the large datasets we study here. GroupFasterRisk's risk scores perform better than risk scores currently used in hospitals, and have similar prediction performance to black box ML models (despite being much sparser). Because GroupFasterRisk produces a variety of risk scores and handles constraints, it allows design flexibility, which is the key enabler of practical and trustworthy model creation.
翻訳日:2023-11-23 17:12:58 公開日:2023-11-21
# 農業用AI:作物マッピングのためのセマンティックセグメンテーション法とセンチネル2画像の比較

AI for Agriculture: the Comparison of Semantic Segmentation Methods for Crop Mapping with Sentinel-2 Imagery ( http://arxiv.org/abs/2311.12993v1 )

ライセンス: Link先を確認
Irina Korotkova and Natalia Efremova(参考訳) 作物マッピングは、人口の増加と気候変動に対する認識の高まりにより、農業における人工知能における最も一般的なタスクの1つである。 ブドウ畑の場合、食感は作物のセグメンテーションにとって非常に重要である:より高い解像度の衛星画像では、テクスチャは最先端のアルゴリズムの大多数で容易に検出できる。 しかし、衛星画像の解像度が低下し、テクスチャに関する情報が利用できなくなると、この課題はますます困難になる。 本稿では,フリーで利用可能な衛星画像と併用可能な機械学習手法について検討し,ブドウ園のセグメンテーション問題にどのように,いつ適用できるかを議論する。 様々な機械学習手法の有効性を評価し、特定のシナリオに最適なモデルを選択するためのガイダンスを提供する。

Crop mapping is one of the most common tasks in artificial intelligence for agriculture due to higher food demands from a growing population and increased awareness of climate change. In case of vineyards, the texture is very important for crop segmentation: with higher resolution satellite imagery the texture is easily detected by majority of state-of-the-art algorithms. However, this task becomes increasingly more difficult as the resolution of satellite imagery decreases and the information about the texture becomes unavailable. In this paper we aim to explore the main machine learning methods that can be used with freely available satellite imagery and discuss how and when they can be applied for vineyard segmentation problem. We assess the effectiveness of various widely-used machine learning techniques and offer guidance on selecting the most suitable model for specific scenarios.
翻訳日:2023-11-23 17:12:24 公開日:2023-11-21
# FollowMe: 再識別とジェスチャーに基づくロバストな人物追跡フレームワーク

FollowMe: a Robust Person Following Framework Based on Re-Identification and Gestures ( http://arxiv.org/abs/2311.12992v1 )

ライセンス: Link先を確認
Federico Rollo, Andrea Zunino, Gennaro Raiola, Fabio Amadio, Arash Ajoudani and Nikolaos Tsagarakis(参考訳) HRI(Human-robot Interaction)は、住宅や産業において、操作の柔軟性を促進するための重要な手段となっている。 モバイルのコラボレーティブロボットに関しては、ロボットエージェントの自律的な移動能力とナビゲーション能力によって柔軟性がさらに向上し、ワークスペースを拡大し、その結果、人間のオペレーターにパーソナライズ可能な支援を提供する。 しかし、このロボットは、協調作業のあらゆる段階で、特に混雑した職場で人間を追跡しながら、人間を検知し、識別することができる必要がある。 このニーズに対応するために,視覚的再認識(Re-ID),手ジェスチャー検出,衝突のないナビゲーションを組み合わせることで,ロボットが対象者を識別・追跡できる統合認識ナビゲーションフレームワークを開発した。 Re-IDモジュールは、対象者の特徴を自律的に学習し、取得した知識を使用してターゲットを視覚的に再識別する。 ナビゲーションスタックは、環境中の障害物やその他の個人を避けるターゲットを追跡するために使用される。 未知の動的障害物が導入された実験室で、少数の被験者で実験を行う。

Human-robot interaction (HRI) has become a crucial enabler in houses and industries for facilitating operational flexibility. When it comes to mobile collaborative robots, this flexibility can be further increased due to the autonomous mobility and navigation capacity of the robotic agents, expanding their workspace and consequently, the personalizable assistance they can provide to the human operators. This however requires that the robot is capable of detecting and identifying the human counterpart in all stages of the collaborative task, and in particular while following a human in crowded workplaces. To respond to this need, we developed a unified perception and navigation framework, which enables the robot to identify and follow a target person using a combination of visual Re-Identification (Re-ID), hand gestures detection, and collision-free navigation. The Re-ID module can autonomously learn the features of a target person and use the acquired knowledge to visually re-identify the target. The navigation stack is used to follow the target avoiding obstacles and other individuals in the environment. Experiments are conducted with few subjects in a laboratory setting where some unknown dynamic obstacles are introduced.
翻訳日:2023-11-23 17:12:10 公開日:2023-11-21
# NERIF: ドローニングモデルの自動スコーリングのためのGPT-4V

NERIF: GPT-4V for Automatic Scoring of Drawn Models ( http://arxiv.org/abs/2311.12990v1 )

ライセンス: Link先を確認
Gyeong-Geon Lee, and Xiaoming Zhai(参考訳) 学生が描いたモデルの装飾には時間がかかる。 最近リリースされたGPT-4Vは、強力な画像処理機能を活用することで、科学的モデリングの実践を促進するユニークな機会を提供する。 自動採点に特化してこの能力を試験するために,GPT-4Vに指導用ノートとルーリックを用いたNERIF(Notation-Enhanced Rubric Instruction for Few-shot Learning)を開発した。 6つのモデリング評価タスクのために学生が作成したモデルを含むバランスデータ(n = 900)をランダムに選択した。 GPT-4Vのスコアは, それぞれ「ベジンニング」, 「開発」, 「熟練」の3レベルであった。 GPT-4Vのスコアを人間の専門家のスコアと比較し、スコアの精度を計算した。 その結果, GPT-4Vの平均評価精度は平均=.51, SD=.037であった。 具体的には、平均スコアリング精度は、"beginning"クラスでは.64、"developing"クラスでは.62、"proficient"クラスでは.26であり、より熟練したモデルの方がスコアリングが難しいことを示している。 さらに質的研究により、GPT-4Vは、問題コンテキスト、人間のコーダによるサンプル評価、学生の描画モデルを含む、画像入力から情報を取得する方法を明らかにする。 また,GPT-4Vが学生が描いたモデルの特徴をいかに捉え,自然言語でナレーションするかを明らかにした。 最終的に,gpt-4vが与えられたスコアルブリックと指導ノートに従って,学生が作成したモデルにスコアを割り当てる様子を実演した。 その結果, NERIF は GPT-4V を用いた描画モデルに有効であることが示唆された。 GPT-4Vは精度を向上する余地はあるものの、いくつかの誤ったスコアは専門家に解釈可能であるように思われた。 本研究の結果から,GPT-4Vを用いた学生図面の自動採点が期待できることがわかった。

Scoring student-drawn models is time-consuming. Recently released GPT-4V provides a unique opportunity to advance scientific modeling practices by leveraging the powerful image processing capability. To test this ability specifically for automatic scoring, we developed a method NERIF (Notation-Enhanced Rubric Instruction for Few-shot Learning) employing instructional note and rubrics to prompt GPT-4V to score students' drawn models for science phenomena. We randomly selected a set of balanced data (N = 900) that includes student-drawn models for six modeling assessment tasks. Each model received a score from GPT-4V ranging at three levels: 'Beginning,' 'Developing,' or 'Proficient' according to scoring rubrics. GPT-4V scores were compared with human experts' scores to calculate scoring accuracy. Results show that GPT-4V's average scoring accuracy was mean =.51, SD = .037. Specifically, average scoring accuracy was .64 for the 'Beginning' class, .62 for the 'Developing' class, and .26 for the 'Proficient' class, indicating that more proficient models are more challenging to score. Further qualitative study reveals how GPT-4V retrieves information from image input, including problem context, example evaluations provided by human coders, and students' drawing models. We also uncovered how GPT-4V catches the characteristics of student-drawn models and narrates them in natural language. At last, we demonstrated how GPT-4V assigns scores to student-drawn models according to the given scoring rubric and instructional notes. Our findings suggest that the NERIF is an effective approach for employing GPT-4V to score drawn models. Even though there is space for GPT-4V to improve scoring accuracy, some mis-assigned scores seemed interpretable to experts. The results of this study show that utilizing GPT-4V for automatic scoring of student-drawn models is promising.
翻訳日:2023-11-23 17:11:49 公開日:2023-11-21
# k平均損失を用いた属性付きネットワークのための教師なしグラフアテンションオートエンコーダ

Unsupervised Graph Attention Autoencoder for Attributed Networks using K-means Loss ( http://arxiv.org/abs/2311.12986v1 )

ライセンス: Link先を確認
Abdelfateh Bekkaira, Slimane Bellaouar and Slimane Oulad-Naoui(参考訳) マルチモーダル・センティメント・アナリティクス(MSA)は近年,多くの実世界のアプリケーションにおいて中心的な研究方向となっている。 この拡大は、意見がほとんどすべての人間の活動の中心であり、私たちの行動に影響を与えているという事実によるものです。 さらに、近年のDeep Learning-based (DL)モデルの展開は、広範囲の西洋言語で高い効率性を示している。 対照的に、アラビア語 DL に基づくマルチモーダル感情分析(MSA)は、主に標準データセットの欠如により、まだ幼児期にある。 % コントリビューション この論文では、我々の調査は2倍です。 まず、現在最先端のトランスフォーマーと、単語アライメント手法における特徴抽出ツールの両方を活用するアラビアマルチモーダルデータセット構築を支援するパイプラインを設計する。 その後、マルチモーダリティを扱う最先端のトランスフォーマティモデルを用いてデータセットを検証する。 結果データセットは小さいが、アラビア語による多様性は非常に有望である。

Multimodal Sentiment Analysis (MSA) has recently become a centric research direction for many real-world applications. This proliferation is due to the fact that opinions are central to almost all human activities and are key influencers of our behaviors. In addition, the recent deployment of Deep Learning-based (DL) models has proven their high efficiency for a wide range of Western languages. In contrast, Arabic DL-based multimodal sentiment analysis (MSA) is still in its infantile stage due, mainly, to the lack of standard datasets. % The contribution In this paper, our investigation is twofold. First, we design a pipeline that helps building our Arabic Multimodal dataset leveraging both state-of-the-art transformers and feature extraction tools within word alignment techniques. Thereafter, we validate our dataset using state-of-the-art transformer-based model dealing with multimodality. Despite the small size of the outcome dataset, experiments show that Arabic multimodality is very promising.
翻訳日:2023-11-23 17:11:13 公開日:2023-11-21
# GAIA:General AI Assistantsのベンチマーク

GAIA: a benchmark for General AI Assistants ( http://arxiv.org/abs/2311.12983v1 )

ライセンス: Link先を確認
Gr\'egoire Mialon, Cl\'ementine Fourrier, Craig Swift, Thomas Wolf, Yann LeCun, Thomas Scialom(参考訳) gaiaは一般のaiアシスタントのためのベンチマークで、解決すればai研究のマイルストーンとなるでしょう。 GAIAは、推論、マルチモーダリティハンドリング、Webブラウジング、一般的なツール使用の習熟度といった基本的な能力を必要とする現実世界の質問を提案する。 GAIAの質問は、最も先進的なAIでは難しいが、概念的には単純である: プラグインを備えたGPT-4では、人間の回答者が92\%対15\%を得ることを示す。 この顕著な性能格差は、法律や化学などの専門的な技術を必要とする仕事において人間よりも優れたLLMの傾向とは対照的である。 GAIAの哲学は、AIベンチマークの現在の傾向から離れて、人間にとってより難しいタスクを目標にすることを示唆している。 我々は、AI(Artificial General Intelligence, AGI)の出現は、平均的な人間がそのような質問に対して行うような堅牢性を示すシステムの能力に基づいていると仮定する。 GAIAの方法論を用いて466の質問とその回答を考案する。 私たちは質問を公開し、回答を300に保ち、https://huggingface.co/gaia-benchmark.comで利用可能なリーダーボードを動かしています。

We introduce GAIA, a benchmark for General AI Assistants that, if solved, would represent a milestone in AI research. GAIA proposes real-world questions that require a set of fundamental abilities such as reasoning, multi-modality handling, web browsing, and generally tool-use proficiency. GAIA questions are conceptually simple for humans yet challenging for most advanced AIs: we show that human respondents obtain 92\% vs. 15\% for GPT-4 equipped with plugins. This notable performance disparity contrasts with the recent trend of LLMs outperforming humans on tasks requiring professional skills in e.g. law or chemistry. GAIA's philosophy departs from the current trend in AI benchmarks suggesting to target tasks that are ever more difficult for humans. We posit that the advent of Artificial General Intelligence (AGI) hinges on a system's capability to exhibit similar robustness as the average human does on such questions. Using GAIA's methodology, we devise 466 questions and their answer. We release our questions while retaining answers to 300 of them to power a leader-board available at https://huggingface.co/gaia-benchmark.
翻訳日:2023-11-23 17:10:58 公開日:2023-11-21
# SD-NAE : 安定拡散による自然逆転例の生成

SD-NAE: Generating Natural Adversarial Examples with Stable Diffusion ( http://arxiv.org/abs/2311.12981v1 )

ライセンス: Link先を確認
Yueqian Lin, Jingyang Zhang, Yiran Chen, Hai Li(参考訳) ディープラーニングのイメージ分類器を堅牢に評価することは、標準データセットの制限のために難しい。 環境から自然に発生し、分類器を欺くことができる自然敵例(naes)は、訓練されたモデルの脆弱性を特定するのに役立つ。 既存の作業は、受動的で制御に欠ける、巨大な実画像の集合からフィルタリングすることで、そのようなNAEを収集する。 本研究では,NAEを最先端の安定拡散法で積極的に合成することを提案する。 具体的には,特定のクラスに対応するトークン埋め込みを摂動させてnaesを合成する制御最適化プロセスを定式化する。 生成は対象の分類器からの損失の勾配によって誘導され、生成された画像は基底クラスを忠実に模倣するが、分類器を騙す。 SD-NAE (Stable Diffusion for Natural Adversarial Examples) と呼ばれるこの手法は, 有効かつ有用なNAEの生成に有効である。 そこで本研究は,より堅牢なディープラーニングモデルの開発を促進できる,挑戦的な評価データを得るための貴重な方法を提供する。 コードはhttps://github.com/linyueqian/SD-NAEで入手できる。

Robustly evaluating deep learning image classifiers is challenging due to some limitations of standard datasets. Natural Adversarial Examples (NAEs), arising naturally from the environment and capable of deceiving classifiers, are instrumental in identifying vulnerabilities in trained models. Existing works collect such NAEs by filtering from a huge set of real images, a process that is passive and lacks control. In this work, we propose to actively synthesize NAEs with the state-of-the-art Stable Diffusion. Specifically, our method formulates a controlled optimization process, where we perturb the token embedding that corresponds to a specified class to synthesize NAEs. The generation is guided by the gradient of loss from the target classifier so that the created image closely mimics the ground-truth class yet fools the classifier. Named SD-NAE (Stable Diffusion for Natural Adversarial Examples), our innovative method is effective in producing valid and useful NAEs, which is demonstrated through a meticulously designed experiment. Our work thereby provides a valuable method for obtaining challenging evaluation data, which in turn can potentially advance the development of more robust deep learning models. Code is available at https://github.com/linyueqian/SD-NAE.
翻訳日:2023-11-23 17:10:37 公開日:2023-11-21
# 超高速順序ディスパッチ問題に対するニューラルネットワーク近似動的計画法

Neural Approximate Dynamic Programming for the Ultra-fast Order Dispatching Problem ( http://arxiv.org/abs/2311.12975v1 )

ライセンス: Link先を確認
Arash Dehghan and Mucahit Cevik and Merve Bodur(参考訳) 同日配達(SDD)サービスは、配送遅延を最小限にしつつ、オンライン注文の履行を最大化することを目的としている。 本研究の目的は,集中型倉庫環境下での宅配業者への注文のマッチングとディスパッチを行い,厳格なスケジュール(例えば数分以内)で配送を完了する超高速注文派遣問題(ODP)に焦点を当て,SDDの運用効率を向上させることである。 オーダバッチや明示的なクーリエ割り当てといった超高速 odp への重要な拡張を導入し,ディスパッチ操作をよりリアルに表現し,デリバリ効率を向上させる。 解法として、我々は主にADP(Approximate Dynamic Programming)とDRL(Deep Reinforcement Learning)を組み合わせた方法論であるNeurADPに焦点をあてる。 NeurADPは、ニューラルネットワークベースのVFAを通して複雑な一対多のマッチングとルーティングの複雑さに対処するため、特に超高速なODPに適している。 我々は,ODPに適した4つの異なる現実的データセットを用いて提案手法を検証し,NeurADPの性能を筋電図やDRLベースラインと比較した。 以上の結果から,注文バッチ処理やクーリエキューの導入により,配送作業の効率が向上し,NeurADPが他の手法よりも優れていたことが示唆された。 重要なパラメータを用いた詳細な感度解析により、クーリエ数、空間設定、車両容量、許容遅延時間などの異なるシナリオ下でのNeurADPの堅牢性を確認する。

Same-Day Delivery (SDD) services aim to maximize the fulfillment of online orders while minimizing delivery delays but are beset by operational uncertainties such as those in order volumes and courier planning. Our work aims to enhance the operational efficiency of SDD by focusing on the ultra-fast Order Dispatching Problem (ODP), which involves matching and dispatching orders to couriers within a centralized warehouse setting, and completing the delivery within a strict timeline (e.g., within minutes). We introduce important extensions to ultra-fast ODP such as order batching and explicit courier assignments to provide a more realistic representation of dispatching operations and improve delivery efficiency. As a solution method, we primarily focus on NeurADP, a methodology that combines Approximate Dynamic Programming (ADP) and Deep Reinforcement Learning (DRL), and our work constitutes the first application of NeurADP outside of the ride-pool matching problem. NeurADP is particularly suitable for ultra-fast ODP as it addresses complex one-to-many matching and routing intricacies through a neural network-based VFA that captures high-dimensional problem dynamics without requiring manual feature engineering as in generic ADP methods. We test our proposed approach using four distinct realistic datasets tailored for ODP and compare the performance of NeurADP against myopic and DRL baselines by also making use of non-trivial bounds to assess the quality of the policies. Our numerical results indicate that the inclusion of order batching and courier queues enhances the efficiency of delivery operations and that NeurADP significantly outperforms other methods. Detailed sensitivity analysis with important parameters confirms the robustness of NeurADP under different scenarios, including variations in courier numbers, spatial setup, vehicle capacity, and permitted delay time.
翻訳日:2023-11-23 17:10:15 公開日:2023-11-21
# クラスタ化政策決定ランキング

Clustered Policy Decision Ranking ( http://arxiv.org/abs/2311.12970v1 )

ライセンス: Link先を確認
Mark Levin and Hana Chockler(参考訳) 強化学習(RL)によって訓練された政策は、単純な作業であっても非常に複雑であることが多い。 nの時間ステップを持つエピソードでは、ポリシーはアクションを n 回決定し、その多くがオブザーバーに直観的でないように見える。 さらに、どの決定が報酬の達成に直接寄与するか、その貢献がどの程度重要かは明らかではない。 訓練されたポリシーが与えられた場合,環境の状態を分類し,その状態における決定の重要性に応じて各クラスタをランク付けする統計的共分散推定に基づくブラックボックス法を提案する。 我々は,過去の統計的断層定位に基づくランク付け手法と比較した。

Policies trained via reinforcement learning (RL) are often very complex even for simple tasks. In an episode with n time steps, a policy will make n decisions on actions to take, many of which may appear non-intuitive to the observer. Moreover, it is not clear which of these decisions directly contribute towards achieving the reward and how significant their contribution is. Given a trained policy, we propose a black-box method based on statistical covariance estimation that clusters the states of the environment and ranks each cluster according to the importance of decisions made in its states. We compare our measure against a previous statistical fault localization based ranking procedure.
翻訳日:2023-11-23 17:09:40 公開日:2023-11-21
# 可変非パラメトリックモデルを用いたロバスト化一般化インプリシト形状ネットワーク

Robustifying Generalizable Implicit Shape Networks with a Tunable Non-Parametric Model ( http://arxiv.org/abs/2311.12967v1 )

ライセンス: Link先を確認
Amine Ouasfi and Adnane Boukhayma(参考訳) feedforward generalizable model for implicit shape reconstruction from unoriented point cloudは、ハイパフォーマンスと推論速度を含む複数の利点を示している。 しかし、インプットポイントクラウドの不適合、トレーニングデータ配布外のサンプルの誤表示、あるいはトレーニング時に見つからないトポロジなど、一般化の問題に悩まされている。 ここでは,これらの制約のいくつかをテスト時に修正する効率的なメカニズムを提案する。 我々は,ネットワーク前の形状間データと,nystr\"omカーネルリッジ回帰前の形状内正規化を組み合わせることにより,そのハイパープラメータを現在の形状に適合させることにより,さらに適応する。 得られた形状関数は、再生ケルネルヒルベルト空間で定義され、望ましい安定性と効率性から恩恵を受け、形状適応的表現性-腐食性トレードオフを与える。 本稿では,本手法によるベースラインの改良と,合成データと実データを用いた最先端技術について述べる。

Feedforward generalizable models for implicit shape reconstruction from unoriented point cloud present multiple advantages, including high performance and inference speed. However, they still suffer from generalization issues, ranging from underfitting the input point cloud, to misrepresenting samples outside of the training data distribution, or with toplogies unseen at training. We propose here an efficient mechanism to remedy some of these limitations at test time. We combine the inter-shape data prior of the network with an intra-shape regularization prior of a Nystr\"om Kernel Ridge Regression, that we further adapt by fitting its hyperprameters to the current shape. The resulting shape function defined in a shape specific Reproducing Kernel Hilbert Space benefits from desirable stability and efficiency properties and grants a shape adaptive expressiveness-robustness trade-off. We demonstrate the improvement obtained through our method with respect to baselines and the state-of-the-art using synthetic and real data.
翻訳日:2023-11-23 17:09:30 公開日:2023-11-21
# デジタルツインの背後にあるバズワードのデミステレーション--新しい総合評価モデル

Demystifying the buzzword behind Digital Twin: a novel generic evaluation model ( http://arxiv.org/abs/2311.12961v1 )

ライセンス: Link先を確認
Zhengyu Liu, Sina Namaki Araghi, Arkopaul Sarkar, Mohamed Hedi Karray(参考訳) デジタルツイン(DT)開発の人気が高まっているにもかかわらず、DTの重要な概念に対する共通理解と定義が欠如している。 将来の作業の障害になる前に、DTの共通理解を構築することで、このギャップに対処する必要があります。 この課題の観点から,本研究の目的は,さまざまなドメインから既存のDTを共通的に評価し,実践前にDT開発者やステークホルダの知識と理解を統合することである。 この目的を達成するため,系統的な文献レビューを行い,25の論文を分析し,既存のDTの特徴を特定し,議論した。 このレビューはdtの評価において不整合とケース固有の次元の選択を示している。 そこで本稿では,デジタルモデルの特徴に着目して,異なる領域にわたるディジタル双生児の成熟度を評価するための4次元評価フレームワークを提案する。 このモデルで特定された4つの次元は、能力、協調性、カバレッジ、ライフサイクルである。 さらに、各次元の重要性を異なるアプリケーション要求に適応させるために、重み機構がモデル内に実装されます。 いくつかのケーススタディは、提案されたモデルを一般、工業、科学のケースで検証するために考案された。

Despite the growing popularity of digital twin (DT) developments, there is a lack of common understanding and definition for important concepts of DT. It is needed to address this gap by building a shared understanding of DT before it becomes an obstacle for future work. With this challenge in view, the objective of our study is to assess the existing DT from various domains on a common basis and to unify the knowledge and understanding of DT developers and stakeholders before practice. To achieve this goal, we conducted a systematic literature review and analyzed 25 selected papers to identify and discuss the characteristics of existing DT's. The review shows an inconsistency and case-specific choices of dimensions in assessing DT. Therefore, this article proposes a four-dimensional evaluation framework to assess the maturity of digital twins across different domains, focusing on the characteristics of digital models. The four identified dimensions in this model are Capability, Cooperability, Coverage, and Lifecycle. Additionally, a weight mechanism is implemented inside the model to adapt the importance of each dimension for different application requirements. Several case studies are devised to validate the proposed model in general, industrial and scientific cases.
翻訳日:2023-11-23 17:09:13 公開日:2023-11-21
# Microsoft Quantum Development KitとAzure Quantumを使って量子コンピューティングを教える

Teaching Quantum Computing using Microsoft Quantum Development Kit and Azure Quantum ( http://arxiv.org/abs/2311.12960v1 )

ライセンス: Link先を確認
Mariia Mykhailova(参考訳) 本報告では,2022-23年度に東北大学で量子コンピューティングを専攻した経験について述べる。 このコースは、実践的でソフトウェア駆動のアプローチを採用し、手動プログラミングの課題とソフトウェアにフォーカスした最終プロジェクトを通じて、基本的な量子概念とアルゴリズムを教える。 このコースは、量子コンピューティングの問題を解決すること、量子プログラムをデバッグするソリューションの実装、コードの最適化、量子ハードウェア上でのコード実行など、量子ソフトウェア開発プロセスのあらゆる段階を通じて学習者を導く。 本報告では,量子コンピューティング教育に同様の実践的アプローチを取り入れたいインストラクタに対して,授業開始のための包括的なガイドを提供する。

This report describes my experience teaching a graduate-level quantum computing course at Northeastern University in the academic year 2022-23. The course takes a practical, software-driven approach to the course, teaching basic quantum concepts and algorithms through hands-on programming assignments and a software-focused final project. The course guides learners through all stages of the quantum software development process, from solving quantum computing problems and implementing solutions to debugging quantum programs, optimizing the code, and running the code on quantum hardware. This report offers instructors who want to adopt a similar practical approach to teaching quantum computing a comprehensive guide to getting started.
翻訳日:2023-11-23 17:08:56 公開日:2023-11-21
# 航空画像におけるイノベーティブ・ホライズン:LSKNetは高度な物体検出のための拡散デットと出会う

Innovative Horizons in Aerial Imagery: LSKNet Meets DiffusionDet for Advanced Object Detection ( http://arxiv.org/abs/2311.12956v1 )

ライセンス: Link先を確認
Ahmed Sharshar, Aleksandr Matsun(参考訳) 航空画像解析の分野では、オブジェクト検出が重要な役割を担い、リモートセンシング、都市計画、災害管理といった分野に重大な影響を及ぼす。 この研究は、この領域における固有の課題、特に小さな物体の検出、密集した要素の管理、多彩な配向の考慮に対処する。 本稿では,大規模選択型カーネルネットワーク(lsknet)をバックボーンとするオブジェクト検出モデルの詳細な評価を行い,isaidデータセットを用いて実験解析を行う。 提案手法は,新しい方法論の導入と広範囲なアブレーション研究を包含する。 これらの研究は、損失関数、ボックス回帰法、分類戦略などの様々な側面を批判的に評価し、物体検出におけるモデルの精度を向上する。 本論文は,DiffusionDetヘッドとの相乗効果におけるLSKNetバックボーンの実験的応用について述べる。 本研究の結果は,特に精度-時間トレードオフにおいて,モデルの性能が著しく向上したことを示している。 提案モデルでは,平均精度(MAP)が約45.7%向上し,RCNNモデルよりも4.7%向上した。 この進歩は、提案された修正の有効性を強調し、航空画像解析における新しいベンチマークを設定し、より正確で効率的な物体検出手法の道を開く。 コードはhttps://github.com/SashaMatsun/LSKDiffDetで公開されている。

In the realm of aerial image analysis, object detection plays a pivotal role, with significant implications for areas such as remote sensing, urban planning, and disaster management. This study addresses the inherent challenges in this domain, notably the detection of small objects, managing densely packed elements, and accounting for diverse orientations. We present an in-depth evaluation of an object detection model that integrates the Large Selective Kernel Network (LSKNet)as its backbone with the DiffusionDet head, utilizing the iSAID dataset for empirical analysis. Our approach encompasses the introduction of novel methodologies and extensive ablation studies. These studies critically assess various aspects such as loss functions, box regression techniques, and classification strategies to refine the model's precision in object detection. The paper details the experimental application of the LSKNet backbone in synergy with the DiffusionDet heads, a combination tailored to meet the specific challenges in aerial image object detection. The findings of this research indicate a substantial enhancement in the model's performance, especially in the accuracy-time tradeoff. The proposed model achieves a mean average precision (MAP) of approximately 45.7%, which is a significant improvement, outperforming the RCNN model by 4.7% on the same dataset. This advancement underscores the effectiveness of the proposed modifications and sets a new benchmark in aerial image analysis, paving the way for more accurate and efficient object detection methodologies. The code is publicly available at https://github.com/SashaMatsun/LSKDiffDet
翻訳日:2023-11-23 17:08:44 公開日:2023-11-21
# pinnsに基づく過渡安定解析の不確実性定量化

PINNs-Based Uncertainty Quantification for Transient Stability Analysis ( http://arxiv.org/abs/2311.12947v1 )

ライセンス: Link先を確認
Ren Wang, Ming Zhong, Kaidi Xu, Lola Gir\'aldez S\'anchez-Cort\'es, Ignacio de Cominges Guerra(参考訳) 本稿では,揺動方程式におけるパラメータの欠如と不確実性伝播を伴う電力系統における過渡安定性の課題に対処する。 本研究では,物理インフォームドニューラルネットワーク(PINN)の新たな応用,特にPINNのアンサンブル(E-PINN)を導入し,ロータ角や慣性係数などの臨界パラメータを精度の向上と計算負荷の低減により推定する。 E-PINNは揺動方程式の基礎となる物理原理を利用して堅牢な解を提供する。 提案手法は,効率的なパラメータ推定を容易にするだけでなく,不確実性を定量化し,システムの挙動を確率論的に把握する。 E-PINNの有効性は、1ドルのバスと2ドルのバスシステムの分析を通じて実証され、モデルのパラメータの可変性とデータの不足を扱う能力を強調している。 本研究では,機械学習を電力系統の安定性に応用し,信頼性と計算効率の優れた過渡安定性解析への道を開く。

This paper addresses the challenge of transient stability in power systems with missing parameters and uncertainty propagation in swing equations. We introduce a novel application of Physics-Informed Neural Networks (PINNs), specifically an Ensemble of PINNs (E-PINNs), to estimate critical parameters like rotor angle and inertia coefficient with enhanced accuracy and reduced computational load. E-PINNs capitalize on the underlying physical principles of swing equations to provide a robust solution. Our approach not only facilitates efficient parameter estimation but also quantifies uncertainties, delivering probabilistic insights into the system behavior. The efficacy of E-PINNs is demonstrated through the analysis of $1$-bus and $2$-bus systems, highlighting the model's ability to handle parameter variability and data scarcity. The study advances the application of machine learning in power system stability, paving the way for reliable and computationally efficient transient stability analysis.
翻訳日:2023-11-23 17:08:17 公開日:2023-11-21
# droneoptinet:5gおよびbeyond solar small cell networkのためのドローンによる負荷再分配機構の枠組み

DroneOptiNet: A Framework for Optimal Drone-based Load Redistribution Mechanism for 5G and Beyond Solar Small Cell Networks ( http://arxiv.org/abs/2311.12944v1 )

ライセンス: Link先を確認
Daksh Dave, Vinay Chamola, Sandeep Joshi, Sherali Zeadally(参考訳) 第5世代以降のセルネットワークによる電力要求は、ネットワーク展開において重要な制約であり、エネルギー効率の高いソリューションを必要とする。 本研究では,小型セルbssを用いたマイクログリッドネットワーク上での信頼性とセキュアな電力分配を実現するため,航空機搭載基地局(bs)を用いた新しいユーザ負荷伝達手法を提案する。 高エネルギーから低エネルギーセルへ航空BSを移動させることにより、ユーザ密度と航空BSの可用性に応じて、エネルギー不足のセルのエネルギー要求を許容する。 提案したハイブリッドドローンベースのフレームワークは、長期記憶とユニークなコスト関数をドローンとBSのための進化的ニューラルネットワークを用いて統合し、エネルギーと負荷の再分配を効率的に管理する。 提案手法は,bssでの電力停止を低減し,一貫したスループット安定性を維持し,無線通信システムの信頼性とロバスト性を高める能力を示す。

The power requirements posed by the fifth-generation and beyond cellular networks are an important constraint in network deployment and require energy-efficient solutions. In this work, we propose a novel user load transfer approach using airborne base stations (BS), mounted on drones, for reliable and secure power redistribution across the micro-grid network comprising green small cell BSs. Depending on the user density and the availability of an aerial BS, the energy requirement of a cell with an energy deficit is accommodated by migrating the aerial BS from a high-energy to a low-energy cell. The proposed hybrid drone-based framework integrates long short-term memory with unique cost functions using an evolutionary neural network for drones and BSs, and efficiently manages energy and load redistribution. The proposed algorithm reduces power outages at BSs and maintains consistent throughput stability, thereby demonstrating its capability to boost the reliability and robustness of wireless communication systems.
翻訳日:2023-11-23 17:08:00 公開日:2023-11-21
# ニューラルネットワークのシナプスサンプリング

Synaptic Sampling of Neural Networks ( http://arxiv.org/abs/2311.13038v1 )

ライセンス: Link先を確認
James B. Aimone, William Severa, J. Darby Smith(参考訳) 確率的ニューラルネットワークは、その機能において人工知能の手法の不確かさを明示的に記述するための興味深い展望を提供するが、モンテカルロサンプリングのようなよく理解された手法によって不確実性を定量化する手法の開発は、決定論的計算ハードウェアにおける確率的サンプリングのコストによって制限されている。 確率的デバイスを利用するようなハードウェアレベルの確率的コンピューティングに対処可能な新興コンピューティングシステムは、そう遠くない未来において確率的ニューラルネットワークをより実現可能にするかもしれない。 本稿では,重みをBernoulliのコインフリップとして扱うことで,ニューラルネットワークを直接サンプリング可能にする,SCANN技術である\textit{sampling ( by coinflips) Artificial Neural Network}について述べる。 この方法は、チューニング可能な確率的デバイスに焦点をあてる確率論的計算技術に適しており、完全に決定論的性能とほぼ一致し、正しいニューラルネットワーク出力の不確かさを記述している。

Probabilistic artificial neural networks offer intriguing prospects for enabling the uncertainty of artificial intelligence methods to be described explicitly in their function; however, the development of techniques that quantify uncertainty by well-understood methods such as Monte Carlo sampling has been limited by the high costs of stochastic sampling on deterministic computing hardware. Emerging computing systems that are amenable to hardware-level probabilistic computing, such as those that leverage stochastic devices, may make probabilistic neural networks more feasible in the not-too-distant future. This paper describes the scANN technique -- \textit{sampling (by coinflips) artificial neural networks} -- which enables neural networks to be sampled directly by treating the weights as Bernoulli coin flips. This method is natively well suited for probabilistic computing techniques that focus on tunable stochastic devices, nearly matches fully deterministic performance while also describing the uncertainty of correct and incorrect neural network outputs.
翻訳日:2023-11-23 17:00:15 公開日:2023-11-21
# Favour: 不確実性評価のためのFAst変数演算子

Favour: FAst Variance Operator for Uncertainty Rating ( http://arxiv.org/abs/2311.13036v1 )

ライセンス: Link先を確認
Thomas D. Ahle, Sahar Karimi, Peter Tak Peter Tang(参考訳) 機械学習予測を解釈するための重要なアプローチとしてベイズニューラルネットワーク(BNN)が登場した。 後方分布からサンプリングすることで、データ科学者は推論の不確かさを推定することができる。 残念ながら多くの推論サンプルが必要であり、そのオーバーヘッドはBNNの広範な採用を妨げる。 これを軽減するために、以前の研究は、ネットワークを介して後部の第一モーメントと第二モーメントを伝播することを提案した。 しかし、この手法自体はサンプリングよりも遅いため、ニューラルネットワーク間の独立性を仮定するなど、伝播する分散を近似する必要がある。 その結果、品質と推論時間のトレードオフは、普通のモンテカルロサンプリングとは一致しなかった。 私たちの貢献は、品質と推論時間の間をスムーズに補間する"spiked covariance matrices"に基づく、より原則的な分散伝播フレームワークである。 これは、様々な演算の下で対角+低ランク行列近似を更新する新しい高速アルゴリズムによって実現されている。 本アルゴリズムは,サンプリングに基づくmcドロップアウトと,キャリブレーションやアウト・オブ・ディストリビューションテストなど,下流の不確かさをテーマとしたタスクの変分推論に対してテストを行った。 その結果,Favourは10~100個のサンプルと同等の性能を示しながら,2~3個の推論サンプルの実行に匹敵する速さを示した。 要約すると、この作業は、これまで到達できなかったパフォーマンスクリティカルなタスクの領域で、BNNの使用を可能にする。

Bayesian Neural Networks (BNN) have emerged as a crucial approach for interpreting ML predictions. By sampling from the posterior distribution, data scientists may estimate the uncertainty of an inference. Unfortunately many inference samples are often needed, the overhead of which greatly hinder BNN's wide adoption. To mitigate this, previous work proposed propagating the first and second moments of the posterior directly through the network. However, on its own this method is even slower than sampling, so the propagated variance needs to be approximated such as assuming independence between neural nodes. The resulting trade-off between quality and inference time did not match even plain Monte Carlo sampling. Our contribution is a more principled variance propagation framework based on "spiked covariance matrices", which smoothly interpolates between quality and inference time. This is made possible by a new fast algorithm for updating a diagonal-plus-low-rank matrix approximation under various operations. We tested our algorithm against sampling based MC Dropout and Variational Inference on a number of downstream uncertainty themed tasks, such as calibration and out-of-distribution testing. We find that Favour is as fast as performing 2-3 inference samples, while matching the performance of 10-100 samples. In summary, this work enables the use of BNN in the realm of performance critical tasks where they have previously been out of reach.
翻訳日:2023-11-23 16:59:54 公開日:2023-11-21
# 体系的単語メタセンス拡張

Systematic word meta-sense extension ( http://arxiv.org/abs/2311.13029v1 )

ライセンス: Link先を確認
Lei Yu(参考訳) 多文語の意味は、しばしば非常に生産的で予測可能な方法で変化する。 従来の感覚間の規則性を一般化して新しい単語の意味を導き出すことは、図形表現などの非文語使用の自動処理に不可欠である。 既存の感覚と規則的な意味関係を持つ新しい意味領域(メタセンスとも呼ばれる)を示すために、単語の意味を拡張できる言語モデルの能力をテストし改善するための、体系的単語メタセンス拡張(SWORME)と呼ばれる新しいタスクを導入する。 言語モデルでは,概念的に類似したメタセンスへの語彙的意味変化が好まれる傾向にあり,メタファのような高度に非言語的意味拡張の予測がはるかに困難であることが判明した。 本稿では,新しい単語意味拡張のアナロジーに基づく手法を提案し,段階的および急進的なメタセンス拡張の2種類の言語モデル体系性を効果的に改善することを示す。 さらに, 体系的メタセンス拡張の学習は, フィギュラティブ言語理解の複数のベンチマークにおいて, 言語モデルに有益であることを示す。

The meaning of polysemous words often varies in a highly productive yet predictable way. Generalizing the regularity between conventional senses to derive novel word meaning is crucial for automated processing of non-literal language uses such as figurative expressions. We introduce a novel task called systematic word meta-sense extension (SWORME) to test and improve language models' ability to extend word meaning to denote new semantic domains (also called meta-senses) that bear regular semantic relations with existing senses. We found that language models prefer incremental lexical semantic change toward conceptually similar meta-senses such as logical metonymy, and are much worse at predicting highly non-literal meaning extensions such as metaphors. We propose a novel analogy-based method of word meaning extension, and show that it effectively improves language model systematicity in making both gradual and radical types of meta-sense extension. We further demonstrate that learning systematic meta-sense extensions benefits language models on multiple benchmarks of figurative language understanding.
翻訳日:2023-11-23 16:59:32 公開日:2023-11-21
# dmlr: データ中心の機械学習研究 -- 過去、現在、未来

DMLR: Data-centric Machine Learning Research -- Past, Present and Future ( http://arxiv.org/abs/2311.13028v1 )

ライセンス: Link先を確認
Luis Oala, Manil Maskey, Lilith Bat-Leah, Alicia Parrish, Nezihe Merve G\"urel, Tzu-Sheng Kuo, Yang Liu, Rotem Dror, Danilo Brajovic, Xiaozhe Yao, Max Bartolo, William A Gaviria Rojas, Ryan Hileman, Rainier Aliment, Michael W. Mahoney, Meg Risdal, Matthew Lease, Wojciech Samek, Debojyoti Dutta, Curtis G Northcutt, Cody Coleman, Braden Hancock, Bernard Koch, Girmaw Abebe Tadesse, Bojan Karla\v{s}, Ahmed Alaa, Adji Bousso Dieng, Natasha Noy, Vijay Janapa Reddi, James Zou, Praveen Paritosh, Mihaela van der Schaar, Kurt Bollacker, Lora Aroyo, Ce Zhang, Joaquin Vanschoren, Isabelle Guyon, Peter Mattson(参考訳) 本報告では,ICML 2023 の第1回DMLRワークショップの議論から,機械学習科学を進展させる次世代の公開データセット作成における,コミュニティの関与とインフラ開発との関連について概説する。 我々は、これらのデータセットの作成と維持を継続し、ポジティブな科学的、社会的、ビジネス的な影響への道のりを図った。

Drawing from discussions at the inaugural DMLR workshop at ICML 2023 and meetings prior, in this report we outline the relevance of community engagement and infrastructure development for the creation of next-generation public datasets that will advance machine learning science. We chart a path forward as a collective effort to sustain the creation and maintenance of these datasets and methods towards positive scientific, societal and business impact.
翻訳日:2023-11-23 16:58:59 公開日:2023-11-21
# 幾何学的深層学習による教師なしマルチモーダル表面登録

Unsupervised Multimodal Surface Registration with Geometric Deep Learning ( http://arxiv.org/abs/2311.13022v1 )

ライセンス: Link先を確認
Mohamed A. Suliman, Logan Z. J. Williams, Abdulah Fawaz, and Emma C. Robinson(参考訳) 本稿では,皮質表面の画像登録のための新しい幾何学的深層学習フレームワークgeomorphを提案する。 登録プロセスは2つの主要なステップから構成される。 まず、グラフ畳み込みを用いて各入力面に独立な特徴抽出を行い、重要な皮質表面特性を捉えた低次元の特徴表現を生成する。 その後、一組の制御点の変位を学習することにより、表面間の共通構造の重なりを最適化するために、特徴を深く離散的に登録する。 滑らかで生物学的に有理な変形を確実にするために,リカレントニューラルネットワークによって実装された深い条件付き確率場を通じて正規化を行う。 実験の結果,スムースな変形によるアライメントの改善により,既存の深層学習法を上回る地形が得られた。 さらに、GeoMorphは古典的なフレームワークと比較して競争力がある。 このような汎用性と堅牢性は、様々な神経科学応用に強い可能性を示唆している。

This paper introduces GeoMorph, a novel geometric deep-learning framework designed for image registration of cortical surfaces. The registration process consists of two main steps. First, independent feature extraction is performed on each input surface using graph convolutions, generating low-dimensional feature representations that capture important cortical surface characteristics. Subsequently, features are registered in a deep-discrete manner to optimize the overlap of common structures across surfaces by learning displacements of a set of control points. To ensure smooth and biologically plausible deformations, we implement regularization through a deep conditional random field implemented with a recurrent neural network. Experimental results demonstrate that GeoMorph surpasses existing deep-learning methods by achieving improved alignment with smoother deformations. Furthermore, GeoMorph exhibits competitive performance compared to classical frameworks. Such versatility and robustness suggest strong potential for various neuroscience applications.
翻訳日:2023-11-23 16:58:51 公開日:2023-11-21
# 注目: 大規模マルチモーダルモデルは、あなたの地理的プライバシーを監視している

Attention: Large Multimodal Model is Watching your Geo-privacy ( http://arxiv.org/abs/2311.13018v1 )

ライセンス: Link先を確認
Yifan Yang, Yixian Zhang, Daoyang Li, Shuju Sun, Junhong Duan, Junzhou He, Qingyang Wu, Hao Liu(参考訳) 地理的プライバシは個人のセキュリティの重要な側面であり、日常的な活動では気づかないことが多い。 本稿では、オンラインデータ共有の増加と情報収集技術の進歩という文脈において、このプライバシーの過小評価に対処する。 オープンソースインテリジェンス(OSINT)におけるGPT-4のような大規模マルチモーダルモデルの使用の増加に伴い、地理的プライバシー侵害に伴う潜在的なリスクが増大している。 この研究は、個人のプライバシーに対する影響に焦点を当て、これらの発展の重要さを強調します。 主な目的は、高度なAIツール、特に"Dr. Watson"と呼ばれるGPT-4ベースのモデルが、オンライン共有コンテンツを通じて地理的プライバシを特定し、潜在的に妥協する能力を示すことである。 我々は、公開データソースから地理情報を分析・抽出する「ワトソン博士」を開発した。 調査には5つの実験ケースが含まれ、それぞれが部分画像やソーシャルメディアの内容から正確な位置情報を抽出するツールの応用について異なる視点を提供する。 実験の結果、「ワトソン博士」は特定の地理的詳細を特定でき、現在の地理的プライバシー対策の脆弱性を露呈することができた。 これらの発見は、地理的情報を意図しない形で公開することの容易さを強調する。 論文は、これらの発見が個人やコミュニティ全体に与える影響に関する議論で締めくくられている。 高度なaiとソーシャルメディアの普及の時代における、ジオプライバシーの漏えいに対する意識の向上と保護対策の緊急性を強調している。

Geographic privacy, a crucial aspect of personal security, often goes unnoticed in daily activities. This paper addresses the underestimation of this privacy in the context of increasing online data sharing and the advancements in information gathering technologies. With the surge in the use of Large Multimodal Models, such as GPT-4, for Open Source Intelligence (OSINT), the potential risks associated with geographic privacy breaches have intensified. This study highlights the criticality of these developments, focusing on their implications for individual privacy. The primary objective is to demonstrate the capabilities of advanced AI tools, specifically a GPT-4 based model named "Dr. Watson," in identifying and potentially compromising geographic privacy through online shared content. We developed "Dr. Watson" to analyze and extract geographic information from publicly available data sources. The study involved five experimental cases, each offering different perspectives on the tool's application in extracting precise location data from partial images and social media content. The experiments revealed that "Dr. Watson" could successfully identify specific geographic details, thereby exposing the vulnerabilities in current geo-privacy measures. These findings underscore the ease with which geographic information can be unintentionally disclosed. The paper concludes with a discussion on the broader implications of these findings for individuals and the community at large. It emphasizes the urgency for enhanced awareness and protective measures against geo-privacy leakage in the era of advanced AI and widespread social media usage.
翻訳日:2023-11-23 16:58:36 公開日:2023-11-21
# フリークエンシストによるベイズ推定器の評価のためのWカーネルと必須部分空間

W-kernel and essential subspace for frequencist's evaluation of Bayesian estimators ( http://arxiv.org/abs/2311.13017v1 )

ライセンス: Link先を確認
Yukito Iba(参考訳) 各観測の対数類似度で定義される後続共分散行列Wは、感度解析とフライクエンシストによるベイズ推定器の評価において重要な役割を果たす。 この研究は行列 W とその主空間に焦点をあて、後者を本質部分空間と呼ぶ。 まず, 後方感度の評価, 後方試料からのフレクエンシストの不確かさの評価, 損失の確率的拡大など, 様々な統計条件において現れることが示され, フレクシストの性質を扱う重要な道具として最近提案されているベイズ無限小ジャッキニフェ近似 (giordano and broderick (2023)) がある。 以下の部分では、行列 W が再生カーネルとして解釈できることを示し、それを W-カーネルと呼ぶ。 W-カーネルを用いて、必須部分空間はカーネルPCAによって与えられる主空間として表現される。 フィッシャー核と神経接核との関係が確立され、古典的漸近理論とのつながりが解明される。 最後に、近似ブートストラップにおける代表的観測セットの選択と次元還元の2つの応用について論じる。 前者では、必須部分空間を計算する効率的な方法として、不完全コレスキー分解を導入する。 後者では、後方手段に対する近似ブートストラップの異なる実装を比較する。

The posterior covariance matrix W defined by the log-likelihood of each observation plays important roles both in the sensitivity analysis and frequencist's evaluation of the Bayesian estimators. This study focused on the matrix W and its principal space; we term the latter as an essential subspace. First, it is shown that they appear in various statistical settings, such as the evaluation of the posterior sensitivity, assessment of the frequencist's uncertainty from posterior samples, and stochastic expansion of the loss; a key tool to treat frequencist's properties is the recently proposed Bayesian infinitesimal jackknife approximation (Giordano and Broderick (2023)). In the following part, we show that the matrix W can be interpreted as a reproducing kernel; it is named as W-kernel. Using the W-kernel, the essential subspace is expressed as a principal space given by the kernel PCA. A relation to the Fisher kernel and neural tangent kernel is established, which elucidates the connection to the classical asymptotic theory; it also leads to a sort of Bayesian-frequencist's duality. Finally, two applications, selection of a representative set of observations and dimensional reduction in the approximate bootstrap, are discussed. In the former, incomplete Cholesky decomposition is introduced as an efficient method to compute the essential subspace. In the latter, different implementations of the approximate bootstrap for posterior means are compared.
翻訳日:2023-11-23 16:58:12 公開日:2023-11-21
# フーリエニューラルネットワークを用いた衛星画像からの土壌有機炭素リモートセンシングと構造類似性

Image-Based Soil Organic Carbon Remote Sensing from Satellite Images with Fourier Neural Operator and Structural Similarity ( http://arxiv.org/abs/2311.13016v1 )

ライセンス: Link先を確認
Ken C. L. Wong, Levente Klein, Ademir Ferreira da Silva, Hongzhi Wang, Jitendra Singh, Tanveer Syeda-Mahmood(参考訳) 土壌有機炭素 (SOC) の隔離は、土壌中の大気中の二酸化炭素の移動と貯蔵であり、気候変動の緩和に重要な役割を果たしている。 SOC濃度は適切な土地利用によって改善できるため、地域規模や世界規模でSOCを推定できれば有益である。 多スペクトル衛星データによって植生や土壌特性などのSOC関連情報を世界規模で提供できるため、衛星データによるSOC推定は、手動土壌サンプリングの代替として検討されている。 既存の研究では有望な結果を示しているが、それらは主に従来の機械学習手法によるピクセルベースのアプローチに基づいており、畳み込みニューラルネットワーク(CNN)は一般的ではない。 SOCリモートセンシングにおけるCNNの利用を研究するために、フーリエニューラル演算子(FNO)に基づくFNO-DenseNetを提案する。 FNOとDenseNetの利点を組み合わせることで、FNO-DenseNetは数百倍のパラメータでFNOよりも優れています。 FNO-DenseNetは、ピクセルベースのランダムフォレストを平均絶対パーセンテージ誤差で18%上回った。

Soil organic carbon (SOC) sequestration is the transfer and storage of atmospheric carbon dioxide in soils, which plays an important role in climate change mitigation. SOC concentration can be improved by proper land use, thus it is beneficial if SOC can be estimated at a regional or global scale. As multispectral satellite data can provide SOC-related information such as vegetation and soil properties at a global scale, estimation of SOC through satellite data has been explored as an alternative to manual soil sampling. Although existing studies show promising results, they are mainly based on pixel-based approaches with traditional machine learning methods, and convolutional neural networks (CNNs) are uncommon. To study the use of CNNs on SOC remote sensing, here we propose the FNO-DenseNet based on the Fourier neural operator (FNO). By combining the advantages of the FNO and DenseNet, the FNO-DenseNet outperformed the FNO in our experiments with hundreds of times fewer parameters. The FNO-DenseNet also outperformed a pixel-based random forest by 18% in the mean absolute percentage error.
翻訳日:2023-11-23 16:57:42 公開日:2023-11-21
# 相互作用鎖のアンシラ量子測定:検出器の種類と濃度に対する絡み合いダイナミクスの感度

Ancilla quantum measurements on interacting chains: Sensitivity of entanglement dynamics to the type and concentration of detectors ( http://arxiv.org/abs/2311.13011v1 )

ライセンス: Link先を確認
Elmer V. H. Doggen, Igor V. Gornyi, Alexander D. Mirlin(参考訳) 我々は、強い射影測定によって周期的に測定される、アクリル自由度に結合した量子多体格子系(「検出器」)を考える。 主システムへのアンシラの濃度$\rho_a$とそれらの結合$M$をパラメータとする。 我々は,鎖の局所密度を検出自由度に結合する2つの検出器-鎖相互作用のモデルに対して,種々の値である$\rho_a$ と $m$ について,鎖の密度と絡み合いエントロピーのダイナミクスを考察する。 密度密度(スピン言語ではs_z s_z$-型)結合の場合、測定による絡み合い遷移の臨界値$m_c$は$\rho_a$に依存することが判明した。 さらに, このモデルでは, 十分に小さな$\rho_a$の遷移が消失することが示唆された。 この挙動は第2モデルでは定性的に異なり、密度ホッピング(S_z s_x$-type)結合である。 特に、ダイナミクスは、最初のモデルよりも、検出器の濃度である$\rho_a$に対する感受性が低い。 さらに、結合強度$M$への絡み合いの依存性は強い非単調であり、M$での絡み合い位相の再入射を示す。

We consider a quantum many-body lattice system that is coupled to ancillary degrees of freedom ("detectors"), which are periodically measured by means of strong projective measurements. The concentration $\rho_a$ of ancillae and their coupling $M$ to the main system are considered as parameters. We explore the dynamics of density and of entanglement entropy in the chain, for various values of $\rho_a$ and $M$ for two models of the detector-chain interaction that couple the local density in the chain to a detector degree of freedom. It is found that, for the density-density ($S_z s_z$-type in spin language) coupling, the critical values $M_c$ for the measurement-induced entanglement transition depends sensitively on $\rho_a$. Moreover, our results indicate that for a sufficiently small $\rho_a$ the transition in this model disappears, i.e., a finite density of detectors is needed to reach a disentangling phase. The behavior is qualitatively different for the second model, with density-hopping ($S_z s_x$-type) coupling. Specifically, the dynamics is much less sensitive to the concentration $\rho_a$ of detectors than in the first model. Furthermore, the dependence of entanglement on the coupling strength $M$ is strongly non-monotonic, indicating re-entrance of the entangling phase at large $M$.
翻訳日:2023-11-23 16:57:24 公開日:2023-11-21
# ニューラルフィールドを用いた3次元圧縮

3D Compression Using Neural Fields ( http://arxiv.org/abs/2311.13009v1 )

ライセンス: Link先を確認
Janis Postels, Yannick Str\"umpler, Klara Reichard, Luc Van Gool, Federico Tombari(参考訳) ニューラルフィールド(NF)は、画像やビデオなど、様々なデータモダリティを圧縮するツールとして勢いを増している。 本研究は,これまでの進歩を活かし,新しい3dデータ圧縮アルゴリズムを提案する。 提案手法は,SDF(Signed Distance Fields)に基づいて水密形状に調整した2つのバージョンと,UDF(Unsigned Distance Fields)を用いた任意の水密形状の2つのバージョンを導出する。 本手法は,メッシュと同様に3次元点雲上での幾何圧縮に優れていることを示す。 さらに,nfの定式化により,3dデータの幾何と属性(色など)を圧縮するために圧縮アルゴリズムを拡張することは容易であることを示す。

Neural Fields (NFs) have gained momentum as a tool for compressing various data modalities - e.g. images and videos. This work leverages previous advances and proposes a novel NF-based compression algorithm for 3D data. We derive two versions of our approach - one tailored to watertight shapes based on Signed Distance Fields (SDFs) and, more generally, one for arbitrary non-watertight shapes using Unsigned Distance Fields (UDFs). We demonstrate that our method excels at geometry compression on 3D point clouds as well as meshes. Moreover, we show that, due to the NF formulation, it is straightforward to extend our compression algorithm to compress both geometry and attribute (e.g. color) of 3D data.
翻訳日:2023-11-23 16:56:57 公開日:2023-11-21
# CovarNav: モデル反転と共分散ナビゲーションによる機械学習

CovarNav: Machine Unlearning via Model Inversion and Covariance Navigation ( http://arxiv.org/abs/2311.12999v1 )

ライセンス: Link先を確認
Ali Abbasi, Chayne Thrash, Elaheh Akbari, Daniel Zhang, Soheil Kolouri(参考訳) aiの急速な進歩は、前例のない公的採用と、トレーニングデータを記憶する大規模ニューラルネットワークの普及と相まって、データプライバシに関する大きな懸念を引き起こしている。 これらの懸念に対処するために、機械学習は訓練されたモデルに対する特定のトレーニングデータポイントの影響を選択的に除去する重要なテクニックとして登場した。 本稿では,連続学習のレンズを通して,機械学習問題にアプローチする。 トレーニングされたモデルと、忘れられるように指定されたトレーニングデータのサブセット(つまり、"forget set")が与えられた場合、私たちは、この忘れを容易にするために、CovarNavという名前の3段階のプロセスを導入します。 まず,モデルインバージョン攻撃を用いたモデルのトレーニングデータのプロキシを導出する。 第二に、実際の真理から逸脱する最も可能性の高いクラスを選択することで、忘れ集合を誤記する。 最後に,修正された左折集合(つまり,この集合の誤りラベルを学習する)のクロスエントロピー損失を最小限に抑えつつ,逆転したサンプルの忘れを防止できる勾配投影法をデプロイする。 CIFAR-10とVggface2のデータセット上でCovarNavを厳格に評価し、最近のベンチマークと比較し、提案手法の有効性を実証した。

The rapid progress of AI, combined with its unprecedented public adoption and the propensity of large neural networks to memorize training data, has given rise to significant data privacy concerns. To address these concerns, machine unlearning has emerged as an essential technique to selectively remove the influence of specific training data points on trained models. In this paper, we approach the machine unlearning problem through the lens of continual learning. Given a trained model and a subset of training data designated to be forgotten (i.e., the "forget set"), we introduce a three-step process, named CovarNav, to facilitate this forgetting. Firstly, we derive a proxy for the model's training data using a model inversion attack. Secondly, we mislabel the forget set by selecting the most probable class that deviates from the actual ground truth. Lastly, we deploy a gradient projection method to minimize the cross-entropy loss on the modified forget set (i.e., learn incorrect labels for this set) while preventing forgetting of the inverted samples. We rigorously evaluate CovarNav on the CIFAR-10 and Vggface2 datasets, comparing our results with recent benchmarks in the field and demonstrating the efficacy of our proposed approach.
翻訳日:2023-11-23 16:56:43 公開日:2023-11-21
# Systematic Review Protocol: 量子コンピューティングにおける要求工学

Systematic Review Protocol: Requirements Engineering in Quantum Computing ( http://arxiv.org/abs/2311.12998v1 )

ライセンス: Link先を確認
Samuel Sep\'ulveda, Ania Cravero(参考訳) コンテキスト: 量子コンピューティング(QC)は、計算能力のパラダイムシフトを表し、要求工学(RE)における固有の課題を示す。 量子システムの複雑さと急速な技術進歩は、QCにおけるREの現在の状態と将来の軌跡を包括的に理解する必要がある。 目的:QCソフトウェアにおけるREの課題を特定し分析する証拠について、体系的な文献レビューを行うためのプロトコル。 本研究は,本領域における現在の方法論の評価と,今後の産業・学術的ニーズに対応するための方法論の進化の展望を提案する。 方法:バーバラ・キッチェンハムのガイドラインによると,本プロトコルでは,関連文献を体系的に検索・分析するための構造化アプローチを採用している。 結果: 体系的なレビューを行うための検証済みプロトコル。 このプロトコルは、理論的枠組み、実証的研究、およびQCにおけるREの方法論的進歩にまたがる多種多様な文献をもたらすことが期待されている。 それは現在の課題、機会、将来の方向性を強調し、この分野の学術的および実践的な側面に関する洞察を提供する。 結論: 体系的レビューは、qcにおけるreの展望の微妙な理解を提供することを目的としている。 学術研究者、業界専門家、ソフトウェアエンジニア、業界アナリスト、教育者に貴重な洞察を提供し、QC開発における今後の談話を形成する。

Context: Quantum computing (QC) represents a paradigm shift in computational capabilities, presenting unique challenges in requirements engineering (RE). The complexity of quantum systems and rapid technological advancements necessitate a comprehensive understanding of the current state and future trajectories in RE for QC. Objective: A protocol for carrying out a systematic literature review about the evidence for identifying and analyzing the challenges in RE for QC software. It seeks to evaluate the current methodologies employed in this domain and propose a forward-looking perspective on the evolution of these methodologies to meet future industry and academic needs. Method: This protocol employs a structured approach to search and analyze relevant literature systematically, according to Barbara Kitchenham's guidelines. Results: A validated protocol to conduct a systematic review. The protocol is expected to yield diverse literature spanning theoretical frameworks, empirical studies, and methodological advancements in RE for QC. It will highlight the current challenges, opportunities, and future directions, offering insights into the field's academic and practical aspects. Conclusions: The systematic review aims to provide a nuanced understanding of the RE landscape in QC. It will offer valuable insights for academic researchers, industry professionals, software engineers, industry analysts, and educators, shaping the future discourse in QC development.
翻訳日:2023-11-23 16:56:19 公開日:2023-11-21
# トランスフォーマーはどこまで使えるのか? 合成・解釈可能な課題に関する研究

How Capable Can a Transformer Become? A Study on Synthetic, Interpretable Tasks ( http://arxiv.org/abs/2311.12997v1 )

ライセンス: Link先を確認
Rahul Ramesh, Mikail Khona, Robert P. Dick, Hidenori Tanaka, Ekdeep Singh Lubana(参考訳) 巨大なテキストコーパスで訓練されたトランスフォーマーは、例えば単純な論理演算を実行するなど、顕著な機能のセットを示す。 言語の固有の構成的性質を考えると、モデルがこれらの機能を構成することを学び、入力でどのような操作を実行できるかの組み合わせ的な爆発をもたらすことを期待できる。 以上のことを動機として、「トランスフォーマーがいかに有能になるか」を本論文で評価することを目指している。 具体的には,高度に定義されたモノリシックな機能の集合を構成するデータ生成プロセス上で,自己回帰的トランスフォーマーモデルをトレーニングする。 Through a series of extensive and systematic experiments on this data-generating process, we show that: (1) autoregressive Transformers can learn compositional structures from the training data and generalize to exponentially or even combinatorially many functions; (2) composing functions by generating intermediate outputs is more effective at generalizing to unseen compositions, compared to generating no intermediate outputs; (3) the training data has a significant impact on the model's ability to compose unseen combinations of functions; and (4) the attention layers in the latter half of the model are critical to compositionality.

Transformers trained on huge text corpora exhibit a remarkable set of capabilities, e.g., performing simple logical operations. Given the inherent compositional nature of language, one can expect the model to learn to compose these capabilities, potentially yielding a combinatorial explosion of what operations it can perform on an input. Motivated by the above, we aim to assess in this paper "how capable can a transformer become?". Specifically, we train autoregressive Transformer models on a data-generating process that involves compositions of a set of well-defined monolithic capabilities. Through a series of extensive and systematic experiments on this data-generating process, we show that: (1) autoregressive Transformers can learn compositional structures from the training data and generalize to exponentially or even combinatorially many functions; (2) composing functions by generating intermediate outputs is more effective at generalizing to unseen compositions, compared to generating no intermediate outputs; (3) the training data has a significant impact on the model's ability to compose unseen combinations of functions; and (4) the attention layers in the latter half of the model are critical to compositionality.
翻訳日:2023-11-23 16:55:57 公開日:2023-11-21
# RLIF: 強化学習としてのインタラクティブな模倣学習

RLIF: Interactive Imitation Learning as Reinforcement Learning ( http://arxiv.org/abs/2311.12996v1 )

ライセンス: Link先を確認
Jianlan Luo, Perry Dong, Yuexiang Zhai, Yi Ma, Sergey Levine(参考訳) 強化学習手法は、自動スキル獲得のための強力なフレームワークを提供するが、ロボット工学のような分野における実践的な学習ベースの制御問題に対して、模倣学習はより便利でアクセスしやすい代替手段を提供することが多い。 特に、daggerのような対話型模倣学習手法は、最適に近い専門家にオンライン介入を依頼し、不適切な行動クローン化に苦しむ分布シフト問題に対処するための修正データを収集し、手動で指定した報酬機能や他の強化学習方法のコンポーネントを必要とせずに、理論と実践の両方において優れたパフォーマンスを享受することができる。 本稿では,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習がパフォーマンス向上を実現する方法について検討する。 提案手法は,ユーザ介入信号そのものを報酬として強化学習を用いる。 このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。 また,RL法とDAggerを統一的に解析するためのフレームワークも提供し,本手法の非漸近的サンプル複雑性境界だけでなく,両手法の最適下界の漸近的解析について述べる。 次に,実世界のロボットビジョンに基づく操作タスクと同様に,高次元連続制御シミュレーションベンチマークに挑戦する手法を評価する。 結果は,特に介入する専門家が最適でない場合には,DAggerのようなアプローチよりも優れていることを示す。 コードとビデオはプロジェクトのWebサイトで見ることができる。

Although reinforcement learning methods offer a powerful framework for automatic skill acquisition, for practical learning-based control problems in domains such as robotics, imitation learning often provides a more convenient and accessible alternative. In particular, an interactive imitation learning method such as DAgger, which queries a near-optimal expert to intervene online to collect correction data for addressing the distributional shift challenges that afflict na\"ive behavioral cloning, can enjoy good performance both in theory and practice without requiring manually specified reward functions and other components of full reinforcement learning methods. In this paper, we explore how off-policy reinforcement learning can enable improved performance under assumptions that are similar but potentially even more practical than those of interactive imitation learning. Our proposed method uses reinforcement learning with user intervention signals themselves as rewards. This relaxes the assumption that intervening experts in interactive imitation learning should be near-optimal and enables the algorithm to learn behaviors that improve over the potential suboptimal human expert. We also provide a unified framework to analyze our RL method and DAgger; for which we present the asymptotic analysis of the suboptimal gap for both methods as well as the non-asymptotic sample complexity bound of our method. We then evaluate our method on challenging high-dimensional continuous control simulation benchmarks as well as real-world robotic vision-based manipulation tasks. The results show that it strongly outperforms DAgger-like approaches across the different tasks, especially when the intervening experts are suboptimal. Code and videos can be found on the project website: rlif-page.github.io
翻訳日:2023-11-23 16:55:41 公開日:2023-11-21
# 負イオンと原子との陽電子結合のガウス基底多体理論計算

Gaussian-basis many-body theory calculations of positron binding to negative ions and atoms ( http://arxiv.org/abs/2311.13066v1 )

ライセンス: Link先を確認
J. Hofierka, B. Cunningham, C. M. Rawlins, C. H. Patterson and D. G. Green(参考訳) 負イオン h$^-$, f$^-$, cl$^-$, br$^-$ および閉殻原子 be, mg, zn, ca における陽電子結合エネルギーは, 著者らによって開発された多体理論アプローチにより計算される。 〜hofierka \emph{et al。 自然>-{\bf 608}, 688-693 (2022)]。 具体的には、ダイソン方程式はガウス基底を用いて解かれ、ポジトロン自己エネルギーは、電子雲の陽電子誘起偏光、電子-陽電子クーロン相互作用のスクリーニング、仮想ポジトロン形成、電子-ホールと陽電子-ホール相互作用を含む系を特徴付ける3つの無限のダイアグラムから構成される。 負のイオンに対して、結合は理論の静的なレベルで発生し、相関関係は結合エネルギーを$\sim$25--50\%向上させ、多くの異なる方法から得られる($\lesssim$5\%)計算と良好な一致をもたらす。 結合が相関(特に仮想ps形成)によってのみ有効となる原子では、結合エネルギーは[c]の相対論的結合クラスター計算と類似している(ただし、$\sim$10--30\%は大きい)。 ハラバティ、V。 〜a。 ~DzubaとV。 〜v。 Flambaum, Phys。 〜rev。 ~a {\bf 89}, 022517 (2014)] であり、どちらも[m]の確率的変分計算よりも体系的に大きい。 ブルームリーとJ。 〜ミトロイ、フィス。 〜rev。 〜A {\bf 73} (2005), J。 〜Mitroy, J。 である。 MOL! とSci。 ~{\bf 1}, 275 (2010)]

Positron binding energies in the negative ions H$^-$, F$^-$, Cl$^-$ and Br$^-$, and the closed-shell atoms Be, Mg, Zn and Ca, are calculated via a many-body theory approach developed by the authors [J.~Hofierka \emph{et al.} Nature~{\bf 608}, 688-693 (2022)]. Specifically, the Dyson equation is solved using a Gaussian basis, with the positron self energy constructed from three infinite classes of diagrams that account for the strong positron-atom correlations that characterise the system including the positron-induced polarization of the electron cloud, screening of the electron-positron Coulomb interaction, virtual-positronium formation and electron-hole and positron-hole interactions. For the negative ions, binding occurs at the static level of theory, and the correlations are found to enhance the binding energies by $\sim$25--50\%, yielding results in good agreement with ($\lesssim$5\% larger than) calculations from a number of distinct methods. For the atoms, for which binding is enabled exclusively by correlations, most notably virtual-Ps formation, the binding energies are found to be of similar order to (but $\sim$10--30\% larger than) relativistic coupled-cluster calculations of [C. Harabati, V.~A.~Dzuba and V.~V. Flambaum, Phys.~Rev.~A {\bf 89}, 022517 (2014)], both of which are systematically larger than stochastic variational calculations of [M.~Bromley and J.~Mitroy, Phys.~Rev.~A {\bf 73} (2005); J.~Mitroy, J.~At.~Mol.~Sci.~{\bf 1}, 275 (2010)].
翻訳日:2023-11-23 16:46:19 公開日:2023-11-21
# 水中通信のためのオンデマンド量子光源

On-Demand Quantum Light Sources for Underwater Communications ( http://arxiv.org/abs/2311.13065v1 )

ライセンス: Link先を確認
Dominic Scognamiglio, Angus Gale, Ali Al-Juboori, Milos Toth, Igor Aharonovich(参考訳) 量子通信は何十年もの間、現代の研究の最前線にあったが、水中での応用では、水の性質がほぼすべての有用な光波長を吸収し、ほとんどのケースでは数メートル以上の伝播を妨げている。 本研究は,水中光通信に適したオンデマンド量子光源について報告する。 電子ビームを用いて設計できる単一光子放出体は、六方晶窒化ホウ素の不純物に基づいている。 それらは水吸収の最小値に近い約436 nmのゼロフォノン線を持ち、水路を通過する際に無視できない透過と純度損失を被っている。 これらのエミッタは、他の光波長でのエミッタと比較して、例外的な水中伝送特性を有しており、数kbit/sの速度を持つ原理的な水中通信リンクとして利用されている。

Quantum communication has been at the forefront of modern research for decades, however it is severely hampered in underwater applications, where the properties of water absorb nearly all useful optical wavelengths and prevent them from propagating more than, in most cases, a few metres. This research reports on-demand quantum light sources, suitable for underwater optical communication. The single photon emitters, which can be engineered using an electron beam, are based on impurities in hexagonal boron nitride. They have a zero phonon line at ~ 436 nm, near the minimum value of water absorption and are shown to suffer negligible transmission and purity loss when travelling through water channels. These emitters are also shown to possess exceptional underwater transmission properties compared to emitters at other optical wavelengths and are utilised in a proof of principle underwater communication link with rates of several kbits/s.
翻訳日:2023-11-23 16:45:34 公開日:2023-11-21
# 分類から臨床へ:大規模言語モデルを用いたモバイルおよび行動保健データの分析と分析に向けて

From Classification to Clinical Insights: Towards Analyzing and Reasoning About Mobile and Behavioral Health Data With Large Language Models ( http://arxiv.org/abs/2311.13063v1 )

ライセンス: Link先を確認
Zachary Englhardt, Chengqian Ma, Margaret E. Morris, Xuhai "Orson" Xu, Chun-Cheng Chang, Lianhui Qin, Xin Liu, Shwetak Patel, Vikram Iyer(参考訳) ユビキタスセンサからの受動的に収集された行動健康データは、患者の日常生活からメンタルヘルスの専門家に洞察を提供するという大きな約束を持っているが、このデータを臨床で使用する分析ツールの開発には、デバイス間の一般化の課題と、測定された信号と個人のメンタルヘルスとの弱い、あるいはあいまいな相関に対処する必要がある。 これらの課題に対処するために,我々は,大規模言語モデル(LLM)を活用して,多センサデータから臨床的に有用な知見を合成する新しいアプローチを採用する。 歩数や睡眠などのデータにおける傾向がうつ病や不安などの状態とどのように関係しているかを,LSMを用いて推論する思考促進手法の連鎖を構築した。 まず,LLMによる2次うつ病分類を行い,61.1%のアキュラシーを達成した。 分類よりも影響があり、価値の高いアプローチは、新たな人間とAIのコラボレーションアプローチであり、臨床の専門家がこれらのツールを対話的にクエリし、臨床意思決定をサポートするために、患者が生成したAI推論に関するドメインの専門知識とコンテキストを組み合わせる。 GPT-4のようなモデルでは数値データの75%を正確に参照しており、臨床参加者は自己追跡データの解釈にこのアプローチを使うことに強い関心を示している。

Passively collected behavioral health data from ubiquitous sensors holds significant promise to provide mental health professionals insights from patient's daily lives; however, developing analysis tools to use this data in clinical practice requires addressing challenges of generalization across devices and weak or ambiguous correlations between the measured signals and an individual's mental health. To address these challenges, we take a novel approach that leverages large language models (LLMs) to synthesize clinically useful insights from multi-sensor data. We develop chain of thought prompting methods that use LLMs to generate reasoning about how trends in data such as step count and sleep relate to conditions like depression and anxiety. We first demonstrate binary depression classification with LLMs achieving accuracies of 61.1% which exceed the state of the art. While it is not robust for clinical use, this leads us to our key finding: even more impactful and valued than classification is a new human-AI collaboration approach in which clinician experts interactively query these tools and combine their domain expertise and context about the patient with AI generated reasoning to support clinical decision-making. We find models like GPT-4 correctly reference numerical data 75% of the time, and clinician participants express strong interest in using this approach to interpret self-tracking data.
翻訳日:2023-11-23 16:45:13 公開日:2023-11-21
# アトリビューションとアライメント:対話における発話生成と理解に及ぼす局所的文脈反復の影響

Attribution and Alignment: Effects of Local Context Repetition on Utterance Production and Comprehension in Dialogue ( http://arxiv.org/abs/2311.13061v1 )

ライセンス: Link先を確認
Aron Molnar, Jaap Jumelet, Mario Giulianelli, Arabella Sinclair(参考訳) 言語モデルは現代の対話システムのバックボーンとしてよく用いられる。 これらのモデルは、大量のフロート言語で事前訓練されている。 繰り返しは通常、言語モデル世代を評価する際に罰せられる。 しかし、これは対話の重要な要素である。 人間はローカルとパートナーの特定の繰り返しを使用し、それらは人間のユーザーによって好まれ、対話におけるコミュニケーションをより成功させる。 本研究では,その評価を行う。 (a)言語モデルが対話における人間に似た反復レベルを生成するか否か、 (b)理解中に使用する語彙の再使用に関連する処理機構は何か。 このようなモデル生成と理解行動の統合分析は、認知にインスパイアされた対話生成システムの開発に寄与すると考えている。

Language models are often used as the backbone of modern dialogue systems. These models are pre-trained on large amounts of written fluent language. Repetition is typically penalised when evaluating language model generations. However, it is a key component of dialogue. Humans use local and partner specific repetitions; these are preferred by human users and lead to more successful communication in dialogue. In this study, we evaluate (a) whether language models produce human-like levels of repetition in dialogue, and (b) what are the processing mechanisms related to lexical re-use they use during comprehension. We believe that such joint analysis of model production and comprehension behaviour can inform the development of cognitively inspired dialogue generation systems.
翻訳日:2023-11-23 16:44:46 公開日:2023-11-21
# ランダムな幾何学グラフからの次元推定に関する一考察

A note on estimating the dimension from a random geometric graph ( http://arxiv.org/abs/2311.13059v1 )

ライセンス: Link先を確認
Caelan Atamanchuk and Luc Devroye and Gabor Lugosi(参考訳) 頂点集合 $[n]$ を $n$ i.i.d.\ランダムベクトル $X_1,\ldots,X_n$ を未知密度 $f$ on $\R^d$ に基づいてランダムな幾何学グラフとする。 エッジ$(i,j)$は、与えられた閾値$r_n$に対して$\|X_i -X_j\| \le r_n$が存在し、おそらく$n$に依存する。 グラフの隣接行列にアクセスできるが、r_n$ やベクトル $x_i$ を知らない場合、基礎となる空間の次元 $d$ を推定する問題について検討する。 この論文の主な結果は、$n^{3/2} r_n^d \to \infty$と$r_n = o(1)$を持つすべての密度に対して$n \to \infty$として確率的に$d$に収束する$d$の推定子が存在することである。 この条件は、$n^{3/2} r_n^d \to 0$ であるとき、グラフは孤立エッジのみを含み、高い確率で表される。 また、密度の条件がなければ、$n r_n^d \to \infty$ と $r_n = o(1)$ のとき、$d$ の一貫した推定器が存在することを示す。

Let $G_n$ be a random geometric graph with vertex set $[n]$ based on $n$ i.i.d.\ random vectors $X_1,\ldots,X_n$ drawn from an unknown density $f$ on $\R^d$. An edge $(i,j)$ is present when $\|X_i -X_j\| \le r_n$, for a given threshold $r_n$ possibly depending upon $n$, where $\| \cdot \|$ denotes Euclidean distance. We study the problem of estimating the dimension $d$ of the underlying space when we have access to the adjacency matrix of the graph but do not know $r_n$ or the vectors $X_i$. The main result of the paper is that there exists an estimator of $d$ that converges to $d$ in probability as $n \to \infty$ for all densities with $\int f^5 < \infty$ whenever $n^{3/2} r_n^d \to \infty$ and $r_n = o(1)$. The conditions allow very sparse graphs since when $n^{3/2} r_n^d \to 0$, the graph contains isolated edges only, with high probability. We also show that, without any condition on the density, a consistent estimator of $d$ exists when $n r_n^d \to \infty$ and $r_n = o(1)$.
翻訳日:2023-11-23 16:44:37 公開日:2023-11-21
# Beyond Text: MultiAPIベンチマークで大規模言語モデルのマルチモーダル能率を明らかにする

Beyond Text: Unveiling Multimodal Proficiency of Large Language Models with MultiAPI Benchmark ( http://arxiv.org/abs/2311.13053v1 )

ライセンス: Link先を確認
Xiao Liu, Jianfeng Lin, Jiawei Zhang(参考訳) ChatGPTのような大規模言語モデルの普及は言語理解と生成を著しく進歩させ、幅広いアプリケーションに影響を与える。 しかし、これらのモデルは主にテキストベースのタスクに優れており、実世界のマルチモーダル情報の複雑さを見下ろしている。 マルチモーダルコンテキストにおけるLLMの習熟度向上を目的とした,包括的大規模APIベンチマークデータセットであるMultiAPIを紹介する。 ChatGPTを通じて共同で開発されたMultiAPIは,235の多様なAPIコールと2,038のコンテキストプロンプトで構成されている。 総合的な実験により, LLMはAPIコール決定の熟練度を示す一方で, ドメイン識別, 関数選択, 引数生成の課題に直面していることがわかった。 さらに、補助的なコンテキストが実際にパフォーマンスを損なうことは驚くべきことです。 詳細なエラー解析は、これらの課題に対処する新しいパラダイムへの道を開き、将来のllm研究の方向性を示唆する。

The proliferation of Large Language Models like ChatGPT has significantly advanced language understanding and generation, impacting a broad spectrum of applications. However, these models predominantly excel in text-based tasks, overlooking the complexity of real-world multimodal information. This study introduces MultiAPI, a pioneering comprehensive large-scale API benchmark dataset aimed at expanding LLMs' proficiency in multimodal contexts. Developed collaboratively through ChatGPT, MultiAPI consists of 235 diverse API calls and 2,038 contextual prompts, offering a unique platform evaluation of tool-augmented LLMs handling multimodal tasks. Through comprehensive experiments, our findings reveal that while LLMs demonstrate proficiency in API call decision-making, they face challenges in domain identification, function selection, and argument generation. What's more, we surprisingly notice that auxiliary context can actually impair the performance. An in-depth error analysis paves the way for a new paradigm to address these challenges, suggesting a potential direction for future LLM research.
翻訳日:2023-11-23 16:44:03 公開日:2023-11-21
# 特徴量と画素数に基づく新しいoctモザイクイングパイプライン

Novel OCT mosaicking pipeline with Feature- and Pixel-based registration ( http://arxiv.org/abs/2311.13052v1 )

ライセンス: Link先を確認
Jiacheng Wang, Hao Li, Dewei Hu, Yuankai K. Tao, Ipek Oguz(参考訳) 高分解能光コヒーレンス断層撮影(oct)は眼科研究に不可欠であるが、比較的狭い視野(fov)で制限されている。 画像モザイク化(image mosaicking)は、複数の重なり合った画像を調整してより大きなfovを得る技術である。 現在のモザイクパイプラインは、入力サブフィールド間のかなりのノイズとかなりの変位に苦しむことが多い。 本稿では,マルチビュー OCT/OCTA \textit{en face} プロジェクションイメージを縫合するための汎用パイプラインを提案する。 本手法は,学習に基づく特徴マッチングと頑健な画素登録の長所を組み合わせることで,複数の画像を効果的に調整する。 さらに,モザイクの結果を教師なしで検証するために,訓練された基礎モデルSegment Anything Model(SAM)の適用を進めた。 このパイプラインの有効性は,社内データセットと大規模公開データセットを用いて検証され,精度と計算効率の両面で優れた性能を示す。 また,画像モザイク評価ツールや,それに対応するパイプラインを \url{https://github.com/MedICL-VU/OCT-mosaicking} で公開しました。

High-resolution Optical Coherence Tomography (OCT) images are crucial for ophthalmology studies but are limited by their relatively narrow field of view (FoV). Image mosaicking is a technique for aligning multiple overlapping images to obtain a larger FoV. Current mosaicking pipelines often struggle with substantial noise and considerable displacement between the input sub-fields. In this paper, we propose a versatile pipeline for stitching multi-view OCT/OCTA \textit{en face} projection images. Our method combines the strengths of learning-based feature matching and robust pixel-based registration to align multiple images effectively. Furthermore, we advance the application of a trained foundational model, Segment Anything Model (SAM), to validate mosaicking results in an unsupervised manner. The efficacy of our pipeline is validated using an in-house dataset and a large public dataset, where our method shows superior performance in terms of both accuracy and computational efficiency. We also made our evaluation tool for image mosaicking and the corresponding pipeline publicly available at \url{https://github.com/MedICL-VU/OCT-mosaicking}.
翻訳日:2023-11-23 16:43:45 公開日:2023-11-21
# Latent Lab: 知識探索のための大規模言語モデル

Latent Lab: Large Language Models for Knowledge Exploration ( http://arxiv.org/abs/2311.13051v1 )

ライセンス: Link先を確認
Kevin Dunnell, Trudy Painter, Andrew Stoddard, Andy Lippman(参考訳) 本稿では,AIモデル,特に大規模言語モデル(LLM)の可能性を検討する。 我々は,MITメディアラボ研究プロジェクト間のつながりを発見するためのインタラクティブツールである"Latent Lab"を提案する。 この研究は、コンテンツを整理、検索、合成する際の課題に対処することで、協調AIシステムに関する洞察を提供する。 ユーザスタディにおいて、このツールの成功は、ユーザを慣れない知識ベースに導入する能力に基づいて評価され、最終的には、人間とAIの知識探索システムの進歩の基盤となる。

This paper investigates the potential of AI models, particularly large language models (LLMs), to support knowledge exploration and augment human creativity during ideation. We present "Latent Lab" an interactive tool for discovering connections among MIT Media Lab research projects, emphasizing "exploration" over search. The work offers insights into collaborative AI systems by addressing the challenges of organizing, searching, and synthesizing content. In a user study, the tool's success was evaluated based on its ability to introduce users to an unfamiliar knowledge base, ultimately setting the groundwork for the ongoing advancement of human-AI knowledge exploration systems.
翻訳日:2023-11-23 16:43:24 公開日:2023-11-21
# エンジニアリング設計における多忠実ベイズ最適化

Multi-fidelity Bayesian Optimization in Engineering Design ( http://arxiv.org/abs/2311.13050v1 )

ライセンス: Link先を確認
Bach Do and Ruda Zhang(参考訳) MFO(Multi-fidelity Optimization)とBO(Bayesian Optimization)の交差点に面したMF BOは、問題の物理的および数学的理解を取り入れ、リソースを節約し、エクスプロレーションと探索のトレードオフに対処し、不確実性を考慮し、並列コンピューティングを処理するという利点により、高価なエンジニアリング設計最適化問題の解決においてニッチを見出した。 MF BOを専門とする研究が増えていることは、この高度な最適化手法の包括的なレビューの必要性を示唆している。 本稿では,MF BOの2つの必須成分であるガウス過程(GP)に基づくMFサロゲートと取得関数の最近の展開について調査する。 まず、既存のMFモデリング手法とMFO戦略を分類し、MF BOをサロゲートに基づく最適化とMFOアルゴリズムの大きなファミリーに配置する。 次に、MF BOの各成分から共有される共通特性を利用して、重要なGPベースのMFサロゲートモデルを記述し、様々な取得関数をレビューする。 これにより、MF BOの構造化された理解が期待できる。 最後に,制約付き最適化,高次元最適化,不確実性下での最適化,多目的最適化など,複雑で重要な設計最適化問題を解決する上で,mf boのさらなる応用研究を必要とする重要な側面を明らかにする。

Resided at the intersection of multi-fidelity optimization (MFO) and Bayesian optimization (BO), MF BO has found a niche in solving expensive engineering design optimization problems, thanks to its advantages in incorporating physical and mathematical understandings of the problems, saving resources, addressing exploitation-exploration trade-off, considering uncertainty, and processing parallel computing. The increasing number of works dedicated to MF BO suggests the need for a comprehensive review of this advanced optimization technique. In this paper, we survey recent developments of two essential ingredients of MF BO: Gaussian process (GP) based MF surrogates and acquisition functions. We first categorize the existing MF modeling methods and MFO strategies to locate MF BO in a large family of surrogate-based optimization and MFO algorithms. We then exploit the common properties shared between the methods from each ingredient of MF BO to describe important GP-based MF surrogate models and review various acquisition functions. By doing so, we expect to provide a structured understanding of MF BO. Finally, we attempt to reveal important aspects that require further research for applications of MF BO in solving intricate yet important design optimization problems, including constrained optimization, high-dimensional optimization, optimization under uncertainty, and multi-objective optimization.
翻訳日:2023-11-23 16:43:11 公開日:2023-11-21
# 私たちは言われたことを聞いていますか。 新型コロナウイルスパンデミック時の人間の行動に関する実証的研究 : ニューラルネットワークと回帰分析

Do we listen to what we are told? An empirical study on human behaviour during the COVID-19 pandemic: neural networks vs. regression analysis ( http://arxiv.org/abs/2311.13046v1 )

ライセンス: Link先を確認
Yuxi Heluo and Kexin Wang and Charles W. Robson(参考訳) 本研究では、新型コロナウイルスのパンデミックにおける人間の行動に関する初の視覚的オープンソース実証研究を行い、一般市民がマスク着用に関連する公衆衛生政策にどのように準拠しているかを検討する。 オブジェクト検出に基づく畳み込みニューラルネットワーク、回帰分析、多層パーセプトロンを組み合わせて、2020年中にウィーンの公共の視覚データを解析する。 マスク着用に関する政府規制や公共交通機関の発表は、新型コロナウイルス感染拡大に伴うマスク着用行動の是正を促した。 重要なことは、発表内容と規制内容の変化が人々の行動に異質な影響をもたらしたことである。 回帰分析とニューラルネットワークの予測力を比較すると、新型コロナウイルスのパンデミック時の集団反応をより正確に予測できることが示される。 回帰モデリングを用いることで、社会的行動の基盤となる因果経路を解明することもできます。 本研究は, 適切なコミュニケーション内容の重要性を浮き彫りにするため, 今後, より効果的な非医薬介入が期待できる。 文献に加え、回帰モデリングとニューラルネットワークは相互排他的ではなく、互いに補完するものであることを示す。

In this work, we contribute the first visual open-source empirical study on human behaviour during the COVID-19 pandemic, in order to investigate how compliant a general population is to mask-wearing-related public-health policy. Object-detection-based convolutional neural networks, regression analysis and multilayer perceptrons are combined to analyse visual data of the Viennese public during 2020. We find that mask-wearing-related government regulations and public-transport announcements encouraged correct mask-wearing-behaviours during the COVID-19 pandemic. Importantly, changes in announcement and regulation contents led to heterogeneous effects on people's behaviour. Comparing the predictive power of regression analysis and neural networks, we demonstrate that the latter produces more accurate predictions of population reactions during the COVID-19 pandemic. Our use of regression modelling also allows us to unearth possible causal pathways underlying societal behaviour. Since our findings highlight the importance of appropriate communication contents, our results will facilitate more effective non-pharmaceutical interventions to be developed in future. Adding to the literature, we demonstrate that regression modelling and neural networks are not mutually exclusive but instead complement each other.
翻訳日:2023-11-23 16:42:44 公開日:2023-11-21
# Defocus Blur を用いたカメラ非依存単眼画像深度推定

Camera-Independent Single Image Depth Estimation from Defocus Blur ( http://arxiv.org/abs/2311.13045v1 )

ライセンス: Link先を確認
Lahiru Wijayasingha, Homa Alemzadeh, John A. Stankovic(参考訳) 単眼深度推定は、機械ビジョンにおける多くの下流タスクにおいて重要なステップである。 意味に基づく深度推定法よりも正確な結果が得られるデフォーカスのぼかしから単眼深度を推定する話題に対処する。 デフォーカス技術による既存の単眼深度は、撮像された特定のカメラに敏感である。 いくつかのカメラ関連パラメータが光物理方程式を用いてデフォーカスのぼかしにどのように影響するか、そしてそれらがデフォーカスのぼかしをこれらのパラメータに依存するかを示す。 提案する簡単な修正手順は,元のモデルの再学習を必要としない問題を緩和することができる。 我々は,デフォーカスのぼかしモデルから奥行きのカメラ独立性能をテストするために,合成データセットを作成した。 異なるカメラを用いて得られた合成データと実データ(ddff12,nyu深度v2)の双方について評価を行い,提案手法がカメラの変動に対して著しく頑健であることを示す。 コード: https://github.com/sleekeagle/defocus_camind.git

Monocular depth estimation is an important step in many downstream tasks in machine vision. We address the topic of estimating monocular depth from defocus blur which can yield more accurate results than the semantic based depth estimation methods. The existing monocular depth from defocus techniques are sensitive to the particular camera that the images are taken from. We show how several camera-related parameters affect the defocus blur using optical physics equations and how they make the defocus blur depend on these parameters. The simple correction procedure we propose can alleviate this problem which does not require any retraining of the original model. We created a synthetic dataset which can be used to test the camera independent performance of depth from defocus blur models. We evaluate our model on both synthetic and real datasets (DDFF12 and NYU depth V2) obtained with different cameras and show that our methods are significantly more robust to the changes of cameras. Code: https://github.com/sleekEagle/defocus_camind.git
翻訳日:2023-11-23 16:42:23 公開日:2023-11-21
# 乱流チャネルにおける高次元量子通信のための高速適応光学

Fast Adaptive Optics for High-Dimensional Quantum Communications in Turbulent Channels ( http://arxiv.org/abs/2311.13041v1 )

ライセンス: Link先を確認
Lukas Scarfe, Felix Hufnagel, Manuel F. Ferrer-Garcia, Alessio D'Errico, Khabat Heshami, Ebrahim Karimi(参考訳) 量子鍵分布(QKD)は、あるパーティから別のパーティへ情報を送信するための証明可能なセキュアな方法である。 自由空間QKDは、この情報を長距離や地上衛星のようなファイバーベースの通信を実装できない場所で送信することができる。 自由空間リンクの第一の制限因子は、大気乱流の影響であり、qkdチャネルにおいて大きな誤差率と損失の増加をもたらす。 そこで我々は, 高速適応光学(AO)システムを用いて, 乱流流路内の高次元QKDに使用される空間モードの波面歪みをリアルタイムに補正する。 まず, 乱流を伝播したガウスモードの結合効率向上におけるAOシステムの有効性を示す。 プロセストモグラフィーにより,本システムはチャネル内の空間モードのクロストークを著しく低減できることを示す。 最後に、AOを用いることで、高次元軌道角運動量に基づくQKDプロトコルの量子ディット誤り率を低減し、そうでなければ不可能なチャネルでのセキュアな通信を可能にすることを示す。 これらの結果は長距離自由空間qkdシステムの構築に有望である。

Quantum Key Distribution (QKD) promises a provably secure method to transmit information from one party to another. Free-space QKD allows for this information to be sent over great distances and in places where fibre-based communications cannot be implemented, such as ground-satellite. The primary limiting factor for free-space links is the effect of atmospheric turbulence, which can result in significant error rates and increased losses in QKD channels. Here, we employ the use of a high-speed Adaptive Optics (AO) system to make real-time corrections to the wavefront distortions on spatial modes that are used for high-dimensional QKD in our turbulent channel. First, we demonstrate the effectiveness of the AO system in improving the coupling efficiency of a Gaussian mode that has propagated through turbulence. Through process tomography, we show that our system is capable of significantly reducing the crosstalk of spatial modes in the channel. Finally, we show that employing AO reduces the quantum dit error rate for a high-dimensional orbital angular momentum-based QKD protocol, allowing for secure communication in a channel where it would otherwise be impossible. These results are promising for establishing long-distance free-space QKD systems.
翻訳日:2023-11-23 16:42:06 公開日:2023-11-21
# penrose tilingは、量子誤り訂正符号である

The Penrose Tiling is a Quantum Error-Correcting Code ( http://arxiv.org/abs/2311.13040v1 )

ライセンス: Link先を確認
Zhi Li, Latham Boyle(参考訳) ペンローズ・ティリング (penrose tiling, pt) は、本質的に非周期的に平面をタイル化する方法であり、多くの顕著な性質を持つ。 量子誤り訂正符号(Quantum error-correcting code, QECC)は、量子情報をノイズから保護するための巧妙な方法である。 PTとQECCは全く無関係に思えるかも知れないが、本論文では、PTが(ある意味では)顕著な新しいタイプのQECCを生じさせ、どの有限領域の局所的なエラーや消去も、どの程度の大きさであっても、診断と修正が可能であることを指摘している。 また、このコード(ammann-beenker と fibonacci tilings に基づく)の変種も構築し、有限空間トーラス、離散スピン系、あるいは任意の数の空間次元で生きることができる。 量子コンピューティング、凝縮物質物理学、量子重力との関係について論じる。

The Penrose tiling (PT) is an intrinsically non-periodic way of tiling the plane, with many remarkable properties. A quantum error-correcting code (QECC) is a clever way of protecting quantum information from noise, by encoding the information with a sophisticated type of redundancy. Although PTs and QECCs might seem completely unrelated, in this paper we point out that PTs give rise to (or, in a sense, are) a remarkable new type of QECC in which any local errors or erasures in any finite region, no matter how large, may be diagnosed and corrected. We also construct variants of this code (based on the Ammann-Beenker and Fibonacci tilings) that can live on finite spatial tori, in discrete spin systems, or in an arbitrary number of spatial dimensions. We discuss connections to quantum computing, condensed matter physics, and quantum gravity.
翻訳日:2023-11-23 16:41:46 公開日:2023-11-21
# 超高分解能4D Flow MRI $\unicode{x2013}$ アンサンブル学習を用いた心血管系の拡張

Generalized super-resolution 4D Flow MRI $\unicode{x2013}$ using ensemble learning to extend across the cardiovascular system ( http://arxiv.org/abs/2311.11819v2 )

ライセンス: Link先を確認
Leon Ericsson, Adam Hjalmarsson, Muhammad Usman Akbar, Edward Ferdian, Mia Bonini, Brandon Hardy, Jonas Schollenberger, Maria Aristova, Patrick Winter, Nicholas Burris, Alexander Fyrdahl, Andreas Sigfridsson, Susanne Schnell, C. Alberto Figueroa, David Nordsletten, Alistair A. Young, and David Marlevi(参考訳) 4D Flow Magnetic Resonance Imaging (4D Flow MRI)は、心臓血管系の血流を定量化できる非侵襲的な計測技術である。 空間分解能と画像ノイズにより実用性は制限されているが、訓練された超解像(SR)ネットワークの導入は、画像の質を高める可能性がある。 しかし、これらの試みは主に狭義の心血管領域に限られており、SRの作用が心血管系全体にどのように広がるかは限定的である。 本研究の目的は,異種トレーニングセットと専用アンサンブル学習を組み合わせたSR 4D Flow MRIの一般化可能性を検討することである。 3つの異なる領域(心臓、大動脈、脳血管)にまたがる合成トレーニングデータを用いて、異なる畳み込みベースとアンサンブル学習者がドメインとアーキテクチャの関数として評価され、シリコの双方のパフォーマンスを定量化し、同じ3つのドメインから取得したインヴィオデータを得た。 その結果,バッギングと積み重ねはドメイン間のSR性能を向上し,低分解能入力データから高分解能速度を正確に予測できることがわかった。 同様に、最適化されたネットワークは、ダウンサンプリングされたin-vivoデータからネイティブ解像度の速度を回復し、臨床レベルの入力データからSR画像を生成する定性的ポテンシャルを示す。 以上の結果から,本研究はSR 4D Flow MRIの汎用的アプローチとして,様々な臨床領域にわたるアンサンブル学習の有用性を示す。

4D Flow Magnetic Resonance Imaging (4D Flow MRI) is a non-invasive measurement technique capable of quantifying blood flow across the cardiovascular system. While practical use is limited by spatial resolution and image noise, incorporation of trained super-resolution (SR) networks has potential to enhance image quality post-scan. However, these efforts have predominantly been restricted to narrowly defined cardiovascular domains, with limited exploration of how SR performance extends across the cardiovascular system; a task aggravated by contrasting hemodynamic conditions apparent across the cardiovasculature. The aim of our study was to explore the generalizability of SR 4D Flow MRI using a combination of heterogeneous training sets and dedicated ensemble learning. With synthetic training data generated across three disparate domains (cardiac, aortic, cerebrovascular), varying convolutional base and ensemble learners were evaluated as a function of domain and architecture, quantifying performance on both in-silico and acquired in-vivo data from the same three domains. Results show that both bagging and stacking ensembling enhance SR performance across domains, accurately predicting high-resolution velocities from low-resolution input data in-silico. Likewise, optimized networks successfully recover native resolution velocities from downsampled in-vivo data, as well as show qualitative potential in generating denoised SR-images from clinical level input data. In conclusion, our work presents a viable approach for generalized SR 4D Flow MRI, with ensemble learning extending utility across various clinical areas of interest.
翻訳日:2023-11-23 12:05:39 公開日:2023-11-21
# Orca 2: 小さな言語モデルに推論の仕方を教える

Orca 2: Teaching Small Language Models How to Reason ( http://arxiv.org/abs/2311.11045v2 )

ライセンス: Link先を確認
Arindam Mitra, Luciano Del Corro, Shweti Mahajan, Andres Codas, Clarisse Simoes, Sahaj Agarwal, Xuxi Chen, Anastasia Razdaibiedina, Erik Jones, Kriti Aggarwal, Hamid Palangi, Guoqing Zheng, Corby Rosset, Hamed Khanpour, Ahmed Awadallah(参考訳) Orca 1は、説明トレースのようなリッチな信号から学習し、BigBench HardやAGIEvalといったベンチマークで従来の命令チューニングモデルより優れている。 orca 2では、トレーニング信号の改善が、より小さなlmsの推論能力をいかに強化するかを引き続き検討する。 小さなLMを訓練する研究は、しばしば、より有能なモデルの出力を再現するために模倣学習に依存している。 我々は、模倣に過度に重きを置くことで、より小さいモデルの可能性を制限できると主張する。 我々は、異なるタスクに対して異なるソリューション戦略を採用するために、小さなLMを教えることを目指しています。 例えば、より大きなモデルは複雑なタスクに直接的な答えを与えるかもしれませんが、小さなモデルは同じ能力を持っていません。 orca 2では、さまざまな推論テクニック(ステップバイステップ、リコール、生成、リコール-リゾン生成、直接回答など)をモデルに教えます。 より重要なことは、モデルが各タスクに対して最も効果的なソリューション戦略を決定するのを助けることを目的としています。 Orca 2は15種類の多様なベンチマーク(約100タスクと36,000以上のユニークなプロンプトに対応する)を用いて評価する。 Orca 2は同様のサイズのモデルを大幅に上回り、ゼロショット設定で高度な推論能力をテストする複雑なタスクで評価されるように、5~10倍のモデルと同等以上のパフォーマンスレベルを達成する。 orca 2 重量を aka.ms/orca-lm で公開し、より小さい lms の開発、評価、アライメントの研究を支援する

Orca 1 learns from rich signals, such as explanation traces, allowing it to outperform conventional instruction-tuned models on benchmarks like BigBench Hard and AGIEval. In Orca 2, we continue exploring how improved training signals can enhance smaller LMs' reasoning abilities. Research on training small LMs has often relied on imitation learning to replicate the output of more capable models. We contend that excessive emphasis on imitation may restrict the potential of smaller models. We seek to teach small LMs to employ different solution strategies for different tasks, potentially different from the one used by the larger model. For example, while larger models might provide a direct answer to a complex task, smaller models may not have the same capacity. In Orca 2, we teach the model various reasoning techniques (step-by-step, recall then generate, recall-reason-generate, direct answer, etc.). More crucially, we aim to help the model learn to determine the most effective solution strategy for each task. We evaluate Orca 2 using a comprehensive set of 15 diverse benchmarks (corresponding to approximately 100 tasks and over 36,000 unique prompts). Orca 2 significantly surpasses models of similar size and attains performance levels similar or better to those of models 5-10x larger, as assessed on complex tasks that test advanced reasoning abilities in zero-shot settings. make Orca 2 weights publicly available at aka.ms/orca-lm to support research on the development, evaluation, and alignment of smaller LMs
翻訳日:2023-11-23 12:02:21 公開日:2023-11-21
# 「中央集権化・分散化」:非フランジブルトークン(nfts)市場における利害関係者の懸念と価値判断

"Centralized or Decentralized?": Concerns and Value Judgments of Stakeholders in the Non-Fungible Tokens (NFTs) Market ( http://arxiv.org/abs/2311.10990v2 )

ライセンス: Link先を確認
Yunpeng Xiao, Bufan Deng, Siqi Chen, Kyrie Zhixuan Zhou, Ray LC, Luyao Zhang, Xin Tong(参考訳) 非フランジブルトークン (non-fungible tokens, nfts) は、アイテムのユニークな所有権を表すために分散されたデジタルトークンである。 近年、NFTは人気を博し、詐欺、人種差別、性差別などの問題を提起している。 NFTの重要な属性である分散化は、NFTマーケットプレースから意図的に取り除かれた集中型スキームの下での規制が容易ないくつかの問題に寄与する。 本研究では, NFT空間におけるこの集中分散ジレンマを定量的, 定性的な混合手法により探索した。 中央集権化ジレンマ (Centralization-Decentralization dilemma) は、分散化のスローガンと利害関係者の利害の対立によって引き起こされるジレンマである。 まず3万件以上のNFT関連ツイートを分析し,NFT分野における利害関係者の関心事の高レベルな理解を得た。 次に15人のnft利害関係者(クリエーターとコレクターの両方)にインタビューを行い、これらの懸念と潜在的なソリューションに関する深い洞察を得た。 調査の結果,金融詐欺,偽造NFT,ハッキング,非倫理的NFTなど,ユーザ間の問題点が明らかになった。 さらに,インタビューにおける利害関係者の視点を反映した集中分散ジレンマについて考察した。 最後に,NFT市場における集中化・分散化ジレンマを解決するための推論を行い,NFTの将来と分散化について考察した。

Non-fungible tokens (NFTs) are decentralized digital tokens to represent the unique ownership of items. Recently, NFTs have been gaining popularity and at the same time bringing up issues, such as scams, racism, and sexism. Decentralization, a key attribute of NFT, contributes to some of the issues that are easier to regulate under centralized schemes, which are intentionally left out of the NFT marketplace. In this work, we delved into this centralization-decentralization dilemma in the NFT space through mixed quantitative and qualitative methods. Centralization-decentralization dilemma is the dilemma caused by the conflict between the slogan of decentralization and the interests of stakeholders. We first analyzed over 30,000 NFT-related tweets to obtain a high-level understanding of stakeholders' concerns in the NFT space. We then interviewed 15 NFT stakeholders (both creators and collectors) to obtain their in-depth insights into these concerns and potential solutions. Our findings identify concerning issues among users: financial scams, counterfeit NFTs, hacking, and unethical NFTs. We further reflected on the centralization-decentralization dilemma drawing upon the perspectives of the stakeholders in the interviews. Finally, we gave some inferences to solve the centralization-decentralization dilemma in the NFT market and thought about the future of NFT and decentralization.
翻訳日:2023-11-23 12:01:55 公開日:2023-11-21
# タスク実証による形態的異なるロボットの対応学習

Correspondence learning between morphologically different robots via task demonstrations ( http://arxiv.org/abs/2310.13458v3 )

ライセンス: Link先を確認
Hakan Aktas, Yukie Nagai, Minoru Asada, Erhan Oztop, Emre Ugur(参考訳) 我々は、体、センサー、アクチュエーターの観点から、さまざまなロボットを観察している。 スキルセットの共通性を考えると、個々のロボットに個別に各スキルを教えることは非効率であり、ロボットランドスケープの多様さを考慮するとスケーラビリティがない。 異なるロボットの感覚運動空間間の対応を学習できれば、一つのロボットで学習されたスキルが、より直接的に、そして簡単に他のロボットに移されるようになると期待できる。 本稿では,異なる形態を持つ2つ以上のロボットの対応関係を学習する手法を提案する。 具体的には、異なる自由度を有する同様の形態を持つロボットに加えて、関節制御を備えた固定型マニピュレータロボットと差動駆動移動ロボットが提案フレームワーク内で対応可能であることを示す。 検討したロボット間の対応を確立するために、同じ目標を達成するために最初の基本タスクがロボットに示される。 そして、目標を達成するための個々のロボットポリシーとともに、共通の潜在表現を学ぶ。 最初の学習段階の後、ひとつのロボットによる新しいタスク実行の観察が十分になり、他のロボットに関連する潜在空間表現を生成して同じタスクを達成する。 我々は,(1)ロボットが同じ作業を行うために同じ経路をたどる必要がある場合,(2)ロボットが同じ作業を行うために異なる軌跡をたどる必要がある場合,(3)ロボットに必要な感覚運動軌跡の複雑さが異なる場合に,ロボット同士の対応が学習される一連の実験において,本システムを検証した。 また,実際のマニピュレータロボットとシミュレートされた移動ロボットとの対応学習の概念実証を行う。

We observe a large variety of robots in terms of their bodies, sensors, and actuators. Given the commonalities in the skill sets, teaching each skill to each different robot independently is inefficient and not scalable when the large variety in the robotic landscape is considered. If we can learn the correspondences between the sensorimotor spaces of different robots, we can expect a skill that is learned in one robot can be more directly and easily transferred to other robots. In this paper, we propose a method to learn correspondences among two or more robots that may have different morphologies. To be specific, besides robots with similar morphologies with different degrees of freedom, we show that a fixed-based manipulator robot with joint control and a differential drive mobile robot can be addressed within the proposed framework. To set up the correspondence among the robots considered, an initial base task is demonstrated to the robots to achieve the same goal. Then, a common latent representation is learned along with the individual robot policies for achieving the goal. After the initial learning stage, the observation of a new task execution by one robot becomes sufficient to generate a latent space representation pertaining to the other robots to achieve the same task. We verified our system in a set of experiments where the correspondence between robots is learned (1) when the robots need to follow the same paths to achieve the same task, (2) when the robots need to follow different trajectories to achieve the same task, and (3) when complexities of the required sensorimotor trajectories are different for the robots. We also provide a proof-of-the-concept realization of correspondence learning between a real manipulator robot and a simulated mobile robot.
翻訳日:2023-11-23 12:00:45 公開日:2023-11-21
# ディープニューラルネットワークにおけるショートカット学習

Shortcut Learning in Deep Neural Networks ( http://arxiv.org/abs/2004.07780v5 )

ライセンス: Link先を確認
Robert Geirhos, J\"orn-Henrik Jacobsen, Claudio Michaelis, Richard Zemel, Wieland Brendel, Matthias Bethge, Felix A. Wichmann(参考訳) ディープラーニングは、現在の人工知能の台頭を引き起こし、今日の人工知能の成果である。 多くの成功談は、科学、産業、社会に急速に広まったが、その限界は最近になってようやく焦点が当てられた。 この観点から,深層学習の問題のいくつが,同じ根本的な問題である近道学習の異なる症状と見なせるか,について考察する。 ショートカットは標準的なベンチマークでうまく機能するが、現実のシナリオのようなより困難なテスト条件に移行できない決定ルールである。 関連する問題は、比較心理学、教育、言語学で知られており、近道学習は、生物学的および人工的な学習システムにおいて共通の特徴である可能性が示唆されている。 これらの観測に基づいて、モデル解釈とベンチマークのための一連の勧告を開発し、実験室から実世界のアプリケーションへのロバスト性や転送性を改善する機械学習の最近の進歩を強調した。

Deep learning has triggered the current rise of artificial intelligence and is the workhorse of today's machine intelligence. Numerous success stories have rapidly spread all over science, industry and society, but its limitations have only recently come into focus. In this perspective we seek to distill how many of deep learning's problems can be seen as different symptoms of the same underlying problem: shortcut learning. Shortcuts are decision rules that perform well on standard benchmarks but fail to transfer to more challenging testing conditions, such as real-world scenarios. Related issues are known in Comparative Psychology, Education and Linguistics, suggesting that shortcut learning may be a common characteristic of learning systems, biological and artificial alike. Based on these observations, we develop a set of recommendations for model interpretation and benchmarking, highlighting recent advances in machine learning to improve robustness and transferability from the lab to real-world applications.
翻訳日:2023-11-23 06:26:34 公開日:2023-11-21
# 変分量子線形解法

Variational Quantum Linear Solver ( http://arxiv.org/abs/1909.05820v4 )

ライセンス: Link先を確認
Carlos Bravo-Prieto, Ryan LaRose, M. Cerezo, Yigit Subasi, Lukasz Cincio, Patrick J. Coles(参考訳) 従来、方程式の線形系を解くための量子アルゴリズムは、回路深度が要求されるため、短期的には実装できない。 本稿では,短期量子コンピュータ上で線形系を解くために,変分量子線形解法(VQLS)と呼ばれるハイブリッド量子古典アルゴリズムを提案する。 VQLSは、$A|x\rangle\propto|b\rangle$を変動的に準備する。 我々は、望ましい解精度$\epsilon$が達成されることを保証するvqlの操作上有意義な終了条件を導出する。 具体的には、$C \geq \epsilon^2 / \kappa^2$で、$C$はVQLSコスト関数であり、$\kappa$は$A$の条件番号であることを示す。 我々は、その推定の古典的硬さの証拠を提供しながら、C$を推定するために効率的な量子回路を提案する。 Rigettiの量子コンピュータを使用して、問題サイズが1024\times1024$までのVQLSをうまく実装しました。 最後に,2^{50}\times2^{50}$までの大きさの非自明な問題を数値的に解く。 具体的な例については、vqlの時間複雑性が$\epsilon$、$\kappa$、システムサイズ$n$で効率的にスケールできることをヒューリスティックに確認します。

Previously proposed quantum algorithms for solving linear systems of equations cannot be implemented in the near term due to the required circuit depth. Here, we propose a hybrid quantum-classical algorithm, called Variational Quantum Linear Solver (VQLS), for solving linear systems on near-term quantum computers. VQLS seeks to variationally prepare $|x\rangle$ such that $A|x\rangle\propto|b\rangle$. We derive an operationally meaningful termination condition for VQLS that allows one to guarantee that a desired solution precision $\epsilon$ is achieved. Specifically, we prove that $C \geq \epsilon^2 / \kappa^2$, where $C$ is the VQLS cost function and $\kappa$ is the condition number of $A$. We present efficient quantum circuits to estimate $C$, while providing evidence for the classical hardness of its estimation. Using Rigetti's quantum computer, we successfully implement VQLS up to a problem size of $1024\times1024$. Finally, we numerically solve non-trivial problems of size up to $2^{50}\times2^{50}$. For the specific examples that we consider, we heuristically find that the time complexity of VQLS scales efficiently in $\epsilon$, $\kappa$, and the system size $N$.
翻訳日:2023-11-23 06:26:20 公開日:2023-11-21
# 高分解能空中画像のセマンティクスセグメンテーションのためのコンテキストアワーグラスネットワーク

Contextual Hourglass Network for Semantic Segmentation of High Resolution Aerial Imagery ( http://arxiv.org/abs/1810.12813v3 )

ライセンス: Link先を確認
Panfeng Li, Youzuo Lin, Emily Schultz-Fellenz(参考訳) 航空画像のセマンティクスセグメンテーションは,リモートセンシング画像解析において困難かつ重要な課題である。 近年、ディープラーニングの成功により、様々な畳み込みニューラルネットワーク(CNN)ベースのモデルが開発されている。 しかし、オブジェクトのサイズやクラスラベルが不均衡であるため、正確なピクセル単位での意味セグメンテーション結果を得ることは困難である。 これらの課題に対処するため,新しいセマンティックセグメンテーション手法を開発し,それをContextual Hourglass Networkと呼ぶ。 提案手法では,予測の堅牢性を改善するために,処理された低解像度特徴写像に対する注意機構を組み込んだ新しい時間ガラスモジュールを設計し,文脈意味論を活用する。 さらに,複数の時間ガラスモジュールを端から端まで接続することで,エンコーダとデコーダの重ね合わせ構造を利用する。 このアーキテクチャは、リッチなマルチスケール機能を効果的に抽出し、中間管理を通じてコンテキストセマンティクスを学習するためのフィードバックループを追加することができる。 セマンティクスセグメンテーション手法の有効性を示すために,ポツダムとヴァイヒンゲンのデータセットでテストを行った。 他のベースラインメソッドとの比較を通じて、本手法は全体のパフォーマンスに最適な結果をもたらす。

Semantic segmentation for aerial imagery is a challenging and important problem in remotely sensed imagery analysis. In recent years, with the success of deep learning, various convolutional neural network (CNN) based models have been developed. However, due to the varying sizes of the objects and imbalanced class labels, it can be challenging to obtain accurate pixel-wise semantic segmentation results. To address those challenges, we develop a novel semantic segmentation method and call it Contextual Hourglass Network. In our method, in order to improve the robustness of the prediction, we design a new contextual hourglass module which incorporates attention mechanism on processed low-resolution featuremaps to exploit the contextual semantics. We further exploit the stacked encoder-decoder structure by connecting multiple contextual hourglass modules from end to end. This architecture can effectively extract rich multi-scale features and add more feedback loops for better learning contextual semantics through intermediate supervision. To demonstrate the efficacy of our semantic segmentation method, we test it on Potsdam and Vaihingen datasets. Through the comparisons to other baseline methods, our method yields the best results on overall performance.
翻訳日:2023-11-23 06:25:18 公開日:2023-11-21
# 量子力学におけるコヒーレント制御とノイズの協調

Cooperation between coherent control and noises in quantum metrology ( http://arxiv.org/abs/1801.07563v2 )

ライセンス: Link先を確認
Yu Chen, Zibo Miao, and Haidong Yuan(参考訳) 本稿では,オープンスピン系におけるコヒーレント制御とノイズの協調について検討し,量子力学におけるパラメータ化の新しい可能性を示すことを目的とした。 ここで提案された協調スキームは、より高い精度で標準スキームより優れている。 より具体的には、Lindbladマスター方程式によって記述された従来の単一スピン系におけるコヒーレント制御とノイズの協調相互作用の効果を、ハミルトニアン以外の雑音力学において推定および符号化されるパラメータとして、磁場の大きさによって説明する。 自然発生とノイズの強調の両方のシナリオが解析され、関連する量子フィッシャー情報が与えられた。 さらに、量子距離論が実際はほとんど適用されている領域では、ノイズの存在下での協調スキームの精度限界がユニタリ力学の下での究極の精度限界を超えることが示されている。 一方,マルチスピンシステムも検討されている。 異なるスピン間のカップリングは協調スキームの下で非局所パラメトリゼーションを実現するのに役立ち、基底状態が絡み合っていることを示す。 これにより精度の限界が改善され,本論文で実証・可視化された。

In this paper we study the cooperation between coherent control and noises in open spin systems, aiming to demonstrate that such cooperation can provide new possibilities for parametrization in quantum metrology. The cooperative scheme proposed here outperforms the standard scheme, with higher precision achieved. More specifically, we illustrate the effect of cooperative interaction between coherent control and noises in conventional single-spin systems described by Lindblad master equations, with the magnitude of a magnetic field taken as the parameter to be estimated and encoded in the noisy dynamics besides the Hamiltonian. The scenarios of both spontaneous emission and dephasing noise have been analyzed, where the associated quantum Fisher information has been given. Furthermore, it has been demonstrated that in the realm where quantum metrology is mostly applied in practice, the precision limit under the cooperative scheme in the presence of noises can surpass the ultimate precision limit under the unitary dynamics. On the other hand, multiple-spin systems have also been considered. We show that the coupling between different spins can help realize non-local parametrization under the cooperative scheme, with the ground state made entangled. This thus leads to the improvement of precision limit, which has been proved and visualized in our paper.
翻訳日:2023-11-23 06:24:59 公開日:2023-11-21
# 極大回転角によるノイズダイナミクスの量子速度限界の厳密な境界

Tight bounds of quantum speed limit for noisy dynamics via maximal rotation angles ( http://arxiv.org/abs/1601.00150v2 )

ライセンス: Link先を確認
Zihao Hu, Lingna Wang, Hongzhen Chen, Haidong Yuan, Chi-Hang Fred Fung, Jing Liu, and Zibo Miao(参考訳) 量子物理学の法則は計算の速度に限界を与える。 特に、初期状態から最終状態へのシステムの進化時間は任意に短くすることはできない。 ユニタリダイナミクスの進化速度に関する境界は、長い間研究されてきた。 ノイズダイナミクスのための進化の速度に関するいくつかの限界も最近得られているが、一般的にはタイトではない。 本稿では,雑音力学に関する量子速度制限のための新しい枠組みを提案する。 この枠組み内では、ノイズダイナミクスが任意の時間に達成できる正確な最大回転角を求め、ノイズダイナミクスの進化時間に厳密な拘束を与える。 得られた境界は、ノイズのダイナミクスがユニタリダイナミクスとは本質的に異なることを明確に示します。 さらに、任意の状態から直交状態への進化に必要な最小時間である直交化時間は、一般にノイズ力学には適用されないことを示す。

The laws of quantum physics place a limit on the speed of computation. In particular, the evolution time of a system from an initial state to a final state cannot be arbitrarily short. Bounds on the speed of evolution for unitary dynamics have long been studied. A few bounds on the speed of evolution for noisy dynamics have also been obtained recently, which, however, are in general not tight. In this paper, we present a new framework for quantum speed limit concerning noisy dynamics. Within this framework we obtain the exact maximal rotation angle that noisy dynamics can achieve at any given time, which gives rise to a tight bound on the evolution time for noisy dynamics. The obtained bound clearly reveals that noisy dynamics are essentially different from unitary dynamics. Furthermore, we show that the orthogonalization time, which is the minimum time needed to evolve any state to its orthogonal state, is in general not applicable to noisy dynamics.
翻訳日:2023-11-23 06:24:38 公開日:2023-11-21
# 欠落データの存在下でのフレキシブルな変数選択

Flexible variable selection in the presence of missing data ( http://arxiv.org/abs/2202.12989v4 )

ライセンス: Link先を確認
B. D. Williamson and Y. Huang(参考訳) 多くのアプリケーションにおいて、応答を予測する上で望ましいレベルのパフォーマンスを達成する複数の候補から、同種の機能セット、またはパネルを特定することが関心がある。 このタスクは、サンプリング設計やその他のランダムなメカニズムから生じるデータの欠如によって、しばしば複雑になる。 欠落データコンテキストにおける変数選択に関する最も最近の研究は、有限次元統計モデル(例えば一般化あるいはペナルティ化された線形モデル)に依存する部分がある。 このモデルが不特定化されている場合、選択された変数は必ずしも科学的に関連づけられず、サブ最適分類性能を持つパネルとなる可能性がある。 この制限に対処するために,非パラメトリックな変数選択アルゴリズムと多重計算を組み合わせることで,非ランダムデータの存在下でフレキシブルなパネルを開発する。 提案手法は,一般的な誤り率の制御を行うアルゴリズムに基づく戦略を概説する。 シミュレーションにより,提案手法は動作特性が良好であり,汎用線形モデルが不特定である場合の既設のペナルティ化回帰アプローチと比較して,高い分類と可変選択性能を有するパネルが得られた。 最後に, 試料量が少ないため, 生体マーカーが複雑に欠如する状況において, 膵嚢胞を異なる悪性度で分離するためのバイオマーカーパネルの開発を行った。

In many applications, it is of interest to identify a parsimonious set of features, or panel, from multiple candidates that achieves a desired level of performance in predicting a response. This task is often complicated in practice by missing data arising from the sampling design or other random mechanisms. Most recent work on variable selection in missing data contexts relies in some part on a finite-dimensional statistical model, e.g., a generalized or penalized linear model. In cases where this model is misspecified, the selected variables may not all be truly scientifically relevant and can result in panels with suboptimal classification performance. To address this limitation, we propose a nonparametric variable selection algorithm combined with multiple imputation to develop flexible panels in the presence of missing-at-random data. We outline strategies based on the proposed algorithm that achieve control of commonly used error rates. Through simulations, we show that our proposal has good operating characteristics and results in panels with higher classification and variable selection performance compared to several existing penalized regression approaches in cases where a generalized linear model is misspecified. Finally, we use the proposed method to develop biomarker panels for separating pancreatic cysts with differing malignancy potential in a setting where complicated missingness in the biomarkers arose due to limited specimen volumes.
翻訳日:2023-11-23 06:20:48 公開日:2023-11-21
# PyTorch Geometric Signed Directed: 署名されたグラフと指示されたグラフのためのグラフニューラルネットワーク上のソフトウェアパッケージ

PyTorch Geometric Signed Directed: A Software Package on Graph Neural Networks for Signed and Directed Graphs ( http://arxiv.org/abs/2202.10793v5 )

ライセンス: Link先を確認
Yixuan He, Xitong Zhang, Junjie Huang, Benedek Rozemberczki, Mihai Cucuringu, Gesine Reinert(参考訳) ネットワークは現実世界の多くのアプリケーション(例えば、信頼/不信関係を符号化するソーシャルネットワーク、時系列データから生じる相関ネットワーク)でユビキタスである。 多くのネットワークが署名されたり、指示されたり、あるいは両方を受けているが、署名されたネットワークや指示されたネットワークのために特別に設計されたグラフニューラルネットワーク(GNN)に統一されたソフトウェアパッケージがない。 本稿では,このギャップを埋めるソフトウェアパッケージであるPyTorch Geometric Signed Directed (PyGSD)を提案する。 その過程で,実装した手法を実験で評価し,与えられたタスクに対してどの方法を選択するべきかを考察する。 ディープラーニングフレームワークは、簡単に使えるGNNモデル、合成および実世界のデータ、および署名されたネットワークに対するタスク固有の評価指標と損失関数で構成される。 pygの拡張ライブラリとして、提案するソフトウェアはオープンソースリリース、詳細なドキュメント、継続的インテグレーション、ユニットテスト、コードカバレッジチェックでメンテナンスされます。 ライブラリのgithubリポジトリはhttps://github.com/sherylhyx/pytorch_geometric_signed_directedである。

Networks are ubiquitous in many real-world applications (e.g., social networks encoding trust/distrust relationships, correlation networks arising from time series data). While many networks are signed or directed, or both, there is a lack of unified software packages on graph neural networks (GNNs) specially designed for signed and directed networks. In this paper, we present PyTorch Geometric Signed Directed (PyGSD), a software package which fills this gap. Along the way, we evaluate the implemented methods with experiments with a view to providing insights into which method to choose for a given task. The deep learning framework consists of easy-to-use GNN models, synthetic and real-world data, as well as task-specific evaluation metrics and loss functions for signed and directed networks. As an extension library for PyG, our proposed software is maintained with open-source releases, detailed documentation, continuous integration, unit tests and code coverage checks. The GitHub repository of the library is https://github.com/SherylHYX/pytorch_geometric_signed_directed.
翻訳日:2023-11-23 06:20:28 公開日:2023-11-21
# data-algorithm依存一般化に向けて--過パラメータ線形回帰を事例として

Towards Data-Algorithm Dependent Generalization: a Case Study on Overparameterized Linear Regression ( http://arxiv.org/abs/2202.06054v4 )

ライセンス: Link先を確認
Jing Xu, Jiaye Teng, Yang Yuan, Andrew Chi-Chih Yao(参考訳) 機械学習における主要なオープンな問題の1つは、過パラメータ化された状態における一般化を特徴づけることであり、ほとんどの伝統的な一般化境界は過パラメータ化された線形回帰に対しても矛盾する。 多くのシナリオにおいて、この失敗はトレーニングアルゴリズムと基礎となるデータ分散との間の重要な相互作用を損なうことに起因している。 本稿では,過剰パラメータモデルの一般化挙動を,データ関係とアルゴリズム関連の両方で解析する。 形式的特徴付けを行うために,従来のラストイテレート解析ではなく,データ依存学習軌跡全体の一般化挙動を考察した,data-algorithm compatibilityという概念を導入する。 勾配降下による過度パラメータ化線形回帰の解法について検討し,本主張を検証した。 具体的には、データ依存軌道解析を行い、そのような環境での互換性に十分な条件を導出する。 理論的には, 早期停止イテレートを考慮に入れると, 一般化は前回のラストイテレート解析よりも, 問題インスタンスの制限がかなり弱く抑えられることを示した。

One of the major open problems in machine learning is to characterize generalization in the overparameterized regime, where most traditional generalization bounds become inconsistent even for overparameterized linear regression. In many scenarios, this failure can be attributed to obscuring the crucial interplay between the training algorithm and the underlying data distribution. This paper demonstrate that the generalization behavior of overparameterized model should be analyzed in a both data-relevant and algorithm-relevant manner. To make a formal characterization, We introduce a notion called data-algorithm compatibility, which considers the generalization behavior of the entire data-dependent training trajectory, instead of traditional last-iterate analysis. We validate our claim by studying the setting of solving overparameterized linear regression with gradient descent. Specifically, we perform a data-dependent trajectory analysis and derive a sufficient condition for compatibility in such a setting. Our theoretical results demonstrate that if we take early stopping iterates into consideration, generalization can hold with significantly weaker restrictions on the problem instance than the previous last-iterate analysis.
翻訳日:2023-11-23 06:20:08 公開日:2023-11-21
# 逆散乱問題に対するニューラルボーン反復法:2次元の場合

Neural Born Iteration Method For Solving Inverse Scattering Problems: 2D Cases ( http://arxiv.org/abs/2112.09831v2 )

ライセンス: Link先を確認
Tao Shan, Zhichao Lin, Xiaoqian Song, Maokun Li, Fan Yang, and Zhensheng Xu(参考訳) 本稿では,従来のボルン反復法 (TBIM) の計算過程をエミュレートする物理インフォーム付き教師付き残差学習 (PhiSRL) の手法を応用して, 2次元逆散乱問題 (ISP) を解決するニューラルボルン反復法 (NeuralBIM) を提案する。 NeuralBIMは独立畳み込みニューラルネットワーク(CNN)を使用して、残基に関する2つの異なる候補解の更新規則を学習する。 本論文では教師なしおよび教師なしの学習スキームを含む2つの異なるスキームについて述べる。 モーメント法(MoM)によって生成されたデータセットを用いて、教師付きニューラルBIMは、全フィールドとコントラストの知識で訓練される。 教師なしニューラルBIMは、ISPの統治方程式に基づく物理埋め込み目的関数によって導かれる。 数値的および実験的結果は、NeuralBIMの有効性をさらに検証する。

In this paper, we propose the neural Born iterative method (NeuralBIM) for solving 2D inverse scattering problems (ISPs) by drawing on the scheme of physics-informed supervised residual learning (PhiSRL) to emulate the computing process of the traditional Born iterative method (TBIM). NeuralBIM employs independent convolutional neural networks (CNNs) to learn the alternate update rules of two different candidate solutions regarding the residuals. Two different schemes are presented in this paper, including the supervised and unsupervised learning schemes. With the data set generated by the method of moments (MoM), supervised NeuralBIM are trained with the knowledge of total fields and contrasts. Unsupervised NeuralBIM is guided by the physics-embedded objective function founding on the governing equations of ISPs, which results in no requirement of total fields and contrasts for training. Numerical and experimental results further validate the efficacy of NeuralBIM.
翻訳日:2023-11-23 06:19:48 公開日:2023-11-21
# リモートセンシング画像のセグメンテーションにおけるマルチスケールコンテキストの集約学習

Learning to Aggregate Multi-Scale Context for Instance Segmentation in Remote Sensing Images ( http://arxiv.org/abs/2111.11057v3 )

ライセンス: Link先を確認
Ye Liu, Huifang Li, Chao Hu, Shuang Luo, Yan Luo, and Chang Wen Chen(参考訳) リモートセンシング画像におけるインスタンスセグメンテーションのタスクは、インスタンスレベルでオブジェクトのピクセル単位のラベリングを行うことを目的としており、様々な民間アプリケーションにとって非常に重要である。 これまでの成功にもかかわらず、自然画像用に設計された既存のインスタンスセグメンテーション手法のほとんどは、トップビューリモートセンシングイメージに直接適用されると、パフォーマンスが著しく低下する。 注意深い分析により,厳密なスケールの変動,低コントラスト,クラスタ化分布による識別対象の特徴の欠如が主な課題であることがわかった。 これらの問題に対処するために,特徴抽出プロセスを改善するために,新しいコンテキスト集約ネットワーク(CATNet)を提案する。 提案モデルは,高密度な特徴ピラミッドネットワーク(DenseFPN),空間コンテキストピラミッド(SCP),関心抽出器の階層領域(HRoIE)の3つの軽量なプラグアンドプレイモジュールを用いて,特徴領域,空間領域,インスタンス領域のグローバルな視覚的コンテキストを集約する。 DenseFPNは、階層間残差接続、クロスレベル高密度接続、機能再重み付け戦略を採用することで、より柔軟な情報フローを確立するマルチスケール機能伝搬モジュールである。 注意機構を活用することで、SCPはグローバルな空間コンテキストを局所領域に集約することで特徴をさらに強化する。 各インスタンスに対して、HRoIEは異なる下流タスク用のRoI機能を適応的に生成する。 iSAID, DIOR, NWPU VHR-10, HRSIDデータセットに対する提案手法の大規模評価は, 同様の計算コストで, 提案手法が最先端技術を上回ることを示した。 ソースコードと事前学習されたモデルはhttps://github.com/yeliudev/catnetで入手できる。

The task of instance segmentation in remote sensing images, aiming at performing per-pixel labeling of objects at instance level, is of great importance for various civil applications. Despite previous successes, most existing instance segmentation methods designed for natural images encounter sharp performance degradations when they are directly applied to top-view remote sensing images. Through careful analysis, we observe that the challenges mainly come from the lack of discriminative object features due to severe scale variations, low contrasts, and clustered distributions. In order to address these problems, a novel context aggregation network (CATNet) is proposed to improve the feature extraction process. The proposed model exploits three lightweight plug-and-play modules, namely dense feature pyramid network (DenseFPN), spatial context pyramid (SCP), and hierarchical region of interest extractor (HRoIE), to aggregate global visual context at feature, spatial, and instance domains, respectively. DenseFPN is a multi-scale feature propagation module that establishes more flexible information flows by adopting inter-level residual connections, cross-level dense connections, and feature re-weighting strategy. Leveraging the attention mechanism, SCP further augments the features by aggregating global spatial context into local regions. For each instance, HRoIE adaptively generates RoI features for different downstream tasks. Extensive evaluations of the proposed scheme on iSAID, DIOR, NWPU VHR-10, and HRSID datasets demonstrate that the proposed approach outperforms state-of-the-arts under similar computational costs. Source code and pre-trained models are available at https://github.com/yeliudev/CATNet.
翻訳日:2023-11-23 06:18:51 公開日:2023-11-21
# ディープダブルリカレントエージェントを用いたジョブショップスケジューリング問題を解決するためのポリシー勾配付きアクタ批判アルゴリズム

An actor-critic algorithm with policy gradients to solve the job shop scheduling problem using deep double recurrent agents ( http://arxiv.org/abs/2110.09076v2 )

ライセンス: Link先を確認
Marta Monaci, Valerio Agasucci and Giorgio Grani(参考訳) 機械学習技術の統合や最適化による最適化の課題解決への関心が高まっている。 本研究では,ジョブショップスケジューリング問題(JSSP)に対する深層強化学習手法を提案する。 目的は、ジョブやマシンの数によって異なるJSSPインスタンスのディストリビューションについて学ぶことができる、欲張りのようなヒューリスティックを構築することである。 高速なスケジューリング手法の必要性はよく知られており、交通から医療に至るまで、多くの領域で発生する。 我々はjsspをマルコフ決定プロセスとしてモデル化し,強化学習の有効性を生かして問題を解決した。 エージェントが行う行動は,状態値関数に関する政策的考察の影響を受け,アクター批判的手法を採用する。 この手順はjsspの困難な性質を考慮に入れるために適用され、状態とアクション空間は各インスタンスに対してだけでなく、各決定の後にも変化する。 入力中のジョブ数と操作数の変化に対処するため,我々は,特殊なタイプのディープニューラルネットワークであるインシデントlstmモデルを用いてエージェントをモデル化した。 実験により、アルゴリズムは短時間で良い解に到達し、学習ベースの方法論から新しい欲求的ヒューリスティックを生成できることが証明された。 ベンチマークは商用のソルバcplexと比較して生成されている。 予想通り、モデルはある程度は、トレーニングで使用されるものと異なる分布から生じるより大きな問題やインスタンスに一般化することができる。

There is a growing interest in integrating machine learning techniques and optimization to solve challenging optimization problems. In this work, we propose a deep reinforcement learning methodology for the job shop scheduling problem (JSSP). The aim is to build up a greedy-like heuristic able to learn on some distribution of JSSP instances, different in the number of jobs and machines. The need for fast scheduling methods is well known, and it arises in many areas, from transportation to healthcare. We model the JSSP as a Markov Decision Process and then we exploit the efficacy of reinforcement learning to solve the problem. We adopt an actor-critic scheme, where the action taken by the agent is influenced by policy considerations on the state-value function. The procedures are adapted to take into account the challenging nature of JSSP, where the state and the action space change not only for every instance but also after each decision. To tackle the variability in the number of jobs and operations in the input, we modeled the agent using two incident LSTM models, a special type of deep neural network. Experiments show the algorithm reaches good solutions in a short time, proving that is possible to generate new greedy heuristics just from learning-based methodologies. Benchmarks have been generated in comparison with the commercial solver CPLEX. As expected, the model can generalize, to some extent, to larger problems or instances originated by a different distribution from the one used in training.
翻訳日:2023-11-23 06:18:19 公開日:2023-11-21
# PFENet++: ノイズフィルタ付きコンテキスト認識マスクによるFew-shot Semantic Segmentationの強化

PFENet++: Boosting Few-shot Semantic Segmentation with the Noise-filtered Context-aware Prior Mask ( http://arxiv.org/abs/2109.13788v2 )

ライセンス: Link先を確認
Xiaoliu Luo, Zhuotao Tian, Taiping Zhang, Bei Yu, Yuan Yan Tang, Jiaya Jia(参考訳) 本研究では,<Prior Guided Feature Enrichment Network for Few-Shot Segmentation'で提案されているマスクガイダンスについて再検討する。 先行マスクは、目に見えないカテゴリの関心領域を強調する指標として機能し、近年の研究の異なるフレームワークでより良いパフォーマンスを達成するのに有効である。 しかし、現在の方法は、クエリーとサポート機能の間の最大要素間対応を直接受け取り、ターゲットクラスに属する確率を示すため、より広い文脈情報を以前のマスク生成中に悪用することがほとんどない。 この問題に対処するために,まず,クエリ画像中のオブジェクトをよりよく特定するために,近接する意味的手がかりを利用するコンテキストアウェア・プリエントマスク(capm)を提案する。 第二に、最大相関値がノイズに弱いため、不要な応答を遮蔽するために軽量ノイズ抑圧モジュール(NSM)を組み込むことにより、先行知識を提供するための高品質マスクが得られる。 PFENet++という新しいモデルは、PASCAL-5$^i$, COCO-20$^i$, FSS-1000という3つの挑戦的なベンチマークにおいて、PFENetのベースラインであるPFENetよりもはるかに優れている。 新しい最先端のパフォーマンスは効率を損なうことなく達成され、数ショットのセマンティックセグメンテーションにおいて新しい強力なベースラインになる可能性を示している。 私たちのコードはhttps://github.com/luoxiaoliu/pfenet2plusで利用可能です。

In this work, we revisit the prior mask guidance proposed in ``Prior Guided Feature Enrichment Network for Few-Shot Segmentation''. The prior mask serves as an indicator that highlights the region of interests of unseen categories, and it is effective in achieving better performance on different frameworks of recent studies. However, the current method directly takes the maximum element-to-element correspondence between the query and support features to indicate the probability of belonging to the target class, thus the broader contextual information is seldom exploited during the prior mask generation. To address this issue, first, we propose the Context-aware Prior Mask (CAPM) that leverages additional nearby semantic cues for better locating the objects in query images. Second, since the maximum correlation value is vulnerable to noisy features, we take one step further by incorporating a lightweight Noise Suppression Module (NSM) to screen out the unnecessary responses, yielding high-quality masks for providing the prior knowledge. Both two contributions are experimentally shown to have substantial practical merit, and the new model named PFENet++ significantly outperforms the baseline PFENet as well as all other competitors on three challenging benchmarks PASCAL-5$^i$, COCO-20$^i$ and FSS-1000. The new state-of-the-art performance is achieved without compromising the efficiency, manifesting the potential for being a new strong baseline in few-shot semantic segmentation. Our code will be available at https://github.com/luoxiaoliu/PFENet2Plus.
翻訳日:2023-11-23 06:17:55 公開日:2023-11-21
# 規則構造をもつ特徴工学

Feature Engineering with Regularity Structures ( http://arxiv.org/abs/2108.05879v2 )

ライセンス: Link先を確認
Ilya Chevyrev, Andris Gerasimovics, Hendrik Weber(参考訳) 機械学習タスクの特徴として,正則構造理論からのモデルの利用について検討する。 モデル(英: model)は、偏微分方程式(pdes)の解を近似するように設計された時空信号の多項式関数である。 モデルは経路のシグネチャの自然な多次元一般化と見なすことができ、我々の研究は、時間順データの文脈を超えて、データサイエンスにおけるシグネチャの最近の使用を拡大することを目的としている。 本研究では、時空信号に付随するモデル特徴ベクトルの柔軟な定義と、これらの特徴を線形回帰と組み合わせる方法を示す2つのアルゴリズムを提供する。 我々はこれらのアルゴリズムを、与えられた強制と境界データを用いてPDEの解を学ぶために設計されたいくつかの数値実験に適用する。 実験には強制力のある半線形放物型および波動方程式と強制力のないバーガーズ方程式を含む。 いくつかの代替手法と比較すると,アルゴリズムに有利な点がある。 さらに、バーガーズ方程式の実験では、観測にノイズを加えると非自明な予測力が得られる。

We investigate the use of models from the theory of regularity structures as features in machine learning tasks. A model is a polynomial function of a space-time signal designed to well-approximate solutions to partial differential equations (PDEs), even in low regularity regimes. Models can be seen as natural multi-dimensional generalisations of signatures of paths; our work therefore aims to extend the recent use of signatures in data science beyond the context of time-ordered data. We provide a flexible definition of a model feature vector associated to a space-time signal, along with two algorithms which illustrate ways in which these features can be combined with linear regression. We apply these algorithms in several numerical experiments designed to learn solutions to PDEs with a given forcing and boundary data. Our experiments include semi-linear parabolic and wave equations with forcing, and Burgers' equation with no forcing. We find an advantage in favour of our algorithms when compared to several alternative methods. Additionally, in the experiment with Burgers' equation, we find non-trivial predictive power when noise is added to the observations.
翻訳日:2023-11-23 06:17:02 公開日:2023-11-21
# インフルエンサービデオ:unboxing the mystique

Influencer Videos: Unboxing the Mystique ( http://arxiv.org/abs/2012.12311v3 )

ライセンス: Link先を確認
Prashant Rajaram and Puneet Manchanda(参考訳) インフルエンサーマーケティングは、顧客にリーチするための非常に人気のあるツールになっています。 インフルエンサービデオの急速な成長にもかかわらず、その構成要素がビデオのエンゲージメントを説明する効果についてはほとんど研究されていない。 我々はyoutubeインフルエンサーを調査し,テキスト,音声,画像にまたがる非構造化ビデオデータを,予測と解釈の両方の目的を達成する「解釈可能な深層学習」フレームワークを用いて分析する。 予測に基づくアプローチは,非構造化データを分析し,画像(画像)や音響(オーディオ)において,単語(テキスト)における「何を言うか」が「何を言うか」よりも影響力があることを見出す。 提案手法は,同一の非構造化データの源を解析し,映像特徴量による重要度を測定することにより,モデル予測の完了後に実装する。 2つのステップでいくつかの散発的な関係を排除し、理論を用いて確認される関係のサブセットを特定する。 我々は,人間思考の二重体系的枠組みに基づいて,浅層と深層との関わりの尺度を具体化する新たな知見を明らかにする。 本手法はシミュレーションデータを用いて検証し,インフルエンサーとブランドの学習結果について考察する。

Influencer marketing has become a very popular tool to reach customers. Despite the rapid growth in influencer videos, there has been little research on the effectiveness of their constituent features in explaining video engagement. We study YouTube influencers and analyze their unstructured video data across text, audio and images using an "interpretable deep learning" framework that accomplishes both goals of prediction and interpretation. Our prediction-based approach analyzes unstructured data and finds that "what is said" in words (text) is more influential than "how it is said" in imagery (images) or acoustics (audio). Our novel interpretation-based approach is implemented after completion of model prediction by analyzing the same source of unstructured data to measure importance attributed to the video features. We eliminate several spurious relationships in two steps, identifying a subset of relationships which are confirmed using theory. We uncover novel findings that establish distinct associations for measures of shallow and deep engagement based on the dual-system framework of human thinking. Our approach is validated using simulated data, and we discuss the learnings from our findings for influencers and brands.
翻訳日:2023-11-23 06:16:26 公開日:2023-11-21
# 幅有界ニューラルネットワークのアトラクション盆地の位相特性と表現性

Topological properties of basins of attraction and expressiveness of width bounded neural networks ( http://arxiv.org/abs/2011.04923v5 )

ライセンス: Link先を確認
Hans-Peter Beise, Steve Dias Da Cruz(参考訳) Radhakrishnanなど。 著者らは,通常のsgd法で学習したオートエンコーダが,トレーニングデータの周りにアトラクションの盆地を形成することを実証的に示した。 入力次元を超えない幅のネットワーク関数を考察し、この状況ではアトラクションの流域が有界であり、その補関数が有界成分を持つことができないことを示す。 これらの結果の条件は, 後者の研究のいくつかの実験で満たされ, そこで提案された問題に対処する。 また,より制限的な条件下では,アトラクションの流域が経路接続されていることも示している。 この結果における条件の厳密性は,いくつかの例によって示される。 最後に、上記の結果を証明するために用いられる議論により、連続関数の空間において、境界幅条件を満たすスカラー値ニューラルネットワーク関数が密集しない理由を導出することができる。

In Radhakrishnan et al. [2020], the authors empirically show that autoencoders trained with usual SGD methods shape out basins of attraction around their training data. We consider network functions of width not exceeding the input dimension and prove that in this situation basins of attraction are bounded and their complement cannot have bounded components. Our conditions in these results are met in several experiments of the latter work and we thus address a question posed therein. We also show that under some more restrictive conditions the basins of attraction are path-connected. The tightness of the conditions in our results is demonstrated by means of several examples. Finally, the arguments used to prove the above results allow us to derive a root cause why scalar-valued neural network functions that fulfill our bounded width condition are not dense in spaces of continuous functions.
翻訳日:2023-11-23 06:16:07 公開日:2023-11-21
# ROOT-SGD:1つのアルゴリズムにおけるシャープ非漸近と漸近効率

ROOT-SGD: Sharp Nonasymptotics and Asymptotic Efficiency in a Single Algorithm ( http://arxiv.org/abs/2008.12690v2 )

ライセンス: Link先を確認
Chris Junchi Li, Wenlong Mou, Martin J. Wainwright, Michael I. Jordan(参考訳) 確率的一階アルゴリズムを用いて, 強凸および滑らかな非拘束最適化問題の解法について検討する。 我々は,過去の確率的勾配の容易に実装可能な再帰的平均化法に基づいて,新しいアルゴリズムである \emph{recursive one-over-t sgd} (\rootsgd) を考案する。 有限サンプル,非漸近感覚,漸近感覚の両方において,最先端のパフォーマンスを同時に達成できることを実証する。 漸近的側面では、ヘッセン行列上のリプシッツ条件の下での急速 O(n^{-3/2})$ でスケールする高次項とともに、最適統計的リスクとユニティ事前因子とを一致させる先行項付き \ROOTSGD の最後の反復のリスク境界を証明している。 漸近的側面では、軽度で一点のヘッセン連続性条件が課されると、(マルチエポック) \ROOTSGD の再スケールされた最後の反復は、幅広いステップサイズの選択に対して、Cram\'{e}r-Rao の最適漸近共分散を持つガウス極限に漸近的に収束する。

We study the problem of solving strongly convex and smooth unconstrained optimization problems using stochastic first-order algorithms. We devise a novel algorithm, referred to as \emph{Recursive One-Over-T SGD} (\ROOTSGD), based on an easily implementable, recursive averaging of past stochastic gradients. We prove that it simultaneously achieves state-of-the-art performance in both a finite-sample, nonasymptotic sense and an asymptotic sense. On the nonasymptotic side, we prove risk bounds on the last iterate of \ROOTSGD with leading-order terms that match the optimal statistical risk with a unity pre-factor, along with a higher-order term that scales at the sharp rate of $O(n^{-3/2})$ under the Lipschitz condition on the Hessian matrix. On the asymptotic side, we show that when a mild, one-point Hessian continuity condition is imposed, the rescaled last iterate of (multi-epoch) \ROOTSGD converges asymptotically to a Gaussian limit with the Cram\'{e}r-Rao optimal asymptotic covariance, for a broad range of step-size choices.
翻訳日:2023-11-23 06:15:51 公開日:2023-11-21
# 光深度推定のためのサブピクセル差分分布の学習

Learning Sub-Pixel Disparity Distribution for Light Field Depth Estimation ( http://arxiv.org/abs/2208.09688v3 )

ライセンス: Link先を確認
Wentao Chao, Xuechun Wang, Yingqian Wang, Guanghui Wang, and Fuqing Duan(参考訳) 光場(LF)深度推定は多くのLFベースアプリケーションにおいて重要な役割を果たす。 既存のLF深度推定法は、深度推定を回帰問題とみなし、画素単位のL1損失を用いてトレーニングプロセスを監督する。 しかし、不均等写像は不均等分布の部分空間射影(つまり予想)に過ぎず、これはモデルが学習するのに必須である。 本稿では,深層ネットワークのパワー,特に狭帯域ベースラインのlfを十分に活用して,低画素差分布を学習する簡易かつ効果的な手法を提案する。 サブピクセルレベルでのコストボリュームを構築し、より微細な不均一分布を発生させ、不確実性を考慮した焦点損失を設計し、予測された不均一分布を基底真実に向けて監督する。 我々の手法は,HCI 4D LF Benchmarkの4つの精度指標(BadPix 0.01,BadPix 0.03,BadPix 0.07,MSE $\times$100)において,最近の最先端LF深度アルゴリズムを著しく上回っている。 提案手法のコードとモデルは \url{https://github.com/chaowentao/subfocal} で利用可能である。

Light field (LF) depth estimation plays a crucial role in many LF-based applications. Existing LF depth estimation methods consider depth estimation as a regression problem, where a pixel-wise L1 loss is employed to supervise the training process. However, the disparity map is only a sub-space projection (i.e., an expectation) of the disparity distribution, which is essential for models to learn. In this paper, we propose a simple yet effective method to learn the sub-pixel disparity distribution by fully utilizing the power of deep networks, especially for LF of narrow baselines. We construct the cost volume at the sub-pixel level to produce a finer disparity distribution and design an uncertainty-aware focal loss to supervise the predicted disparity distribution toward the ground truth. Extensive experimental results demonstrate the effectiveness of our method.Our method significantly outperforms recent state-of-the-art LF depth algorithms on the HCI 4D LF Benchmark in terms of all four accuracy metrics (i.e., BadPix 0.01, BadPix 0.03, BadPix 0.07, and MSE $\times$100). The code and model of the proposed method are available at \url{https://github.com/chaowentao/SubFocal}.
翻訳日:2023-11-23 06:08:19 公開日:2023-11-21
# 潜在サロゲート表現学習による長期因果効果の推定

Long-term Causal Effects Estimation via Latent Surrogates Representation Learning ( http://arxiv.org/abs/2208.04589v3 )

ライセンス: Link先を確認
Ruichu Cai, Weilin Chen, Zeqin Yang, Shu Wan, Chen Zheng, Xiaoqing Yang, Jiecheng Guo(参考訳) 短期的サロゲートに基づく長期的因果効果の推定は、マーケティングや医療など、多くの現実世界の応用において重要な問題である。 特定の領域での成功にもかかわらず、既存のほとんどの手法は、因果効果を理想主義的かつ単純化的な方法で推定し、短期的な結果の因果構造を無視し、それら全てを代理として扱う。 しかし、そのような方法は、短期的な結果の中で部分的に観察されたサロゲートがプロキシと混ざり合う現実のシナリオにはうまく適用できない。 そこで本研究では, サロゲートが観察されるか, 観察されているより現実的な状況において, 長期因果効果を推定するフレキシブルな手法であるレーザーを開発し, サーロゲートとプロキシの識別不能性を考慮して, 観測されたサーロゲートや潜在サロゲートのプロキシを区別することなく, 全てのサーロゲート候補の有効なサーロゲート全体を回収する。 回収されたサロゲートの助けを借りて、長期的因果効果の偏りのない見積もる。 実世界および半合成データセットの広範な実験結果から,提案手法の有効性を示す。

Estimating long-term causal effects based on short-term surrogates is a significant but challenging problem in many real-world applications, e.g., marketing and medicine. Despite its success in certain domains, most existing methods estimate causal effects in an idealistic and simplistic way - ignoring the causal structure among short-term outcomes and treating all of them as surrogates. However, such methods cannot be well applied to real-world scenarios, in which the partially observed surrogates are mixed with their proxies among short-term outcomes. To this end, we develop our flexible method, Laser, to estimate long-term causal effects in the more realistic situation that the surrogates are observed or have observed proxies.Given the indistinguishability between the surrogates and proxies, we utilize identifiable variational auto-encoder (iVAE) to recover the whole valid surrogates on all the surrogates candidates without the need of distinguishing the observed surrogates or the proxies of latent surrogates. With the help of the recovered surrogates, we further devise an unbiased estimation of long-term causal effects. Extensive experimental results on the real-world and semi-synthetic datasets demonstrate the effectiveness of our proposed method.
翻訳日:2023-11-23 06:07:34 公開日:2023-11-21
# 正規化制約線形逆問題に対する多レベル幾何最適化

Multi-level Geometric Optimization for Regularised Constrained Linear Inverse Problems ( http://arxiv.org/abs/2207.04934v2 )

ライセンス: Link先を確認
Sebastian M\"uller, Stefania Petra, Matthias Zisler(参考訳) ボックス制約をスムーズに組み込んだ幾何的マルチレベル最適化手法を提案する。 ボックス制約付き最適化問題を考えると、異なる離散化レベルを持つモデルの階層構造を考える。 ファイナモデルは正確だが計算に費用がかかるが、粗いモデルは正確ではなく計算に安価である。 細かなレベルで作業する場合、マルチレベル最適化は、細かなレベルで更新を高速化する粗いモデルに基づいて探索方向を計算する。 さらに、階層構造によって誘導される幾何を利用して更新の実現可能性を保持する。 特に,本手法は制約や拡張といったマルチグリッド法の古典成分を制約のリーマン構造にまで拡張する。

We present a geometric multilevel optimization approach that smoothly incorporates box constraints. Given a box constrained optimization problem, we consider a hierarchy of models with varying discretization levels. Finer models are accurate but expensive to compute, while coarser models are less accurate but cheaper to compute. When working at the fine level, multilevel optimisation computes the search direction based on a coarser model which speeds up updates at the fine level. Moreover, exploiting geometry induced by the hierarchy the feasibility of the updates is preserved. In particular, our approach extends classical components of multigrid methods like restriction and prolongation to the Riemannian structure of our constraints.
翻訳日:2023-11-23 06:07:07 公開日:2023-11-21
# 時空間知覚論理を用いた自動走行車の知覚システムの定式化と評価

Formalizing and Evaluating Requirements of Perception Systems for Automated Vehicles using Spatio-Temporal Perception Logic ( http://arxiv.org/abs/2206.14372v2 )

ライセンス: Link先を確認
Mohammad Hekmatnejad, Bardh Hoxha, Jyotirmoy V. Deshmukh, Yezhou Yang, and Georgios Fainekos(参考訳) 自動車両(AV)は、堅牢な認識システムに大きく依存する。 ビジョンシステム評価の現在の手法は、主にフレーム単位の性能に焦点を当てている。 このような評価方法は、AV内で使用される知覚サブシステムの性能を評価するのに不十分である。 本稿では,時空間知覚論理(stpl)と呼ばれる,空間的・時間的モダリティを利用した論理について述べる。 STPLは空間的および時間的演算子を用いた知覚データに対する推論を可能にする。 STPLの大きな利点の1つは、接地データなしでも知覚システムの機能性能の基本的な正当性チェックを容易にすることである。 多項式時間でオフラインで効率的に監視できるSTPLの断片を同定する。 最後に,stlによるオフライン監視によって表現・分析可能な要件の種類を強調するために,av知覚システムの仕様を提案する。

Automated vehicles (AV) heavily depend on robust perception systems. Current methods for evaluating vision systems focus mainly on frame-by-frame performance. Such evaluation methods appear to be inadequate in assessing the performance of a perception subsystem when used within an AV. In this paper, we present a logic -- referred to as Spatio-Temporal Perception Logic (STPL) -- which utilizes both spatial and temporal modalities. STPL enables reasoning over perception data using spatial and temporal operators. One major advantage of STPL is that it facilitates basic sanity checks on the functional performance of the perception system, even without ground-truth data in some cases. We identify a fragment of STPL which is efficiently monitorable offline in polynomial time. Finally, we present a range of specifications for AV perception systems to highlight the types of requirements that can be expressed and analyzed through offline monitoring with STPL.
翻訳日:2023-11-23 06:07:00 公開日:2023-11-21
# protoclip: 原型的コントラスト言語イメージの事前学習

ProtoCLIP: Prototypical Contrastive Language Image Pretraining ( http://arxiv.org/abs/2206.10996v4 )

ライセンス: Link先を確認
Delong Chen, Zhao Wu, Fan Liu, Zaiquan Yang, Huaxi Huang, Ying Tan, and Erjin Zhou(参考訳) Contrastive Language Image Pretraining (CLIP) は、学習された表現を様々な下流タスクにうまく転送できるため、広く注目を集めている。 クリップモデルのトレーニングプロセスでは、インフォデンス目標が正の画像テキストペアを調整し、負のペアを分離する。 InfoNCEの目的は、ランダムに出現したモーダルアンカーを介して、間接的に意味的に類似した表現をグループ化する。 そこで本研究では,その効率を高め,モダリティギャップに対する堅牢性を高めることにより,そのようなグループ化を促進するために,プロトタイプコントラスト言語画像事前学習(ProtoCLIP)を導入している。 具体的には、ProtoCLIPは画像空間とテキスト空間の間のプロトタイプレベルの識別を設定し、高いレベルの構造的知識を効率的に伝達する。 さらに、表現群を表現アライメントから切り離すためにPBT(Prototypeal Back Translation)を提案し、その結果、大きなモダリティギャップの下で意味のある表現を効果的に学習する。 PBTはまた、より豊富な事前言語知識を持つ外部教師を導入することもできる。 ProtoCLIPはオンラインのエピソードトレーニング戦略でトレーニングされており、無制限のデータまでスケールアップすることができる。 コンセプトキャプションでProtoCLIPをトレーニングし、+5.81%イメージネット線形探索の改善と+2.01%イメージネットゼロショット分類の改善を達成した。 より大きなYFCC-15Mデータセットでは、ProtoCLIPはCLIPのパフォーマンスを33%のトレーニング時間で一致させる。 コードはhttps://github.com/megvii-research/protoclipで入手できる。

Contrastive Language Image Pretraining (CLIP) has received widespread attention, since its learned representations can be transferred well to various downstream tasks. During the training process of the CLIP model, the InfoNCE objective aligns positive image-text pairs and separates negative ones. We show an underlying representation grouping effect during this process: the InfoNCE objective indirectly groups semantically similar representations together via randomly emerged within-modal anchors. Based on this understanding, in this paper, Prototypical Contrastive Language Image Pretraining (ProtoCLIP) is introduced to enhance such grouping by boosting its efficiency and increasing its robustness against the modality gap. Specifically, ProtoCLIP sets up prototype-level discrimination between image and text spaces, which efficiently transfers higher-level structural knowledge. Further, Prototypical Back Translation (PBT) is proposed to decouple representation grouping from representation alignment, resulting in effective learning of meaningful representations under large modality gap. The PBT also enables us to introduce additional external teachers with richer prior language knowledge. ProtoCLIP is trained with an online episodic training strategy, which makes it can be scaled up to unlimited amounts of data. We train our ProtoCLIP on Conceptual Captions and achieved an +5.81% ImageNet linear probing improvement and an +2.01% ImageNet zero-shot classification improvement. On the larger YFCC-15M dataset, ProtoCLIP matches the performance of CLIP with 33% of training time. Codes are available at https://github.com/megvii-research/protoclip.
翻訳日:2023-11-23 06:06:47 公開日:2023-11-21
# ロボットのグローバル最適化問題に対するテンソルトレイン

Tensor Train for Global Optimization Problems in Robotics ( http://arxiv.org/abs/2206.05077v4 )

ライセンス: Link先を確認
Suhan Shetty, Teguh Lembono, Tobias Loew, and Sylvain Calinon(参考訳) 多くの数値最適化手法の収束は、解法に与えられた初期推測に大きく依存する。 そこで本研究では,テンソル法を用いて,グローバルオプティマ付近の既存の最適化問題を初期化する手法を提案する。 我々の手法は優れたソリューションのデータベースにアクセスする必要はない。 まず、タスクパラメータと最適化変数の両方に依存するコスト関数を確率密度関数に変換する。 既存の手法とは異なり、タスクパラメータと最適化変数の結合確率分布は、効率的な条件付けとサンプリングを可能にするテンソルトレインモデルを用いて近似される。 タスクパラメータを確率変数として扱い,与えられたタスクに対して条件分布から決定変数のサンプルを生成し,最適化ソルバを初期化する。 提案手法は,既存手法よりも高速に複数の解を生成できる。 まず,線形初期化を用いた勾配最適化解法を用いて,数値最適化のためのベンチマーク関数のアプローチを評価する。 その結果,提案手法はグローバルオプティマや複数のモードからサンプルを生成できることがわかった。 7-DoFマニピュレータを用いた逆運動学と運動計画問題に適用することで,ロボット工学におけるフレームワークの汎用性と妥当性を実証する。

The convergence of many numerical optimization techniques is highly dependent on the initial guess given to the solver. To address this issue, we propose a novel approach that utilizes tensor methods to initialize existing optimization solvers near global optima. Our method does not require access to a database of good solutions. We first transform the cost function, which depends on both task parameters and optimization variables, into a probability density function. Unlike existing approaches, the joint probability distribution of the task parameters and optimization variables is approximated using the Tensor Train model, which enables efficient conditioning and sampling. We treat the task parameters as random variables, and for a given task, we generate samples for decision variables from the conditional distribution to initialize the optimization solver. Our method can produce multiple solutions (when they exist) faster than existing methods. We first evaluate the approach on benchmark functions for numerical optimization that are hard to solve using gradient-based optimization solvers with a naive initialization. The results show that the proposed method can generate samples close to global optima and from multiple modes. We then demonstrate the generality and relevance of our framework to robotics by applying it to inverse kinematics with obstacles and motion planning problems with a 7-DoF manipulator.
翻訳日:2023-11-23 06:06:18 公開日:2023-11-21
# 周期境界条件をもつ高次元拡散方程式に対する圧縮フーリエコロケーション法

Compressive Fourier collocation methods for high-dimensional diffusion equations with periodic boundary conditions ( http://arxiv.org/abs/2206.01255v5 )

ライセンス: Link先を確認
Weiqi Wang and Simone Brugiapaglia(参考訳) 高次元偏微分方程式(英: High-dimensional partial Differential Equations, PDE)は、ファイナンスから計算化学まで多岐にわたる数学モデリングツールである。 しかしながら、これらのPDEを解くための標準的な数値手法は、一般に次元の呪いの影響を受けている。 本研究では,周期境界条件を持つ高次元領域上で定義される定常拡散方程式に着目しながら,この問題に取り組む。 高次元におけるスパース関数近似の最近の進歩に触発されて, 圧縮フーリエコロケーションと呼ばれる新しい手法を提案する。 圧縮センシングとスペクトルコロケーションのアイデアを組み合わせることで,構造化コロケーショングリッドをモンテカルロサンプリングに置き換え,直交マッチング追従法や$\ell^1$最小化法などのスパースリカバリ技術を用いてpde溶液のフーリエ係数を近似する。 提案手法の近似誤差が解に対する(フーリエ基底に関して)最良の$s$項近似に匹敵することを示す厳密な理論解析を行う。 最近導入された有界リース系におけるランダムサンプリングの枠組みを用いて, 圧縮フーリエコロケーション法は, 拡散係数の正則性に関する十分な条件下でのコロケーション点数に対して, 次元の呪いを緩和することを示した。 また, 分散解と圧縮解の近似法について, 精度と安定性を示す数値実験を行った。

High-dimensional Partial Differential Equations (PDEs) are a popular mathematical modelling tool, with applications ranging from finance to computational chemistry. However, standard numerical techniques for solving these PDEs are typically affected by the curse of dimensionality. In this work, we tackle this challenge while focusing on stationary diffusion equations defined over a high-dimensional domain with periodic boundary conditions. Inspired by recent progress in sparse function approximation in high dimensions, we propose a new method called compressive Fourier collocation. Combining ideas from compressive sensing and spectral collocation, our method replaces the use of structured collocation grids with Monte Carlo sampling and employs sparse recovery techniques, such as orthogonal matching pursuit and $\ell^1$ minimization, to approximate the Fourier coefficients of the PDE solution. We conduct a rigorous theoretical analysis showing that the approximation error of the proposed method is comparable with the best $s$-term approximation (with respect to the Fourier basis) to the solution. Using the recently introduced framework of random sampling in bounded Riesz systems, our analysis shows that the compressive Fourier collocation method mitigates the curse of dimensionality with respect to the number of collocation points under sufficient conditions on the regularity of the diffusion coefficient. We also present numerical experiments that illustrate the accuracy and stability of the method for the approximation of sparse and compressible solutions.
翻訳日:2023-11-23 06:05:35 公開日:2023-11-21
# relphormer: ナレッジグラフ表現のための関係グラフトランスフォーマー

Relphormer: Relational Graph Transformer for Knowledge Graph Representations ( http://arxiv.org/abs/2205.10852v6 )

ライセンス: Link先を確認
Zhen Bi, Siyuan Cheng, Jing Chen, Xiaozhuan Liang, Feiyu Xiong, Ningyu Zhang(参考訳) トランスフォーマーは自然言語処理、コンピュータビジョン、グラフマイニングなど幅広い分野において顕著な性能を発揮している。 しかしながら、バニラトランスフォーマーアーキテクチャは、翻訳距離パラダイムがこの領域を支配している知識グラフ(KG)表現において、有望な改善を得られていない。 バニラトランスフォーマーアーキテクチャは、知識グラフの本質的に異質な構造と意味情報を捉えるのに苦労している。 そこで本研究では,Relphormerと呼ばれる知識グラフ表現のためのTransformerの新たな変種を提案する。 具体的には、Triple2Seqを導入し、コンテキスト化されたサブグラフシーケンスを動的にサンプリングし、不均一性の問題を軽減する。 本稿では,関係情報をエンコードし,意味情報を実体や関係内に保持する構造強化型自己認識機構を提案する。 さらに,一般的な知識グラフ表現学習にマスク付き知識モデリングを応用し,知識グラフ補完や質問応答,レコメンデーションなど,さまざまなKGベースのタスクに適用することができる。 6つのデータセットの実験結果から、Relphormerはベースラインよりも優れたパフォーマンスが得られることが示された。 コードはhttps://github.com/zjunlp/relphormerで入手できる。

Transformers have achieved remarkable performance in widespread fields, including natural language processing, computer vision and graph mining. However, vanilla Transformer architectures have not yielded promising improvements in the Knowledge Graph (KG) representations, where the translational distance paradigm dominates this area. Note that vanilla Transformer architectures struggle to capture the intrinsically heterogeneous structural and semantic information of knowledge graphs. To this end, we propose a new variant of Transformer for knowledge graph representations dubbed Relphormer. Specifically, we introduce Triple2Seq which can dynamically sample contextualized sub-graph sequences as the input to alleviate the heterogeneity issue. We propose a novel structure-enhanced self-attention mechanism to encode the relational information and keep the semantic information within entities and relations. Moreover, we utilize masked knowledge modeling for general knowledge graph representation learning, which can be applied to various KG-based tasks including knowledge graph completion, question answering, and recommendation. Experimental results on six datasets show that Relphormer can obtain better performance compared with baselines. Code is available in https://github.com/zjunlp/Relphormer.
翻訳日:2023-11-23 06:04:42 公開日:2023-11-21
# isQ:量子プログラミングのための実用的なソフトウェアスタックを目指して

isQ: Towards a Practical Software Stack for Quantum Programming ( http://arxiv.org/abs/2205.03866v2 )

ライセンス: Link先を確認
Jingzhe Guo, Huazhe Lou, Riling Li, Wang Fang, Junyi Liu, Peixun Long, Shenggang Ying, and Mingsheng Ying(参考訳) isqは命令型プログラミング言語で量子プログラミングを行うための新しいソフトウェアスタックで、これもisqと呼ばれている。 isQの目的はプログラマが量子プログラムをできるだけ便利に書けるようにすることである。 特に 1) isq言語とそのコンパイラには、再帰のような古典的な制御フロー、自己定義ユニタリゲートの分解、oracleプログラミングとその回路実現など、(ほとんど)他の量子プログラミングプラットフォームで十分にサポートされていない機能を含む、多くの機能が含まれている。 2) フレキシブルにするために、isQプログラムをOpenQASM 3.0、QIR、QCIS(特にUSTCの超伝導量子ハードウェア向けに調整された)など、いくつかの中間表現にコンパイルすることができる。 3) 真の超伝導ハードウェアを用いたIsQに加えて,IsQプログラムの実証と試験のためのQIRシミュレータも開発されている。

We introduce isQ, a new software stack for quantum programming in an imperative programming language, also named isQ. The aim of isQ is to make the programmers write quantum programs as conveniently as possible. In particular: 1) The isQ language and its compiler contain many features, including some not well supported by (most) other quantum programming platforms, e.g. classical control flow such as recursion; decomposition of selfdefined unitary gates; and oracle programming and its circuit realization. 2) To make it flexible, an isQ program can be compiled into several kinds of intermediate representation, including OpenQASM 3.0, QIR and QCIS (specially tailored for the superconducting quantum hardware at USTC). 3) Besides interfacing isQ with true superconducting hardware, a QIR simulator is also developed for demonstration and testing of isQ programs.
翻訳日:2023-11-23 06:04:17 公開日:2023-11-21
# 普遍幾何学学習のための低次元不変埋め込み

Low Dimensional Invariant Embeddings for Universal Geometric Learning ( http://arxiv.org/abs/2205.02956v3 )

ライセンス: Link先を確認
Nadav Dym and Steven J. Gortler(参考訳) 本稿では、適当な群作用に不変であり、分離された軌道を持つ、$d$ 次元領域上の写像を分離する。 この研究の動機は、同変ニューラルネットワークアーキテクチャの普遍性を証明するために不変量を分離することの有用性にある。 いくつかの場合において、機械学習の文献で提案される不変量分離の基数は、次元$D$よりもはるかに大きい。 その結果、これらの分離不変量に基づく理論的普遍構造は非現実的に大きい。 この論文の目標はこの問題を解決することです。 半代数的分離不変量の連続族が利用できるとき、これらの不変量の2D+1$をランダムに選択することで分離が得られることを示す。 この手法を適用し、不変学習文献で研究されているいくつかの古典的群行動に対する不変量分離の効率的なスキームを得る。 例えば、点雲上の行列乗算作用は、置換、回転、その他の様々な線型群によるものである。 しばしば、不変分離の要求は緩和され、一般的な分離のみが要求される。 この場合、D+1$不変量のみが必要であることを示す。 より重要なことに、重み付きグラフのジェネリック分離と完全分離について論じることで、ジェネリック不変量は計算がかなり容易になることが多い。 最後に,確率パラメータの精度が有限であれば,不変量の分離も構築できることを示す手法について概説する。

This paper studies separating invariants: mappings on $D$ dimensional domains which are invariant to an appropriate group action, and which separate orbits. The motivation for this study comes from the usefulness of separating invariants in proving universality of equivariant neural network architectures. We observe that in several cases the cardinality of separating invariants proposed in the machine learning literature is much larger than the dimension $D$. As a result, the theoretical universal constructions based on these separating invariants is unrealistically large. Our goal in this paper is to resolve this issue. We show that when a continuous family of semi-algebraic separating invariants is available, separation can be obtained by randomly selecting $2D+1 $ of these invariants. We apply this methodology to obtain an efficient scheme for computing separating invariants for several classical group actions which have been studied in the invariant learning literature. Examples include matrix multiplication actions on point clouds by permutations, rotations, and various other linear groups. Often the requirement of invariant separation is relaxed and only generic separation is required. In this case, we show that only $D+1$ invariants are required. More importantly, generic invariants are often significantly easier to compute, as we illustrate by discussing generic and full separation for weighted graphs. Finally we outline an approach for proving that separating invariants can be constructed also when the random parameters have finite precision.
翻訳日:2023-11-23 06:04:01 公開日:2023-11-21
# PyDaddy: 時系列データから確率的動的方程式を発見するPythonパッケージ

PyDaddy: A Python package for discovering stochastic dynamical equations from timeseries data ( http://arxiv.org/abs/2205.02645v3 )

ライセンス: Link先を確認
Arshed Nabeel, Ashwin Karichannavar, Shuaib Palathingal, Jitesh Jhawar, David B. Br\"uckner, Danny Raj M., Vishwesha Guttal(参考訳) 確率微分方程式(英: stochastic differential equation, sdes)は、ランダム性を持つ力学をモデル化するための重要な枠組みである。 これらのモデルと経験的データを統合するという逆問題はまだ大きな課題である。 本稿では、時系列データを入力として取り出し、解釈可能なSDEを出力するPyDaDDy(Python Library for Data Driven Dynamics)というソフトウェアパッケージを提案する。 確率計算学の従来の手法と最先端の方程式発見技術を組み合わせることでこれを実現できる。 我々は,合成データセットに対する我々のアプローチを検証し,その方法の汎用性と適用性について,空間的スケールの異なる2つの実世界データセット上で実証する。 (i)確率が重要な役割を担う魚学校集団運動、 (ii) 単一細胞の移動は、主に緩やかな発振によって制限される。 我々はPyDaddy(Python Library for Data Driven Dynamics)という,使いやすいオープンソースのPythonパッケージとして,このメソッドを利用可能にしています。

Stochastic differential equations (SDEs) are an important framework to model dynamics with randomness, as is common in most biological systems. The inverse problem of integrating these models with empirical data remains a major challenge. Here, we present a software package, PyDaDDy (Python Library for Data Driven Dynamics) that takes time series data as an input and outputs an interpretable SDE. We achieve this by combining traditional approaches from stochastic calculus literature with state-of-the-art equation discovery techniques. We validate our approach on synthetic datasets, and demonstrate the generality and applicability of the method on two real-world datasets of vastly different spatiotemporal scales: (i) collective movement of fish school where stochasticity plays a crucial role, and (ii) confined migration of a single cell, primarily following a relaxed oscillation. We make the method available as an easy-to-use, open-source Python package, PyDaddy (Python Library for Data Driven Dynamics).
翻訳日:2023-11-23 06:03:42 公開日:2023-11-21
# データ駆動型および物理形問題に対する多元的深層作用素ネットワーク

Multifidelity Deep Operator Networks For Data-Driven and Physics-Informed Problems ( http://arxiv.org/abs/2204.09157v2 )

ライセンス: Link先を確認
Amanda A. Howard, Mauro Perego, George E. Karniadakis, Panos Stinis(参考訳) 複素非線形システムの作用素学習は、多物理系や多スケール系のモデリングにおいてますます一般的である。 しかし、そのような高次元演算子の訓練には、実験やシミュレーションから、大量の高価な高忠実度データが必要である。 本研究では,異なる忠実度レベルを持つ2つのデータセットを用いて,十分な忠実度データが得られない場合に複雑な演算子を正確に学習する複合深層演算子ネットワーク(deeponet)を提案する。 さらに,低忠実度データの存在は,deeponetsを用いた物理形学習の予測を改善できることを実証する。 本研究では,グリーンランドのハンボルト氷河の氷床ダイナミクスのモデリング,2つの異なるフィデリティモデルの利用,および2つの異なる解像度での同じ物理モデルの使用など,多彩な例で新たな多元性トレーニングを実演する。

Operator learning for complex nonlinear systems is increasingly common in modeling multi-physics and multi-scale systems. However, training such high-dimensional operators requires a large amount of expensive, high-fidelity data, either from experiments or simulations. In this work, we present a composite Deep Operator Network (DeepONet) for learning using two datasets with different levels of fidelity to accurately learn complex operators when sufficient high-fidelity data is not available. Additionally, we demonstrate that the presence of low-fidelity data can improve the predictions of physics-informed learning with DeepONets. We demonstrate the new multi-fidelity training in diverse examples, including modeling of the ice-sheet dynamics of the Humboldt glacier, Greenland, using two different fidelity models and also using the same physical model at two different resolutions.
翻訳日:2023-11-23 06:03:25 公開日:2023-11-21
# リアルタイム食品分類のためのオンラインクラスインクリメンタルラーニング

Online Class-Incremental Learning For Real-World Food Classification ( http://arxiv.org/abs/2301.05246v2 )

ライセンス: Link先を確認
Siddeshwar Raghavan, Jiangpeng He, Fengqing Zhu(参考訳) 食品画像分類は、画像に基づく食事評価法において、健康状態の監視と食事の追跡に不可欠である。 しかし、従来のシステムは固定クラスと一様分布を持つ静的データセットに依存することが多い。 対照的に、文化的、経済的、個人的影響によって形成される現実世界の食品消費パターンには、動的かつ進化的なデータが含まれる。 したがって、分類システムは継続的に進化するデータを扱う必要がある。 Online Class Incremental Learning (OCIL)は、新しい知識に適応しつつ、単一パスのデータストリームから継続的に学習することの課題に対処する。 Experience Replay (ER)ベースのOCILメソッドは、以前のデータのごく一部を格納し、高いパフォーマンスを示している。 しかし、既存のOCILのほとんどの研究は、遭遇したデータの分布が完全に均衡していると仮定している。 本研究では,まず,現実の食品消費シナリオをシミュレートする確率的枠組みを導入することで,実世界の食品画像分類のためのオシルを探索する。 次に,既存のER手法用に設計された動的モデル更新モジュールを提案する。このモジュールは,OCILフレームワーク内の現実的な食品消費パターンに固有のデータ繰り返しや不均衡なサンプル発生から生じる課題に対処し,モデルトレーニングのための関連画像の選択を可能にする。 性能評価の結果, 確立されたer法に比べ, 大幅に改善し, 実世界の食品画像分類シナリオにおける生涯学習の可能性を示した。 我々のメソッドのコードは、 \href{https://gitlab.com/viper-purdue/OCIL-real-world-food-image-classification}{https://gitlab.com/viper-purdue/OCIL-real-world-food-image-classification} で公開されている。

Food image classification is essential for monitoring health and tracking dietary in image-based dietary assessment methods. However, conventional systems often rely on static datasets with fixed classes and uniform distribution. In contrast, real-world food consumption patterns, shaped by cultural, economic, and personal influences, involve dynamic and evolving data. Thus, require the classification system to cope with continuously evolving data. Online Class Incremental Learning (OCIL) addresses the challenge of learning continuously from a single-pass data stream while adapting to the new knowledge and reducing catastrophic forgetting. Experience Replay (ER) based OCIL methods store a small portion of previous data and have shown encouraging performance. However, most existing OCIL works assume that the distribution of encountered data is perfectly balanced, which rarely happens in real-world scenarios. In this work, we explore OCIL for real-world food image classification by first introducing a probabilistic framework to simulate realistic food consumption scenarios. Subsequently, we present an attachable Dynamic Model Update (DMU) module designed for existing ER methods, which enables the selection of relevant images for model training, addressing challenges arising from data repetition and imbalanced sample occurrences inherent in realistic food consumption patterns within the OCIL framework. Our performance evaluation demonstrates significant enhancements compared to established ER methods, showing great potential for lifelong learning in real-world food image classification scenarios. The code of our method is publicly accessible at \href{https://gitlab.com/viper-purdue/OCIL-real-world-food-image-classification}{https://gitlab.com/viper-purdue/OCIL-real-world-food-image-classification}
翻訳日:2023-11-23 05:56:31 公開日:2023-11-21
# 絡み合いから運動の準局所積分を計測する

Measuring out quasi-local integrals of motion from entanglement ( http://arxiv.org/abs/2301.01787v4 )

ライセンス: Link先を確認
B. Lu, C. Bertoni, S. J. Thomson, J. Eisert(参考訳) 運動の準局所積分は、相互作用と障害が結合する興味深い現象である多体局所化の現代の理解を支える重要な概念である。 それらを計算する数値的な方法がいくつか存在するにもかかわらず、多くの性質の現象論の多くがそれらから導出できるという観測の光に驚くことに、実際の量子シミュレーションにおいてそれらの側面を直接測定する方法は明らかではない。 本研究では,アンダーソンを多体局所化と非平衡ダイナミクスを区別できる空間分解型エンタングルメントプローブに基づいて,そのような準局所的運動積分の実空間特性を抽出する手法を提案する。 これらの知見を新たな厳密な絡み合い境界で補完し,テンソルネットワークを用いて関連する量を計算する。 この絡み合いは、実験で測定できる、明確に定義された長さのスケールを生み出すことを実証する。

Quasi-local integrals of motion are a key concept underpinning the modern understanding of many-body localisation, an intriguing phenomenon in which interactions and disorder come together. Despite the existence of several numerical ways to compute them - and astoundingly in the light of the observation that much of the phenomenology of many properties can be derived from them - it is not obvious how to directly measure aspects of them in real quantum simulations; in fact, the smoking gun of their experimental observation is arguably still missing. In this work, we propose a way to extract the real-space properties of such quasi-local integrals of motion based on a spatially-resolved entanglement probe able to distinguish Anderson from many-body localisation from non-equilibrium dynamics. We complement these findings with a new rigorous entanglement bound and compute the relevant quantities using tensor networks. We demonstrate that the entanglement gives rise to a well-defined length scale that can be measured in experiments.
翻訳日:2023-11-23 05:55:44 公開日:2023-11-21
# 畳み込みニューラルネットワークのためのコンフォメーションマッピングによる画像強調

Image augmentation with conformal mappings for a convolutional neural network ( http://arxiv.org/abs/2212.05258v3 )

ライセンス: Link先を確認
Oona Rainio, Mohamed M.S. Nasser, Matti Vuorinen and Riku Kl\'en(参考訳) 畳み込みニューラルネットワーク(cnn)の正方形画像データの強化のために,その正方形画像を共形マッピングでディスクにマッピングし,その中心を回転させ,そのディスクを保存したm\"obius変換の下でマッピングし,元の正方形に戻した新しい手法を提案する。 このプロセスは、CNNのデータ拡張で使用される典型的な変換と異なり、元の画像の端付近からエリアを除去することによって引き起こされる情報の損失を生じさせない。 ここでは、必要なすべてのマッピングの公式と、画像を変換するためのコードの記述方法の詳細な説明を提供します。 また、シミュレーションデータを用いて新しい手法を試験し、10個の画像のトレーニングデータを40個の画像に増強することにより、統計的に有意な方法で160個の画像の試験セットに対するCNNによる予測における誤差の量を減少させる(p-value=0.0360)。

For augmentation of the square-shaped image data of a convolutional neural network (CNN), we introduce a new method, in which the original images are mapped onto a disk with a conformal mapping, rotated around the center of this disk and mapped under such a M\"obius transformation that preserves the disk, and then mapped back onto their original square shape. This process does not result the loss of information caused by removing areas from near the edges of the original images unlike the typical transformations used in the data augmentation for a CNN. We offer here the formulas of all the mappings needed together with detailed instructions how to write a code for transforming the images. The new method is also tested with simulated data and, according the results, using this method to augment the training data of 10 images into 40 images decreases the amount of the error in the predictions by a CNN for a test set of 160 images in a statistically significant way (p-value=0.0360).
翻訳日:2023-11-23 05:55:29 公開日:2023-11-21
# YolOOD:マルチラベルアウトオブディストリビューション検出のためのオブジェクト検出概念の利用

YolOOD: Utilizing Object Detection Concepts for Multi-Label Out-of-Distribution Detection ( http://arxiv.org/abs/2212.02081v2 )

ライセンス: Link先を確認
Alon Zolfi, Guy Amit, Amit Baras, Satoru Koda, Ikuya Morikawa, Yuval Elovici, Asaf Shabtai(参考訳) アウト・オブ・ディストリビューション(OOD)検出は近年,デプロイシステムの重要性から,機械学習研究コミュニティから大きな注目を集めている。 従来の研究のほとんどは、多クラス分類タスクにおけるOODサンプルの検出に重点を置いていた。 しかし、より一般的な実世界のユースケースであるマルチラベル分類タスクにおけるOOD検出は未探索領域のままである。 本研究では,オブジェクト検出領域の概念を利用して,複数ラベル分類タスクにおいてOOD検出を行うYolOODを提案する。 オブジェクト検出モデルは、異なるクラスカテゴリに属する複数のオブジェクトを含む画像において、興味のあるオブジェクト(分布内)と無関係なオブジェクト(OODオブジェクトなど)を区別する固有の能力を持っている。 これらの能力により、通常のオブジェクト検出モデルを、小さな変更だけで固有のOOD検出機能を持つ画像分類器に変換することができる。 提案手法を最先端のOOD検出手法と比較し,OODベンチマークデータセットの総合的なスイートにおいて,YolOODがこれらの手法より優れていることを示す。

Out-of-distribution (OOD) detection has attracted a large amount of attention from the machine learning research community in recent years due to its importance in deployed systems. Most of the previous studies focused on the detection of OOD samples in the multi-class classification task. However, OOD detection in the multi-label classification task, a more common real-world use case, remains an underexplored domain. In this research, we propose YolOOD - a method that utilizes concepts from the object detection domain to perform OOD detection in the multi-label classification task. Object detection models have an inherent ability to distinguish between objects of interest (in-distribution) and irrelevant objects (e.g., OOD objects) in images that contain multiple objects belonging to different class categories. These abilities allow us to convert a regular object detection model into an image classifier with inherent OOD detection capabilities with just minor changes. We compare our approach to state-of-the-art OOD detection methods and demonstrate YolOOD's ability to outperform these methods on a comprehensive suite of in-distribution and OOD benchmark datasets.
翻訳日:2023-11-23 05:55:10 公開日:2023-11-21
# 不均衡実世界産業データセットにおける異常検出のための複合スコア

Composite Score for Anomaly Detection in Imbalanced Real-World Industrial Dataset ( http://arxiv.org/abs/2211.15513v2 )

ライセンス: Link先を確認
Arnaud Bougaham, Mohammed El Adoui, Isabelle Linden, Beno\^it Fr\'enay(参考訳) 近年、産業部門は第4次革命へと発展を遂げている。 品質制御領域は特にコンピュータビジョン異常検出のための高度な機械学習に関心がある。 それでも、不均衡なデータセット、画像の複雑さ、高品質な要求を保証するためにゼロ偽陰性(ZFN)制約など、いくつかの課題に直面しなければならない。 本稿では,PCBA(Printed Circuit Board Assembly)イメージを,通常の製品で訓練されたベクトル量子生成支援ネットワーク(VQGAN)で再構成する産業パートナーのユースケースについて述べる。 そして、いくつかの正常画像および異常画像から複数の多値メトリクスを抽出し、再構成の違いによる異常を強調する。 最後に、クラスiferは、抽出されたメトリクスによって複合的な異常スコアを構築するように訓練される。 この3段階のアプローチは、パブリックMVTec-ADデータセットとパートナーPCBAデータセットで行われ、ZFN制約の下では95.69%と87.93%の定期的な精度を達成する。

In recent years, the industrial sector has evolved towards its fourth revolution. The quality control domain is particularly interested in advanced machine learning for computer vision anomaly detection. Nevertheless, several challenges have to be faced, including imbalanced datasets, the image complexity, and the zero-false-negative (ZFN) constraint to guarantee the high-quality requirement. This paper illustrates a use case for an industrial partner, where Printed Circuit Board Assembly (PCBA) images are first reconstructed with a Vector Quantized Generative Adversarial Network (VQGAN) trained on normal products. Then, several multi-level metrics are extracted on a few normal and abnormal images, highlighting anomalies through reconstruction differences. Finally, a classifer is trained to build a composite anomaly score thanks to the metrics extracted. This three-step approach is performed on the public MVTec-AD datasets and on the partner PCBA dataset, where it achieves a regular accuracy of 95.69% and 87.93% under the ZFN constraint.
翻訳日:2023-11-23 05:54:52 公開日:2023-11-21
# GEFF:顔機能付きギャラリーエンリッチメントによる衣服交換者ReIDモデルの改善

GEFF: Improving Any Clothes-Changing Person ReID Model using Gallery Enrichment with Face Features ( http://arxiv.org/abs/2211.13807v2 )

ライセンス: Link先を確認
Daniel Arkushin, Bar Cohen, Shmuel Peleg, Ohad Fried(参考訳) 着替え再識別(cc-reid)問題において、ある人の問合せサンプルが与えられた場合、その人物が異なる服装で現れるラベル付きギャラリーに基づいて正しい同一性を決定することが目的である。 いくつかのモデルは、衣服に依存しない特徴を抽出することでこの課題に取り組む。 しかし、これらのモデルの性能は、ラベル付きギャラリーで同じ服装で現れる同じ衣料品設定に比べて、着替え設定では依然として低い。 衣料関連機能はしばしばデータに支配的な機能であるため、これらの機能を利用するためにギャラリーエンリッチメントと呼ばれる新しいプロセスを提案する。 このプロセスでは、教師なしアルゴリズムを用いて、顔の特徴に基づいてクエリーサンプルを追加することで、オリジナルのギャラリーを強化します。 さらに,ReIDと顔特徴抽出モジュールを複合ギャラリーと組み合わせることで,より正確なReIDモデルが得られることを示す。 さらに,既存のCC-ReIDベンチマークは実世界のシナリオを完全に表現していないと主張し,混み合ったシーンと多数の衣服の変化を含む劇場劇に基づく,42Streetと呼ばれる新しいCC-ReIDデータセットを提案する。 複数のReIDモデルに適用すると、PRCCおよびLTCCベンチマークのTop-1服飾変化指標において平均33.5%と6.7%の改善が達成される。 提案手法は,最新のReIDモデルと組み合わせて,PRCC,LTCC,CCVID,LaST,VC-Clothesベンチマーク,42Streetデータセットの新たなSOTA結果を得る。

In the Clothes-Changing Re-Identification (CC-ReID) problem, given a query sample of a person, the goal is to determine the correct identity based on a labeled gallery in which the person appears in different clothes. Several models tackle this challenge by extracting clothes-independent features. However, the performance of these models is still lower for the clothes-changing setting compared to the same-clothes setting in which the person appears with the same clothes in the labeled gallery. As clothing-related features are often dominant features in the data, we propose a new process we call Gallery Enrichment, to utilize these features. In this process, we enrich the original gallery by adding to it query samples based on their face features, using an unsupervised algorithm. Additionally, we show that combining ReID and face feature extraction modules alongside an enriched gallery results in a more accurate ReID model, even for query samples with new outfits that do not include faces. Moreover, we claim that existing CC-ReID benchmarks do not fully represent real-world scenarios, and propose a new video CC-ReID dataset called 42Street, based on a theater play that includes crowded scenes and numerous clothes changes. When applied to multiple ReID models, our method (GEFF) achieves an average improvement of 33.5% and 6.7% in the Top-1 clothes-changing metric on the PRCC and LTCC benchmarks. Combined with the latest ReID models, our method achieves new SOTA results on the PRCC, LTCC, CCVID, LaST and VC-Clothes benchmarks and the proposed 42Street dataset.
翻訳日:2023-11-23 05:54:34 公開日:2023-11-21
# VeriCompress: 検証されたロバスト圧縮ニューラルネットワークの合成をスクラッチから効率化するツール

VeriCompress: A Tool to Streamline the Synthesis of Verified Robust Compressed Neural Networks from Scratch ( http://arxiv.org/abs/2211.09945v7 )

ライセンス: Link先を確認
Sawinder Kaur, Yi Xiao, Asif Salekin(参考訳) AIの広範な統合により、安全クリティカルなシナリオのために、エッジや同様のリミテッドリソースプラットフォームにニューラルネットワーク(NN)がデプロイされる。 しかし、nnの脆弱さは信頼できる推論に関する懸念を引き起こす。 さらに、制約付きプラットフォームはコンパクトネットワークを要求する。 本研究は,ロバスト性を保証する圧縮モデルの探索とトレーニングを自動化するツールであるvericompressを紹介する。 これらのモデルは安全クリティカルなアプリケーションに適しているため、事前定義されたアーキテクチャとサイズ制限に準拠し、リソース制限のあるプラットフォームにデプロイ可能である。 この方法は、最先端のアプローチよりも2~3倍高速にモデルを訓練し、関連するベースラインアプローチを15.1ポイントと9.8ポイントの平均精度と堅牢性向上で上回った。 リソース制限のあるジェネリックプラットフォームにデプロイする場合、これらのモデルは、5-8倍のメモリと2-4倍の推論時間を必要とする。 MNIST, CIFAR, SVHN, および関連する歩行者検出データセットを含む, さまざまなモデルアーキテクチャおよびデータセットに対する包括的評価では, 計算オーバーヘッドを減らした圧縮されたロバストモデルを特定するVeriCompressの能力を示す。 これにより、エッジ上の安全クリティカルなアプリケーションやiotプラットフォームの開発など、エンドユーザにとって価値のあるツールとしての可能性が高まり、それぞれのドメインにおいて、安全クリティカルでリソース制約のあるプラットフォームに適したモデルの開発が可能になる。

AI's widespread integration has led to neural networks (NNs) deployment on edge and similar limited-resource platforms for safety-critical scenarios. Yet, NN's fragility raises concerns about reliable inference. Moreover, constrained platforms demand compact networks. This study introduces VeriCompress, a tool that automates the search and training of compressed models with robustness guarantees. These models are well-suited for safety-critical applications and adhere to predefined architecture and size limitations, making them deployable on resource-restricted platforms. The method trains models 2-3 times faster than the state-of-the-art approaches, surpassing relevant baseline approaches by average accuracy and robustness gains of 15.1 and 9.8 percentage points, respectively. When deployed on a resource-restricted generic platform, these models require 5-8 times less memory and 2-4 times less inference time than models used in verified robustness literature. Our comprehensive evaluation across various model architectures and datasets, including MNIST, CIFAR, SVHN, and a relevant pedestrian detection dataset, showcases VeriCompress's capacity to identify compressed verified robust models with reduced computation overhead compared to current standards. This underscores its potential as a valuable tool for end users, such as developers of safety-critical applications on edge or Internet of Things platforms, empowering them to create suitable models for safety-critical, resource-constrained platforms in their respective domains.
翻訳日:2023-11-23 05:54:05 公開日:2023-11-21
# 微分プライベートオプティマイザは、逆ロバストなモデルを学ぶことができる

Differentially Private Optimizers Can Learn Adversarially Robust Models ( http://arxiv.org/abs/2211.08942v2 )

ライセンス: Link先を確認
Yuan Zhang, Zhiqi Bu(参考訳) 機械学習モデルは様々な分野に浸透し、セキュリティとプライバシコミュニティの両方から注目を集めている。 ディファレンシャルプライバシ(DP)制約の下でのトレーニングモデルは、敵の堅牢性に好ましくない影響を与えるだろうか? これまでの研究では、プライバシーはより堅牢なコストが伴うと仮定されていたが、DPモデルが自然に訓練された非私的モデルよりも堅牢で正確であることを示す最初の理論的分析を行った。 1)DPオプティマイザのハイパーパラメータは重要である; 2) 公開データによる事前トレーニングは精度とロバスト性低下を著しく軽減する; 3) DPオプティマイザの選択は違いをもたらす。 これらの因子を適切に設定すると、90 %の自然精度、72 %の頑健な精度(非私的モデルより+9 %)、69 %の頑健な精度(非私的モデルより+16 %)、および事前訓練されたSimCLRv2 モデルで $l_\infty(4/255)のCIFAR10 に対する攻撃を$\epsilon=2$とする。 実際、理論上および経験上、dpモデルが精度・ロバスト性トレードオフにおいてパレート最適であることを示す。 経験的に、DPモデルの堅牢性は、様々なデータセットやモデルで一貫して観察される。 奨励的な結果は、プライベートで堅牢なモデルをトレーニングするための重要なステップだと思います。

Machine learning models have shone in a variety of domains and attracted increasing attention from both the security and the privacy communities. One important yet worrying question is: Will training models under the differential privacy (DP) constraint have an unfavorable impact on their adversarial robustness? While previous works have postulated that privacy comes at the cost of worse robustness, we give the first theoretical analysis to show that DP models can indeed be robust and accurate, even sometimes more robust than their naturally-trained non-private counterparts. We observe three key factors that influence the privacy-robustness-accuracy tradeoff: (1) hyper-parameters for DP optimizers are critical; (2) pre-training on public data significantly mitigates the accuracy and robustness drop; (3) choice of DP optimizers makes a difference. With these factors set properly, we achieve 90\% natural accuracy, 72\% robust accuracy ($+9\%$ than the non-private model) under $l_2(0.5)$ attack, and 69\% robust accuracy ($+16\%$ than the non-private model) with pre-trained SimCLRv2 model under $l_\infty(4/255)$ attack on CIFAR10 with $\epsilon=2$. In fact, we show both theoretically and empirically that DP models are Pareto optimal on the accuracy-robustness tradeoff. Empirically, the robustness of DP models is consistently observed across various datasets and models. We believe our encouraging results are a significant step towards training models that are private as well as robust.
翻訳日:2023-11-23 05:53:37 公開日:2023-11-21
# マルチブランチアーキテクチャによる個人化フェデレーション学習

Personalized Federated Learning with Multi-branch Architecture ( http://arxiv.org/abs/2211.07931v3 )

ライセンス: Link先を確認
Junki Mori, Tomoyuki Yoshiyama, Furukawa Ryo, Isamu Teranishi(参考訳) Federated Learning(FL)は、複数のクライアントが相互に生データを公開することなく、協力的にモデルをトレーニングできる分散機械学習技術である。 従来のFLは、クライアント間で平均的なパフォーマンスを持つ単一のグローバルモデルを訓練するが、クライアント間の統計データの異質性は、各クライアントのデータに対して優れたパフォーマンスでパーソナライズされたモデルを訓練するパーソナライズされたFL(PFL)の開発につながっている。 PFLの主な課題は、クライアントが複雑な分散からのデータを持ち、お互いの分散を判断できない状況において、類似したデータを持つクライアントがより協力できるようにする方法である。 本稿では、ニューラルネットワークの各レイヤを複数のブランチに分割し、各ブランチにクライアント固有の重みを割り当てることでパーソナライズを実現するマルチブランチアーキテクチャを用いた新しいPFL手法(pFedMB)を提案する。 また,通信効率とモデル性能を向上させるために,各ブランチに割り当てられたクライアント固有の重み付けによる重み付け平均値でグローバルに更新する集約手法を設計した。 pFedMBは単純だが、各ブランチに割り当てられた重みを調整することで、各クライアントが同様のクライアントと知識を共有するのを容易にする。 CIFAR10およびCIFAR100データセットを用いて,pFedMBが最先端のPFL法よりも優れた性能を示すことを示す。

Federated learning (FL) is a decentralized machine learning technique that enables multiple clients to collaboratively train models without requiring clients to reveal their raw data to each other. Although traditional FL trains a single global model with average performance among clients, statistical data heterogeneity across clients has resulted in the development of personalized FL (PFL), which trains personalized models with good performance on each client's data. A key challenge with PFL is how to facilitate clients with similar data to collaborate more in a situation where each client has data from complex distribution and cannot determine one another's distribution. In this paper, we propose a new PFL method (pFedMB) using multi-branch architecture, which achieves personalization by splitting each layer of a neural network into multiple branches and assigning client-specific weights to each branch. We also design an aggregation method to improve the communication efficiency and the model performance, with which each branch is globally updated with weighted averaging by client-specific weights assigned to the branch. pFedMB is simple but effective in facilitating each client to share knowledge with similar clients by adjusting the weights assigned to each branch. We experimentally show that pFedMB performs better than the state-of-the-art PFL methods using the CIFAR10 and CIFAR100 datasets.
翻訳日:2023-11-23 05:53:04 公開日:2023-11-21
# 相対エントロピー規則化による経験的リスク最小化

Empirical Risk Minimization with Relative Entropy Regularization ( http://arxiv.org/abs/2211.06617v3 )

ライセンス: Link先を確認
Samir M. Perlaza, Gaetan Bisson, I\~naki Esnaola, Alain Jean-Marie, Stefano Rini(参考訳) 相対エントロピー正則化(ERM-RER)を伴う経験的リスク最小化(ERM)問題は、基準測度が {\sigma}-有限測度であり、必ずしも確率測度ではないという仮定の下で検討される。 この仮定の下では、ERM-RER問題を一般化し、事前知識を組み込む柔軟性がより高められ、多くの関連する性質が記述される。 これらの性質のうち、この問題の解が存在すれば、一意的な確率測度であることが示され、しばしば基準測度と相互に絶対連続である。 そのような解は、後者が解を持つかどうかに関わらず、ERM問題に対するおそらくほぼ正しい保証を示す。 固定されたデータセットの場合、ERM-RER問題の解からモデルがサンプリングされた場合、経験的リスクはガウス以下の確率変数であることが示される。 ERM-RER問題に対する解の一般化能力(ギブスアルゴリズム)は、そのような解から代替確率測度への偏差に対する期待された経験的リスクの感度によって研究される。 最後に、感度、一般化誤差、ラウテン情報の間の興味深い接続を確立する。

The empirical risk minimization (ERM) problem with relative entropy regularization (ERM-RER) is investigated under the assumption that the reference measure is a {\sigma}-finite measure, and not necessarily a probability measure. Under this assumption, which leads to a generalization of the ERM-RER problem allowing a larger degree of flexibility for incorporating prior knowledge, numerous relevant properties are stated. Among these properties, the solution to this problem, if it exists, is shown to be a unique probability measure, often mutually absolutely continuous with the reference measure. Such a solution exhibits a probably-approximately-correct guarantee for the ERM problem independently of whether the latter possesses a solution. For a fixed dataset, the empirical risk is shown to be a sub-Gaussian random variable when the models are sampled from the solution to the ERM-RER problem. The generalization capabilities of the solution to the ERM-RER problem (the Gibbs algorithm) are studied via the sensitivity of the expected empirical risk to deviations from such a solution towards alternative probability measures. Finally, an interesting connection between sensitivity, generalization error, and lautum information is established
翻訳日:2023-11-23 05:52:39 公開日:2023-11-21
# 真の多部絡み付き離散性に基づく真の非局所性

Distinguishability-based genuine nonlocality with genuine multipartite entanglement ( http://arxiv.org/abs/2211.02388v2 )

ライセンス: Link先を確認
Zong-Xing Xiong, Mao-Sheng Li, Zhu-Jun Zheng, Lvzhou Li(参考訳) 直交多部量子状態の集合が判別可能性に基づく真の非局所的(あるいは真の非局所的)であるとは、状態が部分系の任意の分割にわたって局所的に区別不能であるときに言う。 この多成分非局所性の形式は、最近普及した「強い非局所性(strong nonlocality)」よりも自然に発生するが、より注意を引かない。 本研究では,D次元GHZ状態(局所次元が 2 に制限されないシステム)を特徴とする,典型的な多部交絡状態の識別可能性に基づく真の非局所性について検討する。 三次元の場合、これらの状態からなる小さな真の非局所集合の存在が分かる: 濃度が少なくとも局所次元 d において線型にスケールダウンできることが、線型因子 l = 1 で示される。 具体的には、この手法は半定値プログラムであり、これらの集合を構成するGHZ状態は「GHZ格子」と呼ばれる特別なものである。 この結果はおそらく、強い非局所性の強さと識別性に基づく真の非局所性の間の大きなギャップを示唆している。 さらに, (s,n)-threshold の識別性の概念を提唱し, 同様の手法を用いて, 3成分系におけるghz 状態からなる (2,3)-threshold 集合の構築に成功した。

A set of orthogonal multipartite quantum states is said to be distinguishability-based genuinely nonlocal (also genuinely nonlocal, for abbreviation) if the states are locally indistinguishable across any bipartition of the subsystems. This form of multipartite nonlocality, although more naturally arising than the recently popular "strong nonlocality" in the context of local distinguishability, receives much less attention. In this work, we study the distinguishability-based genuine nonlocality of a typical type of genuine multipartite entangled states -- the d-dimensional GHZ states, featuring systems with local dimension not limited to 2. In the three-partite case, we find the existence of small genuinely nonlocal sets consisting of these states: we show that the cardinality can at least scale down to linear in the local dimension d, with the linear factor l = 1. Specifically, the method we use is semidefinite program and the GHZ states to construct these sets are special ones which we call "GHZ-lattices". This result might arguably suggest a significant gap between the strength of strong nonlocality and the distinguishability-based genuine nonlocality. Moreover, we put forward the notion of (s,n)-threshold distinguishability and utilizing a similar method, we successfully construct (2,3)-threshold sets consisting of GHZ states in three-partite systems.
翻訳日:2023-11-23 05:52:20 公開日:2023-11-21
# 非連続確率勾配をもつ確率最適化問題に対するランゲヴィンダイナミクスに基づくアルゴリズムe-TH$\varepsilon$O POULA

Langevin dynamics based algorithm e-TH$\varepsilon$O POULA for stochastic optimization problems with discontinuous stochastic gradient ( http://arxiv.org/abs/2210.13193v2 )

ライセンス: Link先を確認
Dong-Young Lim, Ariel Neufeld, Sotirios Sabanis, Ying Zhang(参考訳) 我々は、量子推定、ベクトル量子化、CVaR最小化、ReLUニューラルネットワークを含む正規化最適化問題などの現実の応用に自然に現れる不連続確率勾配による最適化問題を解くために、e-TH$\varepsilon$O POULAと呼ばれる新しいランゲヴィンダイナミクスベースのアルゴリズムを導入する。 理論的にも数値的にも e-TH$\varepsilon$O POULA アルゴリズムの適用性を実証する。 より正確には、確率勾配が平均的に局所リプシッツであり、無限大条件で一定の凸性を満たす条件の下で、ワッサーシュタイン距離において e-TH$\varepsilon$O POULA の非漸近誤差境界を確立し、予想される余剰リスクの非漸近誤差推定を与える。 金融と保険の3つの主要な応用として、多周期ポートフォリオ最適化、多周期ポートフォリオ最適化における転送学習、および(Leaky)-ReLUアクティベーション機能を備えたニューラルネットワークを含む保険請求予測がある。 E-TH$\varepsilon$O POULAをモデル精度でSGLD,TUSLA,ADAM,AMSGradと比較し,実世界のデータセットを用いて数値実験を行った。

We introduce a new Langevin dynamics based algorithm, called e-TH$\varepsilon$O POULA, to solve optimization problems with discontinuous stochastic gradients which naturally appear in real-world applications such as quantile estimation, vector quantization, CVaR minimization, and regularized optimization problems involving ReLU neural networks. We demonstrate both theoretically and numerically the applicability of the e-TH$\varepsilon$O POULA algorithm. More precisely, under the conditions that the stochastic gradient is locally Lipschitz in average and satisfies a certain convexity at infinity condition, we establish non-asymptotic error bounds for e-TH$\varepsilon$O POULA in Wasserstein distances and provide a non-asymptotic estimate for the expected excess risk, which can be controlled to be arbitrarily small. Three key applications in finance and insurance are provided, namely, multi-period portfolio optimization, transfer learning in multi-period portfolio optimization, and insurance claim prediction, which involve neural networks with (Leaky)-ReLU activation functions. Numerical experiments conducted using real-world datasets illustrate the superior empirical performance of e-TH$\varepsilon$O POULA compared to SGLD, TUSLA, ADAM, and AMSGrad in terms of model accuracy.
翻訳日:2023-11-23 05:51:53 公開日:2023-11-21
# ダイナミックビュー合成のための動的単眼映像の分離

Decoupling Dynamic Monocular Videos for Dynamic View Synthesis ( http://arxiv.org/abs/2304.01716v3 )

ライセンス: Link先を確認
Meng You and Junhui Hou(参考訳) 動的単眼映像からのダイナミックビュー合成の課題、すなわち、移動カメラが捉えた動的シーンの単眼映像を与えられた自由視点のための新しいビューの合成は、主に限られた2dフレームを用いてシーンの動的オブジェクトを正確にモデル化することであり、それぞれ異なるタイムスタンプと視点を持つ。 既存の方法では、既処理の2D光流と深度マップをオフザシェルフ方式でネットワークを監視し、2D情報を3Dに持ち上げる際に、前処理の監督の正確さと曖昧さに悩まされる。 本稿では,この課題を教師なしの方法で解決する。 具体的には、動的物体の運動を物体の動きとカメラの動きに分離し、教師なし表面の整合性およびパッチベースのマルチビュー制約によって規則化する。 前者は移動物体の3次元幾何学的表面を時間とともに整合させ、後者は外見を異なる視点で整合させるように規則化させる。 このような細粒度な動きの定式化は,ネットワークの学習難易度を軽減できるため,既存の手法よりも高品質な新たなビューだけでなく,より正確なシーンフローや奥行きを生成できる。

The challenge of dynamic view synthesis from dynamic monocular videos, i.e., synthesizing novel views for free viewpoints given a monocular video of a dynamic scene captured by a moving camera, mainly lies in accurately modeling the dynamic objects of a scene using limited 2D frames, each with a varying timestamp and viewpoint. Existing methods usually require pre-processed 2D optical flow and depth maps by off-the-shelf methods to supervise the network, making them suffer from the inaccuracy of the pre-processed supervision and the ambiguity when lifting the 2D information to 3D. In this paper, we tackle this challenge in an unsupervised fashion. Specifically, we decouple the motion of the dynamic objects into object motion and camera motion, respectively regularized by proposed unsupervised surface consistency and patch-based multi-view constraints. The former enforces the 3D geometric surfaces of moving objects to be consistent over time, while the latter regularizes their appearances to be consistent across different viewpoints. Such a fine-grained motion formulation can alleviate the learning difficulty for the network, thus enabling it to produce not only novel views with higher quality but also more accurate scene flows and depth than existing methods requiring extra supervision.
翻訳日:2023-11-23 05:43:41 公開日:2023-11-21
# ランダム量子回路における情報流の動的相転移

Dynamical phase transitions of information flow in random quantum circuits ( http://arxiv.org/abs/2304.01256v2 )

ライセンス: Link先を確認
J.-Z. Zhuang, Y.-K. Wu, L.-M. Duan(参考訳) ランダム量子回路によって制御される多体力学における情報の流れを考察し、この情報の流れの中でリッチな動的相転移を見いだす。 位相遷移点とその臨界指数は有限サイズスケーリングによってクリフォードとハールランダム回路にわたって確立される。 古典情報と量子情報のフローは、それぞれホレボとコヒーレント情報によって測定され、同様の動的相転移挙動を示す。 位相遷移が情報の初期位置と最終プローブ領域にどのように依存するかを調査し,これらの遷移におけるユビキタスな振る舞いを見つけ,この量子多体モデルにおける情報伝播とスクランブルに関する興味深い性質を明らかにする。 我々の研究は、多数の相転移を持つ大規模システムにおける情報フローの豊富な挙動を浮き彫りにして、量子多体ダイナミクスの理解に新たな光を当てる。

We study how the information flows in many-body dynamics governed by random quantum circuits and discover a rich set of dynamical phase transitions in this information flow. The phase transition points and their critical exponents are established across Clifford and Haar random circuits through finite-size scaling. The flow of both classical and quantum information, measured respectively by Holevo and coherent information, shows similar dynamical phase transition behaviors. We investigate how the phase transitions depend on the initial location of the information and the final probe region, and find ubiquitous behaviors in these transitions, revealing interesting properties about the information propagation and scrambling in this quantum many-body model. Our work underscores rich behaviors of the information flow in large systems with numerous phase transitions, thereby sheds new light on the understanding of quantum many-body dynamics.
翻訳日:2023-11-23 05:43:20 公開日:2023-11-21
# XPert:エリアとエネルギー効率の高いXbarベースのコンピューティングのための周辺回路とニューラルネットワークの共同研究

XPert: Peripheral Circuit & Neural Architecture Co-search for Area and Energy-efficient Xbar-based Computing ( http://arxiv.org/abs/2303.17646v2 )

ライセンス: Link先を確認
Abhishek Moitra, Abhiroop Bhattacharjee, Youngeun Kim and Priyadarshini Panda(参考訳) インメモリコンピューティング(IMC)アーキテクチャに実装されたディープニューラルネットワーク(DNN)のハードウェア効率と精度は、主にDNNアーキテクチャと周辺回路パラメータに依存している。 したがって、最適性能を達成するために、ネットワークと周辺パラメータを確率的に共同研究することが不可欠である。 そこで本研究では,アナログ・デジタルコンバータの型と精度,クロスバー・カラムの共有,レイヤ固有の入力精度といった周辺パラメータを,最適化に基づく設計空間探索を用いて共同で探索するXPertを提案する。 VGG16ベースラインと比較して、XPertは10.24x (4.7x)低いEDAP、1.72x (1.62x)高いTOPS/W,1.93x (3x)高いTOPS/mm2を92.46% (56.7%)の精度で達成している。 この論文のコードはhttps://github.com/intelligent-computing-lab-yale/xpertで入手できる。

The hardware-efficiency and accuracy of Deep Neural Networks (DNNs) implemented on In-memory Computing (IMC) architectures primarily depend on the DNN architecture and the peripheral circuit parameters. It is therefore essential to holistically co-search the network and peripheral parameters to achieve optimal performance. To this end, we propose XPert, which co-searches network architecture in tandem with peripheral parameters such as the type and precision of analog-to-digital converters, crossbar column sharing and the layer-specific input precision using an optimization-based design space exploration. Compared to VGG16 baselines, XPert achieves 10.24x (4.7x) lower EDAP, 1.72x (1.62x) higher TOPS/W,1.93x (3x) higher TOPS/mm2 at 92.46% (56.7%) accuracy for CIFAR10 (TinyImagenet) datasets. The code for this paper is available at https://github.com/Intelligent-Computing-Lab-Yale/XPert.
翻訳日:2023-11-23 05:43:05 公開日:2023-11-21
# 直流合成最適化のための不正確なLPAと外部整列行列への応用

An inexact LPA for DC composite optimization and application to matrix completions with outliers ( http://arxiv.org/abs/2303.16822v3 )

ライセンス: Link先を確認
Ting Tao, Ruyu Liu, Shaohua Pan(参考訳) 本稿では, 対流合成最適化問題と非滑らか成分を含むdcプログラムの拡張として, 低ランク行列回復のロバスト因子分解モデルにおいてしばしば発生する直流合成最適化問題について述べる。 この非凸および非滑らかな問題に対して,各ステップにおいて,対象関数の部分的線形化により構築される強凸大化の非近似最小化法を計算し,クルディカ-\l\"ojasiewicz (kl) 特性の下で生成した反復列の収束を定め,線形化近位アルゴリズム (ilpa) を提案する。 特に, 複合構造を利用することにより, ポテンシャル関数が極限点で指数 1/2$ の kl 特性を持つような検証可能な条件を与え, 反復列が局所 r-線型収束率を持つようにした。 最後に,提案したiLPAを,外乱および非一様サンプリングを含む行列完備化のためのロバストな分解モデルに適用し,計算時間と解の質の観点からPolyak subgradient法との比較を行った。

This paper concerns a class of DC composite optimization problems which, as an extension of convex composite optimization problems and DC programs with nonsmooth components, often arises in robust factorization models of low-rank matrix recovery. For this class of nonconvex and nonsmooth problems, we propose an inexact linearized proximal algorithm (iLPA) by computing in each step an inexact minimizer of a strongly convex majorization constructed with a partial linearization of their objective functions at the current iterate, and establish the convergence of the generated iterate sequence under the Kurdyka-\L\"ojasiewicz (KL) property of a potential function. In particular, by leveraging the composite structure, we provide a verifiable condition for the potential function to have the KL property of exponent $1/2$ at the limit point, so for the iterate sequence to have a local R-linear convergence rate. Finally, we apply the proposed iLPA to a robust factorization model for matrix completions with outliers and non-uniform sampling, and numerical comparison with the Polyak subgradient method confirms its superiority in terms of computing time and quality of solutions.
翻訳日:2023-11-23 05:42:43 公開日:2023-11-21
# 弱絡みは製品測定のみで量子通信を改善する

Weak entanglement improves quantum communication using only product measurements ( http://arxiv.org/abs/2303.07907v2 )

ライセンス: Link先を確認
Am\'elie Piveteau, Alastair A. Abbott, Sadiq Muhammad, Mohamed Bourennane, Armin Tavakoli(参考訳) 弱く絡み合った状態は、個々の光子の分離された干渉のない測定によって、量子ビットチャネル上の通信を改善することができる。 秘密共有と呼ばれる暗号プリミティブに対応する通信タスクを導入し、すべてのステアブル2ビット等方性状態が、製品測定のみを用いて成功率に量子的優位性をもたらすことを示す。 さらに, 量子ステアリングを許可しない部分的絡み合い状態から, 通信のアドバンテージも明らかにできることを示した。 さらに、より洗練されながら標準的な部分的なベル状態分析に基づく確率的な秘密共有の変種を考えると、これは様々な非定常等方性状態に対しても利点が示されることを示す。 極化キュービットを予測不能な状態で作成することにより,最高のエンタングルメント非支援キュービットプロトコル以上の秘密共有タスクにおける成功率を実験的に実証する。 以上の結果から, 量子通信における簡易かつスケーラブルな計測が可能となり, 大量のノイズを克服できることがわかった。

We show that weakly entangled states can improve communication over a qubit channel using only separate, interference-free, measurements of individual photons. We introduce a communication task corresponding to the cryptographic primitive known as secret sharing and show that all steerable two-qubit isotropic states provide a quantum advantage in the success rate using only product measurements. Furthermore, we show that such measurements can even reveal communication advantages from noisy partially entangled states that admit no quantum steering. We then go further and consider a stochastic variant of secret sharing based on more sophisticated, yet standard, partial Bell state analysers, and show that this reveals advantages also for a range of unsteerable isotropic states. By preparing polarisation qubits in unsteerable states, we experimentally demonstrate improved success rates of both secret sharing tasks beyond the best entanglement-unassisted qubit protocol. Our results reveal the capability of simple and scalable measurements in entanglement-assisted quantum communication to overcome large amounts of noise.
翻訳日:2023-11-23 05:42:17 公開日:2023-11-21
# 解釈可能な因果変数と分散神経表現のアライメントの探索

Finding Alignments Between Interpretable Causal Variables and Distributed Neural Representations ( http://arxiv.org/abs/2303.02536v3 )

ライセンス: Link先を確認
Atticus Geiger and Zhengxuan Wu and Christopher Potts and Thomas Icard and Noah D. Goodman(参考訳) 因果抽象は、解釈可能な高レベル因果モデルが低レベルのディープラーニングシステムの忠実な単純化である場合を定義する、説明可能な人工知能のための有望な理論的枠組みである。 しかし、既存の因果的抽象法には2つの大きな制限がある: それらは高レベルモデルと低レベルモデルの整合性に関するブルートフォース探索を必要とし、高レベルモデルの変数は低レベルモデルのニューロンの解離集合と整合することを前提としている。 本稿では,これらの制約を克服する分散アライメント探索(DAS)を提案する。 dasでは、ブリュートフォース探索を行うのではなく、勾配降下を用いた高レベルモデルと低レベルモデルのアライメントを見いだし、非標準基底分布表現の表現を解析することにより、個々のニューロンが複数の異なる役割を担えるようにした。 実験の結果,DASは従来のアプローチが見逃す内部構造を発見できることがわかった。 全体として、DASは因果的抽象解析の過去の障害を取り除き、訓練されたニューラルネットワークの概念構造を見つけることができる。

Causal abstraction is a promising theoretical framework for explainable artificial intelligence that defines when an interpretable high-level causal model is a faithful simplification of a low-level deep learning system. However, existing causal abstraction methods have two major limitations: they require a brute-force search over alignments between the high-level model and the low-level one, and they presuppose that variables in the high-level model will align with disjoint sets of neurons in the low-level one. In this paper, we present distributed alignment search (DAS), which overcomes these limitations. In DAS, we find the alignment between high-level and low-level models using gradient descent rather than conducting a brute-force search, and we allow individual neurons to play multiple distinct roles by analyzing representations in non-standard bases-distributed representations. Our experiments show that DAS can discover internal structure that prior approaches miss. Overall, DAS removes previous obstacles to conducting causal abstraction analyses and allows us to find conceptual structure in trained neural nets.
翻訳日:2023-11-23 05:42:00 公開日:2023-11-21
# 物体検出における連続的領域適応のための領域ギャップの評価

Assessing Domain Gap for Continual Domain Adaptation in Object Detection ( http://arxiv.org/abs/2302.10396v3 )

ライセンス: Link先を確認
Anh-Dzung Doan and Bach Long Nguyen and Surabhi Gupta and Ian Reid and Markus Wagner and Tat-Jun Chin(参考訳) 自律システムにおける信頼できる物体検出を確保するために、検出器は、日時、天候、季節などの環境要因による外観の変化に対応できなければならない。 これらの変更を継続的に取り入れることは有望な解決策であるが、計算コストはかかる。 提案手法は,現在のトレーニングデータと同じ分布を持たない新しいデータを用いて,必要なときにのみ検出器を選択的に適応させることである。 この目的のために、ドメインギャップ評価のための3つの一般的なメトリクスを調査し、ドメインギャップと検出精度との間に相関があることを見出した。 そこで, 領域ギャップを基準として, 検出器の適応時期を決定する。 提案手法は, 環境条件が周期的に変化する現実のシナリオにおいて, 検出器全体の性能を犠牲にすることなく, 検出器の動作効率を向上させる可能性を秘めている。 私たちのコードはhttps://github.com/dadung/DGE-CDA.comで公開されています。

To ensure reliable object detection in autonomous systems, the detector must be able to adapt to changes in appearance caused by environmental factors such as time of day, weather, and seasons. Continually adapting the detector to incorporate these changes is a promising solution, but it can be computationally costly. Our proposed approach is to selectively adapt the detector only when necessary, using new data that does not have the same distribution as the current training data. To this end, we investigate three popular metrics for domain gap evaluation and find that there is a correlation between the domain gap and detection accuracy. Therefore, we apply the domain gap as a criterion to decide when to adapt the detector. Our experiments show that our approach has the potential to improve the efficiency of the detector's operation in real-world scenarios, where environmental conditions change in a cyclical manner, without sacrificing the overall performance of the detector. Our code is publicly available at https://github.com/dadung/DGE-CDA.
翻訳日:2023-11-23 05:40:50 公開日:2023-11-21
# Qubit, Coin, and an Advice String Walk into a Relational problem

A Qubit, a Coin, and an Advice String Walk Into a Relational Problem ( http://arxiv.org/abs/2302.10332v2 )

ライセンス: Link先を確認
Scott Aaronson and Harry Buhrman and William Kretschmer(参考訳) 関係問題(多くの有効なアウトプットがある)は決定問題とは異なるが、どの程度の違いがあるかを忘れるのは容易である。 本稿では、FBQP/qpoly、多項式サイズの量子アドバイスの助けを借りて量子多項式時間で解ける関係問題のクラス、決定論的およびランダム化された計算(FP, FBPP)とアドバイス(/poly, /rpoly)の研究を開始する。 最初の結果はfbqp/qpolyです! FBQP/poly, unconditionally, with no oracle -- 類似の意思決定クラスについて知っていることとは対照的です。 この証明は、Bar-Yossef、Jayram、Kerenidisによる量子的および古典的な一方的な通信複雑性の分離を再利用する。 この分離が、未証明の複雑性の仮定に依存しない量子超越性(quantum information supremacy)の形式である「量子情報優位性(quantum information supremacy)」を示すための短期的な実験の見通しをいかに高めるかについて議論する。 2つ目の結果は、fbpp が fp/poly に含まれないこと、つまり、adleman の定理は関係問題に対して失敗する、つまり pspace が np/poly に含まれない限り。 我々の証明はIP=PSPACEと時間境界コルモゴロフ複雑性を用いる。 一方,FP/poly では FBPP の証明は困難であり,PromiseBPEXP ではスーパーポリノミカル回路が低いことを示す。 以下の結果が証明される: * 非条件、FP! FBPP と FP/poly ! FBPP/poly (これらのクラスが慎重に定義された場合でも)。 ※FBPP/poly=FBPP/rpoly(FBQPも同様) サンプリング問題に対して、SampBPP/poly ! SampBPP/rpoly(SampBQPも同様)。

Relational problems (those with many possible valid outputs) are different from decision problems, but it is easy to forget just how different. This paper initiates the study of FBQP/qpoly, the class of relational problems solvable in quantum polynomial-time with the help of polynomial-sized quantum advice, along with its analogues for deterministic and randomized computation (FP, FBPP) and advice (/poly, /rpoly). Our first result is that FBQP/qpoly != FBQP/poly, unconditionally, with no oracle -- a striking contrast with what we know about the analogous decision classes. The proof repurposes the separation between quantum and classical one-way communication complexities due to Bar-Yossef, Jayram, and Kerenidis. We discuss how this separation raises the prospect of near-term experiments to demonstrate "quantum information supremacy," a form of quantum supremacy that would not depend on unproved complexity assumptions. Our second result is that FBPP is not contained in FP/poly -- that is, Adleman's Theorem fails for relational problems -- unless PSPACE is contained in NP/poly. Our proof uses IP=PSPACE and time-bounded Kolmogorov complexity. On the other hand, we show that proving FBPP not in FP/poly will be hard, as it implies a superpolynomial circuit lower bound for PromiseBPEXP. We prove the following further results: * Unconditionally, FP != FBPP and FP/poly != FBPP/poly (even when these classes are carefully defined). * FBPP/poly = FBPP/rpoly (and likewise for FBQP). For sampling problems, by contrast, SampBPP/poly != SampBPP/rpoly (and likewise for SampBQP).
翻訳日:2023-11-23 05:40:11 公開日:2023-11-21
# グラフトランスフォーマーに参加する

Attending to Graph Transformers ( http://arxiv.org/abs/2302.04181v2 )

ライセンス: Link先を確認
Luis M\"uller, Mikhail Galkin, Christopher Morris, Ladislav Ramp\'a\v{s}ek(参考訳) 近年、グラフのトランスフォーマーアーキテクチャが、(メッセージパス)グラフニューラルネットワークのようなグラフを用いた機械学習の確立した技術に代わるものとして登場した。 これまでのところ、分子予測データセットのような有望な実証結果が示されており、しばしば、過剰なスムーシングや過剰な探索のようなグラフニューラルネットワークの欠点を回避する能力によって引き起こされている。 ここではグラフトランスフォーマーアーキテクチャの分類を導出し、この新興分野に秩序をもたらします。 それらの理論的性質を概説し、構造的および位置的エンコーディングを調査し、重要なグラフクラス(例えば3次元分子グラフ)の拡張について議論する。 経験的に、グラフトランスフォーマーが様々なグラフ特性を回復し、親和性グラフをどれだけうまく処理できるか、どの程度過剰な探索を防ぐかを調査した。 さらに,今後の課題と研究の方向性について概説する。 私たちのコードはhttps://github.com/luis-mueller/probing-graph-transformersで利用可能です。

Recently, transformer architectures for graphs emerged as an alternative to established techniques for machine learning with graphs, such as (message-passing) graph neural networks. So far, they have shown promising empirical results, e.g., on molecular prediction datasets, often attributed to their ability to circumvent graph neural networks' shortcomings, such as over-smoothing and over-squashing. Here, we derive a taxonomy of graph transformer architectures, bringing some order to this emerging field. We overview their theoretical properties, survey structural and positional encodings, and discuss extensions for important graph classes, e.g., 3D molecular graphs. Empirically, we probe how well graph transformers can recover various graph properties, how well they can deal with heterophilic graphs, and to what extent they prevent over-squashing. Further, we outline open challenges and research direction to stimulate future work. Our code is available at https://github.com/luis-mueller/probing-graph-transformers.
翻訳日:2023-11-23 05:39:21 公開日:2023-11-21
# TinyMLは持続可能か? マイクロコントローラにおける機械学習の環境影響評価

Is TinyML Sustainable? Assessing the Environmental Impacts of Machine Learning on Microcontrollers ( http://arxiv.org/abs/2301.11899v3 )

ライセンス: Link先を確認
Shvetank Prakash, Matthew Stewart, Colby Banbury, Mark Mazumder, Pete Warden, Brian Plancher, Vijay Janapa Reddi(参考訳) 炭素排出量とグローバル廃棄物の持続的成長は、環境の将来に重大な持続可能性の懸念をもたらす。 モノのインターネット(IoT)は、この問題を悪化させる可能性がある。 しかし、Tiny Machine Learning(TinyML)と呼ばれる新興分野は、持続可能なコンピューティングプラクティスを通じて、これらの環境課題に対処する機会を持っている。 低コストで低消費電力のマイクロコントローラシステムに機械学習(ML)アルゴリズムをデプロイするTinyMLは、デバイス上のセンサー分析を可能にし、多くの常時オンのMLアプリケーションをアンロックする。 この記事では、これらのTinyMLアプリケーションが重要な持続可能性課題に対処する可能性と、この新興技術の環境フットプリントについて論じる。 完全なライフサイクル分析(LCA)を通して、TinyMLシステムは、他のセクターの排出量を減らすアプリケーションを可能にすることによって、炭素排出量を相殺する機会を与える。 それにもかかわらず、グローバルにスケールすると、tinymlシステムのカーボンフットプリントは無視できない。 最後に、tinymlのさらなる持続可能な貢献を可能にするための研究の方向性について概説する。

The sustained growth of carbon emissions and global waste elicits significant sustainability concerns for our environment's future. The growing Internet of Things (IoT) has the potential to exacerbate this issue. However, an emerging area known as Tiny Machine Learning (TinyML) has the opportunity to help address these environmental challenges through sustainable computing practices. TinyML, the deployment of machine learning (ML) algorithms onto low-cost, low-power microcontroller systems, enables on-device sensor analytics that unlocks numerous always-on ML applications. This article discusses both the potential of these TinyML applications to address critical sustainability challenges, as well as the environmental footprint of this emerging technology. Through a complete life cycle analysis (LCA), we find that TinyML systems present opportunities to offset their carbon emissions by enabling applications that reduce the emissions of other sectors. Nevertheless, when globally scaled, the carbon footprint of TinyML systems is not negligible, necessitating that designers factor in environmental impact when formulating new devices. Finally, we outline research directions to enable further sustainable contributions of TinyML.
翻訳日:2023-11-23 05:38:45 公開日:2023-11-21
# 自動表面再構成を実現する機械学習加速シミュレーション

Machine-learning-accelerated simulations to enable automatic surface reconstruction ( http://arxiv.org/abs/2305.07251v2 )

ライセンス: Link先を確認
Xiaochen Du, James K. Damewood, Jaclyn R. Lunger, Reisel Millan, Bilge Yildiz, Lin Li and Rafael G\'omez-Bombarelli(参考訳) 材料表面と界面を理解することは、触媒や電子工学のような応用において不可欠である。 電子構造からのエネルギーと統計力学を組み合わせることで、ab initioシミュレーションは熱力学的変数の関数として物質表面の構造を予測することができる。 しかし、正確なエネルギーシミュレーションは、統計的にサンプリングしなければならない広大な位相空間と結合する場合は禁じられる。 本稿では,エネルギースコアリング法と統計的サンプリング法の両方を高速化する多成分材料の表面位相図を予測するための二面計算ループを提案する。 高速でスケーラブルでデータ効率のよい機械学習間ポテンシャルは、クローズドループアクティブラーニングによる高スループット密度関数型理論計算に基づいて訓練される。 半粒状正準アンサンブル中のマルコフ鎖モンテカルロサンプリングは仮想表面サイトを用いて可能となる。 GaN(0001), Si(111), SrTiO3(001) の予測曲面は過去の研究と一致しており, 提案手法は複雑な物質表面をモデル化し, 未報告の表面項を発見できることを示唆している。

Understanding material surfaces and interfaces is vital in applications like catalysis or electronics. By combining energies from electronic structure with statistical mechanics, ab initio simulations can in principle predict the structure of material surfaces as a function of thermodynamic variables. However, accurate energy simulations are prohibitive when coupled to the vast phase space that must be statistically sampled. Here, we present a bi-faceted computational loop to predict surface phase diagrams of multi-component materials that accelerates both the energy scoring and statistical sampling methods. Fast, scalable, and data-efficient machine learning interatomic potentials are trained on high-throughput density-functional theory calculations through closed-loop active learning. Markov-chain Monte Carlo sampling in the semi-grand canonical ensemble is enabled by using virtual surface sites. The predicted surfaces for GaN(0001), Si(111), and SrTiO3(001) are in agreement with past work and suggest that the proposed strategy can model complex material surfaces and discover previously unreported surface terminations.
翻訳日:2023-11-23 05:30:58 公開日:2023-11-21
# ColonMapper: 大腸内視鏡におけるトポロジカルマッピングと局在

ColonMapper: topological mapping and localization for colonoscopy ( http://arxiv.org/abs/2305.05546v2 )

ライセンス: Link先を確認
Javier Morlana, Juan D. Tard\'os and J.M.M. Montiel(参考訳) 形態や照明の変化に拘わらず,実際のヒト大腸で操作可能なトポロジカルマッピングとローカライズシステムを提案する。 マップは、各ノードが実際のイメージのセットでコロン位置をコードするグラフであり、エッジはノード間のトラバーサビリティを表す。 シーンの変更が小さいクローズインタイム画像の場合、最近のtransformersベースのローカル特徴マッチングアルゴリズムで場所認識をうまく管理することができる。 しかし、同じ患者の異なるコロノスコピエのような長期的な変更では、機能ベースのマッチングが失敗する。 これを解決するために,我々は,現場の大幅な変化を伴って高いリコールを達成し,より深いグローバルな記述子を実地で訓練する。 ベイズフィルタの追加により、長期位置認識の精度が向上し、以前構築されたマップで再ローカライズが可能になる。 以上より,コロンマッパーは,同一大腸内視鏡内または同一患者の異なる大腸腔内において,地図を自律的に構築し,それに対して局所化することができることを示した。 コードは受け入れ次第利用可能だ。

We propose a topological mapping and localization system able to operate on real human colonoscopies, despite significant shape and illumination changes. The map is a graph where each node codes a colon location by a set of real images, while edges represent traversability between nodes. For close-in-time images, where scene changes are minor, place recognition can be successfully managed with the recent transformers-based local feature matching algorithms. However, under long-term changes -- such as different colonoscopies of the same patient -- feature-based matching fails. To address this, we train on real colonoscopies a deep global descriptor achieving high recall with significant changes in the scene. The addition of a Bayesian filter boosts the accuracy of long-term place recognition, enabling relocalization in a previously built map. Our experiments show that ColonMapper is able to autonomously build a map and localize against it in two important use cases: localization within the same colonoscopy or within different colonoscopies of the same patient. Code will be available upon acceptance.
翻訳日:2023-11-23 05:30:41 公開日:2023-11-21
# 脳波発作予測のための教師付き・教師なしディープラーニングアプローチ

Supervised and Unsupervised Deep Learning Approaches for EEG Seizure Prediction ( http://arxiv.org/abs/2304.14922v2 )

ライセンス: Link先を確認
Zakary Georgis-Yap, Milos R. Popovic, Shehroz S. Khan(参考訳) てんかんは全世界で5000万人以上の人々に影響を与え、世界有数の神経疾患となっている。 てんかんの主な症状は発作であり、突然発生し、重傷や死を引き起こすことがある。 てんかん発作の発生を予測する能力は、多くのリスクを軽減し、てんかんの顔を持つ人々にストレスを与える。 入射前発作の前兆として, 正常脳波(preictal, pre-seizure)を検出する問題を定式化する。 そこで我々は,脳波から前頭前頭脳波を同定するための教師付き深層学習モデルを開発した。 さらに,通常の脳波のみを学習するための新しい教師なし深層学習手法を開発し,異常事象である前脳波を検出する。 これらの深層学習モデルは、個人固有の方法で2つの大きな脳波発作データセットで訓練され評価された。 我々は,教師付きアプローチと教師なしアプローチの両方が実現可能であることを見出したが,その性能は患者,アプローチ,アーキテクチャによって異なる。 この新たな研究は、治療介入を開発し、人間の命を救う可能性がある。

Epilepsy affects more than 50 million people worldwide, making it one of the world's most prevalent neurological diseases. The main symptom of epilepsy is seizures, which occur abruptly and can cause serious injury or death. The ability to predict the occurrence of an epileptic seizure could alleviate many risks and stresses people with epilepsy face. We formulate the problem of detecting preictal (or pre-seizure) with reference to normal EEG as a precursor to incoming seizure. To this end, we developed several supervised deep learning approaches model to identify preictal EEG from normal EEG. We further develop novel unsupervised deep learning approaches to train the models on only normal EEG, and detecting pre-seizure EEG as an anomalous event. These deep learning models were trained and evaluated on two large EEG seizure datasets in a person-specific manner. We found that both supervised and unsupervised approaches are feasible; however, their performance varies depending on the patient, approach and architecture. This new line of research has the potential to develop therapeutic interventions and save human lives.
翻訳日:2023-11-23 05:30:20 公開日:2023-11-21
# 高出力半導体キャラクタリゼーションのためのスケーラブルコンピュータビジョン

Using Scalable Computer Vision to Automate High-throughput Semiconductor Characterization ( http://arxiv.org/abs/2304.14408v3 )

ライセンス: Link先を確認
Alexander E. Siemenn, Eunice Aissi, Fang Sheng, Armi Tiihonen, Hamide Kavak, Basita Das, Tonio Buonassisi(参考訳) 溶液処理半導体などの新規機能性材料の設計と発見を加速する可能性から,高スループット材料合成法が注目されている。 合成後、重要な材料特性を測定し、発見を検証し、最適化サイクルへのフィードバックを提供するよう特徴付けなければならない。 しかし、フレキシブルなフォームファクターで1時間あたり10^4$のサンプルを生成する高スループット合成ツールの開発が盛んになり、ほとんどのサンプルキャラクタリゼーション手法は遅い(従来の10^1$のサンプルは1時間あたり約1000倍遅い)か硬い(例えば、標準サイズのマイクロプレート用に設計された)か、材料設計プロセスを妨げるボトルネックとなる。 この課題を克服するために,コンピュータビジョンの適応性,並列性,拡張性を活用して,非自動化ワークフローに比べて85倍のスループットを実現する,自動材料特性評価(自動評価)ツールのセットを提案する。 そこで本研究では,高スループット合成二成分系のための汎用合成マッピングツールと,2つのスケーラブルな自動評価アルゴリズムについて述べる。(1)200個の固有組成のバンドギャップを6分で自律的に計算し,(2)200個の固有組成の劣化度を20分で自律的に計算し,バンドギャップと安定性の超高組成分解能トレンドを生成する。 開発したバンドギャップおよび劣化検出オートキャラクタリゼーション法は,fa$_{1-x}$ma$_{x}$pbi$_3$,$0\leq x \leq 1$ perovskite半導体システムにおいてそれぞれ98.5%の精度と96.9%の精度を達成した。

High-throughput materials synthesis methods have risen in popularity due to their potential to accelerate the design and discovery of novel functional materials, such as solution-processed semiconductors. After synthesis, key material properties must be measured and characterized to validate discovery and provide feedback to optimization cycles. However, with the boom in development of high-throughput synthesis tools that champion production rates up to $10^4$ samples per hour with flexible form factors, most sample characterization methods are either slow (conventional rates of $10^1$ samples per hour, approximately 1000x slower) or rigid (e.g., designed for standard-size microplates), resulting in a bottleneck that impedes the materials-design process. To overcome this challenge, we propose a set of automated material property characterization (autocharacterization) tools that leverage the adaptive, parallelizable, and scalable nature of computer vision to accelerate the throughput of characterization by 85x compared to the non-automated workflow. We demonstrate a generalizable composition mapping tool for high-throughput synthesized binary material systems as well as two scalable autocharacterization algorithms that (1) autonomously compute the band gap of 200 unique compositions in 6 minutes and (2) autonomously compute the degree of degradation in 200 unique compositions in 20 minutes, generating ultra-high compositional resolution trends of band gap and stability. We demonstrate that the developed band gap and degradation detection autocharacterization methods achieve 98.5% accuracy and 96.9% accuracy, respectively, on the FA$_{1-x}$MA$_{x}$PbI$_3$, $0\leq x \leq 1$ perovskite semiconductor system.
翻訳日:2023-11-23 05:30:02 公開日:2023-11-21
# 空間選択的深部非線形フィルタを用いたマルチチャネル音声分離

Multi-channel Speech Separation Using Spatially Selective Deep Non-linear Filters ( http://arxiv.org/abs/2304.12023v2 )

ライセンス: Link先を確認
Kristina Tesch and Timo Gerkmann(参考訳) 複数話者による複数チャンネル分離タスクにおいて、混合音から各音声信号を復元することを目的とする。 音声信号の異なるスペクトル時間特性に依存する単一チャネルアプローチとは対照的に、特に音源数が増えると、複数のチャネルアプローチは音源の異なる空間的位置をより強力な分離のために利用すべきである。 マルチチャネルソース分離シナリオにおける空間処理を強化するため,本研究では,対象方向の繰り返しニューラルネットワーク層を初期化することにより,空間的にステアリングして興味のある話者を抽出できるディープニューラルネットワーク(DNN)に基づく空間選択的フィルタ(SSF)を提案する。 提案したSSFと、空間フィルタリングのみを暗黙的に学習する発話単位の置換不変トレーニング(PIT)を用いて訓練された共通エンドツーエンド直接分離(DS)アプローチを比較した。 SSF は,2人以上の話者が混在している場合,同じネットワークアーキテクチャを持つ DS アプローチに対して明らかな優位性を持つことを示す。 さらに, ssfは, 訓練中に見られなかった追加の雑音源や, 話者が同様の角度にある場合のシナリオに対して, はるかに汎用的であることがわかった。

In a multi-channel separation task with multiple speakers, we aim to recover all individual speech signals from the mixture. In contrast to single-channel approaches, which rely on the different spectro-temporal characteristics of the speech signals, multi-channel approaches should additionally utilize the different spatial locations of the sources for a more powerful separation especially when the number of sources increases. To enhance the spatial processing in a multi-channel source separation scenario, in this work, we propose a deep neural network (DNN) based spatially selective filter (SSF) that can be spatially steered to extract the speaker of interest by initializing a recurrent neural network layer with the target direction. We compare the proposed SSF with a common end-to-end direct separation (DS) approach trained using utterance-wise permutation invariant training (PIT), which only implicitly learns to perform spatial filtering. We show that the SSF has a clear advantage over a DS approach with the same underlying network architecture when there are more than two speakers in the mixture, which can be attributed to a better use of the spatial information. Furthermore, we find that the SSF generalizes much better to additional noise sources that were not seen during training and to scenarios with speakers positioned at a similar angle.
翻訳日:2023-11-23 05:29:25 公開日:2023-11-21
# 自己指導型学習と情報理論を圧縮するか否か : レビュー

To Compress or Not to Compress- Self-Supervised Learning and Information Theory: A Review ( http://arxiv.org/abs/2304.09355v5 )

ライセンス: Link先を確認
Ravid Shwartz-Ziv and Yann LeCun(参考訳) ディープニューラルネットワークは教師付き学習タスクに優れるが、広範なラベル付きデータの必要性によって制約される。 自己組織化学習は有望な代替手段として現れ、明確なラベルなしでモデルを学習できる。 情報理論、特に情報ボトルネックの原則は、ディープニューラルネットワークを形成する上で重要である。 この原則は、圧縮と関連する情報の保存の間のトレードオフの最適化に焦点を当て、監督されたコンテキストにおける効率的なネットワーク設計の基礎を提供する。 しかし、自己指導学習におけるその正確な役割と適応性は未だ不明である。 本研究では,情報理論の観点から様々な自己指導型学習手法を精査し,情報理論的学習問題をカプセル化する統一的な枠組みを導入する。 我々は,結束物語,現代自己管理方法論,スポットライト研究の道と固有の課題について,既存の研究をまとめる。 さらに,情報理論量の経験的評価とその推定方法について考察する。 全体としては,情報理論,自己教師付き学習,ディープニューラルネットワークの交点を徹底的に検討する。

Deep neural networks excel in supervised learning tasks but are constrained by the need for extensive labeled data. Self-supervised learning emerges as a promising alternative, allowing models to learn without explicit labels. Information theory, and notably the information bottleneck principle, has been pivotal in shaping deep neural networks. This principle focuses on optimizing the trade-off between compression and preserving relevant information, providing a foundation for efficient network design in supervised contexts. However, its precise role and adaptation in self-supervised learning remain unclear. In this work, we scrutinize various self-supervised learning approaches from an information-theoretic perspective, introducing a unified framework that encapsulates the \textit{self-supervised information-theoretic learning problem}. We weave together existing research into a cohesive narrative, delve into contemporary self-supervised methodologies, and spotlight potential research avenues and inherent challenges. Additionally, we discuss the empirical evaluation of information-theoretic quantities and their estimation methods. Overall, this paper furnishes an exhaustive review of the intersection of information theory, self-supervised learning, and deep neural networks.
翻訳日:2023-11-23 05:29:02 公開日:2023-11-21
# 正・無ラベルデータによる異種領域適応

Heterogeneous Domain Adaptation with Positive and Unlabeled Data ( http://arxiv.org/abs/2304.07955v2 )

ライセンス: Link先を確認
Junki Mori, Ryo Furukawa, Isamu Teranishi, Jun Sakuma(参考訳) 不均質な教師なしドメイン適応 (huda) は、ソースドメインとターゲットドメインの特徴空間が異種であり、対象ドメインがラベルなしデータしか持たない、最も難しいドメイン適応設定である。 既存のhudaメソッドは、ポジティブな例とネガティブな例の両方がソースドメインで利用可能であると仮定している。 本稿では、ソースドメインが正しか持たないhuda設定であるpu-huda(professional and unlabeled heterogeneous unsupervised domain adaptation)という新しい挑戦的な設定について述べる。 pu-hudaはまた、ポジティブな例とラベルなしの例が異なるドメインからサンプルされる、pu learningの拡張と見なすこともできる。 既存のHUDAとPU学習の単純な組み合わせは、ソースとターゲットドメイン間のラベル分布のギャップのため、PU-HUDAでは効果がない。 そこで本研究では,ラベルのない対象データから予測可能な正のサンプルを予測し,同時に特徴空間を調整し,ソースデータ全体と正のターゲットデータとの分布のばらつきを低減できる新しい予測逆領域適応法(pada)を提案する。 PADAは、正の例を予測する分類器と、対象の特徴空間をソースのそれに変換する特徴変換器を学習するための、統一された対角訓練フレームワークによってこれを達成している。 具体的には、両者とも、おそらく肯定的な例がターゲットドメインかソースドメインかを決定する一般的な判別器を騙すように訓練されている。 PADAは,HUDAとPU学習の単純な組み合わせなど,いくつかの基本的手法よりも優れていることを示す。

Heterogeneous unsupervised domain adaptation (HUDA) is the most challenging domain adaptation setting where the feature spaces of source and target domains are heterogeneous, and the target domain has only unlabeled data. Existing HUDA methods assume that both positive and negative examples are available in the source domain, which may not be satisfied in some real applications. This paper addresses a new challenging setting called positive and unlabeled heterogeneous unsupervised domain adaptation (PU-HUDA), a HUDA setting where the source domain only has positives. PU-HUDA can also be viewed as an extension of PU learning where the positive and unlabeled examples are sampled from different domains. A naive combination of existing HUDA and PU learning methods is ineffective in PU-HUDA due to the gap in label distribution between the source and target domains. To overcome this issue, we propose a novel method, predictive adversarial domain adaptation (PADA), which can predict likely positive examples from the unlabeled target data and simultaneously align the feature spaces to reduce the distribution divergence between the whole source data and the likely positive target data. PADA achieves this by a unified adversarial training framework for learning a classifier to predict positive examples and a feature transformer to transform the target feature space to that of the source. Specifically, they are both trained to fool a common discriminator that determines whether the likely positive examples are from the target or source domain. We experimentally show that PADA outperforms several baseline methods, such as the naive combination of HUDA and PU learning.
翻訳日:2023-11-23 05:28:20 公開日:2023-11-21
# 厳密なプライバシー会計に対するランダム化アプローチ

A Randomized Approach for Tight Privacy Accounting ( http://arxiv.org/abs/2304.07927v2 )

ライセンス: Link先を確認
Jiachen T. Wang, Saeed Mahloujifar, Tong Wu, Ruoxi Jia, Prateek Mittal(参考訳) コンポジション上のプライバシー漏洩、すなわちプライバシ会計の境界は、差分プライバシー(DP)の鍵となる課題である。 プライバシーパラメータ($\eps$または$\delta$)は簡単に見積もることができるが、バウンドするのは難しい。 本稿では,プライバシパラメータの推定値を形式的保証に変換することにより,dp構成におけるプライバシパラメータの厳格な上限を提供するという課題に対処する,新たな差分プライバシパラダイムとして,予測検証リリース(evr)を提案する。 EVRパラダイムは、まずメカニズムのプライバシパラメータを推定し、その保証を満たすかどうかを検証し、最終的に検証結果に基づいてクエリ出力を解放する。 EVRの中核となるコンポーネントは、プライバシー検証である。 モンテカルロ法(MC)を用いたランダムなプライバシー検証手法を開発した。 さらに,既存のDP会計手法を精度と効率で上回るMCベースのDP会計器を提案する。 我々は,新たに提案するevrパラダイムが,プライバシ保護機械学習のユーティリティプライバシートレードオフを改善することを示す。

Bounding privacy leakage over compositions, i.e., privacy accounting, is a key challenge in differential privacy (DP). The privacy parameter ($\eps$ or $\delta$) is often easy to estimate but hard to bound. In this paper, we propose a new differential privacy paradigm called estimate-verify-release (EVR), which addresses the challenges of providing a strict upper bound for privacy parameter in DP compositions by converting an estimate of privacy parameter into a formal guarantee. The EVR paradigm first estimates the privacy parameter of a mechanism, then verifies whether it meets this guarantee, and finally releases the query output based on the verification result. The core component of the EVR is privacy verification. We develop a randomized privacy verifier using Monte Carlo (MC) technique. Furthermore, we propose an MC-based DP accountant that outperforms existing DP accounting techniques in terms of accuracy and efficiency. Our empirical evaluation shows the newly proposed EVR paradigm improves the utility-privacy tradeoff for privacy-preserving machine learning.
翻訳日:2023-11-23 05:27:52 公開日:2023-11-21
# LASER:弱スーパービジョンを用いた時空間シーングラフ学習のためのニューロシンボリックフレームワーク

LASER: A Neuro-Symbolic Framework for Learning Spatial-Temporal Scene Graphs with Weak Supervision ( http://arxiv.org/abs/2304.07647v2 )

ライセンス: Link先を確認
Jiani Huang, Ziyang Li, Mayur Naik, Ser-Nam Lim(参考訳) 本研究では,高レベル論理仕様を活用し,映像データの空間的および時間的特性をとらえた意味的映像表現を学習するためのニューロシンボリック手法である laser を提案する。 特に,生映像と時空間論理仕様の整合の観点から問題を定式化する。 アライメントアルゴリズムは、微分可能な記号的推論と、コントラスト的、時間的、セマンティクス的損失の組み合わせを利用する。 低レベルの知覚モデルを効果的かつ効率的に訓練し、所望の高レベル仕様に準拠した時空間グラフの形で微細な映像表現を抽出する。 そこで本研究では,論理仕様による映像意味表現の学習を弱く監督する手法を提案する。 空間的および時間的仕様に富む2つのデータセットについて,本手法を評価した。 提案手法は,既存のベースラインよりもきめ細かなビデオセマンティクスを学習できることを実証する。

We propose LASER, a neuro-symbolic approach to learn semantic video representations that capture rich spatial and temporal properties in video data by leveraging high-level logic specifications. In particular, we formulate the problem in terms of alignment between raw videos and spatio-temporal logic specifications. The alignment algorithm leverages a differentiable symbolic reasoner and a combination of contrastive, temporal, and semantics losses. It effectively and efficiently trains low-level perception models to extract fine-grained video representation in the form of a spatio-temporal scene graph that conforms to the desired high-level specification. In doing so, we explore a novel methodology that weakly supervises the learning of video semantic representations through logic specifications. We evaluate our method on two datasets with rich spatial and temporal specifications: 20BN-Something-Something and MUGEN. We demonstrate that our method learns better fine-grained video semantics than existing baselines.
翻訳日:2023-11-23 05:27:35 公開日:2023-11-21
# DroidBot-GPT: GPTを利用したAndroid用UIオートメーション

DroidBot-GPT: GPT-powered UI Automation for Android ( http://arxiv.org/abs/2304.07061v2 )

ライセンス: Link先を確認
Hao Wen, Hongming Wang, Jiaxuan Liu, Yuanchun Li(参考訳) 本稿では,GPTライクな大規模言語モデル(LLM)を用いてAndroidモバイルアプリケーションとのインタラクションを自動化するツールであるDroidBot-GPTを紹介する。 必要なタスクの自然な言語記述が与えられると、droidbot-gptは、タスクを完了させるためにアプリをナビゲートするアクションを自動生成および実行することができる。 これは、スマートフォン画面のgui状態情報と利用可能なアクションを自然言語プロンプトに翻訳し、llmにアクションの選択を依頼することで機能する。 LLMは通常、多様なソフトウェアアプリケーションのハウツーマニュアルを含む大量のデータに基づいて訓練されているため、提供された情報に基づいて適切なアクションを選択することができる。 DroidBot-GPTは10のカテゴリにまたがる17のAndroidアプリケーションから収集した33のタスクを含む自己生成データセットで評価する。 39.39%のタスクを完了し、平均的な部分的な完了確率は約66.76%である。 当社の手法が完全に教師なしであるという事実(アプリとLLMの両方の修正は不要)を考えると、より良いアプリ開発パラダイムやカスタムモデルトレーニングで自動化性能を向上させる大きな可能性があると信じています。

This paper introduces DroidBot-GPT, a tool that utilizes GPT-like large language models (LLMs) to automate the interactions with Android mobile applications. Given a natural language description of a desired task, DroidBot-GPT can automatically generate and execute actions that navigate the app to complete the task. It works by translating the app GUI state information and the available actions on the smartphone screen to natural language prompts and asking the LLM to make a choice of actions. Since the LLM is typically trained on a large amount of data including the how-to manuals of diverse software applications, it has the ability to make reasonable choices of actions based on the provided information. We evaluate DroidBot-GPT with a self-created dataset that contains 33 tasks collected from 17 Android applications spanning 10 categories. It can successfully complete 39.39% of the tasks, and the average partial completion progress is about 66.76%. Given the fact that our method is fully unsupervised (no modification required from both the app and the LLM), we believe there is great potential to enhance automation performance with better app development paradigms and/or custom model training.
翻訳日:2023-11-23 05:27:23 公開日:2023-11-21
# 税制の協調的ソフトウェア工学

Taxing Collaborative Software Engineering ( http://arxiv.org/abs/2304.06539v3 )

ライセンス: Link先を確認
Michael Dorner, Maximilian Capraro, Oliver Treidler, Tom-Eric Kunz, Darja \v{S}mite, Ehsan Zabardast, Daniel Mendez, Krzysztof Wnuk(参考訳) 複雑なソフトウェアシステムのエンジニアリングは、しばしば非常に協力的な努力の結果である。 しかし、多国籍企業内のコラボレーションは、開発者が国境を越えて協力するときに見過ごされる法的意味がある:それは課税可能である。 本稿では、国境を越えて協調ソフトウェア工学を課税する未解決問題について議論する。 我々は,(1)国際課税の基本原則を読者に紹介し,(2)ソフトウェア工学問題として協調的ソフトウェア工学を課税するための3つの主な課題を特定し,(3)多国籍ソフトウェア企業におけるクロスボーダコードレビューの測定により,現代ソフトウェア工学におけるクロスボーダコラボレーションの産業的意義を推定する。

The engineering of complex software systems is often the result of a highly collaborative effort. However, collaboration within a multinational enterprise has an overlooked legal implication when developers collaborate across national borders: It is taxable. In this article, we discuss the unsolved problem of taxing collaborative software engineering across borders. We (1) introduce the reader to the basic principle of international taxation, (2) identify three main challenges for taxing collaborative software engineering making it a software engineering problem, and (3) estimate the industrial significance of cross-border collaboration in modern software engineering by measuring cross-border code reviews at a multinational software company.
翻訳日:2023-11-23 05:27:02 公開日:2023-11-21
# WEAR: ウェアラブルとエゴセントリックなアクティビティ認識のための屋外スポーツデータセット

WEAR: An Outdoor Sports Dataset for Wearable and Egocentric Activity Recognition ( http://arxiv.org/abs/2304.05088v3 )

ライセンス: Link先を確認
Marius Bock, Hilde Kuehne, Kristof Van Laerhoven, Michael Moeller(参考訳) カメラと慣性に基づくデータの相補性は研究されているが、エゴセントリックなビデオデータと慣性ベースのセンサーデータの両方を提供するデータセットは依然として少ない。 本稿では,視覚と慣性に基づく人間活動認識(HAR)のための屋外スポーツデータセットWEARを紹介する。 データセットは、外10箇所で記録された未トリミング慣性(加速度)とカメラ(エゴセントリックビデオ)データを用いて、合計18の異なるトレーニング活動を行う18人の参加者のデータを含む。 従来のエゴセントリックデータセットとは異なり、wearは、意図的に導入されたアクティビティのバリエーションと、全体的な小さな情報の重複によって特徴付けられる、困難な予測シナリオを提供する。 各モダリティを用いて得られたベンチマーク結果は、各モダリティが予測性能に相補的な強みと弱みを与えることを示す。 さらに,ActionFormerのアーキテクチャ設計による時間的行動ローカライゼーションモデルの成功を踏まえ,視覚,慣性,複合(ビジョン+慣性)機能を入力として,それらを平易な方法で適用することで,それらの汎用性を実証した。 その結果、慣性データに対する視覚に基づく時間的行動局所化モデルの適用性と、単純な結合による両モードの融合の両立が示され、組み合わせたアプローチ(ビジョン+慣性特徴)は最高平均精度と最近値F1スコアを生成できることを示した。 実験を再現するデータセットとコードは、https://mariusbock.github.io/wear/を通じて公開されている。

Though research has shown the complementarity of camera- and inertial-based data, datasets which offer both egocentric video and inertial-based sensor data remain scarce. In this paper, we introduce WEAR, an outdoor sports dataset for both vision- and inertial-based human activity recognition (HAR). The dataset comprises data from 18 participants performing a total of 18 different workout activities with untrimmed inertial (acceleration) and camera (egocentric video) data recorded at 10 different outside locations. Unlike previous egocentric datasets, WEAR provides a challenging prediction scenario marked by purposely introduced activity variations as well as an overall small information overlap across modalities. Benchmark results obtained using each modality separately show that each modality interestingly offers complementary strengths and weaknesses in their prediction performance. Further, in light of the recent success of temporal action localization models following the architecture design of the ActionFormer, we demonstrate their versatility by applying them in a plain fashion using vision, inertial and combined (vision + inertial) features as input. Results demonstrate both the applicability of vision-based temporal action localization models for inertial data and fusing both modalities by means of simple concatenation, with the combined approach (vision + inertial features) being able to produce the highest mean average precision and close-to-best F1-score. The dataset and code to reproduce experiments is publicly available via: https://mariusbock.github.io/wear/
翻訳日:2023-11-23 05:26:49 公開日:2023-11-21
# 非分離型大規模ブラックボックス最適化のための協調的共進化:収束解析と分散加速

Cooperative Coevolution for Non-Separable Large-Scale Black-Box Optimization: Convergence Analyses and Distributed Accelerations ( http://arxiv.org/abs/2304.05020v2 )

ライセンス: Link先を確認
Qiqi Duan and Chang Shao and Guochen Zhou and Haobin Yang and Qi Zhao, and Yuhui Shi(参考訳) 本稿では,実世界における非分離最適化問題の普遍性を考慮し,非分離関数の分割・分割ブラックボックス最適化フレームワークであるよく知られた協調共進化(cc)の大規模バージョンを解析・拡張する。 まず,多くのCC論文で指摘されていないような,非分離不能な大規模問題に対して,分解法が好まれるかどうかを実証的に明らかにする。 そして,CCを単純化して連続ゲームモデルにフォーマル化するが,その本質を損なうことはない。 ccの以前の進化ゲーム理論と異なり、新しいモデルは、純粋なナッシュ均衡の概念のみが必要であり、より一般的なフィットネスランドスケープを明示的に考慮できるので、その収束を分析するためのずっと単純だが有用な視点を提供する。 コンバージェンス解析に基づき,任意の分解に関して,準最適ナッシュ平衡に閉じ込められるリスクがあるため,より優れた一般化のための階層的分解戦略を提案する。 最後に,CMA-ESの分散特性と分解による微調整能力を組み合わせた,最近の多層学習フレームワークの下での分散コンピューティングの高速化について述べる。 一連の高次元テスト関数の実験は、400コアのクラスタリングコンピューティングプラットフォーム上での検索性能とスケーラビリティ(CPUコア)の両方を検証する。

Given the ubiquity of non-separable optimization problems in real worlds, in this paper we analyze and extend the large-scale version of the well-known cooperative coevolution (CC), a divide-and-conquer black-box optimization framework, on non-separable functions. First, we reveal empirical reasons of when decomposition-based methods are preferred or not in practice on some non-separable large-scale problems, which have not been clearly pointed out in many previous CC papers. Then, we formalize CC to a continuous-game model via simplification, but without losing its essential property. Different from previous evolutionary game theory for CC, our new model provides a much simpler but useful viewpoint to analyze its convergence, since only the pure Nash equilibrium concept is needed and more general fitness landscapes can be explicitly considered. Based on convergence analyses, we propose a hierarchical decomposition strategy for better generalization, as for any decomposition, there is a risk of getting trapped into a suboptimal Nash equilibrium. Finally, we use powerful distributed computing to accelerate it under the recent multi-level learning framework, which combines the fine-tuning ability from decomposition with the invariance property of CMA-ES. Experiments on a set of high-dimensional test functions validate both its search performance and scalability (w.r.t. CPU cores) on a clustering computing platform with 400 CPU cores.
翻訳日:2023-11-23 05:26:20 公開日:2023-11-21
# コントラスト学習による知識強化による短いテキストマッチングモデル

The Short Text Matching Model Enhanced with Knowledge via Contrastive Learning ( http://arxiv.org/abs/2304.03898v2 )

ライセンス: Link先を確認
Ruiqiang Liu, Mengmeng Cui, Hanjie Mai, Qiang Zhang, Shaohua Xu, Xiangzheng Liu, Yanlong Du(参考訳) 近年,検索と推薦を宣伝する分野において,短いテキストマッチングタスクが広く採用されている。 この難しさは、テキストの短い長さによって生じる意味情報や単語の曖昧さの欠如にある。 以前の作品では、追加の特徴情報を提供するために補文や知識ベースを導入している。 しかし、これらの手法は原文と補文の間に完全には相互作用せず、外部知識ベースの導入によるノイズの問題も考慮していない。 そこで本稿では,コントラスト学習と外部知識を組み合わせた短いテキストマッチングモデルを提案する。 モデルは生成モデルを用いて対応する補文を生成し、コントラスト学習法を用いてモデルを導出し、より意味的に意味のある原文の符号化を得る。 さらに,ノイズを避けるために,原文の主文としてキーワードを用いて,知識ベースで対応する知識語を検索し,知識グラフを構築する。 グラフ符号化モデルは、知識ベース情報をモデルに統合するために使用される。 設計モデルは,2つの公開可能な中国語テキストマッチングデータセットの最先端性能を実現し,本モデルの有効性を実証する。

In recent years, short Text Matching tasks have been widely applied in the fields ofadvertising search and recommendation. The difficulty lies in the lack of semantic information and word ambiguity caused by the short length of the text. Previous works have introduced complement sentences or knowledge bases to provide additional feature information. However, these methods have not fully interacted between the original sentence and the complement sentence, and have not considered the noise issue that may arise from the introduction of external knowledge bases. Therefore, this paper proposes a short Text Matching model that combines contrastive learning and external knowledge. The model uses a generative model to generate corresponding complement sentences and uses the contrastive learning method to guide the model to obtain more semantically meaningful encoding of the original sentence. In addition, to avoid noise, we use keywords as the main semantics of the original sentence to retrieve corresponding knowledge words in the knowledge base, and construct a knowledge graph. The graph encoding model is used to integrate the knowledge base information into the model. Our designed model achieves state-of-the-art performance on two publicly available Chinese Text Matching datasets, demonstrating the effectiveness of our model.
翻訳日:2023-11-23 05:25:55 公開日:2023-11-21
# マヨナおよびディラックフェルミオンのブラウンSYKモデルのフレームポテンシャル

Frame potential of Brownian SYK model of Majorana and Dirac fermions ( http://arxiv.org/abs/2306.11160v3 )

ライセンス: Link先を確認
Anastasiia Tiutiakina, Andrea De Luca, Jacopo De Nardis(参考訳) ブラウンSYK、すなわち、$N$Majorana (Dirac) フェルミオンの系は、ホワイトノイズ$q$ボディ相互作用項を持つと考える。 我々は、モデルの2つの独立した実現間の重なりのモーメントによって与えられる、スクランブルとカオスの尺度であるフレームポテンシャルのダイナミクスに焦点を当てる。 ケルディシュ経路積分形式(英語版)を用いて、その初期および後期値を計算する。 遅延時間経路積分サドル点が、$q>2$の場合、ハールフレームポテンシャルの値に飽和を正しく再現することを示す。 反対に、$q=2$ に対して、このモデルは二次的であり、一貫してガウス状態の制限空間(ガウスハール)におけるハール値の飽和を観測する。 後者は、ケルディシュ・サドル点のゴールドストーンモードをカウントすることで正確に捕捉するシステムサイズ補正によって特徴づけられる。 最後に、ディラックフェルミオンの場合、大域的な$U(1)$対称性の役割を強調し、解決する。

We consider the Brownian SYK, i.e. a system of $N$ Majorana (Dirac) fermions with a white-noise $q$-body interaction term. We focus on the dynamics of the Frame potentials, a measure of the scrambling and chaos, given by the moments of the overlap between two independent realisations of the model. By means of a Keldysh path-integral formalism, we compute its early and late-time value. We show that, for $q>2$, the late time path integral saddle point correctly reproduces the saturation to the value of the Haar frame potential. On the contrary, for $q=2$, the model is quadratic and consistently we observe saturation to the Haar value in the restricted space of Gaussian states (Gaussian Haar). The latter is characterised by larger system size corrections that we correctly capture by counting the Goldstone modes of the Keldysh saddle point. Finally, in the case of Dirac fermions, we highlight and resolve the role of the global $U(1)$ symmetry.
翻訳日:2023-11-23 05:19:12 公開日:2023-11-21
# クラウドと大陸をまたいだディープラーニングモデルをどうやってトレーニングできるのか? 実験的検討

How Can We Train Deep Learning Models Across Clouds and Continents? An Experimental Study ( http://arxiv.org/abs/2306.03163v2 )

ライセンス: Link先を確認
Alexander Isenko, Ruben Mayer, Hans-Arno Jacobsen(参考訳) クラウドや専用ハードウェア上でのディープラーニングモデルのトレーニングは費用がかかる。 よりコスト効率のよい選択肢は、オンデマンドリソースに代わる安価だが短命なスポットインスタンスを提供するハイパースケールクラウドである。 スポットインスタンスの可用性は、日時、大陸、クラウドプロバイダによって変化する可能性があるため、世界中にリソースを分散するコスト効率が向上する可能性がある。 それでも、地理的に分散したデータ並列スポットディープラーニングトレーニングが、集中型トレーニングよりもコスト効率の高い代替手段になるかどうかは、調査されていない。 ディープラーニングモデルは、さまざまなデータセンタやクラウドプロバイダにまたがるスポットVMのグローバル市場において、コスト効率のよいトレーニングが可能か? そこで本研究では,CV,NLP,ASRモデルに対して,異なるゾーン,大陸,雲におけるトレーニングのコストとスループットを広範囲に評価する。 現在のトレーニングオプションをさらに拡大するために、オンプレミスハードウェアにクラウドリソースを追加してトレーニングスループットを向上させることで、ハイブリッドクラウドシナリオのスケーラビリティ可能性を比較する。 最後に、スポットインスタンスの価格を活用することで、複数の安価なVMでモデルをトレーニングし、より中央集権的かつ強力なハードウェアと、競争力のある価格でオンデマンドのクラウド製品の両方を駆使する、新たなコスト効率の方法が実現できることを示します。

Training deep learning models in the cloud or on dedicated hardware is expensive. A more cost-efficient option are hyperscale clouds offering spot instances, a cheap but ephemeral alternative to on-demand resources. As spot instance availability can change depending on the time of day, continent, and cloud provider, it could be more cost-efficient to distribute resources over the world. Still, it has not been investigated whether geo-distributed, data-parallel spot deep learning training could be a more cost-efficient alternative to centralized training. This paper aims to answer the question: Can deep learning models be cost-efficiently trained on a global market of spot VMs spanning different data centers and cloud providers? To provide guidance, we extensively evaluate the cost and throughput implications of training in different zones, continents, and clouds for representative CV, NLP and ASR models. To expand the current training options further, we compare the scalability potential for hybrid-cloud scenarios by adding cloud resources to on-premise hardware to improve training throughput. Finally, we show how leveraging spot instance pricing enables a new cost-efficient way to train models with multiple cheap VMs, trumping both more centralized and powerful hardware and even on-demand cloud offerings at competitive prices.
翻訳日:2023-11-23 05:18:11 公開日:2023-11-21
# 語彙なし画像分類

Vocabulary-free Image Classification ( http://arxiv.org/abs/2306.00917v2 )

ライセンス: Link先を確認
Alessandro Conti, Enrico Fini, Massimiliano Mancini, Paolo Rota, Yiming Wang, Elisa Ricci(参考訳) 大規模視覚言語モデルの最近の進歩は、画像分類パラダイムに革命をもたらした。 印象的なゼロショット機能を示すにもかかわらず、テキストプロンプトを構成するテスト時に、事前に定義されたカテゴリ、つまり語彙が仮定される。 しかし、意味的文脈が未知で進化している場合、そのような仮定は現実的ではない。 そこで我々は,未制約言語による意味空間に存在するクラスを,既知の語彙の前提条件を伴わずに入力画像に割り当てることを目的として,語彙自由画像分類 (vic) と呼ばれる新しいタスクを定式化する。 VICは、意味空間が非常に大きく、数百万の概念が含まれており、分類が難しいため、難しい課題である。 本稿では,この意味空間を外部ビジョン言語データベースを用いて表現することが,画像の分類に意味的に関連のあるコンテンツを得る上で最も効果的な方法であることを実証的に検証する。 次に、事前学習された視覚言語モデルと外部視覚言語データベースを利用して、VICをトレーニング不要に対処する手法であるCaSED(Caegory Search from Foreign Databases)を提案する。 CaSEDはまず、画像と意味的類似性に基づいてデータベースから検索したキャプションから候補カテゴリの集合を抽出し、同じ視覚言語モデルに基づいて最適な候補カテゴリを画像に割り当てる。 ベンチマークデータセットの実験では、CaSEDは他の複雑なビジョン言語フレームワークよりも優れており、パラメータははるかに少なく、将来的な研究の道を開くことができる。

Recent advances in large vision-language models have revolutionized the image classification paradigm. Despite showing impressive zero-shot capabilities, a pre-defined set of categories, a.k.a. the vocabulary, is assumed at test time for composing the textual prompts. However, such assumption can be impractical when the semantic context is unknown and evolving. We thus formalize a novel task, termed as Vocabulary-free Image Classification (VIC), where we aim to assign to an input image a class that resides in an unconstrained language-induced semantic space, without the prerequisite of a known vocabulary. VIC is a challenging task as the semantic space is extremely large, containing millions of concepts, with hard-to-discriminate fine-grained categories. In this work, we first empirically verify that representing this semantic space by means of an external vision-language database is the most effective way to obtain semantically relevant content for classifying the image. We then propose Category Search from External Databases (CaSED), a method that exploits a pre-trained vision-language model and an external vision-language database to address VIC in a training-free manner. CaSED first extracts a set of candidate categories from captions retrieved from the database based on their semantic similarity to the image, and then assigns to the image the best matching candidate category according to the same vision-language model. Experiments on benchmark datasets validate that CaSED outperforms other complex vision-language frameworks, while being efficient with much fewer parameters, paving the way for future research in this direction.
翻訳日:2023-11-23 05:17:33 公開日:2023-11-21
# 非エルミート的自己イオン化の風景

The non-Hermitian landscape of autoionization ( http://arxiv.org/abs/2305.19615v2 )

ライセンス: Link先を確認
G. Mouloudakis, P. Lambropoulos(参考訳) 単共振自己イオン化における例外点(EP)の存在を報告し、ファノ非対称性パラメータの観点からパラメータ空間における位置の解析式を提供する。 また,システムパラメータの関数としてのイオン化確率に関する情報のみに基づいて,EPの実験的決定のための信頼性の高い手法を提案する。 epsと非対称プロファイルの最大値と基底状態の有効減衰率との関係を詳細に検討した。 ヘリウムの2倍励起2s2p({}^1P)$状態に関する定量的数値例は、我々の定式化と結果の有効性を確認した。 自己イオン化の隠れた側面を明らかにすることに加えて,我々はepsとその特性を様々なファノプロファイルを示す材料で探索するためのベンチマークを,応用可能性の広い視点で提供する。

We report on the existence of exceptional points (EPs) in single-resonance autoionization and provide analytical expressions for their positions in parameter space, in terms of the Fano asymmetry parameter. We additionally propose a reliable method for the experimental determination of EPs, based solely on information about their ionization probability as a function of the system parameters. The links between EPs, the maxima of the asymmetric profile and the effective decay rate of the ground state are investigated in detail. Quantitative numerical examples pertaining to the doubly excited $2s2p({}^1P)$ state of Helium confirm the validity of our formulation and results. In addition to unveiling hidden aspects of autoionization, our treatment and results provide a benchmark for the exploration of EPs and their properties in a variety of materials exhibiting Fano profiles with a broad perspective of possible applications.
翻訳日:2023-11-23 05:17:08 公開日:2023-11-21
# コンファウンディング下の反事実的データ拡張について

On Counterfactual Data Augmentation Under Confounding ( http://arxiv.org/abs/2305.18183v2 )

ライセンス: Link先を確認
Abbavaram Gowtham Reddy, Saketh Bachu, Saloni Dash, Charchit Sharma, Amit Sharma, Vineeth N Balasubramanian(参考訳) トレーニングデータの偏りを緩和する手段として,反事実データ拡張が最近登場している。 これらのバイアス、例えばスプリアス相関は、データ生成プロセスにおける様々な観測および観測されていない共起変数によって生じる。 本稿では,提案手法が下流分類器にどのように影響するかを正式に分析し,反実データ拡張に基づく解に対する因果的視点を示す。 共起バイアスの除去が不変な特徴を学習する手段としてどのように役立ち、最終的に観測されたデータ分布を超えた一般化を支援するかを検討する。 さらに, 逆ファクト画像を生成するアルゴリズムを提案することで, 下流分類器に対する共起効果の影響を効果的に軽減する。 mnist変種とcelebaデータセットの実験を通して、我々の単純な拡張手法が既存の最先端の手法が良い結果を得るのにどのように役立つかを実証する。

Counterfactual data augmentation has recently emerged as a method to mitigate confounding biases in the training data. These biases, such as spurious correlations, arise due to various observed and unobserved confounding variables in the data generation process. In this paper, we formally analyze how confounding biases impact downstream classifiers and present a causal viewpoint to the solutions based on counterfactual data augmentation. We explore how removing confounding biases serves as a means to learn invariant features, ultimately aiding in generalization beyond the observed data distribution. Additionally, we present a straightforward yet powerful algorithm for generating counterfactual images, which effectively mitigates the influence of confounding effects on downstream classifiers. Through experiments on MNIST variants and the CelebA datasets, we demonstrate how our simple augmentation method helps existing state-of-the-art methods achieve good results.
翻訳日:2023-11-23 05:16:56 公開日:2023-11-21
# BigTranslate: 100言語を超える多言語翻訳機能を備えた大規模言語モデルの拡張

BigTranslate: Augmenting Large Language Models with Multilingual Translation Capability over 100 Languages ( http://arxiv.org/abs/2305.18098v3 )

ライセンス: Link先を確認
Wen Yang, Chong Li, Jiajun Zhang, Chengqing Zong(参考訳) 大規模言語モデル(LLM)は、様々な自然言語間で有望な翻訳性能を示す。 しかし、BLOOM や LLaMA のようなオープンソース言語の多くは英語に支配的であり、数十の自然言語しかサポートしていないため、言語翻訳における LLM の可能性はあまり調査されていない。 本研究では,20言語のみをカバーするLLaMAに適応し,100言語以上で多言語翻訳機能を備えたBigTranslateを提案する。 BigTranslateはLLaMA-13B上に構築されており、3つのステップで最適化されている。 まず,中国一言語データを用いたLLaMAのトレーニングを継続する。 第2に,102の自然言語をカバーする大規模並列データセットによるモデルのトレーニングを継続する。 第3に、多言語翻訳命令で基礎モデルをチューニングし、BigTranslateモデルに導いた。 多言語翻訳の予備実験では、BigTranslateは多くの言語でChatGPTとGoogle Translateと互換性があり、8つの言語ペアでChatGPTを上回ります。 われわれはBigTranslateモデルをリリースし、研究の進展を期待している。

Large language models (LLMs) demonstrate promising translation performance among various natural languages. However, many LLMs especially the open-sourced ones, such as BLOOM and LLaMA, are English-dominant and support only dozens of natural languages, making the potential of LLMs on language translation less explored. In this work, we present BigTranslate which adapts LLaMA that covers only 20 languages and enhances it with multilingual translation capability on more than 100 languages. BigTranslate is built upon LLaMA-13B and it is optimized in three steps. First, we continue training LLaMA with massive Chinese monolingual data. Second, we continue training the model with a large-scale parallel dataset that covers 102 natural languages. Third, we instruct-tune the foundation model with multilingual translation instructions, leading to our BigTranslate model. The preliminary experiments on multilingual translation show that BigTranslate performs comparably with ChatGPT and Google Translate in many languages and even outperforms ChatGPT in 8 language pairs. We release the BigTranslate model and hope it can advance the research progress.
翻訳日:2023-11-23 05:16:43 公開日:2023-11-21
# タンジェント空間におけるタスク算術:事前学習モデルの編集の改善

Task Arithmetic in the Tangent Space: Improved Editing of Pre-Trained Models ( http://arxiv.org/abs/2305.12827v3 )

ライセンス: Link先を確認
Guillermo Ortiz-Jimenez, Alessandro Favero, Pascal Frossard(参考訳) 異なるタスクの微調整された重み付けを追加することで、これらのタスクでモデルのパフォーマンスが向上し、それらを否定することでタスクを忘れることになる。 しかし、タスク演算の有効性とその基本原理に対する我々の理解は、まだ限られている。 本稿では,視覚言語モデルにおけるタスク算術の包括的研究を行い,重みの絡み合いが有効であることを示す。 この性質は事前訓練中に発生し、重み空間内の異なる方向がタスクに関連する関数空間内の個別の局所化された領域を支配するときに現れる。 特に, 線形化による接空間の微調整モデルが, 重みの偏角を増幅することを示す。 これにより、複数のタスク演算ベンチマークと多様なモデルでパフォーマンスが大幅に向上する。 これらの結果に基づいて,これらのモデルのニューラルネットワークカーネル(NTK)の理論的および経験的解析を行い,タスク演算とNTK固有関数の空間的局在との関係を確立する。 本研究は,タスク算術の基本メカニズムに関する新たな知見を明らかにし,NTK線形化による事前学習モデルの編集に,より信頼性と効果的なアプローチを提供する。

Task arithmetic has recently emerged as a cost-effective and scalable approach to edit pre-trained models directly in weight space: By adding the fine-tuned weights of different tasks, the model's performance can be improved on these tasks, while negating them leads to task forgetting. Yet, our understanding of the effectiveness of task arithmetic and its underlying principles remains limited. We present a comprehensive study of task arithmetic in vision-language models and show that weight disentanglement is the crucial factor that makes it effective. This property arises during pre-training and manifests when distinct directions in weight space govern separate, localized regions in function space associated with the tasks. Notably, we show that fine-tuning models in their tangent space by linearizing them amplifies weight disentanglement. This leads to substantial performance improvements across multiple task arithmetic benchmarks and diverse models. Building on these findings, we provide theoretical and empirical analyses of the neural tangent kernel (NTK) of these models and establish a compelling link between task arithmetic and the spatial localization of the NTK eigenfunctions. Overall, our work uncovers novel insights into the fundamental mechanisms of task arithmetic and offers a more reliable and effective approach to edit pre-trained models through the NTK linearization.
翻訳日:2023-11-23 05:16:24 公開日:2023-11-21
# MaGIC:マルチモダリティガイド画像コンプリート

MaGIC: Multi-modality Guided Image Completion ( http://arxiv.org/abs/2305.11818v2 )

ライセンス: Link先を確認
Yongsheng Yu, Hao Wang, Tiejian Luo, Heng Fan, Libo Zhang(参考訳) バニラ画像補完アプローチは、可塑性生成のための参照情報の限られた可用性に起因する、大きな欠落した領域に対する感度を示す。 これを軽減するため、既存の手法では、追加のヒントを画像補完のガイダンスとして取り入れている。 改善されているにもかかわらず、これらのアプローチは単一のモダリティ(例えば、セグメンテーションやスケッチマップ)を使うことに制限されることが多い。 本稿では,マルチモーダル画像補完のための新しい,かつ効果的な手法であるmagicを提案する。この手法は,ガイドとして広い範囲の単一モダリティ(テキスト,キャニーエッジ,スケッチ,セグメンテーション,深さ,ポーズなど)をサポートするだけでなく,これらのモダリティ(任意のマルチモダリティ)を任意に組み合わせて画像補完に適応させる。 MaGICを構築するために、まず、単一のモーダル誘導画像補完のために単一モーダル信号をU-Netデノイザに注入するモーダル固有条件付きU-Net(MCU-Net)を導入する。 そこで我々は,複数の学習したMCU-Netに符号化されたモダリティ信号を活用するための一貫したモダリティブレンディング(CMB)法を提案する。 当社のcmbはトレーニングフリーであり,異なるモダリティの再トレーニングを煩雑に回避し,新たなモダリティを補完するための特別な柔軟性を実現する魔法の秘密である。 実験では、最先端手法よりもMaGICの方が優れており、様々な完了タスクへの一般化が示されている。 コードとモデルを使ったプロジェクトはyeates.github.io/MaGIC-Page/で利用可能です。

Vanilla image completion approaches exhibit sensitivity to large missing regions, attributed to the limited availability of reference information for plausible generation. To mitigate this, existing methods incorporate the extra cue as a guidance for image completion. Despite improvements, these approaches are often restricted to employing a single modality (e.g., segmentation or sketch maps), which lacks scalability in leveraging multi-modality for more plausible completion. In this paper, we propose a novel, simple yet effective method for Multi-modal Guided Image Completion, dubbed MaGIC, which not only supports a wide range of single modality as the guidance (e.g., text, canny edge, sketch, segmentation, depth, and pose), but also adapts to arbitrarily customized combination of these modalities (i.e., arbitrary multi-modality) for image completion. For building MaGIC, we first introduce a modality-specific conditional U-Net (MCU-Net) that injects single-modal signal into a U-Net denoiser for single-modal guided image completion. Then, we devise a consistent modality blending (CMB) method to leverage modality signals encoded in multiple learned MCU-Nets through gradient guidance in latent space. Our CMB is training-free, thereby avoids the cumbersome joint re-training of different modalities, which is the secret of MaGIC to achieve exceptional flexibility in accommodating new modalities for completion. Experiments show the superiority of MaGIC over state-of-the-art methods and its generalization to various completion tasks. Our project with code and models is available at yeates.github.io/MaGIC-Page/.
翻訳日:2023-11-23 05:15:34 公開日:2023-11-21
# R2ユーティリティを用いた多目的最適化

Multi-Objective Optimization Using the R2 Utility ( http://arxiv.org/abs/2305.11774v2 )

ライセンス: Link先を確認
Ben Tu, Nikolas Kantas, Robert M. Lee, Behrang Shafei(参考訳) 多目的最適化の目標は、複数の目的間の最善のトレードオフを記述する点の集合を特定することである。 このベクトル値最適化問題を解決するために、実践者は、多目的問題を単一目的問題の集合に変換するために、スカラー化関数の使用にしばしば目を向ける。 このスカラー化問題を従来の単目的最適化手法で解くことができる。 本研究では、この慣例を一般的な数学的枠組みに定式化する。 この戦略は,元となる多目的最適化問題を,集合上で定義された単目的最適化問題に効果的に再キャストすることを示す。 この新しい問題の目的関数の適切なクラスは、スカラー化最適化問題に対する重み付き積分として定義されるr2ユーティリティ関数である。 このユーティリティ関数は単調かつ部分モジュラー集合関数であり, グリーディ最適化アルゴリズムを用いて効果的に最適化できることを示す。 我々は,これらの欲望アルゴリズムの性能を理論的,実証的に分析する。 我々の分析は主にブラックボックス最適化の確率的フレームワークであるベイズ最適化に焦点を当てている。

The goal of multi-objective optimization is to identify a collection of points which describe the best possible trade-offs between the multiple objectives. In order to solve this vector-valued optimization problem, practitioners often appeal to the use of scalarization functions in order to transform the multi-objective problem into a collection of single-objective problems. This set of scalarized problems can then be solved using traditional single-objective optimization techniques. In this work, we formalise this convention into a general mathematical framework. We show how this strategy effectively recasts the original multi-objective optimization problem into a single-objective optimization problem defined over sets. An appropriate class of objective functions for this new problem is the R2 utility function, which is defined as a weighted integral over the scalarized optimization problems. We show that this utility function is a monotone and submodular set function, which can be optimised effectively using greedy optimization algorithms. We analyse the performance of these greedy algorithms both theoretically and empirically. Our analysis largely focusses on Bayesian optimization, which is a popular probabilistic framework for black-box optimization.
翻訳日:2023-11-23 05:14:42 公開日:2023-11-21
# DoReMi: データ混合の最適化が言語モデルの事前トレーニングを高速化

DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining ( http://arxiv.org/abs/2305.10429v4 )

ライセンス: Link先を確認
Sang Michael Xie, Hieu Pham, Xuanyi Dong, Nan Du, Hanxiao Liu, Yifeng Lu, Percy Liang, Quoc V. Le, Tengyu Ma, Adams Wei Yu(参考訳) 事前学習データドメイン(wikipedia、書籍、webテキストなど)の混合比率は、言語モデル(lm)の性能に大きく影響する。 本稿では,minimax optimization (doremi) によるドメインの重み付けを提案する。これはまず,グループ分散ロバスト最適化 (group distributionally robust optimization, group dro) を用いた小さなプロキシモデルを,ダウンストリームタスクを知らずにドメインの重み付け (mixture proportions) を生成する。 次に、これらのドメインウェイトでデータセットを再サンプリングし、より大きなフルサイズのモデルをトレーニングします。 実験では,DoReMiを280Mパラメータプロキシモデルに使用し,ドメイン重みを8Bパラメータモデル(30倍大きい)のトレーニングに利用した。 The Pileでは、DoReMiはドメインをダウンウェイトしても、すべてのドメインのパープレキシティを改善します。 DoReMiは、The Pileのデフォルトドメインウェイトを使用してトレーニングされたベースラインモデルに対して平均的な数ショットダウンストリーム精度を6.5%改善し、2.6倍のトレーニングステップでベースライン精度に達する。 GLaMデータセットでは、下流タスクの知識がないDoReMiが、下流タスクにチューニングされたドメインウェイトの使用パフォーマンスにマッチする。

The mixture proportions of pretraining data domains (e.g., Wikipedia, books, web text) greatly affect language model (LM) performance. In this paper, we propose Domain Reweighting with Minimax Optimization (DoReMi), which first trains a small proxy model using group distributionally robust optimization (Group DRO) over domains to produce domain weights (mixture proportions) without knowledge of downstream tasks. We then resample a dataset with these domain weights and train a larger, full-sized model. In our experiments, we use DoReMi on a 280M-parameter proxy model to set the domain weights for training an 8B-parameter model (30x larger) more efficiently. On The Pile, DoReMi improves perplexity across all domains, even when it downweights a domain. DoReMi improves average few-shot downstream accuracy by 6.5% points over a baseline model trained using The Pile's default domain weights and reaches the baseline accuracy with 2.6x fewer training steps. On the GLaM dataset, DoReMi, which has no knowledge of downstream tasks, even matches the performance of using domain weights tuned on downstream tasks.
翻訳日:2023-11-23 05:13:58 公開日:2023-11-21
# 予測・精細・合成:確率的時系列予測のための自己誘導拡散モデル

Predict, Refine, Synthesize: Self-Guiding Diffusion Models for Probabilistic Time Series Forecasting ( http://arxiv.org/abs/2307.11494v2 )

ライセンス: Link先を確認
Marcel Kollovieh, Abdul Fatir Ansari, Michael Bohlke-Schneider, Jasper Zschiegner, Hao Wang, Yuyang Wang(参考訳) 拡散モデルは、様々な領域にわたる生成モデリングタスクにおいて最先端のパフォーマンスを達成した。 時系列拡散モデルに関する先行研究は、主に特定の予測や計算タスクに適した条件付きモデルの開発に焦点を当てている。 本研究では,複数の時系列アプリケーションにおけるタスクに依存しない非条件拡散モデルの可能性について検討する。 時系列の非条件学習拡散モデルであるTSDiffを提案する。 提案する自己誘導機構は,補助ネットワークやトレーニング手順の変更を必要とせず,推論中の下流タスクの条件付きtsdiffを可能にする。 本手法は,予測,改良,合成データ生成という3つの異なる時系列タスクにおいて有効であることを示す。 まず,TSDiffは複数のタスク固有の条件予測手法(予測)と競合することを示す。 第二に、学習したTSDiffの確率密度を利用して、逆拡散(refine)による計算オーバーヘッドを低減したベース予測器の予測を反復的に洗練する。 tsdiffの合成サンプルでトレーニングされた下流の予測者は、他の最先端生成時系列モデルのサンプルでトレーニングされ、時には実データ(synthesize)でトレーニングされたモデルよりもパフォーマンスが良い場合もあります。

Diffusion models have achieved state-of-the-art performance in generative modeling tasks across various domains. Prior works on time series diffusion models have primarily focused on developing conditional models tailored to specific forecasting or imputation tasks. In this work, we explore the potential of task-agnostic, unconditional diffusion models for several time series applications. We propose TSDiff, an unconditionally-trained diffusion model for time series. Our proposed self-guidance mechanism enables conditioning TSDiff for downstream tasks during inference, without requiring auxiliary networks or altering the training procedure. We demonstrate the effectiveness of our method on three different time series tasks: forecasting, refinement, and synthetic data generation. First, we show that TSDiff is competitive with several task-specific conditional forecasting methods (predict). Second, we leverage the learned implicit probability density of TSDiff to iteratively refine the predictions of base forecasters with reduced computational overhead over reverse diffusion (refine). Notably, the generative performance of the model remains intact -- downstream forecasters trained on synthetic samples from TSDiff outperform forecasters that are trained on samples from other state-of-the-art generative time series models, occasionally even outperforming models trained on real data (synthesize).
翻訳日:2023-11-23 05:06:44 公開日:2023-11-21
# ペナルタライズド・しきい値推定におけるパターン回復のための統一フレームワークとその形状

A Unified Framework for Pattern Recovery in Penalized and Thresholded Estimation and its Geometry ( http://arxiv.org/abs/2307.10158v3 )

ライセンス: Link先を確認
Piotr Graczyk, Ulrike Schneider, Tomasz Skalski, Patrick Tardivel(参考訳) ペナルティ項が実数値多面体ゲージによって与えられるペナルティ化推定の枠組みについて考察し,lasso(および一般化lassoなどの多くの変種を含む),slide,osos,pacsなどの手法について考察する。 これらの推定子は、未知のパラメータベクトルの異なる構造や 'パターン' を明らかにすることができる。 パターンの一般概念をサブディファレンシャルに基づいて定義し,パターンの複雑性を測るアプローチを定式化する。 パターン回復のためには,正の確率で検出すべき特定のパターン,いわゆるアクセシビリティ条件を最小限に設定する。 また,本手法を用いて,より強いノイズレス回復条件を導入する。 LASSOの場合,1/2$以上の確率でパターン復元を行うためには非表現性条件が必要であることがよく知られており,ノイズのない回復が全く同じ役割を果たすことを示し,それによってLASSOの不表現性条件を広範囲のペナル化推定器に拡張・統一する。 また,閾値付ペナライズド推定器に切り替えると,ノイズのない回復条件が緩和され,閾値付ペナライズド推定器の考え方が拡張されることを示す: パターンの信号が十分である以上,しきい値付ペナライズド推定によるパターン回復を確実にするには,アクセシビリティ条件がすでに十分(かつ必要)であることを示す。 論文全体を通して、我々の発見が幾何学的レンズを通してどのように解釈できるかを実証する。

We consider the framework of penalized estimation where the penalty term is given by a real-valued polyhedral gauge, which encompasses methods such as LASSO (and many variants thereof such as the generalized LASSO), SLOPE, OSCAR, PACS and others. Each of these estimators can uncover a different structure or ``pattern'' of the unknown parameter vector. We define a general notion of patterns based on subdifferentials and formalize an approach to measure pattern complexity. For pattern recovery, we provide a minimal condition for a particular pattern to be detected by the procedure with positive probability, the so-called accessibility condition. Using our approach, we also introduce the stronger noiseless recovery condition. For the LASSO, it is well known that the irrepresentability condition is necessary for pattern recovery with probability larger than $1/2$ and we show that the noiseless recovery plays exactly the same role, thereby extending and unifying the irrepresentability condition of the LASSO to a broad class of penalized estimators. We also show that the noiseless recovery condition can be relaxed when turning to thresholded penalized estimators, extending the idea of the thresholded LASSO: we prove that the accessibility condition is already sufficient (and necessary) for sure pattern recovery by thresholded penalized estimation provided that the signal of the pattern is large enough. Throughout the article, we demonstrate how our findings can be interpreted through a geometrical lens.
翻訳日:2023-11-23 05:06:25 公開日:2023-11-21
# ldp: 言語駆動型デュアルピクセル画像デフォーカスデブラリングネットワーク

LDP: Language-driven Dual-Pixel Image Defocus Deblurring Network ( http://arxiv.org/abs/2307.09815v3 )

ライセンス: Link先を確認
Hao Yang, Liyuan Pan, Yan Yang, Richard Hartley, Miaomiao Liu(参考訳) 両画素(DP)ペアから鮮明な画像と不透明度に依存したぼやけを復元することは難しい課題である。 既存のぼやけた地図に基づくデブラリング手法は有望な結果を示している。 本稿では,我々の知る限り,コントラッシブ言語イメージ事前学習フレームワーク(CLIP)を導入し,DP対からぼやけた地図を教師なしで正確に推定する最初のフレームワークを提案する。 これを実現するために,まずテキストプロンプトを慎重に設計し,クリップがdpペアからぼやけに関連した幾何学的事前知識を理解できるようにする。 そこで我々は,CLIPが単眼画像上で事前学習されているにもかかわらず,微調整なしでCLIPにステレオDPペアを入力するためのフォーマットを提案する。 推定されたぼかしマップを考えると、ぼかし優先注意ブロック、ぼかし強調損失、ぼかし認識損失を導入し、全フォーカス画像の復元を行う。 本手法は広範な実験で最先端の性能を実現する(図参照)。 ~\ref{fig:teaser})。

Recovering sharp images from dual-pixel (DP) pairs with disparity-dependent blur is a challenging task.~Existing blur map-based deblurring methods have demonstrated promising results. In this paper, we propose, to the best of our knowledge, the first framework that introduces the contrastive language-image pre-training framework (CLIP) to accurately estimate the blur map from a DP pair unsupervisedly. To achieve this, we first carefully design text prompts to enable CLIP to understand blur-related geometric prior knowledge from the DP pair. Then, we propose a format to input a stereo DP pair to CLIP without any fine-tuning, despite the fact that CLIP is pre-trained on monocular images. Given the estimated blur map, we introduce a blur-prior attention block, a blur-weighting loss, and a blur-aware loss to recover the all-in-focus image. Our method achieves state-of-the-art performance in extensive experiments (see Fig.~\ref{fig:teaser}).
翻訳日:2023-11-23 05:05:57 公開日:2023-11-21
# NU-MCC:周辺デコーダと反発型UDFを用いたマルチビュー圧縮符号化

NU-MCC: Multiview Compressive Coding with Neighborhood Decoder and Repulsive UDF ( http://arxiv.org/abs/2307.09112v2 )

ライセンス: Link先を確認
Stefan Lionar, Xiangyu Xu, Min Lin, Gim Hee Lee(参考訳) シングルビューのRGB-D入力からの3D再構成で顕著な進歩が見られた。 MCCはこの分野で現在最先端の手法であり、視覚変換器と大規模訓練を組み合わせることで前例のない成功を収めている。 しかし、mccの2つの重要な制限を特定しました。 1) トランスフォーマーデコーダは,多数のクエリポイントを扱うのに非効率である。 2)3D表現は,高忠実度の詳細の回復に苦慮している。 本稿では,これらの制約に対処するNU-MCCという新しい手法を提案する。 NU-MCCには、近隣デコーダとRepulsive Unsigned Distance Function (Repulsive UDF)の2つの重要なイノベーションが含まれている。 まず,我々の近所デコーダは,入力視覚機能の効率的なプロキシとしてセンターポイントを導入し,各クエリポイントが小さな近傍にのみ出席できるようにした。 この設計は推論速度をはるかに速くするだけでなく、3次元テクスチャの回復を改善するため、より微細な視覚的特徴の活用を可能にする。 第2に,我々のRepulsive UDFはMCCの占有領域に代わる新しい代替品であり,3次元オブジェクト再構成の精度を著しく向上させる。 従来のUDFと比較すると,提案するUDFはより完全な表面再構成を実現することができる。 実験により, NU-MCCは強い3次元表現を学習でき, 単視点3次元再構成における技量を著しく向上できることが示された。 特に、CO3D-v2データセットのF1スコアでMCCを9.7%上回り、実行速度は5倍以上である。

Remarkable progress has been made in 3D reconstruction from single-view RGB-D inputs. MCC is the current state-of-the-art method in this field, which achieves unprecedented success by combining vision Transformers with large-scale training. However, we identified two key limitations of MCC: 1) The Transformer decoder is inefficient in handling large number of query points; 2) The 3D representation struggles to recover high-fidelity details. In this paper, we propose a new approach called NU-MCC that addresses these limitations. NU-MCC includes two key innovations: a Neighborhood decoder and a Repulsive Unsigned Distance Function (Repulsive UDF). First, our Neighborhood decoder introduces center points as an efficient proxy of input visual features, allowing each query point to only attend to a small neighborhood. This design not only results in much faster inference speed but also enables the exploitation of finer-scale visual features for improved recovery of 3D textures. Second, our Repulsive UDF is a novel alternative to the occupancy field used in MCC, significantly improving the quality of 3D object reconstruction. Compared to standard UDFs that suffer from holes in results, our proposed Repulsive UDF can achieve more complete surface reconstruction. Experimental results demonstrate that NU-MCC is able to learn a strong 3D representation, significantly advancing the state of the art in single-view 3D reconstruction. Particularly, it outperforms MCC by 9.7% in terms of the F1-score on the CO3D-v2 dataset with more than 5x faster running speed.
翻訳日:2023-11-23 05:05:39 公開日:2023-11-21
# 階層型模倣学習による多段ケーブルルーティング

Multi-Stage Cable Routing through Hierarchical Imitation Learning ( http://arxiv.org/abs/2307.08927v4 )

ライセンス: Link先を確認
Jianlan Luo, Charles Xu, Xinyang Geng, Gilbert Feng, Kuan Fang, Liam Tan, Stefan Schaal, Sergey Levine(参考訳) 本研究では,複数段階のロボット操作タスクを学習し,ケーブルルーティングに適用するために,ロボットが一連のクリップを通してケーブルをルーティングしなければならない問題について検討する。 この設定では、変形可能なオブジェクトの処理、視覚知覚のループのクローズ、タスク全体の完了に成功して実行しなければならない複数のステップからなる拡張動作の処理など、複雑な多段階ロボット操作シナリオを代表する課題が提示される。 このような状況下では、時間的に拡張されたタスクを実行するのに十分な割合で成功する各ステージの個々のプリミティブを学習することは、実用的ではない:もし各ステージが成功し、失敗の不可解な確率を持つなら、タスク全体の完了の可能性は無視できる。 したがって、このようなマルチステージタスクで成功したコントローラは、障害から回復し、低レベルのコントローラの欠陥を補うために、任意のタイミングでどのコントローラをトリガーするかをスマートに選択したり、リトライしたり、必要に応じて修正アクションを取るかを選択する必要がある。 そこで本研究では,下方(運動制御)と上方(シーケンス)の両方のレベルのデモンストレーションから訓練された視覚に基づくポリシーを用いた模倣学習システムについて述べるとともに,この手法をインスタンス化してケーブルルーティングタスクを学習するシステムを提案し,非常に困難なクリップ配置変動に一般化する上で,優れた性能を示す評価を行う。 補足ビデオ、データセット、コードはhttps://sites.google.com/view/cableroutingで見ることができる。

We study the problem of learning to perform multi-stage robotic manipulation tasks, with applications to cable routing, where the robot must route a cable through a series of clips. This setting presents challenges representative of complex multi-stage robotic manipulation scenarios: handling deformable objects, closing the loop on visual perception, and handling extended behaviors consisting of multiple steps that must be executed successfully to complete the entire task. In such settings, learning individual primitives for each stage that succeed with a high enough rate to perform a complete temporally extended task is impractical: if each stage must be completed successfully and has a non-negligible probability of failure, the likelihood of successful completion of the entire task becomes negligible. Therefore, successful controllers for such multi-stage tasks must be able to recover from failure and compensate for imperfections in low-level controllers by smartly choosing which controllers to trigger at any given time, retrying, or taking corrective action as needed. To this end, we describe an imitation learning system that uses vision-based policies trained from demonstrations at both the lower (motor control) and the upper (sequencing) level, present a system for instantiating this method to learn the cable routing task, and perform evaluations showing great performance in generalizing to very challenging clip placement variations. Supplementary videos, datasets, and code can be found at https://sites.google.com/view/cablerouting.
翻訳日:2023-11-23 05:05:16 公開日:2023-11-21
# 電磁遮蔽法による質量プロトコルの量子重力誘起絡み合い実験パラメータの緩和

Relaxation of experimental parameters in a Quantum-Gravity Induced Entanglement of Masses Protocol using electromagnetic screening ( http://arxiv.org/abs/2307.07536v2 )

ライセンス: Link先を確認
Martine Schut, Alexey Grinin, Andrew Dana, Sougato Bose, Andrew Geraci and Anupam Mazumdar(参考訳) 実験室で重力の量子的性質をテストするには、空間的重ね合わせにおいて距離に保持される重力相互作用のためだけに、2つの試験質量(ナノ結晶)の絡み合いを観察する必要がある。 このプロトコルは量子重力による質量の絡み合い(QGEM)として知られている。 QGEM実験の主な背景の1つは、電磁(EM)誘起の絡み合いとデコヒーレンスである。 EM相互作用は、カシミール・ポルダー相互作用のような双極子-双極子真空誘起相互作用によって、2つの中性質量を絡めることができる。 2つのナノ結晶間のEM誘起相互作用を緩和するため、2つの干渉計をファラデーケージに囲み、導電板で分離する。 しかし、永久双極子モーメントのようなナノ結晶の表面上の欠陥は、実験箱内の導電板と相互作用するEM背景を生成する。 これらの相互作用は、我々が緩和したいと願うEM誘起の脱落を引き起こす。 本稿では,QGEM実験の並列構成について考察し,EM誘起のデファス化率,デファス化を誘発する系統的エラーを推定し,空間的重畳を生成するモデルに依存しない方法で重ね合わせのサイズに制約を与える。

To test the quantum nature of gravity in a lab requires witnessing the entanglement between the two test masses (nano-crystals) solely due to the gravitational interaction kept at a distance in a spatial superposition. The protocol is known as the quantum gravity-induced entanglement of masses (QGEM). One of the main backgrounds in the QGEM experiment is electromagnetic (EM) induced entanglement and decoherence. The EM interactions can entangle the two neutral masses via dipole-dipole vacuum-induced interactions, such as the Casimir-Polder interaction. To mitigate the EM-induced interactions between the two nano-crystals, we enclose the two interferometers in a Faraday cage and separate them by a conducting plate. However, any imperfection on the surface of a nano-crystal, such as a permanent dipole moment will also create an EM background interacting with the conducting plate in the experimental box. These interactions will further generate EM-induced dephasing which we wish to mitigate. In this paper, we will consider a parallel configuration of the QGEM experiment, where we will estimate the EM-induced dephasing rate, run-by-run systematic errors which will induce dephasing, and also provide constraints on the size of the superposition in a model-independent way of creating the spatial superposition.
翻訳日:2023-11-23 05:04:51 公開日:2023-11-21
# 因果強化学習:調査

Causal Reinforcement Learning: A Survey ( http://arxiv.org/abs/2307.01452v2 )

ライセンス: Link先を確認
Zhihong Deng, Jing Jiang, Guodong Long, Chengqi Zhang(参考訳) 強化学習は不確実性下での逐次的決定問題を解決する上で不可欠なパラダイムである。 近年の多くの業績にもかかわらず、現実世界での強化学習手法の適用は依然として困難である。 主な障害の1つは、強化学習エージェントが世界に対する根本的な理解を欠いているため、多くの試行錯誤相互作用を通じてゼロから学ぶ必要があることである。 また、意思決定の説明を提供し、獲得した知識を一般化する上でも課題に直面している。 しかし因果性は、体系的な方法で知識を形式化し、効果的な知識伝達のために不変性を活用することができるため、顕著な利点を提供する。 これは、因果関係を学習プロセスに組み込むことで既存のアルゴリズムを強化することを目指す強化学習のサブフィールドである因果関係強化学習の出現につながった。 本稿では,因果強化学習に関する文献を総合的に検討する。 まず,因果関係と強化学習の基本概念を紹介し,因果関係が非因果関係強化学習の核となる課題にどのように対処できるかを説明する。 我々は,既存の因果強化学習アプローチを対象問題と方法論に基づいて分類し,体系的に検討する。 最後に,この新興分野におけるオープンイシューと今後の方向性について概説する。

Reinforcement learning is an essential paradigm for solving sequential decision problems under uncertainty. Despite many remarkable achievements in recent decades, applying reinforcement learning methods in the real world remains challenging. One of the main obstacles is that reinforcement learning agents lack a fundamental understanding of the world and must therefore learn from scratch through numerous trial-and-error interactions. They may also face challenges in providing explanations for their decisions and generalizing the acquired knowledge. Causality, however, offers a notable advantage as it can formalize knowledge in a systematic manner and leverage invariance for effective knowledge transfer. This has led to the emergence of causal reinforcement learning, a subfield of reinforcement learning that seeks to enhance existing algorithms by incorporating causal relationships into the learning process. In this survey, we comprehensively review the literature on causal reinforcement learning. We first introduce the basic concepts of causality and reinforcement learning, and then explain how causality can address core challenges in non-causal reinforcement learning. We categorize and systematically review existing causal reinforcement learning approaches based on their target problems and methodologies. Finally, we outline open issues and future directions in this emerging field.
翻訳日:2023-11-23 05:03:59 公開日:2023-11-21
# 流れ問題に対するハイブリッド量子アルゴリズム

Hybrid quantum algorithms for flow problems ( http://arxiv.org/abs/2307.00391v2 )

ライセンス: Link先を確認
Sachin S. Bharadwaj and Katepalli R. Sreenivasan(参考訳) 量子コンピューティング(qc)が事実上不可欠の計算ツールとして現れるためには、エンドツーエンドの実用的なアプリケーションを持つ量子プロトコルが必要である。 ここでは,qcを用いた流動シミュレーション用に設計されたqflows(量子フローシミュレータ)という,高性能な量子シミュレータを紹介。 QC による非線形フローの解法は一般に、線形埋め込みの結果、等価な無限次元線型系を解くことによって進行する。 そこで、まずQFlowSを用いて2つのよく知られた流れをシミュレートし、低レイノルズ数でそのような流れをシミュレートするためのハイブリッドかつ高精度な量子線形システムアルゴリズム(QLSA)の未確認かつ完全なゲートレベルの実装を示す。 このシミュレータの有用性は、シミュレーション行列の条件数$\kappa$と$t_{0}$(ハミルトンシミュレーションに不可欠なパラメータ)を関連付けた誤差推定とパワーロースケーリングを抽出し、正確な固有値推定に最適なスケーリングパラメータの予測を可能にすることで実証される。 さらに2つのスピードアップ保存アルゴリズムを含む。 a) 機能形態又はスパース量子状態の準備,及び (b)速度場の非線形関数を計算するための量子後処理ツール。 例として粘性散逸率を選択すると、端から端までの複雑性は$\mathcal{o}(\textrm{polylog} (n/\epsilon)\kappa/\epsilon_{qpp})$であり、ここで$n$は方程式の線形系の大きさ、$\epsilon$は解エラー、$\epsilon_{qpp}$は後処理のエラーである。 本研究は, 流動の量子シミュレーションへの道のりを示唆し, QC のゲートレベル実装に必要な特別な考察を強調した。

For quantum computing (QC) to emerge as a practically indispensable computational tool, there is a need for quantum protocols with an end-to-end practical applications -- in this instance, fluid dynamics. We debut here a high performance quantum simulator which we term QFlowS (Quantum Flow Simulator), designed for fluid flow simulations using QC. Solving nonlinear flows by QC generally proceeds by solving an equivalent infinite dimensional linear system as a result of linear embedding. Thus, we first choose to simulate two well known flows using QFlowS and demonstrate a previously unseen, full gate-level implementation of a hybrid and high precision Quantum Linear Systems Algorithms (QLSA) for simulating such flows at low Reynolds numbers. The utility of this simulator is demonstrated by extracting error estimates and power law scaling that relates $T_{0}$ (a parameter crucial to Hamiltonian simulations) to the condition number $\kappa$ of the simulation matrix, and allows the prediction of an optimal scaling parameter for accurate eigenvalue estimation. Further, we include two speedup preserving algorithms for (a) the functional form or sparse quantum state preparation, and (b) \textit{in-situ} quantum post-processing tool for computing nonlinear functions of the velocity field. We choose the viscous dissipation rate as an example, for which the end-to-end complexity is shown to be $\mathcal{O}(\textrm{polylog} (N/\epsilon)\kappa/\epsilon_{QPP})$, where $N$ is the size of the linear system of equations, $\epsilon$ is the the solution error and $\epsilon_{QPP}$ is the error in post processing. This work suggests a path towards quantum simulation of fluid flows, and highlights the special considerations needed at the gate level implementation of QC.
翻訳日:2023-11-23 05:03:41 公開日:2023-11-21
# 時計とピザ:ニューラルネットワークの機械的説明における2つの物語

The Clock and the Pizza: Two Stories in Mechanistic Explanation of Neural Networks ( http://arxiv.org/abs/2306.17844v2 )

ライセンス: Link先を確認
Ziqian Zhong, Ziming Liu, Max Tegmark, Jacob Andreas(参考訳) ニューラルネットワークは、よく理解されたアルゴリズムタスクに基づいて訓練され、これらのタスクを解決するための既知のアルゴリズムを確実に再発見するのか? 群算術から文脈内線形回帰までのタスクに関する最近のいくつかの研究は、答えはyesであることを示唆している。 モジュラー加算を原型問題として、ニューラルネットワークにおけるアルゴリズム発見が時として複雑であることを示す。 モデルハイパーパラメータと初期化の小さな変更は、固定されたトレーニングセットから定性的に異なるアルゴリズムの発見を誘導し、そのような複数のアルゴリズムの並列実装を誘導する。 モジュラー加算を行うために訓練されたいくつかのネットワークは、慣れ親しんだクロックアルゴリズムを実装している。 この結果から,単純な学習問題でも驚くほど多様な解が存在することが示され,ニューラルネットワークの動作をアルゴリズム的な位相空間にわたって特徴付ける新たなツールの開発が動機となった。

Do neural networks, trained on well-understood algorithmic tasks, reliably rediscover known algorithms for solving those tasks? Several recent studies, on tasks ranging from group arithmetic to in-context linear regression, have suggested that the answer is yes. Using modular addition as a prototypical problem, we show that algorithm discovery in neural networks is sometimes more complex. Small changes to model hyperparameters and initializations can induce the discovery of qualitatively different algorithms from a fixed training set, and even parallel implementations of multiple such algorithms. Some networks trained to perform modular addition implement a familiar Clock algorithm; others implement a previously undescribed, less intuitive, but comprehensible procedure which we term the Pizza algorithm, or a variety of even more complex procedures. Our results show that even simple learning problems can admit a surprising diversity of solutions, motivating the development of new tools for characterizing the behavior of neural networks across their algorithmic phase space.
翻訳日:2023-11-23 05:02:46 公開日:2023-11-21
# LyricWhiz: ChatGPTへのWhisperingによるロバストな多言語ゼロショット歌詞の転写

LyricWhiz: Robust Multilingual Zero-shot Lyrics Transcription by Whispering to ChatGPT ( http://arxiv.org/abs/2306.17103v3 )

ライセンス: Link先を確認
Le Zhuo, Ruibin Yuan, Jiahao Pan, Yinghao Ma, Yizhi LI, Ge Zhang, Si Liu, Roger Dannenberg, Jie Fu, Chenghua Lin, Emmanouil Benetos, Wenhu Chen, Wei Xue, Yike Guo(参考訳) LyricWhizは,岩や金属といった難易度の高いジャンルであっても,様々な歌詞の書き起こしデータセットに対して最先端のパフォーマンスを実現する,頑健で多言語的,ゼロショットの自動書き起こし方式である。 本稿では,弱教師付き頑健な音声認識モデルであるWhisperと,今日のチャットベース大規模言語モデルであるGPT-4を利用する。 提案手法では,音声の書き起こしによって「耳」として,gpt-4は「脳」として機能し,文脈的出力選択と修正のための強力な性能を持つ注釈器として機能する。 実験の結果,LyricWhizは英語の既存手法に比べて単語誤り率を大幅に低減し,複数の言語で効率的に歌詞を転写できることがわかった。 さらに,LyricWhiz を用いて,MTG-Jamendo に基づく CC-BY-NC-SA 著作権ライセンスによる,初めて公開された大規模多言語文字起こしデータセットを作成し,騒音レベルの推定と評価を行う。 提案手法とデータセットは,多言語による歌詞の書き起こし,難易度の高いタスクの開発を推し進めることが期待できる。

We introduce LyricWhiz, a robust, multilingual, and zero-shot automatic lyrics transcription method achieving state-of-the-art performance on various lyrics transcription datasets, even in challenging genres such as rock and metal. Our novel, training-free approach utilizes Whisper, a weakly supervised robust speech recognition model, and GPT-4, today's most performant chat-based large language model. In the proposed method, Whisper functions as the "ear" by transcribing the audio, while GPT-4 serves as the "brain," acting as an annotator with a strong performance for contextualized output selection and correction. Our experiments show that LyricWhiz significantly reduces Word Error Rate compared to existing methods in English and can effectively transcribe lyrics across multiple languages. Furthermore, we use LyricWhiz to create the first publicly available, large-scale, multilingual lyrics transcription dataset with a CC-BY-NC-SA copyright license, based on MTG-Jamendo, and offer a human-annotated subset for noise level estimation and evaluation. We anticipate that our proposed method and dataset will advance the development of multilingual lyrics transcription, a challenging and emerging task.
翻訳日:2023-11-23 05:02:27 公開日:2023-11-21
# わずかな例ですべてのものを検出する

Detect Every Thing with Few Examples ( http://arxiv.org/abs/2309.12969v2 )

ライセンス: Link先を確認
Xinyu Zhang, Yuting Wang, Abdeslam Boularias(参考訳) オープンセットオブジェクト検出は、トレーニング中に見られる以上の任意のカテゴリを検出することを目的としている。 最近の進歩はオープン語彙パラダイムを採用しており、視覚言語バックボーンを利用して言語によるカテゴリを表現している。 本稿では,視覚のみのDINOv2バックボーンを用いたオープンセットオブジェクト検出器であるDE-ViTを紹介し,言語の代わりにサンプル画像を用いて新しいカテゴリを学習する。 一般化検出能力を向上させるために,クラスごとの推論をバイパスしながら,複数分類タスクを二分分類タスクに変換する手法を提案する。 オープンボキャブラリ,少数ショット,ワンショットオブジェクト検出ベンチマークにおいて,COCO,LVISを用いてDe-ViTを評価する。 COCOでは、De-ViTはオープン語彙のSoTAを6.9 AP50で上回り、新しいクラスでは50 AP50を達成した。 DE-ViTは10ショットで15mAP、30ショットで7.2mAP、1ショットで2.8AP50のSoTAを上回る。 LVISでは、De-ViTは2.2マスクAPでオープン語彙SoTAより優れ、34.3マスクAPrに達する。 コードはhttps://github.com/mlzxy/devitで入手できる。

Open-set object detection aims at detecting arbitrary categories beyond those seen during training. Most recent advancements have adopted the open-vocabulary paradigm, utilizing vision-language backbones to represent categories with language. In this paper, we introduce DE-ViT, an open-set object detector that employs vision-only DINOv2 backbones and learns new categories through example images instead of language. To improve general detection ability, we transform multi-classification tasks into binary classification tasks while bypassing per-class inference, and propose a novel region propagation technique for localization. We evaluate DE-ViT on open-vocabulary, few-shot, and one-shot object detection benchmark with COCO and LVIS. For COCO, DE-ViT outperforms the open-vocabulary SoTA by 6.9 AP50 and achieves 50 AP50 in novel classes. DE-ViT surpasses the few-shot SoTA by 15 mAP on 10-shot and 7.2 mAP on 30-shot and one-shot SoTA by 2.8 AP50. For LVIS, DE-ViT outperforms the open-vocabulary SoTA by 2.2 mask AP and reaches 34.3 mask APr. Code is available at https://github.com/mlzxy/devit.
翻訳日:2023-11-23 04:54:37 公開日:2023-11-21
# セクションの絡み合い:絡み合いとパラメータ化量子情報の押し出し

Entanglement of Sections: The pushout of entangled and parameterized quantum information ( http://arxiv.org/abs/2309.07245v2 )

ライセンス: Link先を確認
Hisham Sati and Urs Schreiber(参考訳) 最近freedman & hastingsは、裸の量子(情報)理論に沿った結合(仮定的な押し出し)を通じて、パラメータ化/束構造で量子の絡み合い/テンソル構造を統一する数学的理論を求めた。 この問いに対する提案の答えとして、まずモノイド圏論における関連するプッシュアウト図の形式を正確に述べる。 すると、プッシュアウトはベクトルバンドル/K-クラス上で *external* tensor product と呼ばれるもの、あるいは平らなそのようなバンドル(平らなK-理論)、すなわちトポロジカルベリー位相を符号化するモノドロミーを持つものを生成する。 この結果の大部分は、外部テンソル積の「派生関手」を備えた平坦無限ベクトルバンドル(無限局所系)の「派生圏(infinity-category)」への状況のさらなるホモトピー的拡張である。 具体的には, 基本空間上のパラメータ化HK-加群スペクトルの無限大カテゴリを便利に提示し, ホモトピー的に良好な外部テンソル積構造を有する, 単純K-鎖錯体への単純関手積分モデルカテゴリーを提案する。 結論付けでは、このモデル圏が線型ホモトピー型理論(lhott)の線形乗法的断片に対する分類的意味論としてどのように役立つかを示し、これは普遍量子プログラミング言語として示される。 これは,LHoTTにおける位相異方性ブレイド量子ゲートがネイティブオブジェクトであることを最近示した文脈である。

Recently Freedman & Hastings asked for a mathematical theory that would unify quantum entanglement/tensor-structure with parameterized/bundle-structure via their amalgamation (a hypothetical pushout) along bare quantum (information) theory. As a proposed answer to this question, we first make precise a form of the relevant pushout diagram in monoidal category theory. Then we prove that the pushout produces what is known as the *external* tensor product on vector bundles/K-classes, or rather on flat such bundles (flat K-theory), i.e., those equipped with monodromy encoding topological Berry phases. The bulk of our result is a further homotopy-theoretic enhancement of the situation to the "derived category" (infinity-category) of flat infinity-vector bundles ("infinity-local systems") equipped with the "derived functor" of the external tensor product. Concretely, we present an integral model category of simplicial functors into simplicial K-chain complexes which conveniently presents the infinity-category of parameterized HK-module spectra over varying base spaces and is equipped with homotopically well-behaved external tensor product structure. In concluding we indicate how this model category serves as categorical semantics for the linear-multiplicative fragment of Linear Homotopy Type Theory (LHoTT), which is thus exhibited as a universal quantum programming language. This is the context in which we recently showed that topological anyonic braid quantum gates are native objects in LHoTT.
翻訳日:2023-11-23 04:54:15 公開日:2023-11-21
# 微細なモダリティ評価によるマルチモーダル協調の促進

Enhancing Multi-modal Cooperation via Fine-grained Modality Valuation ( http://arxiv.org/abs/2309.06255v2 )

ライセンス: Link先を確認
Yake Wei, Ruoxuan Feng, Zihe Wang, Di Hu(参考訳) マルチモーダル学習の1つの主要なトピックは、異なるモダリティからの異種情報を統合することである。 しかし、ほとんどのモデルは不満足なマルチモーダル協調に悩まされ、全てのモダリティをうまく活用できなかった。 悪質な学習モダリティを識別し、強化するためにいくつかの手法が提案されているが、理論的な支援によりサンプルレベルでのマルチモーダル協調の細かな観察を提供するのは難しい。 したがって,モダリティのばらつきが異なる現実的なシナリオに直面した場合には,モダリティ間の細かな協調を合理的に観察し,改善することが不可欠である。 そこで本研究では,各モードの寄与度を評価するための細粒度モーダリティ評価指標を提案する。 モダリティ評価(modality valuation)を通じて、マルチモダリティモデルは1つの特定のモダリティに依存する傾向にあり、他のモダリティが低分配であることは残念である。 この問題をさらに分析し,低分散モダリティの識別能力を目標にすることで,モダリティ間の協調性を向上させる。 全体として,本手法は試料レベルでの微細なユニモーダル寄与を合理的に観察し,異なるマルチモーダルモデルに対する大幅な改善を実現する。

One primary topic of multi-modal learning is to jointly incorporate heterogeneous information from different modalities. However, most models often suffer from unsatisfactory multi-modal cooperation, which could not jointly utilize all modalities well. Some methods are proposed to identify and enhance the worse learnt modality, but are often hard to provide the fine-grained observation of multi-modal cooperation at sample-level with theoretical support. Hence, it is essential to reasonably observe and improve the fine-grained cooperation between modalities, especially when facing realistic scenarios where the modality discrepancy could vary across different samples. To this end, we introduce a fine-grained modality valuation metric to evaluate the contribution of each modality at sample-level. Via modality valuation, we regretfully observe that the multi-modal model tends to rely on one specific modality, resulting in other modalities being low-contributing. We further analyze this issue and improve cooperation between modalities by enhancing the discriminative ability of low-contributing modalities in a targeted manner. Overall, our methods reasonably observe the fine-grained uni-modal contribution at sample-level and achieve considerable improvement on different multi-modal models.
翻訳日:2023-11-23 04:53:45 公開日:2023-11-21
# 共同視像設計における分離収差補正の優先性の検討

Revealing the preference for correcting separated aberrations in joint optic-image design ( http://arxiv.org/abs/2309.04342v3 )

ライセンス: Link先を確認
Jingwen Zhou, Shiqi Chen, Zheng Ren, Wenguan Zhang, Jiapu Yan, Huajun Feng, Qi Li, Yueting Chen(参考訳) 光システムと下流アルゴリズムの合同設計は、挑戦的で有望な課題である。 画像システムのグローバル最適化と物理シミュレーションの計算コストのバランスの要求のため、既存の手法ではスマートフォンやドローンのような複雑なシステムの効率的な共同設計は達成できない。 本研究では,光学設計の観点から,光の収差を分離した光学特性を特徴付ける。 さらに、グラデーションのないハードウェアとソフトウェアを橋渡しするために、レンズの真の撮像手順を大きな視野で再現する画像シミュレーションシステムを提案する。 収差補正については,空間的に変化する収差を知覚し,補正し,その優越性を検証するネットワークを提案する。 包括的実験により, 分割した収差の補正は, 縦色収差, 横色収差, 球状収差, フィールド曲率, コマの順で, アスティグマティズムが続くことが示唆された。 この嗜好から、消費者レベルの携帯電話レンズモジュールの総トラック長を10%削減する。 さらに、この手順は、製造のずれを緩和し、計算写真の極端に高品質な向上を実現する。 最適化パラダイムは、高度な光学系と後処理アルゴリズムの実用的な共同設計に関する革新的な洞察を提供する。

The joint design of the optical system and the downstream algorithm is a challenging and promising task. Due to the demand for balancing the global optimal of imaging systems and the computational cost of physical simulation, existing methods cannot achieve efficient joint design of complex systems such as smartphones and drones. In this work, starting from the perspective of the optical design, we characterize the optics with separated aberrations. Additionally, to bridge the hardware and software without gradients, an image simulation system is presented to reproduce the genuine imaging procedure of lenses with large field-of-views. As for aberration correction, we propose a network to perceive and correct the spatially varying aberrations and validate its superiority over state-of-the-art methods. Comprehensive experiments reveal that the preference for correcting separated aberrations in joint design is as follows: longitudinal chromatic aberration, lateral chromatic aberration, spherical aberration, field curvature, and coma, with astigmatism coming last. Drawing from the preference, a 10% reduction in the total track length of the consumer-level mobile phone lens module is accomplished. Moreover, this procedure spares more space for manufacturing deviations, realizing extreme-quality enhancement of computational photography. The optimization paradigm provides innovative insight into the practical joint design of sophisticated optical systems and post-processing algorithms.
翻訳日:2023-11-23 04:53:22 公開日:2023-11-21
# 部分スプーフ音声検出のための高効率一時的ディープフェイク位置推定手法に基づく埋め込み

An Efficient Temporary Deepfake Location Approach Based Embeddings for Partially Spoofed Audio Detection ( http://arxiv.org/abs/2309.03036v2 )

ライセンス: Link先を確認
Yuankun Xie, Haonan Cheng, Yutian Wang, Long Ye(参考訳) 部分的にスプーフされた音声検出は難しい作業であり、フレームレベルで音声の真正性を正確に見つける必要がある。 この問題に対処するため,我々は,特徴と位置の情報を効果的に捉えるための,部分的な音声検出手法であるtemporal deepfake location (tdl)を提案する。 具体的には,相似モジュールの埋め込みと時間畳み込み操作という2つの新しい部分を含む。 実際の特徴と偽の特徴の識別を強化するため、埋め込み類似モジュールは、偽のフレームから実際のフレームを分離できる埋め込みスペースを生成するように設計されている。 位置情報を効果的に集中するために、隣接フレーム間のフレーム固有の類似度を算出し、畳み込みを行うために、時間畳み込み操作を提案する。 ASVspoof2019Partial Spoofデータセットでは,提案手法がベースラインモデルより優れており,クロスデータセットシナリオにおいても優れた性能を示している。

Partially spoofed audio detection is a challenging task, lying in the need to accurately locate the authenticity of audio at the frame level. To address this issue, we propose a fine-grained partially spoofed audio detection method, namely Temporal Deepfake Location (TDL), which can effectively capture information of both features and locations. Specifically, our approach involves two novel parts: embedding similarity module and temporal convolution operation. To enhance the identification between the real and fake features, the embedding similarity module is designed to generate an embedding space that can separate the real frames from fake frames. To effectively concentrate on the position information, temporal convolution operation is proposed to calculate the frame-specific similarities among neighboring frames, and dynamically select informative neighbors to convolution. Extensive experiments show that our method outperform baseline models in ASVspoof2019 Partial Spoof dataset and demonstrate superior performance even in the crossdataset scenario.
翻訳日:2023-11-23 04:52:58 公開日:2023-11-21
# オープンセサミ! 大規模言語モデルのユニバーサルブラックボックスジェイルブレイク

Open Sesame! Universal Black Box Jailbreaking of Large Language Models ( http://arxiv.org/abs/2309.01446v3 )

ライセンス: Link先を確認
Raz Lapid, Ron Langberg, Moshe Sipper(参考訳) 有用で安全な応答を提供するように設計された大規模言語モデル(llm)は、しばしばユーザの意図や社会的ガイドラインに合致するアライメント技術に依存している。 残念ながら、このアライメントはLLMの出力を意図しない目的のために操作しようとする悪意のあるアクターによって悪用される。 本稿では,モデルアーキテクチャやパラメータがアクセスできない場合に,遺伝的アルゴリズム(GA)を用いてLLMを操作する手法を提案する。 GA攻撃は、(ユーザのクエリと組み合わせて)攻撃されたモデルのアライメントを妨害し、意図しない、潜在的に有害なアウトプットをもたらす、普遍的な敵のプロンプトを最適化することで機能する。 提案手法は,応答が期待された動作から逸脱するインスタンスを明らかにすることで,モデルの制約や脆弱性を体系的に明らかにする。 広範な実験を通じて,本手法の有効性を実証し,llmと人間の意図の一致度を評価する診断ツールを提供することにより,責任あるai開発に関する議論に寄与する。 我々の知る限り、これは最初の自動化されたユニバーサルブラックボックスジェイルブレイク攻撃である。

Large language models (LLMs), designed to provide helpful and safe responses, often rely on alignment techniques to align with user intent and social guidelines. Unfortunately, this alignment can be exploited by malicious actors seeking to manipulate an LLM's outputs for unintended purposes. In this paper we introduce a novel approach that employs a genetic algorithm (GA) to manipulate LLMs when model architecture and parameters are inaccessible. The GA attack works by optimizing a universal adversarial prompt that -- when combined with a user's query -- disrupts the attacked model's alignment, resulting in unintended and potentially harmful outputs. Our novel approach systematically reveals a model's limitations and vulnerabilities by uncovering instances where its responses deviate from expected behavior. Through extensive experiments we demonstrate the efficacy of our technique, thus contributing to the ongoing discussion on responsible AI development by providing a diagnostic tool for evaluating and enhancing alignment of LLMs with human intent. To our knowledge this is the first automated universal black box jailbreak attack.
翻訳日:2023-11-23 04:52:40 公開日:2023-11-21
# 解釈可能な視覚概念の教師なし発見

Unsupervised discovery of Interpretable Visual Concepts ( http://arxiv.org/abs/2309.00018v2 )

ライセンス: Link先を確認
Caroline Mazini Rodrigues (LIGM, LRDE), Nicolas Boutry (LRDE), Laurent Najman (LIGM)(参考訳) 深層学習モデルの非専門家への解釈可能性を提供することは、実世界の責任ある使用の基礎であるが、困難である。 統合グラディエント(Integrated Gradients)のようなxAI技術からの属性マップは、高いレベルの情報を含む可視化技術の典型的な例であるが、解釈が難しい。 本稿では,MAGE(Maximum Activation Groups extract)とMs-IV(Multiscale Interpretable Visualization)という2つの手法を提案する。 MAGEは、あるCNNに対して、私たちが概念と呼ぶ意味論的意味を形成する機能の組み合わせを見つけます。 同様の特徴パターンを ` `concepts'' でクラスタリングしてグループ化し、Ms-IV を通して視覚化します。 この最後の方法は、Occlusion and Sensitivity Analysis(因果性を含む)にインスパイアされ、モデルの決定空間に基づいて最も重要な画像領域をグローバルに評価するために、Class-Aware Order correlation (CaOC)と呼ばれる新しいメトリクスを使用する。 LIMEやIntegrated GradientsといったxAI手法との比較を行った。 実験結果はms-ivの高い局在性と忠実性を示す。 最後に、MAGEとMs-IVの組み合わせによる定性的な評価は、可視化に基づいて、クラスタの概念の決定と一致し、与えられたネットワークの集合の中でバイアスの存在を検出する能力を示す。

Providing interpretability of deep-learning models to non-experts, while fundamental for a responsible real-world usage, is challenging. Attribution maps from xAI techniques, such as Integrated Gradients, are a typical example of a visualization technique containing a high level of information, but with difficult interpretation. In this paper, we propose two methods, Maximum Activation Groups Extraction (MAGE) and Multiscale Interpretable Visualization (Ms-IV), to explain the model's decision, enhancing global interpretability. MAGE finds, for a given CNN, combinations of features which, globally, form a semantic meaning, that we call concepts. We group these similar feature patterns by clustering in ``concepts'', that we visualize through Ms-IV. This last method is inspired by Occlusion and Sensitivity analysis (incorporating causality), and uses a novel metric, called Class-aware Order Correlation (CaOC), to globally evaluate the most important image regions according to the model's decision space. We compare our approach to xAI methods such as LIME and Integrated Gradients. Experimental results evince the Ms-IV higher localization and faithfulness values. Finally, qualitative evaluation of combined MAGE and Ms-IV demonstrates humans' ability to agree, based on the visualization, with the decision of clusters' concepts; and, to detect, among a given set of networks, the existence of bias.
翻訳日:2023-11-23 04:52:21 公開日:2023-11-21
# survex: 機械学習サバイバルモデルを説明するためのRパッケージ

survex: an R package for explaining machine learning survival models ( http://arxiv.org/abs/2308.16113v2 )

ライセンス: Link先を確認
Miko{\l}aj Spytek and Mateusz Krzyzi\'nski and Sophie Hanna Langbein and Hubert Baniecki and Marvin N. Wright and Przemys{\l}aw Biecek(参考訳) 柔軟性と優れたパフォーマンスのため、機械学習モデルは従来の統計生存モデルを補完し、性能を向上することが多い。 しかし、その普及は、内部操作や予測の根拠を説明するユーザーフレンドリーなツールの欠如によって妨げられている。 この問題に取り組むため,我々はsurvex rパッケージを紹介する。このパッケージは,説明可能な人工知能技術を適用して生存モデルを説明するための凝集フレームワークを提供する。 提案するソフトウェアの能力は生存モデルの理解と診断を含んでおり、その改善につながる可能性がある。 可変効果や重要度といった意思決定プロセスに関する洞察を明らかにすることで、survexはモデルの信頼性の評価とバイアスの検出を可能にする。 したがって、透明性と責任は、バイオメディカル研究や医療応用のような繊細な分野で促進される。

Due to their flexibility and superior performance, machine learning models frequently complement and outperform traditional statistical survival models. However, their widespread adoption is hindered by a lack of user-friendly tools to explain their internal operations and prediction rationales. To tackle this issue, we introduce the survex R package, which provides a cohesive framework for explaining any survival model by applying explainable artificial intelligence techniques. The capabilities of the proposed software encompass understanding and diagnosing survival models, which can lead to their improvement. By revealing insights into the decision-making process, such as variable effects and importances, survex enables the assessment of model reliability and the detection of biases. Thus, transparency and responsibility may be promoted in sensitive areas, such as biomedical research and healthcare applications.
翻訳日:2023-11-23 04:51:12 公開日:2023-11-21
# サブグラフ補間を用いた量子ネットワークにおける多部絡み合い

Multipartite Entanglement in Quantum Networks using Subgraph Complementations ( http://arxiv.org/abs/2308.13700v3 )

ライセンス: Link先を確認
Aniruddha Sen, Kenneth Goodenough, Don Towsley(参考訳) 量子ネットワーク(quantum network)は、量子状態を用いて通信や計算を行う量子デバイスのネットワークである。 絡み合った状態は量子コンピューティングの構成要素であり、量子テレポーテーション、量子鍵分布、量子センシング、量子誤差補正など多くのタスクに必須である。 グラフ状態 (Graph state) は、グラフで表現できる多部交絡状態の特定のクラスである。 ノイズレス量子ネットワーク上でグラフ状態を分散する新しい手法を提案する。 グラフ状態の分布は、基礎となるグラフの最小ランクと量子状態のシュミットランクによって量子化された絡み合いの度合いにも関係している部分グラフ補間システムによって特徴づけられることを示す。 提案アルゴリズムの資源利用状況を分析し,従来の作業と比較して,量子ビット数,古典的通信用ビット数,EPRペアの利用量を改善することを示す。 我々のアプローチの局所的な操作数とリソース消費は頂点の数で線形にスケールする。 これにより、密度の高いグラフで表されるいくつかのグラフ状態の完了時間の二次的改善が得られ、ノイズの存在下で忠実性が向上する可能性が示唆される。 グラフ状態の共通クラスは、サブグラフ補完を用いた分布の最適時間とともに分類される。 また,任意のグラフ状態を分散するための部分グラフ補完演算の最適シーケンスを見つけ,分布時間上の上限を定め,近似的な欲望アルゴリズムを提供するためのフレームワークを提供する。

Quantum networks are networks of quantum devices that can communicate and perform computations using quantum states. Entangled states are the building blocks of quantum computing and are essential for many tasks such as quantum teleportation, quantum key distribution, quantum sensing and quantum error correction. Graph states are a specific class of multipartite entangled states that can be represented by graphs. We propose a novel approach for distributing graph states across a noiseless quantum network. We show that the distribution of graph states can be characterized by a system of subgraph complementations, which we also relate to the minimum rank of the underlying graph and the degree of entanglement quantified by the Schmidt-rank of the quantum state. We analyze resource usage for our algorithm and show that it improves on the number of qubits, bits for classical communication and EPR pairs utilized, as compared to prior work. The number of local operations and resource consumption for our approach scales linearly in the number of vertices. This produce a quadratic improvement in completion time for several classes of graph states represented by dense graphs, and suggests the potential for improved fidelity in the presence of noise. Common classes of graph states are classified along with the optimal time for their distribution using subgraph complementations. We also provide a framework to similarly find the optimal sequence of subgraph complementation operations to distribute an arbitrary graph state, and establish upper bounds on distribution time along with providing approximate greedy algorithms.
翻訳日:2023-11-23 04:50:57 公開日:2023-11-21
# 多部系における一般化GHZ状態の遺伝的非局所性

Genuine nonlocality of the generalized GHZ states in multi-partite systems ( http://arxiv.org/abs/2308.07171v2 )

ライセンス: Link先を確認
Zong-Xing Xiong, Yongli Zhang, Mao-Sheng Li, Lvzhou Li(参考訳) 本研究では、真に非局所である直交一般化ghz状態の小さな集合を構築する問題、すなわち、サブシステムのすべての二分法を通して局所的に区別できない問題について検討する。 まず、正準一般化GHZ基底の真の非局所性について議論する。 多ビットの場合、群論の言語を用いて、N-量子 GHZ 基底の {\theta}(2^(N/2)) 状態が真の非局所性を示すのに十分であることを示す。 このような結果は、いくつかの状況においてマルチキュートケースに一般化することもできる。 そして、正準形式に制限されない一般化されたGHZ状態を考える。 任意のパーティー数 N に対して、(C^d)^(\otimes N) における d + 1 が真の非局所一般化 GHZ 状態であることは、局所次元 d が十分大きいときに明らかである。

In this work, we study the problem of constructing small sets of orthogonal generalized GHZ states that are genuinely nonlocal -- namely, locally indistinguishable through all bipartitions of the subsystems. We first discuss genuine nonlocality of the canonical generalized GHZ basis. In the multi-qubit case, using the language of group theory, we show that {\Theta}(2^(N/2)) states among the N-qubit GHZ basis suffice to exhibit genuine nonlocality. Such result can also be generalized to multi-qudit cases in some situations. Then we consider generalized GHZ states which are not confined to the canonical form. For any given number of parties N, it is shown that d + 1 genuinely nonlocal generalized GHZ states in (C^d)^(\otimes N) exist, whenever the local dimension d is large enough.
翻訳日:2023-11-23 04:50:02 公開日:2023-11-21
# active bird2vec:トランスフォーマーを用いたエンドツーエンドのバードサウンドモニタリング

Active Bird2Vec: Towards End-to-End Bird Sound Monitoring with Transformers ( http://arxiv.org/abs/2308.07121v2 )

ライセンス: Link先を確認
Lukas Rauch, Raphael Schwinger, Moritz Wirth, Bernhard Sick, Sven Tomforde, Christoph Scholz(参考訳) 本稿では,自己教師付き(SSL)と深層能動学習(DAL)を組み合わせることで,鳥音モニタリングにおけるエンドツーエンド学習へのシフトを提案する。 トランスモデルの活用により,従来のスペクトル変換を回避し,直接生音声処理を実現する。 ActiveBird2Vecは、SSLを通じて高品質な鳥の音像を発生させ、風力発電における環境変化と意思決定プロセスの評価を加速させる可能性がある。 さらに,DALによる多様な鳥の鳴き声の活用を試み,人間の専門家による広範囲にラベル付けされたデータセットへの依存を減らす。 我々はHugingface Datasetsを通じて包括的なタスクセットをキュレートし、バイオ音響研究の将来的な可視性と再現性を向上する計画である。 鳥の音声認識における習熟度を評価するために,様々なトランスフォーマモデルの比較分析を行う。 我々は,鳥類の生物音響研究の進展を加速し,より効果的な保全戦略への貢献を目指す。

We propose a shift towards end-to-end learning in bird sound monitoring by combining self-supervised (SSL) and deep active learning (DAL). Leveraging transformer models, we aim to bypass traditional spectrogram conversions, enabling direct raw audio processing. ActiveBird2Vec is set to generate high-quality bird sound representations through SSL, potentially accelerating the assessment of environmental changes and decision-making processes for wind farms. Additionally, we seek to utilize the wide variety of bird vocalizations through DAL, reducing the reliance on extensively labeled datasets by human experts. We plan to curate a comprehensive set of tasks through Huggingface Datasets, enhancing future comparability and reproducibility of bioacoustic research. A comparative analysis between various transformer models will be conducted to evaluate their proficiency in bird sound recognition tasks. We aim to accelerate the progression of avian bioacoustic research and contribute to more effective conservation strategies.
翻訳日:2023-11-23 04:49:43 公開日:2023-11-21
# 16ビットニューラルネットワークトレーニングのための安定adam最適化

Stable Adam Optimization for 16-bit Neural Networks Training ( http://arxiv.org/abs/2307.16189v6 )

ライセンス: Link先を確認
Juyoung Yun(参考訳) 本研究では,機械学習モデルの16ビット計算で観測される数値不安定性に関する重要な問題に対処する。 このような不安定性、特にAdamのような一般的な最適化アルゴリズムを採用する場合、しばしばディープニューラルネットワークの不安定なトレーニングにつながる。 これは学習プロセスを損なうだけでなく、現実のアプリケーションに信頼性のあるモデルをデプロイする上でも大きな課題となる。 本研究は, この不安定性の原因として, エプシロンハイパーパラメーターを同定した。 16ビットの計算でエプシロンに微調整を加えることでアダムの数値安定性が向上し、16ビットのニューラルネットワークのより安定したトレーニングが可能になる。 本稿では,Adamオプティマイザからの更新を利用して学習プロセスの安定性を高める,新しい信頼性の高いアプローチを提案する。 当社のコントリビューションは、低精度計算における最適化の課題に対する深い洞察を提供し、ディープニューラルネットワークトレーニングの安定性を確保するためのソリューションを提供し、さまざまなアプリケーションで使用するための方法を提供します。

In this research, we address critical concerns related to the numerical instability observed in 16-bit computations of machine learning models. Such instability, particularly when employing popular optimization algorithms like Adam, often leads to unstable training of deep neural networks. This not only disrupts the learning process but also poses significant challenges in deploying dependable models in real-world applications. Our investigation identifies the epsilon hyperparameter as the primary source of this instability. A nuanced exploration reveals that subtle adjustments to epsilon within 16-bit computations can enhance the numerical stability of Adam, enabling more stable training of 16-bit neural networks. We propose a novel, dependable approach that leverages updates from the Adam optimizer to bolster the stability of the learning process. Our contributions provide deeper insights into optimization challenges in low-precision computations and offer solutions to ensure the stability of deep neural network training, paving the way for their dependable use in various applications.
翻訳日:2023-11-23 04:49:01 公開日:2023-11-21
# 動的量子回路のコンパイル

Dynamic quantum circuit compilation ( http://arxiv.org/abs/2310.11021v2 )

ライセンス: Link先を確認
Kun Fang, Munan Zhang, Ruqi Shi, and Yinan Li(参考訳) 量子コンピューティングは複雑な計算問題に対処する上で非常に有望であるが、実際の実現は量子ビットの計算能力の限界によって妨げられている。 量子ハードウェアの最近の進歩は、中回路計測とリセットを導入し、測定された量子ビットの再利用を可能にし、量子アルゴリズムの実行に必要な量子ビットを著しく削減した。 本研究では,静的量子回路を量子ビット再使用により量子ビット数を削減した動的等価回路に変換するプロセスである動的量子回路コンパイルの体系的研究を行う。 グラフ操作による動的回路コンパイルを最適化する最初の汎用フレームワークを構築した。 特に,バイナリ整数計画を用いた最適量子回路コンパイルを完全に特徴付けし,与えられた量子回路をより小さな回路に還元できるかどうかを判断するための効率的なアルゴリズムを提供し,動的コンパイルスキームを一般に考案するためのヒューリスティックアルゴリズムを提案する。 さらに,量子計算においてよく知られた量子アルゴリズムの最適コンパイル,量子機械学習で使用されるアンサッツ回路,量子ネットワークに不可欠な測定に基づく量子計算を提供する,実用的な量子回路の徹底的な解析を行う。 また、構造化量子回路とランダム量子回路の両方における手法の優れた性能を実証し、最先端手法との比較分析を行った。 我々のフレームワークは、量子ビット再利用による動的量子回路のコンパイルの厳密な基礎を築き、理論量子アルゴリズムと限られたリソースを持つ量子コンピュータへの物理実装のギャップを埋める。

Quantum computing has shown tremendous promise in addressing complex computational problems, yet its practical realization is hindered by the limited availability of qubits for computation. Recent advancements in quantum hardware have introduced mid-circuit measurements and resets, enabling the reuse of measured qubits and significantly reducing the qubit requirements for executing quantum algorithms. In this work, we present a systematic study of dynamic quantum circuit compilation, a process that transforms static quantum circuits into their dynamic equivalents with a reduced qubit count through qubit-reuse. We establish the first general framework for optimizing the dynamic circuit compilation via graph manipulation. In particular, we completely characterize the optimal quantum circuit compilation using binary integer programming, provide efficient algorithms for determining whether a given quantum circuit can be reduced to a smaller circuit and present heuristic algorithms for devising dynamic compilation schemes in general. Furthermore, we conduct a thorough analysis of quantum circuits with practical relevance, offering optimal compilations for well-known quantum algorithms in quantum computation, ansatz circuits utilized in quantum machine learning, and measurement-based quantum computation crucial for quantum networking. We also perform a comparative analysis against state-of-the-art approaches, demonstrating the superior performance of our methods in both structured and random quantum circuits. Our framework lays a rigorous foundation for comprehending dynamic quantum circuit compilation via qubit-reuse, bridging the gap between theoretical quantum algorithms and their physical implementation on quantum computers with limited resources.
翻訳日:2023-11-23 04:41:45 公開日:2023-11-21
# 最適化された非線形ホロノミック量子計算を実現するための一般手法

General approach to realize optimized nonadiabatic holonomic quantum computation ( http://arxiv.org/abs/2310.10933v2 )

ライセンス: Link先を確認
Yue Heng Liu and Xin-Ding Zhang(参考訳) 非線形ホロノミック量子計算は、量子計算領域において多くの注目を集めているが、循環的進化と並列輸送条件を厳密に満たす必要がある。 並列条件を緩和するため,最適化された非断熱ホロノミック量子計算法が提案され,多くの最適化スキームと組み合わせることが可能となった。 本稿では,最適化された非断熱ホロノミック計算ゲートを実現するために,逆ハミルトニアンの一般形式を提唱する。 ハミルトニアンは射影ヒルベルト空間における経路パラメータの関数のみであるため、任意の望ましい進化経路を持つ任意のホロノミックゲートを実現できる。 他の逆アプローチと同様に、逆ハミルトニアンを用いることで、経路の長さとパルス領域を減少させる特別な進化経路を選択して、進化時間を短縮することができる。 したがって、このアプローチは高忠実性量子ゲートを実現するための新たな地平線を与えるかもしれない。

The nonadiabatic holonomic quantum computation has attracted much attention in the quantum computation realm, however it is required to satisfy the cyclic evolution and parallel transport conditions strictly. In order to relax the parallel condition, the optimized nonadiabatic holonomic quantum computation was proposed which can be more possible to combine with most of the optimization schemes. In this paper, we put forward the general form of reverse Hamiltonian to realize the optimized nonadiabatic holonomic computation gate. The Hamiltonian is only the function of path parameters in projective Hilbert space, hence, we can realize arbitrary holonomic gates with any desired evolution path. As same as other reverse approach, by using our reverse Hamiltonian, we also can select some special evolution path to decrease the path length and the pulse area to decrease the evolution time. Therefore our approach might give a new horizon to realize high-fidelity quantum gate.
翻訳日:2023-11-23 04:41:21 公開日:2023-11-21
# 効率的な変圧器用2層フィードフォワードネットワークの近似

Approximating Two-Layer Feedforward Networks for Efficient Transformers ( http://arxiv.org/abs/2310.10837v3 )

ライセンス: Link先を確認
R\'obert Csord\'as, Kazuki Irie, J\"urgen Schmidhuber(参考訳) パフォーマンスを犠牲にすることなく、ニューラルネットワーク(NN)の計算とメモリ要件をいかに削減するか? 最近の多くの作品では、リソース効率の高い大言語モデル(lms)を構築するために、専門家のスパース混合物(moes)を使用している。 ここでは,2層NN(例えば,トランスフォーマーのフィードフォワードブロック)を近似する様々な手法を統一する汎用フレームワークとして,製品キーメモリ(PKM)など,MoEに関するいくつかの新しい視点を紹介する。 このフレームワークからの洞察を生かして,moesとpkmsの両方を改善する手法を提案する。 計算方程式条件下でmoesと密接なベースラインを比較する先行研究とは異なり,本評価条件はパラメータ等式であり,lmsを適切に評価することが重要である。 当社のmoesはwikitext-103とenwiki8のデータセットで2つの異なるスケールで高密度トランスフォーマーxlと競合するが、リソース効率ははるかに高い。 このことは、MoE が極めて大きな LM だけでなく、資源効率の高い LM にも関係していることを示している。 私たちのコードは公開されています。

How to reduce compute and memory requirements of neural networks (NNs) without sacrificing performance? Many recent works use sparse Mixtures of Experts (MoEs) to build resource-efficient large language models (LMs). Here we introduce several novel perspectives on MoEs, presenting a general framework that unifies various methods to approximate two-layer NNs (e.g., feedforward blocks of Transformers), including product-key memories (PKMs). Leveraging insights from this framework, we propose methods to improve both MoEs and PKMs. Unlike prior work that compares MoEs with dense baselines under the compute-equal condition, our evaluation condition is parameter-equal, which is crucial to properly evaluate LMs. We show that our MoEs are competitive with the dense Transformer-XL on both the WikiText-103 and enwiki8 datasets at two different scales, while being much more resource efficient. This demonstrates that MoEs are relevant not only to extremely large LMs but also to any-scale resource-efficient LMs. Our code is public.
翻訳日:2023-11-23 04:41:07 公開日:2023-11-21
# 自己制御型畳み込み核を用いた手技的特徴調和 : 心エコーによる左室高血圧疾患の増強

Self supervised convolutional kernel based handcrafted feature harmonization: Enhanced left ventricle hypertension disease phenotyping on echocardiography ( http://arxiv.org/abs/2310.08897v2 )

ライセンス: Link先を確認
Jina Lee, Youngtaek Hong, Dawun Jeong, Yeonggul Jang, Sihyeon Jeong, Taekgeun Jung, Yeonyee E. Yoon, Inki Moon, Seung-Ah Lee, and Hyuk-Jae Chang(参考訳) 医用イメージング技術であるradiomicsは、画像から手作りの定量的特徴を抽出し、疾患を予測する。 これらの機能の調和は、様々なイメージングデバイスやプロトコル間で一貫した特徴抽出を保証する。 調和の方法には、標準化された撮像プロトコル、統計的調整、特徴ロバスト性の評価が含まれる。 左室肥大 (LVH) や高血圧性心疾患 (HHD) などの心筋疾患は心エコー法で診断されるが, 様々な画像設定が課題となる。 このようなシナリオにおいて, ハーモナイズ技術は手作りの特徴を疾患診断に適用するために重要である。 自己教師付き学習(ssl)は、限られたデータセット内のデータ理解を強化し、さまざまなデータ設定に適応する。 ConvNeXt-V2は、畳み込みレイヤをSSLに統合し、さまざまなタスクにおいて優れたパフォーマンスを示す。 本研究は,SSL内の畳み込みフィルタを前処理として,手作り特徴調和のための特徴マップに変換する。 提案手法は調和評価に優れ,既存の手法に比べて優れたLVH分類性能を示した。

Radiomics, a medical imaging technique, extracts quantitative handcrafted features from images to predict diseases. Harmonization in those features ensures consistent feature extraction across various imaging devices and protocols. Methods for harmonization include standardized imaging protocols, statistical adjustments, and evaluating feature robustness. Myocardial diseases such as Left Ventricular Hypertrophy (LVH) and Hypertensive Heart Disease (HHD) are diagnosed via echocardiography, but variable imaging settings pose challenges. Harmonization techniques are crucial for applying handcrafted features in disease diagnosis in such scenario. Self-supervised learning (SSL) enhances data understanding within limited datasets and adapts to diverse data settings. ConvNeXt-V2 integrates convolutional layers into SSL, displaying superior performance in various tasks. This study focuses on convolutional filters within SSL, using them as preprocessing to convert images into feature maps for handcrafted feature harmonization. Our proposed method excelled in harmonization evaluation and exhibited superior LVH classification performance compared to existing methods.
翻訳日:2023-11-23 04:40:48 公開日:2023-11-21
# lgl-bci:運動画像に基づく脳-コンピュータインタフェースのための軽量幾何学習フレームワーク

LGL-BCI: A Lightweight Geometric Learning Framework for Motor Imagery-Based Brain-Computer Interfaces ( http://arxiv.org/abs/2310.08051v3 )

ライセンス: Link先を確認
Jianchao Lu, Yuzhe Tian, Yang Zhang, Jiaqi Ge, Quan Z. Sheng and Xi Zheng(参考訳) Brain-Computer Interfaces (BCI) は、脳信号を使って外部デバイスと対話する基盤技術である。 進歩にもかかわらず、脳波(EEG)に基づく運動画像(MI)タスクは、より小さなモデルサイズとより高速な推論を必要とするため、振幅や位相変動、複雑な空間相関といった課題に直面している。 本研究では,非ユークリッド距離空間,特にSymmetric Positive Definite (SPD) Manifold空間における脳波処理にGeometric Deep Learning Frameworkを用いたLGL-BCIフレームワークを提案する。 LGL-BCIは、堅牢なEEGデータ表現を提供し、空間相関をキャプチャする。 本研究では,PSD行列の次元性を低減するための特徴分解アルゴリズムを用いたEEGチャネル選択法を提案する。 大規模な実験により、LGL-BCIの精度と効率は現在のソリューションよりも優れており、MI-BCIアプリケーションにおける幾何学的深層学習の可能性を強調している。 2つのパブリックなEEGデータセットと2つの現実世界のEEGデバイスで評価された効率は、パラメータが少なく(183.7Mと比較して64.9M)、最先端のソリューションの精度(82.54\%対62.22\%$)を大きく上回っている。

Brain-Computer Interfaces (BCIs) are a groundbreaking technology for interacting with external devices using brain signals. Despite advancements, electroencephalogram (EEG)-based Motor Imagery (MI) tasks face challenges like amplitude and phase variability, and complex spatial correlations, with a need for smaller model size and faster inference. This study introduces the LGL-BCI framework, employing a Geometric Deep Learning Framework for EEG processing in non-Euclidean metric spaces, particularly the Symmetric Positive Definite (SPD) Manifold space. LGL-BCI offers robust EEG data representation and captures spatial correlations. We propose an EEG channel selection solution via a feature decomposition algorithm to reduce SPD matrix dimensionality, with a lossless transformation boosting inference speed. Extensive experiments show LGL-BCI's superior accuracy and efficiency compared to current solutions, highlighting geometric deep learning's potential in MI-BCI applications. The efficiency, assessed on two public EEG datasets and two real-world EEG devices, significantly outperforms the state-of-the-art solution in accuracy ($82.54\%$ versus $62.22\%$) with fewer parameters (64.9M compared to 183.7M).
翻訳日:2023-11-23 04:40:32 公開日:2023-11-21
# VoIPプラットフォームにおける音声強調の心理的課題

Psychoacoustic Challenges Of Speech Enhancement On VoIP Platforms ( http://arxiv.org/abs/2310.07161v2 )

ライセンス: Link先を確認
Joseph Konan, Ojas Bhargave, Shikhar Agnihotri, Shuo Han, Yunyang Zeng, Ankit Shah, Bhiksha Raj(参考訳) VoIP(Voice over Internet Protocol)通信の帯域内では、音響変換によってもたらされる複雑さは厳密な分析に値する。 この研究は、Google MeetsやZoomといったプラットフォームを綿密に評価する、プロプライエタリな送信側認知効果の探索に根ざしている。 この研究は、deep noise reduction (dns) 2020データセットを示し、様々なノイズ設定と受信者インターフェースに合わせた構造化検査を保証している。 従来はエコノメトリーツールであったOaxaca分解により,VoIPシステム内の音響・音響的摂動を分析する手法が導入された。 これらの変換の影響をさらに深めるため、精神音響指標、特にPSSQとSTOIは、音声変化の包括的理解を促進するために利用された。 累積的に、この洞察はVoIPの影響する音響力学の複雑な景観を浮き彫りにした。 主な発見に加えて、さまざまな指標が報告され、研究のパースペクションが拡張された。 さらに、時間及び時間周波数領域音声強調モデルのドメイン外ベンチマークも含み、この調査の深度と適用性を高める。 Repository: github.com/deepology/VoIP-DNS-Challenge

Within the ambit of VoIP (Voice over Internet Protocol) telecommunications, the complexities introduced by acoustic transformations merit rigorous analysis. This research, rooted in the exploration of proprietary sender-side denoising effects, meticulously evaluates platforms such as Google Meets and Zoom. The study draws upon the Deep Noise Suppression (DNS) 2020 dataset, ensuring a structured examination tailored to various denoising settings and receiver interfaces. A methodological novelty is introduced via the Oaxaca decomposition, traditionally an econometric tool, repurposed herein to analyze acoustic-phonetic perturbations within VoIP systems. To further ground the implications of these transformations, psychoacoustic metrics, specifically PESQ and STOI, were harnessed to furnish a comprehensive understanding of speech alterations. Cumulatively, the insights garnered underscore the intricate landscape of VoIP-influenced acoustic dynamics. In addition to the primary findings, a multitude of metrics are reported, extending the research purview. Moreover, out-of-domain benchmarking for both time and time-frequency domain speech enhancement models is included, thereby enhancing the depth and applicability of this inquiry. Repository: github.com/deepology/VoIP-DNS-Challenge
翻訳日:2023-11-23 04:40:07 公開日:2023-11-21
# 木をせん断する: 分岐構造と平衡多元数における生長規則

Shearing Off the Tree: Emerging Branch Structure and Born's Rule in an Equilibrated Multiverse ( http://arxiv.org/abs/2310.06755v2 )

ライセンス: Link先を確認
Philipp Strasberg and Joseph Schindler(参考訳) 多数の世界解釈 (mwi) の中で、時間経過とともに、schr\"odinger方程式とデコヒーレンスとの線形性は、枝がデコヒーレンス基底として定義されるならば、「すべてが起こる」枝の指数関数的に成長する木を生み出すと信じられている。 例として、Schr\"odinger方程式の正確な数値対角化を用いてデコヒーレントな歴史関数を計算することにより、この図は修正が必要であることが分かる。 例では,数回で定義した歴史の一貫性を示すが,枝のかなりの割合(多くの場合,大多数)は,多くの歴史に強い干渉効果を示す。 下記の正確な意味では、ヒストリーは独立に平衡量子過程をサンプリングし、顕著なことに、ボルンの規則に従ってサンプル周波数のみをデコヒーレントに残している。 以上の結果から,MWIの提唱者と反対者の議論に影響を及ぼし,これまでに予想されていたよりも多くの世界木に構造が存在することが示唆された。

Within the many worlds interpretation (MWI) it is believed that, as time passes on, the linearity of the Schr\"odinger equation together with decoherence generate an exponentially growing tree of branches where "everything happens", provided the branches are defined for a decohering basis. By studying an example, using exact numerical diagonalization of the Schr\"odinger equation to compute the decoherent histories functional, we find that this picture needs revision. Our example shows decoherence for histories defined at a few times, but a significant fraction (often the vast majority) of branches shows strong interference effects for histories of many times. In a sense made precise below, the histories independently sample an equilibrated quantum process, and, remarkably, we find that only histories that sample frequencies in accordance with Born's rule remain decoherent. Our results suggest that there is more structure in the many worlds tree than previously anticipated, influencing arguments of both proponents and opponents of the MWI.
翻訳日:2023-11-23 04:39:45 公開日:2023-11-21
# 共感応答生成のための大規模言語モデルのパワー活用--実証的研究と改善

Harnessing the Power of Large Language Models for Empathetic Response Generation: Empirical Investigations and Improvements ( http://arxiv.org/abs/2310.05140v2 )

ライセンス: Link先を確認
Yushan Qian, Wei-Nan Zhang, Ting Liu(参考訳) 共感的対話は、調和した社会的関係を構築するのに必要な部分であり、有用なAIの開発に寄与する。 従来のアプローチは主に小さな言語モデルに基づいていた。 ChatGPTの出現により、この分野における大規模言語モデル(LLM)の適用効果に大きな注目を集めている。 本研究は,共感応答生成におけるllmの性能を実証的に検討し,意味的に類似する文脈内学習,2段階対話生成,知識ベースとの組合せによる3つの改善手法を提案する。 大規模な実験により, LLM は提案手法の利点を大いに生かし, 自動評価と人的評価の両面で最先端の性能を達成することができることがわかった。 また,GPT-4によるヒト評価の可能性についても検討した。

Empathetic dialogue is an indispensable part of building harmonious social relationships and contributes to the development of a helpful AI. Previous approaches are mainly based on fine small-scale language models. With the advent of ChatGPT, the application effect of large language models (LLMs) in this field has attracted great attention. This work empirically investigates the performance of LLMs in generating empathetic responses and proposes three improvement methods of semantically similar in-context learning, two-stage interactive generation, and combination with the knowledge base. Extensive experiments show that LLMs can significantly benefit from our proposed methods and is able to achieve state-of-the-art performance in both automatic and human evaluations. Additionally, we explore the possibility of GPT-4 simulating human evaluators.
翻訳日:2023-11-23 04:39:24 公開日:2023-11-21
# LLMのためのパーソナリティの編集

Editing Personality for LLMs ( http://arxiv.org/abs/2310.02168v2 )

ライセンス: Link先を確認
Shengyu Mao, Ningyu Zhang, Xiaohan Wang, Mengru Wang, Yunzhi Yao, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen(参考訳) 本稿では,Large Language Models (LLMs) の性格特性の編集に焦点をあてた革新的なタスクを紹介する。 この課題は,個々人の人格が表現された意見の形で現れることが多いため,特定の話題に対する意見関連質問に対するモデルの反応を調整することを目的とする。 具体的には、このタスクに対応するために、新しいベンチマークデータセットPersonalityEditを構築します。 社会心理学における理論を考察し,ニューロチシズム,外向性,同意性という3つの代表的な特徴をベンチマークの基盤として分離した。 そして、GPT-4を用いてデータを収集し、特定のトピックに適合するだけでなく、ターゲットの性格特性を具現化する応答を生成する。 様々なベースラインを含む総合的な実験を行い,LLMにおける個性行動の表現について議論する。 興味をそそる発見は,提案課題の潜在的な課題を明らかにし,残るいくつかの課題を明らかにした。 私たちはNLPコミュニティに洞察を得られることを期待しています。 コードとデータセットはhttps://github.com/zjunlp/easyeditでリリースされる。

This paper introduces an innovative task focused on editing the personality traits of Large Language Models (LLMs). This task seeks to adjust the models' responses to opinion-related questions on specified topics since an individual's personality often manifests in the form of their expressed opinions, thereby showcasing different personality traits. Specifically, we construct a new benchmark dataset PersonalityEdit to address this task. Drawing on the theory in Social Psychology, we isolate three representative traits, namely Neuroticism, Extraversion, and Agreeableness, as the foundation for our benchmark. We then gather data using GPT-4, generating responses that not only align with a specified topic but also embody the targeted personality trait. We conduct comprehensive experiments involving various baselines and discuss the representation of personality behavior in LLMs. Our intriguing findings uncover potential challenges of the proposed task, illustrating several remaining issues. We anticipate that our work can provide the NLP community with insights. Code and datasets will be released at https://github.com/zjunlp/EasyEdit.
翻訳日:2023-11-23 04:39:10 公開日:2023-11-21
# 大規模言語モデルにおける知識編集の落とし穴

Unveiling the Pitfalls of Knowledge Editing for Large Language Models ( http://arxiv.org/abs/2310.02129v2 )

ライセンス: Link先を確認
Zhoubo Li, Ningyu Zhang, Yunzhi Yao, Mengru Wang, Xi Chen, Huajun Chen(参考訳) 微調整型Large Language Models(LLMs)のコストが上昇するにつれて、最近の研究はLLMに埋め込まれた暗黙の知識を編集する方法論の開発に向けられた。 しかし、まだダーククラウドのオーバーヘッドは残っている -- 知識の編集は蝶効果を引き起こすのだろうか? 知識編集が潜在的なリスクをもたらす副作用をもたらすかどうかはまだ不明である。 本稿では,LLMの知識編集に伴う潜在的な落とし穴について検討する。 そこで我々は,新しいベンチマークデータセットを導入し,革新的な評価指標を提案する。 1) 知識衝突: 論理的に衝突する事実群を編集することで, 従来の手法で無視されたLCMの面における固有の矛盾を増大させることができる。 2) 知識歪み: 事実知識の編集を目的としたパラメータの変更は, LLMの自然知識構造を不可避的に歪曲することができる。 実験の結果は、知識編集が意図しない結果の影をLLMに不注意に落とし、将来の作品に注意と努力を喚起することを示した。 コードはhttps://github.com/zjunlp/PitfallsKnowledgeEditingで入手できる。

As the cost associated with fine-tuning Large Language Models (LLMs) continues to rise, recent research efforts have pivoted towards developing methodologies to edit implicit knowledge embedded within LLMs. Yet, there's still a dark cloud lingering overhead -- will knowledge editing trigger butterfly effect? since it is still unclear whether knowledge editing might introduce side effects that pose potential risks or not. This paper pioneers the investigation into the potential pitfalls associated with knowledge editing for LLMs. To achieve this, we introduce new benchmark datasets and propose innovative evaluation metrics. Our results underline two pivotal concerns: (1) Knowledge Conflict: Editing groups of facts that logically clash can magnify the inherent inconsistencies in LLMs-a facet neglected by previous methods. (2) Knowledge Distortion: Altering parameters with the aim of editing factual knowledge can irrevocably warp the innate knowledge structure of LLMs. Experimental results vividly demonstrate that knowledge editing might inadvertently cast a shadow of unintended consequences on LLMs, which warrant attention and efforts for future works. Code is available at https://github.com/zjunlp/PitfallsKnowledgeEditing.
翻訳日:2023-11-23 04:38:55 公開日:2023-11-21
# Oracleのラベル付けを超えて: MLモデルを盗む意味は何でしょうか?

Beyond Labeling Oracles: What does it mean to steal ML models? ( http://arxiv.org/abs/2310.01959v2 )

ライセンス: Link先を確認
Avital Shafran, Ilia Shumailov, Murat A. Erdogdu, Nicolas Papernot(参考訳) モデル抽出攻撃は、ML-as-a-Serviceプロバイダが提供するAPIを通じてしばしば提供されるように、クエリアクセスのみでトレーニングされたモデルを盗むように設計されている。 mlモデルは、データ取得が難しいため、トレーニングにコストがかかり、モデル抽出の第一の動機は、スクラッチからトレーニングするよりも少ないコストでモデルを取得することである。 モデル抽出に関する文献では、攻撃者がデータ取得とラベル付けのコストの両方を節約できるという主張や仮定が一般的である。 我々は、攻撃者がしばしばそうではないことを示します。 これは、現在の攻撃が暗黙的に、被害者モデルのデータ分散からサンプルできる敵に依存しているためである。 モデル抽出の成功に影響を及ぼす要因を徹底的に評価する。 攻撃者の事前知識、すなわち配信データへのアクセスが、被害者モデルapiに対するクエリを選択するために敵が従う攻撃ポリシーのような他の要素を支配することを発見した。 したがって、固定予算で同等に有能なモデルを開発する敵は、攻撃が働くためには、配信データを集め、ラベル付けのコストだけを節約する必要があるため、モデル抽出を行うための実践的なインセンティブがほとんどない。 現在の市場でのラベル付けコストが低いため、そのような攻撃の有用性は疑わしい。 最終的には,事前知識の効果を攻撃方針から明確に分離する必要があることを実証する。 そこで本研究では,攻撃方針を直接評価するベンチマークを提案する。

Model extraction attacks are designed to steal trained models with only query access, as is often provided through APIs that ML-as-a-Service providers offer. ML models are expensive to train, in part because data is hard to obtain, and a primary incentive for model extraction is to acquire a model while incurring less cost than training from scratch. Literature on model extraction commonly claims or presumes that the attacker is able to save on both data acquisition and labeling costs. We show that the attacker often does not. This is because current attacks implicitly rely on the adversary being able to sample from the victim model's data distribution. We thoroughly evaluate factors influencing the success of model extraction. We discover that prior knowledge of the attacker, i.e. access to in-distribution data, dominates other factors like the attack policy the adversary follows to choose which queries to make to the victim model API. Thus, an adversary looking to develop an equally capable model with a fixed budget has little practical incentive to perform model extraction, since for the attack to work they need to collect in-distribution data, saving only on the cost of labeling. With low labeling costs in the current market, the usefulness of such attacks is questionable. Ultimately, we demonstrate that the effect of prior knowledge needs to be explicitly decoupled from the attack policy. To this end, we propose a benchmark to evaluate attack policy directly.
翻訳日:2023-11-23 04:38:36 公開日:2023-11-21
# Pink:マルチモーダルLLMにおける参照理解のパワーの解放

Pink: Unveiling the Power of Referential Comprehension for Multi-modal LLMs ( http://arxiv.org/abs/2310.00582v2 )

ライセンス: Link先を確認
Shiyu Xuan, Qingpei Guo, Ming Yang, Shiliang Zhang(参考訳) MLLM(Multi-modal Large Language Models)は、様々なマルチモーダルタスクにおいて顕著な機能を示す。 それでも、細粒度画像理解タスクのパフォーマンスはまだ限られている。 そこで本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。 具体的には,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。 既存の高密度オブジェクトアノテーションを高品質な参照-表現-バウンディングボックスペアに拡張するために、自己一貫性のブートストラップ法も導入されている。 これらの方法では、きめ細かいイメージ認識に必要な幅広い基本能力を含む高品質な命令データを生成することができる。 さらに、視覚エンコーダは、フルイメージ知覚ときめ細かなイメージ知覚とのギャップを軽減するために、インストラクションチューニング中に調整されるべきである、と論じる。 実験の結果,本手法の優れた性能が得られた。 例えば、GQAではQwen-VLよりも5.2%精度が向上し、RefCOCO_valではコスモス2の精度が24.7%向上した。 MMBenchのリーダーボードでもトップランクを獲得しました。 この有望なパフォーマンスは、公開データのみをトレーニングすることで実現され、容易に再現できる。 モデル、データセット、コードはhttps://github.com/SY-Xuan/Pink.comで公開されている。

Multi-modal Large Language Models (MLLMs) have shown remarkable capabilities in various multi-modal tasks. Nevertheless, their performance in fine-grained image understanding tasks is still limited. To address this issue, this paper proposes a new framework to enhance the fine-grained image understanding abilities of MLLMs. Specifically, we present a new method for constructing the instruction tuning dataset at a low cost by leveraging annotations in existing datasets. A self-consistent bootstrapping method is also introduced to extend existing dense object annotations into high-quality referring-expression-bounding-box pairs. These methods enable the generation of high-quality instruction data which includes a wide range of fundamental abilities essential for fine-grained image perception. Moreover, we argue that the visual encoder should be tuned during instruction tuning to mitigate the gap between full image perception and fine-grained image perception. Experimental results demonstrate the superior performance of our method. For instance, our model exhibits a 5.2% accuracy improvement over Qwen-VL on GQA and surpasses the accuracy of Kosmos-2 by 24.7% on RefCOCO_val. We also attain the top rank on the leaderboard of MMBench. This promising performance is achieved by training on only publicly available data, making it easily reproducible. The models, datasets, and codes are publicly available at https://github.com/SY-Xuan/Pink.
翻訳日:2023-11-23 04:38:14 公開日:2023-11-21
# 注意シンク付き効率的なストリーミング言語モデル

Efficient Streaming Language Models with Attention Sinks ( http://arxiv.org/abs/2309.17453v2 )

ライセンス: Link先を確認
Guangxuan Xiao, Yuandong Tian, Beidi Chen, Song Han, Mike Lewis(参考訳) 長い対話が期待されるマルチラウンド対話のようなストリーミングアプリケーションへの大規模言語モデル(llm)のデプロイは、緊急に必要だが、2つの大きな課題がある。 まず、デコード段階では、以前のトークンのキーと値の状態(kv)をキャッシュすることで、広範なメモリを消費する。 第二に、人気のあるLLMはトレーニングシーケンス長よりも長いテキストに一般化できない。 最新のkvsだけがキャッシュされるウィンドウの注意は自然なアプローチですが、テキストの長さがキャッシュサイズを超えると失敗することを示しています。 我々は、初期トークンのKVを維持することで、窓の注意を回復する興味深い現象、すなわち注意シンクを観察する。 本稿では,最初に注意シンクの出現は,意味的に重要でない場合でも,初期トークンを「シンク」として注目するスコアが強いことに起因することを示す。 以上の分析に基づいて,有限長注意ウィンドウで学習したLLMを微調整なしで無限列長に一般化する,効率的なフレームワークであるStreamingLLMを導入する。 StreamingLLMはLlama-2, MPT, Falcon, Pythiaを最大400万のトークンで安定かつ効率的な言語モデリングを実現できることを示す。 さらに,事前トレーニング中にプレースホルダトークンを注意シンクとして追加することで,ストリーミングデプロイメントをさらに改善できることが分かりました。 ストリーミング設定では、StreamingLLMはスライディングウィンドウのリ計算ベースラインを最大22.2倍高速化する。 コードとデータセットはhttps://github.com/mit-han-lab/streaming-llmで提供される。

Deploying Large Language Models (LLMs) in streaming applications such as multi-round dialogue, where long interactions are expected, is urgently needed but poses two major challenges. Firstly, during the decoding stage, caching previous tokens' Key and Value states (KV) consumes extensive memory. Secondly, popular LLMs cannot generalize to longer texts than the training sequence length. Window attention, where only the most recent KVs are cached, is a natural approach -- but we show that it fails when the text length surpasses the cache size. We observe an interesting phenomenon, namely attention sink, that keeping the KV of initial tokens will largely recover the performance of window attention. In this paper, we first demonstrate that the emergence of attention sink is due to the strong attention scores towards initial tokens as a ``sink'' even if they are not semantically important. Based on the above analysis, we introduce StreamingLLM, an efficient framework that enables LLMs trained with a finite length attention window to generalize to infinite sequence lengths without any fine-tuning. We show that StreamingLLM can enable Llama-2, MPT, Falcon, and Pythia to perform stable and efficient language modeling with up to 4 million tokens and more. In addition, we discover that adding a placeholder token as a dedicated attention sink during pre-training can further improve streaming deployment. In streaming settings, StreamingLLM outperforms the sliding window recomputation baseline by up to 22.2x speedup. Code and datasets are provided at https://github.com/mit-han-lab/streaming-llm.
翻訳日:2023-11-23 04:37:52 公開日:2023-11-21
# データはしばしば短い深さでロード可能である:財務、画像、流体、タンパク質のためのテンソルネットワークからの量子回路

Data is often loadable in short depth: Quantum circuits from tensor networks for finance, images, fluids, and proteins ( http://arxiv.org/abs/2309.13108v2 )

ライセンス: Link先を確認
Raghav Jumade, Nicolas PD Sawaya(参考訳) 古典的データセットを研究する量子アルゴリズムの開発にはかなりの進歩があったが、古典的データを単にロードするコストは量子的優位性の障害となっている。 振幅符号化を使用する場合、任意の古典ベクトルをロードするには、量子ビット数に対して指数回路の深さを最大にする必要がある。 ここでは,この「入力問題」を2つの貢献で解決する。 まず,テンソルネットワーク(TN)理論に基づく回路コンパイル手法を提案する。 AMLET(Automatic Multi-layer Loader Exploiting TNs)は、特定のTNトポロジーを慎重に構築することで、任意の回路深さに合わせて調整することができる。 第2に,金融,画像,流体力学,タンパク質の4つの異なる領域から,実世界の古典データについて数値実験を行う。 我々の知る限りでは、これは古典的なデータを量子コンピュータにロードするまでの最も広い数値解析である。 この領域における他の研究と同様に、必要な回路深さは指数的にスケーリングされる一般的な負荷アルゴリズムよりも数桁低い場合が多い。 より効率的なローディングアルゴリズムを導入することに加えて、この研究は、多くの古典的データセットが従来よりもはるかに短い深さでロード可能であることを示す。

Though there has been substantial progress in developing quantum algorithms to study classical datasets, the cost of simply loading classical data is an obstacle to quantum advantage. When the amplitude encoding is used, loading an arbitrary classical vector requires up to exponential circuit depths with respect to the number of qubits. Here, we address this "input problem" with two contributions. First, we introduce a circuit compilation method based on tensor network (TN) theory. Our method -- AMLET (Automatic Multi-layer Loader Exploiting TNs) -- proceeds via careful construction of a specific TN topology and can be tailored to arbitrary circuit depths. Second, we perform numerical experiments on real-world classical data from four distinct areas: finance, images, fluid mechanics, and proteins. To the best of our knowledge, this is the broadest numerical analysis to date of loading classical data into a quantum computer. Consistent with other recent work in this area, the required circuit depths are often several orders of magnitude lower than the exponentially-scaling general loading algorithm would require. Besides introducing a more efficient loading algorithm, this work demonstrates that many classical datasets are loadable in depths that are much shorter than previously expected, which has positive implications for speeding up classical workloads on quantum computers.
翻訳日:2023-11-23 04:37:29 公開日:2023-11-21
# better with less: 事前学習されたグラフニューラルネットワークに関するデータアクティブな視点

Better with Less: A Data-Active Perspective on Pre-Training Graph Neural Networks ( http://arxiv.org/abs/2311.01038v2 )

ライセンス: Link先を確認
Jiarong Xu, Renhong Huang, Xin Jiang, Yuxuan Cao, Carl Yang, Chunping Wang, Yang Yang(参考訳) グラフニューラルネットワーク(GNN)の事前トレーニングは、ラベルのないデータで下流タスクの伝達可能な知識を学習することを目的としており、近年、活発な研究領域となっている。 グラフ事前学習モデルの成功は、大量の入力データに起因することが多い。 しかし,本稿では,グラフ事前学習におけるビッグデータ現象の呪いを明らかにする。 この観察に動機づけられ、グラフ事前トレーニングのためのより良い非使用のフレームワークを提案する: 少ないが慎重に選択されたデータは、事前トレーニングを強化するためにgnnモデルに供給される。 提案する事前学習パイプラインは,データアクティブグラフ事前学習(APT)フレームワークと呼ばれ,グラフセレクタと事前学習モデルで構成される。 グラフセレクタは、グラフの固有特性と予測の不確実性に基づいて、最も代表的かつ指示的なデータポイントを選択する。 提案した予測不確実性は、事前学習モデルからのフィードバックとして、データ内のモデルの信頼性レベルを測定する。 一方、選択したデータに入力されると、事前学習モデルは、新しい未知のデータの最初の理解を把握し、同時に、以前のデータから学んだ知識を記憶しようとする。 したがって、これら2つのコンポーネントの統合と相互作用は、グラフ事前トレーニングを漸進的かつ反復的に行う統一フレームワーク(apt)を形成する。 実験の結果,aptはより少ないトレーニングデータと下流性能で効率的な事前学習モデルを得ることができた。

Pre-training on graph neural networks (GNNs) aims to learn transferable knowledge for downstream tasks with unlabeled data, and it has recently become an active research area. The success of graph pre-training models is often attributed to the massive amount of input data. In this paper, however, we identify the curse of big data phenomenon in graph pre-training: more training data do not necessarily lead to better downstream performance. Motivated by this observation, we propose a better-with-less framework for graph pre-training: fewer, but carefully chosen data are fed into a GNN model to enhance pre-training. The proposed pre-training pipeline is called the data-active graph pre-training (APT) framework, and is composed of a graph selector and a pre-training model. The graph selector chooses the most representative and instructive data points based on the inherent properties of graphs as well as predictive uncertainty. The proposed predictive uncertainty, as feedback from the pre-training model, measures the confidence level of the model in the data. When fed with the chosen data, on the other hand, the pre-training model grasps an initial understanding of the new, unseen data, and at the same time attempts to remember the knowledge learned from previous data. Therefore, the integration and interaction between these two components form a unified framework (APT), in which graph pre-training is performed in a progressive and iterative way. Experiment results show that the proposed APT is able to obtain an efficient pre-training model with fewer training data and better downstream performance.
翻訳日:2023-11-23 04:29:33 公開日:2023-11-21
# 復調性およびサンプル不変連続オブジェクトエンコーダ

Decodable and Sample Invariant Continuous Object Encoder ( http://arxiv.org/abs/2311.00187v2 )

ライセンス: Link先を確認
Dehao Yuan, Furong Huang, Cornelia Ferm\"uller, Yiannis Aloimonos(参考訳) 我々は超次元関数符号化(HDFE)を提案する。 連続対象(例えば関数)のサンプルが与えられたとき、HDFEは与えられた対象の明示的なベクトル表現を生成し、サンプル分布と密度に不変である。 サンプル分布と密度不変性により、HDFEはサンプリングに関係なく連続オブジェクトを一貫してエンコードすることができ、ニューラルネットワークは分類や回帰といった機械学習タスクの入力として連続オブジェクトを受け取ることができる。 さらに、HDFEはいかなるトレーニングも必要とせず、オブジェクトを組織化された埋め込みスペースにマッピングすることが証明されており、下流タスクのトレーニングを容易にする。 さらに、エンコーディングはデコーダ可能であり、ニューラルネットワークはエンコーディングをレグレッションすることで連続オブジェクトをリグレッシブすることができる。 したがってHDFEは連続オブジェクトを処理するインターフェースとして機能する。 我々はHDFEを関数間マッピングに適用し、バニラHDFEは最先端のアルゴリズムとして競合性能を達成する。 hdfeをpoint cloud surface normal estimationに適用し,pointnetからhdfeへの単純な置き換えにより,2つのベンチマークで即時に12%,15%のエラー低減を実現する。 さらに、HDFEをPointNetベースのSOTAネットワークに統合することにより、同じベンチマークでSOTAベースラインを2.5%と1.7%改善する。

We propose Hyper-Dimensional Function Encoding (HDFE). Given samples of a continuous object (e.g. a function), HDFE produces an explicit vector representation of the given object, invariant to the sample distribution and density. Sample distribution and density invariance enables HDFE to consistently encode continuous objects regardless of their sampling, and therefore allows neural networks to receive continuous objects as inputs for machine learning tasks, such as classification and regression. Besides, HDFE does not require any training and is proved to map the object into an organized embedding space, which facilitates the training of the downstream tasks. In addition, the encoding is decodable, which enables neural networks to regress continuous objects by regressing their encodings. Therefore, HDFE serves as an interface for processing continuous objects. We apply HDFE to function-to-function mapping, where vanilla HDFE achieves competitive performance as the state-of-the-art algorithm. We apply HDFE to point cloud surface normal estimation, where a simple replacement from PointNet to HDFE leads to immediate 12% and 15% error reductions in two benchmarks. In addition, by integrating HDFE into the PointNet-based SOTA network, we improve the SOTA baseline by 2.5% and 1.7% in the same benchmarks.
翻訳日:2023-11-23 04:29:10 公開日:2023-11-21
# 物理系同定における多段階予測のためのワンショットバックプロパゲーション-EXTENDED VERSION

One-shot backpropagation for multi-step prediction in physics-based system identification -- EXTENDED VERSION ( http://arxiv.org/abs/2310.20567v2 )

ライセンス: Link先を確認
Cesare Donati, Martina Mammarella, Fabrizio Dabbene, Carlo Novara, Constantino Lagoa(参考訳) 本研究の目的は,物理および構造的洞察を直接バックプロパゲーションに基づく学習アルゴリズムに反映する,力学系の同定のための新しい物理ベースのフレームワークを提案することである。 主な結果は、物理的特性と制約を強制しながら、マルチステップ損失関数の勾配を閉じた形で計算する方法である。 得られたアルゴリズムを用いて, 宇宙デブリの未知の慣性行列を同定し, 推定パラメータの物理的付着を捉える手法の信頼性を示す。

The aim of this paper is to present a novel physics-based framework for the identification of dynamical systems, in which the physical and structural insights are reflected directly into a backpropagation-based learning algorithm. The main result is a method to compute in closed form the gradient of a multi-step loss function, while enforcing physical properties and constraints. The derived algorithm has been exploited to identify the unknown inertia matrix of a space debris, and the results show the reliability of the method in capturing the physical adherence of the estimated parameters.
翻訳日:2023-11-23 04:28:48 公開日:2023-11-21
# オフライン-オンライン強化学習におけるサンプル効率向上

Sample Efficient Reward Augmentation in offline-to-online Reinforcement Learning ( http://arxiv.org/abs/2310.19805v3 )

ライセンス: Link先を確認
Ziqi Zhang, Xiao Xiong, Zifeng Zhuang, Jinxin Liu, Donglin Wang(参考訳) オフラインからオンラインへのrlは、事前収集されたオフラインデータセットをフル活用してポリシを初期化することで、オンラインアルゴリズムのみを使用してポリシトレーニングを行うよりも、サンプル効率とパフォーマンスが向上する。 しかし、事前訓練されたポリシーを直接微調整すると準最適性能が生じる傾向にある。 主な理由は、保守的なオフラインrlメソッドがエージェントの探索能力を低下させ、結果としてオンラインの微調整性能に影響を及ぼすためである。 オンラインファインチューニングにおけるエージェントの探索を奨励し,全体のオンラインファインチューニング性能を高めるため,SERA(Sample Efficient Reward Augmentation)と呼ばれる汎用的な報酬増強手法を提案する。 具体的には、q条件エントロピーを内在的な報酬として計算することでエージェントが探索することを推奨する。 SERAの利点は、オフライン事前訓練Qを利用して、高値状態と低値状態の分布の不均衡を考慮して、エージェントが一様に状態空間をカバーできるようにすることである。 さらに、seraは様々なrlアルゴリズムに無益に接続でき、オンラインの微調整を改善し、漸近的な改善を継続することができる。 さらに,オフライン-オンライン問題を行う場合,様々なオフラインアルゴリズムの性能を一貫して効果的に向上させることが実証された。

Offline-to-online RL can make full use of pre-collected offline datasets to initialize policies, resulting in higher sample efficiency and better performance compared to only using online algorithms alone for policy training. However, direct fine-tuning of the pre-trained policy tends to result in sub-optimal performance. A primary reason is that conservative offline RL methods diminish the agent's capability of exploration, thereby impacting online fine-tuning performance. To encourage agent's exploration during online fine-tuning and enhance the overall online fine-tuning performance, we propose a generalized reward augmentation method called Sample Efficient Reward Augmentation (SERA). Specifically, SERA encourages agent to explore by computing Q conditioned entropy as intrinsic reward. The advantage of SERA is that it can extensively utilize offline pre-trained Q to encourage agent uniformly coverage of state space while considering the imbalance between the distributions of high-value and low-value states. Additionally, SERA can be effortlessly plugged into various RL algorithms to improve online fine-tuning and ensure sustained asymptotic improvement. Moreover, extensive experimental results demonstrate that when conducting offline-to-online problems, SERA consistently and effectively enhances the performance of various offline algorithms.
翻訳日:2023-11-23 04:28:39 公開日:2023-11-21
# distnet2d: 長距離時間情報を活用した効率的なセグメンテーションと追跡

DistNet2D: Leveraging long-range temporal information for efficient segmentation and tracking ( http://arxiv.org/abs/2310.19641v2 )

ライセンス: Link先を確認
Jean Ollion, Martin Maliet, Caroline Giuglaris, Elise Vacher and Maxime Deforet(参考訳) videomicroscopyから長いトラックや系統を抽出するには、非常に低いエラー率が必要であり、高密度または変形した細胞の複雑なデータセットでは困難である。 時間的コンテキストを活用することが、この課題を克服する鍵となります。 本研究では2次元セルセグメンテーションと追跡のための新しいディープニューラルネットワーク(DNN)アーキテクチャであるDistNet2Dを提案する。 DistNet2Dは入力時に7つのフレームを考慮し、ビデオ全体の情報を利用してセグメンテーションエラーを修正する後処理手順を使用する。 distnet2dは、密集した細菌細胞と真核生物細胞を含む2つの実験データセットの最近の2つの方法よりも優れている。 2Dデータ可視化、キュレーション、トレーニングのためのImageJベースのグラフィカルユーザインタフェースに統合されている。 最後に, distnet2dの性能を, 細菌および真核生物の細胞において, 細胞の大きさと形状と輸送特性との相関性について実証した。

Extracting long tracks and lineages from videomicroscopy requires an extremely low error rate, which is challenging on complex datasets of dense or deforming cells. Leveraging temporal context is key to overcoming this challenge. We propose DistNet2D, a new deep neural network (DNN) architecture for 2D cell segmentation and tracking that leverages both mid- and long-term temporal information. DistNet2D considers seven frames at the input and uses a post-processing procedure that exploits information from the entire video to correct segmentation errors. DistNet2D outperforms two recent methods on two experimental datasets, one containing densely packed bacterial cells and the other containing eukaryotic cells. It is integrated into an ImageJ-based graphical user interface for 2D data visualization, curation, and training. Finally, we demonstrate the performance of DistNet2D on correlating the size and shape of cells with their transport properties over large statistics, for both bacterial and eukaryotic cells.
翻訳日:2023-11-23 04:28:17 公開日:2023-11-21
# プラスティックで安定なexemplar-freeインクリメンタル学習に向けて:累積パラメータ平均化を用いたデュアルリーナーフレームワーク

Towards Plastic and Stable Exemplar-Free Incremental Learning: A Dual-Learner Framework with Cumulative Parameter Averaging ( http://arxiv.org/abs/2310.18639v2 )

ライセンス: Link先を確認
Wenju Sun, Qingyong Li, Wen Wang, Yangli-ao Geng(参考訳) 可塑性と安定性のジレンマはインクリメンタルラーニング(IL:Incrmental Learning)において重要な課題であり、特に新しいタスクの学習において、古いタスクのサンプルへのアクセスが厳格に禁じられている事例では顕著である。 この問題の直接的な解決策は、STL(Single Task Learning)として知られるタスク毎に独立したモデルを学習し、保存することである。 stlのタスク数によるモデルストレージの線形成長にもかかわらず、これらのモデルパラメータの平均化は、すべてのタスクにまたがる知識を保存できることを実証的に発見しました。 この観測に触発されて、累積パラメータ平均化(DLCPA)を用いたDual-Learnerフレームワークを提案する。 DLCPAは、新しいタスク知識の獲得に焦点を当てたプラスチック学習者と、すべての学習知識を蓄積する安定した学習者である。 プラスチック学習者からの知識は累積パラメータ平均化により安定学習者に伝達される。 さらに、いくつかのタスク固有の分類器は、安定学習者と連携して最終予測を行う。 具体的には、新しいタスクを学ぶとき、これらのモジュールは循環的に更新される。 i) プラスチック学習者は,当初,教師付き損失に加えて自己教師付き損失を用いて最適化され,特徴抽出の堅牢性が向上する。 二 安定学習者は、その作業面での一般化を維持するために累積パラメータ平均的にプラスチック学習者に対して更新される。 三 タスク固有の分類器は、安定した学習者に合わせて最適化される。 CIFAR-100 と Tiny-ImageNet の実験結果から,DLCPA は Task-IL と Class-IL の両設定において,最先端の既定ベースラインよりも優れていた。

The dilemma between plasticity and stability presents a significant challenge in Incremental Learning (IL), especially in the exemplar-free scenario where accessing old-task samples is strictly prohibited during the learning of a new task. A straightforward solution to this issue is learning and storing an independent model for each task, known as Single Task Learning (STL). Despite the linear growth in model storage with the number of tasks in STL, we empirically discover that averaging these model parameters can potentially preserve knowledge across all tasks. Inspired by this observation, we propose a Dual-Learner framework with Cumulative Parameter Averaging (DLCPA). DLCPA employs a dual-learner design: a plastic learner focused on acquiring new-task knowledge and a stable learner responsible for accumulating all learned knowledge. The knowledge from the plastic learner is transferred to the stable learner via cumulative parameter averaging. Additionally, several task-specific classifiers work in cooperation with the stable learner to yield the final prediction. Specifically, when learning a new task, these modules are updated in a cyclic manner: i) the plastic learner is initially optimized using a self-supervised loss besides the supervised loss to enhance the feature extraction robustness; ii) the stable learner is then updated with respect to the plastic learner in a cumulative parameter averaging manner to maintain its task-wise generalization; iii) the task-specific classifier is accordingly optimized to align with the stable learner. Experimental results on CIFAR-100 and Tiny-ImageNet show that DLCPA outperforms several state-of-the-art exemplar-free baselines in both Task-IL and Class-IL settings.
翻訳日:2023-11-23 04:27:59 公開日:2023-11-21
# 言語モデルにおける真さをモデル化するペルソナ

Personas as a Way to Model Truthfulness in Language Models ( http://arxiv.org/abs/2310.18168v3 )

ライセンス: Link先を確認
Nitish Joshi, Javier Rando, Abulhair Saparov, Najoung Kim, He He(参考訳) 大規模言語モデル (LLM) は、インターネットから大量のテキストを学習し、世界に関する事実と誤解を招く情報の両方を含む。 言語モデルは、この矛盾するデータで真理と偽りを区別できるだろうか? LLMは、異なるコミュニケーションエージェントをモデル化できるという観点から、ペルソナ仮説を提示する。 例えば、真面目なペルソナとは、真面目なテキストを生成し、形式的な書体や科学的参考書のような類似した特徴を共有するエージェントのグループである。 このペルソナをモデル化することにより、LLMは、各エージェントがトレーニングテキストを生成する特定のコンテキストを超えて、真実性を一般化することができる。 例えば、モデルでは、エージェント ``Wikipedia'' が真面目なペルソナに属しているため、'`Science'' によってのみ生成されるトピックに対して真に振る舞うことを推測することができる。 我々は,(1)モデルが生成する前に真理であるかどうかを検証し,(2)事実の集合上でモデルを微調整することで,その真理性が改善される,という2つの観察を通してペルソナ仮説の証拠を示す。 次に、算術を合成環境として用いて、言語モデルが真と偽の言明を分離し、エージェント間で真さを一般化できることを示し、訓練データ内のエージェントが真偽のペルソナを作成することができる真偽生成プロセスを共有する場合に限る。 全体としては、モデルがデータの階層構造を利用して真理のような抽象概念を学習できることが示唆されている。

Large Language Models (LLMs) are trained on vast amounts of text from the internet, which contains both factual and misleading information about the world. Can language models discern truth from falsehood in this contradicting data? Expanding on the view that LLMs can model different communicative agents, we present the persona hypothesis: LLMs can cluster agents into personas using common features of their generations. For instance, a truthful persona is a group of agents that are likely to produce truthful text and that share similar features like formal writing styles and scientific references. By modeling this persona, LLMs can generalize truthfulness beyond the specific contexts in which each agent generated the training text. For example, the model can infer that the agent ``Wikipedia'' will behave truthfully on topics that were only generated by ``Science'' because they both belong to the truthful persona. We show evidence for the persona hypothesis via two observations: (1) we can probe whether a model's answer will be truthful before it is generated; (2) finetuning a model on a set of facts improves its truthfulness on unseen topics. Next, using arithmetics as a synthetic environment, we show that language models can separate true and false statements, and generalize truthfulness across agents; but only if agents in the training data share a truthful generative process that enables the creation of a truthful persona. Overall, our findings suggest that models can exploit hierarchical structures in the data to learn abstract concepts like truthfulness.
翻訳日:2023-11-23 04:27:31 公開日:2023-11-21
# 位置対応コピー・ペーストデータ拡張による咬合下インスタンス分割

Instance Segmentation under Occlusions via Location-aware Copy-Paste Data Augmentation ( http://arxiv.org/abs/2310.17949v2 )

ライセンス: Link先を確認
Son Nguyen, Mikel Lainsa, Hung Dao, Daeyoung Kim, Giang Nguyen(参考訳) オクルージョン(Occlusion)は、コンピュータビジョン、特にインスタンスセグメンテーションにおける長年の問題である。 ACM MMSports 2023 DeepSportRadarは、バスケットボールのコンテキスト内での人間の対象のセグメンテーションに焦点を当てたデータセットと、閉塞シナリオの特別な評価基準を導入した。 データセットのささやかなサイズと、セグメンテーション対象の高度に変形可能な性質を考えると、この課題は堅牢なデータ拡張技術と賢く簡潔なディープラーニングアーキテクチャの応用を必要とする。 我々の研究(コンペで1位)は、まず、より広い分布でより多くのトレーニングサンプルを生成することができる新しいデータ拡張技術を提案する。 次に,CBNetV2をバックボーンとしたHybrid Task Cascade(HTC)フレームワークとMaskIoUヘッドを採用し,セグメンテーション性能を向上させる。 さらに,SWA(Stochastic Weight Averaging)トレーニング戦略を用いて,モデルの一般化を改善する。 その結果、課題データセットにおいて0.533の顕著なオクルージョンスコア(OM)を達成し、リーダーボード上のトップ1位を確保した。 ソースコードは、https://github.com/nguyendinhson-kaist/MMSports23-Seg-AutoIDで入手できる。

Occlusion is a long-standing problem in computer vision, particularly in instance segmentation. ACM MMSports 2023 DeepSportRadar has introduced a dataset that focuses on segmenting human subjects within a basketball context and a specialized evaluation metric for occlusion scenarios. Given the modest size of the dataset and the highly deformable nature of the objects to be segmented, this challenge demands the application of robust data augmentation techniques and wisely-chosen deep learning architectures. Our work (ranked 1st in the competition) first proposes a novel data augmentation technique, capable of generating more training samples with wider distribution. Then, we adopt a new architecture - Hybrid Task Cascade (HTC) framework with CBNetV2 as backbone and MaskIoU head to improve segmentation performance. Furthermore, we employ a Stochastic Weight Averaging (SWA) training strategy to improve the model's generalization. As a result, we achieve a remarkable occlusion score (OM) of 0.533 on the challenge dataset, securing the top-1 position on the leaderboard. Source code is available at this https://github.com/nguyendinhson-kaist/MMSports23-Seg-AutoID.
翻訳日:2023-11-23 04:26:49 公開日:2023-11-21
# 同時シーケンス生成のための統一セグメント・ツー・セグメンテーションフレームワーク

Unified Segment-to-Segment Framework for Simultaneous Sequence Generation ( http://arxiv.org/abs/2310.17940v3 )

ライセンス: Link先を確認
Shaolei Zhang, Yang Feng(参考訳) 同時シーケンス生成は、ストリーミング音声認識、同時機械翻訳、同時音声翻訳などのリアルタイムシナリオにおいて重要なタスクであり、ソースシーケンスを受信しながらターゲットシーケンスを生成する。 低レイテンシで高品質な生成を実現するのは、ソースとターゲットシーケンスのマッピングを学習して、生成する最適なモーメントを特定することにある。 しかし、既存の手法は、しばしば異なるシーケンスタイプに対するタスク固有のヒューリスティックに依存し、ソースターゲットマッピングを適応的に学習する能力を制限するとともに、様々な同時タスクに対するマルチタスク学習の探索を妨げる。 本稿では,同時シーケンス生成のための統合セグメント・ツー・セグメンテーション・フレームワーク(Seg2Seg)を提案する。 同時生成の過程では、モデルがソースセグメントの待機とターゲットセグメントの生成とを交互に行い、セグメンテーションをソースとターゲットの間の自然なブリッジとして機能させる。 これを達成するため、seg2segは目標とするソース間のピボットとして潜在セグメントを導入し、提案する期待トレーニングを通じてすべてのソース・ターゲットマッピングを探索し、生成の最適なモーメントを学習する。 複数の同時生成タスクの実験は、Seg2Segが最先端のパフォーマンスを達成し、様々なタスクにわたってより良い汎用性を示すことを示した。

Simultaneous sequence generation is a pivotal task for real-time scenarios, such as streaming speech recognition, simultaneous machine translation and simultaneous speech translation, where the target sequence is generated while receiving the source sequence. The crux of achieving high-quality generation with low latency lies in identifying the optimal moments for generating, accomplished by learning a mapping between the source and target sequences. However, existing methods often rely on task-specific heuristics for different sequence types, limiting the model's capacity to adaptively learn the source-target mapping and hindering the exploration of multi-task learning for various simultaneous tasks. In this paper, we propose a unified segment-to-segment framework (Seg2Seg) for simultaneous sequence generation, which learns the mapping in an adaptive and unified manner. During the process of simultaneous generation, the model alternates between waiting for a source segment and generating a target segment, making the segment serve as the natural bridge between the source and target. To accomplish this, Seg2Seg introduces a latent segment as the pivot between source to target and explores all potential source-target mappings via the proposed expectation training, thereby learning the optimal moments for generating. Experiments on multiple simultaneous generation tasks demonstrate that Seg2Seg achieves state-of-the-art performance and exhibits better generality across various tasks.
翻訳日:2023-11-23 04:26:24 公開日:2023-11-21
# GHZ型状態における最適絡み合い生成

Optimal entanglement generation in GHZ-type states ( http://arxiv.org/abs/2310.17365v2 )

ライセンス: Link先を確認
N. Giovenale, L. Hernandez-Martinez, A. P. Majtey, and A. Vald\'es-Hern\'andez(参考訳) エンタングルメント生成は、量子情報の分野で多くのアプリケーションにとって鍵となるが、高速で持続的な方法でエンタングルメントを作成することができるプロセスの識別も同様である。 この方向の進展の大部分は二部体系にのみ適用されており、多部体系における絡み合いの度合いは明らかにされていないが、我々は3量子GHZ型クラスにおける三部体絡みの最も高速かつ持続的な生成を優先する過程の同定に寄与している。 三次元相互作用ハミルトニアンを考えることによって、3つの三角形と絡み合い率のダイナミクスを分析し、ハミルトンの進化を補う最適な局所演算を同定し、3方向の絡み合いの生成を高速化し、所定のしきい値以下でその崩壊を防止する。 高度に絡み合った状態に達する速度を最大化する適切な局所演算は、1つの量子ビットにのみアクセスする必要があるという利点があるが、システムの実際の状態に依存する。 他の普遍的(状態に依存しない)局所演算は、同型スキームが十分な量の3つの三角形を維持することが分かる。 本結果は,マルチパーティシステムへの絡み合い率の理解を深め,様々な量子情報処理タスクにおける効率向上戦略に関するガイダンスを提供する。

The entanglement production is key for many applications in the realm of quantum information, but so is the identification of processes that allow to create entanglement in a fast and sustained way. Most of the advances in this direction have been circumscribed to bipartite systems only, and the rate of entanglement in multipartite system has been much less explored.Here we contribute to the identification of processes that favor the fastest and sustained generation of tripartite entanglement in a class of 3-qubit GHZ-type states. By considering a three-party interaction Hamiltonian, we analyse the dynamics of the 3-tangle and the entanglement rate to identify the optimal local operations that supplement the Hamiltonian evolution in order to speed-up the generation of three-way entanglement, and to prevent its decay below a predetermined threshold value. The appropriate local operation that maximizes the speed at which a highly-entangled state is reached has the advantage of requiring access to only one of the qubits, yet depends on the actual state of the system. Other universal (state-independent) local operations are found that conform schemes to maintain a sufficiently high amount of 3-tangle. Our results expand our understanding of entanglement rates to multipartite systems, and offer guidance regarding the strategies that improve the efficiency in various quantum information processing tasks.
翻訳日:2023-11-23 04:25:46 公開日:2023-11-21
# ルールのトライを探求する: 関連ルールの表現のための高速なデータ構造

Exploring the Trie of Rules: a fast data structure for the representation of association rules ( http://arxiv.org/abs/2310.17355v2 )

ライセンス: Link先を確認
Mikhail Kudriavtsev, Marija Bezbradica, Andrew McCarren(参考訳) アソシエーションルールマイニング技術は、トランザクショナルデータベースに実装されると大量のシーケンシャルデータを生成することができる。 関連ルールの集合から洞察を抽出することは、難しいプロセスであることが判明した。 ルールセットを調べる場合、基本的な問題は、有意義な知識を効率的に要約し、表現する方法である。 多くのアルゴリズムと戦略が知識抽出の問題に対処するために開発されたが、このプロセスの有効性はデータ構造によって制限される。 より良いデータ構造は、知識抽出プロセスの速度に十分に影響を与え得る。 本稿では,アソシエーションルールマイニングによって生成されるルールセットを格納するための新しいデータ構造,the trie of rulesを提案する。 結果として得られるデータ構造は、プリミネートされたルールで構成されたプレフィックスツリーグラフ構造である。 このグラフは、ルールをプレフィックスツリー内のパスとして、同様のルールが相互にオーバーレイするように格納する。 ツリーの各ノードは、列がこのノードであるルールを表し、先行ノードは、このノードからツリーの根へのパスである。 評価の結果,提案手法は有望であった。 特定のルールの検索やソートといった、多くの知識発見手法の基盤となる基本的な操作の時間的な観点で、データロスやメリットをほとんど持たないルールセットを圧縮する。 さらに,従来のデータ構造に比べて8倍に向上し,トラバース時間を大幅に改善した。

Association rule mining techniques can generate a large volume of sequential data when implemented on transactional databases. Extracting insights from a large set of association rules has been found to be a challenging process. When examining a ruleset, the fundamental question is how to summarise and represent meaningful mined knowledge efficiently. Many algorithms and strategies have been developed to address issue of knowledge extraction; however, the effectiveness of this process can be limited by the data structures. A better data structure can sufficiently affect the speed of the knowledge extraction process. This paper proposes a novel data structure, called the Trie of rules, for storing a ruleset that is generated by association rule mining. The resulting data structure is a prefix-tree graph structure made of pre-mined rules. This graph stores the rules as paths within the prefix-tree in a way that similar rules overlay each other. Each node in the tree represents a rule where a consequent is this node, and an antecedent is a path from this node to the root of the tree. The evaluation showed that the proposed representation technique is promising. It compresses a ruleset with almost no data loss and benefits in terms of time for basic operations such as searching for a specific rule and sorting, which is the base for many knowledge discovery methods. Moreover, our method demonstrated a significant improvement in traversing time, achieving an 8-fold increase compared to traditional data structures.
翻訳日:2023-11-23 04:25:22 公開日:2023-11-21
# テンソル化パウリ分解アルゴリズム

Tensorized Pauli decomposition algorithm ( http://arxiv.org/abs/2310.13421v2 )

ライセンス: Link先を確認
Lukas Hantzko, Lennart Binkowski, Sabhyata Gupta(参考訳) 本稿では,マトリクス乗算の代わりにマトリクススライシングを用いたパウリ分解のための新しい汎用アルゴリズムを提案する。 このアプローチはマルチキュービット行列の分解を著しく加速する。 量子コンピューティングと量子化学シミュレーションの分野におけるアルゴリズムの潜在的な重要性を裏付ける数値実験が、観測されたスピードアップを検証するために提供される。

This paper introduces a novel general-purpose algorithm for Pauli decomposition that employs matrix slicing instead of matrix multiplication. This approach significantly accelerates the decomposition of multi-qubit matrices. Numerical experiments are provided to validate the observed speedup, underscoring the algorithm's potential significance in the realm of quantum computing and quantum chemistry simulations.
翻訳日:2023-11-23 04:25:02 公開日:2023-11-21
# 絶対政策最適化

Absolute Policy Optimization ( http://arxiv.org/abs/2310.13230v2 )

ライセンス: Link先を確認
Weiye Zhao, Feihan Li, Yifan Sun, Rui Chen, Tianhao Wei, Changliu Liu(参考訳) 近年,信頼領域の政治強化学習は,複雑な制御タスクやゲームシナリオに対処する上で,目覚ましい成果を上げている。 しかし、このカテゴリの現代の最先端のアルゴリズムは、期待されるパフォーマンスの改善を強調し、最悪のパフォーマンス結果を制御する能力が欠如している。 この制限に対処するため、我々は新しい目的関数を導入し、その最適化により、ほぼ全ての性能サンプル(絶対性能)の下限における単調な改善が保証される。 この画期的な理論の進歩を考えると、我々はこの理論的に基礎付けられたアルゴリズムを一連の近似によって洗練し、絶対政策最適化 (apo) と呼ばれる実用的な解法を生み出した。 本実験は,継続制御ベンチマークタスクに挑戦する手法の有効性を実証し,atariゲームのマスタリングへの適用性を拡張する。 以上の結果から,APOは最先端のポリシー勾配アルゴリズムよりも大幅に優れており,期待される性能と最悪の性能の両方が大幅に向上することがわかった。

In recent years, trust region on-policy reinforcement learning has achieved impressive results in addressing complex control tasks and gaming scenarios. However, contemporary state-of-the-art algorithms within this category primarily emphasize improvement in expected performance, lacking the ability to control over the worst-case performance outcomes. To address this limitation, we introduce a novel objective function; by optimizing which, it will lead to guaranteed monotonic improvement in the lower bound of near-total performance samples (absolute performance). Considering this groundbreaking theoretical advancement, we then refine this theoretically grounded algorithm through a series of approximations, resulting in a practical solution called Absolute Policy Optimization (APO). Our experiments demonstrate the effectiveness of our approach across challenging continuous control benchmark tasks and extend its applicability to mastering Atari games. Our findings reveal that APO significantly outperforms state-of-the-art policy gradient algorithms, resulting in substantial improvements in both expected performance and worst-case performance.
翻訳日:2023-11-23 04:24:57 公開日:2023-11-21
# 非定常テスト時間適応のための層間自動重み付け

Layer-wise Auto-Weighting for Non-Stationary Test-Time Adaptation ( http://arxiv.org/abs/2311.05858v2 )

ライセンス: Link先を確認
Junyoung Park, Jin Kim, Hyeongjun Kwon, Ilhoon Yoon, Kwanghoon Sohn(参考訳) 実世界のアプリケーションにおける推論中のドメインシフトの必然性を考えると、テスト時間適応(TTA)はデプロイ後のモデル適応に不可欠である。 しかし、目標分布を継続的に変化させる現実のシナリオは、破滅的な忘れ込みやエラーの蓄積といった課題を呈している。 非定常領域シフトのための既存のTTAメソッドは、有効ではあるが過剰な計算負荷を発生させ、デバイス上の設定では実用的ではない。 本稿では,保存や集中的適応のための層を自律的に識別する連続的および漸進的ttaの自動重み付けアルゴリズムを提案する。 fim(fisher information matrix)を活用することで,まず学習重みを設計,無関係なものを保存しつつ,ログライクな変化に関連するレイヤを選択的に重視する。 そこで我々はさらに,特定の層をほぼ凍結させる指数的min-maxスケーラを提案する。 これにより、忘れとエラーの蓄積を最小限に抑え、非定常目標分布に効率よく適応する。 CIFAR-10C, CIFAR-100C, ImageNet-C を用いた実験により,本手法は従来の連続的および漸進的TTA手法より優れ, 計算負荷を著しく低減し, 連続的あるいは漸進的な目標領域への適応におけるFIMベースの学習重みの重要性を強調した。

Given the inevitability of domain shifts during inference in real-world applications, test-time adaptation (TTA) is essential for model adaptation after deployment. However, the real-world scenario of continuously changing target distributions presents challenges including catastrophic forgetting and error accumulation. Existing TTA methods for non-stationary domain shifts, while effective, incur excessive computational load, making them impractical for on-device settings. In this paper, we introduce a layer-wise auto-weighting algorithm for continual and gradual TTA that autonomously identifies layers for preservation or concentrated adaptation. By leveraging the Fisher Information Matrix (FIM), we first design the learning weight to selectively focus on layers associated with log-likelihood changes while preserving unrelated ones. Then, we further propose an exponential min-max scaler to make certain layers nearly frozen while mitigating outliers. This minimizes forgetting and error accumulation, leading to efficient adaptation to non-stationary target distribution. Experiments on CIFAR-10C, CIFAR-100C, and ImageNet-C show our method outperforms conventional continual and gradual TTA approaches while significantly reducing computational load, highlighting the importance of FIM-based learning weight in adapting to continuously or gradually shifting target domains.
翻訳日:2023-11-23 04:16:35 公開日:2023-11-21
# 形状とファンネル効果を考慮したメディア混合モデリングのためのベイズ法

Bayesian Methods for Media Mix Modelling with shape and funnel effects ( http://arxiv.org/abs/2311.05587v2 )

ライセンス: Link先を確認
Javier Marin(参考訳) 近年、生成AIの大きな進歩は、基礎物理学の原理に基づく高度な数学的概念を応用し、人工知能の能力を高める物理にインスパイアされたモデルの重要な役割を強調している。 これらのモデルの中で、拡散方程式に基づくモデルは画像品質を大幅に改善した。 本研究は, 気体の運動論の基礎となるマクスウェル・ボルツマン方程式と, マーケティング・ミックス・モデリング(MMM)応用におけるミカエル・メンテンモデルの可能性を検討することを目的とする。 本稿では,これらの方程式を階層ベイズモデルに組み込んで,消費者行動の分析を行う。 これらの方程式セットは、社会的相互作用や消費者広告的相互作用のような複雑なシステムのランダムなダイナミクスを正確に記述する上で優れている。

In recent years, significant progress in generative AI has highlighted the important role of physics-inspired models that utilize advanced mathematical concepts based on fundamental physics principles to enhance artificial intelligence capabilities. Among these models, those based on diffusion equations have greatly improved image quality. This study aims to explore the potential uses of Maxwell-Boltzmann equation, which forms the basis of the kinetic theory of gases, and the Michaelis-Menten model in Marketing Mix Modelling (MMM) applications. We propose incorporating these equations into Hierarchical Bayesian models to analyse consumer behaviour in the context of advertising. These equation sets excel in accurately describing the random dynamics in complex systems like social interactions and consumer-advertising interactions.
翻訳日:2023-11-23 04:16:10 公開日:2023-11-21
# META4:自己教師付きテキストと音声表現を用いたメタフォリックジェスチャーのセマンティックアライズド生成

META4: Semantically-Aligned Generation of Metaphoric Gestures Using Self-Supervised Text and Speech Representation ( http://arxiv.org/abs/2311.05481v2 )

ライセンス: Link先を確認
Mireille Fares, Catherine Pelachaud, Nicolas Obin(参考訳) 画像スキーマは、音声に存在する様々な概念の概念化と推論の仕方に影響を与える反復的な認知パターンである。 これらのパターンは認知プロセスに深く埋め込まれており、ジェスチャーを含む身体表現に反映されます。 特に、比喩的ジェスチャーは抽象概念を視覚的に表現するためにイメージスキーマと整合する本質的な特徴と意味を持っている。 ジェスチャーの形状と形状は、前腕と手を伸ばしたり、手の動きで線をトレースしてPATHの画像スキーマを視覚的に表現したりといった抽象概念を伝達することができる。 従来の行動生成モデルは、主に音声(音響特徴とテキスト)を利用して仮想エージェントの生成モデルを推進することに重点を置いている。 彼らは重要な意味情報を、比喩的ジェスチャーを効果的に生成するイメージスキーマが持つものと見なしていない。 この制限に対処するために,音声と画像スキーマの両方からメタファ的ジェスチャーを生成する深層学習手法META4を導入する。 私たちのアプローチは、入力テキストから画像スキーマを計算して、基礎となる意味的およびメタファ的意味を捉え、音声と計算された画像スキーマによって駆動されるメタファー的ジェスチャーを生成するという2つの主要な目標を持っています。 本手法は,画像スキーマの可能性を生かしながら音声駆動のメタファージェスチャを生成する最初の手法である。 提案手法の有効性を実証し,メタファ的ジェスチャーのモデル化における音声および画像スキーマの重要性を強調した。

Image Schemas are repetitive cognitive patterns that influence the way we conceptualize and reason about various concepts present in speech. These patterns are deeply embedded within our cognitive processes and are reflected in our bodily expressions including gestures. Particularly, metaphoric gestures possess essential characteristics and semantic meanings that align with Image Schemas, to visually represent abstract concepts. The shape and form of gestures can convey abstract concepts, such as extending the forearm and hand or tracing a line with hand movements to visually represent the image schema of PATH. Previous behavior generation models have primarily focused on utilizing speech (acoustic features and text) to drive the generation model of virtual agents. They have not considered key semantic information as those carried by Image Schemas to effectively generate metaphoric gestures. To address this limitation, we introduce META4, a deep learning approach that generates metaphoric gestures from both speech and Image Schemas. Our approach has two primary goals: computing Image Schemas from input text to capture the underlying semantic and metaphorical meaning, and generating metaphoric gestures driven by speech and the computed image schemas. Our approach is the first method for generating speech driven metaphoric gestures while leveraging the potential of Image Schemas. We demonstrate the effectiveness of our approach and highlight the importance of both speech and image schemas in modeling metaphoric gestures.
翻訳日:2023-11-23 04:15:56 公開日:2023-11-21
# ラベルなし事前データによる探索の加速

Accelerating Exploration with Unlabeled Prior Data ( http://arxiv.org/abs/2311.05067v2 )

ライセンス: Link先を確認
Qiyang Li, Jason Zhang, Dibya Ghosh, Amy Zhang, Sergey Levine(参考訳) スパース報酬信号からタスクを学習することは、標準強化学習(RL)アルゴリズムの大きな課題である。 しかし、現実の世界では、エージェントがスクラッチからスパース報酬のタスクを完全に解決する必要はない。 より頻繁に、私たちは、世界においてどのようなアクションと成果が可能かに関する十分なガイダンスを提供するための事前の経験を持ち、新しいタスクをより効果的に探索するために使用できるかもしれません。 本研究では,報酬ラベルのない先行データを用いて,新たなスパース報酬課題を解決するエージェントの探索を指導し,促進する方法について検討する。 我々は,オンライン経験から報奨モデルを学び,ラベルのない先行データを楽観的な報奨でラベル付けし,それと同時に下流政策や批判的最適化のためのオンラインデータを使用するシンプルなアプローチを提案する。 この一般的な公式は、antmazeドメイン、adroitハンド操作ドメイン、視覚シミュレーションロボット操作ドメインなど、tabula rasa探索が不十分ないくつかの難解なスパースワードドメインでの迅速な探索に繋がる。 その結果、既存のオンラインRLアルゴリズムにラベルのない事前データを組み込むことの容易さと、それを実現するための(意外な)有効性を強調した。

Learning to solve tasks from a sparse reward signal is a major challenge for standard reinforcement learning (RL) algorithms. However, in the real world, agents rarely need to solve sparse reward tasks entirely from scratch. More often, we might possess prior experience to draw on that provides considerable guidance about which actions and outcomes are possible in the world, which we can use to explore more effectively for new tasks. In this work, we study how prior data without reward labels may be used to guide and accelerate exploration for an agent solving a new sparse reward task. We propose a simple approach that learns a reward model from online experience, labels the unlabeled prior data with optimistic rewards, and then uses it concurrently alongside the online data for downstream policy and critic optimization. This general formula leads to rapid exploration in several challenging sparse-reward domains where tabula rasa exploration is insufficient, including the AntMaze domain, Adroit hand manipulation domain, and a visual simulated robotic manipulation domain. Our results highlight the ease of incorporating unlabeled prior data into existing online RL algorithms, and the (perhaps surprising) effectiveness of doing so.
翻訳日:2023-11-23 04:15:33 公開日:2023-11-21
# 電磁場からの絡み合いの収穫

Entanglement Harvesting from Electromagnetic Quantum Fields ( http://arxiv.org/abs/2311.04642v2 )

ライセンス: Link先を確認
Frieder Lindel, Alexa Herter, Valentin Gebhart, J\'er\^ome Faist, Stefan Y. Buhmann(参考訳) 真空状態を含む量子電磁場の多くの状態において、異なる時空領域の間に絡み合いがあり、空間のような分離領域さえ存在する。 これらの相関は収穫され、場と局所的に相互作用する量子系によって検出される。 本稿では,電気光学サンプリング(eos)に基づくエンタングルメントハーベスティング方式の実験的実装を提案する。 最先端のeos実験により、真空場から絡み合いを抽出し、一般的なthz場内の量子相関を研究できることを実証する。 さらに,真空場に存在するベル非局在性について検討する。 最後に,単ビームEOS構成におけるショットノイズを軽減する新しい手法を提案する。 これらの知見は、相対論的量子場理論の基礎的性質を実験的に探求する方法を開拓し、THz量子光学における診断ツールとしてEOSを強化する。

In many states of the quantum electromagnetic field, including the vacuum state, entanglement exists between different space-time regions -- even space-like separated ones. These correlations can be harvested and, thereby, detected by quantum systems which locally interact with the field. Here, we propose an experimental implementation of such an entanglement-harvesting scheme which is based on electro-optic sampling (EOS). We demonstrate that state-of-the-art EOS experiments enable one to harvest entanglement from the vacuum field and to study quantum correlations within general THz fields. We further show how Bell nonlocality present in the vacuum field can be probed. Finally, we introduce a novel approach to mitigate shot noise in single-beam EOS configurations. These findings pave the way for experimental inquiries into foundational properties of relativistic quantum field theory, and empower EOS as a diagnostic tool in THz quantum optics.
翻訳日:2023-11-23 04:15:13 公開日:2023-11-21
# 約$\ell_p$感度の計算

Computing Approximate $\ell_p$ Sensitivities ( http://arxiv.org/abs/2311.04158v2 )

ライセンス: Link先を確認
Swati Padmanabhan, David P. Woodruff, and Qiuyi Zhang(参考訳) 回帰タスクの次元的削減に関する最近の研究は、データセットにおける特定のデータポイントの重要性を推定する感度の概念を導入し、サブサンプリングによる低感度データポイントの除去後の近似の品質保証を提供する。 しかし、近似的な$\ell_p$回帰と同値である$\ell_p$感度を近似する高速アルゴリズムは、レバレッジスコアと呼ばれる$\ell_2$設定でのみ知られている。 本研究では,与えられた行列の$\ell_p$ 感性および関連する要約統計を近似する効率的なアルゴリズムを提案する。 特に、与えられた$n \times d$ 行列に対して、$o(n/\alpha)$ 感度計算のコストで $\alpha$-approximation をその$\ell_1$ 感度に計算する。 合計$\ell_p$感度(すなわち$\ell_p$感度の和)を推定するために、約$O(\sqrt{d})$感度計算のコストでの総感度に対する定数係数近似を演算する、$\ell_p$Lewis重みの重要サンプリングに基づくアルゴリズムを提供する。 さらに、$O(d)$の感度計算を用いて、最大$\ell_1$の感度を$\sqrt{d}$の係数まで推定する。 これらの結果を全て$\ell_p$ norms for $p > 1$に一般化する。 最後に、実世界のデータセットの幅広いクラスにおいて、全感度を迅速に近似し、理論的予測よりも著しく小さくし、実世界のデータセットは本質的な有効次元が低いことを示した。

Recent works in dimensionality reduction for regression tasks have introduced the notion of sensitivity, an estimate of the importance of a specific datapoint in a dataset, offering provable guarantees on the quality of the approximation after removing low-sensitivity datapoints via subsampling. However, fast algorithms for approximating $\ell_p$ sensitivities, which we show is equivalent to approximate $\ell_p$ regression, are known for only the $\ell_2$ setting, in which they are termed leverage scores. In this work, we provide efficient algorithms for approximating $\ell_p$ sensitivities and related summary statistics of a given matrix. In particular, for a given $n \times d$ matrix, we compute $\alpha$-approximation to its $\ell_1$ sensitivities at the cost of $O(n/\alpha)$ sensitivity computations. For estimating the total $\ell_p$ sensitivity (i.e. the sum of $\ell_p$ sensitivities), we provide an algorithm based on importance sampling of $\ell_p$ Lewis weights, which computes a constant factor approximation to the total sensitivity at the cost of roughly $O(\sqrt{d})$ sensitivity computations. Furthermore, we estimate the maximum $\ell_1$ sensitivity, up to a $\sqrt{d}$ factor, using $O(d)$ sensitivity computations. We generalize all these results to $\ell_p$ norms for $p > 1$. Lastly, we experimentally show that for a wide class of matrices in real-world datasets, the total sensitivity can be quickly approximated and is significantly smaller than the theoretical prediction, demonstrating that real-world datasets have low intrinsic effective dimensionality.
翻訳日:2023-11-23 04:14:58 公開日:2023-11-21
# テストタイムフリーランチ付き省エネルギーvae

Energy-Calibrated VAE with Test Time Free Lunch ( http://arxiv.org/abs/2311.04071v2 )

ライセンス: Link先を確認
Yihong Luo, Siya Qiu, Xingjian Tao, Yujun Cai, Jing Tang(参考訳) 本稿では,Energy-Calibrated VAE(EC-VAE)と呼ばれる可変オートエンコーダ(VAE)の強化に条件付きエネルギーベースモデル(EBM)を利用する新しい生成モデルを提案する。 特に、VAEは、生成方向に生成されたサンプルの調整されたトレーニングが欠如しているため、ぼやけたサンプルに悩まされることが多い。 一方、ESMは高品質なサンプルを生成することができるが、高価なマルコフ連鎖モンテカルロ(MCMC)サンプリングが必要である。 これらの課題に対処するために,テスト時の生成に必要とせず,トレーニング中のVAE生成方向を調整するための条件付きEMMを導入する。 特に,ec-vaeを入力データとキャリブレーション試料の両方に適応重みで訓練し,mcmcサンプリングを回避しつつ有効性を高める。 さらに,ec-vaeのキャリブレーションアイデアを変分学習と正規化に拡張し,神経伝達前と範囲ヌル理論によるゼロショット画像復元の新たな応用にec-vaeを適用する。 提案手法は, 画像生成とゼロショット画像復元の2つの応用により評価し, 実験により, 単段非敵生成よりも最先端の性能が得られることを示した。

In this paper, we propose a novel generative model that utilizes a conditional Energy-Based Model (EBM) for enhancing Variational Autoencoder (VAE), termed Energy-Calibrated VAE (EC-VAE). Specifically, VAEs often suffer from blurry generated samples due to the lack of a tailored training on the samples generated in the generative direction. On the other hand, EBMs can generate high-quality samples but require expensive Markov Chain Monte Carlo (MCMC) sampling. To address these issues, we introduce a conditional EBM for calibrating the generative direction of VAE during training, without requiring it for the generation at test time. In particular, we train EC-VAE upon both the input data and the calibrated samples with adaptive weight to enhance efficacy while avoiding MCMC sampling at test time. Furthermore, we extend the calibration idea of EC-VAE to variational learning and normalizing flows, and apply EC-VAE to an additional application of zero-shot image restoration via neural transport prior and range-null theory. We evaluate the proposed method with two applications, including image generation and zero-shot image restoration, and the experimental results show that our method achieves the state-of-the-art performance over single-step non-adversarial generation.
翻訳日:2023-11-23 04:14:25 公開日:2023-11-21
# 統一乱数生成ハードウェア設計を生成、シミュレート、デプロイするために高レベル合成と大規模言語モデルを活用する

Leveraging High-Level Synthesis and Large Language Models to Generate, Simulate, and Deploy a Uniform Random Number Generator Hardware Design ( http://arxiv.org/abs/2311.03489v2 )

ライセンス: Link先を確認
James T. Meech(参考訳) 本稿では,大規模言語モデルツールを用いたハードウェア設計のための高レベル合成手法を提案する。 この方法論は、大きな言語モデルを除くオープンソースツールのみを使用する。 ケーススタディとして,我々の手法を用いて,whidboneインタフェースを用いた変分連続乱数生成器の設計を行った。 大規模言語モデル生成シミュレーションとdieharder randomness test suiteを用いて,乱数生成器設計の機能と品質を検証する。 ケーススタディでは,大規模言語モデルチャットログ,Pythonスクリプト,Verilogスクリプト,シミュレーション結果をすべて文書化しています。 オープンソースシリコン130nm設計ツールと組み合わされたハードウェア設計手法は、アプリケーション固有の集積回路設計に革命をもたらすと信じています。 われわれの手法は、モノのインターネットのためのドメイン固有のコンピューティングアクセラレータを構築する際の参入障壁を著しく低くし、より近代的なプロセスノードにおける後の製造のためのコンセプトプロトタイプの証明を行う。

We present a new high-level synthesis methodology for using large language model tools to generate hardware designs. The methodology uses exclusively open-source tools excluding the large language model. As a case study, we use our methodology to generate a permuted congruential random number generator design with a wishbone interface. We verify the functionality and quality of the random number generator design using large language model-generated simulations and the Dieharder randomness test suite. We document all the large language model chat logs, Python scripts, Verilog scripts, and simulation results used in the case study. We believe that our method of hardware design generation coupled with the open source silicon 130 nm design tools will revolutionize application-specific integrated circuit design. Our methodology significantly lowers the bar to entry when building domain-specific computing accelerators for the Internet of Things and proof of concept prototypes for later fabrication in more modern process nodes.
翻訳日:2023-11-23 04:13:55 公開日:2023-11-21
# プライバシーに敏感なレコメンダシステムのためのマルチリゾリューション拡散

Multi-Resolution Diffusion for Privacy-Sensitive Recommender Systems ( http://arxiv.org/abs/2311.03488v3 )

ライセンス: Link先を確認
Derek Lilienthal, Paul Mello, Magdalini Eirinaki, Stas Tiomkin(参考訳) 推奨システムはWebエクスペリエンスの不可欠なコンポーネントになっているが、ユーザデータへの依存度が高いため、プライバシやセキュリティ上の懸念が高まる。 ユーザデータを合成データで置換することは、これらの懸念に対処できますが、現実のデータセットを正確に複製することは、非常に難しい問題です。 生成AIの最近の進歩は、様々な領域にわたる現実的なデータを生成するための拡散モデルの印象的な能力を示している。 本研究では,高精度なレコメンデータシステムのトレーニングに必要な実世界のデータセットの複雑なパターンをキャプチャするスコアベース拡散レコメンデーションモジュール(sdrm)を提案する。 SDRMは、ユーザのプライバシを保護するために既存のデータセットを置き換える合成データを生成することができる。 提案手法は, 生成逆数ネットワーク, 変分オートエンコーダなどの競合するベースラインよりも優れており, 様々なデータセットを合成し, 元のデータをRecall@$k$で平均4.30%, NDCG@$k$で平均4.65%改善する拡散モデルを提案する。

While recommender systems have become an integral component of the Web experience, their heavy reliance on user data raises privacy and security concerns. Substituting user data with synthetic data can address these concerns, but accurately replicating these real-world datasets has been a notoriously challenging problem. Recent advancements in generative AI have demonstrated the impressive capabilities of diffusion models in generating realistic data across various domains. In this work we introduce a Score-based Diffusion Recommendation Module (SDRM), which captures the intricate patterns of real-world datasets required for training highly accurate recommender systems. SDRM allows for the generation of synthetic data that can replace existing datasets to preserve user privacy, or augment existing datasets to address excessive data sparsity. Our method outperforms competing baselines such as generative adversarial networks, variational autoencoders, and recently proposed diffusion models in synthesizing various datasets to replace or augment the original data by an average improvement of 4.30% in Recall@$k$ and 4.65% in NDCG@$k$.
翻訳日:2023-11-23 04:13:38 公開日:2023-11-21
# 量子材料シミュレーションのためのペアリンググラフニューラルネットワーク

Pairing-based graph neural network for simulating quantum materials ( http://arxiv.org/abs/2311.02143v2 )

ライセンス: Link先を確認
Di Luo, David D. Dai, and Liang Fu(参考訳) 量子多体系をシミュレートするペアリング型グラフニューラルネットワークを開発した。 我々のアーキテクチャは、グラフニューラルネットワークによってパラメータ化された一般化ペア振幅で、BCS型ゲミナル波動関数を増強する。 我々のニューラルネットワークを用いた変分モンテカルロは、多電子系をシミュレートするための高精度でフレキシブルでスケーラブルな手法を提供する。 この手法を2次元半導体電子ホール二層膜に適用し、エキシトンボース・アインシュタイン凝縮体、電子ホール超伝導体、二層ウィグナー結晶を含む様々な相互作用誘起相の正確な結果を得る。 本研究は,量子材料シミュレーションにおける物理的動機付け型ニューラルネットワーク波動関数の可能性を示す。

We develop a pairing-based graph neural network for simulating quantum many-body systems. Our architecture augments a BCS-type geminal wavefunction with a generalized pair amplitude parameterized by a graph neural network. Variational Monte Carlo with our neural network simultaneously provides an accurate, flexible, and scalable method for simulating many-electron systems. We apply this method to two-dimensional semiconductor electron-hole bilayers and obtain accurate results on a variety of interaction-induced phases, including the exciton Bose-Einstein condensate, electron-hole superconductor, and bilayer Wigner crystal. Our study demonstrates the potential of physically-motivated neural network wavefunctions for quantum materials simulations.
翻訳日:2023-11-23 04:12:39 公開日:2023-11-21
# 主観的ワッサースタイン状態のマッチングによるオフラインの模倣

Offline Imitation from Observation via Primal Wasserstein State Occupancy Matching ( http://arxiv.org/abs/2311.01331v2 )

ライセンス: Link先を確認
Kai Yan, Alexander G. Schwing, Yu-xiong Wang(参考訳) 現実のシナリオでは、環境との任意のインタラクションはコストがかかり、専門家によるデモンストレーションのアクションは必ずしも利用できない。 両方の必要性を減らすために、オフライン学習 from Observations (LfO) が広範囲に研究され、エージェントは専門家状態のみでタスクを解くことを学ぶ。 state-of-the-art distribution correction estimation (dice)法は、学習者と専門家のポリシーの間の状態占有率の相違を最小限に抑える。 しかしながら、これらは、ルビンシュタイン双対性(英語版)(Rubinstein duality)とワッサーシュタイン距離(英語版)(Wasserstein distance) (KL と $\chi^2$) のどちらかに制限されている。 この問題に対処するために,我々は,専門家と学習者の間の初歩的なwasserstein距離を悲観的正規化子で最小化し,比較的に学習した距離をwasserstein距離の基準として活用するprimal wasserstein dice (pw-dice)を提案する。 理論的には、我々のフレームワークは最先端のSMODICEの一般化であり、$f$-divergence と Wasserstein の最小化を統一することを証明する。 実験的にPW-DICEは複数のテストベッド上での最先端の手法を改善する。

In real-world scenarios, arbitrary interactions with the environment can often be costly, and actions of expert demonstrations are not always available. To reduce the need for both, Offline Learning from Observations (LfO) is extensively studied, where the agent learns to solve a task with only expert states and \textit{task-agnostic} non-expert state-action pairs. The state-of-the-art DIstribution Correction Estimation (DICE) methods minimize the state occupancy divergence between the learner and expert policies. However, they are limited to either $f$-divergences (KL and $\chi^2$) or Wasserstein distance with Rubinstein duality, the latter of which constrains the underlying distance metric crucial to the performance of Wasserstein-based solutions. To address this problem, we propose Primal Wasserstein DICE (PW-DICE), which minimizes the primal Wasserstein distance between the expert and learner state occupancies with a pessimistic regularizer and leverages a contrastively learned distance as the underlying metric for the Wasserstein distance. Theoretically, we prove that our framework is a generalization of the state-of-the-art, SMODICE, and unifies $f$-divergence and Wasserstein minimization. Empirically, we find that PW-DICE improves upon several state-of-the-art methods on multiple testbeds.
翻訳日:2023-11-23 04:12:29 公開日:2023-11-21
# openharmonyのためのソフトウェアエンジニアリング:研究ロードマップ

Software Engineering for OpenHarmony: A Research Roadmap ( http://arxiv.org/abs/2311.01311v2 )

ライセンス: Link先を確認
Li Li, Xiang Gao, Hailong Sun, Chunming Hu, Xiaoyu Sun, Haoyu Wang, Haipeng Cai, Ting Su, Xiapu Luo, Tegawend\'e F. Bissyand\'e, Jacques Klein, John Grundy, Tao Xie, Haibo Chen, Huaimin Wang(参考訳) モバイルソフトウェアエンジニアリングは、何十年にもわたってホットな研究トピックだった。 本誌の同僚研究者たちは、この分野でさまざまなアプローチ(androidだけで7000以上の出版物)を提案して、現在のモバイルエコシステムの大きな成功に貢献した。 既存の研究は、主にAndroidとiOSという人気のモバイルプラットフォームに焦点を当てている。 新しくオープンソース化されたモバイルプラットフォームであるOpenHarmonyはめったに検討されていないが、OpenHarmonyが中国市場の3分の1を占めることが予想されているため、最も注目する必要がある。 このギャップを埋めるために、私たちはモバイルソフトウェアエンジニアリングコミュニティに、同僚の研究者がOpenHarmonyに有望なアプローチを貢献するように促す研究ロードマップを提示します。 具体的には、モバイルソフトウェアエンジニアリングの文献レビューを行い、モバイルコミュニティがターゲットとしている問題と、どのように解決されたかを理解することから始める。 その後、OpenHarmonyの既存の(限定的な)成果を要約し、Android/iOSとOpenHarmonyの間の研究ギャップを強調します。 この研究ギャップは最終的に、openharmonyのソフトウェアエンジニアリング調査を行うためのロードマップの形成に役立ちます。

Mobile software engineering has been a hot research topic for decades. Our fellow researchers have proposed various approaches (with over 7,000 publications for Android alone) in this field that essentially contributed to the great success of the current mobile ecosystem. Existing research efforts mainly focus on popular mobile platforms, namely Android and iOS. OpenHarmony, a newly open-sourced mobile platform, has rarely been considered, although it is the one requiring the most attention as OpenHarmony is expected to occupy one-third of the market in China (if not in the world). To fill the gap, we present to the mobile software engineering community a research roadmap for encouraging our fellow researchers to contribute promising approaches to OpenHarmony. Specifically, we start by presenting a literature review of mobile software engineering, attempting to understand what problems have been targeted by the mobile community and how they have been resolved. We then summarize the existing (limited) achievements of OpenHarmony and subsequently highlight the research gap between Android/iOS and OpenHarmony. This research gap eventually helps in forming the roadmap for conducting software engineering research for OpenHarmony.
翻訳日:2023-11-23 04:12:02 公開日:2023-11-21
# Video-LLaVA: 投影前のアライメントによる統一視覚表現の学習

Video-LLaVA: Learning United Visual Representation by Alignment Before Projection ( http://arxiv.org/abs/2311.10122v2 )

ライセンス: Link先を確認
Bin Lin, Yang Ye, Bin Zhu, Jiaxi Cui, Munan Ning, Peng Jin, Li Yuan(参考訳) large vision-language model (lvlm)は、視覚言語理解における様々な下流タスクのパフォーマンスを高めた。 既存のアプローチのほとんどは、画像とビデオを別々の特徴空間にエンコードし、それを大きな言語モデルへの入力として入力する。 しかし、画像と動画の統一トークン化が欠如していること、すなわち投影前の不一致が原因で、大きな言語モデル(llm)が複数の不適切な投影層からマルチモーダルなインタラクションを学ぶことが困難になる。 本研究では,視覚表現を言語特徴空間に統一し,基礎的LLMを統一LVLMに向けて前進させる。 その結果,画像と映像の混在したデータセットから学習し,相互に強化する,単純かつ堅牢なlvlmベースラインであるvideo-llavaが確立された。 Video-LLaVAは5つの画像問合せデータセットと4つの画像ベンチマークツールキットにまたがる9つの画像ベンチマークにおいて、優れたパフォーマンスを実現している。 さらにビデオラバはビデオチャットgptを5.8%,9.9%,18.6%,10.1%,msrvtt,msvd,tgif,activitynetをそれぞれ上回っている。 特に、大規模な実験では、ビデオ-LLaVAは、画像やビデオ用に特別に設計されたモデルよりも優れた、統一された視覚表現内の画像とビデオに相互に利益をもたらすことを示した。 本研究の目的は,LLMのマルチモーダルインプットに対する控えめな洞察を提供することである。

The Large Vision-Language Model (LVLM) has enhanced the performance of various downstream tasks in visual-language understanding. Most existing approaches encode images and videos into separate feature spaces, which are then fed as inputs to large language models. However, due to the lack of unified tokenization for images and videos, namely misalignment before projection, it becomes challenging for a Large Language Model (LLM) to learn multi-modal interactions from several poor projection layers. In this work, we unify visual representation into the language feature space to advance the foundational LLM towards a unified LVLM. As a result, we establish a simple but robust LVLM baseline, Video-LLaVA, which learns from a mixed dataset of images and videos, mutually enhancing each other. Video-LLaVA achieves superior performances on a broad range of 9 image benchmarks across 5 image question-answering datasets and 4 image benchmark toolkits. Additionally, our Video-LLaVA also outperforms Video-ChatGPT by 5.8%, 9.9%, 18.6%, and 10.1% on MSRVTT, MSVD, TGIF, and ActivityNet, respectively. Notably, extensive experiments demonstrate that Video-LLaVA mutually benefits images and videos within a unified visual representation, outperforming models designed specifically for images or videos. We aim for this work to provide modest insights into the multi-modal inputs for the LLM.
翻訳日:2023-11-23 04:04:43 公開日:2023-11-21
# 学術検索エンジンにおけるバイアス永続性の検討--GoogleとSemantic Scholarのアルゴリズム監査

Examining bias perpetuation in academic search engines: an algorithm audit of Google and Semantic Scholar ( http://arxiv.org/abs/2311.09969v2 )

ライセンス: Link先を確認
Celina Kacperski, Mona Bielig, Mykola Makhortykh, Maryna Sydorova, Roberto Ulloa(参考訳) 研究者は学術的なWeb検索エンジンを使って科学的な情報源を見つけるが、検索エンジンのメカニズムはクエリに埋め込まれたバイアスに沿ったコンテンツを選択的に提示する。 本研究では,Google Scholar と Semantic Scholar に誘導される確認バイアスクエリが,スキュー結果をもたらすかどうかを検討する。 6つの問合せ(「ワクチン」や「インターネット利用」など健康・技術分野のトピック)を検索結果の相違点として分析した。 バイアスドクエリ("便益"や"リスク"をターゲットとする)が検索結果にバイアスを伴い,テクノロジ関連のクエリは,より大きな差異を示す。 全体として、Semantic ScholarはGoogle Scholarよりも格差が少ない。 偏極性が増すほど、より歪んだ結果が得られなかった。 検証バイアスが持続する学術的な検索結果は、研究者と市民の両方が証拠を探していることに強い意味を持つ。 科学調査と学術検索エンジンの相互作用を探究するには、さらなる研究が必要である。

Researchers rely on academic web search engines to find scientific sources, but search engine mechanisms may selectively present content that aligns with biases embedded in the queries. This study examines whether confirmation-biased queries prompted into Google Scholar and Semantic Scholar will yield skewed results. Six queries (topics across health and technology domains such as "vaccines" or "internet use") were analyzed for disparities in search results. We confirm that biased queries (targeting "benefits" or "risks") affect search results in line with the bias, with technology-related queries displaying more significant disparities. Overall, Semantic Scholar exhibited fewer disparities than Google Scholar. Topics rated as more polarizing did not consistently show more skewed results. Academic search results that perpetuate confirmation bias have strong implications for both researchers and citizens searching for evidence. More research is needed to explore how scientific inquiry and academic search engines interact.
翻訳日:2023-11-23 04:04:17 公開日:2023-11-21
# バナッハ・タルスキ埋め込みと変圧器

Banach-Tarski Embeddings and Transformers ( http://arxiv.org/abs/2311.09387v2 )

ライセンス: Link先を確認
Joshua Maher(参考訳) 任意の再帰的データ構造の高次元ベクトルへの埋め込みの新しい構成を導入する。 これらの埋め込みは変圧器の潜伏状態ベクトルの解釈可能なモデルを提供する。 組込み次元が十分に大きい場合には、これらの組込みを元のデータ構造にデコードできることを実証する。 この復号アルゴリズムは変換器として自然な実装を有する。 また、これらの埋め込みベクトルを直接操作して、デコードせずに基礎データ上で計算を実行することも示す。 例として,埋め込み空間におけるベクトル演算のみを用いて,埋め込みトークンシーケンスの組込み構文木を構築するアルゴリズムを提案する。

We introduce a new construction of embeddings of arbitrary recursive data structures into high dimensional vectors. These embeddings provide an interpretable model for the latent state vectors of transformers. We demonstrate that these embeddings can be decoded to the original data structure when the embedding dimension is sufficiently large. This decoding algorithm has a natural implementation as a transformer. We also show that these embedding vectors can be manipulated directly to perform computations on the underlying data without decoding. As an example we present an algorithm that constructs the embedded parse tree of an embedded token sequence using only vector operations in embedding space.
翻訳日:2023-11-23 04:04:01 公開日:2023-11-21
# 脱分極雑音下におけるシミュレートアニーリングによる表面コード復号の比較検討

Comparative study of decoding the surface code using simulated annealing under depolarizing noise ( http://arxiv.org/abs/2311.07973v2 )

ライセンス: Link先を確認
Yusaku Takeuchi, Yugo Takada, Tatsuya Sakashita, Jun Fujisaki, Hirotaka Oshima, Shintaro Sato, Keisuke Fujii(参考訳) この問題をイジングモデル最適化にマッピングすることにより,ノイズの非分極下での表面符号の復号法を検討した。 ソフト制約のない2種類のマッピングと、cpu上に実装されたシミュレーションアニーリング、 ising問題に特化したハードウェアアーキテクチャである"fujitsu digital annealer"(da)、厳密な整数プログラミングソルバであるcplexなど、様々な最適化ソルバについて検討する。 提案したIsing-based decoding 手法は,雑音を非分極する最小値完全マッチング (MWPM) アルゴリズムよりも精度が高く,CPLEX を用いた最小距離復号法に匹敵する。 単一コアCPUと比較すると,復号化時間はMWPMよりも長いが,並列化が可能であり,専用ハードウェアの実装が容易であり,将来的な高速化が期待できる。 ソフト制約のないイジングモデルへのマッピングについて,saデコーダはソフト制約を伴わずに高い精度を示した。 対照的に、DAデコーダは2つのマッピング方法の差が少なく、DAはソフト制約の下でも少ないイテレーション数でより良い解を見つけることができることを示している。 量子コンピュータ制御デバイスで効率的かつ高速にデコーダを実現するためには,この結果が重要である。

We explored decoding methods for the surface code under depolarizing noise by mapping the problem into the Ising model optimization. We consider two kinds of mapping with and without a soft constraint and also various optimization solvers, including simulated annealing implemented on a CPU, "Fujitsu Digital Annealer" (DA), a hardware architecture specialized for the Ising problems, and CPLEX, an exact integer programming solver. We find that the proposed Ising-based decoding approaches provide higher accuracy compared to the minimum-weight perfect matching (MWPM) algorithm for depolarizing noise and comparable to minimum distance decoding using CPLEX. While decoding time is longer than MWPM when we compare it with a single core CPU, our method is amenable to parallelization and easy to implement on dedicated hardware, suggesting potential future speedups. Regarding the mapping methods to the Ising model with and without a soft constraint, the SA decoder yielded higher accuracy without a soft constraint. In contrast, the DA decoder shows less difference between the two mapping methods, which indicates that DA can find a better solution with smaller number of iterations even under the soft constraint. Our results are important for devising efficient and fast decoders feasible with quantum computer control devices.
翻訳日:2023-11-23 04:03:35 公開日:2023-11-21
# 視覚課題に対するフェデレーションクラスインクリメンタルラーニングにおけるカタストロフィック・フォーミングの緩和のためのデータフリーアプローチ

A Data-Free Approach to Mitigate Catastrophic Forgetting in Federated Class Incremental Learning for Vision Tasks ( http://arxiv.org/abs/2311.07784v2 )

ライセンス: Link先を確認
Sara Babakniya, Zalan Fabian, Chaoyang He, Mahdi Soltanolkotabi, Salman Avestimehr(参考訳) 深層学習モデルは、新しいデータでトレーニングされたときに、事前学習された情報を忘れることに苦しむことが多い。 この問題は、データが分散され、ユーザ毎に独立して変更できるフェデレーション学習(fl)において悪化する。 この破滅的な忘れを中央集権的に解決するために、多くの解決策が提案されている。 しかし、プライバシの懸念やリソースの制限など、FLに固有の複雑さがあるため、直接適用しない。 これらの課題を克服するために、過去の分布からサンプルを合成するために生成モデルを利用する$\textbf{federated class incremental learning}$のフレームワークを提案する。 このデータは後にトレーニングデータとともに利用でき、破滅的な忘れを軽減できる。 プライバシを保護するため、生成モデルはクライアントからデータを要求することなく、各タスクの最後にデータフリーなメソッドを使用してサーバ上でトレーニングされる。 さらに、当社のソリューションでは、ユーザに古いデータやモデルを保存する必要はなく、いつでもトレーニングに参加/分離する自由が得られます。 さらに、フェデレートされた連続学習に適したImageNetデータセットの新たな再グループ化であるSuperImageNetを紹介する。 複数のデータセットに対する広範な実験により,既存のベースラインと比較して,大幅な改善が示された。

Deep learning models often suffer from forgetting previously learned information when trained on new data. This problem is exacerbated in federated learning (FL), where the data is distributed and can change independently for each user. Many solutions are proposed to resolve this catastrophic forgetting in a centralized setting. However, they do not apply directly to FL because of its unique complexities, such as privacy concerns and resource limitations. To overcome these challenges, this paper presents a framework for $\textbf{federated class incremental learning}$ that utilizes a generative model to synthesize samples from past distributions. This data can be later exploited alongside the training data to mitigate catastrophic forgetting. To preserve privacy, the generative model is trained on the server using data-free methods at the end of each task without requesting data from clients. Moreover, our solution does not demand the users to store old data or models, which gives them the freedom to join/leave the training at any time. Additionally, we introduce SuperImageNet, a new regrouping of the ImageNet dataset specifically tailored for federated continual learning. We demonstrate significant improvements compared to existing baselines through extensive experiments on multiple datasets.
翻訳日:2023-11-23 04:03:13 公開日:2023-11-21
# 物理的に着想を得たフェルミオン-ビットマッピングによる絡み合いの低減

Reducing Entanglement With Physically-Inspired Fermion-To-Qubit Mappings ( http://arxiv.org/abs/2311.07409v2 )

ライセンス: Link先を確認
Teodor Parella-Dilm\'e, Korbinian Kottmann, Leonardo Zambrano, Luke Mortimer, Jakob S. Kottmann and Antonio Ac\'in(参考訳) ab-initio電子構造シミュレーションでは、フェルミオンからクォービットへの写像はフェルミオン問題の初期符号化ステップを表す。 この研究は、関心の状態をシミュレートする際の絡み合い要求を大幅に単純化する、マッピングを構築する物理的に着想を得た手法を導入する。 電子励起の存在はマッピングの構築を駆動し、キュービット空間におけるターゲット状態の相関を減少させる。 従来のマッピングを用いた先行研究の古典的・量子的変分法と比較して,小分子の基底状態のシミュレーションを行い,性能の向上を観測した。 特に量子側では、ryハードウェアの効率の良いアンサッツを用いて、lih$, $h_2$, $(h_2)_2$, $h_4$分子の化学精度を達成するために、我々のマッピングは多数の絡み合う層を減少させる必要がある。 さらに,n_2$分子の密度行列再正規化群アルゴリズムにおける基底状態シミュレーション性能も向上した。

In ab-initio electronic structure simulations, fermion-to-qubit mappings represent the initial encoding step of the fermionic problem into qubits. This work introduces a physically-inspired method for constructing mappings that significantly simplify entanglement requirements when simulating states of interest. The presence of electronic excitations drives the construction of our mappings, reducing correlations for target states in the qubit space. To benchmark our method, we simulate ground states of small molecules and observe an enhanced performance when compared to classical and quantum variational approaches from prior research employing conventional mappings. In particular, on the quantum side, our mappings require a reduced number of entangling layers to achieve chemical accuracy for the $LiH$, $H_2$, $(H_2)_2$ and $H_4$ molecules using the RY hardware efficient ansatz. In addition, our mappings also provide an enhanced ground state simulation performance in the density matrix renormalization group algorithm for the $N_2$ molecule.
翻訳日:2023-11-23 04:02:54 公開日:2023-11-21
# 商空間量子符号

Quotient Space Quantum Codes ( http://arxiv.org/abs/2311.07265v2 )

ライセンス: Link先を確認
JingLei Xia(参考訳) 量子誤り訂正符号は、量子コンピューティングと通信に不可欠である。 現在、これらの符号は、主に加法、非加法、表面符号に分類されている。 加法符号および非加法符号は、安定化器Gの1つ以上の不変部分空間を利用して量子符号を構成する。 したがって、これらの不変部分空間の選択は重要な問題である。 本稿では,商空間符号と商空間量子符号の構成法を導入することにより,この問題に対する解法を提案する。 この新しいフレームワークは、加法と非加法量子符号を統一する。 このフレームワークの特別なケースとして,コードワード安定化符号を実証し,誤り訂正距離を補う。 さらに、この量子符号に対するシングルトン境界の簡単な証明として、商空間符号の符号境界を確立し、純粋かつ不純な符号の符号境界について議論する。 商空間アプローチは量子コードの研究に簡潔で明確な数学的形式を提供する。

Quantum error-correcting codes are crucial for quantum computing and communication. Currently, these codes are mainly categorized into additive, non-additive, and surface codes. Additive and non-additive codes utilize one or more invariant subspaces of the stabilizer G to construct quantum codes. Therefore, the selection of these invariant subspaces is a key issue. In this paper, we propose a solution to this problem by introducing quotient space codes and a construction method for quotient space quantum codes. This new framework unifies additive and non-additive quantum codes. We demonstrate the codeword stabilizer codes as a special case within this framework and supplement its error-correction distance. Furthermore, we provide a simple proof of the Singleton bound for this quantum code by establishing the code bound of quotient space codes and discuss the code bounds for pure and impure codes. The quotient space approach offers a concise and clear mathematical form for the study of quantum codes.
翻訳日:2023-11-23 04:02:36 公開日:2023-11-21
# SCL-VI:産業欠陥の視覚検査のための自己教師型文脈学習

SCL-VI: Self-supervised Context Learning for Visual Inspection of Industrial Defects ( http://arxiv.org/abs/2311.06504v2 )

ライセンス: Link先を確認
Peng Wang, Haiming Yao, Wenyong Yu(参考訳) 産業製品における欠陥の教師なし視覚検査は、製品表面のかなりの変化のために重大な課題となる。 現在の教師なしモデルは、テクスチャの検出とオブジェクトの欠陥のバランスを保ち、遅延表現と複雑な特徴を識別する能力が欠如している。 本稿では,有名なジグソーパズルに取り組むことで,最適なエンコーダを導出する自己教師型学習アルゴリズムを提案する。 目的画像を9つのパッチに分割し、エンコーダに2つのパッチ間の相対的な位置関係を予測させ、リッチなセマンティクスを抽出する。 次に,正規表現と異常表現の差異を強調する親和性提示法を提案する。 古典的サポートベクトルデータ記述アルゴリズムを活用すると、最終的な検出結果が得られる。 実験結果から,広範に使用されているMVTec ADデータセットにおいて,95.8%,96.8%の精度で検出およびセグメンテーション性能が向上し,テクスチャとオブジェクトの両欠陥に対する最先端のベンチマークが確立された。 包括的実験は,多種多様な産業応用における我々のアプローチの有効性を強調する。

The unsupervised visual inspection of defects in industrial products poses a significant challenge due to substantial variations in product surfaces. Current unsupervised models struggle to strike a balance between detecting texture and object defects, lacking the capacity to discern latent representations and intricate features. In this paper, we present a novel self-supervised learning algorithm designed to derive an optimal encoder by tackling the renowned jigsaw puzzle. Our approach involves dividing the target image into nine patches, tasking the encoder with predicting the relative position relationships between any two patches to extract rich semantics. Subsequently, we introduce an affinity-augmentation method to accentuate differences between normal and abnormal latent representations. Leveraging the classic support vector data description algorithm yields final detection results. Experimental outcomes demonstrate that our proposed method achieves outstanding detection and segmentation performance on the widely used MVTec AD dataset, with rates of 95.8% and 96.8%, respectively, establishing a state-of-the-art benchmark for both texture and object defects. Comprehensive experimentation underscores the effectiveness of our approach in diverse industrial applications.
翻訳日:2023-11-23 04:02:14 公開日:2023-11-21
# 重ね合わせネットワークによる物理学習の改善:ニューラルネットワークとディープオペレータネットワークへの応用

Stacked networks improve physics-informed training: applications to neural networks and deep operator networks ( http://arxiv.org/abs/2311.06483v2 )

ライセンス: Link先を確認
Amanda A Howard, Sarah H Murphy, Shady E Ahmed, Panos Stinis(参考訳) 物理インフォームドニューラルネットワークとオペレータネットワークは、物理システムをモデル化する方程式を効果的に解くことを約束している。 しかし、これらのネットワークはいくつかの方程式系に対して正確に訓練することは困難または不可能である。 本稿では,物理インフォームドニューラルネットワークと演算子ネットワークを積み重ねてトレーニングを容易にする,新しい多忠実度フレームワークを提案する。 そこで我々は,学習モデルの表現性を高めつつ,次のステップを訓練するための低忠実度入力として1ステップのアウトプットが機能するネットワークの連鎖を構築した。 反復過程の各ステップで課される方程式は同じか異なる(シミュレート・アニーリングのように)。 提案手法の反復的(スタックング)な性質は,直接学習しにくい解の特徴を段階的に学習することを可能にする。 非線形振り子,波動方程式,粘性バーガース方程式などのベンチマーク問題を通じて,物理に変形したニューラルネットワークと演算子ネットワークの精度向上とサイズ削減にスタック化がいかに役立つかを示す。

Physics-informed neural networks and operator networks have shown promise for effectively solving equations modeling physical systems. However, these networks can be difficult or impossible to train accurately for some systems of equations. We present a novel multifidelity framework for stacking physics-informed neural networks and operator networks that facilitates training. We successively build a chain of networks, where the output at one step can act as a low-fidelity input for training the next step, gradually increasing the expressivity of the learned model. The equations imposed at each step of the iterative process can be the same or different (akin to simulated annealing). The iterative (stacking) nature of the proposed method allows us to progressively learn features of a solution that are hard to learn directly. Through benchmark problems including a nonlinear pendulum, the wave equation, and the viscous Burgers equation, we show how stacking can be used to improve the accuracy and reduce the required size of physics-informed neural networks and operator networks.
翻訳日:2023-11-23 04:01:41 公開日:2023-11-21
# 乳癌における腫瘍浸潤リンパ球スコーリングの自動化パイプライン

An Automated Pipeline for Tumour-Infiltrating Lymphocyte Scoring in Breast Cancer ( http://arxiv.org/abs/2311.06185v2 )

ライセンス: Link先を確認
Adam J Shephard, Mostafa Jahanifar, Ruoyu Wang, Muhammad Dawood, Simon Graham, Kastytis Sidlauskas, Syed Ali Khurram, Nasir M Rajpoot, Shan E Ahmed Raza(参考訳) 腫瘍浸潤リンパ球(TILs)は3重陰性およびヒト上皮成長因子受容体2(HER2)陽性乳癌の予後マーカーとして有用であると考えられている。 本研究では,乳がん全体スライダー画像(wsis)のtilsスコアを予測するために,効率的な不均一アーキテクチャに基づく革新的な深層学習パイプラインを提案する。 腫瘍バルクマスクを計算するため,第1に腫瘍領域とストローム領域を分割した。 そして, 病理組織学的検査により, 腫瘍関連レント腫内のtilsを検出し, tilsスコアを生成した。 本手法は,TiGER Challengeのトレーニングデータセットにおける内部クロスバリデーションと最終リーダーボードの評価により,腫瘍/ストローマ領域のセグメンテーションにおける最先端性能とTILの検出を示す。 さらに,我々のTILスコアは,乳がん予後ツールとしてのTIL自動スコアパイプラインの臨床的意義と可能性について,同じ課題において生存率を予測する上での競争力を示す。

Tumour-infiltrating lymphocytes (TILs) are considered as a valuable prognostic markers in both triple-negative and human epidermal growth factor receptor 2 (HER2) positive breast cancer. In this study, we introduce an innovative deep learning pipeline based on the Efficient-UNet architecture to predict the TILs score for breast cancer whole-slide images (WSIs). We first segment tumour and stromal regions in order to compute a tumour bulk mask. We then detect TILs within the tumour-associated stroma, generating a TILs score by closely mirroring the pathologist's workflow. Our method exhibits state-of-the-art performance in segmenting tumour/stroma areas and TILs detection, as demonstrated by internal cross-validation on the TiGER Challenge training dataset and evaluation on the final leaderboards. Additionally, our TILs score proves competitive in predicting survival outcomes within the same challenge, underscoring the clinical relevance and potential of our automated TILs scoring pipeline as a breast cancer prognostic tool.
翻訳日:2023-11-23 03:59:25 公開日:2023-11-21
# アスペクトベース感覚分析(ABSA)の体系的レビュー : 領域,方法,動向

A Systematic Review of Aspect-based Sentiment Analysis (ABSA): Domains, Methods, and Trends ( http://arxiv.org/abs/2311.10777v2 )

ライセンス: Link先を確認
Yan Cathy Hua, Paul Denny, Katerina Taskova, J\"org Wicker(参考訳) アスペクトベース感情分析(Aspect-based Sentiment Analysis、ABSA)は、特定のテキストからアスペクトと関連する意見を識別する、きめ細かい感情分析(SA)の一種である。 デジタル時代に入ると、ABSAは洞察と支援決定を得るために世論的なテキストデータのマイニングに人気を博し、応用した。 ABSAの研究は言語、統計、機械学習のアプローチを採用し、ラベル付きデータセット、アスペクト、感情のレキシコン、オントロジーなどのリソースを利用する。 本質的にABSAはドメインに依存しており、リソースとアプリケーションドメイン間のミスアライメントの影響に敏感である。 しかし、我々の知る限り、この話題は既存のABSA文献レビューでは検討されていない。 本稿では,研究アプリケーションドメイン,データセットドメイン,研究手法に着目したabsa研究の体系的文献レビュー(slr)を行い,それらの関係を調べ,経時的傾向を同定する。 本研究は,特定の研究アプリケーションドメインを持たない研究の大部分において,‘製品/サービスレビュー’データセットドメインの優位性や,教師付き機械学習などのデータセット・レジリエントな手法の普及など,ABSA研究文献における潜在的なシステム的問題について示唆する。 このレビューはABSAの研究分野に多くのユニークな貢献をしている。 1) 本知識は, 研究領域, データセット領域, 研究方法を体系的な視点で関連付けた最初のslrである。 2)ABSAにおける最大範囲のSLRの1つであり、時間制約のない4191の検索結果から519の適格な研究をフィルタリングする。 3) 評価手法は, スクリーニング品質と信頼性を高めるpdfマイニングに基づく革新的な自動フィルタリング手法を採用した。 提案とレビューの制限についても論じた。

Aspect-based Sentiment Analysis (ABSA) is a type of fine-grained sentiment analysis (SA) that identifies aspects and the associated opinions from a given text. In the digital era, ABSA gained increasing popularity and applications in mining opinionated text data to obtain insights and support decisions. ABSA research employs linguistic, statistical, and machine-learning approaches and utilises resources such as labelled datasets, aspect and sentiment lexicons and ontology. By its nature, ABSA is domain-dependent and can be sensitive to the impact of misalignment between the resource and application domains. However, to our knowledge, this topic has not been explored by the existing ABSA literature reviews. In this paper, we present a Systematic Literature Review (SLR) of ABSA studies with a focus on the research application domain, dataset domain, and the research methods to examine their relationships and identify trends over time. Our results suggest a number of potential systemic issues in the ABSA research literature, including the predominance of the ``product/service review'' dataset domain among the majority of studies that did not have a specific research application domain, coupled with the prevalence of dataset-reliant methods such as supervised machine learning. This review makes a number of unique contributions to the ABSA research field: 1) To our knowledge, it is the first SLR that links the research domain, dataset domain, and research method through a systematic perspective; 2) it is one of the largest scoped SLR on ABSA, with 519 eligible studies filtered from 4191 search results without time constraint; and 3) our review methodology adopted an innovative automatic filtering process based on PDF-mining, which enhanced screening quality and reliability. Suggestions and our review limitations are also discussed.
翻訳日:2023-11-23 03:47:56 公開日:2023-11-21
# 指数的に高速な言語モデリング

Exponentially Faster Language Modelling ( http://arxiv.org/abs/2311.10770v2 )

ライセンス: Link先を確認
Peter Belcak, Roger Wattenhofer(参考訳) 言語モデルは、個々の推論に指数関数的なニューロンの分数を使うだけでよい。 提案するUltraFastBERTは、類似のBERTモデルと同等に動作しながら、推論中に0.3%のニューロンを使用するBERT変異体である。 UltraFastBERTは、各層推論で4095個のニューロンのうち12個しか関与しない。 これはfeedforward networksをfast feedforward networks(fffs)に置き換えることで実現されている。 現在、条件付きニューラル実行のフルアクセラレーションポテンシャルを解放するための真に効率的な実装は存在しないが、最適化されたベースラインフィードフォワード実装よりも78倍高速化されたハイレベルCPUコードと、同等のバッチフィードフォワード推論よりも40倍高速化されたPyTorch実装を提供する。 トレーニングコード、ベンチマーク設定、モデルの重み付けを公開します。

Language models only really need to use an exponential fraction of their neurons for individual inferences. As proof, we present UltraFastBERT, a BERT variant that uses 0.3% of its neurons during inference while performing on par with similar BERT models. UltraFastBERT selectively engages just 12 out of 4095 neurons for each layer inference. This is achieved by replacing feedforward networks with fast feedforward networks (FFFs). While no truly efficient implementation currently exists to unlock the full acceleration potential of conditional neural execution, we provide high-level CPU code achieving 78x speedup over the optimized baseline feedforward implementation, and a PyTorch implementation delivering 40x speedup over the equivalent batched feedforward inference. We publish our training code, benchmarking setup, and model weights.
翻訳日:2023-11-23 03:47:25 公開日:2023-11-21
# 近似と最適化のためのニューラルネットワークの限界

The limitation of neural nets for approximation and optimization ( http://arxiv.org/abs/2311.12253v1 )

ライセンス: Link先を確認
Tommaso Giovannelli, Oumaima Sohab, Luis Nunes Vicente(参考訳) 最適化問題における目的関数の近似と最小化のために,ニューラルネットワークを代理モデルとして用いることに関心がある。 ニューラルネットワークは分類や回帰といった機械学習タスクに広く使われているが、最適化問題の解法への応用は限られている。 本研究は,一般的な非線形最適化テスト問題の目的関数を近似する最善の活性化関数を決定することから始まる。 次に,補間・回帰モデルとニューラルネットワークを用いて得られた目的関数に対する関数値,勾配,ヘッセン近似の精度を解析した。 補間/回帰モデルと比較すると、ニューラルネットワークは(高いトレーニングコストで)競争力のあるゼロおよび1次近似を提供するが、2次近似では性能が劣る。 しかし,2次補間/回帰のための自然基底とニューラルネットの活性化関数を組み合わせることで,交叉項を自然に含む必要がなくなり,パラメータの少ないモデルが決定されることが示された。 最後に,目的関数の勾配をニューラルネットワークを含む任意のサーロゲートモデルを用いて近似した場合,最先端の微分自由最適化アルゴリズムの性能がほとんど改善されないことを示す。

We are interested in assessing the use of neural networks as surrogate models to approximate and minimize objective functions in optimization problems. While neural networks are widely used for machine learning tasks such as classification and regression, their application in solving optimization problems has been limited. Our study begins by determining the best activation function for approximating the objective functions of popular nonlinear optimization test problems, and the evidence provided shows that~SiLU has the best performance. We then analyze the accuracy of function value, gradient, and Hessian approximations for such objective functions obtained through interpolation/regression models and neural networks. When compared to interpolation/regression models, neural networks can deliver competitive zero- and first-order approximations (at a high training cost) but underperform on second-order approximation. However, it is shown that combining a neural net activation function with the natural basis for quadratic interpolation/regression can waive the necessity of including cross terms in the natural basis, leading to models with fewer parameters to determine. Lastly, we provide evidence that the performance of a state-of-the-art derivative-free optimization algorithm can hardly be improved when the gradient of an objective function is approximated using any of the surrogate models considered, including neural networks.
翻訳日:2023-11-23 02:47:07 公開日:2023-11-21
# ATLANTIC:学際科学のための構造対応検索言語モデル

ATLANTIC: Structure-Aware Retrieval-Augmented Language Model for Interdisciplinary Science ( http://arxiv.org/abs/2311.12289v1 )

ライセンス: Link先を確認
Sai Munikoti, Anurag Acharya, Sridevi Wagle, Sameera Horawalavithana(参考訳) 大きな言語モデルは、多くの自然言語処理タスクで印象的なパフォーマンスを記録します。 しかし、その知識能力は訓練前のコーパスに限られている。 Retrieval augmentationは、言語モデルを補完するために外部知識ソースからコンテキストを取得することで、効果的なソリューションを提供する。 しかし、既存の検索強化技術はこれらの文書間の構造的関係を無視する。 さらに、検索モデルは、特に検索された文書の忠実性に関して、科学的タスクではあまり研究されていない。 本稿では,検索拡張中に文書構造に対応する新しい構造認識検索拡張言語モデルを提案する。 我々は、15以上の科学分野(物理、医学、化学など)の文書を接続する、複数の種類の関係(引用、共著者など)をキャプチャする異種文書グラフを作成する。 我々は,キュレートされた文書グラフ上でグラフニューラルネットワークを訓練し,モデル事前学習中に検索された対応するパスの構造エンコーダとして機能させる。 特に、検索された文のテキスト埋め込みとともに、文書(パス)の構造的な埋め込みを取得し、それらを融合して言語モデルに供給する。 我々は,科学的質問応答や科学的文書分類タスクを含む様々な科学的ベンチマークに基づいて,我々のモデルを広範囲に評価する。 実験の結果, 構造認識検索により, より一貫性, 忠実, 文脈的に関連した文の検索が改善され, 全体の精度で同等の性能が得られた。

Large language models record impressive performance on many natural language processing tasks. However, their knowledge capacity is limited to the pretraining corpus. Retrieval augmentation offers an effective solution by retrieving context from external knowledge sources to complement the language model. However, existing retrieval augmentation techniques ignore the structural relationships between these documents. Furthermore, retrieval models are not explored much in scientific tasks, especially in regard to the faithfulness of retrieved documents. In this paper, we propose a novel structure-aware retrieval augmented language model that accommodates document structure during retrieval augmentation. We create a heterogeneous document graph capturing multiple types of relationships (e.g., citation, co-authorship, etc.) that connect documents from more than 15 scientific disciplines (e.g., Physics, Medicine, Chemistry, etc.). We train a graph neural network on the curated document graph to act as a structural encoder for the corresponding passages retrieved during the model pretraining. Particularly, along with text embeddings of the retrieved passages, we obtain structural embeddings of the documents (passages) and fuse them together before feeding them to the language model. We evaluate our model extensively on various scientific benchmarks that include science question-answering and scientific document classification tasks. Experimental results demonstrate that structure-aware retrieval improves retrieving more coherent, faithful and contextually relevant passages, while showing a comparable performance in the overall accuracy.
翻訳日:2023-11-23 02:35:23 公開日:2023-11-21
# 効率よくパーソナライズされた情報検索のためのLCMの適応:方法と意味

Adapting LLMs for Efficient, Personalized Information Retrieval: Methods and Implications ( http://arxiv.org/abs/2311.12287v1 )

ライセンス: Link先を確認
Samira Ghodratnama and Mehrdad Zakershahrak(参考訳) 大規模言語モデル(llms)の出現は、情報とのオンラインユーザインタラクションにおいて重要な変化をもたらす。 従来のIR(Information Retrieval)システムは主にクエリ文書マッチングに依存していたが、LLMは人間のようなテキストの理解と生成に優れており、IR体験を著しく豊かにしている。 LLMはチャットボットの機能と関連付けられることが多いが,本論文では,情報検索におけるその明示的な応用について論じる。 提案手法は,検索プロセスの最適化,最適モデルの選択,LLMのスケールとオーケストレーションを効果的に行う手法である。 注目すべき課題は、モデルが不正確または誤解釈したデータを出力するモデル幻覚(model hallucination)である。 ユーザのプライバシやデータの最適化,システムの明確性や解釈可能性の必要性など,当社の言論は極めて重要視されています。 本稿では,言語モデル (LLM) と情報検索 (IR) システムを統合するための革新的な戦略を明らかにするとともに,ユーザ中心の原則に沿ったバランスのとれたアプローチの必要性を明らかにする。

The advent of Large Language Models (LLMs) heralds a pivotal shift in online user interactions with information. Traditional Information Retrieval (IR) systems primarily relied on query-document matching, whereas LLMs excel in comprehending and generating human-like text, thereby enriching the IR experience significantly. While LLMs are often associated with chatbot functionalities, this paper extends the discussion to their explicit application in information retrieval. We explore methodologies to optimize the retrieval process, select optimal models, and effectively scale and orchestrate LLMs, aiming for cost-efficiency and enhanced result accuracy. A notable challenge, model hallucination-where the model yields inaccurate or misinterpreted data-is addressed alongside other model-specific hurdles. Our discourse extends to crucial considerations including user privacy, data optimization, and the necessity for system clarity and interpretability. Through a comprehensive examination, we unveil not only innovative strategies for integrating Language Models (LLMs) with Information Retrieval (IR) systems, but also the consequential considerations that underline the need for a balanced approach aligned with user-centric principles.
翻訳日:2023-11-23 02:35:02 公開日:2023-11-21
# ランク認識ジョイントスパース回復のための直交重み付き$\ell_{2,1}$正規化:アルゴリズムと解析

Orthogonally weighted $\ell_{2,1}$ regularization for rank-aware joint sparse recovery: algorithm and analysis ( http://arxiv.org/abs/2311.12282v1 )

ライセンス: Link先を確認
Armenak Petrosyan and Konstantin Pieper and Hoang Tran(参考訳) 本研究では, 解行列の階数を考慮に入れた, 直交重み付き$\ell_{2,1}$ (\mathit{ow}\ell_{2,1}$) という新しい正規化法を用いて, 関節スパース回復問題を解く効率的なアルゴリズムを提案し, 解析する。 この方法は、特徴抽出、行列列選択、辞書学習に応用されており、多くのアプリケーションで重要な機能である行スパース解行列のフルランクを活用できるため、一般的な$\ell_{2,1}$正規化や他の既存の正規化ベースのアプローチとは異なる。 提案手法のランク認識の証明を行い,提案手法の最適化問題に対する解が存在することを証明し,収束を解析した効率的な解法を開発した。 また,本理論の数値実験を行い,実生活問題に対する提案手法の有効性を実証する。

We propose and analyze an efficient algorithm for solving the joint sparse recovery problem using a new regularization-based method, named orthogonally weighted $\ell_{2,1}$ ($\mathit{ow}\ell_{2,1}$), which is specifically designed to take into account the rank of the solution matrix. This method has applications in feature extraction, matrix column selection, and dictionary learning, and it is distinct from commonly used $\ell_{2,1}$ regularization and other existing regularization-based approaches because it can exploit the full rank of the row-sparse solution matrix, a key feature in many applications. We provide a proof of the method's rank-awareness, establish the existence of solutions to the proposed optimization problem, and develop an efficient algorithm for solving it, whose convergence is analyzed. We also present numerical experiments to illustrate the theory and demonstrate the effectiveness of our method on real-life problems.
翻訳日:2023-11-23 02:34:41 公開日:2023-11-21
# 多体局在の幾何学的特徴

Geometric Characterization of Many Body Localization ( http://arxiv.org/abs/2311.12280v1 )

ライセンス: Link先を確認
W. N. Faugno and Tomoki Ozawa(参考訳) 多くのボディローカライゼーション(MBL)はユニークな物理現象であり、熱化を探索するための試験場を提供する。 ここでは、ツイスト境界のパラメータ空間で定義される多体量子計量(MBQM)により、MBL位相を幾何学的に特徴づける。 MBQMはMBL相における逆系長の関数として線形にスケールし,エルゴード相ではより高速に成長する。 本理論を不規則なハードコアボース・ハバードモデルを用いて検証し,mbqmから定義される局在長スケールを用いてエルゴードからmblへの相転移を特徴付ける。 MBQMは、MBL位相を特徴づける直感的で実験的に利用できる方法を提供する。

Many body localization (MBL) represents a unique physical phenomenon, providing a testing ground for exploring thermalization, or more precisely its failure. Here we characterize the MBL phase geometrically by the many-body quantum metric (MBQM), defined in the parameter space of twist boundary. We find that MBQM scales linearly as a function of the inverse system length in the MBL phase, and grows faster in the ergodic phase. We validate our theory using the disordered hardcore Bose-Hubbard model, and characterize the ergodic to MBL phase transition via the localization length scale defined from the MBQM. MBQM provides an intuitive and experimentally accessible method to characterize MBL phases.
翻訳日:2023-11-23 02:34:22 公開日:2023-11-21
# Kullback-Leibler分散正規化による確率的予測再構成

Probabilistic Forecast Reconciliation with Kullback-Leibler Divergence Regularization ( http://arxiv.org/abs/2311.12279v1 )

ライセンス: Link先を確認
Guanyu Zhang and Feng Li and Yanfei Kang(参考訳) 階層的な予測和解手法の普及に伴い,確率的予測和解への関心が高まっている。 多くの研究が機械学習や深層学習技術を利用して確率的予測の和解を実現し、顕著な進歩を遂げている。 しかし, これらの手法は, 整合過程を固定的かつ固い後処理ステップとして扱い, 精度と整合性のトレードオフをもたらす。 本稿では,確率的予測調整のための新しい手法を提案する。 既存のアプローチと異なり,提案手法は予測ステップと和解ステップを深層学習フレームワークに融合させ,Kulback-Leibler分散正規化項を損失関数に導入することにより,和解ステップをより柔軟かつ柔らかくする。 本手法は3つの階層的時系列データセットを用いて評価し,他の確率論的予測整合法に対するアプローチの利点を示す。

As the popularity of hierarchical point forecast reconciliation methods increases, there is a growing interest in probabilistic forecast reconciliation. Many studies have utilized machine learning or deep learning techniques to implement probabilistic forecasting reconciliation and have made notable progress. However, these methods treat the reconciliation step as a fixed and hard post-processing step, leading to a trade-off between accuracy and coherency. In this paper, we propose a new approach for probabilistic forecast reconciliation. Unlike existing approaches, our proposed approach fuses the prediction step and reconciliation step into a deep learning framework, making the reconciliation step more flexible and soft by introducing the Kullback-Leibler divergence regularization term into the loss function. The approach is evaluated using three hierarchical time series datasets, which shows the advantages of our approach over other probabilistic forecast reconciliation methods.
翻訳日:2023-11-23 02:34:07 公開日:2023-11-21
# ビースト実験のフェーズiiiのためのデータ取得システム

The Data Acquisition System for Phase-III of the BeEST Experiment ( http://arxiv.org/abs/2311.12278v1 )

ライセンス: Link先を確認
C. Bray, S. Fretwell, I. Kim, W. K. Warburton, F. Ponce, K. G. Leach, S. Friedrich, R. Abells, P. Amaro, A. Andoche, R. Cantor, D. Diercks, M. Guerra, A. Hall, C. Harris, J. Harris, L. Hayen, P. A. Hervieux, G. B. Kim, A. Lennarz, V. Lordi, J. Machado, P. Machule, A. Marino, D. McKeen, X. Mougeot, C. Ruiz, A. Samanta, J. P. Santos, C. Stone-Whitehead(参考訳) BeEST実験は、超伝導トンネル接合(STJ)検出器に埋め込んだ$^7$Beの電子捕獲崩壊を測定する標準モデルを超えた物理学の精密な研究室である。 実験のフェーズIIIでは、16 STJ画素からパルス形状とタイミング情報をオフラインで抽出する連続サンプリングデータ取得システムを構築した。 4つの追加ピクセルが高速なリストモードデジタイザで読み出され、実験の初期の制限設定フェーズで既に使用されていた核MCAを持つ。 本稿では,データ取得システムの性能について述べるとともに,異なるデジタイザの相対的利点について述べる。

The BeEST experiment is a precision laboratory search for physics beyond the standard model that measures the electron capture decay of $^7$Be implanted into superconducting tunnel junction (STJ) detectors. For Phase-III of the experiment, we constructed a continuously sampling data acquisition system to extract pulse shape and timing information from 16 STJ pixels offline. Four additional pixels are read out with a fast list-mode digitizer, and one with a nuclear MCA already used in the earlier limit-setting phases of the experiment. We present the performance of the data acquisition system and discuss the relative advantages of the different digitizers.
翻訳日:2023-11-23 02:33:51 公開日:2023-11-21
# 自己教師付きデータ選択と合成によるオンデバイス大規模言語モデルのパーソナライズ

Enabling On-Device Large Language Model Personalization with Self-Supervised Data Selection and Synthesis ( http://arxiv.org/abs/2311.12275v1 )

ライセンス: Link先を確認
Ruiyang Qin, Jun Xia, Zhenge Jia, Meng Jiang, Ahmed Abbasi, Peipei Zhou, Jingtong Hu, Yiyu Shi(参考訳) 大規模言語モデル(LLM)がエッジデバイスにデプロイされた後、ユーザ生成会話データから学習し、ユーザ固有のパーソナライズされた応答をリアルタイムで生成することが望ましい。 しかし、ユーザ生成データは通常機密情報や個人情報が含まれており、アノテーションのためにクラウドにデータをアップロードすることは禁止されない。 アノテーションをローカルに取得するには,ユーザの好みの回答を直接求めればよいが,そのようなアノテーションはユーザエクスペリエンスに影響を与えることはない。 さらに、エッジデバイスのストレージは、通常、完全なユーザー生成データで大規模に微調整できるように制限されすぎます。 少ないアノテーションと限られたオンデバイスストレージを考慮して、オンデバイス LLM のパーソナライズを有効にする方法は未解決のままである。 本稿では,最も代表的なデータを自己管理方式でオンラインに選択・保存する新しい枠組みを提案する。 このようなデータはメモリフットプリントが小さく、ユーザアノテーションの頻繁なリクエストでさらなる微調整が可能になる。 微調整品質を高めるため、LLMを用いて複数の意味的に類似した質問文と期待応答を生成する。 実験の結果,提案フレームワークは,バニラベースラインと比較して,ユーザ固有のコンテンツ生成能力(精度)と微調整速度(性能)に優れていた。 私たちの知る限りでは、これが初めてのオンデバイスLDMパーソナライズフレームワークです。

After a large language model (LLM) is deployed on edge devices, it is desirable for these devices to learn from user-generated conversation data to generate user-specific and personalized responses in real-time. However, user-generated data usually contains sensitive and private information, and uploading such data to the cloud for annotation is not preferred if not prohibited. While it is possible to obtain annotation locally by directly asking users to provide preferred responses, such annotations have to be sparse to not affect user experience. In addition, the storage of edge devices is usually too limited to enable large-scale fine-tuning with full user-generated data. It remains an open question how to enable on-device LLM personalization, considering sparse annotation and limited on-device storage. In this paper, we propose a novel framework to select and store the most representative data online in a self-supervised way. Such data has a small memory footprint and allows infrequent requests of user annotations for further fine-tuning. To enhance fine-tuning quality, multiple semantically similar pairs of question texts and expected responses are generated using the LLM. Our experiments show that the proposed framework achieves the best user-specific content-generating capability (accuracy) and fine-tuning speed (performance) compared with vanilla baselines. To the best of our knowledge, this is the very first on-device LLM personalization framework.
翻訳日:2023-11-23 02:33:40 公開日:2023-11-21
# 波動関数崩壊アルゴリズムを用いた結晶方位の手続き的生成

Procedural Generation of Grain Orientations using the Wave Function Collapse Algorithm ( http://arxiv.org/abs/2311.12272v1 )

ライセンス: Link先を確認
G. Magny-Fokam, D. Madisetti, J. El-Awady(参考訳) 金属中の粒度と配向の統計は、材料の機械的特性と相関している。 316Lステンレス鋼のような金属の変形・破壊を更に解析するための代表体積要素を再現することは、今日では製造製品に広く使われているため特に重要である。 ゲーム用に作られた2つのアプローチは、代表粒微細構造の手続き的生成のために検討された。 1つはWave Function Collapse (WFC)アルゴリズムで、2つ目は、自由でオープンソースのソフトウェアであるMarkov Juniorによる制約伝搬と確率的推論である。 本研究は,電子後方散乱回折(ebsd)マップを用いて,この2つのアルゴリズムの有効性について検討することを目的としている。 2つのステンレスEBSDマップを使って両方のアルゴリズムをテストした。 第一に、WFCアルゴリズムは制約が多すぎるため、EBSDに似た画像を生成することができない。 2番目の markovjunior は、python で ebsd マップを作成するのに使用できる voronoi tessellation を作成するのにずっと効果的であった。 参照値と生成した ebsd を比較した結果から, 配向率と体積率の類似性が確認された。 この研究により、マルコフジュニアは代表粒微細構造を再現できる効果的な機械学習ツールであると結論付けられた。

Statistics of grain sizes and orientations in metals correlate to the material's mechanical properties. Reproducing representative volume elements for further analysis of deformation and failure in metals, like 316L stainless steel, is particularly important due to their wide use in manufacturing goods today. Two approaches, initially created for video games, were considered for the procedural generation of representative grain microstructures. The first is the Wave Function Collapse (WFC) algorithm, and the second is constraint propagation and probabilistic inference through Markov Junior, a free and open-source software. This study aimed to investigate these two algorithms' effectiveness in using reference electron backscatter diffraction (EBSD) maps and recreating a statistically similar one that could be used in further research. It utilized two stainless steel EBSD maps as references to test both algorithms. First, the WFC algorithm was too constricting and, thus, incapable of producing images that resembled EBSDs. The second, MarkovJunior, was much more effective in creating a Voronoi tessellation that could be used to create an EBSD map in Python. When comparing the results between the reference and the generated EBSD, we discovered that the orientation and volume fractions were extremely similar. With the study, it was concluded that MarkovJunior is an effective machine learning tool that can reproduce representative grain microstructures.
翻訳日:2023-11-23 02:33:15 公開日:2023-11-21
# 大規模言語モデルによる視聴覚ゼロショット学習の促進

Boosting Audio-visual Zero-shot Learning with Large Language Models ( http://arxiv.org/abs/2311.12268v1 )

ライセンス: Link先を確認
Haoxing Chen and Yaohui Li and Yan Hong and Zizheng Huang and Zhuoer Xu and Zhangxuan Gu and Jun Lan and Huijia Zhu and Weiqiang Wang(参考訳) 音声視覚ゼロショット学習は、ペア化された音声視覚シーケンスに基づいて、見えないカテゴリーを認識することを目的としている。 近年の手法は, 未確認カテゴリへの一般化を促進するために, 協調学習と差別的マルチモーダル特徴に重点を置いている。 しかし、これらのアプローチはカテゴリ名の曖昧なアクション概念を無視し、訓練目的の難しい複雑なネットワーク構造を必然的に導入する可能性がある。 本稿では,外部知識ベースを用いた行動内容の把握を支援するため,KDA(Knowled-Aware Distribution Adaptation)というシンプルなフレームワークを提案する。 具体的には、まず大きな言語モデルを用いてカテゴリ名から豊富な記述を生成することを提案する。 さらに,分布アライメント損失と知識認識適応マージン損失を提案し,未知のカテゴリに対する一般化能力をさらに向上させる。 実験の結果,提案するkdaは,一般的な3つのゼロショット学習データセットにおいて,最先端の手法を上回ることができることがわかった。 私たちのコードは、 \url{https://github.com/chenhaoxing/kda}で評価できます。

Audio-visual zero-shot learning aims to recognize unseen categories based on paired audio-visual sequences. Recent methods mainly focus on learning aligned and discriminative multi-modal features to boost generalization towards unseen categories. However, these approaches ignore the obscure action concepts in category names and may inevitably introduce complex network structures with difficult training objectives. In this paper, we propose a simple yet effective framework named Knowledge-aware Distribution Adaptation (KDA) to help the model better grasp the novel action contents with an external knowledge base. Specifically, we first propose using large language models to generate rich descriptions from category names, which leads to a better understanding of unseen categories. Additionally, we propose a distribution alignment loss as well as a knowledge-aware adaptive margin loss to further improve the generalization ability towards unseen categories. Extensive experimental results demonstrate that our proposed KDA can outperform state-of-the-art methods on three popular audio-visual zero-shot learning datasets. Our code will be avaliable at \url{https://github.com/chenhaoxing/KDA}.
翻訳日:2023-11-23 02:32:54 公開日:2023-11-21
# 一般環境からの因果表現の学習:識別可能性と内在的曖昧性

Learning Causal Representations from General Environments: Identifiability and Intrinsic Ambiguity ( http://arxiv.org/abs/2311.12267v1 )

ライセンス: Link先を確認
Jikai Jin and Vasilis Syrgkanis(参考訳) 本稿では,複数の環境から発生する観測へのアクセスを前提とした因果表現学習,高レベルの潜伏変数の復元作業,および観測する低レベルのデータからの因果関係について検討する。 既存の研究は、基盤となるデータ生成プロセスの完全な識別可能性を証明することができるが、通常は単一ノードへのアクセスを前提としている。 本論文の主な貢献は,ハード介入が得られない場合に達成可能な最善の識別可能性の概念を特徴付けることである。 まず,線形因果モデルに対して,一般環境から観測されたデータに対して,それらの類似性を仮定することなく識別可能性を保証する。 因果グラフは完全回復することが示されているが、潜伏変数は効果支配曖昧性(EDA)までしか識別されない。 次に,基礎構造モデルをEDAまで復元することが保証されるアルゴリズムLiNGCReLを提案し,数値実験によりその効果を実証する。 一般的な非パラメトリック因果モデルへと進み、ソフト介入の群へのアクセスを前提とした同一のイデフィラビリティ保証が証明される。 最後に、EDAは基本的に我々の設定では避けられないものであることを示す。

This paper studies causal representation learning, the task of recovering high-level latent variables and their causal relationships from low-level data that we observe, assuming access to observations generated from multiple environments. While existing works are able to prove full identifiability of the underlying data generating process, they typically assume access to single-node, hard interventions which is rather unrealistic in practice. The main contribution of this paper is characterize a notion of identifiability which is provably the best one can achieve when hard interventions are not available. First, for linear causal models, we provide identifiability guarantee for data observed from general environments without assuming any similarities between them. While the causal graph is shown to be fully recovered, the latent variables are only identified up to an effect-domination ambiguity (EDA). We then propose an algorithm, LiNGCReL which is guaranteed to recover the ground-truth model up to EDA, and we demonstrate its effectiveness via numerical experiments. Moving on to general non-parametric causal models, we prove the same idenfifiability guarantee assuming access to groups of soft interventions. Finally, we provide counterparts of our identifiability results, indicating that EDA is basically inevitable in our setting.
翻訳日:2023-11-23 02:32:38 公開日:2023-11-21
# 仮想ホームステージング:自然照明下での室内パノラマの逆レンダリングと編集

Virtual Home Staging: Inverse Rendering and Editing an Indoor Panorama under Natural Illumination ( http://arxiv.org/abs/2311.12265v1 )

ライセンス: Link先を確認
Guanzhou Ji, Azadeh O. Sawyer, Srinivasa G. Narasimhan(参考訳) 本研究では,既存の室内パノラマを自然照明下で新しい室内家具レイアウトで変換できる新しい逆レンダリング手法を提案する。 これを実現するため,屋内のHDRパノラマと実時間屋外半球HDR撮影を行った。 室内および屋外のHDR画像は、正確なシーンリライトのための絶対輝度値で線形に校正された。 本手法は,(1)パノラマ家具の検出・除去,(2)自動フロアレイアウト設計,(3)シーン幾何学によるグローバルレンダリング,新しい家具オブジェクト,および屋外のリアルタイム撮影の3つの重要成分からなる。 屋外照明条件の異なる屋内シーンのレンダリングにおけるワークフローの有効性を示す。 さらに,137個の室内パノラマと関連する屋外写真からなる新しいキャリブレーションHDR(Cali-HDR)データセットを寄贈した。 ソースコードとデータセットは以下の通りである。

We propose a novel inverse rendering method that enables the transformation of existing indoor panoramas with new indoor furniture layouts under natural illumination. To achieve this, we captured indoor HDR panoramas along with real-time outdoor hemispherical HDR photographs. Indoor and outdoor HDR images were linearly calibrated with measured absolute luminance values for accurate scene relighting. Our method consists of three key components: (1) panoramic furniture detection and removal, (2) automatic floor layout design, and (3) global rendering with scene geometry, new furniture objects, and a real-time outdoor photograph. We demonstrate the effectiveness of our workflow in rendering indoor scenes under different outdoor illumination conditions. Additionally, we contribute a new calibrated HDR (Cali-HDR) dataset that consists of 137 calibrated indoor panoramas and their associated outdoor photographs. The source code and dataset are available: https://github.com/Gzhji/Cali-HDR-Dataset.
翻訳日:2023-11-23 02:32:18 公開日:2023-11-21
# 縦型強化学習を用いたネットワークマイクログリッドの弾力性制御:設計と実時間テストベッド検証

Resilient Control of Networked Microgrids using Vertical Federated Reinforcement Learning: Designs and Real-Time Test-Bed Validations ( http://arxiv.org/abs/2311.12264v1 )

ライセンス: Link先を確認
Sayak Mukherjee, Ramij R. Hossain, Sheik M. Mohiuddin, Yuan Liu, Wei Du, Veronica Adetola, Rohit A. Jinsiwale, Qiuhua Huang, Tianzhixi Yin, Ankit Singhal(参考訳) ネットワーク型マイクログリッドのシステムレベルのレジリエンス向上は、インバータベースリソース(ibr)の増加と共に重要な側面である。 本論文は,サイバーイベントの有無でレジリエントな制御設計を提案するとともに,新しいfederated reinforcement learning (fed-rl) アプローチを提案する。 (a)モデル複雑度、ibrデバイスの未知の動的挙動、 b)マルチパーティのネットワークグリッドにおけるデータ共有に関するプライバシー問題,(2)シミュレーションからハードウェア・イン・ザ・ループテストベッドへの学習制御の移行により,シミュレーションと実世界のギャップを埋める。 これらの多目的により、まず、RLエージェント(またはコントローラ)が誘導攻撃を緩和するために訓練されているグリッド形成(GFM)インバータの一次コントローラに、敵(攻撃信号)を注入したエピソード軌道を生成する強化学習(RL)トレーニング設定を定式化する。 ネットワーク型マイクログリッドの場合,異なる独立環境を含む水平型Fed-RL法は適切ではないため,ネットワーク型マイクログリッドの相互接続特性を把握するために,垂直変種Federated Soft Actor-Critic (FedSAC) アルゴリズムを開発した。 次に,OpenAI Gymインタフェースを用いて,Resilient RL Co-simulation (ResRLCoSIM)と呼ばれるGridLAB-D/HELICSコシミュレーションプラットフォームに独自のシミュレーションセットを構築し,3つの相互接続マイクログリッドからなるIEEE 123-busベンチマークテストシステムを用いてRLエージェントをトレーニングした。 最後に、シミュレーションの世界における学習ポリシーは、高忠実度Hypersimプラットフォームを用いて開発されたリアルタイムハードウェアインザループテストベッドセットに転送される。 実験により,シミュレータ学習したRLコントローラは実時間テストベッドのセットアップによる説得力のある結果が得られ,sim-to-realギャップの最小化が検証された。

Improving system-level resiliency of networked microgrids is an important aspect with increased population of inverter-based resources (IBRs). This paper (1) presents resilient control design in presence of adversarial cyber-events, and proposes a novel federated reinforcement learning (Fed-RL) approach to tackle (a) model complexities, unknown dynamical behaviors of IBR devices, (b) privacy issues regarding data sharing in multi-party-owned networked grids, and (2) transfers learned controls from simulation to hardware-in-the-loop test-bed, thereby bridging the gap between simulation and real world. With these multi-prong objectives, first, we formulate a reinforcement learning (RL) training setup generating episodic trajectories with adversaries (attack signal) injected at the primary controllers of the grid forming (GFM) inverters where RL agents (or controllers) are being trained to mitigate the injected attacks. For networked microgrids, the horizontal Fed-RL method involving distinct independent environments is not appropriate, leading us to develop vertical variant Federated Soft Actor-Critic (FedSAC) algorithm to grasp the interconnected dynamics of networked microgrid. Next, utilizing OpenAI Gym interface, we built a custom simulation set-up in GridLAB-D/HELICS co-simulation platform, named Resilient RL Co-simulation (ResRLCoSIM), to train the RL agents with IEEE 123-bus benchmark test systems comprising 3 interconnected microgrids. Finally, the learned policies in simulation world are transferred to the real-time hardware-in-the-loop test-bed set-up developed using high-fidelity Hypersim platform. Experiments show that the simulator-trained RL controllers produce convincing results with the real-time test-bed set-up, validating the minimization of sim-to-real gap.
翻訳日:2023-11-23 02:32:02 公開日:2023-11-21
# 量子ベクトル信号解析装置

Quantum Vector Signal Analyzer ( http://arxiv.org/abs/2311.12263v1 )

ライセンス: Link先を確認
Hao Wu, Grant Mitts, Clayton Ho, Joshua Rabinowitz, and Eric R. Hudson(参考訳) 高調波発振器を広帯域として使用できる技術として、ベクトル信号解析器を記述し、その運動基底状態付近で冷却された1個のトラップ40Ca+イオンを用いて実証する。 さらに、分析器は、スクイージングによる量子増幅とフォックによる測定の両方と互換性があり、標準の量子限界を超える性能が得られる。 小型フィールドの量子センシングのための魅力的なプラットフォームを提供するだけでなく、量子調和振動子を用いたシステムにおける量子ビット制御線のin situキャリブレーションと、外部の非共鳴駆動を振動子運動に変換することができる。 この技術は他の量子調和振動子系にも拡張可能である。

A technique that allows a harmonic oscillator to be used as a wideband, vector signal analyzer is described and demonstrated using a single trapped 40Ca+ ion cooled near its motional ground state. Further, the analyzer is shown to be compatible with both quantum amplification via squeezing and measurement in the Fock basis, allowing performance beyond the standard quantum limit. In addition to providing an attractive platform for quantum sensing of small fields, the technique allows in situ calibration of qubit control lines in systems using quantum harmonic oscillators and transduction of external, non-resonant drives into oscillator motion. This technique is extendable to other quantum harmonic oscillator systems.
翻訳日:2023-11-23 02:31:23 公開日:2023-11-21
# シミュレーション運転者を超えて:混合交通制御における実車追従の影響評価

Beyond Simulated Drivers: Evaluating the Impact of Real-World Car-Following in Mixed Traffic Control ( http://arxiv.org/abs/2311.12261v1 )

ライセンス: Link先を確認
Bibek Poudel and Weizi Li(参考訳) 人間の運転する車両は、交通の自然発生の摂動を増幅し、渋滞を引き起こし、結果として燃料消費が増加し、衝突リスクが高まり、容量利用が減少する。 これまでの研究では、一部のロボット車両(rvs)はこれらの問題を軽減できるが、車追従シナリオにおいて、単純化されたモデルベースの人間駆動車両(hvs)によるシミュレーションに依存することが多い。 本研究では,この傾向から脱却した実世界の運転軌跡を解析し,車追従時の幅広い加速度特性を抽出した。 次に,これらの挙動をシミュレーションに取り入れ,先行研究から得られたrsvを用いて混雑を緩和し,安全性,効率,安定性を評価する。 また,多種多様な運転行動が存在する場合の「安全+安定性」あるいは「効率」を最適化するために,混雑段階分類器ニューラルネットワークを用いた強化学習に基づくRVを導入する。 提案したRVを,様々な密度,構成,浸透率の異なる混合交通制御環境において評価し,既存のRVと比較した。

Human-driven vehicles can amplify naturally occurring perturbations in traffic, leading to congestion and consequently increased fuel consumption, higher collision risks, and reduced capacity utilization. While previous research has highlighted that a fraction of Robot Vehicles (RVs) can mitigate these issues, they often rely on simulations with simplistic, model-based Human-driven Vehicles (HVs) during car-following scenarios. Diverging from this trend, in this study, we analyze real-world human driving trajectories, extracting a wide range of acceleration behaviors during car-following. We then incorporate these behaviors in simulation where RVs from prior studies are employed to mitigate congestion, and evaluate their safety, efficiency, and stability. Further, we also introduce a reinforcement learning based RV that utilizes a congestion stage classifier neural network to optimize either "safety+stability" or "efficiency" in the presence of the diverse human driving behaviors. We evaluate the proposed RVs in two different mixed traffic control environments at various densities, configurations, and penetration rates and compare with the existing RVs.
翻訳日:2023-11-23 02:31:11 公開日:2023-11-21
# リアルタイムネットワークにおける動的リンク予測のための時間グラフ上の時間粒度探索

Exploring Time Granularity on Temporal Graphs for Dynamic Link Prediction in Real-world Networks ( http://arxiv.org/abs/2311.12255v1 )

ライセンス: Link先を確認
Xiangjian Jiang, Yanyi Pu(参考訳) 動的グラフニューラルネットワーク(DGNN)は、動的グラフ構造化データを処理するための主要なアプローチである。 しかしながら、モデルの性能と頑健性に対する時間的情報の影響は、特にモデルが時間的な粒度の異なる予測タスクをどのように扱うかに関して、十分に検討されていない。 本稿では,dgnnを動的グラフにトレーニングする場合の時間粒度の影響を広範囲な実験により検討する。 各種ドメインから派生したグラフについて検討し,3つの異なるDGNNと4つの異なる時間的粒度のベースラインモデルを比較した。 一般的な結論を得るために,時間粒度,モデルアーキテクチャ,負のサンプリング戦略の相互作用を主に検討する。 この結果から,DGNNが動的リンク予測タスクにおいて,競合的かつ堅牢な性能を実現するためには,高度なメモリ機構と適切な時間粒度が不可欠であることが判明した。 また、考慮されたモデルやデータセットの欠点を議論し、時間グラフの時間的粒度に関する今後の研究に期待できる方向性を提案する。

Dynamic Graph Neural Networks (DGNNs) have emerged as the predominant approach for processing dynamic graph-structured data. However, the influence of temporal information on model performance and robustness remains insufficiently explored, particularly regarding how models address prediction tasks with different time granularities. In this paper, we explore the impact of time granularity when training DGNNs on dynamic graphs through extensive experiments. We examine graphs derived from various domains and compare three different DGNNs to the baseline model across four varied time granularities. We mainly consider the interplay between time granularities, model architectures, and negative sampling strategies to obtain general conclusions. Our results reveal that a sophisticated memory mechanism and proper time granularity are crucial for a DGNN to deliver competitive and robust performance in the dynamic link prediction task. We also discuss drawbacks in considered models and datasets and propose promising directions for future research on the time granularity of temporal graphs.
翻訳日:2023-11-23 02:30:51 公開日:2023-11-21
# QuGeo:地球科学のためのエンドツーエンド量子学習フレームワーク-フルウェーブフォームインバージョンを事例として

QuGeo: An End-to-end Quantum Learning Framework for Geoscience -- A Case Study on Full-Waveform Inversion ( http://arxiv.org/abs/2311.12333v1 )

ライセンス: Link先を確認
Weiwen Jiang, Youzuo Lin(参考訳) 量子コンピューティングの急速な進歩は、その変換ポテンシャルに対するかなりの期待を生み出した。 しかし、その潜在能力を最大限に活用するには、"キラーアプリケーション"の識別に頼っている。 この点において、QuGeoは、特にFull-Waveform Inversion (FWI)において、地球科学における重要な応用となりそうな、画期的な量子学習フレームワークとして登場した。 この枠組みは変分量子回路とジオサイエンスを統合し、量子コンピューティングと物理解析の新しい融合を表している。 このシナジーは、地球科学における量子コンピューティングのポテンシャルを解き放つ。 物理誘導データスケーリングに対する重要なニーズに対処し、核となる物理原理に沿った高性能な地質学的分析を保証する。 さらに、QuGeoのFWI用にカスタム設計された量子回路の導入は、量子コンピューティングにおけるアプリケーション固有の回路設計の重要性を強調している。 OpenFWIのFlatVelAデータセット実験では、QuGeoの変分量子回路は576のパラメータしか持たず、性能が大幅に向上した。 これは、基底真理と出力速度マップの間の0.905という構造的類似性画像メトリック(ssim)スコアに達した。 これは標準設計のSSIMスコア0.800から顕著な向上であり、物理学の知識を取り入れることなく達成された。

The rapid advancement of quantum computing has generated considerable anticipation for its transformative potential. However, harnessing its full potential relies on identifying "killer applications". In this regard, QuGeo emerges as a groundbreaking quantum learning framework, poised to become a key application in geoscience, particularly for Full-Waveform Inversion (FWI). This framework integrates variational quantum circuits with geoscience, representing a novel fusion of quantum computing and geophysical analysis. This synergy unlocks quantum computing's potential within geoscience. It addresses the critical need for physics-guided data scaling, ensuring high-performance geoscientific analyses aligned with core physical principles. Furthermore, QuGeo's introduction of a quantum circuit custom-designed for FWI highlights the critical importance of application-specific circuit design for quantum computing. In the OpenFWI's FlatVelA dataset experiments, the variational quantum circuit from QuGeo, with only 576 parameters, achieved significant improvement in performance. It reached a Structural Similarity Image Metric (SSIM) score of 0.905 between the ground truth and the output velocity map. This is a notable enhancement from the baseline design's SSIM score of 0.800, which was achieved without the incorporation of physics knowledge.
翻訳日:2023-11-23 02:22:30 公開日:2023-11-21
# academicgpt: 学術研究のエンパワーメント

AcademicGPT: Empowering Academic Research ( http://arxiv.org/abs/2311.12315v1 )

ライセンス: Link先を確認
Shufa Wei, Xiaolong Xu, Xianbiao Qi, Xi Yin, Jun Xia, Jingyi Ren, Peijun Tang, Yuxiang Zhong, Yihao Chen, Xiaoqin Ren, Yuxin Liang, Liankai Huang, Kai Xie, Weikang Gui, Wei Tan, Shuanglong Sun, Yongquan Hu, Qinxian Liu, Nanjin Li, Chihao Dai, Lihua Wang, Xiaohui Liu, Lei Zhang, and Yutao Xie(参考訳) 大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる例外的な機能を示している。 しかし、これらの先進的なLLMの多くは広範で汎用的な用途に向いている。 本稿では,学術研究の促進を目的とした学術GPTを紹介する。 AcademicGPTはLLaMA2-70Bから派生した連続訓練モデルである。 学習コーパスは主に学術論文、論文、一部の学術ドメインからのコンテンツ、高品質な中国語データなどで構成されています。 データ規模は広くないかもしれないが、AcademicGPTは、調査分野に適したドメイン固有のGPTに、私たちの最初のベンチャーをマークしている。 我々は,MMLUやCEvalなどの定評ある公開ベンチマークやPubMedQA,SCIEval,新たに作成されたComputerScienceQAといった専門的な学術ベンチマークでAcademicGPTを評価し,一般知識能力から中国能力,学術能力に至るまでの能力を示す。 また,academicgptの基礎モデルに基づいて,一般の学術質問応答,ai支援論文読解,論文レビュー,ai支援タイトルと抽象生成など,学術分野に適したいくつかのアプリケーションを開発した。

Large Language Models (LLMs) have demonstrated exceptional capabilities across various natural language processing tasks. Yet, many of these advanced LLMs are tailored for broad, general-purpose applications. In this technical report, we introduce AcademicGPT, designed specifically to empower academic research. AcademicGPT is a continual training model derived from LLaMA2-70B. Our training corpus mainly consists of academic papers, thesis, content from some academic domain, high-quality Chinese data and others. While it may not be extensive in data scale, AcademicGPT marks our initial venture into a domain-specific GPT tailored for research area. We evaluate AcademicGPT on several established public benchmarks such as MMLU and CEval, as well as on some specialized academic benchmarks like PubMedQA, SCIEval, and our newly-created ComputerScienceQA, to demonstrate its ability from general knowledge ability, to Chinese ability, and to academic ability. Building upon AcademicGPT's foundation model, we also developed several applications catered to the academic area, including General Academic Question Answering, AI-assisted Paper Reading, Paper Review, and AI-assisted Title and Abstract Generation.
翻訳日:2023-11-23 02:22:12 公開日:2023-11-21
# X線放射分光における光電子と放射光の同時観測の理論とその絡み合い

Theory of simultaneous observation of photoelectron and emitted X-ray photon in X-ray emission spectroscopy and their entanglement ( http://arxiv.org/abs/2311.12313v1 )

ライセンス: Link先を確認
Ryo B. Tanaka, Takayuki Uozumi(参考訳) 光電子と放射されたx線光子の一致分光であるxepecs過程における光電子と放射されたx線光子の絡み合いの特性を理論的に検討した。 計算では,内殻1s軌道と外殻2p軌道からなる3電子スプモデルを用いた。 電子系だけでなく光子を含む系全体の波動関数を用いて,光電子スピンと放射されたX線光子の線形偏光の間に絡み合いが生じることがわかった。 さらに, エンタングルメントの度合いを算出し, X線光子の特定の角度で最大値を示すことを示した。

We have theoretically investigated the character of entanglement between photoelectrons and emitted X-ray photons in XEPECS process which is a coincidence spectroscopy of photoelectrons and emitted X-ray photons. In the calculations, we used a three-electron sp-model consisting of an inner-shell 1s orbital and an outer-shell 2p orbital. We found that entanglement occurs between spin of photoelectrons and linear polarization of emitted X-ray photons, using the wavefunction of the whole system including the photon as well as the electron system. Furthermore, we calculated the degree of entanglement and found that it shows maximum at a particular angle of emitted X-ray photon.
翻訳日:2023-11-23 02:21:53 公開日:2023-11-21
# abfl: 空中画像における任意指向物体検出のための角境界不連続自由損失

ABFL: Angular Boundary Discontinuity Free Loss for Arbitrary Oriented Object Detection in Aerial Images ( http://arxiv.org/abs/2311.12311v1 )

ライセンス: Link先を確認
Zifei Zhao, Shengyang Li(参考訳) 空中画像における任意指向物体検出(AOOD)は、広く懸念され非常に困難な課題であり、多くのシナリオにおいて重要な役割を果たす。 AOODのコアは、オブジェクト指向のバウンディングボックス(Bbox)の表現、エンコーディング、機能拡張である。 既存の手法では、向き付けbbox表現における角度差測定の直感的モデリングが欠如している。 異なる表現の下で配向されたボックスは、角度周期性によって異なる周期で回転対称性を示す。 周期的境界位置における角境界不連続性(ABD)問題は、角差の測定における回転対称性によって引き起こされる。 さらに、既存の手法では、指向bbox用のエンコーディング・デコード構造も追加されている。 本論文では,フォン・ミセス分布に基づく角界自由損失(ABFL)を設計する。 abflは指向オブジェクトを検出する際のabd問題を解決することを目的としている。 具体的には、角度差の測定において、角度を直線データではなく円データとして扱うこと、角度周期性を導入してabd問題を軽減し、角度差測定の精度を向上させることを提案する。 さらに、ABFL は AOOD タスクの回転対称性に起因する様々な周期的境界不連続性に対して単純かつ効果的な解を提供する。 DOTAとHRSC2016データセットの大規模な実験によると、提案されたABFL損失は、ABD問題に対処することに焦点を当てた最先端の手法よりも優れている。

Arbitrary oriented object detection (AOOD) in aerial images is a widely concerned and highly challenging task, and plays an important role in many scenarios. The core of AOOD involves the representation, encoding, and feature augmentation of oriented bounding-boxes (Bboxes). Existing methods lack intuitive modeling of angle difference measurement in oriented Bbox representations. Oriented Bboxes under different representations exhibit rotational symmetry with varying periods due to angle periodicity. The angular boundary discontinuity (ABD) problem at periodic boundary positions is caused by rotational symmetry in measuring angular differences. In addition, existing methods also use additional encoding-decoding structures for oriented Bboxes. In this paper, we design an angular boundary free loss (ABFL) based on the von Mises distribution. The ABFL aims to solve the ABD problem when detecting oriented objects. Specifically, ABFL proposes to treat angles as circular data rather than linear data when measuring angle differences, aiming to introduce angle periodicity to alleviate the ABD problem and improve the accuracy of angle difference measurement. In addition, ABFL provides a simple and effective solution for various periodic boundary discontinuities caused by rotational symmetry in AOOD tasks, as it does not require additional encoding-decoding structures for oriented Bboxes. Extensive experiments on the DOTA and HRSC2016 datasets show that the proposed ABFL loss outperforms some state-of-the-art methods focused on addressing the ABD problem.
翻訳日:2023-11-23 02:21:40 公開日:2023-11-21
# IEKM:外部キーワード行列を組み込んだモデル

IEKM: A Model Incorporating External Keyword Matrices ( http://arxiv.org/abs/2311.12310v1 )

ライセンス: Link先を確認
Cheng Luo, Qin Li, Zhao Yan, Mengliang Rao and Yunbo Cao(参考訳) コアテキストセマンティックな類似性(STS)タスクを持つカスタマーサービスプラットフォームシステムは、2つの緊急課題に直面している。 第二に、プラットフォームシステムのモデルでは、文字通り近いが意味的に異なる文対、すなわちハードネガティブなサンプルを区別することは困難である。 本稿では,これらの課題に対処する組込み外部キーワード行列モデル(IEKM)を提案する。 モデルは外部ツールや辞書を使用して外部の行列を構築し、ゲーティングユニットを通じてトランスフォーマー構造の自己保持層に融合することで、モデル結果に柔軟な修正を可能にする。 提案手法は複数のデータセットで評価し,すべてのデータセットで性能が向上したことを示す。 これらの課題を効果的に解決できることを示すため, フレキシブルな修正実験を行い, 56.61から73.53までF1値が増大することを示した。 私たちのコードは公開されます。

A customer service platform system with a core text semantic similarity (STS) task faces two urgent challenges: Firstly, one platform system needs to adapt to different domains of customers, i.e., different domains adaptation (DDA). Secondly, it is difficult for the model of the platform system to distinguish sentence pairs that are literally close but semantically different, i.e., hard negative samples. In this paper, we propose an incorporation external keywords matrices model (IEKM) to address these challenges. The model uses external tools or dictionaries to construct external matrices and fuses them to the self-attention layers of the Transformer structure through gating units, thus enabling flexible corrections to the model results. We evaluate the method on multiple datasets and the results show that our method has improved performance on all datasets. To demonstrate that our method can effectively solve all the above challenges, we conduct a flexible correction experiment, which results in an increase in the F1 value from 56.61 to 73.53. Our code will be publicly available.
翻訳日:2023-11-23 02:21:20 公開日:2023-11-21
# グラフニューラルネットワークサロゲートを用いた電力系統運用リスク評価

Power grid operational risk assessment using graph neural network surrogates ( http://arxiv.org/abs/2311.12309v1 )

ライセンス: Link先を確認
Yadong Zhang, Pranav M Karve, Sankaran Mahadevan(参考訳) 本稿では,電力グリッド運用決定アルゴリズム(OPF)とセキュリティ制約単位コミットメント(SCUC)のプロキシとしてグラフニューラルネットワーク(GNN)の有用性について検討し,運用リスクの厳密な定量化を実現する。 原理的なリスク分析を行うために、時空間相関確率格子変数の(予測された)確率分布から多数のモンテカルロ(mc)サンプルが抽出される。 リスクを定量化するために必要な対応するOPFおよびSCUCソリューションは、従来のOPFおよびSCUCソルバを用いて生成し、GNNモデルをトレーニングするためのデータを生成する。 GNNモデルの性能は,OPF および SCUC における決定変数から導出される関心量(QoIs)の予測精度の観点から評価する。 具体的には,システムおよび各ゾーンレベルでの熱発電および負荷層に焦点をあてる。 また、GNN予測に基づいて信頼性とリスク定量化を行い、OPF/SCUCソリューションから得られたものと比較する。 以上の結果から,GNNはQoIの高速かつ高精度な予測が可能であり,OPFやSCUCのサロゲートモデルとして有用であることが示唆された。 GNNベースの信頼性とリスクアセスメントの優れた精度は、GNNサロゲートがリアルタイムおよび時間前リスク定量化に適用できる可能性を示唆している。

We investigate the utility of graph neural networks (GNNs) as proxies of power grid operational decision-making algorithms (optimal power flow (OPF) and security-constrained unit commitment (SCUC)) to enable rigorous quantification of the operational risk. To conduct principled risk analysis, numerous Monte Carlo (MC) samples are drawn from the (foretasted) probability distributions of spatio-temporally correlated stochastic grid variables. The corresponding OPF and SCUC solutions, which are needed to quantify the risk, are generated using traditional OPF and SCUC solvers to generate data for training GNN model(s). The GNN model performance is evaluated in terms of the accuracy of predicting quantities of interests (QoIs) derived from the decision variables in OPF and SCUC. Specifically, we focus on thermal power generation and load shedding at system and individual zone level. We also perform reliability and risk quantification based on GNN predictions and compare with that obtained from OPF/SCUC solutions. Our results demonstrate that GNNs are capable of providing fast and accurate prediction of QoIs and thus can be good surrogate models for OPF and SCUC. The excellent accuracy of GNN-based reliability and risk assessment further suggests that GNN surrogate has the potential to be applied in real-time and hours-ahead risk quantification.
翻訳日:2023-11-23 02:21:04 公開日:2023-11-21
# Jup2Kub:Jupyter Notebookパイプラインをフォールトトレラントな分散Kubernetesデプロイメントに変換するアルゴリズムとシステム

Jup2Kub: algorithms and a system to translate a Jupyter Notebook pipeline to a fault tolerant distributed Kubernetes deployment ( http://arxiv.org/abs/2311.12308v1 )

ライセンス: Link先を確認
Jinli Duan, Shasha Dennis(参考訳) 科学ワークフローは、計算、データ操作、時には科学的データ分析のための可視化ステップを促進する。 これらは、通常、科学シミュレーションとデータ分析の計算ステップを含む実験の再現と検証に不可欠である。 これらのワークフローはドメイン科学者がJupyterノートブックを使って開発することが多いが、大きなデータセットでスケールするのに苦労し、耐障害性に欠け、基盤となるツールやパッケージの安定性に大きく依存する。 これらの問題に対処するため、Jup2Kupが開発された。 このソフトウェアシステムは、jupyterノートブックからワークフローを分散で高性能なkubernetes環境に変換し、フォールトトレランスを高めます。 ツールやパッケージの変更に対して,運用上の安定性を維持するため,ソフトウェアの依存関係も管理する。

Scientific workflows facilitate computational, data manipulation, and sometimes visualization steps for scientific data analysis. They are vital for reproducing and validating experiments, usually involving computational steps in scientific simulations and data analysis. These workflows are often developed by domain scientists using Jupyter notebooks, which are convenient yet face limitations: they struggle to scale with larger data sets, lack failure tolerance, and depend heavily on the stability of underlying tools and packages. To address these issues, Jup2Kup has been developed. This software system translates workflows from Jupyter notebooks into a distributed, high-performance Kubernetes environment, enhancing fault tolerance. It also manages software dependencies to maintain operational stability amidst changes in tools and packages.
翻訳日:2023-11-23 02:20:39 公開日:2023-11-21
# 因果関係は必要なだけ

Causality is all you need ( http://arxiv.org/abs/2311.12307v1 )

ライセンス: Link先を確認
Ning Xu, Yifei Gao, Hongshuo Tian, Yongdong Zhang, An-An Liu(参考訳) 基本的な統計学コースでは、学生はよく知られた言葉「相関は因果ではない」を覚えるように教えられる。 現在、統計学(すなわち相関)はTransformerやPre-training Large-scale Modelといった様々なフレームワークを開発しており、これは様々なタスクを模倣するために複数の並列自己注意ブロックを積み重ねている。 しかし、causationコミュニティでは、優れた介入能力にもかかわらず、統合因果フレームワークをどのように構築するかはまだ未修正のドメインである。 本稿では,データに隠された因果効果を解明するために,介入機構に完全に依存した統合因果スキームであるcausal graph routing(cgr)フレームワークを提案する。 具体的には、CGRは因果層からなる。 各層は、異なる因果グラフから平行に分離されたブロックの集合を含む。 これらのブロックを,提案する十分な原因の概念と組み合わせることで,モデルが各層で適切な分解方法を動的に選択できるようにする。 CGRはスタックネットワークとして実装されており、共同設立者、バックドア調整、フロントドア調整、そして十分な原因の確率を統合することはできない。 CVとNLPの2つの古典的課題に対して,この枠組みを評価する。 実験により、CGRはビジュアル質問回答とロングドキュメント分類のタスクにおいて、最先端の手法を超越できることが示された。 特に、CGRは多様なタスクに効果的に一般化する「因果学習」された大規模モデルを構築する大きな可能性を秘めている。 より広い意味空間における因果関係の機械の理解を改善する。

In the fundamental statistics course, students are taught to remember the well-known saying: "Correlation is not Causation". Till now, statistics (i.e., correlation) have developed various successful frameworks, such as Transformer and Pre-training large-scale models, which have stacked multiple parallel self-attention blocks to imitate a wide range of tasks. However, in the causation community, how to build an integrated causal framework still remains an untouched domain despite its excellent intervention capabilities. In this paper, we propose the Causal Graph Routing (CGR) framework, an integrated causal scheme relying entirely on the intervention mechanisms to reveal the cause-effect forces hidden in data. Specifically, CGR is composed of a stack of causal layers. Each layer includes a set of parallel deconfounding blocks from different causal graphs. We combine these blocks via the concept of the proposed sufficient cause, which allows the model to dynamically select the suitable deconfounding methods in each layer. CGR is implemented as the stacked networks, integrating no confounder, back-door adjustment, front-door adjustment, and probability of sufficient cause. We evaluate this framework on two classical tasks of CV and NLP. Experiments show CGR can surpass the current state-of-the-art methods on both Visual Question Answer and Long Document Classification tasks. In particular, CGR has great potential in building the "causal" pre-training large-scale model that effectively generalizes to diverse tasks. It will improve the machines' comprehension of causal relationships within a broader semantic space.
翻訳日:2023-11-23 02:20:25 公開日:2023-11-21
# 土地利用計画における効果的な政策の発見

Discovering Effective Policies for Land-Use Planning ( http://arxiv.org/abs/2311.12304v1 )

ライセンス: Link先を確認
Risto Miikkulainen, Olivier Francon, Daniel Young, Elliot Meyerson, and Babak Hodjat(参考訳) 森林、都市、農業など、異なる用途のためにどのように土地が配分されるかは、炭素収支に大きな影響を与える。 土地利用の変化に関する利用可能な履歴データと炭素排出・吸収のシミュレーションに基づいて、意思決定者に利用可能な異なる選択肢を効率的に評価できるサロゲートモデルを学ぶことができる。 進化的探索プロセスは、特定の場所に対する効果的な土地利用政策を発見するために使用できる。 このようなシステムはProject Resilienceプラットフォーム上に構築され、Land-Use HarmonizationデータセットとBLUEシミュレータで評価された。 それは、異なる場所にカスタマイズされた炭素の影響と変更量とをトレードオフするパレートフロントを生成し、土地利用計画に潜在的に有用なツールを提供する。

How areas of land are allocated for different uses, such as forests, urban, and agriculture, has a large effect on carbon balance, and therefore climate change. Based on available historical data on changes in land use and a simulation of carbon emissions/absorption, a surrogate model can be learned that makes it possible to evaluate the different options available to decision-makers efficiently. An evolutionary search process can then be used to discover effective land-use policies for specific locations. Such a system was built on the Project Resilience platform and evaluated with the Land-Use Harmonization dataset and the BLUE simulator. It generates Pareto fronts that trade off carbon impact and amount of change customized to different locations, thus providing a potentially useful tool for land-use planning.
翻訳日:2023-11-23 02:20:02 公開日:2023-11-21
# 機械学習による有限温度古典スカラー場における微視的変化の検出

Detecting subtle macroscopic changes in a finite temperature classical scalar field with machine learning ( http://arxiv.org/abs/2311.12303v1 )

ライセンス: Link先を確認
Jiming Yang, Yutong Zheng, Jiahong Zhou, Huiyu Li, Jun Yin(参考訳) マクロな変化を検出する能力は、実験的な多体系の挙動を古典から量子領域へ探究するために重要である。 位相境界付近の急激な変化は容易に検出できるが、微妙なマクロ的な変化はノイズによって見えなくなるため、より検出が難しい。 本研究では,多体系における微妙な巨視的変化を検出するための玩具モデルとして,温度の異なるスカラー場標本の識別を試みる。 物理法,統計法,AI法など,様々な微分法の比較を行った。 以上の結果から,AI法は統計的手法と物理法の両方を感度で上回っていることが示唆された。 この結果から,AIが身体的測定を不要とする多体システムにおけるマクロな変化を検出できるという概念実証が得られた。

The ability to detect macroscopic changes is important for probing the behaviors of experimental many-body systems from the classical to the quantum realm. Although abrupt changes near phase boundaries can easily be detected, subtle macroscopic changes are much more difficult to detect as the changes can be obscured by noise. In this study, as a toy model for detecting subtle macroscopic changes in many-body systems, we try to differentiate scalar field samples at varying temperatures. We compare different methods for making such differentiations, from physics method, statistics method, to AI method. Our finding suggests that the AI method outperforms both the statistical method and the physics method in its sensitivity. Our result provides a proof-of-concept that AI can potentially detect macroscopic changes in many-body systems that elude physical measures.
翻訳日:2023-11-23 02:19:47 公開日:2023-11-21
# 映像に基づく幼児の行動認識の課題 : 芸術的状態に対する批判的考察

Challenges in Video-Based Infant Action Recognition: A Critical Examination of the State of the Art ( http://arxiv.org/abs/2311.12300v1 )

ライセンス: Link先を確認
Elaheh Hatamimajoumerd, Pooria Daneshvar Kakhaki, Xiaofei Huang, Lingfei Luan, Somaieh Amraee, Sarah Ostadabbas(参考訳) コンピュータービジョンの急成長する分野である自動人間の行動認識は、監視、セキュリティ、人間とコンピュータのインタラクション、遠隔医療、スポーツ分析といった様々な応用を誇っている。 幼児における精密な行動認識は、安全監視、発達のマイルストーン追跡、発達遅延の早期介入、親子結合の育成、コンピュータ支援診断の進歩、子育ての科学的理解への貢献など、多くの重要な目的を果たす。 本論文は,成人の行動認識の達成にもかかわらず,比較的未獲得の領域である幼児行動認識の複雑さを考察する。 本研究では,5つの重要なマイルストーンアクションカテゴリを包含する‘infactprimitive’という画期的なデータセットを導入し,幼児データに特殊前処理を組み込む。 このデータセットを用いたエッジスケルトンに基づく行動認識モデルを用いて,広範な比較分析を行った。 以上の結果から,ponsoc3dモデルは約71%の精度で高い精度を発揮できたが,残りのモデルでは幼児の行動のダイナミクスを正確に捉えることが困難であった。 これは、幼児と成人の行動認識ドメイン間の知識ギャップと、データ効率のよいパイプラインモデルに対する緊急の必要性を強調している。

Automated human action recognition, a burgeoning field within computer vision, boasts diverse applications spanning surveillance, security, human-computer interaction, tele-health, and sports analysis. Precise action recognition in infants serves a multitude of pivotal purposes, encompassing safety monitoring, developmental milestone tracking, early intervention for developmental delays, fostering parent-infant bonds, advancing computer-aided diagnostics, and contributing to the scientific comprehension of child development. This paper delves into the intricacies of infant action recognition, a domain that has remained relatively uncharted despite the accomplishments in adult action recognition. In this study, we introduce a groundbreaking dataset called ``InfActPrimitive'', encompassing five significant infant milestone action categories, and we incorporate specialized preprocessing for infant data. We conducted an extensive comparative analysis employing cutting-edge skeleton-based action recognition models using this dataset. Our findings reveal that, although the PoseC3D model achieves the highest accuracy at approximately 71%, the remaining models struggle to accurately capture the dynamics of infant actions. This highlights a substantial knowledge gap between infant and adult action recognition domains and the urgent need for data-efficient pipeline models.
翻訳日:2023-11-23 02:19:31 公開日:2023-11-21
# 関係分類データセットTACREDにおけるノイズ:評価と低減

Noise in Relation Classification Dataset TACRED: Characterization and Reduction ( http://arxiv.org/abs/2311.12298v1 )

ライセンス: Link先を確認
Akshay Parekh, Ashish Anand, and Amit Awekar(参考訳) 本論文の主目的は2つである。 まず、ノイズの主な原因を特徴付けるためのモデルに基づくアプローチを検討する。 REデータセットTACRED Secondでは、潜在的にノイズの多いインスタンスを特定する。 第1の目的に向けて,最先端(sota)モデルの予測と性能を分析し,データセット内のノイズの根本原因を同定する。 TACREDの分析によると、データセットのノイズの大部分は、負の例であるno-relationとラベルされたインスタンスに由来する。 第2の目的として,2つの最寄りのneighborに基づく戦略について検討した。 Intrinsic Strategy(IS)と呼ばれる私たちの最初の戦略は、ポジティブな例がクリーンであるという仮定に基づいている。 そこで我々は,ノイズ負の例を特定するために偽陰性予測を用いた。 一方、Extrinsic Strategyと呼ばれる第2のアプローチは、データセットのクリーンなサブセットを使用して、潜在的にノイズの多い負の例を特定することに基づいている。 最後に、削除および再注釈されたデータセット上でSOTAモデルを再訓練した。 実験の結果は, TACRED-Eでトレーニングした2種類のSOTAモデルを用いて, 平均4%のF1スコア改善が得られたが, 再アノテーション (TACRED-R) では改善は得られなかった。 しかし、esに続くsomaモデルでは、各削除データセット(tacred-en)と再注釈データセット(tacred-rn)でトレーニングされた場合、平均f1-score改善率は3.8%と4.4%であった。 さらに, 陽性例のクリーニングのためにESを拡張し, その結果, 削除したデータセット(TACRED-ENP)と再アノテーション(TACRED-RNP)データセット(TACRED-RNP)の平均性能は5.8%, 5.6%向上した。

The overarching objective of this paper is two-fold. First, to explore model-based approaches to characterize the primary cause of the noise. in the RE dataset TACRED Second, to identify the potentially noisy instances. Towards the first objective, we analyze predictions and performance of state-of-the-art (SOTA) models to identify the root cause of noise in the dataset. Our analysis of TACRED shows that the majority of the noise in the dataset originates from the instances labeled as no-relation which are negative examples. For the second objective, we explore two nearest-neighbor-based strategies to automatically identify potentially noisy examples for elimination and reannotation. Our first strategy, referred to as Intrinsic Strategy (IS), is based on the assumption that positive examples are clean. Thus, we have used false-negative predictions to identify noisy negative examples. Whereas, our second approach, referred to as Extrinsic Strategy, is based on using a clean subset of the dataset to identify potentially noisy negative examples. Finally, we retrained the SOTA models on the eliminated and reannotated dataset. Our empirical results based on two SOTA models trained on TACRED-E following the IS show an average 4% F1-score improvement, whereas reannotation (TACRED-R) does not improve the original results. However, following ES, SOTA models show the average F1-score improvement of 3.8% and 4.4% when trained on respective eliminated (TACRED-EN) and reannotated (TACRED-RN) datasets respectively. We further extended the ES for cleaning positive examples as well, which resulted in an average performance improvement of 5.8% and 5.6% for the eliminated (TACRED-ENP) and reannotated (TACRED-RNP) datasets respectively.
翻訳日:2023-11-23 02:19:09 公開日:2023-11-21
# 深層学習による火星の「脳サンゴ」領域のマッピング

Mapping "Brain Coral" Regions on Mars using Deep Learning ( http://arxiv.org/abs/2311.12292v1 )

ライセンス: Link先を確認
Kyle A. Pearson, Eldar Noe, Daniel Zhao, Alphan Altinok, Alex Morgan(参考訳) 火星探査計画の主な目的の1つは、地球上の過去または現在の生命の証拠を探すことである。 これを達成するため、火星探査は液体や凍った水がある地域に焦点を当ててきた。 一連の臨界領域は、火星の斜めの周期的な変化に対応して、比較的最近で氷が解凍するサイクルが見られた可能性がある。 本研究では,地球上の石の円に類似した地形を持つ火星の「ブライン・コーラル」地形を含む地表面積を検出するために,畳み込みニューラルネットワークを用い,凍結・融解サイクルの結果形成された可能性が示唆された。 火星探査機マーズ・リコネッサンス・オービター(mars reconnaissance orbiter)の巨大な画像(約100~1000メガピクセル)を使って、1ピクセルあたり数十センチ(約25~50センチメートル)近い解像度で地形を探索します。 52,000枚以上の画像(28tb)が検索され(火星表面の約5%)、200枚以上の画像から検出された。 この処理を高速化するために、フル空間解像度で画像全体を復号する代わりに離散コサイン変換から係数のブロックを利用することによりJPEG圧縮を活用可能なフーリエ領域の分類器ネットワーク(セグメンテーションに先立ち)を利用する。 ハイブリッドパイプラインアプローチは93%の精度を維持しながら、全画像のセグメンテーションネットワークを全解像度で実行しているのに対して、全体の処理時間の95%を削減している。 ビッグデータのタイムリーな処理は、ミッションの運用、地質調査、候補地点の優先順位付け、危険領域の回避、あるいは特定の地形の空間範囲のマッピングに役立ちます。 セグメンテーションマスクとソースコードはgithubで公開されている。

One of the main objectives of the Mars Exploration Program is to search for evidence of past or current life on the planet. To achieve this, Mars exploration has been focusing on regions that may have liquid or frozen water. A set of critical areas may have seen cycles of ice thawing in the relatively recent past in response to periodic changes in the obliquity of Mars. In this work, we use convolutional neural networks to detect surface regions containing "Brain Coral" terrain, a landform on Mars whose similarity in morphology and scale to sorted stone circles on Earth suggests that it may have formed as a consequence of freeze/thaw cycles. We use large images (~100-1000 megapixels) from the Mars Reconnaissance Orbiter to search for these landforms at resolutions close to a few tens of centimeters per pixel (~25--50 cm). Over 52,000 images (~28 TB) were searched (~5% of the Martian surface) where we found detections in over 200 images. To expedite the processing we leverage a classifier network (prior to segmentation) in the Fourier domain that can take advantage of JPEG compression by leveraging blocks of coefficients from a discrete cosine transform in lieu of decoding the entire image at the full spatial resolution. The hybrid pipeline approach maintains ~93% accuracy while cutting down on ~95% of the total processing time compared to running the segmentation network at the full resolution on every image. The timely processing of big data sets helps inform mission operations, geologic surveys to prioritize candidate landing sites, avoid hazardous areas, or map the spatial extent of certain terrain. The segmentation masks and source code are available on Github for the community to explore and build upon.
翻訳日:2023-11-23 02:18:37 公開日:2023-11-21
# 形状生成器と分類器を用いたインスタンス対応3次元意味セグメンテーション

Instance-aware 3D Semantic Segmentation powered by Shape Generators and Classifiers ( http://arxiv.org/abs/2311.12291v1 )

ライセンス: Link先を確認
Bo Sun, Qixing Huang and Xiangru Huang(参考訳) 既存の3Dセマンティックセグメンテーション手法は、セグメンテーション予測を出力するためにポイントワイズまたはボクセルワイズな特徴記述子に依存している。 しかし、これらのディスクリプタは、しばしばポイントレベルやボクセルレベルで監督され、インスタンスレベルで振る舞うことができるセグメンテーションモデルに繋がる。 本稿では,3次元セマンティックセグメンテーションのための新しいインスタンス認識手法を提案する。 本手法は,学習した特徴表現の一貫性を促進するために,インスタンスレベルでの幾何処理タスクを組み合わせる。 具体的には,形状生成器と形状分類器を用いて各形状インスタンスの形状再構成と分類タスクを行う。 これにより、特徴表現は構造的および局所的な形状情報を忠実にエンコードし、形状インスタンスを認識する。 実験では,Waymo Open DatasetやSemanticKITTI,ScanNetV2など,いくつかの公開ベンチマークにおいて,従来の3次元セマンティックセマンティックセマンティクスのアプローチよりも大幅に優れていた。

Existing 3D semantic segmentation methods rely on point-wise or voxel-wise feature descriptors to output segmentation predictions. However, these descriptors are often supervised at point or voxel level, leading to segmentation models that can behave poorly at instance-level. In this paper, we proposed a novel instance-aware approach for 3D semantic segmentation. Our method combines several geometry processing tasks supervised at instance-level to promote the consistency of the learned feature representation. Specifically, our methods use shape generators and shape classifiers to perform shape reconstruction and classification tasks for each shape instance. This enforces the feature representation to faithfully encode both structural and local shape information, with an awareness of shape instances. In the experiments, our method significantly outperform existing approaches in 3D semantic segmentation on several public benchmarks, such as Waymo Open Dataset, SemanticKITTI and ScanNetV2.
翻訳日:2023-11-23 02:18:09 公開日:2023-11-21
# 時系列に対するコントラスト学習事前学習手法の提案

A Supervised Contrastive Learning Pretrain-Finetune Approach for Time Series ( http://arxiv.org/abs/2311.12290v1 )

ライセンス: Link先を確認
Trang H. Tran, Lam M. Nguyen, Kyongmin Yeo, Nam Nguyen, Roman Vaculin(参考訳) ファンデーションモデルは、幅広いデータ処理の効率のおかげで、機械学習の分野で最近注目を集めている。 研究者たちは、この成功を時系列モデルに拡張しようとしたが、主な課題は、事前学習データセットからターゲットの微調整データセットに、表現を効果的に抽出し、知識を伝達することである。 この問題に対処するために,教師付きコントラスト学習を活用し,各事前学習データセット内の特徴を識別する新しい事前学習手順を提案する。 この事前学習フェーズは確率的類似度測定を可能にし、事前学習データセットの1つと密接な関係にある単変量標本の可能性を評価する。 次に,この類似度指標をガイドとして,事前学習データセットの学習ダイナミクスとより密接に連携することにより,目標データの正確な予測を強化するための微調整手順を提案する。 実験では,提案手法の有効性を示す有望な結果が得られた。

Foundation models have recently gained attention within the field of machine learning thanks to its efficiency in broad data processing. While researchers had attempted to extend this success to time series models, the main challenge is effectively extracting representations and transferring knowledge from pretraining datasets to the target finetuning dataset. To tackle this issue, we introduce a novel pretraining procedure that leverages supervised contrastive learning to distinguish features within each pretraining dataset. This pretraining phase enables a probabilistic similarity metric, which assesses the likelihood of a univariate sample being closely related to one of the pretraining datasets. Subsequently, using this similarity metric as a guide, we propose a fine-tuning procedure designed to enhance the accurate prediction of the target data by aligning it more closely with the learned dynamics of the pretraining datasets. Our experiments have shown promising results which demonstrate the efficacy of our approach.
翻訳日:2023-11-23 02:17:50 公開日:2023-11-21
# 空中物体検出のための安定拡散

Stable Diffusion For Aerial Object Detection ( http://arxiv.org/abs/2311.12345v1 )

ライセンス: Link先を確認
Yanan Jian, Fuxun Yu, Simranjit Singh, Dimitrios Stamoulis(参考訳) 空中物体検出は、大規模なデータ収集の限界と特定のクラスの長い尾の分布に1つの大きな障害がある、難しい課題である。 合成データは、特に安定拡散(SD)のような拡散に基づく手法の最近の進歩において、有望な解を提供する。 しかし、拡散法の航空領域への直接適用は、安定拡散のリッチな地上レベルのセマンティクスに対する最適化は、空中物体のスパースな性質と一致せず、合成後の物体座標の抽出には問題が残る。 これらの課題に対処するために,空中画像に適した合成データ拡張フレームワークを提案する。 セマンティックギャップを橋渡しし、低ランク適応(LORA)で拡散モデルを微調整し、徹底的な再トレーニングを回避し、最後に、背景を持つ合成オブジェクトを構成する Copy-Paste 法を適用し、合成データによる空中物体検出へのニュアンスなアプローチを提供する。

Aerial object detection is a challenging task, in which one major obstacle lies in the limitations of large-scale data collection and the long-tail distribution of certain classes. Synthetic data offers a promising solution, especially with recent advances in diffusion-based methods like stable diffusion (SD). However, the direct application of diffusion methods to aerial domains poses unique challenges: stable diffusion's optimization for rich ground-level semantics doesn't align with the sparse nature of aerial objects, and the extraction of post-synthesis object coordinates remains problematic. To address these challenges, we introduce a synthetic data augmentation framework tailored for aerial images. It encompasses sparse-to-dense region of interest (ROI) extraction to bridge the semantic gap, fine-tuning the diffusion model with low-rank adaptation (LORA) to circumvent exhaustive retraining, and finally, a Copy-Paste method to compose synthesized objects with backgrounds, providing a nuanced approach to aerial object detection through synthetic data.
翻訳日:2023-11-23 02:09:49 公開日:2023-11-21
# マルチモーダル動作認識のための補完的情報を活用したモダリティミキサ

Modality Mixer Exploiting Complementary Information for Multi-modal Action Recognition ( http://arxiv.org/abs/2311.12344v1 )

ライセンス: Link先を確認
Sumin Lee, Sangmin Woo, Muhammad Adi Nugroho, Changick Kim(参考訳) センサーの特徴的な特徴から、それぞれのモダリティはユニークな物理的性質を示す。 このため、マルチモーダル行動認識の文脈においては、全体的な行動内容だけでなく、異なるモダリティの相補的な性質も考慮することが重要である。 本稿では,モータリティ・ミキサー(M-Mixer)ネットワークという,モータリティ間の相補的情報と行動認識の時間的文脈を効果的に活用し,組み込んだネットワークを提案する。 提案するM-Mixerの鍵となるコンポーネントはMCU(Multi-modal Contextualization Unit)である。 我々のMCUは1つのモダリティ(例えば、RGB)のシーケンスを他のモダリティ(例えば、深さと赤外線のモダリティ)のアクション内容の特徴で時間的に符号化する責任がある。 このプロセスは、M-Mixerネットワークがグローバルなアクションコンテンツを活用し、他のモダリティの補完情報を補うことを奨励する。 さらに、与えられたモダリティ設定に関する適切な補完情報を抽出するために、補足的特徴抽出モジュール(CFEM)と呼ばれる新しいモジュールを導入する。 CFEMには、各モダリティに対するセパート学習可能なクエリ埋め込みが組み込まれており、CFEMは補完情報やグローバルアクションコンテンツを他のモダリティから抽出する。 その結果,提案手法は,NTU RGB+D 60,NTU RGB+D 120,NW-UCLAデータセットの最先端手法よりも優れていた。 さらに,包括的アブレーション研究を通じて,提案手法の有効性をさらに検証する。

Due to the distinctive characteristics of sensors, each modality exhibits unique physical properties. For this reason, in the context of multi-modal action recognition, it is important to consider not only the overall action content but also the complementary nature of different modalities. In this paper, we propose a novel network, named Modality Mixer (M-Mixer) network, which effectively leverages and incorporates the complementary information across modalities with the temporal context of actions for action recognition. A key component of our proposed M-Mixer is the Multi-modal Contextualization Unit (MCU), a simple yet effective recurrent unit. Our MCU is responsible for temporally encoding a sequence of one modality (e.g., RGB) with action content features of other modalities (e.g., depth and infrared modalities). This process encourages M-Mixer network to exploit global action content and also to supplement complementary information of other modalities. Furthermore, to extract appropriate complementary information regarding to the given modality settings, we introduce a new module, named Complementary Feature Extraction Module (CFEM). CFEM incorporates sepearte learnable query embeddings for each modality, which guide CFEM to extract complementary information and global action content from the other modalities. As a result, our proposed method outperforms state-of-the-art methods on NTU RGB+D 60, NTU RGB+D 120, and NW-UCLA datasets. Moreover, through comprehensive ablation studies, we further validate the effectiveness of our proposed method.
翻訳日:2023-11-23 02:09:27 公開日:2023-11-21
# loco: 局所制約のあるトレーニングフリーなレイアウトからイメージへの合成

LoCo: Locally Constrained Training-Free Layout-to-Image Synthesis ( http://arxiv.org/abs/2311.12342v1 )

ライセンス: Link先を確認
Peiang Zhao, Han Li, Ruiyang Jin, S. Kevin Zhou(参考訳) 最近のテキストから画像への拡散モデルは、高品質な画像を生成する前例のないレベルに達している。 しかしながら、テキストプロンプトへの排他的依存はしばしば、きめ細かい空間構成を正確に伝達するのに不足する。 本稿では,テキストプロンプトと空間レイアウトの両方に対応する高品質画像の生成に優れた,レイアウトから画像への合成のためのトレーニングフリーな手法であるlocoを提案する。 本手法では,個別の物体に対する横断的注意を洗練し,特定領域における正確な配置を確保するために,局所的注意制限を導入する。 さらに,これまで無視されていたパディングトークンに埋め込まれた意味情報を活用するために,パディングトークン制約を提案する。 locoは既存のテキストから画像へ、レイアウトから画像へモデルをシームレスに統合し、パフォーマンスを大幅に向上させ、以前の方法で見られた意味的障害を効果的に対処します。 広範な実験を通じて,既存の最先端のトレーニングフリーなレイアウトからイメージへのアプローチを,複数のベンチマークで質的かつ定量的に比較し,このアプローチの優位性を示す。

Recent text-to-image diffusion models have reached an unprecedented level in generating high-quality images. However, their exclusive reliance on textual prompts often falls short in accurately conveying fine-grained spatial compositions. In this paper, we propose LoCo, a training-free approach for layout-to-image synthesis that excels in producing high-quality images aligned with both textual prompts and spatial layouts. Our method introduces a Localized Attention Constraint to refine cross-attention for individual objects, ensuring their precise placement in designated regions. We further propose a Padding Token Constraint to leverage the semantic information embedded in previously neglected padding tokens, thereby preventing the undesired fusion of synthesized objects. LoCo seamlessly integrates into existing text-to-image and layout-to-image models, significantly amplifying their performance and effectively addressing semantic failures observed in prior methods. Through extensive experiments, we showcase the superiority of our approach, surpassing existing state-of-the-art training-free layout-to-image methods both qualitatively and quantitatively across multiple benchmarks.
翻訳日:2023-11-23 02:09:00 公開日:2023-11-21
# パーソナライズ・説明可能なレコメンデーションのための大規模言語モデルに関する調査

A Survey on Large Language Models for Personalized and Explainable Recommendations ( http://arxiv.org/abs/2311.12338v1 )

ライセンス: Link先を確認
Junyi Chen(参考訳) 近年、Recommender Systems(RS)は、自然言語処理(NLP)分野におけるLarge Language Models(LLM)の出現とともに、変革的な変化を目撃している。 OpenAIのGPT-3.5/4、MetaのLlamaのようなこれらのモデルは、人間のようなテキストを理解して生成する前例のない能力を示している。 このことがパーソナライズされ説明可能なレコメンデーションの領域にパラダイムシフトをもたらし、LCMは膨大なテキストデータを処理してユーザエクスペリエンスを向上させる汎用的なツールセットを提供する。 本研究は,既存のLSMベースのレコメンデーションシステムについて,総合的に理解するために,RSがLSMベースの方法論の恩恵を受けるかを分析することを目的とする。 さらに,冷戦開始問題,不公平性,バイアス問題であるパーソナライズド・リレーション・ジェネレーション(peg)タスクにおける大きな課題について述べる。

In recent years, Recommender Systems(RS) have witnessed a transformative shift with the advent of Large Language Models(LLMs) in the field of Natural Language Processing(NLP). These models such as OpenAI's GPT-3.5/4, Llama from Meta, have demonstrated unprecedented capabilities in understanding and generating human-like text. This has led to a paradigm shift in the realm of personalized and explainable recommendations, as LLMs offer a versatile toolset for processing vast amounts of textual data to enhance user experiences. To provide a comprehensive understanding of the existing LLM-based recommendation systems, this survey aims to analyze how RS can benefit from LLM-based methodologies. Furthermore, we describe major challenges in Personalized Explanation Generating(PEG) tasks, which are cold-start problems, unfairness and bias problems in RS.
翻訳日:2023-11-23 02:08:39 公開日:2023-11-21
# より小さな言語モデルは記憶や一般化を通して文脈化された質問に答えるのか?

Do Smaller Language Models Answer Contextualised Questions Through Memorisation Or Generalisation? ( http://arxiv.org/abs/2311.12337v1 )

ライセンス: Link先を確認
Tim Hartill, Joshua Bensemann, Michael Witbrock and Patricia J. Riddle(参考訳) モデルは、非常に類似したトレーニングサンプルから直接記憶される評価サンプルのラベルを予測できる能力と、一般化の方法によってラベルを予測する能力とを区別することが多い。 質問応答に言語モデルを使うという文脈では、記憶によってどの質問に答えるかという議論が続いている。 関連する文脈を推論することで、理想的に答えられるような質問に対して、この問題を考える。 本稿では,本モデルが解答を記憶する可能性が極めて低い評価サンプルを同定する手法を提案する。 本手法は,トレーニングと評価サンプル間の入力トークンとラベルトークンの意味的類似性に基づく。 提案手法は,連続あるいは不連続なトークン列で重なり合う評価・訓練ペアを表面化できるという点で,いくつかの先行手法に利点があることを示す。 この方法で評価データセットの記憶不能なサブセットを識別します。 2つの言語モデルをマルチタスク形式でトレーニングする。2つ目のモデルが1つ目のモデルと異なるのは、トレーニングレジームに2つの追加データセットを追加して、私たちの評価データセットのいくつかのパフォーマンスを改善することで知られる、ある種の単純な数値推論戦略を与えるように設計されていることだ。 次に,評価データセットの記憶不能なサブセット上での2つのモデル間の性能改善が,追加のトレーニングデータセットのメリットを期待できることを示す。 具体的には、2つの評価データセットの記憶できないサブセットのパフォーマンスが9.0%、ロープが25.7%改善しましたが、他の評価データセットはパフォーマンスに大きな変化はありません。

A distinction is often drawn between a model's ability to predict a label for an evaluation sample that is directly memorised from highly similar training samples versus an ability to predict the label via some method of generalisation. In the context of using Language Models for question-answering, discussion continues to occur as to the extent to which questions are answered through memorisation. We consider this issue for questions that would ideally be answered through reasoning over an associated context. We propose a method of identifying evaluation samples for which it is very unlikely our model would have memorised the answers. Our method is based on semantic similarity of input tokens and label tokens between training and evaluation samples. We show that our method offers advantages upon some prior approaches in that it is able to surface evaluation-train pairs that have overlap in either contiguous or discontiguous sequences of tokens. We use this method to identify unmemorisable subsets of our evaluation datasets. We train two Language Models in a multitask fashion whereby the second model differs from the first only in that it has two additional datasets added to the training regime that are designed to impart simple numerical reasoning strategies of a sort known to improve performance on some of our evaluation datasets but not on others. We then show that there is performance improvement between the two models on the unmemorisable subsets of the evaluation datasets that were expected to benefit from the additional training datasets. Specifically, performance on unmemorisable subsets of two of our evaluation datasets, DROP and ROPES significantly improves by 9.0%, and 25.7% respectively while other evaluation datasets have no significant change in performance.
翻訳日:2023-11-23 02:08:25 公開日:2023-11-21
# 教師付き機械学習アルゴリズムを用いたInstagramの偽ユーザー分類

Classification of Instagram fake users using supervised machine learning algorithms ( http://arxiv.org/abs/2311.12336v1 )

ライセンス: Link先を確認
Vertika Singh, Naman Tolasaria, Patel Meet Alpeshkumar, Shreyash Bartwal(参考訳) 現代では、オンラインソーシャルネットワークは社会生活に不可欠なものとなり、個人が社会的つながりを管理する方法に革命をもたらした。 アクセシビリティと即時性を高める一方で、これらのネットワークは同時に問題を引き起こし、特に不正なプロファイルの拡散とオンラインの偽装を招いている。 本稿では,このような不正行為を検出・無効化するためのアプリケーションを提案する。 ユーザ中心の設計により、調査機関、特に刑事部門へのアクセシビリティが保証され、複雑なソーシャルメディアの景観のナビゲーションや既存の調査手順との統合が容易になる。

In the contemporary era, online social networks have become integral to social life, revolutionizing the way individuals manage their social connections. While enhancing accessibility and immediacy, these networks have concurrently given rise to challenges, notably the proliferation of fraudulent profiles and online impersonation. This paper proposes an application designed to detect and neutralize such dishonest entities, with a focus on safeguarding companies from potential fraud. The user-centric design of the application ensures accessibility for investigative agencies, particularly the criminal branch, facilitating navigation of complex social media landscapes and integration with existing investigative procedures
翻訳日:2023-11-23 02:07:56 公開日:2023-11-21
# グラフニューラル常微分方程式に基づく協調フィルタリング法

Graph Neural Ordinary Differential Equations-based method for Collaborative Filtering ( http://arxiv.org/abs/2311.12329v1 )

ライセンス: Link先を確認
Ke Xu, Yuanjie Zhu, Weizhi Zhang, Philip S. Yu(参考訳) グラフ畳み込みネットワーク(GCN)は、協調フィルタリングの最先端と見なされている。 いくつかのGCNベースの手法が提案され、様々なタスクで最先端のパフォーマンスを達成したが、レイヤーが多すぎると計算コストがかかり、訓練に時間がかかる。 しかし、線型GCNモデルは微分方程式として解釈できるため、ODE問題に変換することができる。 この結果、GCNベースのモデルの計算制限に対処するために、いくつかのGCN層をスキップして最終状態に到達できるシンプルで効率的なNODEベースのモデルを設計しました。 本稿では,協調フィルタリング(GODE-CF)のためのグラフニューラル正規微分方程式法を提案する。 本手法は,GCN層が取得した情報を利用して最終埋め込みを推定する。 提案手法を検証するために,複数のデータセットの実験を行った。 その結果,GCNモデルや最先端CF手法など,競争ベースラインよりも優れた結果が得られた。 特に,提案したGODE-CFモデルは,従来のGCNモデルよりもいくつかの利点がある。 シンプルで効率的で、トレーニング時間も速いので、現実の状況では実践的な選択になります。

Graph Convolution Networks (GCNs) are widely considered state-of-the-art for collaborative filtering. Although several GCN-based methods have been proposed and achieved state-of-the-art performance in various tasks, they can be computationally expensive and time-consuming to train if too many layers are created. However, since the linear GCN model can be interpreted as a differential equation, it is possible to transfer it to an ODE problem. This inspired us to address the computational limitations of GCN-based models by designing a simple and efficient NODE-based model that can skip some GCN layers to reach the final state, thus avoiding the need to create many layers. In this work, we propose a Graph Neural Ordinary Differential Equation-based method for Collaborative Filtering (GODE-CF). This method estimates the final embedding by utilizing the information captured by one or two GCN layers. To validate our approach, we conducted experiments on multiple datasets. The results demonstrate that our model outperforms competitive baselines, including GCN-based models and other state-of-the-art CF methods. Notably, our proposed GODE-CF model has several advantages over traditional GCN-based models. It is simple, efficient, and has a fast training time, making it a practical choice for real-world situations.
翻訳日:2023-11-23 02:07:44 公開日:2023-11-21
# GPUアクセラレーションによる大規模ステラー分類のための量子化支援ベクトルマシン

Quantum-Enhanced Support Vector Machine for Large-Scale Stellar Classification with GPU Acceleration ( http://arxiv.org/abs/2311.12328v1 )

ライセンス: Link先を確認
Kuan-Cheng Chen, Xiaotian Xu, Henry Makhanov, Hui-Hsuan Chung, Chen-Yu Liu(参考訳) 本研究では,量子コンピューティングとGPUアクセラレーションのパワーを生かした,恒星分類のための革新的な量子強化支援ベクトルマシン(QSVM)を提案する。 我々のqsvmアルゴリズムはk-nearest neighbors (knn) やロジスティック回帰 (lr) といった従来の手法を大幅に上回っており、特にハーバード・ステラー分類システムにおける複雑な二進法や多階層のシナリオを扱っている。 量子原理の統合により分類精度が向上し、cuQuantum SDKを使用したGPUアクセラレーションにより、量子シミュレータの大規模データセットの計算効率とスケーラビリティが保証される。 この相乗効果は、処理プロセスを加速するだけでなく、様々な恒星型を分類する精度も向上し、天文学データ分析の新しいベンチマークを設定する。 この結果は、天文学研究における量子機械学習の転換可能性の中核であり、恒星分類の精度と処理速度の両方において大きな進歩を示している。 この進歩は天体物理学および関連する科学分野に幅広い意味を持つ

In this study, we introduce an innovative Quantum-enhanced Support Vector Machine (QSVM) approach for stellar classification, leveraging the power of quantum computing and GPU acceleration. Our QSVM algorithm significantly surpasses traditional methods such as K-Nearest Neighbors (KNN) and Logistic Regression (LR), particularly in handling complex binary and multi-class scenarios within the Harvard stellar classification system. The integration of quantum principles notably enhances classification accuracy, while GPU acceleration using the cuQuantum SDK ensures computational efficiency and scalability for large datasets in quantum simulators. This synergy not only accelerates the processing process but also improves the accuracy of classifying diverse stellar types, setting a new benchmark in astronomical data analysis. Our findings underscore the transformative potential of quantum machine learning in astronomical research, marking a significant leap forward in both precision and processing speed for stellar classification. This advancement has broader implications for astrophysical and related scientific fields
翻訳日:2023-11-23 02:07:25 公開日:2023-11-21
# ViLaM:視覚的グラウンディングと一般化機能を備えた視覚言語モデル

ViLaM: A Vision-Language Model with Enhanced Visual Grounding and Generalization Capability ( http://arxiv.org/abs/2311.12327v1 )

ライセンス: Link先を確認
Xiaoyu Yang, Lijian Xu, Hongsheng Li, Shaoting Zhang(参考訳) 視覚言語モデルは人間とコンピュータの相互作用に革命をもたらし、マルチモーダルタスクにおいて大きな進歩を見せている。 しかし、これらのモデルを医療画像分析のような複雑な視覚タスクに適用することは依然として困難である。 本研究では,大規模な言語モデルに基づく指導指導を統合した視覚言語変換モデルViLaMを提案する。 提案手法は,大規模事前学習言語モデルの知識と推論能力を,言語と視覚の両方を包含するタスクの配列に最適に活用することを可能にする。 我々は、凍結した事前学習エンコーダを使用して、画像とテキストの特徴をエンコードし、アライメントし、ViLaMがテキスト命令に従って様々な視覚タスクを処理できるようにする。 さらに、我々は、量と品質の両方の観点から大きなモデルをトレーニングするための高品質なペア付き参照式データセットの必要性に対応するために、表現を参照するためのサイクルトレーニングを設計しました。 一般データセットにおけるvilamの優れた性能を評価し,医療データセットの汎用性をさらに確認した。 重要なことに、我々はこのモデルの印象的なゼロショット学習能力を観察し、医療分野におけるViLaMの潜在的な応用を示唆している。

Vision-language models have revolutionized human-computer interaction and shown significant progress in multi-modal tasks. However, applying these models to complex visual tasks like medical image analysis remains challenging. In this study, we propose ViLaM, a unified Vision-Language transformer model that integrates instruction tuning predicated on a large language model. This approach enables us to optimally utilize the knowledge and reasoning capacities of large pre-trained language models for an array of tasks encompassing both language and vision. We employ frozen pre-trained encoders to encode and align both image and text features, enabling ViLaM to handle a variety of visual tasks following textual instructions. Besides, we've designed cycle training for referring expressions to address the need for high-quality, paired referring expression datasets for training large models in terms of both quantity and quality. We evaluated ViLaM's exceptional performance on public general datasets and further confirmed its generalizability on medical datasets. Importantly, we've observed the model's impressive zero-shot learning ability, indicating the potential future application of ViLaM in the medical field.
翻訳日:2023-11-23 02:07:07 公開日:2023-11-21
# \AE\ 符号

\AE\ codes ( http://arxiv.org/abs/2311.12324v1 )

ライセンス: Link先を確認
Shubham P. Jain, Eric R. Hudson, Wesley C. Campbell, Victor V. Albert(参考訳) 二原子分子コード[{arxiv:1911.00099}]は、量子情報を二原子分子の向きにエンコードし、小さなトルクと角運動量の変化による誤差補正を可能にするように設計されている。 ここでは、原子および分子プラットフォームに固有のノイズ(自然放出、成層電磁場、ラマン散乱)を直接研究し、そのようなノイズに対してコードを保護するのに必要な単純で十分な条件を導出する。 我々は、分子コードよりも実用的であり、平均運動量が低い、任意の順序までフォトニックプロセスに対して直接保護できる、より広い原子・分子系に適用可能な新しい吸収放出(\ae)符号を特定し、開発する。

Diatomic molecular codes [{arXiv:1911.00099}] are designed to encode quantum information in the orientation of a diatomic molecule, allowing error correction from small torques and changes in angular momentum. Here, we directly study noise native to atomic and molecular platforms -- spontaneous emission, stray electromagnetic fields, and Raman scattering -- and derive simple necessary and sufficient conditions for codes to protect against such noise. We identify existing and develop new absorption-emission (\AE) codes that are more practical than molecular codes, require lower average momentum, can directly protect against photonic processes up to arbitrary order, and are applicable to a broader set of atomic and molecular systems.
翻訳日:2023-11-23 02:06:50 公開日:2023-11-21
# ソーシャルメディア投稿の政治的指向のモデル化:拡張分析

Modeling Political Orientation of Social Media Posts: An Extended Analysis ( http://arxiv.org/abs/2311.12323v1 )

ライセンス: Link先を確認
Sadia Kamal, Brenner Little, Jade Gullic, Trevor Harms, Kristin Olofsson, Arunkumar Bagavathi(参考訳) オンラインソーシャルメディア上での政治的分極を特徴付ける機械学習モデルの開発には大きな課題がある。 これらの課題は主に、注釈付きデータの欠如、ソーシャルメディアデータセットにおけるノイズの存在、膨大な量のデータなど、さまざまな要因に起因している。 一般的な研究慣行は、特定のトピックに対するオンラインユーザコミュニティの偏りのある構造を調査したり、ソーシャルメディアへの偏りのあるトピックの影響を定性的に測定する。 しかし、特にソーシャルメディアの投稿自体において、地上レベルでの偏光の分析に焦点をあてる作業は限られている。 このような既存の分析は、しばしば人間のラベル付けを必要とする注釈付きデータに大きく依存しており、特定の問題のみにラベルを提供し、ソーシャルメディアの会話の近未来のバイアス状態を決定する能力が欠如している。 ソーシャルメディア投稿で伝えられる政治的指向の程度を理解することは、オンラインユーザーコミュニティの偏見を定量化し、偏光コンテンツの普及を調査するために重要である。 本研究は,まず,ソーシャルメディアのバイアスを利用した2つのヒューリスティック手法を導入し,ソーシャルメディア投稿のラベル付けを行う。 次に、ヒューリスティックなラベル付きデータセットの有効性と品質を、ランダムなサンプル付き人間アノテーション付きデータセットと比較する。 さらに,現在の機械学習モデルでは,従来の教師付き学習と少数の学習を併用して,ソーシャルメディア投稿の政治的指向を予測することで,パフォーマンスの向上が期待できることを示した。 提案したヒューリスティック手法と機械学習アプローチを用いて、さまざまな政治的イデオロギーを持つソーシャルメディアフォーラムから収集した投稿の政治的指向を予測する実験を行う。

Developing machine learning models to characterize political polarization on online social media presents significant challenges. These challenges mainly stem from various factors such as the lack of annotated data, presence of noise in social media datasets, and the sheer volume of data. The common research practice typically examines the biased structure of online user communities for a given topic or qualitatively measuring the impacts of polarized topics on social media. However, there is limited work focusing on analyzing polarization at the ground-level, specifically in the social media posts themselves. Such existing analysis heavily relies on annotated data, which often requires laborious human labeling, offers labels only to specific problems, and lacks the ability to determine the near-future bias state of a social media conversations. Understanding the degree of political orientation conveyed in social media posts is crucial for quantifying the bias of online user communities and investigating the spread of polarized content. In this work, we first introduce two heuristic methods that leverage on news media bias and post content to label social media posts. Next, we compare the efficacy and quality of heuristically labeled dataset with a randomly sampled human-annotated dataset. Additionally, we demonstrate that current machine learning models can exhibit improved performance in predicting political orientation of social media posts, employing both traditional supervised learning and few-shot learning setups. We conduct experiments using the proposed heuristic methods and machine learning approaches to predict the political orientation of posts collected from two social media forums with diverse political ideologies: Gab and Twitter.
翻訳日:2023-11-23 02:06:37 公開日:2023-11-21
# 自動運転のためのマルチモーダル大言語モデルに関する研究

A Survey on Multimodal Large Language Models for Autonomous Driving ( http://arxiv.org/abs/2311.12320v1 )

ライセンス: Link先を確認
Can Cui, Yunsheng Ma, Xu Cao, Wenqian Ye, Yang Zhou, Kaizhao Liang, Jintai Chen, Juanwu Lu, Zichong Yang, Kuei-Da Liao, Tianren Gao, Erlong Li, Kun Tang, Zhipeng Cao, Tong Zhou, Ao Liu, Xinrui Yan, Shuqi Mei, Jianguo Cao, Ziran Wang, Chao Zheng(参考訳) LLM(Large Language Models)とVFM(Vision Foundation Models)の出現により、大規模モデルから恩恵を受けるマルチモーダルAIシステムは、現実世界を平等に知覚し、意思決定し、ツールを人間として制御する可能性がある。 近年、LLMは自動運転と地図システムに広く注目されている。 その大きな可能性にもかかわらず、LLM運転システムに適用するための重要な課題、機会、将来の取り組みに関する包括的な理解はいまだに欠けている。 本稿では,この分野における系統的調査について述べる。 まず,MLLM(Multimodal Large Language Models)の背景,LSMを用いたマルチモーダルモデル開発,自動運転の歴史を紹介する。 そして、既存のデータセットとベンチマークとともに、運転、輸送、マップシステムのための既存のMLLMツールの概要を述べる。 さらに, 自動運転におけるLLMに関する最初のワークショップである, The 1st WACV Workshop on Large Language and Vision Models for Autonomous Driving (LLVM-AD) を要約した。 また、この分野の発展をさらに促進するために、学術と産業の両方で解決する必要がある自動運転システムにおけるMLLMの使用に関するいくつかの重要な課題についても論じる。

With the emergence of Large Language Models (LLMs) and Vision Foundation Models (VFMs), multimodal AI systems benefiting from large models have the potential to equally perceive the real world, make decisions, and control tools as humans. In recent months, LLMs have shown widespread attention in autonomous driving and map systems. Despite its immense potential, there is still a lack of a comprehensive understanding of key challenges, opportunities, and future endeavors to apply in LLM driving systems. In this paper, we present a systematic investigation in this field. We first introduce the background of Multimodal Large Language Models (MLLMs), the multimodal models development using LLMs, and the history of autonomous driving. Then, we overview existing MLLM tools for driving, transportation, and map systems together with existing datasets and benchmarks. Moreover, we summarized the works in The 1st WACV Workshop on Large Language and Vision Models for Autonomous Driving (LLVM-AD), which is the first workshop of its kind regarding LLMs in autonomous driving. To further promote the development of this field, we also discuss several important problems regarding using MLLMs in autonomous driving systems that need to be solved by both academia and industry.
翻訳日:2023-11-23 02:06:11 公開日:2023-11-21
# 統合正規化を用いた高次元回帰のための統一コンセンサスに基づく並列ADMMアルゴリズム

A unified consensus-based parallel ADMM algorithm for high-dimensional regression with combined regularizations ( http://arxiv.org/abs/2311.12319v1 )

ライセンス: Link先を確認
Xiaofei Wu, Zhimin Zhang, Zhenyu Cui(参考訳) 分散的に格納された大規模データセットの処理において,admm(parallel alternating direction of multipliers)アルゴリズムの有効性が広く認識されており,統計学習モデルの解法として一般的である。 しかし、(複合)正規化項を組み合わせた高次元回帰のために特別に設計された並列アルゴリズムの研究は、現在限定されている。 これらの用語、例えば、弾性ネット、スパースグループラッソ、スパース融合ラッソ、およびそれらの非凸変種は、事前情報を組み込んだり、特定の群や融合変数の空間性を促進する能力によって、様々な分野で大きな注目を集めている。 結合正規化に対する並列アルゴリズムの不足は、これらの項の固有の非滑らかさと複雑さ、およびそれらに関連する特定の近位作用素に対する閉形式解がないことに起因する。 本稿では,このような凸および非凸回帰問題に対するコンセンサス問題に基づく統一的制約付き最適化定式化を提案し,対応する並列ADMMアルゴリズムを導出する。 さらに,提案アルゴリズムが大域収束率を持つだけでなく,線形収束率を示すことを証明した。 広範なシミュレーション実験と財務的な例が、アルゴリズムの信頼性、安定性、スケーラビリティの実証に役立ちます。 提案アルゴリズムを実装するためのRパッケージはhttps://github.com/xfwu1016/CPADMMで入手できる。

The parallel alternating direction method of multipliers (ADMM) algorithm is widely recognized for its effectiveness in handling large-scale datasets stored in a distributed manner, making it a popular choice for solving statistical learning models. However, there is currently limited research on parallel algorithms specifically designed for high-dimensional regression with combined (composite) regularization terms. These terms, such as elastic-net, sparse group lasso, sparse fused lasso, and their nonconvex variants, have gained significant attention in various fields due to their ability to incorporate prior information and promote sparsity within specific groups or fused variables. The scarcity of parallel algorithms for combined regularizations can be attributed to the inherent nonsmoothness and complexity of these terms, as well as the absence of closed-form solutions for certain proximal operators associated with them. In this paper, we propose a unified constrained optimization formulation based on the consensus problem for these types of convex and nonconvex regression problems and derive the corresponding parallel ADMM algorithms. Furthermore, we prove that the proposed algorithm not only has global convergence but also exhibits linear convergence rate. Extensive simulation experiments, along with a financial example, serve to demonstrate the reliability, stability, and scalability of our algorithm. The R package for implementing the proposed algorithms can be obtained at https://github.com/xfwu1016/CPADMM.
翻訳日:2023-11-23 02:05:49 公開日:2023-11-21
# 病理画像データ不足の克服:病理変換プロセスから画像を生成する

Overcoming Pathology Image Data Deficiency: Generating Images from Pathological Transformation Process ( http://arxiv.org/abs/2311.12316v1 )

ライセンス: Link先を確認
Zeyu Liu, Yufang He, Yu Zhao, Yunlu Feng, Guanglei Zhang(参考訳) 病理組織学は医療診断のゴールドスタンダードとして機能するが、医療資源の不足により応用限界に直面している。 ディープラーニングを活用することで、コンピュータ支援診断は病理学者の不足を軽減し、タイムリーな臨床分析を提供する可能性がある。 しかし、信頼できるモデルを開発するには訓練に必要なデータが必要であり、病理学の分野では困難である。 画像データ生成のための適応型深度制御双方向拡散(ADBD)ネットワークを提案する。 ドメインマイグレーションアプローチは、小さなトレーニングセットで動作し、ソース情報ガイダンスによる拡散オーバーフィッティングを克服することができる。 具体的には,双方向の拡散を誘導し,マイグレーションの成功を保証するグローバルおよびローカルの注意の優先順位をブレンドするハイブリッドアテンション戦略を開発した。 さらに,生理的変換をシミュレートする適応的な深度制御戦略を開発し,対応するソフトラベルと無制限のクロスドメイン中間画像を生成する。 ADBDは、病理画像データ不足を克服し、さらなる病理研究を支援するのに有効である。

Histopathology serves as the gold standard for medical diagnosis but faces application limitations due to the shortage of medical resources. Leveraging deep learning, computer-aided diagnosis has the potential to alleviate the pathologist scarcity and provide timely clinical analysis. However, developing a reliable model generally necessitates substantial data for training, which is challenging in pathological field. In response, we propose an adaptive depth-controlled bidirectional diffusion (ADBD) network for image data generation. The domain migration approach can work with small trainset and overcome the diffusion overfitting by source information guidance. Specifically, we developed a hybrid attention strategy to blend global and local attention priorities, which guides the bidirectional diffusion and ensures the migration success. In addition, we developed the adaptive depth-controlled strategy to simulate physiological transformations, capable of yielding unlimited cross-domain intermediate images with corresponding soft labels. ADBD is effective for overcoming pathological image data deficiency and supportable for further pathology-related research.
翻訳日:2023-11-23 02:05:26 公開日:2023-11-21
# 誤りから右へ:視覚言語説明への再帰的アプローチ

From Wrong To Right: A Recursive Approach Towards Vision-Language Explanation ( http://arxiv.org/abs/2311.12391v1 )

ライセンス: Link先を確認
Jiaxin Ge, Sanjay Subramanian, Trevor Darrell, Boyi Li(参考訳) 限られたアノテーションで視覚的推論タスクの洞察力のある説明を生成するために、事前学習された視覚言語モデルを適用するという課題に対処するため、ReVisEを提示する: a $\textbf{Re}$cursive $\textbf{Vis}$ual $\textbf{E}$xplanation algorithm。 提案手法は,視覚的特徴(テキスト入力で条件付き),回答,説明を反復的に計算し,回答が収束するまで説明品質を段階的に改善する。 このマルチステップアプローチは,モデルが自身の回答を訂正し,単一ステップの説明生成を上回らせることを導く。 さらに、ReVisEによって生成された説明は、数発の自己学習のための貴重なアノテーションとしても機能する。 提案手法は,VCRおよびVQA-XデータセットにおけるBLEU-1スコアの4.2と1.3増加を実証し,提案手法の有効性とデータ効率を実証し,従来の手法よりも優れていた。

Addressing the challenge of adapting pre-trained vision-language models for generating insightful explanations for visual reasoning tasks with limited annotations, we present ReVisE: a $\textbf{Re}$cursive $\textbf{Vis}$ual $\textbf{E}$xplanation algorithm. Our method iteratively computes visual features (conditioned on the text input), an answer, and an explanation, to improve the explanation quality step by step until the answer converges. We find that this multi-step approach guides the model to correct its own answers and outperforms single-step explanation generation. Furthermore, explanations generated by ReVisE also serve as valuable annotations for few-shot self-training. Our approach outperforms previous methods while utilizing merely 5% of the human-annotated explanations across 10 metrics, demonstrating up to a 4.2 and 1.3 increase in BLEU-1 score on the VCR and VQA-X datasets, underscoring the efficacy and data-efficiency of our method.
翻訳日:2023-11-23 01:56:39 公開日:2023-11-21
# point, segment, count:オブジェクトカウントのための一般化フレームワーク

Point, Segment and Count: A Generalized Framework for Object Counting ( http://arxiv.org/abs/2311.12386v1 )

ライセンス: Link先を確認
Huang Zhizhong, Dai Mingliang, Zhang Yi, Zhang Junping, Shan Hongming(参考訳) クラス非依存のオブジェクトカウントは、例ボックスやクラス名、 \emph{a.k.a} 少数ショットとゼロショットカウントに関して、イメージ内のすべてのオブジェクトをカウントすることを目的としている。 現在の最先端の手法は、モデルの解釈可能性に欠ける対象数を予測するために密度マップに強く依存している。 本稿では,検出に基づく最小ショットとゼロショットの両方のオブジェクトカウントのための一般化フレームワークを提案する。 我々のフレームワークは、ゼロショット能力を損なうことなく、2つの基盤モデルの優れた利点を組み合わせている。 (\textbf{i}) SAM はすべての可能なオブジェクトをマスクの提案としてセグメント化し、 (\textbf{ii}) CLIP は正確なオブジェクト数を得るための提案を分類する。 しかし、この戦略は、効率のオーバーヘッドと、局所化や区別ができない小さな混み合ったオブジェクトの障害を満たす。 これらの問題に対処するため、私たちのフレームワークはPseCoと呼ばれ、ポイント、セグメント、カウントの3つのステップに従っています。 具体的には、SAMの精度が低いが最小点のプロンプトを提供するために、クラスに依存しないオブジェクトローカライゼーションを提案する。 さらに,CLIP画像/テキスト埋め込みを分類器として活用する汎用オブジェクト分類を提案し,階層的知識蒸留に続き,階層的マスク提案の識別的分類を得る。 FSC-147データセットの大規模な実験結果から、PseCoは、大規模COCOデータセットとLVISデータセットのさらなる結果とともに、少数ショット/ゼロショットオブジェクトカウント/検出の両方で最先端のパフォーマンスを達成することが示された。 ソースコードは \url{https://github.com/Hzzone/PseCo} で入手できる。

Class-agnostic object counting aims to count all objects in an image with respect to example boxes or class names, \emph{a.k.a} few-shot and zero-shot counting. Current state-of-the-art methods highly rely on density maps to predict object counts, which lacks model interpretability. In this paper, we propose a generalized framework for both few-shot and zero-shot object counting based on detection. Our framework combines the superior advantages of two foundation models without compromising their zero-shot capability: (\textbf{i}) SAM to segment all possible objects as mask proposals, and (\textbf{ii}) CLIP to classify proposals to obtain accurate object counts. However, this strategy meets the obstacles of efficiency overhead and the small crowded objects that cannot be localized and distinguished. To address these issues, our framework, termed PseCo, follows three steps: point, segment, and count. Specifically, we first propose a class-agnostic object localization to provide accurate but least point prompts for SAM, which consequently not only reduces computation costs but also avoids missing small objects. Furthermore, we propose a generalized object classification that leverages CLIP image/text embeddings as the classifier, following a hierarchical knowledge distillation to obtain discriminative classifications among hierarchical mask proposals. Extensive experimental results on FSC-147 dataset demonstrate that PseCo achieves state-of-the-art performance in both few-shot/zero-shot object counting/detection, with additional results on large-scale COCO and LVIS datasets. The source code is available at \url{https://github.com/Hzzone/PseCo}.
翻訳日:2023-11-23 01:56:18 公開日:2023-11-21
# ディリクレ過程に基づく無限予測組合せ

Infinite forecast combinations based on Dirichlet process ( http://arxiv.org/abs/2311.12379v1 )

ライセンス: Link先を確認
Yinuo Ren and Feng Li and Yanfei Kang(参考訳) 予測組み合わせは、ターゲット時系列から複数の予測結果を統合することにより、様々なソースからの情報を統合する。 本稿では,1つの最適予測モデルを選択するのではなく,ディリクレプロセスに基づく深層学習アンサンブル予測モデルを提案する。 当初、学習速度は3つの基底分布をハイパーパラメータとしてサンプリングし、無限混合を有限分布に変換する。 全てのチェックポイントを収集し、深層学習サブモデルプールを構築し、組み合わせプロセス中に重量調整と多様性戦略を開発する。 この方法の主な利点は、1つの訓練プロセスを通じて必要なベース学習者を生成する能力であり、最適な学習率を決定する際に勾配降下の確率的性質によって生じる課題に取り組むために減衰戦略を利用する。 本論文は,本手法の汎用性と競争性を確保するため,M4コンペティションの週毎データセットを用いて実験分析を行い,組み合わせるべきモデル数に対する感度について検討する。 その結果,単一ベンチマークモデルと比較して,アンサンブルモデルでは予測精度と安定性が大幅に向上した。

Forecast combination integrates information from various sources by consolidating multiple forecast results from the target time series. Instead of the need to select a single optimal forecasting model, this paper introduces a deep learning ensemble forecasting model based on the Dirichlet process. Initially, the learning rate is sampled with three basis distributions as hyperparameters to convert the infinite mixture into a finite one. All checkpoints are collected to establish a deep learning sub-model pool, and weight adjustment and diversity strategies are developed during the combination process. The main advantage of this method is its ability to generate the required base learners through a single training process, utilizing the decaying strategy to tackle the challenge posed by the stochastic nature of gradient descent in determining the optimal learning rate. To ensure the method's generalizability and competitiveness, this paper conducts an empirical analysis using the weekly dataset from the M4 competition and explores sensitivity to the number of models to be combined. The results demonstrate that the ensemble model proposed offers substantial improvements in prediction accuracy and stability compared to a single benchmark model.
翻訳日:2023-11-23 01:55:46 公開日:2023-11-21
# モジュール型多言語言語モデルの異常限界

The Obscure Limitation of Modular Multilingual Language Models ( http://arxiv.org/abs/2311.12375v1 )

ライセンス: Link先を確認
Muhammad Farid Adilazuarda, Samuel Cahyawijaya, Ayu Purwarianti(参考訳) 未知言語を用いた多言語推論シナリオにおいて,モジュール型多言語モデル(MLM)の限界を明らかにする。 既存のモジュラ MLM の評価では、言語識別(LID)モジュールの関与を除外しており、モジュラ MLM の実例の多言語シナリオの性能を曖昧にしている。 本稿では,モジュール型MLMの多言語評価におけるLIDの追加効果について述べるとともに,LIDとモジュール型MLMのパイプライン化による性能ギャップを解消するための議論を行う。

We expose the limitation of modular multilingual language models (MLMs) in multilingual inference scenarios with unknown languages. Existing evaluations of modular MLMs exclude the involvement of language identification (LID) modules, which obscures the performance of real-case multilingual scenarios of modular MLMs. In this work, we showcase the effect of adding LID on the multilingual evaluation of modular MLMs and provide discussions for closing the performance gap of caused by the pipelined approach of LID and modular MLMs.
翻訳日:2023-11-23 01:55:27 公開日:2023-11-21
# Beyond Turing: 機械生成テキスト検出のためのアプローチの比較分析

Beyond Turing: A Comparative Analysis of Approaches for Detecting Machine-Generated Text ( http://arxiv.org/abs/2311.12373v1 )

ライセンス: Link先を確認
Muhammad Farid Adilazuarda, Nikolaos Nektarios Arkoulis, Oleksii Chumakov(参考訳) 事前訓練された言語モデル(PLM)によるテキスト生成において、人間と機械生成したテキストの区別はエスカレートする課題である。 本稿では,従来の浅層学習,言語モデル(lm)の微調整,多言語モデルの微調整の3つの方法について詳細な評価を行う。 これらのアプローチは、さまざまなマシン生成テキストで厳格にテストされ、人間と機械による言語構造を区別する能力のベンチマークを提供する。 これらの結果から,NLPの重要領域における進歩の必要性が強調された。 この研究は価値ある洞察を与え、堅牢で差別性の高いモデルを作成することを目的とした将来の研究の道を開く。

Significant progress has been made on text generation by pre-trained language models (PLMs), yet distinguishing between human and machine-generated text poses an escalating challenge. This paper offers an in-depth evaluation of three distinct methods used to address this task: traditional shallow learning, Language Model (LM) fine-tuning, and Multilingual Model fine-tuning. These approaches are rigorously tested on a wide range of machine-generated texts, providing a benchmark of their competence in distinguishing between human-authored and machine-authored linguistic constructs. The results reveal considerable differences in performance across methods, thus emphasizing the continued need for advancement in this crucial area of NLP. This study offers valuable insights and paves the way for future research aimed at creating robust and highly discriminative models.
翻訳日:2023-11-23 01:55:18 公開日:2023-11-21
# ランダム自己随伴量子チャネルのスペクトル分布の制限

Limiting spectral distribution of random self-adjoint quantum channels ( http://arxiv.org/abs/2311.12368v1 )

ライセンス: Link先を確認
C\'ecilia Lancien, Patrick Oliveira Santos, and Pierre Youssef(参考訳) 我々は、クラウス作用素が一定の仮定を満たすランダムエルミート行列としてサンプリングされる量子チャネルの制限スペクトル分布について研究する。 クラウスのランクが n に無限大になると、対応する量子チャネルの制限スペクトル分布(適切に再スケールされる)は半円分布と一致することを示す。 クラウス階数が固定されたとき、制限スペクトル分布はもはや半円分布ではない。 これは明示的な法則に対応しており、自由確率のツールを使って記述することもできる。

We study the limiting spectral distribution of quantum channels whose Kraus operators are sampled as $n\times n$ random Hermitian matrices satisfying certain assumptions. We show that when the Kraus rank goes to infinity with n, the limiting spectral distribution (suitably rescaled) of the corresponding quantum channel coincides with the semi-circle distribution. When the Kraus rank is fixed, the limiting spectral distribution is no longer the semi-circle distribution. It corresponds to an explicit law, which can also be described using tools from free probability.
翻訳日:2023-11-23 01:55:04 公開日:2023-11-21
# 学生信頼を高めるためのアルゴリズム科目問題セッションの設計

Designing Problem Sessions for Algorithmic Subjects to Boost Student Confidence ( http://arxiv.org/abs/2311.12365v1 )

ライセンス: Link先を確認
Andr\'e van Renssen(参考訳) 本稿では,学生の自信を高めるために,アルゴリズム科目における問題セッションの構造を変更する方法について述べる。 問題の科目は(約900人の)学生の非常に大きなコホートに教えられるが、我々のアプローチはより広く適用できる。 我々は、パンデミックのときを含め、長年の経験を振り返り、質問のスタイルを示す明確なセクションを追加し、単純なウォームアップ質問、学生のエンゲージメントと自信の向上、そして教育アシスタントの指導活動を管理しやすくすることを示します。

In this paper, we describe how we changed the structure of problem sessions in an algorithmic subject, in order to improve student confidence. The subject in question is taught to very large cohorts of (around 900) students, though our approach can be applied more broadly. We reflect on our experiences over a number of years, including during the pandemic, and show that by adding clear sectioning indicating the style of the questions and by including simple warm-up questions, student engagement and confidence improves, while making the teaching activities of our teaching assistants easier to manage.
翻訳日:2023-11-23 01:54:53 公開日:2023-11-21
# クエリ分布一貫性による半教師付き医用画像分割

Semi-supervised Medical Image Segmentation via Query Distribution Consistency ( http://arxiv.org/abs/2311.12364v1 )

ライセンス: Link先を確認
Rong Wu, Dehua Li, Cong Zhang(参考訳) 半教師付き学習は、大量のラベルなしデータを利用して追加情報を抽出できるため、医用画像分割においてますます人気がある。 しかし,既存の半教師付きセグメンテーション手法は,ラベルのないデータからのみ情報抽出に重点を置いている。 本稿では,ラベル付きデータを利用してラベル付きデータから情報を抽出するDual KMax UX-Netフレームワークを提案する。 提案手法は,3次元UX-NetとKMaxデコーダという,セグメンテーション性能を向上させる2つのモジュールを組み込んだ相互学習戦略に基づいている。 Atrial Segmentation Challengeデータセットの大規模な実験により、ラベルのないデータをマージすることで、本手法が性能を大幅に向上できることが示された。 一方,本フレームワークは,10 %,20 %のラベル付き設定で,最先端の半教師付き学習手法より優れている。 コード表示はhttps://github.com/Rows21/DK-UXNet。

Semi-supervised learning is increasingly popular in medical image segmentation due to its ability to leverage large amounts of unlabeled data to extract additional information. However, most existing semi-supervised segmentation methods focus only on extracting information from unlabeled data. In this paper, we propose a novel Dual KMax UX-Net framework that leverages labeled data to guide the extraction of information from unlabeled data. Our approach is based on a mutual learning strategy that incorporates two modules: 3D UX-Net as our backbone meta-architecture and KMax decoder to enhance the segmentation performance. Extensive experiments on the Atrial Segmentation Challenge dataset have shown that our method can significantly improve performance by merging unlabeled data. Meanwhile, our framework outperforms state-of-the-art semi-supervised learning methods on 10\% and 20\% labeled settings. Code located at: https://github.com/Rows21/DK-UXNet.
翻訳日:2023-11-23 01:54:42 公開日:2023-11-21
# シュワルツシルトブラックホールにおける遺伝的にアクセス可能でアクセス不能な絡み合い

Genuinely accessible and inaccessible entanglement in Schwarzschild black hole ( http://arxiv.org/abs/2311.12362v1 )

ライセンス: Link先を確認
Shu-Min Wu, Xiao-Wei Teng, Jin-Xuan Li, Si-Han Li, Tong-Hua Liu, Jie-Ci Wang(参考訳) シュワルツシルト時空において, N-粒子系に対するディラック場の真の絡み合いについて検討し, 単一モード近似を用いて解析を行った。 ホーキング効果により、量子エンタングルメントは物理的にアクセス不能な2つの部分に分けられる。 シュワルツシルトブラックホールにおけるすべてのアクセス可能かつ到達不能な絡み合いを含む、真のN-粒子の絡み合いの一般的な解析式を得る。 ボソニックな絡み合いとは異なり、ディラック場のN-粒子の絡み合いはホーキング温度で非ゼロ値に単調に減少する。 興味深いことに、到達不能なn成分の絡み合いは、ホーキング温度の単調または非単調な関数であり、アクセス可能なモードと到達不能モードの比率に依存するが、ホーキング温度の単調な関数である二成分または三成分の絡み合いとは対照的である。 最後に、ブラックホールの量子情報に対する2つの制限付き関係を得る。 この結論は、ブラックホールのホーキング効果の新たな理解を与える。

The genuine entanglement of Dirac fields for an N-partite system is investigated in Schwarzschild spacetime and the analysis is carried out using the single-mode approximation. Due to the Hawking effect, quantum entanglement is divided into two parts physically accessible and inaccessible entanglement. We obtain a general analytic expression of genuine N-partite entanglement that includes all accessible and inaccessible entanglement in a Schwarzschild black hole. Unlike bosonic entanglement, the accessible N-partite entanglement of Dirac fields monotonically decreases to a nonzero value with the Hawking temperature. Interestingly, the inaccessible N-partite entanglement is a monotonic or non-monotonic function of the Hawking temperature, depending on the ratio between accessible and inaccessible modes, in contrast to bipartite or tripartite entanglement that is only a monotonic function of the Hawking temperature. Finally, we obtain two restrictive relationships for the quantum information of the black hole. This conclusion provides a new understanding of Hawking effect of the black hole.
翻訳日:2023-11-23 01:54:28 公開日:2023-11-21
# FPGA上の低精度ミニフロートと整数を用いた後学習量子化

Post-Training Quantization with Low-precision Minifloats and Integers on FPGAs ( http://arxiv.org/abs/2311.12359v1 )

ライセンス: Link先を確認
Shivam Aggarwal, Alessandro Pappalardo, Hans Jakob Damsgaard, Giuseppe Franco, Thomas B. Preu{\ss}er, Michaela Blott, Tulika Mitra(参考訳) ポストトレーニング量子化(PTQ)はモデル圧縮の強力な技術であり、追加のトレーニングオーバーヘッドなしにニューラルネットワークの精度を低下させる。 近年,8ビット浮動小数点量子化(FP8)をPTQの文脈でモデル推論に適用する研究が行われている。 しかし、8ビット未満の浮動小数点形式の探索と整数量子化との比較は依然として比較的限られている。 本研究では,全精度に接近しながらモデルのメモリフットプリント,レイテンシ,エネルギコストをさらに削減可能な,低精度浮動小数点フォーマットであるminifloatを提案する。 本研究は,3ビットから8ビットの範囲のミニフロートおよび整数量子化スキームを重みとアクティベーションの両方で比較し,新しいPTQ設計空間探索を提案する。 重量等化, バイアス補正, SmoothQuant, 勾配に基づく学習ラウンドリング, GPTQ法など, 各種PTQ手法の小型フロートへの適用性を検討した。 本実験は、一連の参照ディープラーニングビジョンワークロードにおける精度-精度トレードオフのスペクトルをまたいで、低精度のミニフローの有効性を検証する。 最後に、FPGAベースのハードウェアコストモデルと比較し、ハードウェアリソースのフットプリントが比較的小さいため、整数量子化がパレート最適オプションのままであることを示す。

Post-Training Quantization (PTQ) is a powerful technique for model compression, reducing the precision of neural networks without additional training overhead. Recent works have investigated adopting 8-bit floating-point quantization (FP8) in the context of PTQ for model inference. However, the exploration of floating-point formats smaller than 8 bits and their comparison with integer quantization remains relatively limited. In this work, we present minifloats, which are reduced-precision floating-point formats capable of further reducing the memory footprint, latency, and energy cost of a model while approaching full-precision model accuracy. Our work presents a novel PTQ design-space exploration, comparing minifloat and integer quantization schemes across a range of 3 to 8 bits for both weights and activations. We examine the applicability of various PTQ techniques to minifloats, including weight equalization, bias correction, SmoothQuant, gradient-based learned rounding, and the GPTQ method. Our experiments validate the effectiveness of low-precision minifloats when compared to their integer counterparts across a spectrum of accuracy-precision trade-offs on a set of reference deep learning vision workloads. Finally, we evaluate our results against an FPGA-based hardware cost model, showing that integer quantization often remains the Pareto-optimal option, given its relatively smaller hardware resource footprint.
翻訳日:2023-11-23 01:54:10 公開日:2023-11-21
# 不均一データに対するコンセンサス機構による連合学習:収束に関する新しい視点

Federated Learning via Consensus Mechanism on Heterogeneous Data: A New Perspective on Convergence ( http://arxiv.org/abs/2311.12358v1 )

ライセンス: Link先を確認
Shu Zheng, Tiandi Ye, Xiang Li, Ming Gao(参考訳) 異種データ(非IIDデータ)のフェデレーション学習(FL)は近年注目されている。 既存の手法のほとんどは、グローバル目的の収束保証を研究することに焦点を当てている。 これらの手法は、各通信ラウンドにおけるグローバルな目標の減少を保証できるが、クライアント毎のリスク低減を保証できない。 本稿では,この問題に対処するため,各トレーニングラウンド後に各クライアントに対してリスクの低減を強制するコンセンサス機構を提案する。 特にサーバ側のクライアントの勾配を微調整することで,修正された勾配と他のクライアントの当初の勾配との間に鋭い角度を発生させる。 理論的には、コンセンサス機構は世界目標の収束を保証することができる。 コンセンサス機構を部分参加flシナリオに一般化するため,グローバルデータ配信において最も代表的なクライアントを選択するための新しいクライアントサンプリング戦略を考案する。 コンセンサス機構を備えたこれらの選択されたクライアントのトレーニングは、選択されていないクライアントのリスクを経験的に減少させる可能性がある。 最後に,FedCOMEの他の最先端手法に対する優位性を,有効性,効率性,公平性の観点から示すために,4つのベンチマークデータセットに対して広範な実験を行った。 再現性のために、私たちは次のようにソースコードを公開しています。

Federated learning (FL) on heterogeneous data (non-IID data) has recently received great attention. Most existing methods focus on studying the convergence guarantees for the global objective. While these methods can guarantee the decrease of the global objective in each communication round, they fail to ensure risk decrease for each client. In this paper, to address the problem,we propose FedCOME, which introduces a consensus mechanism to enforce decreased risk for each client after each training round. In particular, we allow a slight adjustment to a client's gradient on the server side, which generates an acute angle between the corrected gradient and the original ones of other clients. We theoretically show that the consensus mechanism can guarantee the convergence of the global objective. To generalize the consensus mechanism to the partial participation FL scenario, we devise a novel client sampling strategy to select the most representative clients for the global data distribution. Training on these selected clients with the consensus mechanism could empirically lead to risk decrease for clients that are not selected. Finally, we conduct extensive experiments on four benchmark datasets to show the superiority of FedCOME against other state-of-the-art methods in terms of effectiveness, efficiency and fairness. For reproducibility, we make our source code publicly available at: \url{https://github.com/fedcome/fedcome}.
翻訳日:2023-11-23 01:53:45 公開日:2023-11-21
# 回帰ニューラルネットワークにおける超平面最適化のためのランダム線形射影損失

Random Linear Projections Loss for Hyperplane-Based Optimization in Regression Neural Networks ( http://arxiv.org/abs/2311.12356v1 )

ライセンス: Link先を確認
Shyam Venkatasubramanian, Ahmed Aloui, Vahid Tarokh(参考訳) 幅広いドメインで人気があるにもかかわらず、回帰ニューラルネットワークは複雑なデータセットをオーバーフィットしがちである。 本研究では,ランダム線形射影(rlp)損失と呼ばれる損失関数を提案する。 RLP損失では、ニューラルネットワークの特徴予測ペアの固定サイズのサブセットと特徴ラベルペアを接続する超平面の集合間の距離が最小になる。 この損失の背景にある直観は、2つの函数が特徴ラベル対のすべての部分集合を連結する同じ超平面を共有するならば、これらの函数は必ずしも同値でなければならないという考えから導かれる。 ベンチマークデータセットおよび代表的な合成例を用いて実施した実証研究は,平均二乗誤差(MSE)よりも提案したRLP損失の改善を実証した。 具体的には、RLP損失でトレーニングされたニューラルネットワークは、データサンプルを少なくし、付加的なノイズに対して堅牢であると同時に、より良いパフォーマンスを実現する。 実験結果を支持する理論的分析を行った。

Despite their popularity across a wide range of domains, regression neural networks are prone to overfitting complex datasets. In this work, we propose a loss function termed Random Linear Projections (RLP) loss, which is empirically shown to mitigate overfitting. With RLP loss, the distance between sets of hyperplanes connecting fixed-size subsets of the neural network's feature-prediction pairs and feature-label pairs is minimized. The intuition behind this loss derives from the notion that if two functions share the same hyperplanes connecting all subsets of feature-label pairs, then these functions must necessarily be equivalent. Our empirical studies, conducted across benchmark datasets and representative synthetic examples, demonstrate the improvements of the proposed RLP loss over mean squared error (MSE). Specifically, neural networks trained with the RLP loss achieve better performance while requiring fewer data samples and are more robust to additive noise. We provide theoretical analysis supporting our empirical findings.
翻訳日:2023-11-23 01:53:28 公開日:2023-11-21
# 観光レコメンデーションのための言語モデルの利用

Utilizing Language Models for Tour Itinerary Recommendation ( http://arxiv.org/abs/2311.12355v1 )

ライセンス: Link先を確認
Ngai Lam Ho and Kwan Hui Lim(参考訳) tour itinerary recommendationは関連するpois(point-of-interest)のシーケンスを計画し、オペレーションリサーチ(or)とレコメンデーションシステム(rs)の両方の分野からの課題を組み合わせる。 OR問題として、あるユーティリティ(例えばツアーにおけるPOIの人気)を最大化しつつ、いくつかの制約(例えばツアーの最大時間)に固執する必要がある。 RS問題として、問題やフィルタリング、ユーザに関連するPOIのサブセットのランク付けに深く関係しており、イテレーションの一部として推奨している。 本稿では,旅程の推薦と計画のタスクにおける言語モデルの利用について検討する。 このタスクには、ユーザに関連するパーソナライズされたPOIを推奨し、さまざまな制約を満たす反復としてこれらのPOIを計画するというユニークな要件があります。 この領域では,Word2VecやGloVeのような単語埋め込み技術を用いてPOI埋め込みを学習したり,BERTのようなトランスフォーマーベースの手法でイテレーションを生成するなど,いくつかのアプローチについて議論する。

Tour itinerary recommendation involves planning a sequence of relevant Point-of-Interest (POIs), which combines challenges from the fields of both Operations Research (OR) and Recommendation Systems (RS). As an OR problem, there is the need to maximize a certain utility (e.g., popularity of POIs in the tour) while adhering to some constraints (e.g., maximum time for the tour). As a RS problem, it is heavily related to problem or filtering or ranking a subset of POIs that are relevant to a user and recommending it as part of an itinerary. In this paper, we explore the use of language models for the task of tour itinerary recommendation and planning. This task has the unique requirement of recommending personalized POIs relevant to users and planning these POIs as an itinerary that satisfies various constraints. We discuss some approaches in this area, such as using word embedding techniques like Word2Vec and GloVe for learning POI embeddings and transformer-based techniques like BERT for generating itineraries.
翻訳日:2023-11-23 01:53:10 公開日:2023-11-21
# シフト引数を持つエアリー方程式の2つの解の積に対する積分表現とその物理学への応用

Integral representations for products of two solutions of the Airy equation with shifted arguments and their applications in physics ( http://arxiv.org/abs/2311.12352v1 )

ライセンス: Link先を確認
K. V. Bazarov, O. I. Tolstikhin(参考訳) ラプラス輪郭積分法を用いて、議論が$z_0$で異なるエアリー方程式の2つの解の線型独立積の完全集合の積分表現を求める。 これは、Reidによって得られる$z_0=0$に対する同様の積分表現を一般化する。 他の結果との関係について論じる。 この結果は、静電場における電子の電子の出力波グリーン関数を閉解析形式で得るために用いられる。

Integral representations for a complete set of linearly independent products of two solutions of the Airy equation whose arguments differ by $z_0$ are obtained using the Laplace contour integral method. This generalizes similar integral representations for the case $z_0=0$ obtained by Reid. The relation to other previous results is discussed. The results are used to obtain the outgoing-wave Green's function for an electron in a static electric field in a closed analytic form.
翻訳日:2023-11-23 01:52:50 公開日:2023-11-21
# 長期大言語モデルにおけるトランスフォーマーアーキテクチャの強化:包括的調査

Advancing Transformer Architecture in Long-Context Large Language Models: A Comprehensive Survey ( http://arxiv.org/abs/2311.12351v1 )

ライセンス: Link先を確認
Yunpeng Huang, Jingwei Xu, Zixu Jiang, Junyu Lai, Zenan Li, Yuan Yao, Taolue Chen, Lijuan Yang, Zhou Xin, Xiaoxing Ma(参考訳) ChatGPTが発火した爆弾により、トランスフォーマーベースのLarge Language Models (LLMs) は人工知能(AGI)への革命的な道を歩み、知識基盤、ヒューマンインタフェース、動的エージェントとして様々な分野に適用されてきた。 リソースによって制約されている多くの現在のLLMは、主に短いテキストで事前訓練されており、現実の環境で一般的に見られる長文のプロンプトでは効果が低い。 本稿では,Transformer ベースの LLM におけるモデルアーキテクチャの進歩に着目し,事前学習から推論までの全段階にわたる長期コンテキスト機能を最適化する総合的な調査を行う。 まず,従来のTransformerモデルを用いて,長文入力と出力を処理する際の問題点を整理,解析する。 次に,アーキテクチャ上の変圧器アップグレードの展望をナビゲートし,これらの問題を解決するための包括的分類法を主に提供する。 その後、データセット、メトリクス、ベースラインモデル、ライブラリ、システム、コンパイラなどの驚くべき最適化ツールキットなど、LLMの様々な段階における効率と有効性を向上するために、長いコンテキストのLLM用に調整された、非常に有用な評価の必要性について調査する。 最後に,本領域における今後の研究の課題と可能性について論じる。 さらに私たちは,関連する文献をリアルタイムで更新するリポジトリをhttps://github.com/Strivin0311/long-llms-learningで構築しました。

With the bomb ignited by ChatGPT, Transformer-based Large Language Models (LLMs) have paved a revolutionary path toward Artificial General Intelligence (AGI) and have been applied in diverse areas as knowledge bases, human interfaces, and dynamic agents. However, a prevailing limitation exists: many current LLMs, constrained by resources, are primarily pre-trained on shorter texts, rendering them less effective for longer-context prompts, commonly encountered in real-world settings. In this paper, we present a comprehensive survey focusing on the advancement of model architecture in Transformer-based LLMs to optimize long-context capabilities across all stages from pre-training to inference. We firstly delineate and analyze the problems of handling long-context input and output with the current Transformer-based models. Then, we mainly offer a holistic taxonomy to navigate the landscape of Transformer upgrades on architecture to solve these problems. Afterward, we provide the investigation on wildly used evaluation necessities tailored for long-context LLMs, including datasets, metrics, and baseline models, as well as some amazing optimization toolkits like libraries, systems, and compilers to augment LLMs' efficiency and efficacy across different stages. Finally, we further discuss the predominant challenges and potential avenues for future research in this domain. Additionally, we have established a repository where we curate relevant literature with real-time updates at https://github.com/Strivin0311/long-llms-learning.
翻訳日:2023-11-23 01:52:43 公開日:2023-11-21
# 大規模言語モデルを用いた脆弱性検出にどこまで関わったか

How Far Have We Gone in Vulnerability Detection Using Large Language Models ( http://arxiv.org/abs/2311.12420v1 )

ライセンス: Link先を確認
Zeyu Gao, Hao Wang, Yuchen Zhou, Wenyu Zhu, Chao Zhang(参考訳) ソフトウェアはますます複雑になり、脆弱性が生じる傾向にあるため、自動脆弱性検出は極めて重要でありながら困難である。 様々なタスクにおけるLarge Language Models (LLMs) の大きな成功を考えると、脆弱性検出におけるその有効性への期待が高まっている。 しかし、脆弱性検出におけるその可能性の定量的理解はいまだに欠けている。 このギャップを埋めるために,包括的脆弱性ベンチマークvulbenchを導入する。 このベンチマークは、幅広いCTF(Capture-the-Flag)課題と実世界のアプリケーションからの高品質なデータを集約し、脆弱性タイプとその根本原因を詳述した各脆弱性関数に対するアノテーションを提供する。 16のLLMと6つの最先端(SOTA)ディープラーニングベースモデルと静的アナライザを含む実験により、複数のLLMが脆弱性検出において従来のディープラーニングアプローチよりも優れており、LLMの未解決の可能性を明らかにしていることがわかった。 この作業は、ソフトウェアセキュリティ強化のためのllmの理解と利用に寄与する。

As software becomes increasingly complex and prone to vulnerabilities, automated vulnerability detection is critically important, yet challenging. Given the significant successes of Large Language Models (LLMs) in various tasks, there is growing anticipation of their efficacy in vulnerability detection. However, a quantitative understanding of their potential in vulnerability detection is still missing. To bridge this gap, we introduce a comprehensive vulnerability benchmark VulBench. This benchmark aggregates high-quality data from a wide range of CTF (Capture-the-Flag) challenges and real-world applications, with annotations for each vulnerable function detailing the vulnerability type and its root cause. Through our experiments encompassing 16 LLMs and 6 state-of-the-art (SOTA) deep learning-based models and static analyzers, we find that several LLMs outperform traditional deep learning approaches in vulnerability detection, revealing an untapped potential in LLMs. This work contributes to the understanding and utilization of LLMs for enhanced software security.
翻訳日:2023-11-23 01:45:48 公開日:2023-11-21
# ボードツーボード:月面グレード予測の一般化の評価

Board-to-Board: Evaluating Moonboard Grade Prediction Generalization ( http://arxiv.org/abs/2311.12419v1 )

ライセンス: Link先を確認
Daniel Petashvili and Matthew Rodda(参考訳) ボルダリング(Bouldering)とは、選手がルートと呼ばれる一組のホールドを使って障害物を登ろうとするスポーツである。 通常は、登山者にその困難を知らせ、その進行をより容易に追跡できるように、勾配が割り当てられる。 しかしながら、個々の登山者の技術的・物理的特性や個々のルートの多くのニュアンスの変化は、グレーディングを困難でしばしば偏りのあるタスクにする。 本研究では,2016年と2017年と2019年のMoonboardデータセットに古典的およびディープラーニングのモデリング技術を適用し,0.87 MAEと1.12 RMSEのアートグレード予測性能を達成する。 この性能は,個々の動作に経路を分解する必要のない機能セットで実現し,文献に共通する手法であり,バイアスを生じさせる。 また,本モデルの一般化可能性を示すとともに,新しい視覚に基づく評価手法を提案する。 現在,これらの手法の一般化性能は人間レベルの性能を下回っているが,今後の研究の基盤としてこれらの手法を提案する。 このようなツールは既存のモバイルアプリケーションで実装でき、登山者が進捗を追跡し、バイアスを減らして新しいルートを評価することができる。

Bouldering is a sport where athletes aim to climb up an obstacle using a set of defined holds called a route. Typically routes are assigned a grade to inform climbers of its difficulty and allow them to more easily track their progression. However, the variation in individual climbers technical and physical attributes and many nuances of an individual route make grading a difficult and often biased task. In this work, we apply classical and deep-learning modelling techniques to the 2016, 2017 and 2019 Moonboard datasets, achieving state of the art grade prediction performance with 0.87 MAE and 1.12 RMSE. We achieve this performance on a feature-set that does not require decomposing routes into individual moves, which is a method common in literature and introduces bias. We also demonstrate the generalization capability of this model between editions and introduce a novel vision-based method of grade prediction. While the generalization performance of these techniques is below human level performance currently, we propose these methods as a basis for future work. Such a tool could be implemented in pre-existing mobile applications and would allow climbers to better track their progress and assess new routes with reduced bias.
翻訳日:2023-11-23 01:45:32 公開日:2023-11-21
# 生成変圧器モデルの視覚的解析

Visual Analytics for Generative Transformer Models ( http://arxiv.org/abs/2311.12418v1 )

ライセンス: Link先を確認
Raymond Li, Ruixin Yang, Wen Xiao, Ahmed AbuRaed, Gabriel Murray, Giuseppe Carenini(参考訳) トランスフォーマーベースのモデルは様々な分類や生成タスクで最先端の結果を得たが、そのブラックボックスの性質は解釈可能性に挑戦している。 本研究では,変換器を用いた生成ネットワークの解析を支援する新しい視覚解析フレームワークを提案する。 主にエンコーダベースのモデルに焦点を当てた従来の研究とは対照的に,我々のフレームワークは,トランスフォーマベースのエンコーダデコーダモデルとデコーダのみによる生成・分類タスクの分析をサポートするための最初のフレームワークの1つである。 したがって、インタラクティブな可視化を通じてモデルの異なる面を探索できる直感的な概要を提供する。 本フレームワークの有効性と有用性を示すために,実世界のNLP研究問題に基づく3つのケーススタディを提案する。

While transformer-based models have achieved state-of-the-art results in a variety of classification and generation tasks, their black-box nature makes them challenging for interpretability. In this work, we present a novel visual analytical framework to support the analysis of transformer-based generative networks. In contrast to previous work, which has mainly focused on encoder-based models, our framework is one of the first dedicated to supporting the analysis of transformer-based encoder-decoder models and decoder-only models for generative and classification tasks. Hence, we offer an intuitive overview that allows the user to explore different facets of the model through interactive visualization. To demonstrate the feasibility and usefulness of our framework, we present three detailed case studies based on real-world NLP research problems.
翻訳日:2023-11-23 01:45:10 公開日:2023-11-21
# 金属-有機系フレームワークによる炭素捕獲の量子シミュレーション

Quantum Simulations for Carbon Capture on Metal-Organic Frameworks ( http://arxiv.org/abs/2311.12411v1 )

ライセンス: Link先を確認
Gopal Ramesh Dahale(参考訳) 二酸化炭素の直接空気捕獲は、大気中から二酸化炭素を捕獲する自然過程に依存しない技術的解決法である。 DACでは、フィルター材料はCO2分子を特異的に結合するように設計されている。 したがって、高容量フィルタを求める。 我々は、量子コンピューティングのポテンシャルを活用して、DACで使用されるフィルタを改善することを目指している。 金属有機フレームワーク(MOF)は、高い表面積と調整可能な孔径を持ち、ガス貯蔵と分離のための魅力的な材料である。 変動量子固有解法(VQE)アルゴリズムを用いて、まずMOF(金属イオン)の活性部位のみを考慮し、ポテンシャルエネルギー面(PES)の最小値を求める。 複雑なシステムでは密度行列埋め込み理論を採用し、結合部位における断片解法としてVQEを用いる。 デパラメトリゼーションのようなテクニックは、トレーニング可能なパラメータの数を最小化するために使われる。 本稿では,実ハードウェアデバイスを用いた理想的および雑音シミュレーションの結果を示す。 資源はMOFの単位セルとして推定される。 本研究は,強い相関の断片の量子シミュレーションを効果的に行う量子コンピューティングの可能性を示すものである。

Direct air capture of Carbon Dioxide is a technical solution that does not rely on natural processes to capture CO2 from the atmosphere. In DAC, the filter material is designed to specifically bind CO2 molecules. Hence a high-capacity filter is sought. We aim to leverage the potential of quantum computing to improve the filters used in DAC. Metal-Organic Frameworks (MOFs) have high surface area and tunable pore sizes which makes them an attractive material for gas storage and separation. Using the variational quantum eigensolver (VQE) algorithm, we find the minimum of the potential energy surface (PES) by first considering only the active site of the MOF (the metal ion). For complex systems, we employ Density Matrix Embedding Theory and use VQE as a fragment solver at the binding site. Techniques like deparameterisation are used to minimise the count of trainable parameters. We present results of ideal and noisy simulations as well as from a real hardware device. Resources are estimated for MOFs unit cell. The findings from our study demonstrates the potential of quantum computing to effectively perform quantum simulations of strongly correlated fragments.
翻訳日:2023-11-23 01:44:54 公開日:2023-11-21
# nach0: 多モード自然・化学言語基礎モデル

nach0: Multimodal Natural and Chemical Languages Foundation Model ( http://arxiv.org/abs/2311.12410v1 )

ライセンス: Link先を確認
Micha Livne, Zulfat Miftahutdinov, Elena Tutubalina, Maksim Kuznetsov, Daniil Polykovskiy, Annika Brundyn, Aastha Jhunjhunwala, Anthony Costa, Alex Aliper and Alex Zhavoronkov(参考訳) 大規模言語モデル(LLM)は、様々な領域において科学的進歩を著しく推進し、多くの論文が創造的なソリューションで複雑な問題に取り組む能力を示した。 本稿では, 生物医学的質問応答, 実体認識, 分子生成, 分子合成, 属性予測など, 様々な化学・生物学的課題を解く新しい基礎モデル, nach0を提案する。 nach0は、科学文献、特許、分子文字列からラベルのないテキストで事前学習されたマルチドメインおよびマルチタスクエンコーダ・デコーダllmである。 我々は,タスクの最終的なセットに対して,特定のタスク関連命令を使用してnach0を微調整するインストラクションチューニングを採用した。 nach0を効果的に訓練するために、NeMoフレームワークを活用し、ベースモデルと大型モデルの両方を効率的に並列に最適化する。 大規模な実験により、我々のモデルは単一ドメインおよびクロスドメインタスクにおける最先端のベースラインより優れていることが示された。 さらに、分子およびテキスト形式で高品質な出力を生成でき、マルチドメインのセットアップにおいてその効果を示す。

Large Language Models (LLMs) have substantially driven scientific progress in various domains, and many papers have demonstrated their ability to tackle complex problems with creative solutions. Our paper introduces a new foundation model, nach0, capable of solving various chemical and biological tasks: biomedical question answering, named entity recognition, molecular generation, molecular synthesis, attributes prediction, and others. nach0 is a multi-domain and multi-task encoder-decoder LLM pre-trained on unlabeled text from scientific literature, patents, and molecule strings to incorporate a range of chemical and linguistic knowledge. We employed instruction tuning, where specific task-related instructions are utilized to fine-tune nach0 for the final set of tasks. To train nach0 effectively, we leverage the NeMo framework, enabling efficient parallel optimization of both base and large model versions. Extensive experiments demonstrate that our model outperforms state-of-the-art baselines on single-domain and cross-domain tasks. Furthermore, it can generate high-quality outputs in molecular and textual formats, showcasing its effectiveness in multi-domain setups.
翻訳日:2023-11-23 01:44:38 公開日:2023-11-21
# 空間連続型ニューラルインプシット表現を用いた人工物体の学習

Learning Part Motion of Articulated Objects Using Spatially Continuous Neural Implicit Representations ( http://arxiv.org/abs/2311.12407v1 )

ライセンス: Link先を確認
Yushi Du, Ruihai Wu, Yan Shen, Hao Dong(参考訳) 美術品(ドアや引き出しなど)は、私たちの生活の至るところに存在している。 剛体とは違って、明瞭な物体は自由度が高く、幾何学、意味論、部分関数に富んでいる。 異なる種類の部品や音声を神経ネットワークでモデル化することは、物体の理解と操作において重要な役割を担い、3D視覚とロボットのコミュニティにさらに利益をもたらす。 調音オブジェクトをモデル化するために、それまでのほとんどの研究は、調音オブジェクトを直接特徴表現にエンコードした。 本稿では,空間的に連続したニューラル暗示表現を用いて,空間内の部分運動をスムーズにモデル化し,部分表面上の点の変換行列を予測することにより,明瞭な物体の部位運動を明示的に切り離す新しい枠組みを提案する。 さらに重要なことは、多くの手法が特定の関節運動(例えば時計回りの回転)しかモデル化できないのに対して、我々の提案する枠組みは、変換行列が空間内の様々な関節運動をモデル化できるような様々な関節運動に対して汎用的であることである。 様々なカテゴリーの調音物体を用いた実験の定量的・定性的結果から,提案手法の有効性を実証した。

Articulated objects (e.g., doors and drawers) exist everywhere in our life. Different from rigid objects, articulated objects have higher degrees of freedom and are rich in geometries, semantics, and part functions. Modeling different kinds of parts and articulations with nerual networks plays an essential role in articulated object understanding and manipulation, and will further benefit 3D vision and robotics communities. To model articulated objects, most previous works directly encode articulated objects into feature representations, without specific designs for parts, articulations and part motions. In this paper, we introduce a novel framework that explicitly disentangles the part motion of articulated objects by predicting the transformation matrix of points on the part surface, using spatially continuous neural implicit representations to model the part motion smoothly in the space. More importantly, while many methods could only model a certain kind of joint motion (such as the revolution in the clockwise order), our proposed framework is generic to different kinds of joint motions in that transformation matrix can model diverse kinds of joint motions in the space. Quantitative and qualitative results of experiments over diverse categories of articulated objects demonstrate the effectiveness of our proposed framework.
翻訳日:2023-11-23 01:44:19 公開日:2023-11-21
# IndoRobusta: インドネシアの多言語共通言語に対するロバスト性を目指して

IndoRobusta: Towards Robustness Against Diverse Code-Mixed Indonesian Local Languages ( http://arxiv.org/abs/2311.12405v1 )

ライセンス: Link先を確認
Muhammad Farid Adilazuarda, Samuel Cahyawijaya, Genta Indra Winata, Pascale Fung, Ayu Purwarianti(参考訳) インドネシアのNLPは大きな進歩を遂げた。 それにもかかわらず、インドネシアにおけるコード混合現象の探求は限定的であるが、多くの言語は日々の会話でインドネシア語と頻繁に混合されている。 本稿では,インドネシアにおける4つの組込み言語(英語,サンダン語,ジャワ語,マレー語)によるコード混合について検討し,コード混合の堅牢性を評価し,改善するためのフレームワークであるindorobustaを紹介する。 分析の結果,学習前のコーパスバイアスは,言語多様性が高いにもかかわらず,他の言語と比較してインドネシア語と英語のコードミキシングをうまく扱う能力に影響を及ぼすことがわかった。

Significant progress has been made on Indonesian NLP. Nevertheless, exploration of the code-mixing phenomenon in Indonesian is limited, despite many languages being frequently mixed with Indonesian in daily conversation. In this work, we explore code-mixing in Indonesian with four embedded languages, i.e., English, Sundanese, Javanese, and Malay; and introduce IndoRobusta, a framework to evaluate and improve the code-mixing robustness. Our analysis shows that the pre-training corpus bias affects the model's ability to better handle Indonesian-English code-mixing when compared to other local languages, despite having higher language diversity.
翻訳日:2023-11-23 01:43:58 公開日:2023-11-21
# InterPrompt:Reddit投稿における対人的リスク要因の解釈的プロンプト

InterPrompt: Interpretable Prompting for Interrelated Interpersonal Risk Factors in Reddit Posts ( http://arxiv.org/abs/2311.12404v1 )

ライセンス: Link先を確認
MSVPJ Sathvik, Surjodeep Sarkar, Chandni Saxena, Sunghwan Sohn, Muskan Garg(参考訳) メンタルヘルスの専門家や臨床医は、対人的リスクファクター(IRF)による精神障害の増加を観察している。 メンタルヘルス障害早期発見のためのヒューマン・イン・ザ・ループ・トリージングシナリオをシミュレートするために,これらのirf : thwarted belongingness (tbe) とemceed burdensomeness (pbu) を個人的物語の中で確認するためのテキスト的適応を見出した。 これを踏まえ、我々はIRFデータセット上でGPT-3モデルを用いてNショット学習を行い、両方のIRFを表すテキストキューの文脈特異的感度と相互接続性を組み込むため、微調整GPT-3モデルの重要性を強調した。 本稿では,GPT-3モデルの微調整により注意機構を向上するInterpretable Prompting(InterPrompt)手法を提案する。 これにより、事前訓練された重みを調整することで、より洗練された言語修正が可能になる。 我々のモデルは、irfをまたいだ通常のパターンや基盤となる接続を検出することを学び、システムレベルの説明性と信頼性の向上に繋がる。 本研究の結果から,InterPromptを微調整した場合のGPT-3モデルの全4変種は,分類および説明生成の両面において,ベースライン法と比較して有意に優れた性能を示した。

Mental health professionals and clinicians have observed the upsurge of mental disorders due to Interpersonal Risk Factors (IRFs). To simulate the human-in-the-loop triaging scenario for early detection of mental health disorders, we recognized textual indications to ascertain these IRFs : Thwarted Belongingness (TBe) and Perceived Burdensomeness (PBu) within personal narratives. In light of this, we use N-shot learning with GPT-3 model on the IRF dataset, and underscored the importance of fine-tuning GPT-3 model to incorporate the context-specific sensitivity and the interconnectedness of textual cues that represent both IRFs. In this paper, we introduce an Interpretable Prompting (InterPrompt)} method to boost the attention mechanism by fine-tuning the GPT-3 model. This allows a more sophisticated level of language modification by adjusting the pre-trained weights. Our model learns to detect usual patterns and underlying connections across both the IRFs, which leads to better system-level explainability and trustworthiness. The results of our research demonstrate that all four variants of GPT-3 model, when fine-tuned with InterPrompt, perform considerably better as compared to the baseline methods, both in terms of classification and explanation generation.
翻訳日:2023-11-23 01:43:43 公開日:2023-11-21
# 分散光フォノンに結合した電子系における光双極子

Light bipolarons in a system of electrons coupled to dispersive optical phonons ( http://arxiv.org/abs/2311.12403v1 )

ライセンス: Link先を確認
K. Kova\v{c}, J. Bon\v{c}a(参考訳) 量子分散光フォノンに結合したバイポーラロンの基底状態特性をホルシュタイン-ハッバードモデルで検討した。 我々は, フォノン分散とクーロン反発の相互作用と, バイポーラロン有効質量, 結合エネルギー, 相図に対する相互効果に注目した。 もっとも驚くべきことに、光フォノン分散の曲率の兆候は、クーロン反発(英語版)$U$の存在下でバイポーラロン結合エネルギーに決定的な役割を果たす。 特に、フォノン分散曲率の符号が電子分散曲率の符号と一致するとき、u\to \infty$ と結合が隣接する2つの電子間のフォノンの交換から生じる場合でも、バイポーラロンは強い結合限界に縛られる。 適度な電子-フォノン結合では、光バイポーラロンはU$の値まで存在する。 最後に、バイポーラロン結合エネルギーにおけるフォノン分散の役割の直感的な説明は、結合が隣接する部位に存在する2つの電子間のフォノンの交換から生じる強い結合限界を用いて導かれる。

We investigate the ground state properties of the bipolaron coupled to quantum dispersive optical phonons in the one-dimensional Holstein-Hubbard model. We concentrate on the interplay between the phonon dispersion and the Coulomb repulsion and their mutual effect on the bipolaron effective mass, the binding energy, and the phase diagram. Most surprisingly, the sign of the curvature of the optical phonon dispersion plays a decisive role on the bipolaron binding energy in the presence of the Coulomb repulsion $U$. In particular, when the sign of the phonon dispersion curvature matches the sign of the electron dispersion curvature, the bipolaron remains bound in the strong coupling limit even when $U\to \infty$ and the binding emanates from the exchange of phonons between two electrons residing on adjacent sites. At moderate electron-phonon coupling a light bipolaron exists up to large values of $U$. Finally, an intuitive explanation of the role of the phonon dispersion on the bipolaron binding energy is derived using the strong coupling limit where the binding emanates from the exchange of phonons between two electrons residing on adjacent sites which leads to enhanced stability of bipolarons at elevated Coulomb repulsion.
翻訳日:2023-11-23 01:43:18 公開日:2023-11-21
# CASR:Magrinalizing Frame-levle Causal Relationsによるリフィニングアクションセグメンテーション

CASR: Refining Action Segmentation via Magrinalizing Frame-levle Causal Relationships ( http://arxiv.org/abs/2311.12401v1 )

ライセンス: Link先を確認
Keqing Du, Xinyu Yang, Hang Chen(参考訳) 深層学習と因果発見を統合することで、時間行動セグメンテーション(TAS)タスクの解釈可能性が高まった。 しかし、フレームレベルの因果関係はセグメントレベルの外側に多くの複雑なノイズが存在するため、マクロアクションセマンティクスを直接表現することは不可能である。 そこで本稿では,フレームレベルのカジュアルな関係を疎外する際のビデオ因果関係を強化することにより,様々なモデルからTAS結果を洗練することができる,CASR(textit{\textbf{Causal Abstraction Segmentation Refiner)を提案する。 具体的には、等価なフレームレベルのカジュアルモデルとセグメントレベルの因果モデルを定義し、辺限化されたフレームレベルの因果関係から構築された因果隣接行列は、sgmnetレベルの因果関係を表現する能力を持つ。 CASRは, 後骨モデルと後骨モデルとの因果親和性行列の差を小さくすることで機能する。 また,因果解釈可能性を評価するために,新しい評価基準因果編集距離(ced)を提案する。 主要なデータセットに対する大規模な実験結果から,CASRは動作セグメンテーション性能や因果説明可能性,一般化において,既存の様々な手法を大幅に上回っていることが示唆された。 私たちのコードはもうすぐ利用可能になるでしょう。

Integrating deep learning and causal discovery has increased the interpretability of Temporal Action Segmentation (TAS) tasks. However, frame-level causal relationships exist many complicated noises outside the segment-level, making it infeasible to directly express macro action semantics. Thus, we propose \textit{\textbf{Causal Abstraction Segmentation Refiner (CASR)}}, which can refine TAS results from various models by enhancing video causality in marginalizing frame-level casual relationships. Specifically, we define the equivalent frame-level casual model and segment-level causal model, so that the causal adjacency matrix constructed from marginalized frame-level causal relationships has the ability to represent the segmnet-level causal relationships. CASR works out by reducing the difference in the causal adjacency matrix between we constructed and pre-segmentation results of backbone models. In addition, we propose a novel evaluation metric Causal Edit Distance (CED) to evaluate the causal interpretability. Extensive experimental results on mainstream datasets indicate that CASR significantly surpasses existing various methods in action segmentation performance, as well as in causal explainability and generalization. Our code will be available soon.
翻訳日:2023-11-23 01:42:59 公開日:2023-11-21
# グラフの大規模言語モデルに関する調査 - 進展と今後の方向性

A Survey of Graph Meets Large Language Model: Progress and Future Directions ( http://arxiv.org/abs/2311.12399v1 )

ライセンス: Link先を確認
Yuhan Li, Zhixun Li, Peisong Wang, Jia Li, Xiangguo Sun, Hong Cheng, Jeffrey Xu Yu(参考訳) グラフは、引用ネットワーク、ソーシャルネットワーク、生物学的データといった現実世界のアプリケーションにおける複雑な関係の表現と分析において重要な役割を果たす。 近年,様々な領域で大きな成功を収めたLarge Language Models (LLM) もグラフ関連タスクに活用され,従来のグラフニューラルネットワーク(GNN)ベースの手法を超越し,最先端のパフォーマンスを実現している。 本稿ではまず,LLMとグラフを統合する既存手法の総合的なレビューと分析を行う。 まず,グラフ関連タスクにおいてllmが果たす役割(エンハンサー,予測子,アライメント成分)に基づいて,既存の手法を3つのカテゴリに分類する新しい分類法を提案する。 次に,分類学の3つのカテゴリに沿って,代表的な手法を体系的に調査する。 最後に,既存研究の残り限界について論じ,今後の研究に期待できる道のりを明らかにする。 関連する論文は要約され、一貫して更新される。 https://github.com/yhLeeee/Awesome-LLMs-in-Graph-tasks。

Graph plays a significant role in representing and analyzing complex relationships in real-world applications such as citation networks, social networks, and biological data. Recently, Large Language Models (LLMs), which have achieved tremendous success in various domains, have also been leveraged in graph-related tasks to surpass traditional Graph Neural Networks (GNNs) based methods and yield state-of-the-art performance. In this survey, we first present a comprehensive review and analysis of existing methods that integrate LLMs with graphs. First of all, we propose a new taxonomy, which organizes existing methods into three categories based on the role (i.e., enhancer, predictor, and alignment component) played by LLMs in graph-related tasks. Then we systematically survey the representative methods along the three categories of the taxonomy. Finally, we discuss the remaining limitations of existing studies and highlight promising avenues for future research. The relevant papers are summarized and will be consistently updated at: https://github.com/yhLeeee/Awesome-LLMs-in-Graph-tasks.
翻訳日:2023-11-23 01:42:31 公開日:2023-11-21
# RFTrans:表面正規化とマニピュレーションのための透明物体の屈折流のレバレッジ

RFTrans: Leveraging Refractive Flow of Transparent Objects for Surface Normal Estimation and Manipulation ( http://arxiv.org/abs/2311.12398v1 )

ライセンス: Link先を確認
Tutian Tang, Jiyu Liu, Jieyi Zhang, Haoyuan Fu, Wenqiang Xu, Cewu Lu(参考訳) 透明な物体は私たちの日常生活で広く使われており、ロボットに対話を教えることが重要である。 しかし、反射的・屈折的効果によってrgb-dカメラは正確な幾何学的測定ができないため、容易ではない。 そこで本研究では,RGB-D法に基づく透明物体の表面正規化と操作を行うRFTransを提案する。 RFTransは、屈折流を中間表現として活用することにより、RGB画像から幾何学(例えば表面正規)を直接予測する欠点を回避し、sim-to-realギャップを橋渡しする。 RFTransは屈折流、物体マスク、境界を予測するRFNetと、屈折流から表面の正常を推定するF2Netを統合している。 操作を可能にするために、グローバル最適化モジュールは予測を取り入れ、生の深さを洗練し、通常のポイントクラウドを構築する。 分析把持計画アルゴリズムisfを追従して把持ポーズを生成する。 ネットワークをトレーニングするために、物理的に可視なレイトレーシングレンダリング技術を用いた合成データセットを構築した。 その結果、合成データセットでトレーニングされたRFTransは、合成および実世界のベンチマークにおいて、ベースラインであるClearGraspを大きなマージンで一貫して上回ることを示した。 最後に、現実のロボットの把握タスクは83%の成功率を示し、屈折流が直接シミュレートから現実への移動を可能にすることを証明している。 コード、データ、補足資料はhttps://rftrans.robotflow.ai.comで入手できる。

Transparent objects are widely used in our daily lives, making it important to teach robots to interact with them. However, it's not easy because the reflective and refractive effects can make RGB-D cameras fail to give accurate geometry measurements. To solve this problem, this paper introduces RFTrans, an RGB-D-based method for surface normal estimation and manipulation of transparent objects. By leveraging refractive flow as an intermediate representation, RFTrans circumvents the drawbacks of directly predicting the geometry (e.g. surface normal) from RGB images and helps bridge the sim-to-real gap. RFTrans integrates the RFNet, which predicts refractive flow, object mask, and boundaries, followed by the F2Net, which estimates surface normal from the refractive flow. To make manipulation possible, a global optimization module will take in the predictions, refine the raw depth, and construct the point cloud with normal. An analytical grasp planning algorithm, ISF, is followed to generate the grasp poses. We build a synthetic dataset with physically plausible ray-tracing rendering techniques to train the networks. Results show that the RFTrans trained on the synthetic dataset can consistently outperform the baseline ClearGrasp in both synthetic and real-world benchmarks by a large margin. Finally, a real-world robot grasping task witnesses an 83% success rate, proving that refractive flow can help enable direct sim-to-real transfer. The code, data, and supplementary materials are available at https://rftrans.robotflow.ai.
翻訳日:2023-11-23 01:42:14 公開日:2023-11-21
# Rich and Poor Texture Contrast: AI生成画像検出のためのシンプルで効果的なアプローチ

Rich and Poor Texture Contrast: A Simple yet Effective Approach for AI-generated Image Detection ( http://arxiv.org/abs/2311.12397v1 )

ライセンス: Link先を確認
Nan Zhong, Yiran Xu, Zhenxing Qian, Xinpeng Zhang(参考訳) 最近の生成モデルは、写真画像の生成において印象的な性能を示している。 人間は、そんな信じられないほどリアルなai画像と実際の画像とを区別できない。 AI生成画像は、ユビキタスな偽情報拡散につながる可能性がある。 したがって、AI生成画像を特定する検出器を開発するのは最も緊急である。 既存の検出器の多くは、目に見えない生成モデルよりも高い性能低下に悩まされている。 本稿では,多種多様な生成モデルにより生成された偽画像を識別できる,新しいAI生成画像検出器を提案する。 本手法では,画像内のテクスチャ領域とテクスチャ領域間のピクセル間相関コントラストを利用する。 豊かなテクスチャ領域の画素は、粗いテクスチャ領域よりも大きな変動を示す。 この相違は、豊かなテクスチャ領域のエントロピーが貧しい領域のエントロピーよりも大きいことを反映している。 その結果、現実的なリッチテクスチャ領域の合成は、既存の生成モデルよりも難しいことが証明される。 この原理に基づき、画像を複数のパッチに分割し、リッチテキストと貧弱テキストのパッチからなる2つのイメージに再構成する。 次に,テクスチャ領域とテクスチャ領域の画素間相関差を抽出した。 この機能は、さまざまな生成モデルにわたるAI生成画像鑑定に使用される普遍的な指紋として機能する。 さらに,既存のベースラインの有効性とアプローチを評価するために,16種類の事前生成モデルを含む総合的なAI生成画像検出ベンチマークを構築した。 我々のベンチマークはフォローアップ研究のリーダーボードを提供する。 その結果,本手法は最先端のベースラインよりも有意差が認められた。 私たちのプロジェクト:https://fdmas.github.io/AIGCDetect/

Recent generative models show impressive performance in generating photographic images. Humans can hardly distinguish such incredibly realistic-looking AI-generated images from real ones. AI-generated images may lead to ubiquitous disinformation dissemination. Therefore, it is of utmost urgency to develop a detector to identify AI-generated images. Most existing detectors suffer from sharp performance drops over unseen generative models. In this paper, we propose a novel AI-generated image detector capable of identifying fake images created by a wide range of generative models. Our approach leverages the inter-pixel correlation contrast between rich and poor texture regions within an image. Pixels in rich texture regions exhibit more significant fluctuations than those in poor texture regions. This discrepancy reflects that the entropy of rich texture regions is larger than that of poor ones. Consequently, synthesizing realistic rich texture regions proves to be more challenging for existing generative models. Based on this principle, we divide an image into multiple patches and reconstruct them into two images, comprising rich-texture and poor-texture patches respectively. Subsequently, we extract the inter-pixel correlation discrepancy feature between rich and poor texture regions. This feature serves as a universal fingerprint used for AI-generated image forensics across different generative models. In addition, we build a comprehensive AI-generated image detection benchmark, which includes 16 kinds of prevalent generative models, to evaluate the effectiveness of existing baselines and our approach. Our benchmark provides a leaderboard for follow-up studies. Extensive experimental results show that our approach outperforms state-of-the-art baselines by a significant margin. Our project: https://fdmas.github.io/AIGCDetect/
翻訳日:2023-11-23 01:41:48 公開日:2023-11-21
# 技術翻訳における非等価単語の問題点

Problems of Non-equivalent Words in Technical Translation ( http://arxiv.org/abs/2311.12395v1 )

ライセンス: Link先を確認
Mohammad Ibrahim Qani(参考訳) 対象言語に等価でない単語の翻訳は容易ではなく、それらの単語の適切な等価性を見つけることは、正しく理解しやすく、科学者の考えや考えを英語からロシア語への同値でない単語の共通的な問題について定義し、ある科学者の英語とロシア語の例とアイデアを含んでいる。 2021年代の統計によれば、英語は世界中で話されており、英語話者は135億人、ロシア語話者は2億8800万人である。 必然的に、世界中の何十億ものスピーカーがつながりを持ち、異なる基準で対処しているかもしれない。 互いに理解するためには、純粋で完全に理解された言語が必要です。 これらの純粋な言語は、言語学者や翻訳者が誤解を根絶するために働く必要がある翻訳知識に直接関係している。 誤解は、食べ物、衣服、文化、伝統の言葉など、あらゆる概念において、地域や内部の言葉が異なるため、ほぼ同値な言葉で現れる。 事実、これらの単語のほとんどはターゲット言語で同等ではないため、これらの単語は動作し、両方の言語を完全に理解するためにターゲット言語で同等である必要がある。 しかしながら、これらの非等価な単語のいくつかは、既にターゲット言語にプロフェッショナルにレンダリングされているが、他の多くの単語がレンダリングされている。 そこで本研究では,ソース言語からターゲット言語への非等価な単語の描画方法と規則について述べる。

Translating words which do not have equivalent in target language is not easy and finding proper equivalent of those words are very important to render correctly and understandably, the article defines some thoughts and ideas of scientists on the common problems of non-equivalent words from English to Russian language and includes English and Russian examples and ideas of certain scientist. The English language is worldwide spoken and there are 1.35 billion English speakers and over 258 million Russian speakers according to the 2021s statistics. Inevitably, these billions of speakers around the world have connection and they may have deal in different criteria. In order to understand one another they need to have a pure and fully-understood language. These pure languages understanding directly relates to translation knowledge where linguists and translators need to work and research to eradicate misunderstanding. Misunderstandings mostly appear in non-equivalent words because there are different local and internal words like food, garment, cultural and traditional words and others in every notion. Truly, most of these words do not have equivalent in the target language and these words need to be worked and find their equivalent in the target language to fully understand the both languages. However, some of these non-equivalent words are already professionally rendered to the target language but still there many other words to be rendered. Hence, this research paper includes different ways and rules of rendering non-equivalent words from source language to the target language.
翻訳日:2023-11-23 01:41:26 公開日:2023-11-21
# 個人化動的潜伏因子モデルとモバイル健康データへの応用

Individualized Dynamic Latent Factor Model with Application to Mobile Health Data ( http://arxiv.org/abs/2311.12392v1 )

ライセンス: Link先を確認
Jiuchen Zhang, Fei Xue, Qi Xu, Jung-Ah Lee, and Annie Qu(参考訳) モバイル健康は、スマートフォンやウェアラブルデバイスの人気とパワーのために、個人の健康状態を追跡する上で大きな成功を収めている。 これはまた、個人から収集された不規則な多変量測定により、モバイルの健康に至るところで発生する不均一で多分解能データを扱う際にも大きな課題をもたらした。 本稿では,不規則な多重解像度時系列データに対する個人化動的潜在因子モデルを提案する。 提案手法の主な利点は,マルチレゾリューションデータを潜在空間にマッピングすることにより,複数の不規則時系列と複数の被写体を統合できる点である。 さらに,提案する個別化動的潜在性因子モデルは,個別化動的潜在性因子を介して不均質な縦断情報を取得することに応用できる。 理論上,提案する推定器の積分補間誤差境界を提供し,b-スプライン近似法を用いて収束率を導出する。 シミュレーション研究とスマートウォッチデータへの適用は,提案手法の既存手法と比較して優れた性能を示している。

Mobile health has emerged as a major success in tracking individual health status, due to the popularity and power of smartphones and wearable devices. This has also brought great challenges in handling heterogeneous, multi-resolution data which arise ubiquitously in mobile health due to irregular multivariate measurements collected from individuals. In this paper, we propose an individualized dynamic latent factor model for irregular multi-resolution time series data to interpolate unsampled measurements of time series with low resolution. One major advantage of the proposed method is the capability to integrate multiple irregular time series and multiple subjects by mapping the multi-resolution data to the latent space. In addition, the proposed individualized dynamic latent factor model is applicable to capturing heterogeneous longitudinal information through individualized dynamic latent factors. In theory, we provide the integrated interpolation error bound of the proposed estimator and derive the convergence rate with B-spline approximation methods. Both the simulation studies and the application to smartwatch data demonstrate the superior performance of the proposed method compared to existing methods.
翻訳日:2023-11-23 01:41:01 公開日:2023-11-21
# HierSpeech++:ゼロショット音声合成のための階層的変分推論による音声のセマンティック表現と音響表現のギャップを埋める

HierSpeech++: Bridging the Gap between Semantic and Acoustic Representation of Speech by Hierarchical Variational Inference for Zero-shot Speech Synthesis ( http://arxiv.org/abs/2311.12454v1 )

ライセンス: Link先を確認
Sang-Hoon Lee, Ha-Yeong Choi, Seung-Bin Kim, Seong-Whan Lee(参考訳) 大規模言語モデル(llm)に基づく音声合成はゼロショット音声合成において広く採用されている。 しかし、それらは大規模なデータを必要とし、より遅い推論速度や堅牢性の欠如など、従来の自己回帰音声モデルと同じ制限を持つ。 本稿では,tts(text-to-speech)とvc(voice conversion)のための高速かつ強力なゼロショット音声合成器hierspeech++を提案する。 階層型音声合成フレームワークが合成音声のロバスト性と表現性を大幅に改善できることを確認した。 さらに,ゼロショット音声合成シナリオにおいても,合成音声の自然性や話者類似性が著しく向上する。 テキスト対音声では,テキスト表現と韻律プロンプトに基づく自己教師あり音声表現とf0表現を生成するtext-to-vecフレームワークを採用する。 そして、HierSpeech++は生成されたベクトル、F0、音声プロンプトから音声を生成する。 さらに16kHzから48kHzまでの高効率音声超解像フレームワークを導入する。 実験結果から, 階層型変分オートエンコーダはllmモデルや拡散モデルよりも強力なゼロショット音声シンセサイザーとなりうることがわかった。 さらに,人間レベルのゼロショット音声合成を初めて達成した。 オーディオサンプルとソースコードはhttps://github.com/sh-lee-prml/hierspeechppで入手できる。

Large language models (LLM)-based speech synthesis has been widely adopted in zero-shot speech synthesis. However, they require a large-scale data and possess the same limitations as previous autoregressive speech models, including slow inference speed and lack of robustness. This paper proposes HierSpeech++, a fast and strong zero-shot speech synthesizer for text-to-speech (TTS) and voice conversion (VC). We verified that hierarchical speech synthesis frameworks could significantly improve the robustness and expressiveness of the synthetic speech. Furthermore, we significantly improve the naturalness and speaker similarity of synthetic speech even in zero-shot speech synthesis scenarios. For text-to-speech, we adopt the text-to-vec framework, which generates a self-supervised speech representation and an F0 representation based on text representations and prosody prompts. Then, HierSpeech++ generates speech from the generated vector, F0, and voice prompt. We further introduce a high-efficient speech super-resolution framework from 16 kHz to 48 kHz. The experimental results demonstrated that the hierarchical variational autoencoder could be a strong zero-shot speech synthesizer given that it outperforms LLM-based and diffusion-based models. Moreover, we achieved the first human-level quality zero-shot speech synthesis. Audio samples and source code are available at https://github.com/sh-lee-prml/HierSpeechpp.
翻訳日:2023-11-23 01:33:41 公開日:2023-11-21
# 変圧器を用いた数理学術論文におけるデフィニエンダの抽出

Extracting Definienda in Mathematical Scholarly Articles with Transformers ( http://arxiv.org/abs/2311.12448v1 )

ライセンス: Link先を確認
Shufan Jiang (VALDA), Pierre Senellart (DI-ENS, VALDA)(参考訳) 学術論文のテキストから数学的定義の中で定義項を自動的に識別することを検討する。 変圧器型自然言語処理アプリケーションの開発に触発され,問題となっている。 (a)微調整予調変圧器を用いたトークンレベル分類課題 (b)汎用大言語モデル(GPT)を用いた質問応答タスク。 また,論文のLATEXソースからラベル付きデータセットを構築するためのルールベースのアプローチを提案する。 実験結果から,最新の(かつ高価な) GPT 4 あるいはより単純な事前学習モデルを用いて,高い精度でリコールを行うことが可能であることが示唆された。

We consider automatically identifying the defined term within a mathematical definition from the text of an academic article. Inspired by the development of transformer-based natural language processing applications, we pose the problem as (a) a token-level classification task using fine-tuned pre-trained transformers; and (b) a question-answering task using a generalist large language model (GPT). We also propose a rule-based approach to build a labeled dataset from the LATEX source of papers. Experimental results show that it is possible to reach high levels of precision and recall using either recent (and expensive) GPT 4 or simpler pre-trained models fine-tuned on our task.
翻訳日:2023-11-23 01:33:19 公開日:2023-11-21
# 動的システムにおける長期グループフェアポリシーの設計

Designing Long-term Group Fair Policies in Dynamical Systems ( http://arxiv.org/abs/2311.12447v1 )

ライセンス: Link先を確認
Miriam Rateike, Isabel Valera and Patrick Forr\'e(参考訳) アルゴリズムによる意思決定方針を設計する際の決定が個人(つまり基礎となるデータ分布)に与える影響を無視することは、長期的には不平等と不公平を増大させる可能性がある。 本稿では,動的システムにおける長期的な集団公平性を実現するための新しい枠組みを提案する。 特に,本フレームワークでは,初期データ分布とは独立に,長期にわたって,対象の公平な定常状態に収束する時間に依存しないポリシを識別することができる。 我々は,システムダイナミクスを時間均質マルコフ連鎖でモデル化し,マルコフ連鎖収束定理を利用して一意的な収束を保証するポリシーを最適化する。 我々は, 社会や政策立案者に対する長期的目標を包含する, 異なる公平なシステムの例を示す。 さらに,本手法が長期集団条件分布に与える影響や,収束までどのように進化していくかを検討することで,異なる長期目標の評価をいかに促進するかを示す。

Neglecting the effect that decisions have on individuals (and thus, on the underlying data distribution) when designing algorithmic decision-making policies may increase inequalities and unfairness in the long term - even if fairness considerations were taken in the policy design process. In this paper, we propose a novel framework for achieving long-term group fairness in dynamical systems, in which current decisions may affect an individual's features in the next step, and thus, future decisions. Specifically, our framework allows us to identify a time-independent policy that converges, if deployed, to the targeted fair stationary state of the system in the long term, independently of the initial data distribution. We model the system dynamics with a time-homogeneous Markov chain and optimize the policy leveraging the Markov chain convergence theorem to ensure unique convergence. We provide examples of different targeted fair states of the system, encompassing a range of long-term goals for society and policymakers. Furthermore, we show how our approach facilitates the evaluation of different long-term targets by examining their impact on the group-conditional population distribution in the long term and how it evolves until convergence.
翻訳日:2023-11-23 01:33:09 公開日:2023-11-21
# 線形リー代数パラメータ化を持つ量子メソロジー

Quantum metrology with linear Lie algebra parameterisations ( http://arxiv.org/abs/2311.12446v1 )

ライセンス: Link先を確認
Ruvi Lecamwasam, Tatiana Iakovleva, Jason Twamley(参考訳) リー代数技術は量子光学における力学とメロロジーを研究するための強力で広く使われているツールである。 ハミルトニアンが有限次元のリー代数を生成するとき、ユニタリ進化はヴァイノルマン展開を用いて指数関数の有限積として表現できる。 この系はヒルベルト空間が無限であるとしても、スカラー微分方程式の有限集合によって正確に記述される。 しかし、ヴァイノルマン展開によって与えられる微分方程式は非線形であり、しばしば解析的および数値的評価を妨げる特異点を持つ。 我々は、線形微分方程式をもたらす量子フィッシャー情報に対する新しいリー代数展開を導出する。 既存のリー代数技法とともに、多くのメトロロジー問題を完全にハイゼンベルク像で解析することができる。 これにより、多くの気象問題に関わる計算が大幅に削減され、Wei-Norman拡張を用いて数値的に解決できない問題に対する解析解が提供される。 量子光学および非線形光学における問題に適用する手法の詳細な例を示す。

Lie algebraic techniques are powerful and widely-used tools for studying dynamics and metrology in quantum optics. When the Hamiltonian generates a Lie algebra with finite dimension, the unitary evolution can be expressed as a finite product of exponentials using the Wei-Norman expansion. The system is then exactly described by a finite set of scalar differential equations, even if the Hilbert space is infinite. However, the differential equations provided by the Wei-Norman expansion are nonlinear and often have singularities that prevent both analytic and numerical evaluation. We derive a new Lie algebra expansion for the quantum Fisher information, which results in linear differential equations. Together with existing Lie algebra techniques this allows many metrology problems to be analysed entirely in the Heisenberg picture. This substantially reduces the calculations involved in many metrology problems, and provides analytical solutions for problems that cannot even be solved numerically using the Wei-Norman expansion. We provide detailed examples of these methods applied to problems in quantum optics and nonlinear optomechanics.
翻訳日:2023-11-23 01:32:47 公開日:2023-11-21
# 古典オークションの量子通信複雑性

Quantum Communication Complexity of Classical Auctions ( http://arxiv.org/abs/2311.12444v1 )

ライセンス: Link先を確認
Aviad Rubinstein and Zixin Zhou(参考訳) 本研究では,買い手と売り手とのコミュニケーションの複雑さのレンズとして,シングルバイヤー・マルチイット・ベイズ収入最大化オークションの基本的な,古典的なメカニズム設計問題について検討する。 具体的には,量子通信の利用が古典的通信より効率的かどうかを問う。 これは、非ストラテジックなパーティにおける量子通信と、メカニズム設計における古典的なコミュニケーションの両方とはまったく異なるように見える。 まず,ほぼ最適なオークションの通信複雑性について検討する。 提案手法は, 最適な収益を任意に近似し, 従来型よりも指数関数的に効率的な通信を行う, 単価または組合せ価値のバリュエーションを持つ購入者に対して, 量子オークションプロトコルを提供する。 しかし、これらのオークションは、売り手が逸脱した買い手から指数関数的に大きな支払いを請求する可能性があるという注意が必要である。 この注意事項は、期待される量子通信と最大支払いの積に指数関数的に下限を与える必要があることを示す。 次に, 最適なオークションの最悪ケースのコミュニケーションの複雑さを, 極めて簡単な設定で検討した。 1. 最適な古典的オークションプロトコルが無限に多くのビットを必要とするが、1キュービットと2つの古典的ビットの一方通行のメッセージが十分にある先行が存在する。 2. 有限の一方向量子オークションプロトコルが最適収益を得ることができない先例が存在する。 しかし、ほとんど相互作用しない収益最適化量子オークションプロトコルがある。 3. 通信複雑性を有限に制限したマルチラウンド量子オークションプロトコルが最適収益を得ることができない事前が存在する。

We study the fundamental, classical mechanism design problem of single-buyer multi-item Bayesian revenue-maximizing auctions under the lens of communication complexity between the buyer and the seller. Specifically, we ask whether using quantum communication can be more efficient than classical communication. We have two sets of results, revealing a surprisingly rich landscape - which looks quite different from both quantum communication in non-strategic parties, and classical communication in mechanism design. We first study the expected communication complexity of approximately optimal auctions. We give quantum auction protocols for buyers with unit-demand or combinatorial valuations that obtain an arbitrarily good approximation of the optimal revenue while running in exponentially more efficient communication compared to classical approximately optimal auctions. However, these auctions come with the caveat that they may require the seller to charge exponentially large payments from a deviating buyer. We show that this caveat is necessary - we give an exponential lower bound on the product of the expected quantum communication and the maximum payment. We then study the worst-case communication complexity of exactly optimal auctions in an extremely simple setting: additive buyer's valuations over two items. We show the following separations: 1. There exists a prior where the optimal classical auction protocol requires infinitely many bits, but a one-way message of 1 qubit and 2 classical bits suffices. 2. There exists a prior where no finite one-way quantum auction protocol can obtain the optimal revenue. However, there is a barely-interactive revenue-optimal quantum auction protocol. 3. There exists a prior where no multi-round quantum auction protocol with a finite bound on communication complexity can obtain the optimal revenue.
翻訳日:2023-11-23 01:32:31 公開日:2023-11-21
# 意味コミュニケーションが可能な知識ベース:生成的視点

Knowledge Base Enabled Semantic Communication: A Generative Perspective ( http://arxiv.org/abs/2311.12443v1 )

ライセンス: Link先を確認
Jinke Ren, Zezhong Zhang, Jie Xu, Guanying Chen, Yaping Sun, Ping Zhang, Shuguang Cui(参考訳) セマンティック通信は第6世代(6G)無線ネットワークを推進するための重要な技術として広く評価されている。 しかし、実際は効果的な意味表現を提供することは非常に難しい。 この問題に対処するために,本論文では,意味的知識ベース(KB)の活用にひび割れを取り,生成的セマンティックコミュニケーションの新たな時代を先導する。 セマンティックKBでは、ソースメッセージは所望の意味を損なうことなく低次元のサブスペースで特徴付けられるため、通信効率が大幅に向上する。 セマンティックKBの基本原理を最初に導入し、ソース、タスク、チャネルKBの3つのサブKBを提示することにより、生成セマンティック通信アーキテクチャを開発する。 次に,各サブkbの詳細な構成手法について述べるとともに,その意味的符号化と伝達の観点での利用について述べる。 また,従来の統語的コミュニケーションや古典的意味コミュニケーションよりも生成的意味コミュニケーションの方が優れていることを示す。 簡単に言うと、この記事では、生成的意味コミュニケーションのエキサイティングな未チャートフロンティアの科学的基盤を確立する。

Semantic communication is widely touted as a key technology for propelling the sixth-generation (6G) wireless networks. However, providing effective semantic representation is quite challenging in practice. To address this issue, this article takes a crack at exploiting semantic knowledge base (KB) to usher in a new era of generative semantic communication. Via semantic KB, source messages can be characterized in low-dimensional subspaces without compromising their desired meaning, thus significantly enhancing the communication efficiency. The fundamental principle of semantic KB is first introduced, and a generative semantic communication architecture is developed by presenting three sub-KBs, namely source, task, and channel KBs. Then, the detailed construction approaches for each sub-KB are described, followed by their utilization in terms of semantic coding and transmission. A case study is also provided to showcase the superiority of generative semantic communication over conventional syntactic communication and classical semantic communication. In a nutshell, this article establishes a scientific foundation for the exciting uncharted frontier of generative semantic communication.
翻訳日:2023-11-23 01:32:06 公開日:2023-11-21
# 量子情報理論-講義ノート

Quantum Information Theory -- Lecture Notes ( http://arxiv.org/abs/2311.12442v1 )

ライセンス: Link先を確認
Christoph Dittel(参考訳) これらの講義ノートは、強い関連する分野である量子情報と量子計算の入門を提供し、激しい研究の対象となっている。 講演ノートには、概要と基本的な紹介を提供する目的で、これらの分野のトピックのごく一部だけが含まれている。 講演シリーズは私のyoutubeチャンネルで閲覧できます。

These lecture notes provide an introduction to quantum information and quantum computation, which are strongly related disciplines and subject of intense research. The lecture notes contain only a small selection of topics in these disciplines, with the aim of providing you with an overview and a basic introduction. The corresponding lecture series is available on my YouTube channel.
翻訳日:2023-11-23 01:31:47 公開日:2023-11-21
# バイオメディカル計算のためのハーネス化FPGA技術

Harnessing FPGA Technology for Enhanced Biomedical Computation ( http://arxiv.org/abs/2311.12439v1 )

ライセンス: Link先を確認
Nisanur Alici, Kayode Inadagbo, Murat Isik(参考訳) この研究は、CNN(Convolutional Neural Networks)、RNN(Recurrent Neural Networks)、LSTM(Long Short-Term Memory Networks)、DBN(Deep Belief Networks)といった高度なニューラルネットワークフレームワークを掘り下げて、Field Programmable Gate Arrays(FPGA)を介してECG信号の解析を改善する。 MIT-BIH Arrhythmia Databaseは、アルゴリズムのレジリエンスを高めるためにガウスノイズを追加し、モデルのトレーニングと評価の基盤として機能する。 開発されたアーキテクチャでは、特定の処理と分類機能のために様々なレイヤが組み込まれており、EarlyStoppingコールバックやDropoutレイヤのような戦略を使ってオーバーフィッティングを防ぐ。 さらに、本論文では、PYNQ Z1プラットフォーム用に調整されたTensor Compute Unit(TCU)アクセラレータの作成について詳述する。 DockerのTensilツールチェーンの構成、アーキテクチャの選択、PS-PL設定、モデルのコンパイルとデプロイなど、FPGAベースの機械学習を実装するための徹底的な方法論を提供する。 レイテンシやスループットなどの性能指標を評価することにより,高度なバイオメディカルコンピューティングにおけるFPGAの有効性を示す。 この研究は、様々な分野にわたるFPGA上でのニューラルネットワーク操作を最適化するための包括的なガイドとなる。

This research delves into sophisticated neural network frameworks like Convolutional Neural Networks (CNN), Recurrent Neural Networks (RNN), Long Short-Term Memory Networks (LSTMs), and Deep Belief Networks (DBNs) for improved analysis of ECG signals via Field Programmable Gate Arrays (FPGAs). The MIT-BIH Arrhythmia Database serves as the foundation for training and evaluating our models, with added Gaussian noise to heighten the algorithms' resilience. The developed architectures incorporate various layers for specific processing and categorization functions, employing strategies such as the EarlyStopping callback and Dropout layer to prevent overfitting. Additionally, this paper details the creation of a tailored Tensor Compute Unit (TCU) accelerator for the PYNQ Z1 platform. It provides a thorough methodology for implementing FPGA-based machine learning, encompassing the configuration of the Tensil toolchain in Docker, selection of architectures, PS-PL configuration, and the compilation and deployment of models. By evaluating performance indicators like latency and throughput, we showcase the efficacy of FPGAs in advanced biomedical computing. This study ultimately serves as a comprehensive guide to optimizing neural network operations on FPGAs across various fields.
翻訳日:2023-11-23 01:31:42 公開日:2023-11-21
# 多施設間クロスモダリティドメイン適応のためのサイト固有スタイルの学習

Learning Site-specific Styles for Multi-institutional Unsupervised Cross-modality Domain Adaptation ( http://arxiv.org/abs/2311.12437v1 )

ライセンス: Link先を確認
Han Liu, Yubo Fan, Zhoubing Xu, Benoit M. Dawant, Ipek Oguz(参考訳) 教師なしクロスモダリティドメイン適応は,医療画像解析において困難な課題であり,複数の機関からソースおよびターゲットドメインデータを収集する場合,さらに困難になる。 本稿では,クロスモダ2023チャレンジに対する多施設非教師付きドメイン適応への取り組みについて述べる。 まず,ソース領域の画像を対象領域に翻訳するために,非ペア画像変換を行い,制御可能なサイト固有のスタイルで合成対象領域画像を生成する動的ネットワークを設計する。 その後,合成画像を用いてセグメンテーションモデルを訓練し,自己学習による領域ギャップの低減を図る。 私たちのソリューションは,課題の検証とテストの両段階において,第1位を獲得しました。

Unsupervised cross-modality domain adaptation is a challenging task in medical image analysis, and it becomes more challenging when source and target domain data are collected from multiple institutions. In this paper, we present our solution to tackle the multi-institutional unsupervised domain adaptation for the crossMoDA 2023 challenge. First, we perform unpaired image translation to translate the source domain images to the target domain, where we design a dynamic network to generate synthetic target domain images with controllable, site-specific styles. Afterwards, we train a segmentation model using the synthetic images and further reduce the domain gap by self-training. Our solution achieved the 1st place during both the validation and testing phases of the challenge.
翻訳日:2023-11-23 01:31:18 公開日:2023-11-21
# ROC-regularized isotonic Regression を用いた分類器の校正

Classifier Calibration with ROC-Regularized Isotonic Regression ( http://arxiv.org/abs/2311.12436v1 )

ライセンス: Link先を確認
Eugene Berta (SIERRA), Francis Bach (SIERRA), Michael Jordan (SIERRA)(参考訳) 機械学習分類器の校正は、モデルの信頼性と実際の確率のギャップを埋め、信頼性と解釈可能な予測を得るために必要である。 アイソトニック回帰(IR)は、モノトン変換による校正セット上のクロスエントロピーを最小化することでバイナリ分類器の校正を目的としている。 IRは適応的なバイナリ処理として機能し、キャリブレーション誤差をゼロにすることができるが、性能への影響は未解決である。 本稿では、IRがROC曲線の凸殻を保存することを最初に証明する。 これにより、校正セットのオーバーフィットを制御しながら、分類器が校正される。 次に, 等張回帰の新たな一般化を行い, k クラスを持つクラス化子に対応する。 提案手法は, 確率単純度に基づく多次元適応型ビンニング方式を構築し, 再びゼロに等しいマルチクラスキャリブレーション誤差を実現する。 このアルゴリズムは、分類器のk次元のroc曲面を保存する単調な形式を課すことで正則化する。 この一般単調な基準は、クロスエントロピー損失の低減と校正セットの過度な適合の回避のバランスを打つのに有効であることを示す。

Calibration of machine learning classifiers is necessary to obtain reliable and interpretable predictions, bridging the gap between model confidence and actual probabilities. One prominent technique, isotonic regression (IR), aims at calibrating binary classifiers by minimizing the cross entropy on a calibration set via monotone transformations. IR acts as an adaptive binning procedure, which allows achieving a calibration error of zero, but leaves open the issue of the effect on performance. In this paper, we first prove that IR preserves the convex hull of the ROC curve -- an essential performance metric for binary classifiers. This ensures that a classifier is calibrated while controlling for overfitting of the calibration set. We then present a novel generalization of isotonic regression to accommodate classifiers with K classes. Our method constructs a multidimensional adaptive binning scheme on the probability simplex, again achieving a multi-class calibration error equal to zero. We regularize this algorithm by imposing a form of monotony that preserves the K-dimensional ROC surface of the classifier. We show empirically that this general monotony criterion is effective in striking a balance between reducing cross entropy loss and avoiding overfitting of the calibration set.
翻訳日:2023-11-23 01:31:06 公開日:2023-11-21
# Fair Enough? フェア'アルゴリズムを持つための要件の現在の制限のマップ

Fair Enough? A map of the current limitations of the requirements to have "fair'' algorithms ( http://arxiv.org/abs/2311.12435v1 )

ライセンス: Link先を確認
Alessandro Castelnovo, Nicole Inverardi, Gabriele Nanino, Ilaria Giuseppina Penco, Daniele Regoli(参考訳) 近年、人工知能の利用と効率の向上、そしてより一般的には、自動意思決定システムの利用が増加し、そのようなシステムに関連するリスクに対する認識が高まり、歓迎されている。 そのようなリスクの1つは、これらのシステムの多くが自分たちの決定を調整し最適化することを学ぶデータに存在するバイアスや不当な不一致を永久にまたは増幅することである。 この認識は、いくつかの科学コミュニティが、より適切な方法や方法を考え出し、そのバイアスや格差を評価、定量化し、そして軽減することを奨励している。 一方で、政策立案者を含む社会の層がますます多くなり、'fair' のアルゴリズムを求めるようになった。 現在、優れた多分野の研究が数多く行われているが、いまだに欠けているのは、‘fair’’アルゴリズムがほとんど無意味な要件である、という認識が、行動可能な多くの社会的選択を補完する必要がある、と私たちは信じている。 すなわち、社会が自動意思決定システムから要求しているものと、現実のシナリオにおいて実際にこの要求が意味するものとの間には、行き詰まりがある。 本研究は,このような施設の要点を概説し,自動意思決定システムにおける公正性の増大に具体的な意味を与えるために,社会として対応すべき基本的な曖昧さと注意点の一覧を示す。

In the recent years, the raise in the usage and efficiency of Artificial Intelligence and, more in general, of Automated Decision-Making systems has brought with it an increasing and welcome awareness of the risks associated with such systems. One of such risks is that of perpetuating or even amplifying bias and unjust disparities present in the data from which many of these systems learn to adjust and optimise their decisions. This awareness has on one side encouraged several scientific communities to come up with more and more appropriate ways and methods to assess, quantify, and possibly mitigate such biases and disparities. On the other hand, it has prompted more and more layers of society, including policy makers, to call for ``fair'' algorithms. We believe that while a lot of excellent and multidisciplinary research is currently being conducted, what is still fundamentally missing is the awareness that having ``fair'' algorithms is per s\'e a nearly meaningless requirement, that needs to be complemented with a lot of additional societal choices to become actionable. Namely, there is a hiatus between what the society is demanding from Automated Decision-Making systems, and what this demand actually means in real-world scenarios. In this work, we outline the key features of such a hiatus, and pinpoint a list of fundamental ambiguities and attention points that we as a society must address in order to give a concrete meaning to the increasing demand of fairness in Automated Decision-Making systems.
翻訳日:2023-11-23 01:30:41 公開日:2023-11-21
# メロディ知覚の反復接続モデル : TRACX2を用いた探索

A recurrent connectionist model of melody perception : An exploration using TRACX2 ( http://arxiv.org/abs/2311.12431v1 )

ライセンス: Link先を確認
Daniel Defays, Robert French (LEAD), Barbara Tillmann (LEAD)(参考訳) 音声セグメンテーション、シリアル画像処理、音楽処理の計算モデルにおいて、類似または同一のメカニズムが使われているか? tracx2(フランス語: et al., 2011; french \& cottrell, 2014; mareschal \& french, 2017)は、チャンキングとシーケンスセグメンテーションの認識に基づく再帰的接続性オートエンコーダモデルで、音声とシリアルイメージの処理をシミュレートした。 入力時に頻繁に遭遇した区間の短い列の「チャンク」を認識する3層オートエンコーダであるこのモデルは、旋律的な単純なフランスの子供の歌のトーン間隔に基づいて訓練される。 これらのチャンクの内部表現を動的に新しい入力に組み込む。 内部表現は「人間認識可能な」メロディカテゴリーと一致する方法でクラスタ化される。 TRACX2は、入力で遭遇する音楽チャンクの輪郭情報と近接情報の両方に敏感である。 saffran et al. (1999) による短い音楽句の「語尾」の優越性効果を示している。 以上より, TRACX2 に実装された再帰的自己解離的チャンキング機構は, 単語と画像のチャンクだけでなく, 基本メロディ処理にも応用できる可能性が示唆された。

Are similar, or even identical, mechanisms used in the computational modeling of speech segmentation, serial image processing and music processing? We address this question by exploring how TRACX2, (French et al., 2011; French \& Cottrell, 2014; Mareschal \& French, 2017), a recognition-based, recursive connectionist autoencoder model of chunking and sequence segmentation, which has successfully simulated speech and serial-image processing, might be applied to elementary melody perception. The model, a three-layer autoencoder that recognizes ''chunks'' of short sequences of intervals that have been frequently encountered on input, is trained on the tone intervals of melodically simple French children's songs. It dynamically incorporates the internal representations of these chunks into new input. Its internal representations cluster in a manner that is consistent with ''human-recognizable'' melodic categories. TRACX2 is sensitive to both contour and proximity information in the musical chunks that it encounters in its input. It shows the ''end-of-word'' superiority effect demonstrated by Saffran et al. (1999) for short musical phrases. The overall findings suggest that the recursive autoassociative chunking mechanism, as implemented in TRACX2, may be a general segmentation and chunking mechanism, underlying not only word-and imagechunking, but also elementary melody processing.
翻訳日:2023-11-23 01:30:17 公開日:2023-11-21
# AIに基づく船舶検出・認識のためのAR可視化システム

AR Visualization System for Ship Detection and Recognition Based on AI ( http://arxiv.org/abs/2311.12430v1 )

ライセンス: Link先を確認
Ziqi Ye, Limin Huang, Yongji Wu, Min Hu(参考訳) 拡張現実技術は、産業デザインの相互作用、展示ガイド、情報検索などの分野で広く利用されている。 人工知能と拡張現実技術の組み合わせも、将来の開発トレンドになっている。 このプロジェクトは、人工知能モジュール、unity開発モジュール、hololens2arモジュールの3つの部分を含む、aiに基づく船の検出と認識のためのar可視化システムである。 このプロジェクトはr3detアルゴリズムに基づいて、リモートセンシング画像における船舶の検出と認識を完了している。 RTX 2080Tiで訓練されたモデル検出の認識率は96%に達する。 そして、船舶カテゴリと情報により船の3Dモデルを取得し、仮想シーンで生成する。 同時に、ボイスモジュールとUIインタラクションモジュールが追加されている。 最後に、MRTKを通じてHollens2へのプロジェクトのデプロイを完了しました。 このシステムは、物体検出の結果をAR分野にマッピングするコンピュータビジョンと拡張現実技術の融合を実現し、将来的な技術動向とインテリジェントな応用に向けて勇敢な一歩を踏み出す。

Augmented reality technology has been widely used in industrial design interaction, exhibition guide, information retrieval and other fields. The combination of artificial intelligence and augmented reality technology has also become a future development trend. This project is an AR visualization system for ship detection and recognition based on AI, which mainly includes three parts: artificial intelligence module, Unity development module and Hololens2AR module. This project is based on R3Det algorithm to complete the detection and recognition of ships in remote sensing images. The recognition rate of model detection trained on RTX 2080Ti can reach 96%. Then, the 3D model of the ship is obtained by ship categories and information and generated in the virtual scene. At the same time, voice module and UI interaction module are added. Finally, we completed the deployment of the project on Hololens2 through MRTK. The system realizes the fusion of computer vision and augmented reality technology, which maps the results of object detection to the AR field, and makes a brave step toward the future technological trend and intelligent application.
翻訳日:2023-11-23 01:29:45 公開日:2023-11-21
# ループ変換器は学習アルゴリズムに優れている

Looped Transformers are Better at Learning Learning Algorithms ( http://arxiv.org/abs/2311.12424v1 )

ライセンス: Link先を確認
Liu Yang, Kangwook Lee, Robert Nowak, Dimitris Papailiopoulos(参考訳) gargらによって報告されたように、トランスフォーマーは様々な(相対的な)モデルからのデータフィッティング問題に対して有効である。 しかしながら、トランスフォーマーアーキテクチャに固有の反復構造がないことは、従来の機械学習手法で一般的に使用される反復アルゴリズムをエミュレートする上での課題となっている。 そこで本研究では, 変圧器アーキテクチャに反復特性を取り入れることを目的とした, 変圧器アーキテクチャとその関連する訓練手法の利用を提案する。 実験結果から, ループ変換器は, パラメータ数の10%未満を生かしながら, 各種データ適合問題の解法において, 標準変圧器に匹敵する性能を実現することが示唆された。

Transformers have demonstrated effectiveness in \emph{in-context solving} data-fitting problems from various (latent) models, as reported by Garg et al. However, the absence of an inherent iterative structure in the transformer architecture presents a challenge in emulating the iterative algorithms, which are commonly employed in traditional machine learning methods. To address this, we propose the utilization of \emph{looped} transformer architecture and its associated training methodology, with the aim of incorporating iterative characteristics into the transformer architectures. Experimental results suggest that the looped transformer achieves performance comparable to the standard transformer in solving various data-fitting problems, while utilizing less than 10\% of the parameter count.
翻訳日:2023-11-23 01:29:29 公開日:2023-11-21
# 2つのビューは1より優れている:マルチビュー一貫性を持つ単眼3次元ポーズ推定

Two Views Are Better than One: Monocular 3D Pose Estimation with Multiview Consistency ( http://arxiv.org/abs/2311.12421v1 )

ライセンス: Link先を確認
Christian Keilstrup Ingwersen, Anders Bjorholm Dahl, Janus N{\o}rtoft Jensen, Morten Rieger Hannemose(参考訳) 複数の3Dポーズが同じ2D表現に対応できる基本的な曖昧さを考えると、単一の2D画像や2Dキーポイントから3Dのポーズをデジェクトすることは本質的に困難である。 3dデータの取得は、ポーズの曖昧さを解決するのに有用であるが、高価で複雑なセットアップが必要であり、しばしば制御された実験室環境に適用性を制限する。 微調整のためのマルチビューデータを用いた単眼人物ポーズ推定モデルの性能改善を行う。 本稿では,2次元監視のみによるトレーニングデータの追加を可能にする,新たな損失関数であるマルチビュー整合性を提案する。 この損失は、ある視点から推定された3Dのポーズが、類似性変換の下で他の視点から推定された3Dのポーズと整合することを強制する。 我々の整合性喪失は、3Dデータを使用せずに微調整の性能を大幅に向上させる。 実験の結果,2つの視点を90度にオフセットすれば良好な性能が得られることがわかった。 そこで本研究では,オフザシェルフカメラによるアクティビティを捉え,精巧な校正手順を不要にすることで,ドメイン固有のデータの取得を可能にする。 本研究は,3次元ポーズ推定における新たなドメイン適応の可能性を導入し,特定のアプリケーション向けにモデルをカスタマイズするための実用的かつ費用効率の高いソリューションを提供する。 追加ビューを備えた使用済みデータセットが一般公開される予定だ。

Deducing a 3D human pose from a single 2D image or 2D keypoints is inherently challenging, given the fundamental ambiguity wherein multiple 3D poses can correspond to the same 2D representation. The acquisition of 3D data, while invaluable for resolving pose ambiguity, is expensive and requires an intricate setup, often restricting its applicability to controlled lab environments. We improve performance of monocular human pose estimation models using multiview data for fine-tuning. We propose a novel loss function, multiview consistency, to enable adding additional training data with only 2D supervision. This loss enforces that the inferred 3D pose from one view aligns with the inferred 3D pose from another view under similarity transformations. Our consistency loss substantially improves performance for fine-tuning with no available 3D data. Our experiments demonstrate that two views offset by 90 degrees are enough to obtain good performance, with only marginal improvements by adding more views. Thus, we enable the acquisition of domain-specific data by capturing activities with off-the-shelf cameras, eliminating the need for elaborate calibration procedures. This research introduces new possibilities for domain adaptation in 3D pose estimation, providing a practical and cost-effective solution to customize models for specific applications. The used dataset, featuring additional views, will be made publicly available.
翻訳日:2023-11-23 01:29:14 公開日:2023-11-21
# 表面符号デコーダの精度検証

Testing the Accuracy of Surface Code Decoders ( http://arxiv.org/abs/2311.12503v1 )

ライセンス: Link先を確認
Arshpreet Singh Maan, Alexandru Paler(参考訳) 大規模でフォールトトレラントな量子計算は量子エラー訂正符号(QECC)によって実現される。 本稿では,検索テーブルデコーダとアルゴリズムデコーダを用いた解を比較し,異なるqeccデコーダ方式の精度と有効性をテストする最初の体系的手法を提案する。 具体的には,両復号方式で誤差を正確に補正した表面符号の網羅的なルックアップテーブルに対して,最小長マッチングと信念伝搬デコーダの結果を検討する。 予備的な結果ではあるものの,実際のエラーチャンネルの復号化に成功か失敗かを比較することで,有意な定量的結果が得られることを示す。 異なる復号方式は同一のQECCスキームとエラーモデルで非常に異なる性能を示し、デコーダをテストし、デオード可能なエラーに対して分類する方法を詳述する。 この研究はデコーダアンサンブルのデータ駆動チューニングへの道を開き、特定の量子誤り訂正符号で許容される高い理論上のしきい値を維持しながら、リアルタイムデコードを可能にするハイブリッドデコードスキームをカスタマイズした設計を可能にする。

Large-scale, fault-tolerant quantum computations will be enabled by quantum error-correcting codes (QECC). This work presents the first systematic technique to test the accuracy and effectiveness of different QECC decoding schemes by comparing a look-up table decoder to solutions generated using algorithmic decoders. Specifically, we examine the results of minimum-weight-perfect-matching and belief-propagation decoders against exhaustive look-up tables for surface codes up to distance seven and categorise where errors are accurately corrected in both decoding schemes. While our results are preliminary, we show that significant quantitative results can be generated, comparing how actual error channels are successfully or unsuccessfully decoded. We show that different decoding schemes perform very differently under the same QECC scheme and error model, and detail how decoders can be tested and classified with respect to errors that are successfully decodable. This work paves the way to the data driven tuning of decoder ensembles and will enable tailored design of hybrid decoding schemes that allow for real-time decoding, while maintaining the high theoretical thresholds allowed by specific quantum error correction codes.
翻訳日:2023-11-23 01:22:35 公開日:2023-11-21
# HCA-Net: 椎間板セマンティックラベリングのための階層型コンテキスト注意ネットワーク

HCA-Net: Hierarchical Context Attention Network for Intervertebral Disc Semantic Labeling ( http://arxiv.org/abs/2311.12486v1 )

ライセンス: Link先を確認
Afshin Bozorgpour, Bobby Azad, Reza Azad, Yury Velichko, Ulas Bagci, Dorit Merhof(参考訳) 脊椎変性症,脊椎骨折,IVDヘルニアなどの脊椎関連疾患の診断には,医用画像における椎間板の正確な自動分割が重要である。 本稿では,IVDのセマンティックラベリングのための新しいコンテキストアテンションネットワークアーキテクチャであるHCA-Netについて述べる。 本手法は,脊髄内の複雑な空間的関係を捉えるために,様々なスケールの処理機能を強化し,効果的に統合する。 これを実現するために、HCA-Netは、予測された各IVD位置と対応する実際の関節位置との差を最小限に抑えるために、ポーズ推定問題としてIVDラベルをモデル化する。 さらに, 骨格損失項を導入し, モデルが脊椎への幾何学的依存を強化する。 この損失関数は、モデルの予測を人間の脊椎骨格の一般的な構造に合致する範囲に限定するように設計されている。 その結果、ネットワークは誤予測の発生を低減し、IVD位置推定の精度を適応的に向上させる。 多心性脊椎データセットの広範囲な実験的評価を通じて,mri t1wとt2wの両方の最先端法を一貫して上回っている。 コードベースは \href{https://github.com/xmindflow/HCA-Net}{GitHub} で公開されている。

Accurate and automated segmentation of intervertebral discs (IVDs) in medical images is crucial for assessing spine-related disorders, such as osteoporosis, vertebral fractures, or IVD herniation. We present HCA-Net, a novel contextual attention network architecture for semantic labeling of IVDs, with a special focus on exploiting prior geometric information. Our approach excels at processing features across different scales and effectively consolidating them to capture the intricate spatial relationships within the spinal cord. To achieve this, HCA-Net models IVD labeling as a pose estimation problem, aiming to minimize the discrepancy between each predicted IVD location and its corresponding actual joint location. In addition, we introduce a skeletal loss term to reinforce the model's geometric dependence on the spine. This loss function is designed to constrain the model's predictions to a range that matches the general structure of the human vertebral skeleton. As a result, the network learns to reduce the occurrence of false predictions and adaptively improves the accuracy of IVD location estimation. Through extensive experimental evaluation on multi-center spine datasets, our approach consistently outperforms previous state-of-the-art methods on both MRI T1w and T2w modalities. The codebase is accessible to the public on \href{https://github.com/xmindflow/HCA-Net}{GitHub}.
翻訳日:2023-11-23 01:21:55 公開日:2023-11-21
# Pricing4APIs: RESTful API価格の厳格なモデル

Pricing4APIs: A Rigorous Model for RESTful API Pricings ( http://arxiv.org/abs/2311.12485v1 )

ライセンス: Link先を確認
Rafael Fresno-Aranda, Pablo Fernandez, Antonio Gamez-Diaz, Amador Duran, Antonio Ruiz-Cortes(参考訳) APIは組織の新たなビジネス資産になりつつあり、その結果、API機能とその価格が顧客に正確に定義されるべきである。 例えば、フリープランは100ヶ月のリクエストを許可し、ゴールドプランは1ヶ月に10000のリクエストを持つ。 この文脈において、OpenAPI Specification(OAS)はAPIの機能的な部分をモデル化し、デファクト業界標準となり、APIプロバイダやコンシューマを支援するためのベンダ中立ツールのエコシステムを充実させています。 対照的に、API価格(すなわち、その計画と制限)をモデル化する提案はなく、この不足は、この情報を活用するツールの作成を妨げる。 このギャップに対処するために,本稿では価格モデリングフレームワークを提案する。 (a)API価格の包括的かつ厳密なモデルであるPricecing4APIsモデルと、OASを拡張するシリアライゼーションであるSLA4OAI b) この操作を自動化するために開発されたツールセット(sla4oai-analyzer)を用いて,API価格の記述を検証する操作。 さらに,提案の表現力を評価するために268個の実世界のapiを分析し,54種類の価格モデルの代表的なデータセットを作成した。

APIs are increasingly becoming new business assets for organizations and consequently, API functionality and its pricing should be precisely defined for customers. Pricing is typically composed by different plans that specify a range of limitations, e.g., a Free plan allows 100 monthly requests while a Gold plan has 10000 requests per month. In this context, the OpenAPI Specification (OAS) has emerged to model the functional part of an API, becoming a de facto industry standard and boosting a rich ecosystem of vendor-neutral tools to assist API providers and consumers. In contrast, there is no proposal for modeling API pricings (i.e. their plans and limitations) and this lack hinders the creation of tools that can leverage this information. To deal with this gap, this paper presents a pricing modeling framework that includes: (a) Pricing4APIs model, a comprehensive and rigorous model of API pricings, along SLA4OAI, a serialization that extends OAS; (b) an operation to validate the description of API pricings, with a toolset (sla4oai-analyzer) that has been developed to automate this operation. Additionally, we analyzed 268 real-world APIs to assess the expressiveness of our proposal and created a representative dataset of 54 pricing models to validate our framework.
翻訳日:2023-11-23 01:20:57 公開日:2023-11-21
# 不確かさを意識したテスト優先化:アプローチと実証評価

Uncertainty-Aware Test Prioritization: Approaches and Empirical Evaluation ( http://arxiv.org/abs/2311.12484v1 )

ライセンス: Link先を確認
Man Zhang, Jiahui Wu, Shaukat Ali and Tao Yue(参考訳) 複雑なソフトウェアシステム、例えばCPS(Cyber-Physical Systems)は現実世界と相互作用する。 このようなシステムのテストは、限られたリソース、時間、複雑なテストインフラストラクチャのセットアップ、そして運用環境に固有の不確実性のために難しい。 テスト最適化技術でサポートされた不確実性を認識したテストソリューションを開発することは、この課題に取り組むための委任事項とみなすことができる。 本稿では,多目的探索で実行するテストのシーケンスを最適化するために,uncerprioと呼ばれる不確実性に着目したテストケース優先順位付け手法を提案する。 不確実性測定(AUM)、不確実性空間(PUS)、不確実性数(ANU)、不確実性カバレッジ(PUU)の4つの不確実性対策を導出する。 これらの測定値と組み合わせにより,不確実性を考慮した多目的テストケース優先順位付け問題10件を提案し,各問題を最小化するための1つのコスト目標(実行コスト,PET)と最大化するための1つの効果的な尺度(モデルカバレッジ,PTR)とで追加的に定義した。 さらに,テスト実行の時間制約(タイムアウェア)を考慮し,不確実性を認識したテスト優先化を解決する上での最善の戦略を特定するための10の課題について,10の時間予算を定義した。 nsga-ii,mocell,spea2,celldeの4つのよく知られた多目的探索アルゴリズム(muosas)と2つの産業用cps被験者システムからの5つのユースケースを用いて比較ベースラインとしてランダムアルゴリズム(rs)を用いた。 その結果,全ての MuOSAs は RS よりも有意に優れていた。 Prob.6 f(PET,PTR,AUM,ANU)の戦略(すなわち、AUMとANUを併用した不確実性対策の問題)は、100%の時間予算で不確実性を見極める上で、全体的な最高の性能を達成した。

Complex software systems, e.g., Cyber-Physical Systems (CPSs), interact with the real world; thus, they often behave unexpectedly in uncertain environments. Testing such systems is challenging due to limited resources, time, complex testing infrastructure setup, and the inherent uncertainties in their operating environment. Devising uncertainty-aware testing solutions supported with test optimization techniques can be considered as a mandate for tackling this challenge. This paper proposes an uncertainty-aware and time-aware test case prioritization approach, named UncerPrio, for optimizing a sequence of tests to execute with a multi-objective search. To guide the prioritization with uncertainty, we identify four uncertainty measures: uncertainty measurement (AUM), uncertainty space (PUS), the number of uncertainties (ANU), and uncertainty coverage (PUU). Based on these measures and their combinations, we proposed 10 uncertainty-aware and multi-objective test case prioritization problems, and each problem was additionally defined with one cost objective (execution cost, PET) to be minimized and one effective measure (model coverage, PTR) to be maximized. Moreover, considering time constraints for test executions (i.e., time-aware), we defined 10 time budgets for all the 10 problems for identifying the best strategy in solving uncertainty-aware test prioritization. In our empirical study, we employed four well-known Multi-Objective Search Algorithms (MuOSAs): NSGA-II, MOCell, SPEA2, and CellDE with five use cases from two industrial CPS subject systems, and used Random Algorithm (RS) as the comparison baseline. Results show that all the MuOSAs significantly outperformed RS. The strategy of Prob.6 f(PET,PTR,AUM,ANU) (i.e., the problem with uncertainty measures AUM and ANU combined) achieved the overall best performance in observing uncertainty when using 100% time budget.
翻訳日:2023-11-23 01:20:25 公開日:2023-11-21
# 連続スペイン語における話者適応型エンドツーエンド音声認識

Speaker-Adapted End-to-End Visual Speech Recognition for Continuous Spanish ( http://arxiv.org/abs/2311.12480v1 )

ライセンス: Link先を確認
David Gimeno-G\'omez, Carlos-D. Mart\'inez-Hinarejos(参考訳) 異なる研究は、音声認識プロセスを通して視覚的手がかりの重要性を示している。 実際、オーディオヴィジュアルアプローチの開発は、音声技術の分野の進歩に繋がった。 しかし,近年,目立った結果が得られているが,視覚音声認識は依然として研究課題である。 聴覚的感覚を欠くことで、視覚的曖昧さやモデリングの沈黙の複雑さといった課題に直面しなければならない課題である。 それでも、これらの課題のいくつかは、話者依存の観点から問題にアプローチする場合に緩和することができる。 そこで本稿では, スペイン語のLIP-RTVEデータベースを用いて, 特定の人物に対するエンド・ツー・エンドシステムの推定が音声認識の品質に与える影響について検討する。 まず、微調整技術に基づく異なる適応戦略を提案した。 そして,本実験のベースラインとして,事前学習したCTC/Attentionアーキテクチャを使用した。 その結果、vsrシステムがタスクドメインに最初に適応する2段階の微調整プロセスが話者適応に対処した際に大きな改善をもたらした。 さらに、限られた量のデータしか入手できなかった場合でも、現在の芸術水準に匹敵する結果が得られた。

Different studies have shown the importance of visual cues throughout the speech perception process. In fact, the development of audiovisual approaches has led to advances in the field of speech technologies. However, although noticeable results have recently been achieved, visual speech recognition remains an open research problem. It is a task in which, by dispensing with the auditory sense, challenges such as visual ambiguities and the complexity of modeling silence must be faced. Nonetheless, some of these challenges can be alleviated when the problem is approached from a speaker-dependent perspective. Thus, this paper studies, using the Spanish LIP-RTVE database, how the estimation of specialized end-to-end systems for a specific person could affect the quality of speech recognition. First, different adaptation strategies based on the fine-tuning technique were proposed. Then, a pre-trained CTC/Attention architecture was used as a baseline throughout our experiments. Our findings showed that a two-step fine-tuning process, where the VSR system is first adapted to the task domain, provided significant improvements when the speaker adaptation was addressed. Furthermore, results comparable to the current state of the art were reached even when only a limited amount of data was available.
翻訳日:2023-11-23 01:19:44 公開日:2023-11-21
# Fin-QD: MAPエリートと高忠実FEMを統合するソフトグリッパーのための計算設計フレームワーク

Fin-QD: A Computational Design Framework for Soft Grippers: Integrating MAP-Elites and High-fidelity FEM ( http://arxiv.org/abs/2311.12477v1 )

ライセンス: Link先を確認
Yue Xie, Xing Wang, Fumiya Iida, David Howard(参考訳) 計算設計は、材料、構造、接触から高度に非線形であるという欠点を持つソフトロボティクスの可能性を最大限に発揮することができる。 これまで、個々の柔らかい指に対して熱心に研究の関心が示されてきたが、フレームデザイン空間(各軟らかい指の組み立て方)はいまだに明らかにされていない。 指ベースのソフトグリッパーは、複数の幾何学的特徴を持つオブジェクトタイプをうまく握ることが難しい。 グリップフレームの設計空間を含むと、高次元設計空間の指数的成長により、従来の最適化アルゴリズムや適合度計算法に大きな困難が生じる。 本研究は, 幾何学的に異なる物体タイプを個々に把握するために, グリッパーの多様性を生成する自動計算設計最適化フレームワークを提案する。 本研究はまず, 指を用いたソフトグリッパーの設計空間(28設計パラメータ)について検討し, 個々のソフトフィンガーを配置するために, 様々な形状に変換されるフィンガー配置の稀な設計空間について考察した。 そして, 接触型有限要素モデリング(FEM)をSOFAに提案し, 適合度評価と特徴量測定のための高忠実度把握データを出力する。 最後に、グリッパーのボリュームやワークスペースなどの特徴を考慮しながら、フレームワークから多様なグリッパー設計を得る。 この研究は、指ベースのソフトグリッパーの広大なデザイン空間を計算的に探究するギャップを埋めると同時に、単純な制御方式で大きな幾何学的に異なるオブジェクトタイプを把握している。

Computational design can excite the full potential of soft robotics that has the drawbacks of being highly nonlinear from material, structure, and contact. Up to date, enthusiastic research interests have been demonstrated for individual soft fingers, but the frame design space (how each soft finger is assembled) remains largely unexplored. Computationally design remains challenging for the finger-based soft gripper to grip across multiple geometrical-distinct object types successfully. Including the design space for the gripper frame can bring huge difficulties for conventional optimisation algorithms and fitness calculation methods due to the exponential growth of high-dimensional design space. This work proposes an automated computational design optimisation framework that generates gripper diversity to individually grasp geometrically distinct object types based on a quality-diversity approach. This work first discusses a significantly large design space (28 design parameters) for a finger-based soft gripper, including the rarely-explored design space of finger arrangement that is converted to various configurations to arrange individual soft fingers. Then, a contact-based Finite Element Modelling (FEM) is proposed in SOFA to output high-fidelity grasping data for fitness evaluation and feature measurements. Finally, diverse gripper designs are obtained from the framework while considering features such as the volume and workspace of grippers. This work bridges the gap of computationally exploring the vast design space of finger-based soft grippers while grasping large geometrically distinct object types with a simple control scheme.
翻訳日:2023-11-23 01:19:28 公開日:2023-11-21
# MaskFlow: オブジェクト認識モーション推定

MaskFlow: Object-Aware Motion Estimation ( http://arxiv.org/abs/2311.12476v1 )

ライセンス: Link先を確認
Aria Ahmadi, David R. Walton, Tim Atherton, Cagatay Dikici(参考訳) 本研究では,小さな物体や大きな変位,急激な外観変化を伴っても,正確な運動場を推定できる新しい動き推定手法MaskFlowを提案する。 他のディープニューラルネットワーク(DNN)ベースのモーション推定手法で使用される低レベルの機能に加えて、MaskFlowはオブジェクトレベルの機能やセグメンテーションから引き出される。 これらの特徴とセグメンテーションは、オブジェクトの翻訳運動場を近似するために使用される。 そこで本研究では,不完全翻訳運動場をその後の動作推定ネットワークに組み込んで改良・完成する手法を提案する。 また,動き場グラウンド真理を用いた新しい挑戦的合成データセットを作成し,オブジェクト・インスタンスマッチングと対応するセグメンテーションマスクに余分な基礎的真理を提供する。 MaskFlowは、私たちの新しい挑戦的なデータセットで評価した場合、一般的なFlyingThings3Dベンチマークデータセットで同等の結果を生成しながら、アートメソッドの状態を上回ります。

We introduce a novel motion estimation method, MaskFlow, that is capable of estimating accurate motion fields, even in very challenging cases with small objects, large displacements and drastic appearance changes. In addition to lower-level features, that are used in other Deep Neural Network (DNN)-based motion estimation methods, MaskFlow draws from object-level features and segmentations. These features and segmentations are used to approximate the objects' translation motion field. We propose a novel and effective way of incorporating the incomplete translation motion field into a subsequent motion estimation network for refinement and completion. We also produced a new challenging synthetic dataset with motion field ground truth, and also provide extra ground truth for the object-instance matchings and corresponding segmentation masks. We demonstrate that MaskFlow outperforms state of the art methods when evaluated on our new challenging dataset, whilst still producing comparable results on the popular FlyingThings3D benchmark dataset.
翻訳日:2023-11-23 01:19:00 公開日:2023-11-21
# PhayaThaiBERT:未同義語による事前訓練されたタイ語モデルの実現

PhayaThaiBERT: Enhancing a Pretrained Thai Language Model with Unassimilated Loanwords ( http://arxiv.org/abs/2311.12475v1 )

ライセンス: Link先を確認
Panyut Sriwirote, Jalinee Thapiang, Vasan Timtong, Attapol T. Rutherford(参考訳) wangchanbertaはトランスフォーマーベースのタイ語モデリングのデファクトスタンダードとなっているが、外国語の理解に関してはまだ欠点があり、特に英語の単語は多くの文脈でタイ語に正書法を同化せずに借用されることが多い。 我々は,WangchanBERTaのトークン化器における外来語彙の欠如を,これらの欠点の主な原因としている。 次に,WangchanBERTa の語彙を XLM-R の事前学習トークン化器からの語彙転送により拡張し,WangchanBERTa のチェックポイントから始まる拡張トークン化器を用いて,WangchanBERTa のトレーニングに用いるものよりも大きいデータセットに事前学習する。 以上の結果から,新しい事前学習モデルであるPhayaThaiBERTは,WangchanBERTaを多くの下流タスクやデータセットで上回っていることがわかった。

While WangchanBERTa has become the de facto standard in transformer-based Thai language modeling, it still has shortcomings in regard to the understanding of foreign words, most notably English words, which are often borrowed without orthographic assimilation into Thai in many contexts. We identify the lack of foreign vocabulary in WangchanBERTa's tokenizer as the main source of these shortcomings. We then expand WangchanBERTa's vocabulary via vocabulary transfer from XLM-R's pretrained tokenizer and pretrain a new model using the expanded tokenizer, starting from WangchanBERTa's checkpoint, on a new dataset that is larger than the one used to train WangchanBERTa. Our results show that our new pretrained model, PhayaThaiBERT, outperforms WangchanBERTa in many downstream tasks and datasets.
翻訳日:2023-11-23 01:18:44 公開日:2023-11-21
# CSMeD:システム文献レビューのための自動サイテーションスクリーニングにおけるデータセットギャップのブリッジ

CSMeD: Bridging the Dataset Gap in Automated Citation Screening for Systematic Literature Reviews ( http://arxiv.org/abs/2311.12474v1 )

ライセンス: Link先を確認
Wojciech Kusa, Oscar E. Mendoza, Matthias Samwald, Petr Knoth, Allan Hanbury(参考訳) 体系的文献レビュー(SLR)は、科学的証拠の要約、合成、検証において重要な役割を果たす。 近年,SLRの関連研究の同定を自動化する機械学習技術への関心が高まっている。 しかし、標準化された評価データセットがないため、このような自動文献検定システムの性能の比較は困難である。 本稿では,引用スクリーニング評価データセットを分析し,利用可能なデータセットの多くは小さすぎるか,データ漏洩に苦しむか,あるいは検索や質問応答タスクなどとは対照的に,自動文学スクリーニングを分類タスクとして扱うシステムへの適用性が限られていることを明らかにした。 これらの課題に対処するため、CSMeDは9つの公開コレクションを統合し、医学とコンピュータ科学の分野から325個のSLRにアクセスできるようにする。 CSMeDは自動引用スクリーニングモデルの性能を訓練し評価するための総合的なリソースとして機能する。 また,全文出版スクリーニングタスクを明示的に評価するための新しいデータセットcsmed-ftを提案する。 CSMeDの有用性を実証するため,実験を行い,新しいデータセットのベースラインを確立する。

Systematic literature reviews (SLRs) play an essential role in summarising, synthesising and validating scientific evidence. In recent years, there has been a growing interest in using machine learning techniques to automate the identification of relevant studies for SLRs. However, the lack of standardised evaluation datasets makes comparing the performance of such automated literature screening systems difficult. In this paper, we analyse the citation screening evaluation datasets, revealing that many of the available datasets are either too small, suffer from data leakage or have limited applicability to systems treating automated literature screening as a classification task, as opposed to, for example, a retrieval or question-answering task. To address these challenges, we introduce CSMeD, a meta-dataset consolidating nine publicly released collections, providing unified access to 325 SLRs from the fields of medicine and computer science. CSMeD serves as a comprehensive resource for training and evaluating the performance of automated citation screening models. Additionally, we introduce CSMeD-FT, a new dataset designed explicitly for evaluating the full text publication screening task. To demonstrate the utility of CSMeD, we conduct experiments and establish baselines on new datasets.
翻訳日:2023-11-23 01:18:25 公開日:2023-11-21
# 時空間シフトに対する自己監督的デコンウンディング:理論とモデリング

Self-Supervised Deconfounding Against Spatio-Temporal Shifts: Theory and Modeling ( http://arxiv.org/abs/2311.12472v1 )

ライセンス: Link先を確認
Jiahao Ji, Wentao Zhang, Jingyuan Wang, Yue He and Chao Huang(参考訳) 時空間(ST)データの重要な応用として,ST交通予測は都市交通効率の向上と持続可能な開発を促進する上で重要な役割を担っている。 実際には、交通データのダイナミクスは、時間進化や空間差といった外部要因に起因する分布シフトを頻繁に行う。 これは、テストデータがトレーニングデータと異なる方法で分散されるOOD(out-of-distriion)問題を扱うための予測モデルを必要とする。 本研究では,過去の交通データ,将来の交通データ,外部STコンテキストの因果グラフを構築することにより,まず問題を定式化する。 oodトラヒックデータの先行技術が失敗した原因は、stコンテクストが共同設立者、すなわち過去のデータと将来のデータに共通する原因として作用するためである。 そこで我々は、因果レンズからDCA(Disentangled Contextual Adjustment)という理論解を提案する。 これは変種スプリアスと不変因果相関を区別し、stコンテクストの効果を解消する。 さらに,STEVE(Spatio-Temporal sElf-superVised dEconfounding)フレームワークを考案した。 まず、トラフィックデータを2つの不等角表現にエンコードし、不変および変種stコンテキストを関連付ける。 次に,3つの概念的に異なる視点(時間,空間,意味)から表されるSTコンテキストを自己教師信号として使用し,両表現に文脈情報を注入する。 このようにして、OODSTトラフィック予測に対する学習コンテキスト指向表現の一般化能力を向上させる。 4つの大規模なベンチマークデータセットに関する総合的な実験により、STEVEは様々なST OODシナリオにおける最先端のベースラインを一貫して上回ります。

As an important application of spatio-temporal (ST) data, ST traffic forecasting plays a crucial role in improving urban travel efficiency and promoting sustainable development. In practice, the dynamics of traffic data frequently undergo distributional shifts attributed to external factors such as time evolution and spatial differences. This entails forecasting models to handle the out-of-distribution (OOD) issue where test data is distributed differently from training data. In this work, we first formalize the problem by constructing a causal graph of past traffic data, future traffic data, and external ST contexts. We reveal that the failure of prior arts in OOD traffic data is due to ST contexts acting as a confounder, i.e., the common cause for past data and future ones. Then, we propose a theoretical solution named Disentangled Contextual Adjustment (DCA) from a causal lens. It differentiates invariant causal correlations against variant spurious ones and deconfounds the effect of ST contexts. On top of that, we devise a Spatio-Temporal sElf-superVised dEconfounding (STEVE) framework. It first encodes traffic data into two disentangled representations for associating invariant and variant ST contexts. Then, we use representative ST contexts from three conceptually different perspectives (i.e., temporal, spatial, and semantic) as self-supervised signals to inject context information into both representations. In this way, we improve the generalization ability of the learned context-oriented representations to OOD ST traffic forecasting. Comprehensive experiments on four large-scale benchmark datasets demonstrate that our STEVE consistently outperforms the state-of-the-art baselines across various ST OOD scenarios.
翻訳日:2023-11-23 01:18:07 公開日:2023-11-21
# スペイン語連続読唇における視覚特徴の分析

Analysis of Visual Features for Continuous Lipreading in Spanish ( http://arxiv.org/abs/2311.12468v1 )

ライセンス: Link先を確認
David Gimeno-G\'omez, Carlos-D. Mart\'inez-Hinarejos(参考訳) 会話の間、私たちの脳は、知覚しているメッセージを理解する能力を向上させるために、複数の感覚から得られる情報を組み合わせる責任を負います。 異なる研究は、これらの状況において視覚情報を提示することの重要性を示している。 それでも、リップリーディングは、音声が利用できないときに音声を解釈することを目的とした複雑なタスクである。 聴力と同じくらい重要な感覚を欠くことによって、この欠如が生ずる課題に気付く必要がある。 本稿では, 自然スペイン語における唇運動の特徴を捉えるための最善のアプローチとして, 視覚的特徴を識別する目的で, 音声の視覚的特徴の分析を行い, 自動音声認識の課題に対処する。 本稿では, RTVEデータベースのサブセットから編集した音声視覚コーパスをAlbayz\'in評価に用いた。 ガウス混合モデルを用いた隠れマルコフモデルに基づく従来のシステムを用いる。 その結果、タスクは難しいが、限定された条件下では、固有リップと深い特徴の組み合わせが最良の視覚的アプローチであると判断する認識結果が得られる。

During a conversation, our brain is responsible for combining information obtained from multiple senses in order to improve our ability to understand the message we are perceiving. Different studies have shown the importance of presenting visual information in these situations. Nevertheless, lipreading is a complex task whose objective is to interpret speech when audio is not available. By dispensing with a sense as crucial as hearing, it will be necessary to be aware of the challenge that this lack presents. In this paper, we propose an analysis of different speech visual features with the intention of identifying which of them is the best approach to capture the nature of lip movements for natural Spanish and, in this way, dealing with the automatic visual speech recognition task. In order to estimate our system, we present an audiovisual corpus compiled from a subset of the RTVE database, which has been used in the Albayz\'in evaluations. We employ a traditional system based on Hidden Markov Models with Gaussian Mixture Models. Results show that, although the task is difficult, in restricted conditions we obtain recognition results which determine that using eigenlips in combination with deep features is the best visual approach.
翻訳日:2023-11-23 01:17:43 公開日:2023-11-21
# glad: 大きなドメインギャップを持つ教師なしビデオドメイン適応のためのグローバルローカルビューアライメントと背景デバイアス

GLAD: Global-Local View Alignment and Background Debiasing for Unsupervised Video Domain Adaptation with Large Domain Gap ( http://arxiv.org/abs/2311.12467v1 )

ライセンス: Link先を確認
Hyogun Lee, Kyungho Bae, Seongjong Ha, Yumin Ko, Gyeongmoon Park, Jinwoo Choi(参考訳) 本研究では,動作認識のための教師なしビデオドメイン適応(UVDA)の課題に対処する。 既存の作業は、ラベル付きソースドメインとラベルなしターゲットドメインの間の小さなドメインギャップを主に扱うのとは対照的です。 より現実的な設定を確立するために,時間的ダイナミクスと背景シフトの両面において,領域差がかなり大きい,Kineetics->BABELと呼ばれる新しいUVDAシナリオを導入する。 震源領域と対象領域の動作持続時間差といった時間的変化に対処するため,グローバル・ローカル・ビューアライメントアプローチを提案する。 背景変化を軽減するため,時間順学習による時間順センシティブな表現と,背景拡張による背景不変表現を提案する。 本研究では,提案手法がKineetics->BABELデータセットの領域ギャップが大きい既存手法よりも大幅に改善されていることを実証的に検証した。 コードはhttps://github.com/KHUVLL/GLADで公開されている。

In this work, we tackle the challenging problem of unsupervised video domain adaptation (UVDA) for action recognition. We specifically focus on scenarios with a substantial domain gap, in contrast to existing works primarily deal with small domain gaps between labeled source domains and unlabeled target domains. To establish a more realistic setting, we introduce a novel UVDA scenario, denoted as Kinetics->BABEL, with a more considerable domain gap in terms of both temporal dynamics and background shifts. To tackle the temporal shift, i.e., action duration difference between the source and target domains, we propose a global-local view alignment approach. To mitigate the background shift, we propose to learn temporal order sensitive representations by temporal order learning and background invariant representations by background augmentation. We empirically validate that the proposed method shows significant improvement over the existing methods on the Kinetics->BABEL dataset with a large domain gap. The code is available at https://github.com/KHUVLL/GLAD.
翻訳日:2023-11-23 01:17:24 公開日:2023-11-21
# 知識グラフスキーマの収集,解析,埋め込みのためのゲートウェイを目指して

Towards a Gateway for Knowledge Graph Schemas Collection, Analysis, and Embedding ( http://arxiv.org/abs/2311.12465v1 )

ライセンス: Link先を確認
Mattia Fumagalli, Marco Boffo, Daqian Shi, Mayukh Bagchi and Fausto Giunchiglia(参考訳) 知識グラフ上の統計モデルのトレーニングにおいて重要な障壁の1つは、科学者が予測目標を達成するのに最適な入力データを見つけるのが困難であることである。 これに加えて、重要な課題は、学習プロセスを可能にするために、特定の三重項(主題、述語、オブジェクト)の形にあるこれらの関係データをどのように操作するかを決定することである。 現在、多くの知識グラフの高品質カタログが利用可能である。 しかし、彼らの主な目標は、セマンティックウェブの文脈において、これらのリソースの再使用可能性とそれらの相互接続である。 本稿では,liveschemaイニシアチブ,すなわち,オントロジーやナレッジグラフなどのリレーショナルデータを収集する既存のカタログで収集されたデータの金鉱山を活用するための主要なスコープを持つゲートウェイの最初のバージョンについて述べる。 現在、LiveSchemaには4つの主要なソースから1000のデータセットが含まれており、いくつかの重要な機能を提供している。 i) 他のソースカタログ及びリポジトリを入力ソースとして集約することにより、LiveSchemaを進化させる。 二 収集したすべての資源を照会すること。 三 各データセットを解析及び可視化サービスを可能にする形式的概念分析行列に変換すること。 四 各データセットからモデル及びテンソルを生成すること。

One of the significant barriers to the training of statistical models on knowledge graphs is the difficulty that scientists have in finding the best input data to address their prediction goal. In addition to this, a key challenge is to determine how to manipulate these relational data, which are often in the form of particular triples (i.e., subject, predicate, object), to enable the learning process. Currently, many high-quality catalogs of knowledge graphs, are available. However, their primary goal is the re-usability of these resources, and their interconnection, in the context of the Semantic Web. This paper describes the LiveSchema initiative, namely, a first version of a gateway that has the main scope of leveraging the gold mine of data collected by many existing catalogs collecting relational data like ontologies and knowledge graphs. At the current state, LiveSchema contains - 1000 datasets from 4 main sources and offers some key facilities, which allow to: i) evolving LiveSchema, by aggregating other source catalogs and repositories as input sources; ii) querying all the collected resources; iii) transforming each given dataset into formal concept analysis matrices that enable analysis and visualization services; iv) generating models and tensors from each given dataset.
翻訳日:2023-11-23 01:17:06 公開日:2023-11-21
# HiFi-Syn:階層的粒度識別による構造保存型MR画像の高忠実合成

HiFi-Syn: Hierarchical Granularity Discrimination for High-Fidelity Synthesis of MR Images with Structure Preservation ( http://arxiv.org/abs/2311.12461v1 )

ライセンス: Link先を確認
Ziqi Yu, Botao Zhao, Shengjie Zhang, Xiang Chen, Jianfeng Feng, Tingying Peng, Xiao-Yong Zhang(参考訳) 医用画像の合成と構造情報の保存は医学研究において重要である。 このような場合、解剖学的内容の保存が特に重要となる。 近年, 翻訳指導にインスタンスレベルの情報を導入することで, 構造レベルの表現の空間的コヒーレンスや翻訳中の内容の解剖的不変性を見落としている。 これらの課題に対処するために,医用画像に現れる様々な意味情報を活用する階層的粒度識別を導入する。 脳メモリバンクを用いたピクセルレベルの識別、各脳構造における構造レベルの識別、ハードサンプルにフォーカスする再重み付け戦略、翻訳中の解剖学的一貫性を確保するためのグローバルレベルの識別の3つのレベルを用いる。 我々の戦略の画像翻訳性能は3つの独立したデータセット(uk biobank, ixi, brats 2018)で評価され、最先端アルゴリズムよりも優れています。 特に,脳腫瘍などの異常な(病理)構造を扱う上では,腫瘍の病理的特徴から異なる画像形態のコントラストが異なるにもかかわらず,本モデルが優れている。 脳腫瘍を含むMR画像の診断値は放射線医によって評価されている。 以上より, 本モデルは, 患者の特定のmrモードが使用できないシナリオにおいて, 代替案を提供する可能性が示唆された。 本手法の汎用性をさらに実証し,医用画像翻訳に関するユニークな知見を提供する。

Synthesizing medical images while preserving their structural information is crucial in medical research. In such scenarios, the preservation of anatomical content becomes especially important. Although recent advances have been made by incorporating instance-level information to guide translation, these methods overlook the spatial coherence of structural-level representation and the anatomical invariance of content during translation. To address these issues, we introduce hierarchical granularity discrimination, which exploits various levels of semantic information present in medical images. Our strategy utilizes three levels of discrimination granularity: pixel-level discrimination using a Brain Memory Bank, structure-level discrimination on each brain structure with a re-weighting strategy to focus on hard samples, and global-level discrimination to ensure anatomical consistency during translation. The image translation performance of our strategy has been evaluated on three independent datasets (UK Biobank, IXI, and BraTS 2018), and it has outperformed state-of-the-art algorithms. Particularly, our model excels not only in synthesizing normal structures but also in handling abnormal (pathological) structures, such as brain tumors, despite the variations in contrast observed across different imaging modalities due to their pathological characteristics. The diagnostic value of synthesized MR images containing brain tumors has been evaluated by radiologists. This indicates that our model may offer an alternative solution in scenarios where specific MR modalities of patients are unavailable. Extensive experiments further demonstrate the versatility of our method, providing unique insights into medical image translation.
翻訳日:2023-11-23 01:16:47 公開日:2023-11-21
# LIP-RTVE: 野生における連続スペイン語のオーディオヴィジュアルデータベース

LIP-RTVE: An Audiovisual Database for Continuous Spanish in the Wild ( http://arxiv.org/abs/2311.12457v1 )

ライセンス: Link先を確認
David Gimeno-G\'omez, Carlos-D. Mart\'inez-Hinarejos(参考訳) 音声は、聴覚と視覚が2つの基本柱であるマルチモーダルプロセスと見なされる。 実際、音声と視覚手がかりを組み合わせて音声の性質を表現することにより、自動音声認識システムのロバスト性が向上することを示す研究がいくつかある。 さらに、話者の唇を読むことによって音声を解釈することを目的としたオープンな研究課題である視覚音声認識が、ここ数十年の関心を集めてきた。 それでも、これらのシステムを現在のディープラーニング時代に推定するには、大規模なデータベースが必要である。 一方で、これらのデータベースのほとんどは英語専用ですが、他の言語には十分なリソースがありません。 そこで本稿では,スペイン語テレビから抽出した13時間分のデータを提供する,半自動注釈付き音声視覚データベースを提案する。 さらに、音声技術の分野で広く使われている伝統的なパラダイムである隠れマルコフモデルを用いて、話者に依存しないシナリオと話者に依存しないシナリオのベースライン結果が報告される。

Speech is considered as a multi-modal process where hearing and vision are two fundamentals pillars. In fact, several studies have demonstrated that the robustness of Automatic Speech Recognition systems can be improved when audio and visual cues are combined to represent the nature of speech. In addition, Visual Speech Recognition, an open research problem whose purpose is to interpret speech by reading the lips of the speaker, has been a focus of interest in the last decades. Nevertheless, in order to estimate these systems in the currently Deep Learning era, large-scale databases are required. On the other hand, while most of these databases are dedicated to English, other languages lack sufficient resources. Thus, this paper presents a semi-automatically annotated audiovisual database to deal with unconstrained natural Spanish, providing 13 hours of data extracted from Spanish television. Furthermore, baseline results for both speaker-dependent and speaker-independent scenarios are reported using Hidden Markov Models, a traditional paradigm that has been widely used in the field of Speech Technologies.
翻訳日:2023-11-23 01:16:21 公開日:2023-11-21
# 学習前向き演算子の逆問題

Inverse Problems with Learned Forward Operators ( http://arxiv.org/abs/2311.12528v1 )

ライセンス: Link先を確認
Simon Arridge, Andreas Hauptmann, Yury Korolev(参考訳) 逆問題を解くにはフォワード演算子の知識が必要であるが、正確なモデルは計算コストが高いため、再構成品質を損なうことのない安価な変種が望まれる。 本章は、2つの異なるパラダイムに従う学習前方演算子による逆問題における再構成手法についてレビューする。 最初のものはフォワードオペレータには完全に依存せず、トレーニングデータにまたがるサブスペースへの制限を学習する。 投影による正規化の枠組みは、再構成を見つけるために使われる。 2つ目は、測定プロセスの物理の単純化されたモデルを使用し、モデルの修正を学ぶためにトレーニングデータのみに依存する。 これら2つのアプローチの理論を数値的に比較する。 どちらのメソッドも、フォワードオペレータだけでなく、そのアジョイントにもトレーニングデータを必要としたり、あるいは恩恵を受けたりします。

Solving inverse problems requires knowledge of the forward operator, but accurate models can be computationally expensive and hence cheaper variants are desired that do not compromise reconstruction quality. This chapter reviews reconstruction methods in inverse problems with learned forward operators that follow two different paradigms. The first one is completely agnostic to the forward operator and learns its restriction to the subspace spanned by the training data. The framework of regularisation by projection is then used to find a reconstruction. The second one uses a simplified model of the physics of the measurement process and only relies on the training data to learn a model correction. We present the theory of these two approaches and compare them numerically. A common theme emerges: both methods require, or at least benefit from, training data not only for the forward operator, but also for its adjoint.
翻訳日:2023-11-23 01:07:27 公開日:2023-11-21
# 勾配降下によるニューラルネットワークのプルーニング

Neural Network Pruning by Gradient Descent ( http://arxiv.org/abs/2311.12526v1 )

ライセンス: Link先を確認
Zhang Zhang, Ruyi Tao, Jiang Zhang(参考訳) ディープラーニングモデルのパラメータの急速な増加は、かなりのコストと計算効率の挑戦、モデルの解釈可能性を生み出した。 本稿では,gumbel-softmax手法を応用した,新規で分かりやすいニューラルネットワークプルーニングフレームワークを提案する。 このフレームワークは、確率的勾配降下を用いたエンドツーエンドプロセスにおけるネットワークの重みとトポロジーの同時最適化を可能にする。 実験的な結果は、その例外的な圧縮能力を示し、元のネットワークパラメータの0.15倍の精度でMNISTデータセットを高い精度で維持する。 さらに,本フレームワークは,プルーニングネットワークから直接特徴重要度を抽出するだけでなく,特徴対称性の可視化や特徴から結果への情報伝達の経路を可視化することで,ニューラルネットワークの解釈可能性を向上させる。 プルーニング戦略はディープラーニングを通じて学習されるが、重要な特徴の選択とデータパターンの活用に重点を置いて、驚くほど直感的で理解しやすい。 我々は,ディープラーニングプルーニングと解釈可能な機械学習システム構築のための,有望な新たな道を開くと信じている。

The rapid increase in the parameters of deep learning models has led to significant costs, challenging computational efficiency and model interpretability. In this paper, we introduce a novel and straightforward neural network pruning framework that incorporates the Gumbel-Softmax technique. This framework enables the simultaneous optimization of a network's weights and topology in an end-to-end process using stochastic gradient descent. Empirical results demonstrate its exceptional compression capability, maintaining high accuracy on the MNIST dataset with only 0.15\% of the original network parameters. Moreover, our framework enhances neural network interpretability, not only by allowing easy extraction of feature importance directly from the pruned network but also by enabling visualization of feature symmetry and the pathways of information propagation from features to outcomes. Although the pruning strategy is learned through deep learning, it is surprisingly intuitive and understandable, focusing on selecting key representative features and exploiting data patterns to achieve extreme sparse pruning. We believe our method opens a promising new avenue for deep learning pruning and the creation of interpretable machine learning systems.
翻訳日:2023-11-23 01:07:15 公開日:2023-11-21
# ALPHA:大規模言語モデルを用いた異常な生理的健康評価

ALPHA: AnomaLous Physiological Health Assessment Using Large Language Models ( http://arxiv.org/abs/2311.12524v1 )

ライセンス: Link先を確認
Jiankai Tang, Kegang Wang, Hongming Hu, Xiyuxing Zhang, Peiyu Wang, Xin Liu, Yuntao Wang(参考訳) 本研究は,医療におけるLarge Language Models(LLMs)の有効性を評価することに集中し,個人的異常な健康モニタリングへの応用に焦点を当てた。 本研究は主に,fda承認装置から得られた生理的データの解釈と解析におけるllmの能力について検討する。 低気圧高原シミュレーション環境における異常な生理的データを用いた大規模解析を行った。 これにより,LCMの精度と信頼性を,ユーザの健康状態の理解・評価に役立てることができる。 その結果, 平均絶対誤差(MAE)は心拍数1回未満, 酸素飽和度(SpO2)は1%未満であった。 さらに,これらの評価に対する平均絶対的パーセンテージ誤差(MAPE)は1%以下であり,健康評価の総合的精度は85%を超えた。 光胸腺撮影(PPG)データを解釈するなどの画像解析タスクにおいて, 特化GPTモデルでは, サイクル数1bpm未満の誤差, 心拍推定7.28 MAEの精度が顕著であった。 本研究は、高度なaiヘルスアシスタントにおけるllmsの健康データ分析ツールと重要な要素としての役割を強調し、将来のヘルスアシスタントフレームワークでパーソナライズされた健康洞察と推奨を提供する。

This study concentrates on evaluating the efficacy of Large Language Models (LLMs) in healthcare, with a specific focus on their application in personal anomalous health monitoring. Our research primarily investigates the capabilities of LLMs in interpreting and analyzing physiological data obtained from FDA-approved devices. We conducted an extensive analysis using anomalous physiological data gathered in a simulated low-air-pressure plateau environment. This allowed us to assess the precision and reliability of LLMs in understanding and evaluating users' health status with notable specificity. Our findings reveal that LLMs exhibit exceptional performance in determining medical indicators, including a Mean Absolute Error (MAE) of less than 1 beat per minute for heart rate and less than 1% for oxygen saturation (SpO2). Furthermore, the Mean Absolute Percentage Error (MAPE) for these evaluations remained below 1%, with the overall accuracy of health assessments surpassing 85%. In image analysis tasks, such as interpreting photoplethysmography (PPG) data, our specially adapted GPT models demonstrated remarkable proficiency, achieving less than 1 bpm error in cycle count and 7.28 MAE for heart rate estimation. This study highlights LLMs' dual role as health data analysis tools and pivotal elements in advanced AI health assistants, offering personalized health insights and recommendations within the future health assistant framework.
翻訳日:2023-11-23 01:07:00 公開日:2023-11-21
# テキスト処理による表データの分類

Classification of Tabular Data by Text Processing ( http://arxiv.org/abs/2311.12521v1 )

ライセンス: Link先を確認
Keshav Ramani, Daniel Borrajo(参考訳) 自然言語処理技術はこの10年で大きく進歩した。 テキスト処理は、様々なドメインにうまく適用されている。 本稿では,表データ上の分類課題を解決するために,最先端の技術テキスト処理技術を用いた新しいフレームワークであるtext based classification(tbc)を提案する。 我々は,本手法を他の分類法と比較した場合の利点を示す制御実験のセットを提供する。 いくつかのデータセットに対する実験結果から、このフレームワークは予測されたクラスの精度、精度、リコールにおいて、いくつかの最先端技術モデルと同等のパフォーマンスを達成することが示された。

Natural Language Processing technology has advanced vastly in the past decade. Text processing has been successfully applied to a wide variety of domains. In this paper, we propose a novel framework, Text Based Classification(TBC), that uses state of the art text processing techniques to solve classification tasks on tabular data. We provide a set of controlled experiments where we present the benefits of using this approach against other classification methods. Experimental results on several data sets also show that this framework achieves comparable performance to that of several state of the art models in accuracy, precision and recall of predicted classes.
翻訳日:2023-11-23 01:06:36 公開日:2023-11-21
# 2次元格子構造のためのT-depth 2 Toffoli ゲート

A T-depth two Toffoli gate for 2D square lattice architectures ( http://arxiv.org/abs/2311.12510v1 )

ライセンス: Link先を確認
Alexandru Paler, Evan E. Dobbs, Joseph S. Friedman(参考訳) 本稿ではトフォリゲートのクリフォード+T分解について述べる。 量子ビットの2次元正方格子上に実装するためにSWAPゲートは不要である。 この分解により、NISQとエラー修正アーキテクチャの両方において、より浅く、よりフォールトトレラントな量子計算が可能になる。 回路の導出を示し, sycamore のようなアーキテクチャ上での qubit マッピングについて述べる。

We present a novel Clifford+T decomposition of a Toffoli gate. Our decomposition requires no SWAP gates in order to be implemented on 2D square lattices of qubits. This decomposition enables shallower, more fault-tolerant quantum computations on both NISQ and error-corrected architectures. We present the derivation of the circuit, and illustrate the qubit mapping on a Sycamore-like architecture.
翻訳日:2023-11-23 01:06:28 公開日:2023-11-21
# 量子回路最適化の高速強化学習に向けて:指数リワード関数

Towards Faster Reinforcement Learning of Quantum Circuit Optimization: Exponential Reward Functions ( http://arxiv.org/abs/2311.12509v1 )

ライセンス: Link先を確認
Ioana Moflic and Alexandru Paler(参考訳) 量子回路の最適化のための強化学習では、探索空間の探索中に何が正しいのか、何が間違っているのかを決定する報酬関数の値の最大化を目標とするエージェントを使用する。 迅速かつ効率的な学習につながる報酬関数の定式化は、オープンな問題である。 本稿では,回路の構造特性に敏感な指数的報酬関数を提案する。 最適深度を持つ回路上での関数のベンチマークを行い、学習時間を短縮し、最適化を改善すると結論付けた。 私たちの結果は、量子回路の高速、大規模最適化に向けた次のステップです。

Reinforcement learning for the optimization of quantum circuits uses an agent whose goal is to maximize the value of a reward function that decides what is correct and what is wrong during the exploration of the search space. It is an open problem how to formulate reward functions that lead to fast and efficient learning. We propose an exponential reward function which is sensitive to structural properties of the circuit. We benchmark our function on circuits with known optimal depths, and conclude that our function is reducing the learning time and improves the optimization. Our results are a next step towards fast, large scale optimization of quantum circuits.
翻訳日:2023-11-23 01:06:22 公開日:2023-11-21
# 自動車産業におけるアジャイルシステムエンジニアリングへの継続的移行のためのフレームワーク

Framework for continuous transition to Agile Systems Engineering in the Automotive Industry ( http://arxiv.org/abs/2311.12502v1 )

ライセンス: Link先を確認
Jan Heine, Herbert Palm(参考訳) vuca(volatility, uncertainty, complexity and ambiguity)駆動環境内のプレッシャーの増加は、従来の計画駆動のシステムエンジニアリングアプローチをもはや不十分にさせる。 アジャイルはその後、成功しているシステム開発組織のために、“ニッチ・トゥ・ハヴ”から“マスト・ハヴ”の能力に変わりつつある。 しかし、現在の技術状況は、プロセス、メソッド、ツール、能力(pmtc)、および確立された業界における移行をうまく管理する方法について、このニーズをどのようにマッピングするか、明確な答えを提供していない。 本稿では,新たなアジリティ要求を満たすために,自動車産業のためのアジャイルシステムエンジニアリング(se)フレームワークを提案する。 この方法論の背景に加えて,ドイツの自動車メーカーであるシャシー開発部門におけるパイロットプロジェクトの成果を提示し,新たに提案する枠組みの有効性を実証する。 先に述べたagile seフレームワークを採用することで、企業は学習、継続的改善、自己情報ベースに基づくイノベーションとコラボレーションを育むことができる。

The increasing pressure within VUCA (volatility, uncertainty, complexity and ambiguity) driven environments causes traditional, plan-driven Systems Engineering approaches to no longer suffice. Agility is then changing from a "nice-to-have" to a "must-have" capability for successful system developing organisations. The current state of the art, however, does not provide clear answers on how to map this need in terms of processes, methods, tools and competencies (PMTC) and how to successfully manage the transition within established industries. In this paper, we propose an agile Systems Engineering (SE) Framework for the automotive industry to meet the new agility demand. In addition to the methodological background, we present results of a pilot project in the chassis development department of a German automotive manufacturer and demonstrate the effectiveness of the newly proposed framework. By adopting the described agile SE Framework, companies can foster innovation and collaboration based on a learning, continuous improvement and self-reinforcing base.
翻訳日:2023-11-23 01:06:12 公開日:2023-11-21
# fair polylog-approximate 階層クラスタリング

Fair Polylog-Approximate Low-Cost Hierarchical Clustering ( http://arxiv.org/abs/2311.12501v1 )

ライセンス: Link先を確認
Marina Knittel, Max Springer, John Dickerson, MohammadTaghi Hajiaghayi(参考訳) 現代のインテリジェントなシステムが生み出した多くの倫理的な議論を考えると、公正な機械学習、特にクラスタリングの研究は近年重要になっている。 アフマド人など。 2020年]ダスガプタの[2016]有名なコスト関数を最適化するアルゴリズムは、非常に理論的であったものの、有名なフラット関数のより強固で構造化された変種である \textit{hierarchical}クラスタリングにおける公平性の研究を確立した。 クニッテルとアル。 2023] では, コストに対する最初の実用的公平な近似を提案したが, 利害のハードルとなる多項式近似障壁を破ることができなかった。 この障壁を破って、最初の真の多対数近似のフェア階層的クラスタリングを提案し、最良のフェアとバニラ階層的クラスタリングのギャップを大きく橋渡しします。

Research in fair machine learning, and particularly clustering, has been crucial in recent years given the many ethical controversies that modern intelligent systems have posed. Ahmadian et al. [2020] established the study of fairness in \textit{hierarchical} clustering, a stronger, more structured variant of its well-known flat counterpart, though their proposed algorithm that optimizes for Dasgupta's [2016] famous cost function was highly theoretical. Knittel et al. [2023] then proposed the first practical fair approximation for cost, however they were unable to break the polynomial-approximate barrier they posed as a hurdle of interest. We break this barrier, proposing the first truly polylogarithmic-approximate low-cost fair hierarchical clustering, thus greatly bridging the gap between the best fair and vanilla hierarchical clustering approximations.
翻訳日:2023-11-23 01:05:54 公開日:2023-11-21
# 量子回路の効率的な強化学習のためのコスト爆発

Cost Explosion for Efficient Reinforcement Learning Optimisation of Quantum Circuits ( http://arxiv.org/abs/2311.12498v1 )

ライセンス: Link先を確認
Ioana Moflic and Alexandru Paler(参考訳) 量子回路の大規模最適化は計算上難しい問題である。 強化学習(rl)は、最適化エージェントの報酬を増やすことにより、量子回路を最適化するための学習戦略の最近のアプローチである。 この報酬は、ゲート数や量子ビット数、回路深さなどの量子回路コストの関数である。 我々のゴールは、エージェントの最適化戦略を改善することであり、量子回路を手動で最適化する方法のヒントを含めることである。 我々は、ベルンシュタイン-ヴァジラニ回路を用いて、この戦略の利点を支持する数値的証拠をもたらす。 結果は予備的であり, コスト爆発の許容は, 最適回路への到達など, rlトレーニングに重要な利点をもたらすことを示した。 コスト爆発戦略は、大規模量子回路最適化のRLに不可欠なツールとなる可能性がある。

Large scale optimisation of quantum circuits is a computationally challenging problem. Reinforcement Learning (RL) is a recent approach for learning strategies to optimise quantum circuits by increasing the reward of an optimisation agent. The reward is a function of the quantum circuit costs, such as gate and qubit counts, or circuit depth. Our goal is to improve the agent's optimization strategy, by including hints about how quantum circuits are optimized manually: there are situations when the cost of a circuit should be allowed to temporary explode, before applying optimisations which significantly reduce the circuit's cost. We bring numerical evidence, using Bernstein-Vazirani circuits, to support the advantage of this strategy. Our results are preliminary, and show that allowing cost explosions offers significant advantages for RL training, such as reaching optimum circuits. Cost explosion strategies have the potential to be an essential tool for RL of large-scale quantum circuit optimisation.
翻訳日:2023-11-23 01:05:36 公開日:2023-11-21
# 分解に基づく多目的強化学習:分類学と枠組み

Multi-Objective Reinforcement Learning based on Decomposition: A taxonomy and framework ( http://arxiv.org/abs/2311.12495v1 )

ライセンス: Link先を確認
Florian Felten and El-Ghazali Talbi and Gr\'egoire Danoy(参考訳) 多目的強化学習(MORL)は、対立する目的の間で異なる妥協を行う政策を求めることにより、従来のRLを拡張している。 近年のMORLへの関心の高まりは様々な研究や解法をもたらし、しばしば分解(MOO/D)に基づく多目的最適化における既存の知識から引き出された。 しかし、既存の文献では、RLとMOO/Dの両方に基づいた明確な分類が欠落している。 その結果、morlの研究者は、標準化された分類がないため、より広い文脈で貢献を分類しようとすると困難に陥る。 そこで本研究では,RLとMOOを橋渡しする新しい手法である分解に基づく多目的強化学習(MORL/D)を提案する。 MORL/Dの包括的分類法が提示され、既存のおよび潜在的なMORL作品の分類のための構造化された基盤を提供する。 導入された分類法は、MORLの研究を精査し、明確に分類することで明確さと簡潔さを高めるために用いられる。 さらに,分類から派生した柔軟な枠組みを導入する。 このフレームワークは、RLとMOO/Dの両方のツールを使用して、多様なインスタンス化を実現する。 様々な構成の実装は、その汎用性を示し、ベンチマーク問題に対して評価する。 その結果、MORL/Dのインスタンス化は、現在の最先端手法よりもはるかに高い汎用性で、同等の性能を達成できた。 分類と枠組みを提示することにより,本論文は総合的な視点とMORLの統一語彙を提供する。 これによりアルゴリズムによる貢献の特定が容易になるだけでなく、モルにおける新しい研究の道の基礎が築かれ、この分野の継続的な発展に寄与した。

Multi-objective reinforcement learning (MORL) extends traditional RL by seeking policies making different compromises among conflicting objectives. The recent surge of interest in MORL has led to diverse studies and solving methods, often drawing from existing knowledge in multi-objective optimization based on decomposition (MOO/D). Yet, a clear categorization based on both RL and MOO/D is lacking in the existing literature. Consequently, MORL researchers face difficulties when trying to classify contributions within a broader context due to the absence of a standardized taxonomy. To tackle such an issue, this paper introduces Multi-Objective Reinforcement Learning based on Decomposition (MORL/D), a novel methodology bridging RL and MOO literature. A comprehensive taxonomy for MORL/D is presented, providing a structured foundation for categorizing existing and potential MORL works. The introduced taxonomy is then used to scrutinize MORL research, enhancing clarity and conciseness through well-defined categorization. Moreover, a flexible framework derived from the taxonomy is introduced. This framework accommodates diverse instantiations using tools from both RL and MOO/D. Implementation across various configurations demonstrates its versatility, assessed against benchmark problems. Results indicate MORL/D instantiations achieve comparable performance with significantly greater versatility than current state-of-the-art approaches. By presenting the taxonomy and framework, this paper offers a comprehensive perspective and a unified vocabulary for MORL. This not only facilitates the identification of algorithmic contributions but also lays the groundwork for novel research avenues in MORL, contributing to the continued advancement of this field.
翻訳日:2023-11-23 01:05:20 公開日:2023-11-21
# 背景モジュロ観測における量子力学

Quantum Mechanics on a background modulo observation ( http://arxiv.org/abs/2311.12493v1 )

ライセンス: Link先を確認
Jose A. Pereira Frugone(参考訳) 背景の時空を観測領域や測定領域によってモジュラー化された空間に変換するとき、量子力学の何が残るのか? この新しいモジュライ空間は、量子位相比較(観測、測定)が示唆される時空領域を同定することによって構成される。 これを観測モジュール空間(OM-space)と呼ぶ。 さらに、qm文では、プランク定数 (h) を$\zeta_0 4 \pi^2$(ここで$\zeta_0$ はプランク長さ)に置き換え、$p_0$ (プランクモーメント) を$4 \pi^2$に置き換える。 これは量子力学を、観測モジュラ量子力学(OM-QM)と呼ばれる非常にリッチな双対数理論にマッピングする。 我々は、ディラック方程式、量子波動関数、自由粒子質量に対する OM-双対を求める。 エネルギーの OM-QM 対はリーマンゼータ函数の零点の単純函数であることが判明した。 また、om-qmは電子スピン、電子電荷、電界および微細構造定数に対応する。 また、ハイゼムベルクの不確かさ関係とアインシュタインの一般相対性場方程式のOM-QM対応式は、一意なOM-QM方程式の一定の極限として現れる。 また、重力定数と宇宙定数のOM-QM対応も得られる。 我々は、OM-QM側のホログラフィーのアナログを見つけ、スピンを高次元曲率として解釈する。 OM-QM対応の解釈は、測定や観測に依存しないQM情報の一部を与えるものとして提案される。 この対応の潜在的な将来の応用について論じる。

In this work we will answer the following question: What remains of Quantum Mechanics when we transform the background space-time into a space modularized by observation or measurement regions ? This new moduli space is constructed by identifying regions of space-time where quantum phase comparison (observation, measurement) is implied. We call it Observation Modular space (OM-space). In addition we replace in QM statements the Plank constant (h) by the quantity $\zeta_0 4 \pi^2$ (where $\zeta_0$ is the Plank Length) or otherwise, replacing $P_0$ (the Planck Momentum) by $4 \pi^2$. This maps Quantum Mechanics into a very rich dual Number Theory which we call Observation Modular Quantum Mechanics (OM-QM). We find the OM-dual to the Dirac Equation, the quantum Wave Function and a free particle's mass. The OM-QM counterparts of the Energy turns out to be a simple function of the zeroes of the Riemann zeta function. We also find the OM-QM correspondents to the electron spin, the electron charge, the Electric Field and the Fine Structure Constant. We also find the OM-QM correspondents of the Heisemberg uncertainty relation and Einstein's General Relativity Field equation emerging as certain limits of a unique OM-QM equation. We also get the OM-QM correspondents of the Gravitational Constant and the Cosmological Constant. We find the analog of holography in the OM-QM side and we get an interpretation of spin as a high dimensional curvature. An interpretation of the OM-QM correspondence is proposed as giving the part of QM information which is not measurement or observation dependent. Some potential future applications of this correspondence are discussed.
翻訳日:2023-11-23 01:04:55 公開日:2023-11-21
# BitcoinブロックチェーンにおけるCoinJoinトランザクション検出のためのヒューリスティックス

Heuristics for Detecting CoinJoin Transactions on the Bitcoin Blockchain ( http://arxiv.org/abs/2311.12491v1 )

ライセンス: Link先を確認
Hugo Schnoering, Michalis Vazirgiannis(参考訳) この研究は、分散ピアツーピアネットワークであるbitcoinと、その始まりからすべてのトランザクションを記録するその関連ブロックチェーンの複雑さに焦点を絞っている。 これは完全性と透明性を保証するが、Bitcoinの透明な性質はユーザーのプライバシーの権利を侵害する可能性がある。 この懸念に対処するために、ユーザはCoinJoinを採用した。CoinJoinは、複数のトランザクションインテントを単一の大きなトランザクションにマージして、トランザクションのプライバシを強化する方法だ。 このプロセスは個々のトランザクショントレースを複雑にし、確立された多くのブロックチェーン分析ヒューリスティックをディスラプトする。 その重要性にもかかわらず、コインジョイン取引の特定に関する限られた研究が行われている。 特に注目に値するのは、joinmarket、wasabi、whirlpoolなどの様々なcoinjoin実装で、それぞれがユニークなトランザクション構造のために異なる課題を呈している。 この研究は、これらのプロトコルのオープンソース実装に深く関わっており、ブロックチェーン上でトランザクションを識別するための洗練されたヒューリスティックスの開発を目指している。 当社の包括的な分析では、トランザクションを7万件までブロックし、CoinJoinトランザクションとそのBitcoinブロックチェーン分析への影響に関する包括的な洞察を提供しています。

This research delves into the intricacies of Bitcoin, a decentralized peer-to-peer network, and its associated blockchain, which records all transactions since its inception. While this ensures integrity and transparency, the transparent nature of Bitcoin potentially compromises users' privacy rights. To address this concern, users have adopted CoinJoin, a method that amalgamates multiple transaction intents into a single, larger transaction to bolster transactional privacy. This process complicates individual transaction tracing and disrupts many established blockchain analysis heuristics. Despite its significance, limited research has been conducted on identifying CoinJoin transactions. Particularly noteworthy are varied CoinJoin implementations such as JoinMarket, Wasabi, and Whirlpool, each presenting distinct challenges due to their unique transaction structures. This study delves deeply into the open-source implementations of these protocols, aiming to develop refined heuristics for identifying their transactions on the blockchain. Our exhaustive analysis covers transactions up to block 760,000, offering a comprehensive insight into CoinJoin transactions and their implications for Bitcoin blockchain analysis.
翻訳日:2023-11-23 01:04:22 公開日:2023-11-21
# Hyb-NeRF:ニューラルラジアンスフィールドのためのマルチレゾリューションハイブリッド符号化

Hyb-NeRF: A Multiresolution Hybrid Encoding for Neural Radiance Fields ( http://arxiv.org/abs/2311.12490v1 )

ライセンス: Link先を確認
Yifan Wang, Yi Gong and Yuan Zeng(参考訳) ニューラルレイディアンス場(NeRF)の最近の進歩は、新しいビュー合成のための高忠実なシーン再構築を可能にしている。 しかし、NeRFはボリュームレンダリング積分を近似するために1ピクセルあたり数百のネットワーク評価を必要とするため、訓練が遅くなる。 nerfを明示的なデータ構造にキャッシングすることは、レンダリング速度を効果的に向上させるが、メモリ使用率を高くする。 これらの問題に対処するために,高速なニューラルモデリングと高速レンダリングを実現し,高品質な新規ビュー合成を可能にする,マルチレゾリューションハイブリッド符号化を備えた新しいニューラルレイディアンス場であるHyb-NeRFを提案する。 Hyb-NeRFのキーとなるアイデアは、粗い解像度から細かな解像度まで、さまざまなエンコーディング戦略を用いてシーンを表現することである。 Hyb-NeRFは、粗い解像度でのメモリ効率の学習可能な位置特徴と、高速な最適化速度と微細な解像度でのハッシュベースの特徴グリッドの局所的な詳細を利用する。 さらに、性能をさらに向上するため、学習可能な位置符号化にコーントレースに基づく特徴を組み込み、エンコーディングの曖昧さを排除し、アーティファクトのエイリアスを低減する。 合成データセットと実世界のデータセットの大規模な実験により、Hyb-NeRFは従来の最先端手法と比較してレンダリング速度が速く、レンダリング品質が良く、メモリフットプリントも低いことが示されている。

Recent advances in Neural radiance fields (NeRF) have enabled high-fidelity scene reconstruction for novel view synthesis. However, NeRF requires hundreds of network evaluations per pixel to approximate a volume rendering integral, making it slow to train. Caching NeRFs into explicit data structures can effectively enhance rendering speed but at the cost of higher memory usage. To address these issues, we present Hyb-NeRF, a novel neural radiance field with a multi-resolution hybrid encoding that achieves efficient neural modeling and fast rendering, which also allows for high-quality novel view synthesis. The key idea of Hyb-NeRF is to represent the scene using different encoding strategies from coarse-to-fine resolution levels. Hyb-NeRF exploits memory-efficiency learnable positional features at coarse resolutions and the fast optimization speed and local details of hash-based feature grids at fine resolutions. In addition, to further boost performance, we embed cone tracing-based features in our learnable positional encoding that eliminates encoding ambiguity and reduces aliasing artifacts. Extensive experiments on both synthetic and real-world datasets show that Hyb-NeRF achieves faster rendering speed with better rending quality and even a lower memory footprint in comparison to previous state-of-the-art methods.
翻訳日:2023-11-23 01:04:02 公開日:2023-11-21
# アンカーと関連言語連鎖を用いた低リソース言語のための多言語単語埋め込み

Multilingual Word Embeddings for Low-Resource Languages using Anchors and a Chain of Related Languages ( http://arxiv.org/abs/2311.12489v1 )

ライセンス: Link先を確認
Viktor Hangya, Silvia Severini, Radoslav Ralev, Alexander Fraser, Hinrich Sch\"utze(参考訳) 数百万のトークンしか持たない非常に低リソースの言語は、品質の低い言語間ワード表現のため、多言語NLPアプローチでは十分にサポートされていない。 最近の研究は、ソース言語が低リソースターゲット言語と関連している場合、優れた言語間性能が得られることを示した。 しかし、すべての言語ペアが関連しているわけではない。 本稿では,言語連鎖に基づく新しい手法により,言語間関係の言語を組み込んだ多言語単語埋め込み(MWE)を構築することを提案する。 リソースの豊富なソースから始めて、ターゲットに到達するまで各言語をチェーンに順次追加することで、MWEを一度に1つの言語で構築します。 対象言語を多言語空間に固定することにより,従来の作品,すなわち独立に訓練された単言語埋め込みの主な弱点を取り除くために,半単言語アプローチを多言語に拡張する。 5mトークン)と4つの中程度の低リソース(<50m)ターゲット言語を含む4つの言語ファミリのバイリンガルレキシコン誘導法を評価し,両方のカテゴリで性能が向上した。 さらに,中間言語における高品質な組込みの重要性と,多言語空間におけるすべての言語からのアンカーポイントの活用の重要性について分析を行った。

Very low-resource languages, having only a few million tokens worth of data, are not well-supported by multilingual NLP approaches due to poor quality cross-lingual word representations. Recent work showed that good cross-lingual performance can be achieved if a source language is related to the low-resource target language. However, not all language pairs are related. In this paper, we propose to build multilingual word embeddings (MWEs) via a novel language chain-based approach, that incorporates intermediate related languages to bridge the gap between the distant source and target. We build MWEs one language at a time by starting from the resource rich source and sequentially adding each language in the chain till we reach the target. We extend a semi-joint bilingual approach to multiple languages in order to eliminate the main weakness of previous works, i.e., independently trained monolingual embeddings, by anchoring the target language around the multilingual space. We evaluate our method on bilingual lexicon induction for 4 language families, involving 4 very low-resource (<5M tokens) and 4 moderately low-resource (<50M) target languages, showing improved performance in both categories. Additionally, our analysis reveals the importance of good quality embeddings for intermediate languages as well as the importance of leveraging anchor points from all languages in the multilingual space.
翻訳日:2023-11-23 01:03:36 公開日:2023-11-21
# BEND:生物学的に意味のあるタスクに関するDNA言語モデルのベンチマーク

BEND: Benchmarking DNA Language Models on biologically meaningful tasks ( http://arxiv.org/abs/2311.12570v1 )

ライセンス: Link先を確認
Frederikke Isa Marin, Felix Teufel, Marc Horrender, Dennis Madsen, Dennis Pultz, Ole Winther, Wouter Boomsma(参考訳) ゲノム配列は、細胞プロセスを管理するための青写真を含む。 ゲノムの入手は過去数十年で大幅に増加したが、DNA配列にコードされる様々な機能的、非コード的、規制的要素の実験的なアノテーションは高価かつ困難である。 これは、タンパク質配列データに大きな成功を収めたパラダイムであるゲノムDNAの教師なし言語モデルへの関心を喚起した。 様々なdna言語モデルが提案されているが、評価タスクは個々の作品によって異なり、データの長さ、スケール、スパース性など、ゲノムアノテーションの基本的な課題を完全には再現できない。 本研究では,ヒトゲノム上に定義された現実的で生物学的に意味のある下流タスクの集合を特徴とする,DNA言語モデルのベンチマークであるBENDを紹介する。 現在のDNA LMからの埋め込みは、一部のタスクにおいて専門家メソッドのパフォーマンスにアプローチできるが、長距離機能に関する限られた情報しか取得できない。 BENDはhttps://github.com/frederikkemarin/BENDで入手できる。

The genome sequence contains the blueprint for governing cellular processes. While the availability of genomes has vastly increased over the last decades, experimental annotation of the various functional, non-coding and regulatory elements encoded in the DNA sequence remains both expensive and challenging. This has sparked interest in unsupervised language modeling of genomic DNA, a paradigm that has seen great success for protein sequence data. Although various DNA language models have been proposed, evaluation tasks often differ between individual works, and might not fully recapitulate the fundamental challenges of genome annotation, including the length, scale and sparsity of the data. In this study, we introduce BEND, a Benchmark for DNA language models, featuring a collection of realistic and biologically meaningful downstream tasks defined on the human genome. We find that embeddings from current DNA LMs can approach performance of expert methods on some tasks, but only capture limited information about long-range features. BEND is available at https://github.com/frederikkemarin/BEND.
翻訳日:2023-11-23 00:54:58 公開日:2023-11-21
# パーキンソン病における神経イメージングのための畳み込みニューラルネットワーク:前処理は必要か?

Convolutional Neural Networks for Neuroimaging in Parkinson's Disease: Is Preprocessing Needed? ( http://arxiv.org/abs/2311.12561v1 )

ライセンス: Link先を確認
Francisco J. Martinez-Murcia, Juan M. G\'orriz, Javier Ram\'irez and Andr\'es Ortiz(参考訳) 空間的および強度正規化は現在、神経画像解析の前提条件となっている。 これらの補正が鍵となるボクセルワイドや他の単変量比較の影響により、分析や画像のモダリティに一般的に適用される。 pet-fdgやfp-cit spectといったパーキンソン病の診断によく用いられる核画像モダリティは、特に強度正規化に依存する。 しかし、これらのステップは計算コストが高く、さらに画像に変形を導入し、それらに含まれる情報を変更することもある。 畳み込みニューラルネットワーク(CNN)は、パターン認識に位置不変性を導入し、その方向、大きさ、角度などにかかわらずオブジェクトを分類することが証明されている。 そのため、CNNは核脳画像解析において空間的・強度的な差異をどの程度説明できるのか? 空間と強度の正規化はまだ必要か? そこで我々は,空間および強度の正規化前処理を用いて,確立されたアーキテクチャに基づく4種類のCNNモデルを訓練した。 その結果、ALEXNETの3次元バージョンのような十分複雑なモデルでは空間的差異を効果的に考慮でき、診断精度は94.1%、ROC曲線は0.984であることがわかった。 サリエンシマップによる差異の可視化は、これらのモデルが複雑な空間正規化手順を適用することなく、文献で見られるものと一致するパターンを正しく見つけていることを示している。 しかし、強度正規化とそのタイプは、トレーニングされたモデルの結果と正確性に非常に影響を与えているため、十分な説明が必要となる。

Spatial and intensity normalization are nowadays a prerequisite for neuroimaging analysis. Influenced by voxel-wise and other univariate comparisons, where these corrections are key, they are commonly applied to any type of analysis and imaging modalities. Nuclear imaging modalities such as PET-FDG or FP-CIT SPECT, a common modality used in Parkinson's Disease diagnosis, are especially dependent on intensity normalization. However, these steps are computationally expensive and furthermore, they may introduce deformations in the images, altering the information contained in them. Convolutional Neural Networks (CNNs), for their part, introduce position invariance to pattern recognition, and have been proven to classify objects regardless of their orientation, size, angle, etc. Therefore, a question arises: how well can CNNs account for spatial and intensity differences when analysing nuclear brain imaging? Are spatial and intensity normalization still needed? To answer this question, we have trained four different CNN models based on well-established architectures, using or not different spatial and intensity normalization preprocessing. The results show that a sufficiently complex model such as our three-dimensional version of the ALEXNET can effectively account for spatial differences, achieving a diagnosis accuracy of 94.1% with an area under the ROC curve of 0.984. The visualization of the differences via saliency maps shows that these models are correctly finding patterns that match those found in the literature, without the need of applying any complex spatial normalization procedure. However, the intensity normalization -- and its type -- is revealed as very influential in the results and accuracy of the trained model, and therefore must be well accounted.
翻訳日:2023-11-23 00:54:31 公開日:2023-11-21
# ベンチマークバイアス:社会的および非社会的要因のバイアスレポートを組み込むための臨床AIモデルカードの拡張

Benchmarking bias: Expanding clinical AI model card to incorporate bias reporting of social and non-social factors ( http://arxiv.org/abs/2311.12560v1 )

ライセンス: Link先を確認
Carolina A. M. Heming, Mohamed Abdalla, Monish Ahluwalia, Linglin Zhang, Hari Trivedi, MinJae Woo, Benjamin Fine, Judy Wawira Gichoya, Leo Anthony Celi, Laleh Seyyed-Kalantari(参考訳) 臨床AIモデルレポートカードは、社会的および非社会的要因の広範なバイアスレポートを組み込むよう拡張されるべきである。 非社会的要因は、病気依存、解剖学、機器要因などの他の要因がAIモデルのバイアスに与える影響を考慮し、安全なデプロイメントを保証するのに不可欠である。

Clinical AI model reporting cards should be expanded to incorporate a broad bias reporting of both social and non-social factors. Non-social factors consider the role of other factors, such as disease dependent, anatomic, or instrument factors on AI model bias, which are essential to ensure safe deployment.
翻訳日:2023-11-23 00:53:47 公開日:2023-11-21
# 2光子吸収の最適量子メソロジー

Optimal quantum metrology for two-photon absorption ( http://arxiv.org/abs/2311.12555v1 )

ライセンス: Link先を確認
Athena Karsa, Ranjith Nair, Andy Chia, Kwang-Geol Lee and Changhyoup Lee(参考訳) 2光子吸収(TPA)は、分光から超高分解能イメージングへの幅広い応用を持つ非線形光学過程である。 それにもかかわらず、TPAパラメータの正確な測定と特性化は、本質的に弱い性質のため困難である。 本稿では,量子フィッシャー情報(QFI)によるTPAパラメータ推定を向上するために,単一モード量子光の可能性について検討する。 離散変数(DV)量子状態(フォック状態の有限重ね合わせとして定義される)は、与えられた吸収に対してQFIを最大化するために最適化され、コヒーレントな状態(古典的)ベンチマークと単一モード圧縮真空状態の両方と比較して量子的優位性を示す。 固定平均エネルギー $\bar{n} \in 2\mathbb{N}$ に対して、フォック状態は大きな TPA パラメータに対して最適であることが示され、一方真空と特定のフォック状態の重ね合わせはすべての$\bar{n}$ に対して小さな吸収に最適である。 これはフォック状態が常に最適である単光子吸収とは異なる。 特に、光子計数法は、最適化された量子プローブのTPAパラメータの全てのレベルに対するQFIバウンドと比較すると、最適またはほぼ最適であることを示す。 以上の知見は, ガウス型プローブの既知の制限挙動と, 光子計数(圧縮真空状態は\propto \bar{n}^2$, コヒーレント状態は$\bar{n}^3$)下での異なるフィッシャー情報(fi)のスケーリングに関する知見を与える。 圧縮状態は、小さなtpaパラメータのコヒーレント状態よりも優れるが、中間状態のコヒーレント状態を上回っており、大きな吸収限界に匹敵する。 前者のQFIは大きな吸収限界と小さな吸収限界の両方で分岐し、後者は小さな吸収限界でのみ分岐し、中間スケールで支配する。

Two-photon absorption (TPA) is a nonlinear optical process with wide-ranging applications from spectroscopy to super-resolution imaging. Despite this, the precise measurement and characterisation of TPA parameters are challenging due to their inherently weak nature. We study the potential of single-mode quantum light to enhance TPA parameter estimation through the quantum Fisher information (QFI). Discrete variable (DV) quantum states (defined to be a finite superposition of Fock states) are optimised to maximise the QFI for given absorption, revealing a quantum advantage compared to both the coherent state (classical) benchmark and the single-mode squeezed vacuum state. For fixed average energy $\bar{n} \in 2\mathbb{N}$, the Fock state is shown to be optimal for large TPA parameters, while a superposition of vacuum and a particular Fock state is optimal for small absorption for all $\bar{n}$. This differs from single-photon absorption where the Fock state is always optimal. Notably, photon counting is demonstrated to offer optimal or nearly optimal performance compared to the QFI bound for all levels of TPA parameters for the optimised quantum probes. Our findings provide insight into known limiting behaviours of Gaussian probes and their different Fisher information (FI) scalings under photon counting ($\propto \bar{n}^2$ for squeezed vacuum states versus $\bar{n}^3$ for coherent states). The squeezed state outperforms coherent states for small TPA parameters but underperforms in the intermediate regime, becoming comparable in the large absorption limit. This can be explained through fundamental differences between behaviours of even and odd number Fock states: the former's QFI diverges in both large and small absorption limits, while the latter diverges only in the small absorption limit, dominating at intermediate scales.
翻訳日:2023-11-23 00:53:35 公開日:2023-11-21
# HoVer-UNet:知識蒸留によるUNetをベースとした多クラス核セグメンテーションによるHoVerNetの高速化

"HoVer-UNet": Accelerating HoVerNet with UNet-based multi-class nuclei segmentation via knowledge distillation ( http://arxiv.org/abs/2311.12553v1 )

ライセンス: Link先を確認
Cristian Tommasino, Cristiano Russo, Antonio Maria Rinaldi, Francesco Ciompi(参考訳) 本稿では,核のインスタンス分割と組織学的分類のためのマルチブランチHoVerNetフレームワークの知識を抽出する手法として,HoVer-UNetを提案する。 我々は,Mix Vision Transformerのバックボーンを備えたコンパクトで合理化された単一UNetネットワークを提案し,HoVerNetの蒸留知識を最適に符号化し,性能を損なうことなく計算要求を減らした。 提案モデルは,公開PanNukeデータセットとConsepデータセットでHoVerNetに匹敵する結果を達成し,推論時間を3倍に短縮したことを示す。 モデルのコードはhttps://github.com/DIAGNijmegen/HoVer-UNet.comで公開しています。

We present "HoVer-UNet", an approach to distill the knowledge of the multi-branch HoVerNet framework for nuclei instance segmentation and classification in histopathology. We propose a compact, streamlined single UNet network with a Mix Vision Transformer backbone, and equip it with a custom loss function to optimally encode the distilled knowledge of HoVerNet, reducing computational requirements without compromising performances. We show that our model achieved results comparable to HoVerNet on the public PanNuke and Consep datasets with a three-fold reduction in inference time. We make the code of our model publicly available at https://github.com/DIAGNijmegen/HoVer-UNet.
翻訳日:2023-11-23 00:52:57 公開日:2023-11-21
# Masked Latent Generative Modeling を用いた説明可能な異常検出

Explainable Anomaly Detection using Masked Latent Generative Modeling ( http://arxiv.org/abs/2311.12550v1 )

ライセンス: Link先を確認
Daesoo Lee, Sara Malacarne and Erlend Aune(参考訳) 本稿では,より優れた説明性を提供しながら,優れた検出精度を実現する新しい時系列異常検出手法を提案する。 提案手法であるTimeVQVAE-ADは、TimeVQVAEとして知られる最先端の時系列生成法に適応したマスク付き生成モデルを利用する。 先行モデルは、時間周波数領域の離散潜在空間に基づいて訓練される。 特に、時間周波数領域の次元的意味論は潜在空間に保存され、異なる周波数帯域にまたがる異常スコアを計算できるため、検出された異常に対するより良い洞察が得られる。 さらに、先行モデルの生成特性は、検出された異常に対する通常の状態のサンプリングを可能にし、検出された異常の説明可能性を高める。 UCR Time Series Anomaly Archiveの実験結果から,TimeVQVAE-ADは検出精度と説明可能性において既存の手法を大幅に上回っていることが示された。

We present a novel time series anomaly detection method that achieves excellent detection accuracy while offering a superior level of explainability. Our proposed method, TimeVQVAE-AD, leverages masked generative modeling adapted from the cutting-edge time series generation method known as TimeVQVAE. The prior model is trained on the discrete latent space of a time-frequency domain. Notably, the dimensional semantics of the time-frequency domain are preserved in the latent space, enabling us to compute anomaly scores across different frequency bands, which provides a better insight into the detected anomalies. Additionally, the generative nature of the prior model allows for sampling likely normal states for detected anomalies, enhancing the explainability of the detected anomalies through counterfactuals. Our experimental evaluation on the UCR Time Series Anomaly archive demonstrates that TimeVQVAE-AD significantly surpasses the existing methods in terms of detection accuracy and explainability.
翻訳日:2023-11-23 00:52:41 公開日:2023-11-21
# 前方オークション型フェデレーション学習のためのマルチセッション予算最適化

Multi-Session Budget Optimization for Forward Auction-based Federated Learning ( http://arxiv.org/abs/2311.12548v1 )

ライセンス: Link先を確認
Xiaoli Tang, Han Yu(参考訳) 近年,オークションベースのフェデレートラーニング(AFL)が重要な研究分野となっている。 FLモデルユーザ(MU)の一般的な戦略は、FLタスクに必要なデータ所有者(DO)のチーム全体を、トレーニングを開始する前に組み立てなければならないと仮定している。 実際には、MUはFLトレーニングプロセスを複数回トリガーすることができる。 したがって、複数のFLモデルトレーニングセッションでDOを徐々に採用することができる。 AFL MUの既存の入札戦略はそのようなシナリオを扱うように設計されていない。 したがって、マルチセッションAFLの問題は未解決のままである。 この問題に対処するため,先進オークションベースのフェデレートラーニング(MultiBOS-AFL)のためのマルチセッション予算最適化戦略を提案する。 階層的強化学習に基づいて、MultiBOS-AFLは、AFL MUのセッション間予算ペーシングとセッション内入札を共同で最適化し、トータルユーティリティーを最大化する。 6つのベンチマークデータセットに対する大規模な実験は、7つの最先端のアプローチを大きく上回っていることを示している。 平均すると、MultiBOS-AFLは12.28%高いユーティリティ、与えられた予算の競売によって取得したデータ14.52%、そして結果のFLモデルが最高のベースラインよりも1.23%高いテスト精度を達成する。 我々の知る限りでは、マルチセッションフォワード型フェデレーション学習におけるMUのための予算ペーシング機能を備えた最初の予算最適化決定支援手法である。

Auction-based Federated Learning (AFL) has emerged as an important research field in recent years. The prevailing strategies for FL model users (MUs) assume that the entire team of the required data owners (DOs) for an FL task must be assembled before training can commence. In practice, an MU can trigger the FL training process multiple times. DOs can thus be gradually recruited over multiple FL model training sessions. Existing bidding strategies for AFL MUs are not designed to handle such scenarios. Therefore, the problem of multi-session AFL remains open. To address this problem, we propose the Multi-session Budget Optimization Strategy for forward Auction-based Federated Learning (MultiBOS-AFL). Based on hierarchical reinforcement learning, MultiBOS-AFL jointly optimizes inter-session budget pacing and intra-session bidding for AFL MUs, with the objective of maximizing the total utility. Extensive experiments on six benchmark datasets show that it significantly outperforms seven state-of-the-art approaches. On average, MultiBOS-AFL achieves 12.28% higher utility, 14.52% more data acquired through auctions for a given budget, and 1.23% higher test accuracy achieved by the resulting FL model compared to the best baseline. To the best of our knowledge, it is the first budget optimization decision support method with budget pacing capability designed for MUs in multi-session forward auction-based federated learning
翻訳日:2023-11-23 00:52:22 公開日:2023-11-21
# tsallis相対エントロピーによる量子状態の想像力の定量化

Quantifying the imaginarity of quantum states via Tsallis relative entropy ( http://arxiv.org/abs/2311.12547v1 )

ライセンス: Link先を確認
Jianwei Xu(参考訳) 量子力学がなぜ実数ではなく複素数を使うのかという根本的な問題である。 この問題に対処するために、近年、量子状態の虚数性に関する厳密な資源理論が確立され、いくつかの虚数性測度が提案されている。 本研究では,Tsallis相対エントロピーに基づく新しい虚像度尺度を提案する。 この虚性測度は明示的な表現を持ち、ボゾンガウス状態に対しても計算可能である。

It is a fundamental question that why quantum mechanics uses complex numbers instead of only real numbers. To address this topic, recently, a rigorous resource theory for the imaginarity of quantum states were established, and several imaginarity measures were proposed. In this work, we propose a new imaginarity measure based on the Tsallis relative entropy. This imaginarity measure has explicit expression, and also, it is computable for bosonic Gaussian states.
翻訳日:2023-11-23 00:52:00 公開日:2023-11-21
# データ近似のための最適滑らか不変部分空間の学習

Learning optimal smooth invariant subspaces for data approximation ( http://arxiv.org/abs/2311.12544v1 )

ライセンス: Link先を確認
Davide Barbieri, Eugenio Hern\'andez, Carlos Cabrelli, Ursula Molter(参考訳) 本稿では、スムーズな関数の小さな集合から生成される不変部分空間による有限集合(通常、アプリケーションにおいて巨大な)の近似問題を考える。 この不変性はフルランク格子の下での翻訳か、結晶群の作用によるものである。 与えられたデータの特徴に基づいて最適な方法で選択されたパリー・ウィーナー空間に属するジェネレータを規定することにより、平滑性を確保する。 本研究は, 近似過程において格子が果たす基礎的役割を解析したものである。

In this article, we consider the problem of approximating a finite set of data (usually huge in applications) by invariant subspaces generated through a small set of smooth functions. The invariance is either by translations under a full-rank lattice or through the action of crystallographic groups. Smoothness is ensured by stipulating that the generators belong to a Paley-Wiener space, that is selected in an optimal way based on the characteristics of the given data. To complete our investigation, we analyze the fundamental role played by the lattice in the process of approximation.
翻訳日:2023-11-23 00:51:51 公開日:2023-11-21
# GMISeg:再検査なしの一般医用画像分割

GMISeg: General Medical Image Segmentation without Re-Training ( http://arxiv.org/abs/2311.12539v1 )

ライセンス: Link先を確認
Jing Xu(参考訳) 深層学習モデルは医用画像セグメンテーションの主要な方法となっているが、新しい解剖学的構造、画像形状、ラベルを含む未知のセグメンテーションタスクに拡張できないことが多い。 新たなセグメンテーションタスクでは、モデルの再トレーニングや微調整が必要となることが多い。これは時間を要するため、ニューラルネットワークのトレーニングにリソースや専門知識を欠く臨床研究者にとって大きな障害となる。 そこで本研究では,未知の医用画像分割タスクを,追加の訓練を必要とせずに解決できる汎用手法を提案する。 新しいセグメンテーションタスクを定義するためのイメージとプロンプトの例が与えられると、gmisegは、sam(segment anything model)イメージエンコーダに対する提案アプローチに基づいて、新しい低ランクの微調整戦略を適用し、プロンプトエンコーダとマスクデコーダと連携して、追加のトレーニングなしでラベル付きデータセットを微調整する。 新たなタスクの一般化のために,異なる画像モードの医療用画像データセットを用いた。 GMISegを他のサイトデータセットの心臓画像を用いて,解剖学的,画像学的に異なるモードで訓練し,一般化した。 我々は,GMISegが未知タスクにおける最新の手法よりも優れており,提案手法の重要な性能に関する総合的な分析と要約を行った。

Although deep learning models have become the main method for medical image segmentation, they often cannot be extended to unknown segmentation tasks involving new anatomical structures, image shapes, or labels. For new segmentation tasks, researchers often have to retrain or fine-tune the model, which is time-consuming and poses a significant obstacle to clinical researchers, who often lack the resources and professional knowledge to train neural networks. Therefore, we proposed a general method that can solve unknown medical image segmentation tasks without requiring additional training. Given an example set of images and prompts for defining new segmentation tasks, GMISeg applies a novel low-rank fine-tuning strategy based on the proposed approach to the SAM (Segment Anything Model) image encoder, and works with the prompt encoder and mask decoder to fine-tune the labeled dataset without the need for additional training. To achieve generalization of new tasks, we used medical image datasets with different imaging modes for different parts. We trained and generalized GMISeg on a different set of anatomical and imaging modes using cardiac images on other site datasets. We have demonstrated that GMISeg outperforms the latest methods on unknown tasks and have conducted a comprehensive analysis and summary of the important performance of the proposed method.
翻訳日:2023-11-23 00:51:41 公開日:2023-11-21
# 最小値の変数を持つ文脈内学習関数

In-Context Learning Functions with Varying Number of Minima ( http://arxiv.org/abs/2311.12538v1 )

ライセンス: Link先を確認
David Oniani, Yanshan Wang(参考訳) 大規模言語モデル(LLM)は、ラベル付き例から予測子を作成することができるICL(In-Context Learning)で有効であることが証明されている。 ICLと近似しようとする関数の特定の性質との相互作用について研究する研究はほとんどない。 そこで本研究では,ICLの探索に公式なフレームワークを用い,様々な最小値の関数を近似する新しいタスクを提案する。 与えられた入力をミニマとして関数を生成できる手法を実装した。 ミニマ数の増加はiclのパフォーマンスを低下させる。 同時に、我々はICLが2層ニューラルネットワーク(2NN)モデルより優れていることを示した。 さらに、ICLはすべての設定で2NNよりも高速に学習する。 本研究は, 種々のハイパーパラメータ構成における数発の撮影実験を通して, 実験結果を検証した。

Large Language Models (LLMs) have proven effective at In-Context Learning (ICL), an ability that allows them to create predictors from labeled examples. Few studies have explored the interplay between ICL and specific properties of functions it attempts to approximate. In our study, we use a formal framework to explore ICL and propose a new task of approximating functions with varying number of minima. We implement a method that allows for producing functions with given inputs as minima. We find that increasing the number of minima degrades ICL performance. At the same time, our evaluation shows that ICL outperforms 2-layer Neural Network (2NN) model. Furthermore, ICL learns faster than 2NN in all settings. We validate the findings through a set of few-shot experiments across various hyperparameter configurations.
翻訳日:2023-11-23 00:51:14 公開日:2023-11-21
# Oasis:大規模言語モデルの事前学習のためのデータキュレーションと評価システム

Oasis: Data Curation and Assessment System for Pretraining of Large Language Models ( http://arxiv.org/abs/2311.12537v1 )

ライセンス: Link先を確認
Tong Zhou, Yubo Chen, Pengfei Cao, Kang Liu, Jun Zhao, Shengping Liu(参考訳) データは、大きな言語モデルを構築する上で最も重要な要素の1つです。 しかしながら、既存のシステムはコーパスキュレーションパイプラインのカスタマイズに失敗したり、包括的コーパス評価を無視してキュレーションの反復最適化を行う。 そこで我々は,データ品質の改善とユーザフレンドリなインターフェースによる定量化のためのワンストップシステムであるOasisという,事前学習型コーパスキュレーションと評価プラットフォームを提案する。 具体的には、インタラクティブなモジュラールールフィルタモジュールは明示的なフィードバックに従ってカスタマイズされたルールを作成できる。 debiased neural filterモジュールは、望ましくないバイアスを取り除くために、品質分類データセットを負中心に構築する。 adaptive document deduplicationモジュールは、限られたメモリリソースで大規模な重複排除を実行することができる。 これら3つの部分は、カスタマイズされたデータキュレーションモジュールを構成する。 また, 包括的データ評価モジュールでは, 人間, GPT-4, ヒューリスティックメトリクスを含む3つの評価手段を用いて, コーパスを局所的, グローバル的に評価することができる。 我々は,事前学習データのキュレーションと評価にoasisを使用するための完全なプロセスを示す。 また、オアシスがキュレートした800GBのバイリンガルコーパスも公開されている。

Data is one of the most critical elements in building a large language model. However, existing systems either fail to customize a corpus curation pipeline or neglect to leverage comprehensive corpus assessment for iterative optimization of the curation. To this end, we present a pretraining corpus curation and assessment platform called Oasis -- a one-stop system for data quality improvement and quantification with user-friendly interactive interfaces. Specifically, the interactive modular rule filter module can devise customized rules according to explicit feedback. The debiased neural filter module builds the quality classification dataset in a negative-centric manner to remove the undesired bias. The adaptive document deduplication module could execute large-scale deduplication with limited memory resources. These three parts constitute the customized data curation module. And in the holistic data assessment module, a corpus can be assessed in local and global views, with three evaluation means including human, GPT-4, and heuristic metrics. We exhibit a complete process to use Oasis for the curation and assessment of pretraining data. In addition, an 800GB bilingual corpus curated by Oasis is publicly released.
翻訳日:2023-11-23 00:51:04 公開日:2023-11-21
# 合成トラヒック生成タスクのための言語生成モデルの評価メトリクス

Evaluation Metrics of Language Generation Models for Synthetic Traffic Generation Tasks ( http://arxiv.org/abs/2311.12534v1 )

ライセンス: Link先を確認
Simone Filice, Jason Ingyu Choi, Giuseppe Castellucci, Eugene Agichtein, Oleg Rokhlenko(参考訳) 多くの自然言語生成(nlg)タスクは、入力プロンプトが与えられた単一の出力テキストを生成することを目的としている。 他の設定では、Synthetic Traffic Generation (STG) などの複数のテキストを生成する必要がある。 この生成タスクは、実際のユーザの言語的多様性に似た複数の質問や発話を生成することを目的とする会話エージェントと同様に、QAシステムの訓練および評価に不可欠である。 本稿では,BLEU のような一般的な NLG メトリクスはSTG の評価には適さないことを示す。 本稿では,生成したトラフィックと実際のユーザテキストの分布を比較するための指標を提案し,評価する。 我々は、自動的な手順でメトリクスを検証し、生成したデータの異なる種類の品質問題を捉えるかどうかを検証し、また人間の判断と相関性を検証するために人間のアノテーションも実行します。 3つのタスク、すなわち買い物発話生成、製品質問生成、クエリの自動補完に関する実験は、我々のメトリクスがstgタスクの評価に有効であることを示し、一般的なnlgメトリクスに関して最大20%の人間判断との合意を改善する。 これらの発見は、合成テキストデータの代表性を評価するためのより良いソリューションへの道を開くことができると信じている。

Many Natural Language Generation (NLG) tasks aim to generate a single output text given an input prompt. Other settings require the generation of multiple texts, e.g., for Synthetic Traffic Generation (STG). This generation task is crucial for training and evaluating QA systems as well as conversational agents, where the goal is to generate multiple questions or utterances resembling the linguistic variability of real users. In this paper, we show that common NLG metrics, like BLEU, are not suitable for evaluating STG. We propose and evaluate several metrics designed to compare the generated traffic to the distribution of real user texts. We validate our metrics with an automatic procedure to verify whether they capture different types of quality issues of generated data; we also run human annotations to verify the correlation with human judgements. Experiments on three tasks, i.e., Shopping Utterance Generation, Product Question Generation and Query Auto Completion, demonstrate that our metrics are effective for evaluating STG tasks, and improve the agreement with human judgement up to 20% with respect to common NLG metrics. We believe these findings can pave the way towards better solutions for estimating the representativeness of synthetic text data.
翻訳日:2023-11-23 00:50:45 公開日:2023-11-21
# 逐次的神経後部推定に基づく効率の良い確率自由ベイズ推定法

An efficient likelihood-free Bayesian inference method based on sequential neural posterior estimation ( http://arxiv.org/abs/2311.12530v1 )

ライセンス: Link先を確認
Yifei Xiong, Xiliang Yang, Sanguo Zhang, Zhijian He(参考訳) 逐次的神経後部推定(SNPE)技術は、難易度のあるシミュレーションベースモデルを扱うために最近提案されている。 近似ベイズ計算とは異なり、SNPE法はニューラルネットワークに基づく条件密度推定器を用いて逐次シミュレーションから後部を学習する。 本稿では,Lueckmannらによって提案されたSNPE-Bを,シミュレーションデータの非効率利用とパラメータ更新のばらつきによる非効率性と遅延推論に悩まされている。 これらの問題に対処するために,まず,シミュレーションデータを適切に重み付けしてデータ効率を向上させる適応キャリブレーションカーネルに基づく集中損失関数を導入する。 さらに、関連するモンテカルロ推定器の分散に関する理論的解析を行う。 そこで本研究では,学習プロセスのさらなる高速化を目的とした分散化手法を提案する。 数値実験により,本手法は,既存の競合相手とともに,特定のタスクにおいて,元の手法よりも優れていることを示した。

Sequential neural posterior estimation (SNPE) techniques have been recently proposed for dealing with simulation-based models with intractable likelihoods. Unlike approximate Bayesian computation, SNPE techniques learn the posterior from sequential simulation using neural network-based conditional density estimators. This paper reclaims SNPE-B proposed by Lueckmann et al. (2017), which suffers from inefficiency and slow inference due to inefficient utilization of simulated data and high variance of parameter updates. To address these issues, we firstly introduce a concentrated loss function based on an adaptive calibration kernel that reweights the simulated data appropriately to improve the data efficiency. Moreover, we provide a theoretical analysis of the variance of associated Monte Carlo estimators. Based on this analysis, we then propose several variance reduction techniques to further accelerate the process of learning. Numerical experiments demonstrate that our method outperforms the original method together with other existing competitors on certain tasks.
翻訳日:2023-11-23 00:50:25 公開日:2023-11-21
# 独立成分分析のための効率的な量子アルゴリズム

An efficient quantum algorithm for independent component analysis ( http://arxiv.org/abs/2311.12529v1 )

ライセンス: Link先を確認
Xiao-Fan Xu, Cheng Xue, Zhao-Yun Chen, Yu-Chun Wu and Guo-Ping Guo(参考訳) 独立成分分析(ICA)は、取得した信号を可能な限り独立成分に分解する基本的なデータ処理技術である。 信号の独立性の尺度として機能するコントラスト関数の計算は、ICAを用いた分離プロセスにおいて不可欠である。 本稿では,量子コンピュータ上の特定コントラスト関数の計算に焦点をあてた量子icaアルゴリズムを提案する。 行列演算における量子加速度を用いて、グラム行列を効率的に扱い、コントラスト関数を$O(\epsilon_1^{-2}\mbox{poly}\log(N/\epsilon_1))$で推定する。 この推定サブプログラムは、古典的最適化フレームワークと組み合わせることで、古典的アルゴリズムと比較してデータスケールの複雑性依存を指数関数的に低減する量子ICAアルゴリズムを実現する。 アウトパフォーマンスは数値実験によってさらに支持され、また、転写データセットのソース分離が応用例として示される。

Independent component analysis (ICA) is a fundamental data processing technique to decompose the captured signals into as independent as possible components. Computing the contrast function, which serves as a measure of independence of signals, is vital in the separation process using ICA. This paper presents a quantum ICA algorithm which focuses on computing a specified contrast function on a quantum computer. Using the quantum acceleration in matrix operations, we efficiently deal with Gram matrices and estimate the contrast function with the complexity of $O(\epsilon_1^{-2}\mbox{poly}\log(N/\epsilon_1))$. This estimation subprogram, combined with the classical optimization framework, enables our quantum ICA algorithm, which exponentially reduces the complexity dependence on the data scale compared with classical algorithms. The outperformance is further supported by numerical experiments, while a source separation of a transcriptomic dataset is shown as an example of application.
翻訳日:2023-11-23 00:50:10 公開日:2023-11-21
# 視覚追跡脳コンピュータインタフェース

Visual tracking brain computer interface ( http://arxiv.org/abs/2311.12592v1 )

ライセンス: Link先を確認
Changxing Huang, Nanlin Shi, Yining Miao, Xiaogang Chen, Yijun Wang, Xiaorong Gao(参考訳) 脳コンピュータインタフェース(BCI)は、物理的な動きに頼ることなくコンピュータと対話する方法を提供する。 効率のよい速度とキャリブレーションの容易さで知られる非侵襲的脳波(eeg)ベースの視覚bcisは、離散的な刺激設計と復号法によって、連続的なタスクの限界に直面する。 連続制御を実現するために,新しい空間符号化刺激パラダイムを実装し,デコード速度の連続変調を可能にする対応する投影法を考案した。 その後,17名の参加者による実験を行い,固定トラッキングタスクでは0.55 bps,ランダムトラッキングタスクでは0.37 bpsのフィットのitrを達成した。 その後、高いフィットのITRを持つBCIは、絵画とゲームを含む2つのアプリケーションに統合された。 そこで本研究では,視覚的BCIに基づく制御手法を提案し,神経活動に基づく自然な連続制御を可能にした。

Brain-computer interfaces (BCIs) offer a way to interact with computers without relying on physical movements. Non-invasive electroencephalography (EEG)-based visual BCIs, known for efficient speed and calibration ease, face limitations in continuous tasks due to discrete stimulus design and decoding methods. To achieve continuous control, we implemented a novel spatial encoding stimulus paradigm and devised a corresponding projection method to enable continuous modulation of decoded velocity. Subsequently, we conducted experiments involving 17 participants and achieved Fitt's ITR of 0.55 bps for the fixed tracking task and 0.37 bps for the random tracking task. The proposed BCI with a high Fitt's ITR was then integrated into two applications, including painting and gaming. In conclusion, this study proposed a visual BCI-based control method to go beyond discrete commands, allowing natural continuous control based on neural activity.
翻訳日:2023-11-23 00:42:28 公開日:2023-11-21
# ChronoPscychosis : 経時的分節化と運動活動データを用いた統合失調症分類への影響

ChronoPscychosis: Temporal Segmentation and Its Impact on Schizophrenia Classification Using Motor Activity Data ( http://arxiv.org/abs/2311.12590v1 )

ライセンス: Link先を確認
Pradnya Rajendra Jadhav, Raviprasad Aduri(参考訳) 統合失調症は複雑な精神疾患であり、認知、行動、感情に影響を及ぼす幅広い症状が特徴である。 統合失調症を正確に分類する信頼できるバイオマーカーを特定する仕事は、精神医学の分野では依然として課題となっている。 統合失調症患者22名、対照被験者32名の運動行動記録を有するデータセットを用いて、運動活動データ内の時間パターンを統合失調症患者の分類強化の鍵として検討した。 このデータセットは、各参加者に対して平均12.7日連続で収集された1分間の運動活動の測定を含んでいる。 私たちは毎日,12,8,6,4,3,2の区分に分け,その分類への影響を評価する。 これらの時間セグメントに16の統計的特徴を採用し、より深い洞察を得るために7つの機械学習モデルでそれらをトレーニングします。 LightGBMモデルは、他の6モデルより優れている。 AUC-ROC = 0.93, F1 score = 0.84(LightGBM-) および AUC-ROC = 0.98, F1 score = 0.93(LightGBM-) を用いて, 時間的セグメンテーションは分類を著しく改善することを示した。 昼行と夜行の区別は統合失調症患者とコントロールの差異を増幅する。 しかし、より小さな時間セグメントへの分割はAUC-ROCに大きな影響を与えない。 朝、午後、夜、夜のパーティショニングは、昼夜のパーティショニングと同様の分類パフォーマンスを提供する。 これらの発見は、昼と夜を区別する以上の広範囲の時間的分類は実質的な結果をもたらしず、統合失調症のさらなる分類、早期診断、モニタリングのための効率的なアプローチを提供するため、有用である。

Schizophrenia is a complicated mental illness characterized by a broad spectrum of symptoms affecting cognition, behavior, and emotion. The task of identifying reliable biomarkers to classify Schizophrenia accurately continues to be a challenge in the field of psychiatry. We investigate the temporal patterns within the motor activity data as a potential key to enhancing the categorization of individuals with Schizophrenia, using the dataset having motor activity recordings of 22 Schizophrenia patients and 32 control subjects. The dataset contains per-minute motor activity measurements collected for an average of 12.7 days in a row for each participant. We dissect each day into segments (Twelve, Eight, six, four, three, and two parts) and evaluate their impact on classification. We employ sixteen statistical features within these temporal segments and train them on Seven machine learning models to get deeper insights. LightGBM model outperforms the other six models. Our results indicate that the temporal segmentation significantly improves the classification, with AUC-ROC = 0.93, F1 score = 0.84( LightGBM- without any segmentation) and AUC-ROC = 0.98, F1 score = 0.93( LightGBM- with segmentation). Distinguishing between diurnal and nocturnal segments amplifies the differences between Schizophrenia patients and controls. However, further subdivisions into smaller time segments do not affect the AUC- ROC significantly. Morning, afternoon, evening, and night partitioning gives similar classification performance to day-night partitioning. These findings are valuable as they indicate that extensive temporal classification beyond distinguishing between day and night does not yield substantial results, offering an efficient approach for further classification, early diagnosis, and monitoring of Schizophrenia.
翻訳日:2023-11-23 00:42:13 公開日:2023-11-21
# ドメイン表現画像を利用した視覚トランスフォーマによるソースフリーターゲット適応の改善

Improving Source-Free Target Adaptation with Vision Transformers Leveraging Domain Representation Images ( http://arxiv.org/abs/2311.12589v1 )

ライセンス: Link先を確認
Gauransh Sawhney, Daksh Dave, Adeel Ahmed, Jiechao Gao, Khalid Saleem(参考訳) Unsupervised Domain Adaptation (UDA)メソッドは、ラベル付きソースドメインからラベルなしターゲットドメインへの知識伝達を促進し、ドメインシフトの障害をナビゲートする。 畳み込みニューラルネットワーク(CNN)はUDAの標準であるが、ビジョントランスフォーマー(ViT)の台頭はドメインの一般化に新たな道をもたらす。 本稿では,鍵,問合せ,値要素がvit結果にどのように影響するかの評価から,ソースフリーターゲット適応におけるvit性能を向上させる革新的な手法を提案する。 実験は、キー要素の変更がトランスフォーマーの性能に不可分な影響を及ぼすことを示している。 この発見を生かして、ドメイン表現画像(DRI)を導入し、キー要素を通じて埋め込みをフィードする。 DRIはドメイン固有のマーカーとして機能し、トレーニングレギュレータとシームレスにマージする。 提案手法を評価するため,Cross Instance DRI Source-only (SO) 制御のターゲット適応試験を行った。 SHOT-B* などの既存のベンチマークや CDTrans による適応に対して, DRI の有無による目標適応の有効性を測定した。 DRIを除いた場合、SHOT-B*よりも限られた利得が得られ、キーセグメントに含めると、より優れたドメインの一般化を促進する平均精度が向上する。 本研究は、UDAシナリオにおけるVT効率向上におけるDRIの意義を強調し、さらなるドメイン適応探索の先例となる。

Unsupervised Domain Adaptation (UDA) methods facilitate knowledge transfer from a labeled source domain to an unlabeled target domain, navigating the obstacle of domain shift. While Convolutional Neural Networks (CNNs) are a staple in UDA, the rise of Vision Transformers (ViTs) provides new avenues for domain generalization. This paper presents an innovative method to bolster ViT performance in source-free target adaptation, beginning with an evaluation of how key, query, and value elements affect ViT outcomes. Experiments indicate that altering the key component has negligible effects on Transformer performance. Leveraging this discovery, we introduce Domain Representation Images (DRIs), feeding embeddings through the key element. DRIs act as domain-specific markers, effortlessly merging with the training regimen. To assess our method, we perform target adaptation tests on the Cross Instance DRI source-only (SO) control. We measure the efficacy of target adaptation with and without DRIs, against existing benchmarks like SHOT-B* and adaptations via CDTrans. Findings demonstrate that excluding DRIs offers limited gains over SHOT-B*, while their inclusion in the key segment boosts average precision promoting superior domain generalization. This research underscores the vital role of DRIs in enhancing ViT efficiency in UDA scenarios, setting a precedent for further domain adaptation explorations.
翻訳日:2023-11-23 00:41:44 公開日:2023-11-21
# HiPose:RGB-D 6DoFオブジェクトポス推定のための階層的二元曲面符号化と対応プルーニング

HiPose: Hierarchical Binary Surface Encoding and Correspondence Pruning for RGB-D 6DoF Object Pose Estimation ( http://arxiv.org/abs/2311.12588v1 )

ライセンス: Link先を確認
Yongliang Lin, Yongzhi Su, Praveen Nathan, Sandeep Inuganti, Yan Di, Martin Sundermeyer, Fabian Manhardt, Didier Stricke, Jason Rambach, Yu Zhang(参考訳) 本研究では,1枚のRGB-D画像から6DoFオブジェクトのポーズ推定を行う手法を提案する。 既存のデータ駆動型メソッドの多くは印象的なパフォーマンスを実現しているが、レンダリングベースのリファインメントアプローチに依存するため、時間を要する傾向がある。 この制限を回避するため,階層的二元曲面符号化を用いて3D-3D対応を粗い方法で確立するHiPoseを提案する。 従来の高密度対応法とは異なり, 点対面マッチングを用いて対応面を推定し, 段階的に外接点を除去し, 対応点となるまで表面を反復的に収縮する。 LM-O, YCB-V, T-Lessのベンチマーク実験により, 本手法はすべての改良フリー手法を超越し, 高価な改良ベース手法と同等であることが示された。 本手法は計算効率が高く,高精度なリアルタイムクリティカルアプリケーションを実現する。 コードとモデルはリリースされる。

In this work, we present a novel dense-correspondence method for 6DoF object pose estimation from a single RGB-D image. While many existing data-driven methods achieve impressive performance, they tend to be time-consuming due to their reliance on rendering-based refinement approaches. To circumvent this limitation, we present HiPose, which establishes 3D-3D correspondences in a coarse-to-fine manner with a hierarchical binary surface encoding. Unlike previous dense-correspondence methods, we estimate the correspondence surface by employing point-to-surface matching and iteratively constricting the surface until it becomes a correspondence point while gradually removing outliers. Extensive experiments on public benchmarks LM-O, YCB-V, and T-Less demonstrate that our method surpasses all refinement-free methods and is even on par with expensive refinement-based approaches. Crucially, our approach is computationally efficient and enables real-time critical applications with high accuracy requirements. Code and models will be released.
翻訳日:2023-11-23 00:41:20 公開日:2023-11-21
# 心エコー図の基礎モデル --応用1:射出率の推定

Echocardiogram Foundation Model -- Application 1: Estimating Ejection Fraction ( http://arxiv.org/abs/2311.12582v1 )

ライセンス: Link先を確認
Adil Dahlan, Cyril Zakka, Abhinav Kumar, Laura Tang, Rohan Shad, Robyn Fong and William Hiesinger(参考訳) 心臓血管疾患は、死亡の主な原因となっている。 心臓を可視化し、その機能を評価するための様々な撮像技術のうち、心エコー図はその安全性と低コストのために好適な選択として出現する。 心エコー図に基づく心臓機能の定量化は非常に困難であり、時間を要する。 本稿では,150万個の心エコー図上で自己教師付き学習(SSL)を用いて訓練した心エコー基礎モデルであるEchoAIを紹介する。 我々は,EchoAIを微調整し,平均絶対パーセンテージ誤差を9.40%と評価した。 このレベルの精度は、専門家のソノグラフィーのパフォーマンスと一致している。

Cardiovascular diseases stand as the primary global cause of mortality. Among the various imaging techniques available for visualising the heart and evaluating its function, echocardiograms emerge as the preferred choice due to their safety and low cost. Quantifying cardiac function based on echocardiograms is very laborious, time-consuming and subject to high interoperator variability. In this work, we introduce EchoAI, an echocardiogram foundation model, that is trained using self-supervised learning (SSL) on 1.5 million echocardiograms. We evaluate our approach by fine-tuning EchoAI to estimate the ejection fraction achieving a mean absolute percentage error of 9.40%. This level of accuracy aligns with the performance of expert sonographers.
翻訳日:2023-11-23 00:41:01 公開日:2023-11-21
# 皮膚損傷セグメンテーションのためのトリプルUNetアーキテクチャの関心領域

A Region of Interest Focused Triple UNet Architecture for Skin Lesion Segmentation ( http://arxiv.org/abs/2311.12581v1 )

ライセンス: Link先を確認
Guoqing Liu, Yu Guo, Caiying Wu, Guoqing Chen, Barintag Saheya, Qiyu Jin(参考訳) 皮膚病変のセグメンテーションは皮膚病変の解析およびその後の治療において非常に重要である。 不規則でファジィな病変境界と皮膚病変の多様性のため、依然として困難な課題である。 本稿では,皮膚病変を自動的に分類するTriple-UNetを提案する。 3つのUNetアーキテクチャと適切なモジュールの有機的な組み合わせである。 より効果的に第1および第2サブネットワークを結合するために、関心強化モジュール(ROIE)の領域を設計する。 ROIEは、第1UNetの予測スコアマップを用いて、画像のターゲット対象領域を強化する。 第1のunetと拡張された画像で学んだ機能は、第2のunetがより良いスコアマップを得るのに役立つ。 最後に、結果は第3のUNetによって微調整される。 本アルゴリズムは,皮膚病変セグメントの公開データセット上で評価する。 実験の結果、Triple-UNetは皮膚病変のセグメンテーションの最先端よりも優れていた。

Skin lesion segmentation is of great significance for skin lesion analysis and subsequent treatment. It is still a challenging task due to the irregular and fuzzy lesion borders, and diversity of skin lesions. In this paper, we propose Triple-UNet to automatically segment skin lesions. It is an organic combination of three UNet architectures with suitable modules. In order to concatenate the first and second sub-networks more effectively, we design a region of interest enhancement module (ROIE). The ROIE enhances the target object region of the image by using the predicted score map of the first UNet. The features learned by the first UNet and the enhanced image help the second UNet obtain a better score map. Finally, the results are fine-tuned by the third UNet. We evaluate our algorithm on a publicly available dataset of skin lesion segmentation. Experiments show that Triple-UNet outperforms the state-of-the-art on skin lesion segmentation.
翻訳日:2023-11-23 00:40:49 公開日:2023-11-21
# 実世界ローグ波モデルの機械誘導による発見

Machine-Guided Discovery of a Real-World Rogue Wave Model ( http://arxiv.org/abs/2311.12579v1 )

ライセンス: Link先を確認
Dion H\"afner, Johannes Gemmrich, Markus Jochum(参考訳) ビッグデータと大規模機械学習は、特に予測と予測に焦点を当てた分野において、科学とエンジニアリングに大きな影響を与えた。 しかし、機械学習モデルの優れたパターンマッチング能力を科学的発見にどのように活用できるかは、まだ明らかではない。 これは、機械学習と科学の目標は概して一致していないためである。 科学的理論は正確であることに加えて、基礎となる物理的過程と慎重に整合し、人間の分析、推論、操作を前進させることも必要である。 本稿では, 因果解析, 深層学習, パーシモニー誘導モデル選択, 記号回帰を用いたデータから, 海洋ローグ波の新しい記号モデルを発見するケーススタディを提案する。 我々は、予測性能と因果不変性を選択しながら、波ブイからの広範な観測データセットから因果特性に基づいてニューラルネットワークを訓練する。 我々は、このブラックボックスモデルをニューラルネットワークの予測能力を保持しつつ、既存の波動理論の文脈での解釈を可能にする数学的方程式に、記号回帰を適用する。 得られたモデルは既知の振る舞いを再現し、よく調整された確率を生成し、現在の理論よりも見当たらないデータでより良い予測スコアを得る。 これは、機械学習がインダクティブな科学的発見を促進する方法を示し、より正確なローグ波予測への道を開く。

Big data and large-scale machine learning have had a profound impact on science and engineering, particularly in fields focused on forecasting and prediction. Yet, it is still not clear how we can use the superior pattern matching abilities of machine learning models for scientific discovery. This is because the goals of machine learning and science are generally not aligned. In addition to being accurate, scientific theories must also be causally consistent with the underlying physical process and allow for human analysis, reasoning, and manipulation to advance the field. In this paper, we present a case study on discovering a new symbolic model for oceanic rogue waves from data using causal analysis, deep learning, parsimony-guided model selection, and symbolic regression. We train an artificial neural network on causal features from an extensive dataset of observations from wave buoys, while selecting for predictive performance and causal invariance. We apply symbolic regression to distill this black-box model into a mathematical equation that retains the neural network's predictive capabilities, while allowing for interpretation in the context of existing wave theory. The resulting model reproduces known behavior, generates well-calibrated probabilities, and achieves better predictive scores on unseen data than current theory. This showcases how machine learning can facilitate inductive scientific discovery, and paves the way for more accurate rogue wave forecasting.
翻訳日:2023-11-23 00:40:36 公開日:2023-11-21
# IMGTB: 機械生成テキスト検出ベンチマークのためのフレームワーク

IMGTB: A Framework for Machine-Generated Text Detection Benchmarking ( http://arxiv.org/abs/2311.12574v1 )

ライセンス: Link先を確認
Michal Spiegel and Dominik Macko(参考訳) 高品質テキストを生成する大規模言語モデルの時代においては、有害な使用を避けるために、あるいは単にアノテーション目的のために、機械生成テキストを検出する方法を開発する必要がある。 しかし,このような手法を適切に評価し,比較することは重要である。 近年、この目的のためにいくつかのベンチマークが提案されているが、新しい手法が毎月登場し、若干異なる評価パイプラインを提供するため、最新の検出方法の統合はやや難しい。 本稿では、カスタム(新しい)メソッドと評価データセットを容易に統合することで、機械生成テキスト検出手法のベンチマークを簡素化するIGGTBフレームワークを提案する。 その構成性と柔軟性は、新しい検出方法の研究と開発を容易にし、特に既存の最先端検出器と比較する。 ツールが提供する分析、メトリクス、視覚化のデフォルトセットは、最先端の文献に見られる機械生成テキスト検出ベンチマークの確立したプラクティスに従っている。

In the era of large language models generating high quality texts, it is a necessity to develop methods for detection of machine-generated text to avoid harmful use or simply due to annotation purposes. It is, however, also important to properly evaluate and compare such developed methods. Recently, a few benchmarks have been proposed for this purpose; however, integration of newest detection methods is rather challenging, since new methods appear each month and provide slightly different evaluation pipelines. In this paper, we present the IMGTB framework, which simplifies the benchmarking of machine-generated text detection methods by easy integration of custom (new) methods and evaluation datasets. Its configurability and flexibility makes research and development of new detection methods easier, especially their comparison to the existing state-of-the-art detectors. The default set of analyses, metrics and visualizations offered by the tool follows the established practices of machine-generated text detection benchmarking found in state-of-the-art literature.
翻訳日:2023-11-23 00:40:15 公開日:2023-11-21
# モデルマーケットプレースをモデレーションする - AI仲介者のためのプラットフォームガバナンスのパズル

Moderating Model Marketplaces: Platform Governance Puzzles for AI Intermediaries ( http://arxiv.org/abs/2311.12573v1 )

ライセンス: Link先を確認
Robert Gorwa and Michael Veale(参考訳) AI開発コミュニティは、Hugging Faceのようなホスティング仲介サービスを利用して、ユーザのアップロードしたモデルやトレーニングデータへのアクセスを容易にしている。 これらのモデルマーケットプレースは、数十万人のユーザの技術的なデプロイメント障壁を低くするが、潜在的に有害で違法な多くの方法で使用できる。 本稿では、コンテンツとオープンなツールの両方を‘保持’できるAIシステムが、これまで見てきた最もトリッキーなプラットフォームガバナンスの課題の1つを提示する方法について説明する。 Hugging Face、GitHub、Civitaiの3つのプラットフォームにまたがるいくつかのインシデントについてケーススタディを行い、モデルマーケットプレースが適度なモデルをどのように扱うかを調べた。 この分析に基づいて、私たちは、ライセンス、アクセスおよび使用制限、自動コンテンツモデレーション、オープンポリシー開発といった、業界がモデレーション要求に対応するために開発してきた重要な(しかしながら限定的な)プラクティスを概説します。 手元にある政策課題は相当なものであるが、我々はプラットフォームが慎重に公平かつ比例的な規制アクセスポイントとして機能するために、リソースをよりよく動員できるかについて、いくつかのアイデアで締めくくっている。

The AI development community is increasingly making use of hosting intermediaries such as Hugging Face provide easy access to user-uploaded models and training data. These model marketplaces lower technical deployment barriers for hundreds of thousands of users, yet can be used in numerous potentially harmful and illegal ways. In this article, we explain ways in which AI systems, which can both `contain' content and be open-ended tools, present one of the trickiest platform governance challenges seen to date. We provide case studies of several incidents across three illustrative platforms -- Hugging Face, GitHub and Civitai -- to examine how model marketplaces moderate models. Building on this analysis, we outline important (and yet nevertheless limited) practices that industry has been developing to respond to moderation demands: licensing, access and use restrictions, automated content moderation, and open policy development. While the policy challenge at hand is a considerable one, we conclude with some ideas as to how platforms could better mobilize resources to act as a careful, fair, and proportionate regulatory access point.
翻訳日:2023-11-23 00:40:03 公開日:2023-11-21
# ソフトシールドを用いた安全強化学習による分散フレキシブルアセンブリラインのスケジューリング

Scheduling Distributed Flexible Assembly Lines using Safe Reinforcement Learning with Soft Shielding ( http://arxiv.org/abs/2311.12572v1 )

ライセンス: Link先を確認
Lele Li and Liyong Lin(参考訳) 高度に自動化された組立ラインは製造業、特に大量生産条件において、大幅な生産性向上を可能にしている。 それでも、メイク・ツー・ジョブのジョブスケジューリングや大量カスタマイズには課題が続き、効率の向上、難易度低減、安全性と信頼性の向上のためにさらなる調査が必要である。 本報告では,分散フレキシブルアセンブリラインのスケジューリング問題にリアルタイムに対処するために,アクタ批判に基づく強化学習手法を提案する。 そこで,より凝縮した環境表現手法を提案する。この手法は,優先度ディスパッチルールによるマスクと協調して,固定的かつ有利な行動空間を生成する。 さらに, モンテカルロ木探索に基づくソフトシールドコンポーネントを開発し, 長時間依存する安全でない動作に対処し, 過度なスケジューリングのリスクを監視する。 最後に,提案するアルゴリズムとそのソフト遮蔽成分を性能評価で検証する。

Highly automated assembly lines enable significant productivity gains in the manufacturing industry, particularly in mass production condition. Nonetheless, challenges persist in job scheduling for make-to-job and mass customization, necessitating further investigation to improve efficiency, reduce tardiness, promote safety and reliability. In this contribution, an advantage actor-critic based reinforcement learning method is proposed to address scheduling problems of distributed flexible assembly lines in a real-time manner. To enhance the performance, a more condensed environment representation approach is proposed, which is designed to work with the masks made by priority dispatching rules to generate fixed and advantageous action space. Moreover, a Monte-Carlo tree search based soft shielding component is developed to help address long-sequence dependent unsafe behaviors and monitor the risk of overdue scheduling. Finally, the proposed algorithm and its soft shielding component are validated in performance evaluation.
翻訳日:2023-11-23 00:39:41 公開日:2023-11-21
# CatLog-Derivative Trick を用いたカテゴリー分布の微分サンプリング

Differentiable Sampling of Categorical Distributions Using the CatLog-Derivative Trick ( http://arxiv.org/abs/2311.12569v1 )

ライセンス: Link先を確認
Lennert De Smet, Emanuele Sansone, Pedro Zuidberg Dos Martires(参考訳) カテゴリー的確率変数は、離散的潜在変数モデルの一部としてデータの離散的かつ不確実的側面を忠実に表現することができる。 このようなモデルでの学習は、分類的確率分布のパラメータに関して勾配を取る必要がある。 これらの難解勾配を推定する一般的な手法は、ログ微分トリックである。 このトリックは、よく知られたREINFORCE勾配推定器とその多くの拡張の基礎となる。 Log-Derivative のトリックは、分類的分布から引き出されたサンプルを通して区別することができるが、分布自体の離散的性質を考慮に入れない。 当社の最初のコントリビューションは、カテゴリ分布に合わせたCatLog-Derivativeトリックの導入による、この欠点に対処しています。 第二に、CatLog-Derivative(CatLog-Derivative)手法を用いて、ReINFORCEよりも明らかに低いばらつきを持つ独立カテゴリー分布の積の重要事例に対する、新規で偏りのない勾配推定器IndeCateRを導入する。 第3に、indecaterは効率的に実装でき、その勾配推定は、同じ数のサンプルに対するバイアスとばらつきが、アートの状況と比較して有意に低いことを実証的に示す。

Categorical random variables can faithfully represent the discrete and uncertain aspects of data as part of a discrete latent variable model. Learning in such models necessitates taking gradients with respect to the parameters of the categorical probability distributions, which is often intractable due to their combinatorial nature. A popular technique to estimate these otherwise intractable gradients is the Log-Derivative trick. This trick forms the basis of the well-known REINFORCE gradient estimator and its many extensions. While the Log-Derivative trick allows us to differentiate through samples drawn from categorical distributions, it does not take into account the discrete nature of the distribution itself. Our first contribution addresses this shortcoming by introducing the CatLog-Derivative trick - a variation of the Log-Derivative trick tailored towards categorical distributions. Secondly, we use the CatLog-Derivative trick to introduce IndeCateR, a novel and unbiased gradient estimator for the important case of products of independent categorical distributions with provably lower variance than REINFORCE. Thirdly, we empirically show that IndeCateR can be efficiently implemented and that its gradient estimates have significantly lower bias and variance for the same number of samples compared to the state of the art.
翻訳日:2023-11-23 00:39:25 公開日:2023-11-21
# 変分楕円過程

Variational Elliptical Processes ( http://arxiv.org/abs/2311.12566v1 )

ライセンス: Link先を確認
Maria B{\aa}nkestad, Jens Sj\"olund, Jalil Taghia, Thomas B. Sch\"oon(参考訳) 我々は,ガウス過程と学生のt過程を包含する非パラメトリック確率モデル群である楕円過程を提案する。 この一般化は、計算的トラクタビリティを維持しながら、様々な新しい重み付き挙動を含む。 楕円過程は、ガウス分布の連続混合として楕円分布の表現に基づいている。 この混合分布をスプライン正規化フローとしてパラメータ化し,変分推論を用いて学習する。 提案した変分後部の形状は,大規模な問題に適用可能なスパース変分楕円過程を可能にする。 回帰および分類実験によるガウス過程と比較して優位性を強調した。 楕円過程は、確率がガウス的でない場合や正確なテールモデリングが必要となる場合など、いくつかの設定でガウス過程に取って代わることができる。

We present elliptical processes, a family of non-parametric probabilistic models that subsume Gaussian processes and Student's t processes. This generalization includes a range of new heavy-tailed behaviors while retaining computational tractability. Elliptical processes are based on a representation of elliptical distributions as a continuous mixture of Gaussian distributions. We parameterize this mixture distribution as a spline normalizing flow, which we train using variational inference. The proposed form of the variational posterior enables a sparse variational elliptical process applicable to large-scale problems. We highlight advantages compared to Gaussian processes through regression and classification experiments. Elliptical processes can supersede Gaussian processes in several settings, including cases where the likelihood is non-Gaussian or when accurate tail modeling is essential.
翻訳日:2023-11-23 00:39:02 公開日:2023-11-21
# DisPLACE Challenge 2023の概要 -- 会話環境におけるSPeakerとLanguageのダイアリゼーション

Summary of the DISPLACE Challenge 2023 -- DIarization of SPeaker and LAnguage in Conversational Environments ( http://arxiv.org/abs/2311.12564v1 )

ライセンス: Link先を確認
Shikha Baghel, Shreyas Ramoji, Somil Jain, Pratik Roy Chowdhuri, Prachi Singh, Deepu Vijayasenan, Sriram Ganapathy(参考訳) 複数の言語が小さな地理的近傍で話される多言語社会では、非公式な会話はしばしば言語が混在する。 既存の音声技術は、音声データが複数の言語や話者の多様性に富んでいるような会話から情報を抽出するのに非効率である。 displace (diaarization of speaker and language in conversational environment) チャレンジは、この困難な条件下で話者と言語ダイアリゼーション技術を評価するためのオープンコールを構成する。 トラック1は多言語環境での話者ダイアリゼーション(SD)に焦点を当て、トラック2は多話者シナリオで言語ダイアリゼーション(LD)に対処した。 両トラックは同じ音声データを用いて評価された。 この評価を容易にするために,多言語・多話者対話型遠距離音声を用いた実世界のデータセットを作成した。 さらに、SDタスクとLDタスクの両方でベースラインシステムが利用可能となり、これらのタスクの最先端を模倣した。 このチャレンジは全世界で42ドルの登録金を集め、トラック1とトラック2の合計で19ドルの応募金を受け取った。 本稿では,課題,データセット,タスク,ベースラインシステムの詳細について述べる。 さらに,本論文では,提案したシステムの概要を両トラックで簡潔に概説し,上位のシステムに重点を置いている。 また,SDタスクとLDタスクに対する洞察と今後の展望を述べるとともに,このような会話に広範に展開する前に,システムが克服すべき重要な課題に焦点をあてる。

In multi-lingual societies, where multiple languages are spoken in a small geographic vicinity, informal conversations often involve mix of languages. Existing speech technologies may be inefficient in extracting information from such conversations, where the speech data is rich in diversity with multiple languages and speakers. The DISPLACE (DIarization of SPeaker and LAnguage in Conversational Environments) challenge constitutes an open-call for evaluating and bench-marking the speaker and language diarization technologies on this challenging condition. The challenge entailed two tracks: Track-1 focused on speaker diarization (SD) in multilingual situations while, Track-2 addressed the language diarization (LD) in a multi-speaker scenario. Both the tracks were evaluated using the same underlying audio data. To facilitate this evaluation, a real-world dataset featuring multilingual, multi-speaker conversational far-field speech was recorded and distributed. Furthermore, a baseline system was made available for both SD and LD task which mimicked the state-of-art in these tasks. The challenge garnered a total of $42$ world-wide registrations and received a total of $19$ combined submissions for Track-1 and Track-2. This paper describes the challenge, details of the datasets, tasks, and the baseline system. Additionally, the paper provides a concise overview of the submitted systems in both tracks, with an emphasis given to the top performing systems. The paper also presents insights and future perspectives for SD and LD tasks, focusing on the key challenges that the systems need to overcome before wide-spread commercial deployment on such conversations.
翻訳日:2023-11-23 00:38:53 公開日:2023-11-21
# 不均一地形のマルチレゾリューション平面領域抽出

Multi-Resolution Planar Region Extraction for Uneven Terrains ( http://arxiv.org/abs/2311.12562v1 )

ライセンス: Link先を確認
Yinghan Sun, Linfang Zheng, Hua Chen, Wei Zhang(参考訳) 本稿では,不均一な地形の平面領域を不整点雲計測から抽出する問題について検討する。 このような問題は、ロボット知覚移動のような様々なロボット応用において重要である。 既存の手法は環境から平面領域を効果的に抽出する有望な結果を示しているが、計算効率の低下や解像度の低下といった問題に悩まされることが多い。 そこで,本稿では,境界の精度と計算効率のバランスをとるマルチレゾリューション平面領域抽出手法を提案する。 本手法は,全サンプル点を局所幾何学的性質に従って分類し,マルチレゾリューションセグメンテーションを容易にするポイントワイズ分類前処理モジュールから開始する。 その後,octreeを用いて分類点を配置し,ノードの詳細な解析を行い,マルチレゾリューション平面セグメンテーションを完了させる。 提案手法の効率性とロバスト性は, 合成および実世界の実験により検証し, 実時間性能を維持しつつ, 種々の不均一な地形を効果的に一般化し, フレームレートが35FPSを超えることを示す。

This paper studies the problem of extracting planar regions in uneven terrains from unordered point cloud measurements. Such a problem is critical in various robotic applications such as robotic perceptive locomotion. While existing approaches have shown promising results in effectively extracting planar regions from the environment, they often suffer from issues such as low computational efficiency or loss of resolution. To address these issues, we propose a multi-resolution planar region extraction strategy in this paper that balances the accuracy in boundaries and computational efficiency. Our method begins with a pointwise classification preprocessing module, which categorizes all sampled points according to their local geometric properties to facilitate multi-resolution segmentation. Subsequently, we arrange the categorized points using an octree, followed by an in-depth analysis of nodes to finish multi-resolution plane segmentation. The efficiency and robustness of the proposed approach are verified via synthetic and real-world experiments, demonstrating our method's ability to generalize effectively across various uneven terrains while maintaining real-time performance, achieving frame rates exceeding 35 FPS.
翻訳日:2023-11-23 00:38:24 公開日:2023-11-21
# 非局所PDEと量子光学:周期原子サイテムのバンド構造

Nonlocal PDEs and quantum optics: band structure of periodic atomic sytems ( http://arxiv.org/abs/2311.12632v1 )

ライセンス: Link先を確認
Erik Orvehed Hiltunen, Joseph Kraisler, John C. Schotland, Michael I. Weinstein(参考訳) 我々は、2つの準位原子の系と相互作用する1つの光子の量子光学の研究を継続する。 本研究では、周期的な原子配置の事例について検討する。 この問題の帯域関数を特徴づける一般的な構造定理は、関連するハミルトニアンのスペクトルを構成する。 さらに,周期的に配列されたスケール包有物として生じる原子密度について検討した。 この例の族に対して、バンド関数の明示的な漸近式を得る。

We continue our study of the quantum optics of a single photon interacting with a system of two level atoms. In this work we investigate the case of a periodic arrangement of atoms. We provide a general structure theorem characterizing the band functions of this problem, which comprise the spectrum of the associated Hamiltonian. Additionally, we study atomic densities arising as periodically arranged scaled inclusions. For this family of examples, we obtain explicit asymptotic formulas for the band functions.
翻訳日:2023-11-23 00:31:32 公開日:2023-11-21
# 目標を用いた群集管理,犯罪検知,作業監視

Crowd management, crime detection, work monitoring using aiml ( http://arxiv.org/abs/2311.12621v1 )

ライセンス: Link先を確認
P.R.Adithya, Dheepak.S, B.Akash, Harshini.V and Sai Lakshana(参考訳) 本研究では,既存のクローズドサーキットテレビ(cctv)ネットワークの可能性を活用し,人工知能(ai)と機械学習(ml)技術の統合によるクラウド管理,犯罪防止,職場監視への包括的アプローチを目指している。 主な目的は、ビデオフィードのリアルタイム分析、群衆のダイナミクスの同定と評価、潜在的な犯罪行為の早期発見、職場環境の継続的な監視が可能な高度なアルゴリズムを開発・実装することである。 AI/MLを活用することで、プロジェクトは監視機能を最適化し、公共安全対策を強化し、組織の生産性を向上させることを目指している。 このイニシアチブは、インテリジェントビデオ分析が既存のインフラストラクチャに持つ変革的な影響を核としており、セキュリティと運用効率を著しく向上しながら、広範なシステムオーバーホールの必要性を軽減している。

This research endeavors to harness the potential of existing Closed-Circuit Television (CCTV) networks for a comprehensive approach to crowd management, crime prevention, and workplace monitoring through the integration of Artificial Intelligence (AI) and Machine Learning (ML) technologies. The primary objective is to develop and implement advanced algorithms capable of real-time analysis of video feeds, enabling the identification and assessment of crowd dynamics, early detection of potential criminal activities, and continuous monitoring of workplace environments. By leveraging AI/ML, the project aims to optimize surveillance capabilities, thereby enhancing public safety measures and improving organizational productivity. This initiative underscores the transformative impact that intelligent video analytics can have on existing infrastructure, mitigating the need for extensive system overhauls while significantly advancing security and operational efficiency.
翻訳日:2023-11-23 00:31:26 公開日:2023-11-21
# 開量子系における二次元対称性保護位相と遷移

Two-dimensional symmetry-protected topological phases and transitions in open quantum systems ( http://arxiv.org/abs/2311.12619v1 )

ライセンス: Link先を確認
Yuxuan Guo and Yuto Ashida(参考訳) 2次元(2次元)クラスター状態の対称性保護位相(SPT)位相に対する局所デコヒーレンスの影響について検討した。 デコヒーレンスの下での2次元クラスター状態を古典的なスピンモデルにマッピングし、$\mathbb{Z}_2^{(0)}\times\mathbb{Z}_{2}^{(1)}$ SPT 位相の位相遷移を有限デコヒーレンス強度で生じる自明な位相に変換する。 位相遷移を特徴付けるために,異なる位相的エッジ状態を持つ2つの非結合spt状態間の相対エントロピー,$\mathbb{z}_2^{(1)}$ chargeの奇妙な相関関数,ディスク上の混合状態の多成分ネガティリティという,3つの異なる診断手法を用いた。 全ての診断は、対応する古典的モデルの特定の熱力学量として得ることができ、3つの診断結果が互いに一致している。 2次元クラスター状態が測定ベースの量子計算の文脈で普遍的な計算能力を持っていることを考慮すれば、ここで見られる位相遷移は計算力の遷移と解釈できる。

We investigate the influence of local decoherence on a symmetry-protected topological (SPT) phase of the two-dimensional (2D) cluster state. Mapping the 2D cluster state under decoherence to a classical spin model, we show a topological phase transition of a $\mathbb{Z}_2^{(0)}\times\mathbb{Z}_{2}^{(1)}$ SPT phase into the trivial phase occurring at a finite decoherence strength. To characterize the phase transition, we employ three distinct diagnostic methods, namely, the relative entropy between two decohered SPT states with different topological edge states, the strange correlation function of $\mathbb{Z}_2^{(1)}$ charge, and the multipartite negativity of the mixed state on a disk. All the diagnostics can be obtained as certain thermodynamic quantities in the corresponding classical model, and the results of three diagnostic tests are consistent with each other. Given that the 2D cluster state possesses universal computational capabilities in the context of measurement-based quantum computation, the topological phase transition found here can also be interpreted as a transition in the computational power.
翻訳日:2023-11-23 00:31:10 公開日:2023-11-21
# 量子機械学習における測度優先プロトコルの限界

Limitations of measure-first protocols in quantum machine learning ( http://arxiv.org/abs/2311.12618v1 )

ライセンス: Link先を確認
Casper Gyurik, Riccardo Molteni, Vedran Dunjko(参考訳) 近年の研究では、古典的陰影法や影断層法など、いわゆるランダム化計測方略に関して、多くの進歩がなされている。 このような戦略では、未知の量子状態が最初に測定され(または `learned'')、量子状態のいくつかの望ましい性質を推論(または ` `predict'')するのに使用できる古典的なデータを得る。 使用した測定手順が固定されたとしても、驚くほど異なる量の指数数の推定は、測定データの多項式量から得ることができる。 これは、`measure-first''戦略がどれほど強力であるかという疑問を提起し、特に、すべての量子機械学習問題が、測定ファースト、分析-後のスキームで解決できるかどうかを問う。 本稿では,量子データからの学習における測定優先プロトコルの可能性と限界について検討する。 量子状態がデータポイントを構成する自然な教師付き学習環境について検討し、ラベルは未知の測定から導かれる。 本稿では, 量子データをすべて固定された測定方法を用いて測定する‘measure-first’プロトコルと, トレーニングプロセス中に測定を適応する‘fully-quantum’プロトコルの2種類の機械学習プロトコルについて検討する。 私たちの主な成果は分離の証明です。 完全量子プロトコルによって効率的に学習できるが、測度優先プロトコルには指数的なリソースを必要とする学習問題が存在することを実証する。 さらに、この分離は多項式サイズの量子回路のような多項式時間量子プロセスで作成できる量子データに対しても持続することを示す。 我々の証明は一方的な通信複雑性と擬似ランダム量子状態の手法を組み合わせる。 その結果、機械学習における量子データ処理の役割を強調し、量子アドバンテージが現れるシナリオを強調した。

In recent works, much progress has been made with regards to so-called randomized measurement strategies, which include the famous methods of classical shadows and shadow tomography. In such strategies, unknown quantum states are first measured (or ``learned''), to obtain classical data that can be used to later infer (or ``predict'') some desired properties of the quantum states. Even if the used measurement procedure is fixed, surprisingly, estimations of an exponential number of vastly different quantities can be obtained from a polynomial amount of measurement data. This raises the question of just how powerful ``measure-first'' strategies are, and in particular, if all quantum machine learning problems can be solved with a measure-first, analyze-later scheme. This paper explores the potential and limitations of these measure-first protocols in learning from quantum data. We study a natural supervised learning setting where quantum states constitute data points, and the labels stem from an unknown measurement. We examine two types of machine learning protocols: ``measure-first'' protocols, where all the quantum data is first measured using a fixed measurement strategy, and ``fully-quantum'' protocols where the measurements are adapted during the training process. Our main result is a proof of separation. We prove that there exist learning problems that can be efficiently learned by fully-quantum protocols but which require exponential resources for measure-first protocols. Moreover, we show that this separation persists even for quantum data that can be prepared by a polynomial-time quantum process, such as a polynomially-sized quantum circuit. Our proofs combine methods from one-way communication complexity and pseudorandom quantum states. Our result underscores the role of quantum data processing in machine learning and highlights scenarios where quantum advantages appear.
翻訳日:2023-11-23 00:30:48 公開日:2023-11-21
# 自己教師付きコントラスト学習による3次元医用画像分割のためのラベルなしデータ活用

Leveraging Unlabeled Data for 3D Medical Image Segmentation through Self-Supervised Contrastive Learning ( http://arxiv.org/abs/2311.12617v1 )

ライセンス: Link先を確認
Sanaz Karimijafarbigloo, Reza Azad, Yury Velichko, Ulas Bagci, Dorit Merhof(参考訳) 現在の3次元半教師付きセグメンテーション手法は、文脈情報の限定的な考慮や、効果的な教師なしデータ利用のための信頼できる擬似ラベルを生成することができないなど、重大な課題に直面している。 これらの課題に対処するために,両者の相違点を探索し,活用するために設計された2つの異なるサブネットワークを導入し,最終的に誤予測結果を補正する。 具体的には、一貫性のない予測領域を特定し、対象とする検証トレーニングプロセスを開始する。 この手順は戦略的に微調整され、サブネットワークの予測と調和し、コンテキスト情報の利用が促進される。 さらに,ネットワークの表現能力を適応的に微調整し,予測の不確かさを低減するために,自己教師型コントラスト学習パラダイムを用いる。 そのため、信頼できない予測と信頼できない予測を区別するために、ネットワークの信頼性を利用する。 モデルは、信頼性の低い予測を効果的に最小化するように訓練される。 臨床mriおよびctスキャンから得られた臓器分画術の実験結果は,最先端法と比較して,本手法の有効性を示す。 コードベースは \href{https://github.com/xmindflow/SSL-contrastive}{GitHub} でアクセスできる。

Current 3D semi-supervised segmentation methods face significant challenges such as limited consideration of contextual information and the inability to generate reliable pseudo-labels for effective unsupervised data use. To address these challenges, we introduce two distinct subnetworks designed to explore and exploit the discrepancies between them, ultimately correcting the erroneous prediction results. More specifically, we identify regions of inconsistent predictions and initiate a targeted verification training process. This procedure strategically fine-tunes and harmonizes the predictions of the subnetworks, leading to enhanced utilization of contextual information. Furthermore, to adaptively fine-tune the network's representational capacity and reduce prediction uncertainty, we employ a self-supervised contrastive learning paradigm. For this, we use the network's confidence to distinguish between reliable and unreliable predictions. The model is then trained to effectively minimize unreliable predictions. Our experimental results for organ segmentation, obtained from clinical MRI and CT scans, demonstrate the effectiveness of our approach when compared to state-of-the-art methods. The codebase is accessible on \href{https://github.com/xmindflow/SSL-contrastive}{GitHub}.
翻訳日:2023-11-23 00:30:19 公開日:2023-11-21
# エピソディックメモリを用いたコープマン学習

Koopman Learning with Episodic Memory ( http://arxiv.org/abs/2311.12615v1 )

ライセンス: Link先を確認
William T. Redman, Dean Huang, Maria Fonoberova, Igor Mezi\'c(参考訳) データ駆動動的システムフレームワークであるKoopman演算子理論は、複雑な実世界のデータセットからモデルを学習し、最先端の予測と制御を可能にした。 これらのモデルの解釈性と計算コストの増大は、従来の機械学習手法と比較して、koopman学習を特に魅力的なアプローチにする。 それにもかかわらず、クープマンの学習に自分自身の誤りから学ぶ能力を与えるための研究はほとんど行われていない。 そこで我々は,非定常時間系列の予測のために開発されたKoopman法をエピソードメモリ機構で実現し,類似のダイナミクスが以前に発生した時間帯のグローバルリコール(あるいは注意)を可能にする。 エピソディックメモリを用いたkoopman学習の基本的な実装は,合成データおよび実世界のデータに対する予測の大幅な改善をもたらすことが判明した。 われわれのフレームワークは拡張可能性があり、今後の進歩を可能にし、クープマン学習のためのエキサイティングな新しい方向性を開く。

Koopman operator theory, a data-driven dynamical systems framework, has found significant success in learning models from complex, real-world data sets, enabling state-of-the-art prediction and control. The greater interpretability and lower computational costs of these models, compared to traditional machine learning methodologies, make Koopman learning an especially appealing approach. Despite this, little work has been performed on endowing Koopman learning with the ability to learn from its own mistakes. To address this, we equip Koopman methods - developed for predicting non-stationary time-series - with an episodic memory mechanism, enabling global recall of (or attention to) periods in time where similar dynamics previously occurred. We find that a basic implementation of Koopman learning with episodic memory leads to significant improvements in prediction on synthetic and real-world data. Our framework has considerable potential for expansion, allowing for future advances, and opens exciting new directions for Koopman learning.
翻訳日:2023-11-23 00:30:00 公開日:2023-11-21
# 満足度基準付きマルチエージェントマルコフ決定プロセスのための分散Qラーニング

Decentralised Q-Learning for Multi-Agent Markov Decision Processes with a Satisfiability Criterion ( http://arxiv.org/abs/2311.12613v1 )

ライセンス: Link先を確認
Keshav P. Keval, Vivek S. Borkar(参考訳) 本稿では,マルチエージェントマルコフ決定過程(MMDP)を解決するための強化学習アルゴリズムを提案する。 ブラックウェルのアプローチ可能性理論にインスパイアされた目標は、各エージェントの時間平均コストを、指定されたエージェント固有の境界以下に下げることである。 MMDPの場合、状態ダイナミクスはエージェントのジョイントアクションによって制御されると仮定するが、ステージごとのコストは個々のエージェントのアクションにのみ依存する。 我々は,ゴシップアルゴリズムとメトロポリス・ハスティングス(Metropolis-Hastings)あるいはマルチプライシティブ・ウェイト(Multipleplicative Weights)の定式化によって得られた各エージェントのコストの重み付けにQ-ラーニングアルゴリズムを組み合わせることにより,ゴシップの平均行列を変調する。 アルゴリズムでは複数の時間尺度を用い,穏やかな条件下において,エージェントのそれぞれに対する所望の限界をほぼ達成できることを証明する。 また、このアルゴリズムの実証的な性能を、段別コストを共同制御したMMDPのより一般的な設定で示す。

In this paper, we propose a reinforcement learning algorithm to solve a multi-agent Markov decision process (MMDP). The goal, inspired by Blackwell's Approachability Theorem, is to lower the time average cost of each agent to below a pre-specified agent-specific bound. For the MMDP, we assume the state dynamics to be controlled by the joint actions of agents, but the per-stage costs to only depend on the individual agent's actions. We combine the Q-learning algorithm for a weighted combination of the costs of each agent, obtained by a gossip algorithm with the Metropolis-Hastings or Multiplicative Weights formalisms to modulate the averaging matrix of the gossip. We use multiple timescales in our algorithm and prove that under mild conditions, it approximately achieves the desired bounds for each of the agents. We also demonstrate the empirical performance of this algorithm in the more general setting of MMDPs having jointly controlled per-stage costs.
翻訳日:2023-11-23 00:29:43 公開日:2023-11-21
# 連続乱数変数の右翼確率に基づく上下境界の新しいタイプ

A New Type Of Upper And Lower Bounds On Right-Tail Probabilities Of Continuous Random Variables ( http://arxiv.org/abs/2311.12612v1 )

ライセンス: Link先を確認
Nikola Zlatanov(参考訳) 本稿では,非有界支持と半有界支持を持つ連続確率変数の右尾確率に対して,左からの半有界支持と全く新しい上下有界分布を示す。 提示される右辺と下辺の境界は、確率密度関数(PDF)、その第一微分、および境界を締め付けるために使用される2つのパラメータにのみ依存する。 これらのテール境界は、PDF、その第1および第2微分、および2つのパラメータに依存する特定の条件の下で保持される。 新しいテール境界は、数値的な例を通して、幅広い連続確率変数に対して厳密であることが示されている。

In this paper, I present a completely new type of upper and lower bounds on the right-tail probabilities of continuous random variables with unbounded support and with semi-bounded support from the left. The presented upper and lower right-tail bounds depend only on the probability density function (PDF), its first derivative, and two parameters that are used for tightening the bounds. These tail bounds hold under certain conditions that depend on the PDF, its first and second derivatives, and the two parameters. The new tail bounds are shown to be tight for a wide range of continuous random variables via numerical examples.
翻訳日:2023-11-23 00:29:23 公開日:2023-11-21
# ChessVision -- 論理的コヒーレントなマルチラベル分類のためのデータセット

ChessVision -- A Dataset for Logically Coherent Multi-label Classification ( http://arxiv.org/abs/2311.12610v1 )

ライセンス: Link先を確認
Soumadeep Saha, Utpal Garain(参考訳) コンピュータビジョンタスクの初期の成功から始まり、ディープラーニングベースの技術は、多くの領域で最先端の技術アプローチを追い越してきた。 しかし、これらの手法が意味的文脈や論理的制約を捉えず、答えに到達するには素早い相関に依存することが何度も示されてきた。 批判シナリオへのディープラーニング技術の適用は、ドメイン固有の制約の遵守に依存しているため、この問題に対処するためのいくつかの試みがなされている。 この領域の徹底的な探索を控える制限のひとつは、豊富なルールを特徴とする適切なデータセットの欠如である。 そこで本研究では,現在進行中の20万点以上の画像からなるチェスビジョンデータセットを提示し,対応する画像からゲーム状態の再現を要求できることを示す。 これは、予測のセットを「合理的」なゲーム状態に制限する一連のルールを伴い、ローカライゼーションや列挙のようなキーセマンティックな能力を探索するように設計されている。 標準的なメトリクスに加えて、論理的一貫性に関するパフォーマンスを測定するための追加メトリクスも提示される。 我々は,このタスクにおけるアートビジョンモデルの人気と現状を分析し,標準メトリクスのパフォーマンスは評価可能であるが,無矛盾な結果が多数得られており,このデータセットが今後の作業において重要な課題であることを示す。

Starting with early successes in computer vision tasks, deep learning based techniques have since overtaken state of the art approaches in a multitude of domains. However, it has been demonstrated time and again that these techniques fail to capture semantic context and logical constraints, instead often relying on spurious correlations to arrive at the answer. Since application of deep learning techniques to critical scenarios are dependent on adherence to domain specific constraints, several attempts have been made to address this issue. One limitation holding back a thorough exploration of this area, is a lack of suitable datasets which feature a rich set of rules. In order to address this, we present the ChessVision Dataset, consisting of 200,000+ images of annotated chess games in progress, requiring recreation of the game state from its corresponding image. This is accompanied by a curated set of rules which constrains the set of predictions to "reasonable" game states, and are designed to probe key semantic abilities like localization and enumeration. Alongside standard metrics, additional metrics to measure performance with regards to logical consistency is presented. We analyze several popular and state of the art vision models on this task, and show that, although their performance on standard metrics are laudable, they produce a plethora of incoherent results, indicating that this dataset presents a significant challenge for future works.
翻訳日:2023-11-23 00:29:10 公開日:2023-11-21
# 半教師付きオブジェクト指向物体検出のための適応密度擬似ラベル選択

Adaptive Dense Pseudo Label Selection for Semi-supervised Oriented Object Detection ( http://arxiv.org/abs/2311.12608v1 )

ライセンス: Link先を確認
Tong Zhao and Qiang Fang and Shuohao Shi and Xin Xu(参考訳) 近年,教師モデルの本来の出力から擬似ラベルを複雑な後処理ステップなしで直接選択する擬似ラベルが,半教師対象検出(SSOD)において注目されている。 しかし、空中シーンに共通する多方向・高密度物体に対しては、既存の擬似ラベル選択法は非効率であり、半教師対象検出の性能を損なう。 そこで我々は,半教師付きオブジェクト指向物体検出のためのAdaptive Dense Pseudo Label Selection (ADPLS)を提案する。 ADPLSでは,高密度な擬似ラベルの選択を誘導するシンプルな適応機構を設計する。 具体的には,潜在的な物体の密度を推定するために平均特徴豊かさスコア(mfrs)を提案し,このスコアを用いて高密度擬似ラベル数を調整する。 DOTA-v1.5ベンチマークでは,ラベル付きデータが少ない場合,提案手法は従来手法よりも優れていた。 例えば、アノテートデータの5%しか与えられていない49.78 mAPは、アノテートデータの10%を1.15 mAPで上回っている。 私たちのコードはもうすぐ入手できる。

Recently, dense pseudo-label, which directly selects pseudo labels from the original output of the teacher model without any complicated post-processing steps, has received considerable attention in semi-supervised object detection (SSOD). However, for the multi-oriented and dense objects that are common in aerial scenes, existing dense pseudo-label selection methods are inefficient and impede the performance in semi-supervised oriented object detection. Therefore, we propose Adaptive Dense Pseudo Label Selection (ADPLS) for semi-supervised oriented object detection. In ADPLS, we design a simple but effective adaptive mechanism to guide the selection of dense pseudo labels. Specifically, we propose the mean Feature-Richness Score (mFRS) to estimate the density of potential objects and use this score to adjust the number of dense pseudo labels. On the DOTA-v1.5 benchmark, the proposed method outperforms previous methods especially when labeled data are scarce. For example, it achieves 49.78 mAP given only 5% of annotated data, which surpasses previous state-of-the-art method given 10% of annotated data by 1.15 mAP. Our codes will be available soon.
翻訳日:2023-11-23 00:28:36 公開日:2023-11-21
# 信頼できるAI:何を決定するかを決める

Trustworthy AI: Deciding What to Decide ( http://arxiv.org/abs/2311.12604v1 )

ライセンス: Link先を確認
Caesar Wu, Yuan-Fang Li, Jian Li, Jingjing Xu, Bouvry Pascal(参考訳) 戦略的意思決定に携わるときには、圧倒的な情報やデータに直面することが多い。 この状況は、ある証拠が互いに矛盾したり、パラドックスになったりするときにさらに複雑になる。 最大の課題は、意思決定に人工知能(AI)システムを採用する際に、どの情報を信頼できるかを決定する方法です。 この問題は、何を決めるか、あるいは信頼できるAIを決定することで知られている。 しかし、AIシステム自体は不透明なブラックボックスと見なされることが多い。 本稿では,AIの3つの重要な構成要素である表現空間,損失関数,オプティマイザを含む,信頼に値するAI(TAI)の新たなフレームワークを導入することで,この問題に対処する新たなアプローチを提案する。 各コンポーネントは4つのTAIプロパティと疎結合である。 フレームワークは12のTAIプロパティで構成されている。 我々は,この枠組みを用いて,意思決定コンテキストにおけるTAI特性を満たす定量的,定性的な研究手法によるTAI実験を実施することを目指している。 このフレームワークは、技術セクターにおけるCDS(クレジットデフォルトスワップ)の戦略的投資決定を適用するために、与えられたデータセットによってトレーニングされた最適な予測モデルを定式化することができる。 最後に,TAI研究の今後の方向性について考察する。

When engaging in strategic decision-making, we are frequently confronted with overwhelming information and data. The situation can be further complicated when certain pieces of evidence contradict each other or become paradoxical. The primary challenge is how to determine which information can be trusted when we adopt Artificial Intelligence (AI) systems for decision-making. This issue is known as deciding what to decide or Trustworthy AI. However, the AI system itself is often considered an opaque black box. We propose a new approach to address this issue by introducing a novel framework of Trustworthy AI (TAI) encompassing three crucial components of AI: representation space, loss function, and optimizer. Each component is loosely coupled with four TAI properties. Altogether, the framework consists of twelve TAI properties. We aim to use this framework to conduct the TAI experiments by quantitive and qualitative research methods to satisfy TAI properties for the decision-making context. The framework allows us to formulate an optimal prediction model trained by the given dataset for applying the strategic investment decision of credit default swaps (CDS) in the technology sector. Finally, we provide our view of the future direction of TAI research
翻訳日:2023-11-23 00:28:03 公開日:2023-11-21
# 位相認識のためのシーケンス規則化を伴う手術時行動認識ネットワーク

Surgical Temporal Action-aware Network with Sequence Regularization for Phase Recognition ( http://arxiv.org/abs/2311.12603v1 )

ライセンス: Link先を確認
Zhen Chen, Yuhao Zhai, Jun Zhang, Jinqiao Wang(参考訳) 外科的位相認識は手術映像の包括的理解を必要とするコンピュータ支援手術システムの開発において重要である。 既存の研究は大きな進歩を遂げたが、まだ改善に値する2つの重要な制限がある。 第一に, 資源消費の妥協により, 2次元ネットワークによりフレームワイズな視覚特徴を抽出し, 手術行動の空間的, 時間的知識を無視して, フェーズ予測のためのフレーム間モデリングを阻害する。 第二に、これらの研究は単に1ホット位相ラベルによる通常の分類損失を利用して位相予測を最適化し、不十分な監督下での手術ビデオを完全に探索することができない。 この2つの限界を克服するために,star-netというシーケンス正規化を用いた手術時行動認識ネットワークを提案し,入力映像から手術相をより正確に認識する。 具体的には,2dネットワークのコストで,視覚特徴と手術行動の空間的,時間的知識を統合した,効率的な多スケール手術時効行動モジュールを提案する。 さらに,dual-classifier sequence regularization (dsr) を考案し,より少ない容量で補助分類器のシーケンスガイダンスによりstar-netのトレーニングを容易にする。 ms-sta と dsr を用いた star-net は,手術動作の視覚的特徴を効果的な正則化で活用することができ,手術相認識の性能が向上する。 大規模胃切除手術データセットと公開cholec80ベンチマークの広範な実験により,star-netは手術相認識の最先端を著しく上回っていることが判明した。

To assist surgeons in the operating theatre, surgical phase recognition is critical for developing computer-assisted surgical systems, which requires comprehensive understanding of surgical videos. Although existing studies made great progress, there are still two significant limitations worthy of improvement. First, due to the compromise of resource consumption, frame-wise visual features are extracted by 2D networks and disregard spatial and temporal knowledge of surgical actions, which hinders subsequent inter-frame modeling for phase prediction. Second, these works simply utilize ordinary classification loss with one-hot phase labels to optimize the phase predictions, and cannot fully explore surgical videos under inadequate supervision. To overcome these two limitations, we propose a Surgical Temporal Action-aware Network with sequence Regularization, named STAR-Net, to recognize surgical phases more accurately from input videos. Specifically, we propose an efficient multi-scale surgical temporal action (MS-STA) module, which integrates visual features with spatial and temporal knowledge of surgical actions at the cost of 2D networks. Moreover, we devise the dual-classifier sequence regularization (DSR) to facilitate the training of STAR-Net by the sequence guidance of an auxiliary classifier with a smaller capacity. Our STAR-Net with MS-STA and DSR can exploit visual features of surgical actions with effective regularization, thereby leading to the superior performance of surgical phase recognition. Extensive experiments on a large-scale gastrectomy surgery dataset and the public Cholec80 benchmark prove that our STAR-Net significantly outperforms state-of-the-arts of surgical phase recognition.
翻訳日:2023-11-23 00:27:36 公開日:2023-11-21
# TouchSDF:視覚に基づく触覚センシングを用いた3次元形状再構成のためのDeepSDFアプローチ

TouchSDF: A DeepSDF Approach for 3D Shape Reconstruction using Vision-Based Tactile Sensing ( http://arxiv.org/abs/2311.12602v1 )

ライセンス: Link先を確認
Mauro Comi, Yijiong Lin, Alex Church, Alessio Tonioni, Laurence Aitchison, Nathan F. Lepora(参考訳) 人間は視覚と触覚に頼り、身体環境の総合的な3D理解を開発する。 近年,高解像度視覚ベースの触覚センサを活用したデータ駆動型アプローチによる物体の探索・操作への関心が高まっている。 しかし,触覚センシングを用いた3次元形状復元は,非知覚形状を一般化できないこと,実世界テストが存在しないこと,離散表現による表現能力の制限など,既存の技術の限界から,視覚形状再構成に遅れを取っている。 そこで本研究では,視覚型触覚センサの豊富な情報と暗黙的神経表現であるdeepsdfの表現性を活用する,触覚3次元形状再構成のための深層学習手法であるtouchsdfを提案する。 本手法は,(1)触覚画像をタッチ位置の局所メッシュにマッピングする畳み込みニューラルネットワーク,(2)署名された距離関数を予測して所望の3次元形状を抽出する暗黙的ニューラルネットワークの2つのコンポーネントから構成される。 この組み合わせにより、TouchSDFは触覚入力と実世界設定から滑らかで連続的な3D形状を再構築し、堅牢な3D認識表現のための研究の道を開き、ロボット工学におけるマルチモーダル認識を改善した。 コードと補足資料は、https://touchsdf.github.io/で入手できる。

Humans rely on their visual and tactile senses to develop a comprehensive 3D understanding of their physical environment. Recently, there has been a growing interest in exploring and manipulating objects using data-driven approaches that utilise high-resolution vision-based tactile sensors. However, 3D shape reconstruction using tactile sensing has lagged behind visual shape reconstruction because of limitations in existing techniques, including the inability to generalise over unseen shapes, the absence of real-world testing, and limited expressive capacity imposed by discrete representations. To address these challenges, we propose TouchSDF, a Deep Learning approach for tactile 3D shape reconstruction that leverages the rich information provided by a vision-based tactile sensor and the expressivity of the implicit neural representation DeepSDF. Our technique consists of two components: (1) a Convolutional Neural Network that maps tactile images into local meshes representing the surface at the touch location, and (2) an implicit neural function that predicts a signed distance function to extract the desired 3D shape. This combination allows TouchSDF to reconstruct smooth and continuous 3D shapes from tactile inputs in simulation and real-world settings, opening up research avenues for robust 3D-aware representations and improved multimodal perception in robotics. Code and supplementary material are available at: https://touchsdf.github.io/
翻訳日:2023-11-23 00:26:26 公開日:2023-11-21
# H&E乳癌全スライド画像における低酸素に伴う形態的特徴の深層学習による検出

Deep learning-based detection of morphological features associated with hypoxia in H&E breast cancer whole slide images ( http://arxiv.org/abs/2311.12601v1 )

ライセンス: Link先を確認
Petru Manescu, Joseph Geradts and Delmiro Fernandez-Reyes(参考訳) 低酸素症は腫瘍細胞が血液供給量を上回ると発生し、腫瘍内の酸素濃度の低い領域につながる。 低酸素濃度の計算は、腫瘍の生物学、臨床経過、治療に対する反応を理解するための重要なステップとなる。 本研究は,乳癌組織形態学の文脈で低酸素血症を評価するための深層学習の新たな応用を示す。 より正確には、Weakly Supervised Deep Learning (WSDL)モデルが、通常のHematoxylinおよびEosinの全スライド画像(WSI)において、低酸素に関連する特徴を正確に検出できることが示されている。 乳がん一次部位(n=240)のwsi h&e組織から得られたタイルについて, 平均0.87のaucを得るための, 深層マルチインスタンス学習モデルを訓練し, 評価した。 また, WSDLモデルでは, 低酸素と高酸素の組織領域の特徴に有意な差が認められた。 このようなdl hypoxia h&e wsi検出モデルは、他の腫瘍タイプに拡張できる可能性があり、追加のコストを要することなく、病理ワークフローに容易に統合できる。

Hypoxia occurs when tumour cells outgrow their blood supply, leading to regions of low oxygen levels within the tumour. Calculating hypoxia levels can be an important step in understanding the biology of tumours, their clinical progression and response to treatment. This study demonstrates a novel application of deep learning to evaluate hypoxia in the context of breast cancer histomorphology. More precisely, we show that Weakly Supervised Deep Learning (WSDL) models can accurately detect hypoxia associated features in routine Hematoxylin and Eosin (H&E) whole slide images (WSI). We trained and evaluated a deep Multiple Instance Learning model on tiles from WSI H&E tissue from breast cancer primary sites (n=240) obtaining on average an AUC of 0.87 on a left-out test set. We also showed significant differences between features of hypoxic and normoxic tissue regions as distinguished by the WSDL models. Such DL hypoxia H&E WSI detection models could potentially be extended to other tumour types and easily integrated into the pathology workflow without requiring additional costly assays.
翻訳日:2023-11-23 00:25:53 公開日:2023-11-21
# 一体還元密度行列関数論における多体量子資源の抽出

Extracting Many-Body Quantum Resources within One-Body Reduced Density Matrix Functional Theory ( http://arxiv.org/abs/2311.12596v1 )

ライセンス: Link先を確認
Carlos L. Benavides-Riveros, Tomasz Wasak, Alessio Recati(参考訳) 量子フィッシャー情報(Quantum Fisher information, QFI)は、量子科学において、パラメータ推定の最終的な精度限界の定量化、量子相転移の検出、真のマルチパーティの絡み合いの目撃、非局所性の探索に使用される中心的な概念である。 この広範囲のアプリケーションにもかかわらず、量子多体システムのQFI値を計算することは、一般に非常に要求の多いタスクである。 ここでは、汎関数理論と量子情報からのアイデアを組み合わせて、フェルミオン基底状態とボゾン基底状態のQFIのための新しい機能的枠組みを開発する。 制約探索手法を用いることで、QFIの行列値は1体還元密度行列 (1-RDM) によって普遍的に決定できることを示し、指数関数的に大きな波動関数を用いることを避けることができる。 さらに,QFI関数は結合強度に関する微分を計算することにより,普遍的な1-RDM関数から決定できることを示し,QFI関数の生成関数となる。 本稿では,Bose-Hubbardモデルおよび解析的および数値的QFI関数について述べる。 この結果から, 1体還元密度行列汎関数理論と量子フィッシャー情報との初接続が得られた。

Quantum Fisher information (QFI) is a central concept in quantum sciences used to quantify the ultimate precision limit of parameter estimation, detect quantum phase transitions, witness genuine multipartite entanglement, or probe nonlocality. Despite this widespread range of applications, computing the QFI value of quantum many-body systems is, in general, a very demanding task. Here we combine ideas from functional theories and quantum information to develop a novel functional framework for the QFI of fermionic and bosonic ground states. By relying upon the constrained-search approach, we demonstrate that the QFI matricial values can universally be determined by the one-body reduced density matrix (1-RDM), avoiding thus the use of exponentially large wave functions. Furthermore, we show that QFI functionals can be determined from the universal 1-RDM functional by calculating its derivatives with respect to the coupling strengths, becoming thus the generating functional of the QFI. We showcase our approach with the Bose-Hubbard model and present exact analytical and numerical QFI functionals. Our results provide the first connection between the one-body reduced density matrix functional theory and the quantum Fisher information.
翻訳日:2023-11-23 00:25:31 公開日:2023-11-21
# ハンドアイ校正

Hand-Eye Calibration ( http://arxiv.org/abs/2311.12655v1 )

ライセンス: Link先を確認
Radu Horaud and Fadi Dornaika(参考訳) ロボットハンドにセンサを装着する場合には,センサと手の関係を知ることが重要である。 この関係を決定する問題は手目校正と呼ばれ、これは少なくとも2種類のタスクにおいて重要である。 (i)ロボット作業空間における地図センサを中心とした計測と (ii)ロボットがセンサーを正確に動かせるようにする。 過去には、カメラの特定のケースでいくつかの解決策が提案された。 ほとんど例外なく、すべての既存の解は同次行列方程式 AX=XB を解こうとする。 まず,手目キャリブレーション問題の定式化が2つ存在することを示す。 一つの定式化は、我々が先ほど述べた古典的なものである。 第二の定式化は以下の等質行列方程式の形式をとる: MY=M'YB。 後者の利点は、外在型および内在型カメラパラメータを明示する必要がないことである。 実際、この定式化はカメラの2つの位置と関連する3×4の視点行列(MとM')を直接使用する。 さらに、この定式化と古典的な定式化は、ロボットハンドに対してキャリブレーションされるカメラベースのセンサーの幅広い範囲をカバーする。 第2に, 2つの定式化を用いて, 手目校正問題に対する共通数学的枠組みを考案する。 2つの方法を紹介します (i)次に回転して翻訳する (ii)回転および翻訳のための非線形解法。 第3に、我々は2つの方法と古典線形法の両方に対して安定性解析を行う。 この比較から, 回転と変換を同時に解く非線形最適化手法は, 雑音や測定誤差に対して最も頑健な手法であると考えられる。

Whenever a sensor is mounted on a robot hand it is important to know the relationship between the sensor and the hand. The problem of determining this relationship is referred to as hand-eye calibration, which is important in at least two types of tasks: (i) map sensor centered measurements into the robot workspace and (ii) allow the robot to precisely move the sensor. In the past some solutions were proposed in the particular case of a camera. With almost no exception, all existing solutions attempt to solve the homogeneous matrix equation AX=XB. First we show that there are two possible formulations of the hand-eye calibration problem. One formulation is the classical one that we just mentioned. A second formulation takes the form of the following homogeneous matrix equation: MY=M'YB. The advantage of the latter is that the extrinsic and intrinsic camera parameters need not be made explicit. Indeed, this formulation directly uses the 3 by 4 perspective matrices (M and M') associated with two positions of the camera. Moreover, this formulation together with the classical one cover a wider range of camera-based sensors to be calibrated with respect to the robot hand. Second, we develop a common mathematical framework to solve for the hand-eye calibration problem using either of the two formulations. We present two methods, (i) a rotation then translation and (ii) a non-linear solver for rotation and translation. Third, we perform a stability analysis both for our two methods and for the classical linear method developed. In the light of this comparison, the non-linear optimization method, that solves for rotation and translation simultaneously, seems to be the most robust one with respect to noise and to measurement errors.
翻訳日:2023-11-23 00:17:31 公開日:2023-11-21
# park: パーキンソン病の遠隔運動学的解析

PARK: Parkinson's Analysis with Remote Kinetic-tasks ( http://arxiv.org/abs/2311.12654v1 )

ライセンス: Link先を確認
Md Saiful Islam, Sangwu Lee, Abdelrahman Abdelkader, Sooyong Park, Ehsan Hoque(参考訳) 本稿では,パーキンソン病(PD)をスクリーニングするためのWebベースのフレームワークを提案する。 我々のWebフレームワークは,ユーザに対して,音声,表情,指の動きを含む3つのタスクを完了させる。 タスクビデオは、ユーザがPDの兆候を示すかどうかを分類するために分析される。 治療やケアにさらにアクセスするためのパーソナライズされたリソースとともに,分かりやすい方法で結果を提示する。 我々のフレームワークはあらゆる主要なWebブラウザからアクセス可能であり、神経学的ケアへのグローバルアクセスを改善している。

We present a web-based framework to screen for Parkinson's disease (PD) by allowing users to perform neurological tests in their homes. Our web framework guides the users to complete three tasks involving speech, facial expression, and finger movements. The task videos are analyzed to classify whether the users show signs of PD. We present the results in an easy-to-understand manner, along with personalized resources to further access to treatment and care. Our framework is accessible by any major web browser, improving global access to neurological care.
翻訳日:2023-11-23 00:17:10 公開日:2023-11-21
# FedDRO:分散ロバスト学習のためのフェデレーション構成最適化

FedDRO: Federated Compositional Optimization for Distributionally Robust Learning ( http://arxiv.org/abs/2311.12652v1 )

ライセンス: Link先を確認
Prashant Khanduri, Chengyin Li, Rafi Ibn Sultan, Yao Qiang, Joerg Kliewer, Dongxiao Zhu(参考訳) 近年,分散ロバスト最適化 (DRO) など多くの機械学習問題への応用により,構成最適化 (CO) が普及している。 大規模で分散的なデータ利用には、CO問題を解決するための効率的なフェデレーション学習(FL)アルゴリズムの開発が必要である。 COのためのFLアルゴリズムの開発は、目的の組成の性質から特に困難である。 さらに、このような問題を解決する現在の最先端手法は、(解の精度に依存する)大規模なバッチ勾配に依存するが、ほとんどの実用的な設定では実現できない。 そこで本研究では,非凸coをfl設定で解くための効率的なfedavg型アルゴリズムを提案する。 まず,バニラFedAvgは,各クライアントの組成目標におけるデータ不均一性から,局所的な組成勾配推定におけるバイアスの増幅につながるため,分散CO問題の解決には適さないことを確認した。 そこで本研究では,構成勾配の推定におけるバイアスをfedavgが制御できる通信戦略を設計するために,dro問題構造を利用する新しいflフレームワークfeddroを提案する。 我々の研究の重要な目新しさは、連合型co問題を解決するために大きなバッチ勾配(および関数評価)を必要としない解精度非依存アルゴリズムを開発することである。 我々は、クライアント数で線形スピードアップを達成しつつ、FL設定において$\mathcal{O}(\epsilon^{-2})$サンプルと$\mathcal{O}(\epsilon^{-3/2})$通信複雑性を確立する。 我々は,大規模DRO問題に関する実証的研究と理論的な知見を相関させた。

Recently, compositional optimization (CO) has gained popularity because of its applications in distributionally robust optimization (DRO) and many other machine learning problems. Large-scale and distributed availability of data demands the development of efficient federated learning (FL) algorithms for solving CO problems. Developing FL algorithms for CO is particularly challenging because of the compositional nature of the objective. Moreover, current state-of-the-art methods to solve such problems rely on large batch gradients (depending on the solution accuracy) not feasible for most practical settings. To address these challenges, in this work, we propose efficient FedAvg-type algorithms for solving non-convex CO in the FL setting. We first establish that vanilla FedAvg is not suitable to solve distributed CO problems because of the data heterogeneity in the compositional objective at each client which leads to the amplification of bias in the local compositional gradient estimates. To this end, we propose a novel FL framework FedDRO that utilizes the DRO problem structure to design a communication strategy that allows FedAvg to control the bias in the estimation of the compositional gradient. A key novelty of our work is to develop solution accuracy-independent algorithms that do not require large batch gradients (and function evaluations) for solving federated CO problems. We establish $\mathcal{O}(\epsilon^{-2})$ sample and $\mathcal{O}(\epsilon^{-3/2})$ communication complexity in the FL setting while achieving linear speedup with the number of clients. We corroborate our theoretical findings with empirical studies on large-scale DRO problems.
翻訳日:2023-11-23 00:17:00 公開日:2023-11-21
# 移動ロボットのセマンティック・セマンティック・セグメンテーションと境界検出

Mobile-Seed: Joint Semantic Segmentation and Boundary Detection for Mobile Robots ( http://arxiv.org/abs/2311.12651v1 )

ライセンス: Link先を確認
Youqi Liao, Shuhao Kang, Jianping Li, Yang Liu, Yun Liu, Zhen Dong, Bisheng Yang, Xieyuanli Chen(参考訳) シャープバウンダリとロバストセマンティクスの高精度かつ迅速なデライン化は、ロボットの把握と操作、リアルタイムセマンティクスマッピング、エッジコンピューティングユニットで実行されるオンラインセンサーキャリブレーションなど、多くの下流ロボットタスクに不可欠である。 境界検出とセマンティックセグメンテーションは相補的なタスクであるが、ほとんどの研究はセマンティックセグメンテーションの軽量モデルに焦点を当てているが、境界検出の重要な役割を見落としている。 本研究では,同時セマンティックセグメンテーションと境界検出に適した軽量なデュアルタスクフレームワークであるMobile-Seedを紹介する。 我々のフレームワークは、2ストリームエンコーダ、アクティブフュージョンデコーダ(AFD)、デュアルタスク正規化アプローチを備えている。 エンコーダは2つの経路に分けられる: 1つはカテゴリ認識のセマンティック情報をキャプチャし、もう1つはマルチスケールの特徴から境界を識別する。 AFDモジュールは、チャネル関係を学習することで意味情報と境界情報の融合を動的に適応し、各チャネルの正確な重み付けを可能にする。 さらに,二重タスク学習と深層ダイバーシティの監督における矛盾を軽減するために,正規化損失を導入する。 既存の手法と比較して,提案するMobile-Seedはセマンティックセグメンテーション性能を同時に改善し,オブジェクト境界を正確に特定する軽量なフレームワークを提供する。 Cityscapesデータセットの実験によると、Mobile-Seedは、RTX 2080 Ti GPU上で1024x2048の解像度で23.9フレーム/秒(FPS)のオンライン推論速度を維持しながら、mIoUで2.2ポイント(pp)、mFスコアで4.2ppという、最先端のSOTAベースラインよりも顕著に改善されている。 CamVidおよびPASCALコンテキストデータセットに関する追加実験により、我々のメソッドの一般化可能性が確認された。 コードと追加結果は \url{https://martin-liao.github.io/mobile-seed/} で公開されている。

Precise and rapid delineation of sharp boundaries and robust semantics is essential for numerous downstream robotic tasks, such as robot grasping and manipulation, real-time semantic mapping, and online sensor calibration performed on edge computing units. Although boundary detection and semantic segmentation are complementary tasks, most studies focus on lightweight models for semantic segmentation but overlook the critical role of boundary detection. In this work, we introduce Mobile-Seed, a lightweight, dual-task framework tailored for simultaneous semantic segmentation and boundary detection. Our framework features a two-stream encoder, an active fusion decoder (AFD) and a dual-task regularization approach. The encoder is divided into two pathways: one captures category-aware semantic information, while the other discerns boundaries from multi-scale features. The AFD module dynamically adapts the fusion of semantic and boundary information by learning channel-wise relationships, allowing for precise weight assignment of each channel. Furthermore, we introduce a regularization loss to mitigate the conflicts in dual-task learning and deep diversity supervision. Compared to existing methods, the proposed Mobile-Seed offers a lightweight framework to simultaneously improve semantic segmentation performance and accurately locate object boundaries. Experiments on the Cityscapes dataset have shown that Mobile-Seed achieves notable improvement over the state-of-the-art (SOTA) baseline by 2.2 percentage points (pp) in mIoU and 4.2 pp in mF-score, while maintaining an online inference speed of 23.9 frames-per-second (FPS) with 1024x2048 resolution input on an RTX 2080 Ti GPU. Additional experiments on CamVid and PASCAL Context datasets confirm our method's generalizability. Code and additional results are publicly available at \url{https://martin-liao.github.io/Mobile-Seed/}.
翻訳日:2023-11-23 00:16:33 公開日:2023-11-21
# MathGloss: テキストから数学的用語集を構築する

MathGloss: Building mathematical glossaries from text ( http://arxiv.org/abs/2311.12649v1 )

ライセンス: Link先を確認
Lucy Horowitz, Valeria de Paiva(参考訳) MathGlossは、Web上で既に利用可能な最新の自然言語処理(NLP)ツールとリソースを使用して、テキストから学部数学の知識グラフ(KG)を作成するプロジェクトである。 MathGlossは数学における学部概念のリンクデータベースである。 これまでのところ5つの資源が組み合わさっています (i)ウィキメディア財団が主催する共同編集多言語知識グラフウィキデータ (ii)シカゴ大学数学科の用語 (iii)自動定理証明者リーン4へのハイパーリンクを含むフランスの学部数学カリキュラムのシラバス (四)無LiMa、数学者が編纂した多言語数学辞書、及び (v) 圏論のwikiであるnLabも数学者によってキュレーションされている。 MathGlossの目標は、数学を学ぶためのリソースをまとめ、すべての数学者が自分の好みに合わせて学習をカスタマイズできるようにすることである。 さらに、形式数学を学ぶために、学部数学を学ぶための異なるリソースを組織することで、数学者や形式的ツール(理論プロバー、コンピュータ代数システムなど)の専門家が互いに「理解」し、形式的数学の障壁を壊すことを容易にしたいと考えています。

MathGloss is a project to create a knowledge graph (KG) for undergraduate mathematics from text, automatically, using modern natural language processing (NLP) tools and resources already available on the web. MathGloss is a linked database of undergraduate concepts in mathematics. So far, it combines five resources: (i) Wikidata, a collaboratively edited, multilingual knowledge graph hosted by the Wikimedia Foundation, (ii) terms covered in mathematics courses at the University of Chicago, (iii) the syllabus of the French undergraduate mathematics curriculum which includes hyperlinks to the automated theorem prover Lean 4, (iv) MuLiMa, a multilingual dictionary of mathematics curated by mathematicians, and (v) the nLab, a wiki for category theory also curated by mathematicians. MathGloss's goal is to bring together resources for learning mathematics and to allow every mathematician to tailor their learning to their own preferences. Moreover, by organizing different resources for learning undergraduate mathematics alongside those for learning formal mathematics, we hope to make it easier for mathematicians and formal tools (theorem provers, computer algebra systems, etc) experts to "understand" each other and break down some of the barriers to formal math.
翻訳日:2023-11-23 00:15:49 公開日:2023-11-21
# 注意深い選択と思慮深い破棄: 廃棄されたノードを利用したグラフ明示的プーリング

Careful Selection and Thoughtful Discarding: Graph Explicit Pooling Utilizing Discarded Nodes ( http://arxiv.org/abs/2311.12644v1 )

ライセンス: Link先を確認
Chuang Liu, Wenhang Yu, Kuang Gao, Xueqi Ma, Yibing Zhan, Jia Wu, Bo Du, Wenbin Hu(参考訳) グラフプーリングは、階層的グラフ表現学習を容易にするために、グラフニューラルネットワーク(gnn)にとって重要視されている。 既存のグラフプーリング手法は、2つの段階から成り立っている: 上位ノードを選択し、残りの要素を捨てて粗いグラフ表現を構成する。 しかし,本稿では,これらの手法の問題点を2つ紹介する。 1) ノードを破棄するプロセスはグラフ畳み込みネットワークや多層パーセプトロンを多用しており,各ノードが最終的なグラフ表現やその後の予測タスクに与える影響を十分に評価していない。 2)現在のグラフプーリング法は,これらの要素に含まれる潜在情報を考慮せずに,グラフのノイズセグメント(ドロップ)を直接破棄する傾向がある。 最初の問題に対処するために、ノードと分類に不可欠な最終表現ベクトルの関係を明示的に活用してノードを選択する新しいグラフ明示プール法(GrePool)を導入する。 第2の問題は、破棄されたノードに均一な損失を与えるGrePool(すなわち、GrePool+)の拡張バージョンを使用して対処される。 この追加により、トレーニングプロセスが強化され、分類精度が向上する。 さらに,オープングラフベンチマークデータセットを含む提案手法の有効性を検証するために,広く使用されている12のデータセットを対象とした包括的実験を行った。 実験結果は,greppoolが14のベースラインメソッドを上回っていることを一様に示す。 同様に、grepool+の実装は、追加の計算コストを伴わずにgrepoolのパフォーマンスを向上させる。

Graph pooling has been increasingly recognized as crucial for Graph Neural Networks (GNNs) to facilitate hierarchical graph representation learning. Existing graph pooling methods commonly consist of two stages: selecting top-ranked nodes and discarding the remaining to construct coarsened graph representations. However, this paper highlights two key issues with these methods: 1) The process of selecting nodes to discard frequently employs additional Graph Convolutional Networks or Multilayer Perceptrons, lacking a thorough evaluation of each node's impact on the final graph representation and subsequent prediction tasks. 2) Current graph pooling methods tend to directly discard the noise segment (dropped) of the graph without accounting for the latent information contained within these elements. To address the first issue, we introduce a novel Graph Explicit Pooling (GrePool) method, which selects nodes by explicitly leveraging the relationships between the nodes and final representation vectors crucial for classification. The second issue is addressed using an extended version of GrePool (i.e., GrePool+), which applies a uniform loss on the discarded nodes. This addition is designed to augment the training process and improve classification accuracy. Furthermore, we conduct comprehensive experiments across 12 widely used datasets to validate our proposed method's effectiveness, including the Open Graph Benchmark datasets. Our experimental results uniformly demonstrate that GrePool outperforms 14 baseline methods for most datasets. Likewise, implementing GrePool+ enhances GrePool's performance without incurring additional computational costs.
翻訳日:2023-11-23 00:15:30 公開日:2023-11-21
# インデクシングによる多面体物体認識

Polyhedral Object Recognition by Indexing ( http://arxiv.org/abs/2311.12641v1 )

ライセンス: Link先を確認
Radu Horaud and Humberto Sossa(参考訳) コンピュータビジョンでは、インデクシング問題は、古典的なイメージ-特徴-オブジェクト-特徴マッチングパラダイムの助けを避けながら、オブジェクトの大規模なデータベース内のいくつかのオブジェクトを認識する問題である。 本稿では,2次元画像から3次元多面体をインデクシングにより認識する問題に対処する。 認識対象と画像の両方を重み付きグラフで表現する。 したがって、インデックス化問題は、モデルグラフのデータベースに画像から抽出されたグラフが存在するか否かを決定する問題である。 本稿では,二進グラフと重み付きグラフの多項式キャラクタリゼーションとハッシュ化の両方に基づいて,このグラフインデックス処理を行う新しい手法を提案する。 本稿では,この多項式の特性を詳細に記述し,多面体物体認識の文脈でどのように利用できるかを示す。 次に,データベースの整理,2次元特徴ビューによる多面体オブジェクトの表現,重み付きグラフによるこのビューの表現,および関連する画像処理を含む,実用的な認識・インデックスシステムについて述べる。 最後に、実験結果によりシステム性能の評価が可能となる。

In computer vision, the indexing problem is the problem of recognizing a few objects in a large database of objects while avoiding the help of the classical image-feature-to-object-feature matching paradigm. In this paper we address the problem of recognizing 3-D polyhedral objects from 2-D images by indexing. Both the objects to be recognized and the images are represented by weighted graphs. The indexing problem is therefore the problem of determining whether a graph extracted from the image is present or absent in a database of model graphs. We introduce a novel method for performing this graph indexing process which is based both on polynomial characterization of binary and weighted graphs and on hashing. We describe in detail this polynomial characterization and then we show how it can be used in the context of polyhedral object recognition. Next we describe a practical recognition-by-indexing system that includes the organization of the database, the representation of polyhedral objects in terms of 2-D characteristic views, the representation of this views in terms of weighted graphs, and the associated image processing. Finally, some experimental results allow the evaluation of the system performance.
翻訳日:2023-11-23 00:15:07 公開日:2023-11-21
# KNVQA:知識に基づく評価VQAのためのベンチマーク

KNVQA: A Benchmark for evaluation knowledge-based VQA ( http://arxiv.org/abs/2311.12639v1 )

ライセンス: Link先を確認
Sirui Cheng, Siyu Zhang, Jiayi Wu, Muchen Lan(参考訳) マルチモーダル分野において、視覚・言語系における認識能力と推論能力の強さから、大きな視覚言語モデル (LVLM) は大きな進歩を遂げている。 しかし、LVLMは、異なるシナリオにおけるLVLMの実用性を制限する、オブジェクト幻覚と事実的精度の2つの重要な問題に悩まされている。 さらに,従来の評価手法では,言語内容の理解と推論に重点を置いていたが,マルチモーダルインタラクションの包括的評価が欠如しており,潜在的な制限が生じている。 そこで本研究では,マルチモーダルLVLMの現実性を反映した知識に基づくVQAタスク評価を行うKNVQA-Evalを提案する。 評価の堅牢性とスケーラビリティを確保するため,人間の判断と知覚を取り入れた新しいKNVQAデータセットを開発し,知識に基づくVQAにおけるAIによる回答に対する標準回答の精度を評価する。 この研究は、信頼できるヒューマンアノテーションを用いてlvlmsのコンテキスト情報を包括的に評価するだけでなく、lvlmsベースの推定器の最適化に向けた潜在的な道筋を明らかにするための現在の方法の細かな機能をさらに分析する。 提案するVQA-Evalと対応するデータセットKNVQAは,低コスト,プライバシ保護,再現性といった利点を生かした自動評価ツールの開発を容易にする。 私たちのコードは出版時に公開される。

Within the multimodal field, large vision-language models (LVLMs) have made significant progress due to their strong perception and reasoning capabilities in the visual and language systems. However, LVLMs are still plagued by the two critical issues of object hallucination and factual accuracy, which limit the practicality of LVLMs in different scenarios. Furthermore, previous evaluation methods focus more on the comprehension and reasoning of language content but lack a comprehensive evaluation of multimodal interactions, thereby resulting in potential limitations. To this end, we propose a novel KNVQA-Eval, which is devoted to knowledge-based VQA task evaluation to reflect the factuality of multimodal LVLMs. To ensure the robustness and scalability of the evaluation, we develop a new KNVQA dataset by incorporating human judgment and perception, aiming to evaluate the accuracy of standard answers relative to AI-generated answers in knowledge-based VQA. This work not only comprehensively evaluates the contextual information of LVLMs using reliable human annotations, but also further analyzes the fine-grained capabilities of current methods to reveal potential avenues for subsequent optimization of LVLMs-based estimators. Our proposed VQA-Eval and corresponding dataset KNVQA will facilitate the development of automatic evaluation tools with the advantages of low cost, privacy protection, and reproducibility. Our code will be released upon publication.
翻訳日:2023-11-23 00:14:47 公開日:2023-11-21
# GPT4Motion:Blender-Oriented GPT Planningによるテキスト・ビデオ生成における物理動作のスクリプト作成

GPT4Motion: Scripting Physical Motions in Text-to-Video Generation via Blender-Oriented GPT Planning ( http://arxiv.org/abs/2311.12631v1 )

ライセンス: Link先を確認
Jiaxi Lv and Yi Huang and Mingfu Yan and Jiancheng Huang and Jianzhuang Liu and Yifan Liu and Yafei Wen and Xiaoxin Chen and Shifeng Chen(参考訳) テキスト対ビデオ生成の最近の進歩は、拡散モデルの力を利用して、テキストプロンプトに基づいて視覚的に魅力的なコンテンツを作成する。 しかし、通常高い計算コストに遭遇し、コヒーレントな物理的動きを持つビデオを作るのに苦労する。 そこで本研究では,gptなどの大規模言語モデルの計画能力,ブレンダの物理シミュレーション強度,映像合成の質を高めるためのテキスト・画像拡散モデルの優れた画像生成能力を活用する,トレーニングフリーなフレームワークであるgpt4motionを提案する。 具体的には、gpt4motionはgpt-4を使用してユーザーテキストプロンプトに基づいたブレンダースクリプトを生成し、blenderの組み込み物理エンジンにフレーム間のコヒーレントな物理運動をカプセル化する基本的なシーンコンポーネントを作成するよう命令する。 そして、これらのコンポーネントを安定拡散に入力し、テキストプロンプトに合わせたビデオを生成する。 剛体物体の落下・衝突・布のドッピング・揺動・液流を含む3つの基本的な物理運動シナリオの実験結果から,GPT4Motionは動きのコヒーレンシと実体の整合性を維持する上で,高品質な映像を効率よく生成できることを示した。 GPT4Motionは、テキスト・ビデオ研究における新たな洞察を提供し、その品質を高め、将来の探査のための地平を広げる。

Recent advances in text-to-video generation have harnessed the power of diffusion models to create visually compelling content conditioned on text prompts. However, they usually encounter high computational costs and often struggle to produce videos with coherent physical motions. To tackle these issues, we propose GPT4Motion, a training-free framework that leverages the planning capability of large language models such as GPT, the physical simulation strength of Blender, and the excellent image generation ability of text-to-image diffusion models to enhance the quality of video synthesis. Specifically, GPT4Motion employs GPT-4 to generate a Blender script based on a user textual prompt, which commands Blender's built-in physics engine to craft fundamental scene components that encapsulate coherent physical motions across frames. Then these components are inputted into Stable Diffusion to generate a video aligned with the textual prompt. Experimental results on three basic physical motion scenarios, including rigid object drop and collision, cloth draping and swinging, and liquid flow, demonstrate that GPT4Motion can generate high-quality videos efficiently in maintaining motion coherency and entity consistency. GPT4Motion offers new insights in text-to-video research, enhancing its quality and broadening its horizon for future explorations.
翻訳日:2023-11-23 00:14:24 公開日:2023-11-21
# 階層型ジョイントグラフ学習と多変量時系列予測

Hierarchical Joint Graph Learning and Multivariate Time Series Forecasting ( http://arxiv.org/abs/2311.12630v1 )

ライセンス: Link先を確認
Juhyeon Kim, Hyungeun Lee, Seungwon Yu, Ung Hwang, Wooyul Jung, Miseon Park, Kijung Yoon(参考訳) 多変量時系列は、多くの科学領域や産業領域で一般的である。 多変量信号のモデリングは、その長距離時間依存性と複雑な相互作用により困難である。 これらの複雑さに対処するため,グラフ内の多変量信号をノードとして表現する方法を提案する。 具体的には,グラフニューラルネットワーク(gnn)とアテンション機構を利用して時系列データ内の基礎的関係を効率的に学習する。 さらに,複数の空間依存性を捉えるために,グラフ上で実行される階層的信号分解を用いることを提案する。 提案モデルの有効性を,長期予測タスク用に設計された実世界のベンチマークデータセットで評価した。 その結果,従来モデルと比較して平均二乗誤差 (mse) が平均23\%減少する結果が得られた。

Multivariate time series is prevalent in many scientific and industrial domains. Modeling multivariate signals is challenging due to their long-range temporal dependencies and intricate interactions--both direct and indirect. To confront these complexities, we introduce a method of representing multivariate signals as nodes in a graph with edges indicating interdependency between them. Specifically, we leverage graph neural networks (GNN) and attention mechanisms to efficiently learn the underlying relationships within the time series data. Moreover, we suggest employing hierarchical signal decompositions running over the graphs to capture multiple spatial dependencies. The effectiveness of our proposed model is evaluated across various real-world benchmark datasets designed for long-term forecasting tasks. The results consistently showcase the superiority of our model, achieving an average 23\% reduction in mean squared error (MSE) compared to existing models.
翻訳日:2023-11-23 00:13:58 公開日:2023-11-21
# 量子力学活性の厳密な解法

Exact solution to quantum dynamical activity ( http://arxiv.org/abs/2311.12627v1 )

ライセンス: Link先を確認
Tomohiro Nishiyama and Yoshihiko Hasegawa(参考訳) 量子力学活性は、量子速度限界や量子熱力学的不確実性関係のようなトレードオフ関係における熱力学的コストを構成する。 しかし、量子力学活性の計算は困難であり、その正確な解は導出されていない。 本稿では,連続行列積状態法を展開しながら,量子力学活性の正確な解を示す。 さらに、導出された完全解を用いて、ハミルトニアン系とジャンプ作用素の標準偏差を含む力学活性の上限を求める。 数値シミュレーションにより,正確な解と上限を確認した。

The quantum dynamical activity constitutes a thermodynamic cost in trade-off relations such as the quantum speed limit and the quantum thermodynamic uncertainty relation. However, calculating the quantum dynamical activity has been a challenge and its exact solution has not been hitherto derived. In this Letter, we present the exact solution to the quantum dynamical activity, deploying the continuous matrix product state method. Moreover, using the derived exact solution, we find the upper bound to the dynamical activity, which comprises the standard deviation of the system Hamiltonian and the jump operators. We confirm the exact solution and the upper bound by performing numerical simulations.
翻訳日:2023-11-23 00:13:44 公開日:2023-11-21
# アルゴリズム情報理論と機械学習の橋渡し--カーネル学習への新しいアプローチ

Bridging Algorithmic Information Theory and Machine Learning: A New Approach to Kernel Learning ( http://arxiv.org/abs/2311.12624v1 )

ライセンス: Link先を確認
Boumediene Hamzi, Marcus Hutter, Houman Owhadi(参考訳) 機械学習(ML)とアルゴリズム情報理論(AIT)は、異なる観点から複雑性を考察する。 本稿では,AIT と Kernel Methods (ML で広く用いられている) のインターフェースを,Sparse Kernel Flows の手法を用いて,データ,カーネルリッジ回帰におけるカーネルの学習問題に対する AIT の視点を用いて検討する。 特に、最小記述長(MDL)と機械学習における正規化(RML)の違いと共通点から、スパースカーネルフローの手法がデータからカーネルを学習するための自然なアプローチであることを証明する。 本稿では,スパースカーネルフローを導出するために統計経路を使用する必要はなく,AITに現れる概念であるコード長や複雑度を直接扱えることを示す。

Machine Learning (ML) and Algorithmic Information Theory (AIT) look at Complexity from different points of view. We explore the interface between AIT and Kernel Methods (that are prevalent in ML) by adopting an AIT perspective on the problem of learning kernels from data, in kernel ridge regression, through the method of Sparse Kernel Flows. In particular, by looking at the differences and commonalities between Minimal Description Length (MDL) and Regularization in Machine Learning (RML), we prove that the method of Sparse Kernel Flows is the natural approach to adopt to learn kernels from data. This paper shows that it is not necessary to use the statistical route to derive Sparse Kernel Flows and that one can directly work with code-lengths and complexities that are concepts that show up in AIT.
翻訳日:2023-11-23 00:13:35 公開日:2023-11-21
# 自己監督型ドメイン適応によるハイコンテントイメージングにおけるブリッジング一般化ギャップ

Bridging Generalization Gaps in High Content Imaging Through Online Self-Supervised Domain Adaptation ( http://arxiv.org/abs/2311.12623v1 )

ライセンス: Link先を確認
Johan Fredin Haslum and Christos Matsoukas and Karl-Johan Leuchowius and Kevin Smith(参考訳) ハイコンテントイメージング(HCI)は、現代の薬物発見・開発パイプラインにおいて重要な役割を担い、ヒットの特定から候補薬物の特定まで様々な段階を助長する。 これらのデータセットに機械学習モデルを適用することは、通常、複数のバッチで構成されており、実験的なばらつき、特に異なる撮像装置が使用されている場合、困難である。 さらに、新たなデータが到着すると、オンライン形式で分析されることが好ましい。 そこで本研究では,オンライン自己監督型ドメイン適応手法であるcodaを提案する。 CODAは、分類器の役割を一般的な特徴抽出器とタスク固有のモデルに分割する。 我々は,タスク固有のモデルを変更せずに,クロスバッチ・セルフスーパービジョンを用いて特徴抽出器の重み付けを新しい領域に適用する。 以上の結果から, この戦略が一般化ギャップを大幅に減らし, 異なる顕微鏡を用いた異なる研究室のデータに適用すると最大300%の改善が達成された。 CODAは、単一のプレートから複数の実験バッチまで、異なるサイズでラベル付けされていない新しいドメイン外のデータソースに適用することができる。

High Content Imaging (HCI) plays a vital role in modern drug discovery and development pipelines, facilitating various stages from hit identification to candidate drug characterization. Applying machine learning models to these datasets can prove challenging as they typically consist of multiple batches, affected by experimental variation, especially if different imaging equipment have been used. Moreover, as new data arrive, it is preferable that they are analyzed in an online fashion. To overcome this, we propose CODA, an online self-supervised domain adaptation approach. CODA divides the classifier's role into a generic feature extractor and a task-specific model. We adapt the feature extractor's weights to the new domain using cross-batch self-supervision while keeping the task-specific model unchanged. Our results demonstrate that this strategy significantly reduces the generalization gap, achieving up to a 300% improvement when applied to data from different labs utilizing different microscopes. CODA can be applied to new, unlabeled out-of-domain data sources of different sizes, from a single plate to multiple experimental batches.
翻訳日:2023-11-23 00:13:20 公開日:2023-11-21
# 量子ラビモデル:Braakの予想に向けて

The Quantum Rabi model: Towards Braak's conjecture ( http://arxiv.org/abs/2311.12622v1 )

ライセンス: Link先を確認
Ze\'ev Rudnick(参考訳) 我々は、量子ラビモデルのスペクトルの微細構造に関するブラクの予想の密度1バージョンと、近辺のスペクトル領域におけるブラク、グイエン、レーズ・バストス、和歌山の最近の予想を確立する。 この証明は Boutet de Monvel と Zielinski による大きな固有値に対する3項の漸近法と、一様分布論からの数論的な議論を用いる。

We establish a density one version of Braak's conjecture on the fine structure of the spectrum of the quantum Rabi model, as well as a recent conjecture of Braak, Nguyen, Reyes-Bustos and Wakayama on the nearest neighbor spacings of the spectrum. The proof uses a three-term asymptotics for large eigenvalues due to Boutet de Monvel and Zielinski, and a number theoretic argument from uniform distribution theory.
翻訳日:2023-11-23 00:13:04 公開日:2023-11-21
# 偏り緩和のためのwasserstein距離による敵対的重み付け

Adversarial Reweighting Guided by Wasserstein Distance for Bias Mitigation ( http://arxiv.org/abs/2311.12684v1 )

ライセンス: Link先を確認
Xuan Zhao and Simone Fabbrizzi and Paula Reyero Lobo and Siamak Ghodsi and Klaus Broelemann and Steffen Staab and Gjergji Kasneci(参考訳) サンプル集団における異なるグループの不平等な表現は、機械学習モデルが自動決定を行う場合、少数グループの識別につながる可能性がある。 これらの問題に対処するために、フェアネス対応機械学習は、予測の有効性と不公平性の低い2つ(またはそれ以上)のメトリクスを共同で最適化する。 しかしながら、データ内のマイノリティの固有の過小表現は、サブポピュレーションの異質な扱いがあまり目立たず、学習中の対処が困難である。 本稿では,このような自由表現バイアスに対処するための新しい逆重み付け手法を提案する。 多数派と少数派の間のデータ分布のバランスをとるため,本手法では多数派からのサンプルを強調する。 経験的リスクを最小限に抑えるため,ワッサースタイン距離によって評価されるマイノリティグループに近い多数派のサンプルを好む。 理論解析の結果, 逆重み付け手法の有効性が示された。 実験により,画像および表型ベンチマークデータセットにおける関連する最先端手法を上回り,分類精度を犠牲にすることなくバイアスを軽減できることが実証された。

The unequal representation of different groups in a sample population can lead to discrimination of minority groups when machine learning models make automated decisions. To address these issues, fairness-aware machine learning jointly optimizes two (or more) metrics aiming at predictive effectiveness and low unfairness. However, the inherent under-representation of minorities in the data makes the disparate treatment of subpopulations less noticeable and difficult to deal with during learning. In this paper, we propose a novel adversarial reweighting method to address such \emph{representation bias}. To balance the data distribution between the majority and the minority groups, our approach deemphasizes samples from the majority group. To minimize empirical risk, our method prefers samples from the majority group that are close to the minority group as evaluated by the Wasserstein distance. Our theoretical analysis shows the effectiveness of our adversarial reweighting approach. Experiments demonstrate that our approach mitigates bias without sacrificing classification accuracy, outperforming related state-of-the-art methods on image and tabular benchmark datasets.
翻訳日:2023-11-23 00:05:24 公開日:2023-11-21
# ブラックホール放射の絡み合い非対称性の研究

An entanglement asymmetry study of black hole radiation ( http://arxiv.org/abs/2311.12683v1 )

ライセンス: Link先を確認
Filiberto Ares, Sara Murciano, Lorenzo Piroli, Pasquale Calabrese(参考訳) ホーキングはブラックホールが放射によって蒸発できることを発見し、時間とともに重力の量子論の基礎となる多くの疑問を提起した。 最も有名なものは情報パラドックスであり、これはブラックホールとその放射がランダムな量子ビットの状態によって効果的に表現できることを示すページの議論においてエレガントな説明である。 同じ仮定を生かして、ブラックホールが創発対称性を示す範囲を考察し、現代の情報に基づく対称性の破れの指標としてエンタングルメント非対称性を用いる。 任意の対称性を持たないランダムな状態の場合、u(1)$ 対称性が出現し、ページタイムの前に熱力学的極限が正確に現れる。 ページ時間において、絡み合う非対称性は大きな値への有限ジャンプを示す。 以上の結果から,放射光はページタイムまで対称であり,その後急変することが示唆された。 逆に、ブラックホールはページ時間後にのみ対称である。

Hawking discovery that black holes can evaporate through radiation emission has posed a number of questions that with time became fundamental hallmarks for a quantum theory of gravity. The most famous one is likely the information paradox, which finds an elegant explanation in the Page argument suggesting that a black hole and its radiation can be effectively represented by a random state of qubits. Leveraging the same assumption, we ponder the extent to which a black hole may display emergent symmetries, employing the entanglement asymmetry as a modern, information-based indicator of symmetry breaking. We find that for a random state devoid of any symmetry, a $U(1)$ symmetry emerges and it is exact in the thermodynamic limit before the Page time. At the Page time, the entanglement asymmetry shows a finite jump to a large value. Our findings imply that the emitted radiation is symmetric up to the Page time and then undergoes a sharp transition. Conversely the black hole is symmetric only after the Page time.
翻訳日:2023-11-23 00:05:05 公開日:2023-11-21
# リアルワールドレイアウトへのトランスファー:シーン適応のための奥行き認識フレームワーク

Transferring to Real-World Layouts: A Depth-aware Framework for Scene Adaptation ( http://arxiv.org/abs/2311.12682v1 )

ライセンス: Link先を確認
Mu Chen, Zhedong Zheng, Yi Yang(参考訳) unsupervised domain adaptation(uda)によるシーンセグメンテーションは、ソース合成データから取得した知識を現実世界のターゲットデータに転送することを可能にする。 ドメイン不変特徴学習を容易にするために、既存の手法では、ピクセルをコピー&ペーストするだけで、ソースドメインとターゲットドメインの両方からデータを混合する。 このようなバニラメソッドは通常、実際のシナリオと混合レイアウトがどの程度うまく対応しているかを考慮しないため、サブ最適である。 現実世界のシナリオには固有のレイアウトがある。 我々は,歩道,建物,空などの意味カテゴリーが比較的一貫した深度分布を示し,深度マップで明確に区別できることを示した。 このような観察に基づいて,深度推定を的確に活用してカテゴリを混合し,2つの補完的タスク,すなわちセグメント化と深度学習をエンドツーエンドで促進する,深度認識フレームワークを提案する。 特にこのフレームワークには、dcf(deep-guided context filter)forndata拡張と、コンテキスト学習のためのクロスタスクエンコーダが含まれている。 DCFは現実世界のレイアウトをシミュレートし、クロスタスクエンコーダはさらに2つのタスク間の補完機能を融合させる。 さらに、いくつかの公開データセットが深さアノテーションを提供していない点にも注意が必要だ。 そこで本研究では,既設深度推定ネットワークを用いて擬似深度を生成する。 GTAからCityscapesへの77.7 mIoUとSynthiaからCityscapesへの69.3 mIoUの2つの広く使われているベンチマークに対して,提案手法が擬似深度でも競争性能を発揮することを示す。

Scene segmentation via unsupervised domain adaptation (UDA) enables the transfer of knowledge acquired from source synthetic data to real-world target data, which largely reduces the need for manual pixel-level annotations in the target domain. To facilitate domain-invariant feature learning, existing methods typically mix data from both the source domain and target domain by simply copying and pasting the pixels. Such vanilla methods are usually sub-optimal since they do not take into account how well the mixed layouts correspond to real-world scenarios. Real-world scenarios are with an inherent layout. We observe that semantic categories, such as sidewalks, buildings, and sky, display relatively consistent depth distributions, and could be clearly distinguished in a depth map. Based on such observation, we propose a depth-aware framework to explicitly leverage depth estimation to mix the categories and facilitate the two complementary tasks, i.e., segmentation and depth learning in an end-to-end manner. In particular, the framework contains a Depth-guided Contextual Filter (DCF) forndata augmentation and a cross-task encoder for contextual learning. DCF simulates the real-world layouts, while the cross-task encoder further adaptively fuses the complementing features between two tasks. Besides, it is worth noting that several public datasets do not provide depth annotation. Therefore, we leverage the off-the-shelf depth estimation network to generate the pseudo depth. Extensive experiments show that our proposed methods, even with pseudo depth, achieve competitive performance on two widely-used bench-marks, i.e. 77.7 mIoU on GTA to Cityscapes and 69.3 mIoU on Synthia to Cityscapes.
翻訳日:2023-11-23 00:04:48 公開日:2023-11-21
# BundleMoCap:スパークなマルチビュービデオから効率よく、ロバストで滑らかなモーションキャプチャ

BundleMoCap: Efficient, Robust and Smooth Motion Capture from Sparse Multiview Videos ( http://arxiv.org/abs/2311.12679v1 )

ライセンス: Link先を確認
Georgios Albanis, Nikolaos Zioulis, Kostas Kolomvatsos(参考訳) マーカーレス技術を用いたビデオからのスムーズな動きのキャプチャは通常、時間的制約、データ駆動回帰と最適化を伴う複数のステージ、時間的ウィンドウ上のバンドル解決といった複雑なプロセスを含む。 これらのプロセスは非効率で、ステージ間で複数の目的をチューニングする必要がある。 対照的に bundlemocap は、この問題に対して新しく効率的なアプローチを導入する。 単一の段階でのモーションキャプチャータスクを解決し、スムーズな動きを届けながら、時間的スムーズな目標の必要をなくす。 bundlemocapは複雑さを増すことなく最先端技術を上回る。 BundleMoCapの背景にある重要な概念は、潜在キーフレーム間の多様体補間である。 局所多様体の滑らかさを仮定することで、1つのコードを使ってフレームの束を効率的に解くことができる。 さらに、この方法はスライディングウィンドウ最適化として実装でき、適切な初期化のために最初のフレームのみを必要とするため、全体的な計算負荷が軽減される。 BundleMoCapの強みは、シンプルさと効率性で高品質なモーションキャプチャ結果を達成する能力にある。 詳細はhttps://moverseai.github.io/bundle/にある。

Capturing smooth motions from videos using markerless techniques typically involves complex processes such as temporal constraints, multiple stages with data-driven regression and optimization, and bundle solving over temporal windows. These processes can be inefficient and require tuning multiple objectives across stages. In contrast, BundleMoCap introduces a novel and efficient approach to this problem. It solves the motion capture task in a single stage, eliminating the need for temporal smoothness objectives while still delivering smooth motions. BundleMoCap outperforms the state-of-the-art without increasing complexity. The key concept behind BundleMoCap is manifold interpolation between latent keyframes. By relying on a local manifold smoothness assumption, we can efficiently solve a bundle of frames using a single code. Additionally, the method can be implemented as a sliding window optimization and requires only the first frame to be properly initialized, reducing the overall computational burden. BundleMoCap's strength lies in its ability to achieve high-quality motion capture results with simplicity and efficiency. More details can be found at https://moverseai.github.io/bundle/.
翻訳日:2023-11-23 00:04:19 公開日:2023-11-21
# 変圧器の解釈とエクストラクタの改良

Interpretation of the Transformer and Improvement of the Extractor ( http://arxiv.org/abs/2311.12678v1 )

ライセンス: Link先を確認
Zhe Chen(参考訳) Transformerアーキテクチャが実行されてから6年以上が経ちました。 驚いたことに、今日でもバニラトランスフォーマーアーキテクチャが広く使われている。 理由の1つは、トランスフォーマーアーキテクチャの深い理解と包括的解釈が欠如しているため、トランスフォーマーアーキテクチャを改善することがより困難である。 本稿では,その理解と経験に基づき,まず変圧器アーキテクチャを平易な言葉で包括的に解釈する。 解釈はさらに証明され、検証される。 これらの解釈は、トランスフォーマーアーキテクチャにおけるマルチヘッドセルフアテンションのドロップイン置換であるextractorもカバーしている。 そこで本研究では,トレーニング可能なパラメータを追加することなく,自己意図よりも優れたExtractorのタイプを提案する。 実験の結果,改良した抽出器の性能が向上し,トランスフォーマーアーキテクチャの改善方法が示された。

It has been over six years since the Transformer architecture was put forward. Surprisingly, the vanilla Transformer architecture is still widely used today. One reason is that the lack of deep understanding and comprehensive interpretation of the Transformer architecture makes it more challenging to improve the Transformer architecture. In this paper, we first interpret the Transformer architecture comprehensively in plain words based on our understanding and experiences. The interpretations are further proved and verified. These interpretations also cover the Extractor, a family of drop-in replacements for the multi-head self-attention in the Transformer architecture. Then, we propose an improvement on a type of the Extractor that outperforms the self-attention, without introducing additional trainable parameters. Experimental results demonstrate that the improved Extractor performs even better, showing a way to improve the Transformer architecture.
翻訳日:2023-11-23 00:03:59 公開日:2023-11-21
# グラフの職業数表現

Occupation Number Representation of Graph ( http://arxiv.org/abs/2311.12675v1 )

ライセンス: Link先を確認
Haoqian Pan, Changhong Lu, Ben Yang(参考訳) 本稿では,量子空間におけるグラフを表現する新しい方法を提案する。 この方法では、グラフの隣接行列の行を、占有数表現中の状態ベクトルによって置き換える。 従来のグラフ状態の定義とは異なり、一つの粒子状態の占有数は、隣接する2つの頂点の間のエッジの数を表す。 これにより、2つの粒子間の相互作用を考慮することを避けることができる。 生成と消滅演算子に基づき,エッジ生成と消滅演算子を提案する。 これら2つの演算子により、グラフ内のエッジと頂点の追加と削除という基本的な操作を実装できる。 すると、頂点収縮のようなグラフ内の全ての追加演算が定義できる。 本手法は単純グラフと多グラフの両方を表現できる。 ダイレクトグラフと非ダイレクトグラフも我々のアプローチと互換性がある。 本稿では,量子空間におけるグラフ表現の理論を充実させる表現法を提案する。

In this paper, we propose a new way to represent graphs in quantum space. In that approach, we replace the rows of the adjacency matrix of the graph by state vectors in the occupation number representation. Unlike the traditional definition of graph states, we actually let the occupation number of a single-particle state denote the number of edges between each two adjacent vertices. This allows us to avoid taking into account the interaction between each two particles. Based on the creation and annihilation operators, we propose the edge creation and annihilation operators. With these two operators, we can implement the fundamental operation of adding and removing edges and vertices in a graph. Then all additional operations in the graph such as vertex contractions can be defined. Our method can be used to represent both simple and multigraphs. Directed and undirected graphs are also compatible with our approach. The method of representation proposed in this paper enriches the theory of graph representation in quantum space.
翻訳日:2023-11-23 00:03:48 公開日:2023-11-21
# HAR用コントラスト左右ウェアラブルセンサ(IMUs)整合性マッチング

Contrastive Left-Right Wearable Sensors (IMUs) Consistency Matching for HAR ( http://arxiv.org/abs/2311.12674v1 )

ライセンス: Link先を確認
Dominique Nshimyimana, Vitor Fortes Rey and Paul Lukowic(参考訳) 機械学習アルゴリズムは急速に改善されているが、多くのアプリケーションではトレーニングデータの注釈付けがボトルネックとなっている。 本稿では,行動に現れる対称性を生かして,どのような変換も行わずに自己教師付き学習に実データをどのように利用できるかを示す。 我々のアプローチは、2つの異なるセンサー(左手首と右手足のIMU)のコントラストマッチングによって、センサーデータと非共起センサーデータの表現をより類似させる。 我々はオポチュニティとMM-Fitデータセットに対するアプローチを検証した。 MM-Fitでは、ベースラインの教師付きおよび自己教師型手法であるSimCLRよりも大幅に改善され、オポチュニティにおいては教師型ベースラインよりも大幅に改善され、SimCLRと比較してわずかに改善されている。 また,少量のデータのみをトレーニングに使用する場合においても教師付きベースラインを改善した。 今後,本手法が人間の活動認識システムや他の関連アプリケーションにどのような効果があるかを検討する必要がある。

Machine learning algorithms are improving rapidly, but annotating training data remains a bottleneck for many applications. In this paper, we show how real data can be used for self-supervised learning without any transformations by taking advantage of the symmetry present in the activities. Our approach involves contrastive matching of two different sensors (left and right wrist or leg-worn IMUs) to make representations of co-occurring sensor data more similar and those of non-co-occurring sensor data more different. We test our approach on the Opportunity and MM-Fit datasets. In MM-Fit we show significant improvement over the baseline supervised and self-supervised method SimCLR, while for Opportunity there is significant improvement over the supervised baseline and slight improvement when compared to SimCLR. Moreover, our method improves supervised baselines even when using only a small amount of the data for training. Future work should explore under which conditions our method is beneficial for human activity recognition systems and other related applications.
翻訳日:2023-11-23 00:03:38 公開日:2023-11-21
# 木に基づく合成関数を用いた予測密度結合

Predictive Density Combination Using a Tree-Based Synthesis Function ( http://arxiv.org/abs/2311.12671v1 )

ライセンス: Link先を確認
Tony Chernis, Niko Hauzenberger, Florian Huber, Gary Koop, James Mitchell(参考訳) ベイズ予測合成(BPS)はエージェント/専門家の意見分析理論に基づく複数の予測分布を組み合わせる方法を提供し、既存の密度予測プール法を包含する。 BPSの主要な成分は『合成』機能である。 これは典型的には動的線形回帰としてパラメトリックに指定される。 本稿では,回帰木を用いた合成関数の非パラメトリック処理を開発する。 我々は,2つのマクロ経済予測アプリケーションにおいて,木に基づくアプローチの利点を示す。 1回目はユーロ圏のプロフェッショナル・フォアキャスター調査によるGDP成長の密度予測を使用した。 2つめは、異なる予測因子を含む多くの回帰モデルによって生成される米国のインフレの密度予測を組み合わせることである。 どちらのアプリケーションも、合成関数を非パラメトリックにモデル化する利点(予測精度と解釈可能性の改善)を実証している。

Bayesian predictive synthesis (BPS) provides a method for combining multiple predictive distributions based on agent/expert opinion analysis theory and encompasses a range of existing density forecast pooling methods. The key ingredient in BPS is a ``synthesis'' function. This is typically specified parametrically as a dynamic linear regression. In this paper, we develop a nonparametric treatment of the synthesis function using regression trees. We show the advantages of our tree-based approach in two macroeconomic forecasting applications. The first uses density forecasts for GDP growth from the euro area's Survey of Professional Forecasters. The second combines density forecasts of US inflation produced by many regression models involving different predictors. Both applications demonstrate the benefits -- in terms of improved forecast accuracy and interpretability -- of modeling the synthesis function nonparametrically.
翻訳日:2023-11-23 00:03:19 公開日:2023-11-21
# 薬物補充アプローチのより帰納的世界に向けて

Towards a more inductive world for drug repurposing approaches ( http://arxiv.org/abs/2311.12670v1 )

ライセンス: Link先を確認
Jesus de la Fuente, Guillermo Serrano, Ux\'ia Veleiro, Mikel Casals, Laura Vera, Marija Pizurica, Antonio Pineda-Lucena, Idoia Ochoa, Silve Vicent, Olivier Gevaert, and Mikel Hernaez(参考訳) ドラッグ・ターゲット・インタラクション(DTI)の予測は、薬物再資源化において重要な課題である。 グラフモデルによる学習は、薬物再資源化コストと時間的コミットメントを大幅に削減できるため、特に注目されている。 しかし、現在の多くのアプローチでは、評価プロセスとユーザビリティを複雑にするDTI以外に、要求の高い追加情報が必要である。 さらに、現在のモデルの学習アーキテクチャにおける構造的な違いは、公正なベンチマークを妨げる。 本研究では、まず、ロバストなベンチマークプロセスを通じて、現在のDTIデータセットと予測モデルの詳細な評価を行い、トランスダクティブモデルに基づくDTI予測手法には一般化が欠如しており、文献で以前評価されたように、拡張性能が向上していることを示す。 次に, 負のエッジサブサンプリングのための新しい生物駆動戦略を提案し, 新たに発見された相互作用が真であることをin vitroで検証する。 我々は、将来の公正なベンチマークと堅牢なモデル設計の基盤として、この研究を期待する。 生成されたリソースとツールはpythonパッケージとして公開されている。

Drug-target interaction (DTI) prediction is a challenging, albeit essential task in drug repurposing. Learning on graph models have drawn special attention as they can significantly reduce drug repurposing costs and time commitment. However, many current approaches require high-demanding additional information besides DTIs that complicates their evaluation process and usability. Additionally, structural differences in the learning architecture of current models hinder their fair benchmarking. In this work, we first perform an in-depth evaluation of current DTI datasets and prediction models through a robust benchmarking process, and show that DTI prediction methods based on transductive models lack generalization and lead to inflated performance when evaluated as previously done in the literature, hence not being suited for drug repurposing approaches. We then propose a novel biologically-driven strategy for negative edge subsampling and show through in vitro validation that newly discovered interactions are indeed true. We envision this work as the underpinning for future fair benchmarking and robust model design. All generated resources and tools are publicly available as a python package.
翻訳日:2023-11-23 00:03:07 公開日:2023-11-21
# 概念から製造へ:工学設計のための視覚言語モデルの評価

From Concept to Manufacturing: Evaluating Vision-Language Models for Engineering Design ( http://arxiv.org/abs/2311.12668v1 )

ライセンス: Link先を確認
Cyril Picard, Kristen M. Edwards, Anna C. Doris, Brandon Man, Giorgio Giannone, Md Ferdous Alam, and Faez Ahmed(参考訳) エンジニアリングデザインは、AIの出現とともに変革的な変化を経験しており、プロダクト、システム、サービス計画へのアプローチの新しい時代を象徴している。 大規模な言語モデルは、このシフトを可能にする素晴らしい能力を示している。 しかし、テキストを唯一の入力モダリティとすれば、何世紀にもわたってエンジニアが慣れ親しんだ視覚的なアーティファクトを活用できない。 このギャップは、GPT-4Vのようなマルチモーダル視覚言語モデルのリリースによって解決される。 本稿では,これらの進歩を踏まえ,概念設計,システムレベルおよび詳細な設計,製造・検査,工学教育の4つの分野に分類した,幅広い工学設計タスクを対象としたビジョン言語モデルgpt-4vの包括的評価を行った。 本研究では,GPT-4Vのスケッチ類似性解析,Pugh Chartsを用いた概念選択,材料選択,図面解析,CAD生成,トポロジ最適化,付加的・減算的製造のための設計,空間推論問題,教科書問題などの設計課題における能力を評価する。 この構造的評価を通じて,GPT-4Vの複雑な設計と製造の課題に対処する能力だけでなく,複雑なエンジニアリング設計アプリケーションにおける限界も明らかにする。 本研究は、ビジョン言語モデルの将来評価の基礎を確立し、エンジニアリングデザインと製造業の展望を革新し、向上させる大きな可能性を強調している。 また、この分野で進行中の進歩とアプリケーションのために、1000以上のクエリを持つベンチマークテストデータセットのセットも提供しています。

Engineering Design is undergoing a transformative shift with the advent of AI, marking a new era in how we approach product, system, and service planning. Large language models have demonstrated impressive capabilities in enabling this shift. Yet, with text as their only input modality, they cannot leverage the large body of visual artifacts that engineers have used for centuries and are accustomed to. This gap is addressed with the release of multimodal vision language models, such as GPT-4V, enabling AI to impact many more types of tasks. In light of these advancements, this paper presents a comprehensive evaluation of GPT-4V, a vision language model, across a wide spectrum of engineering design tasks, categorized into four main areas: Conceptual Design, System-Level and Detailed Design, Manufacturing and Inspection, and Engineering Education Tasks. Our study assesses GPT-4V's capabilities in design tasks such as sketch similarity analysis, concept selection using Pugh Charts, material selection, engineering drawing analysis, CAD generation, topology optimization, design for additive and subtractive manufacturing, spatial reasoning challenges, and textbook problems. Through this structured evaluation, we not only explore GPT-4V's proficiency in handling complex design and manufacturing challenges but also identify its limitations in complex engineering design applications. Our research establishes a foundation for future assessments of vision language models, emphasizing their immense potential for innovating and enhancing the engineering design and manufacturing landscape. It also contributes a set of benchmark testing datasets, with more than 1000 queries, for ongoing advancements and applications in this field.
翻訳日:2023-11-23 00:02:49 公開日:2023-11-21
# SSVEP-DAN:SSVEPベースの脳コンピュータインタフェースのためのデータアライメントネットワーク

SSVEP-DAN: A Data Alignment Network for SSVEP-based Brain Computer Interfaces ( http://arxiv.org/abs/2311.12666v1 )

ライセンス: Link先を確認
Sung-Yu Chen, Chi-Min Chang, Kuan-Jung Chiang, Chun-Shu Wei(参考訳) 定常視覚誘発電位(SSVEP)ベースの脳コンピュータインタフェース(BCI)は、高速スペルシステムを介して非侵襲的な通信手段を提供する。 しかしながら、その効率は、時間消費型校正セッションで得られた個々のトレーニングデータに大きく依存する。 SSVEPベースのBCIにおけるデータ不足の課題に対処するため、SSVEP-DANは、さまざまなセッション、主題、デバイスを含む異なるドメイン間でSSVEPデータを整列するように設計された最初の専用ニューラルネットワークモデルである。 複数のクロスドメインシナリオにおける実験結果から,既存のssvepデータを補足キャリブレーションデータに変換するssvep-danの能力が示され,キャリブレーションデータに制限のあるシナリオにおけるssvep復号精度が著しく向上した。 我々はSSVEP-DANを最小限のキャリブレーションを持つ実用的SSVEPベースのBCIアプリケーションのための触媒として想定する。 この作業のソースコードは、https://github.com/CECNL/SSVEP-DANで公開されている。

Steady-state visual-evoked potential (SSVEP)-based brain-computer interfaces (BCIs) offer a non-invasive means of communication through high-speed speller systems. However, their efficiency heavily relies on individual training data obtained during time-consuming calibration sessions. To address the challenge of data insufficiency in SSVEP-based BCIs, we present SSVEP-DAN, the first dedicated neural network model designed for aligning SSVEP data across different domains, which can encompass various sessions, subjects, or devices. Our experimental results across multiple cross-domain scenarios demonstrate SSVEP-DAN's capability to transform existing source SSVEP data into supplementary calibration data, significantly enhancing SSVEP decoding accuracy in scenarios with limited calibration data. We envision SSVEP-DAN as a catalyst for practical SSVEP-based BCI applications with minimal calibration. The source codes in this work are available at: https://github.com/CECNL/SSVEP-DAN.
翻訳日:2023-11-23 00:02:14 公開日:2023-11-21
# DURELアノテーションツール:人間と計算による意味的近接度、センスクラスタ、意味的変化の測定

The DURel Annotation Tool: Human and Computational Measurement of Semantic Proximity, Sense Clusters and Semantic Change ( http://arxiv.org/abs/2311.12664v1 )

ライセンス: Link先を確認
Dominik Schlechtweg, Shafqat Mumtaz Virk, Pauline Sander, Emma Sk\"oldberg, Lukas Theuer Linke, Tuo Zhang, Nina Tahmasebi, Jonas Kuhn, Sabine Schulte im Walde(参考訳) 本稿では,オンラインのオープンソースインターフェースに単語使用間の意味的近接のアノテーションを実装するDURelツールを提案する。 このツールは、標準的なヒューマンアノテーションと計算アノテーションをサポートし、Word-in-Contextモデルによる最近の進歩に基づいている。 アノテータ判断は自動グラフクラスタリング技術でクラスタ化され、分析のために視覚化される。 これにより、使用ペア間の単純で直感的なマイクロタスクの判断で単語感覚を測定することができる。 このツールは、アノテータ間の合意を比較する追加の機能を提供し、得られた判断のサブジェクティビティを保証し、感覚周波数分布、意味変化、時間の経過に伴う感覚の変化についての洞察を与える要約統計を計算する。

We present the DURel tool that implements the annotation of semantic proximity between uses of words into an online, open source interface. The tool supports standardized human annotation as well as computational annotation, building on recent advances with Word-in-Context models. Annotator judgments are clustered with automatic graph clustering techniques and visualized for analysis. This allows to measure word senses with simple and intuitive micro-task judgments between use pairs, requiring minimal preparation efforts. The tool offers additional functionalities to compare the agreement between annotators to guarantee the inter-subjectivity of the obtained judgments and to calculate summary statistics giving insights into sense frequency distributions, semantic variation or changes of senses over time.
翻訳日:2023-11-23 00:01:45 公開日:2023-11-21
# 類似文書テンプレートマッチングアルゴリズム

Similar Document Template Matching Algorithm ( http://arxiv.org/abs/2311.12663v1 )

ライセンス: Link先を確認
Harshitha Yenigalla, Bommareddy Revanth Srinivasa Reddy, Batta Venkata Rahul and Nannapuraju Hemanth Raju(参考訳) 本研究では,医用文書の検証,テンプレート抽出,比較,不正検出に高度な手法を取り入れた総合的な方法論を概説する。 テンプレート抽出は、輪郭解析とエッジ識別を取り入れた、洗練された関心領域(ROI)手法で開始される。 事前処理のステップは、モルフォロジー操作と適応しきい値設定によるテンプレートの明確性を保証する。 テンプレート比較アルゴリズムは、キーポイントとディスクリプタとの高度な特徴マッチングを利用して、会計変動のヒストグラムに基づく分析によりロバスト性を高める。 不正検出には、テキスト情報抽出のためのSSIM計算とOCRが含まれる。 SSIMは構造的類似性を定量化し、潜在的な一致同定を支援する。 OCRは患者の詳細、提供者情報、請求額などの重要な領域に焦点を当てている。 抽出された情報を基準データセットと比較し、信頼しきい値が信頼できる不正検出を保証する。 適応パラメータは、動的調整のためのシステムの柔軟性を高める。 この手法は, 医用文書の検証, テンプレート抽出, 比較, 不正検出, 各種文書構造への適応性などの複雑さに対処する。

This study outlines a comprehensive methodology for verifying medical documents, integrating advanced techniques in template extraction, comparison, and fraud detection. It begins with template extraction using sophisticated region-of-interest (ROI) methods, incorporating contour analysis and edge identification. Pre-processing steps ensure template clarity through morphological operations and adaptive thresholding. The template comparison algorithm utilizes advanced feature matching with key points and descriptors, enhancing robustness through histogram-based analysis for accounting variations. Fraud detection involves the SSIM computation and OCR for textual information extraction. The SSIM quantifies structural similarity, aiding in potential match identification. OCR focuses on critical areas like patient details, provider information, and billing amounts. Extracted information is compared with a reference dataset, and confidence thresholding ensures reliable fraud detection. Adaptive parameters enhance system flexibility for dynamic adjustments to varying document layouts. This methodology provides a robust approach to medical document verification, addressing complexities in template extraction, comparison, fraud detection, and adaptability to diverse document structures.
翻訳日:2023-11-23 00:01:22 公開日:2023-11-21
# 視覚誘導物体把持

Visually Guided Object Grasping ( http://arxiv.org/abs/2311.12660v1 )

ライセンス: Link先を確認
Radu Horaud, Fadi Dornaika and Bernard Espiau(参考訳) 本稿では,対象物把握問題に対する視覚的サーボアプローチと,より一般に,エンドエフェクタと対象物との整合問題を提案する。 まず,espiauらによって提案された手法を拡張する。 1)制御対象のロボットに装着されていないカメラの場合,ジャコビアン画像のリアルタイム推定の重要性を強調する。 第2に, 3次元射影空間における2つの固体間のアライメントを, 非共役ステレオリグを用いて表現する方法を示す。 このような3次元射影表現は、カメラパラメータに関する知識がなくても簡単に画像セットポイントにマッピングできるという意味でビュー不変である。 第3に,視覚サーボアルゴリズムの性能解析と,このようなアプローチで期待できる把握精度の解析を行う。

In this paper we present a visual servoing approach to the problem of object grasping and more generally, to the problem of aligning an end-effector with an object. First we extend the method proposed by Espiau et al. [1] to the case of a camera which is not mounted onto the robot being controlled and we stress the importance of the real-time estimation of the image Jacobian. Second, we show how to represent a grasp or more generally, an alignment between two solids in 3-D projective space using an uncalibrated stereo rig. Such a 3-D projective representation is view-invariant in the sense that it can be easily mapped into an image set-point without any knowledge about the camera parameters. Third, we perform an analysis of the performances of the visual servoing algorithm and of the grasping precision that can be expected from this type of approach.
翻訳日:2023-11-23 00:00:55 公開日:2023-11-21
# E(3)同変グラフニューラルネットワークを用いた炭水化物NMR化学シフト予測

Carbohydrate NMR chemical shift predictions using E(3) equivariant graph neural networks ( http://arxiv.org/abs/2311.12657v1 )

ライセンス: Link先を確認
Maria B{\aa}nkestad, Keven M. Dorst, G\"oran Widmalm, Jerk R\"onnols(参考訳) 生体システムの必須成分である炭水化物は、その構造的多様性でよく知られている。 核磁気共鳴分光法(NMR)は、複雑な分子配列を理解する上で重要な役割を担い、有機分子の分子構造の評価と検証に不可欠である。 このプロセスの重要な部分は、NMR化学シフトを分子構造から予測することである。 この研究は、E(3)同変グラフニューラルネットワークを利用して炭水化物NMRスペクトルを予測する新しいアプローチを導入する。 特に, 従来の2次元分子構造のみに依存するモデルと比較して, 平均絶対誤差を最大3倍に削減できた。 限られたデータであっても、モデルは優れており、堅牢性と一般化能力を強調している。 この含意は、炭水化物の構造とスペクトル解釈の高度な理解を超えている。 例えば、薬学、生化学、構造生物学の研究を加速させ、分子構造のより速く、より信頼性の高い分析を可能にする。 さらに、我々のアプローチは、NMR以外の分光技術に影響を与える可能性のある、新しいデータ駆動分光時代への重要なステップである。

Carbohydrates, vital components of biological systems, are well-known for their structural diversity. Nuclear Magnetic Resonance (NMR) spectroscopy plays a crucial role in understanding their intricate molecular arrangements and is essential in assessing and verifying the molecular structure of organic molecules. An important part of this process is to predict the NMR chemical shift from the molecular structure. This work introduces a novel approach that leverages E(3) equivariant graph neural networks to predict carbohydrate NMR spectra. Notably, our model achieves a substantial reduction in mean absolute error, up to threefold, compared to traditional models that rely solely on two-dimensional molecular structure. Even with limited data, the model excels, highlighting its robustness and generalization capabilities. The implications are far-reaching and go beyond an advanced understanding of carbohydrate structures and spectral interpretation. For example, it could accelerate research in pharmaceutical applications, biochemistry, and structural biology, offering a faster and more reliable analysis of molecular structures. Furthermore, our approach is a key step towards a new data-driven era in spectroscopy, potentially influencing spectroscopic techniques beyond NMR.
翻訳日:2023-11-23 00:00:25 公開日:2023-11-21
# BLP-2023 タスク2: BanglaBert を用いたbangla 言語の低リソース感性分析

LowResource at BLP-2023 Task 2: Leveraging BanglaBert for Low Resource Sentiment Analysis of Bangla Language ( http://arxiv.org/abs/2311.12735v1 )

ライセンス: Link先を確認
Aunabil Chakma and Masum Hasan(参考訳) 本稿では,blp-2023タスク2のローリソース・チームのシステムについて述べる。公開投稿とソーシャルメディアプラットフォームからのコメントからなるデータセットについて感情分析を行う。 当社の主な目的は、バングラコーパスで事前トレーニングされたbertモデルであるbanglabertの利用、微調整、ランダムトークンのドロップ、外部データセットの複数使用など、さまざまな戦略の採用です。 最後のモデルは、BanglaBertの3つの変奏曲のアンサンブルです。 私たちのシステムは,0.718で参加する30チームの中で,テストセット全体の3位を獲得しました。 さらに,BanglaT5を用いたタスク適応関連やパラフレーズ処理をうまく行なわなかった有望なシステムについても論じる。 私たちのシステムで使用されるトレーニングコードと外部データセットはhttps://github.com/Aunabil4602/bnlp-workshop-task2-2023で公開されている。

This paper describes the system of the LowResource Team for Task 2 of BLP-2023, which involves conducting sentiment analysis on a dataset composed of public posts and comments from diverse social media platforms. Our primary aim is to utilize BanglaBert, a BERT model pre-trained on a large Bangla corpus, using various strategies including fine-tuning, dropping random tokens, and using several external datasets. Our final model is an ensemble of the three best BanglaBert variations. Our system has achieved overall 3rd in the Test Set among 30 participating teams with a score of 0.718. Additionally, we discuss the promising systems that didn't perform well namely task-adaptive pertaining and paraphrasing using BanglaT5. Training codes and external datasets which are used for our system are publicly available at https://github.com/Aunabil4602/bnlp-workshop-task2-2023
翻訳日:2023-11-22 23:52:57 公開日:2023-11-21
# 逆知覚誤差を用いた行動計画者攻撃

Attacking Motion Planners Using Adversarial Perception Errors ( http://arxiv.org/abs/2311.12722v1 )

ライセンス: Link先を確認
Jonathan Sadeghi, Nicholas A. Lord, John Redford, Romain Mueller(参考訳) 自律運転(AD)システムはモジュール方式で構築・テストされることが多く、異なるモジュールのパフォーマンスはタスク固有のメトリクスを使用して測定される。 これらのメトリクスは、各モジュールの下流への影響とシステム全体のパフォーマンスを捉えるために選択されるべきです。 例えば、高い知覚品質は予測と計画が安全に行えるようにすべきである。 これは一般的には当てはまるが、様々な知覚品質の指標で非常に高いスコアを得たプランナーインプットを構築できるが、それでも計画上の失敗に繋がることを示す。 画像分類器に対する敵意攻撃の類推として、そのような入力を \textbf{adversarial perception error} と呼び、単純な境界攻撃アルゴリズムを用いて体系的に構築できることを示す。 CARLAシミュレータを用いた都市・高速道路走行シナリオにおける2つの異なるブラックボックスプランナに対する攻撃を見つけ,本アルゴリズムの有効性を示す。 最後に、これらの攻撃の性質を分析し、プランナーの入力空間で分離されていることを示し、広告システムの配置とテストにその影響について論じる。

Autonomous driving (AD) systems are often built and tested in a modular fashion, where the performance of different modules is measured using task-specific metrics. These metrics should be chosen so as to capture the downstream impact of each module and the performance of the system as a whole. For example, high perception quality should enable prediction and planning to be performed safely. Even though this is true in general, we show here that it is possible to construct planner inputs that score very highly on various perception quality metrics but still lead to planning failures. In an analogy to adversarial attacks on image classifiers, we call such inputs \textbf{adversarial perception errors} and show they can be systematically constructed using a simple boundary-attack algorithm. We demonstrate the effectiveness of this algorithm by finding attacks for two different black-box planners in several urban and highway driving scenarios using the CARLA simulator. Finally, we analyse the properties of these attacks and show that they are isolated in the input space of the planner, and discuss their implications for AD system deployment and testing.
翻訳日:2023-11-22 23:52:41 公開日:2023-11-21
# 法的文書AI-Chatbotの開発

Development of a Legal Document AI-Chatbot ( http://arxiv.org/abs/2311.12719v1 )

ライセンス: Link先を確認
Pranav Nataraj Devaraj, Rakesh Teja P V, Aaryav Gangrade, Manoj Kumar R(参考訳) With the exponential growth of digital data and the increasing complexity of legal documentation, there is a pressing need for efficient and intelligent tools to streamline the handling of legal documents.With the recent developments in the AI field, especially in chatbots, it cannot be ignored as a very compelling solution to this problem.An insight into the process of creating a Legal Documentation AI Chatbot with as many relevant features as possible within the given time frame is presented.The development of each component of the chatbot is presented in detail.Each component's workings and functionality has been discussed.Starting from the build of the Android app and the Langchain query processing code till the integration of both through a Flask backend and REST API methods.

With the exponential growth of digital data and the increasing complexity of legal documentation, there is a pressing need for efficient and intelligent tools to streamline the handling of legal documents.With the recent developments in the AI field, especially in chatbots, it cannot be ignored as a very compelling solution to this problem.An insight into the process of creating a Legal Documentation AI Chatbot with as many relevant features as possible within the given time frame is presented.The development of each component of the chatbot is presented in detail.Each component's workings and functionality has been discussed.Starting from the build of the Android app and the Langchain query processing code till the integration of both through a Flask backend and REST API methods.
翻訳日:2023-11-22 23:52:25 公開日:2023-11-21
# 絡み合った光子対の生成とルーティングを埋め込んだハイブリッドIII-V/シリコンフォトニック回路

Hybrid III-V/Silicon photonic circuits embedding generation and routing of entangled photon pairs ( http://arxiv.org/abs/2311.12718v1 )

ライセンス: Link先を確認
J. Schuhmann, L. Lazzari, M. Morassi, A. Lemaitre, I. Sagnes, G. Beaudoin, M.I. Amanti, F. Boeuf, F. Raineri, F. Baboux, S. Ducci(参考訳) 光量子状態の生成と操作を組み合わせた集積フォトニックチップの需要は、量子情報技術のためのコンパクトでスケーラブルなプラットフォームの必要性によって着実に増加している。 多様な機能を持つフォトニック回路は、異なる単一材料プラットフォームで開発されているが、複数の材料の利点を生かし、それぞれの弱点を緩和し、機能強化をもたらすハイブリッドフォトニック回路を実現することが重要である。 本稿では,強2次非線形性とiii-v半導体プラットフォームの電気ポンピングとシリコンフォトニックプラットフォームの高成熟度とcmos互換性を組み合わせたハイブリッドiii-v/シリコン量子フォトニックデバイスを示す。 我々の装置は、光子対の自発パラメトリックダウンコンバージョン(SPDC)をAlGaAs源に埋め込み、それに続くシリコンオン絶縁体回路へのルーティングを、両方の偏光状態を管理するエバネッセントカップリング方式に組み込む。 これにより、ハイブリッドデバイスからの0型および2型SPDCによるブロードバンド通信光子のオンチップ生成が可能となり、内部対生成レートが10^5$$s^{-1}以上となる一方、ポンプビームは強く拒否される。 92 %の可視性を持つ2光子干渉(および5 nmのスペクトルフィルタリングで最大99 %)は、生成した量子状態を特徴付ける高エネルギー時間絡み合いの品質を証明し、量子技術のアウトオブザラブ展開の観点から、2つの成熟した高相補的なプラットフォームの資産を融合させるハイブリッドアーキテクチャにおいて、チップ上の幅広い量子情報応用を可能にする。

The demand for integrated photonic chips combining the generation and manipulation of quantum states of light is steadily increasing, driven by the need for compact and scalable platforms for quantum information technologies. While photonic circuits with diverse functionalities are being developed in different single material platforms, it has become crucial to realize hybrid photonic circuits that harness the advantages of multiple materials while mitigating their respective weaknesses, resulting in enhanced capabilities. Here, we demonstrate a hybrid III-V/Silicon quantum photonic device combining the strong second-order nonlinearity and compliance with electrical pumping of the III-V semiconductor platform with the high maturity and CMOS compatibility of the silicon photonic platform. Our device embeds the spontaneous parametric down-conversion (SPDC) of photon pairs into an AlGaAs source and their subsequent routing to a silicon-on-insulator circuitry, within an evanescent coupling scheme managing both polarization states. This enables the on-chip generation of broadband telecom photons by type 0 and type 2 SPDC from the hybrid device, at room temperature and with internal pair generation rates exceeding $10^5$ $s^{-1}$ for both types, while the pump beam is strongly rejected. Two-photon interference with 92\% visibility (and up to 99\% upon 5 nm spectral filtering) proves the high energy-time entanglement quality characterizing the produced quantum state, thereby enabling a wide range of quantum information applications on-chip, within an hybrid architecture merging the assets of two mature and highly complementary platforms in view of out-of-the-lab deployment of quantum technologies.
翻訳日:2023-11-22 23:52:17 公開日:2023-11-21
# minimax: JAX における Autocurricula の効率的なベースライン

minimax: Efficient Baselines for Autocurricula in JAX ( http://arxiv.org/abs/2311.12716v1 )

ライセンス: Link先を確認
Minqi Jiang, Michael Dennis, Edward Grefenstette, Tim Rockt\"aschel(参考訳) 教師なし環境設計(unsupervised environment design, ued)は、ロバストな意思決定エージェントを訓練し、目に見えない環境へゼロショット転送する自動カリキュラム学習の一形態である。 このようなautocurriculaはrlコミュニティから大きな関心を集めている。 しかし、CPUロールアウトとGPUモデルの更新に基づくUED実験は、しばしば数週間のトレーニングを必要とした。 この計算要求は、この分野の急速な革新の大きな障害である。 本研究は、加速ハードウェア上でのuedトレーニングのためのminimaxライブラリを紹介する。 JAXを使って完全に拡張された環境とオートキュラムアルゴリズムを実装し、minimaxはハードウェアアクセラレーションのためにトレーニングループ全体をコンパイルできる。 手続き的に生成された環境でオートキュリキュラを行うための再利用可能な抽象化に加えて、MiniGridに基づくテンソル化グリッドワールドを含む、迅速な実験用のペトリ皿を提供する。 これらのコンポーネントにより、minimaxは、バッチサイズのトレーニングで以前の実装と比較して120$\times$のスピードアップを実現する新しい並列化バージョンを含む、強力なuedベースラインを提供する。 minimaxライブラリはApache 2.0ライセンスでhttps://github.com/facebookresearch/minimax.comから入手できる。

Unsupervised environment design (UED) is a form of automatic curriculum learning for training robust decision-making agents to zero-shot transfer into unseen environments. Such autocurricula have received much interest from the RL community. However, UED experiments, based on CPU rollouts and GPU model updates, have often required several weeks of training. This compute requirement is a major obstacle to rapid innovation for the field. This work introduces the minimax library for UED training on accelerated hardware. Using JAX to implement fully-tensorized environments and autocurriculum algorithms, minimax allows the entire training loop to be compiled for hardware acceleration. To provide a petri dish for rapid experimentation, minimax includes a tensorized grid-world based on MiniGrid, in addition to reusable abstractions for conducting autocurricula in procedurally-generated environments. With these components, minimax provides strong UED baselines, including new parallelized variants, which achieve over 120$\times$ speedups in wall time compared to previous implementations when training with equal batch sizes. The minimax library is available under the Apache 2.0 license at https://github.com/facebookresearch/minimax.
翻訳日:2023-11-22 23:51:43 公開日:2023-11-21
# フェデレーション学習における公平性の攻撃

Attacks of fairness in Federated Learning ( http://arxiv.org/abs/2311.12715v1 )

ライセンス: Link先を確認
Joseph Rance, Filip Svoboda(参考訳) フェデレートラーニング(Federated Learning)は、クライアント上でデータをプライベートにするための重要な分散トレーニングパラダイムである。 現在、FLクライアントのごく一部のサブセットだけを制御することで、特定の属性の存在下で、連合学習モデルにバックドアを導入することが可能であることがよく理解されている。 本稿では,学習モデルの公平性を損なう新たな攻撃手法を提案する。 fairnessは、トレーニングされたモデルの属性レベルのパフォーマンス分布であると理解されている。 例えば、サブポピュレーション間の精度の差別が破滅的な結果をもたらすような領域では特に顕著である。 バックドア攻撃と同様の脅威モデルを使用することで、攻撃者は特定の属性セット間で不公平なパフォーマンス分布を持つように集約されたモデルに影響を及ぼすことができる。 さらに、この攻撃は1つのクライアントのみを制御することで可能となる。 flにおける自然に誘発される不公平との戦いは以前にも深く議論されてきたが、人工的に誘発される種は無視されている。 公平性に対する攻撃に対する防御は、トレーニングモデルにおける不公平さがトレーニングに参加したユーザーに利益をもたらす可能性がある状況において、重要な考慮事項である。

Federated Learning is an important emerging distributed training paradigm that keeps data private on clients. It is now well understood that by controlling only a small subset of FL clients, it is possible to introduce a backdoor to a federated learning model, in the presence of certain attributes. In this paper, we present a new type of attack that compromises the fairness of the trained model. Fairness is understood to be the attribute-level performance distribution of a trained model. It is particularly salient in domains where, for example, skewed accuracy discrimination between subpopulations could have disastrous consequences. We find that by employing a threat model similar to that of a backdoor attack, an attacker is able to influence the aggregated model to have an unfair performance distribution between any given set of attributes. Furthermore, we find that this attack is possible by controlling only a single client. While combating naturally induced unfairness in FL has previously been discussed in depth, its artificially induced kind has been neglected. We show that defending against attacks on fairness should be a critical consideration in any situation where unfairness in a trained model could benefit a user who participated in its training.
翻訳日:2023-11-22 23:51:20 公開日:2023-11-21
# 物理学におけるAlpha Zero:Alpha Zeroを用いたシンボリック回帰の物理解析への応用

Alpha Zero for Physics: Application of Symbolic Regression with Alpha Zero to find the analytical methods in physics ( http://arxiv.org/abs/2311.12713v1 )

ライセンス: Link先を確認
Yoshihiro Michishita(参考訳) ニューラルネットワークによる機械学習は、自然言語処理、画像認識、ゲーム勝利、さらには物理学の問題など、さまざまなタスクのための、ますます強力なツールになりつつある。 数値計算への機械学習の適用と実験的な検出の支援については,多くの研究があるが,解析手法の発見に機械学習を適用する方法はあまり研究されていない。 本稿では、アルファゼロアルゴリズム(α zero for physics (azfp))を用いた記号回帰を用いて、物理学における解析手法を開発する枠組みを提案する。 実演として、AZfPはFloquetシステムの高周波展開を導出できることを示す。 AZfPは物理学の新しい理論フレームワークを開発する可能性がある。

Machine learning with neural networks is now becoming a more and more powerful tool for various tasks, such as natural language processing, image recognition, winning the game, and even for the issues of physics. Although there are many studies on the application of machine learning to numerical calculation and the assistance of experimental detection, the methods of applying machine learning to find the analytical method are poorly studied. In this paper, we propose the frameworks of developing analytical methods in physics by using the symbolic regression with the Alpha Zero algorithm, that is Alpha Zero for physics (AZfP). As a demonstration, we show that AZfP can derive the high-frequency expansion in the Floquet systems. AZfP may have the possibility of developing a new theoretical framework in physics.
翻訳日:2023-11-22 23:51:03 公開日:2023-11-21
# 回帰に基づくマルチモーダル単一セルデータ統合戦略の解析

Regression-Based Analysis of Multimodal Single-Cell Data Integration Strategies ( http://arxiv.org/abs/2311.12711v1 )

ライセンス: Link先を確認
Bhavya Mehta, Nirmit Deliwala, Madhav Chandane(参考訳) マルチモーダル単一細胞技術は、個々の細胞から多様なデータ型の同時収集を可能にし、細胞状態の理解を深める。 しかし、これらのデータ型の統合とモダリティ間の相互関係のモデル化は、疾患のバイオマーカー検出と薬物発見において、かなりの計算的および分析的な課題をもたらす。 確立された慣行は、個々の分子的側面を別々に研究するために孤立した方法論に依存し、しばしば不正確な分析をもたらす。 これらの障害に対処するために、異なる機械学習技術が利用され、それぞれがDNAとRNAの共変をモデル化し、最後に、基礎となる細胞機構と免疫反応の理解を単純化する造血幹細胞の発達中に単細胞でタンパク質を表面化する。 300,000セルのタイムコースデータセットのキュレートされたサブセットで実施された実験では、Echo State Networksの異常なパフォーマンスが強調され、マルチオミックとCiteSeqデータセットにおける、最先端の相関スコア0.94と0.895が記録されている。 この研究の範囲を超えて、これらの発見は、機械学習の可能性を活用し、細胞分化と機能の理解を前進させる可能性を秘めている。

Multimodal single-cell technologies enable the simultaneous collection of diverse data types from individual cells, enhancing our understanding of cellular states. However, the integration of these datatypes and modeling the interrelationships between modalities presents substantial computational and analytical challenges in disease biomarker detection and drug discovery. Established practices rely on isolated methodologies to investigate individual molecular aspects separately, often resulting in inaccurate analyses. To address these obstacles, distinct Machine Learning Techniques are leveraged, each of its own kind to model the co-variation of DNA to RNA, and finally to surface proteins in single cells during hematopoietic stem cell development, which simplifies understanding of underlying cellular mechanisms and immune responses. Experiments conducted on a curated subset of a 300,000-cell time course dataset, highlights the exceptional performance of Echo State Networks, boasting a remarkable state-of-the-art correlation score of 0.94 and 0.895 on Multi-omic and CiteSeq datasets. Beyond the confines of this study, these findings hold promise for advancing comprehension of cellular differentiation and function, leveraging the potential of Machine Learning.
翻訳日:2023-11-22 23:50:49 公開日:2023-11-21
# 同じアンケートの繰り返し管理中,利用者の関与を維持する: 大きな言語モデルによる質問の多様化

Keeping Users Engaged During Repeated Administration of the Same Questionnaire: Using Large Language Models to Reliably Diversify Questions ( http://arxiv.org/abs/2311.12707v1 )

ライセンス: Link先を確認
Hye Sun Yun, Mehdi Arjmand, Phillip Raymond Sherlock, Michael Paasche-Orlow, James W. Griffith, Timothy Bickmore(参考訳) 標準化された検証されたアンケートは、hci研究と医療において必須のツールであり、信頼できる自己報告データを提供する。 しかし、縦断的または後続研究における繰り返しの使用は、応答性疲労を引き起こし、応答バイアスによるデータ品質に影響し、応答率を低下させる可能性がある。 本研究では,大規模言語モデル(LLMs)を用いて,心理測定特性を良好に保ちつつ,多様なアンケートバージョンを生成することを提案する。 縦断研究では, エージェントシステムに従事し, 2週間にわたり, 標準うつ病アンケート, 2つのllm生成アンケートのいずれにも回答し, 有効性うつ病アンケートと合わせて回答した。 心理測定では, 外部基準と3つの条件にわたる焦点測定との間に一貫した相違がみられ, LLM生成変異体の信頼性と妥当性が示された。 参加者は、標準化されたアンケートの繰り返し投与は、変種に比べて有意に反復的であることがわかった。 以上の結果から,LCM生成型がアンケートの活力向上に寄与し,妥当性を損なうことなく参加と関心を高める可能性が示唆された。

Standardized, validated questionnaires are vital tools in HCI research and healthcare, offering dependable self-report data. However, their repeated use in longitudinal or pre-post studies can induce respondent fatigue, impacting data quality via response biases and decreased response rates. We propose utilizing large language models (LLMs) to generate diverse questionnaire versions while retaining good psychometric properties. In a longitudinal study, participants engaged with our agent system and responded daily for two weeks to either a standardized depression questionnaire or one of two LLM-generated questionnaire variants, alongside a validated depression questionnaire. Psychometric testing revealed consistent covariation between the external criterion and the focal measure administered across the three conditions, demonstrating the reliability and validity of the LLM-generated variants. Participants found the repeated administration of the standardized questionnaire significantly more repetitive compared to the variants. Our findings highlight the potential of LLM-generated variants to invigorate questionnaires, fostering engagement and interest without compromising validity.
翻訳日:2023-11-22 23:50:28 公開日:2023-11-21
# 視覚場面分類における識別特徴のカスケード学習

Cascade Learning Localises Discriminant Features in Visual Scene Classification ( http://arxiv.org/abs/2311.12704v1 )

ライセンス: Link先を確認
Junwen Wang and Katayoun Farrahi(参考訳) 深層畳み込みニューラルネットワーク(DCNN)の解釈可能性の欠如は、特に臨床医が信頼できる自動決定を望んでいる医療分野においてよく知られた問題である。 信頼を改善する一つの方法は、専門的なラベル付き関心領域に対する特徴表現のローカライズを示すことである。 本研究では,2つの異なる学習パラダイムを通じて学習した特徴の局所化について検討し,その局所化に対する1つの学習アプローチの優位性を実証する。 従来のe2e(end-to-end)学習戦略では,複数のネットワーク層にまたがる識別的特徴のローカライズが制限されている。 階層的な学習戦略,すなわちカスケード学習(CL)がより局所的な特徴をもたらすことを示す。 ローカライゼーションの精度を考慮すると、CLがE2Eより優れているだけでなく、領域を予測するための有望な方法であることを示す。 YOLO オブジェクト検出フレームワークでは,CL が mAP において E2E スキームを 2 % 上回る性能を示した。

Lack of interpretability of deep convolutional neural networks (DCNN) is a well-known problem particularly in the medical domain as clinicians want trustworthy automated decisions. One way to improve trust is to demonstrate the localisation of feature representations with respect to expert labeled regions of interest. In this work, we investigate the localisation of features learned via two varied learning paradigms and demonstrate the superiority of one learning approach with respect to localisation. Our analysis on medical and natural datasets show that the traditional end-to-end (E2E) learning strategy has a limited ability to localise discriminative features across multiple network layers. We show that a layer-wise learning strategy, namely cascade learning (CL), results in more localised features. Considering localisation accuracy, we not only show that CL outperforms E2E but that it is a promising method of predicting regions. On the YOLO object detection framework, our best result shows that CL outperforms the E2E scheme by $2\%$ in mAP.
翻訳日:2023-11-22 23:50:07 公開日:2023-11-21
# RedditでAI生成コンテンツをモデレートする「見逃している場所」

"There Has To Be a Lot That We're Missing": Moderating AI-Generated Content on Reddit ( http://arxiv.org/abs/2311.12702v1 )

ライセンス: Link先を確認
Travis Lloyd, Joseph Reagle, Mor Naaman(参考訳) 生成aiは、オンラインコミュニティの働き方、学び、コミュニケーション、参加を妨害する恐れがある。 われわれは、ソーシャル共有サイトRedditのオンラインコミュニティがAIGC(AIGC)によってどのように挑戦されているか、どのように適応しているかを理解するために、質的なインタビュー研究を行った。 我々は,AIGCをモデレートした経験について,サブレディットモデレーターとの詳細な半構造化インタビューを15回行った。 参加者はAIGCの使用に対する合法的動機と非合法的動機の両方を認識していますが、全体としては、サブレディットの目的とサイズに依存したレベルの懸念をもって、コミュニティに有害であると考えています。 モデレーターは、aigcの予防や抑制に役立つ様々な戦略を使用してルールを開発していると報告したが、愚かな検出ツールがなければ、強制は困難であり、ヒューリスティックスに依存している。 全体として、オンラインコミュニティにとって、生成AIの脅威は投機的ではない。

Generative AI threatens to disrupt how we work, learn, communicate, and participate in online communities. We performed a qualitative interview study to understand how online communities on the social sharing site Reddit are challenged by AI-generated content (AIGC) and how they are adapting. We conducted fifteen in-depth, semi-structured interviews with subreddit moderators about their experiences moderating AIGC. Though our participants see both legitimate and illegitimate motivations for using AIGC, on the whole they view it as detrimental to their communities, with a level of concern that is dependent on the purpose and size of their subreddits. Moderators reported developing rules and using a variety of strategies that may help communities prevent or curb AIGC, but without foolproof detection tools, enforcement is challenging and relies on heuristics. Overall, for online communities, the threat of Generative AI is not speculative: the disruption has already begun.
翻訳日:2023-11-22 23:49:48 公開日:2023-11-21
# 大規模言語モデルによる誤情報検出の理解と伝播:実証的研究

Can Large Language Models Understand Content and Propagation for Misinformation Detection: An Empirical Study ( http://arxiv.org/abs/2311.12699v1 )

ライセンス: Link先を確認
Mengyang Chen, Lingwei Wei, Han Cao, Wei Zhou, Songlin Hu(参考訳) 大きな言語モデル(LLM)は、自然言語の理解と推論における強力な能力に対して大きな注目を集めている。 本稿では,誤情報検出タスクにおけるLCMの性能について,総合的研究を行った。 本研究は,ソーシャルメディアプラットフォーム間のコンテンツと伝播に関する複数のllmの理解能力に関する先駆的な調査である。 5つの誤情報検出データセットに関する実証研究により、多種多様なプロンプトを持つLCMは、テキストベースの誤情報検出において同等の性能を発揮するが、既存の伝播に基づく誤情報検出モデルと比較して、伝搬構造を理解する上で顕著な制約のある能力を示す。 さらに,コンテンツと伝播に基づく誤情報検出の両方に対するllmを強化するための4つの命令調整戦略も設計した。 これらの戦略により、LLMは複数のインスタンスやハードインスタンスから効果的な機能を積極的に学習し、無関係な伝搬構造を排除し、より良い検出性能を実現することができる。 広汎な実験により、LLMはこれらの戦略の下でコンテンツおよび伝播構造においてより良い容量を担い、将来的な検出性能を達成することが実証された。 これらの知見は、誤情報を検出するLLMの可能性を浮き彫りにした。

Large Language Models (LLMs) have garnered significant attention for their powerful ability in natural language understanding and reasoning. In this paper, we present a comprehensive empirical study to explore the performance of LLMs on misinformation detection tasks. This study stands as the pioneering investigation into the understanding capabilities of multiple LLMs regarding both content and propagation across social media platforms. Our empirical studies on five misinformation detection datasets show that LLMs with diverse prompts achieve comparable performance in text-based misinformation detection but exhibit notably constrained capabilities in comprehending propagation structure compared to existing models in propagation-based misinformation detection. Besides, we further design four instruction-tuned strategies to enhance LLMs for both content and propagation-based misinformation detection. These strategies boost LLMs to actively learn effective features from multiple instances or hard instances, and eliminate irrelevant propagation structures, thereby achieving better detection performance. Extensive experiments further demonstrate LLMs would play a better capacity in content and propagation structure under these proposed strategies and achieve promising detection performance. These findings highlight the potential ability of LLMs to detect misinformation.
翻訳日:2023-11-22 23:49:31 公開日:2023-11-21
# ワッサースタイン独立を考慮した公正テキスト分類

Fair Text Classification with Wasserstein Independence ( http://arxiv.org/abs/2311.12689v1 )

ライセンス: Link先を確認
Thibaud Leteno, Antoine Gourru, Charlotte Laclau, R\'emi Emonet, Christophe Gravier(参考訳) グループフェアネスはテキスト分類において中心的な研究テーマであり、敏感なグループ(例えば女性対男性)の間で公平な扱いを受けることはオープンな課題である。 本稿では,モデルアーキテクチャに非依存なニューラルテキスト分類におけるバイアス軽減手法を提案する。 テキストエンコーダにおける公平な情報と不公平な情報を区別することの難しさを考慮し、敵の訓練からインスピレーションを得て、ターゲットラベルを予測した表現と、いくつかの機密属性を予測した表現の間にワッサースタイン独立を誘導する。 我々のアプローチには2つの大きな利点がある。 まず、データテストとトレーニングの両方で機密属性のアノテーションを必要としない。 これは、列車の時刻に繊細な属性のアノテーションを必要とする既存のメソッドと比較して、実際のシナリオに適している。 第2に,既存の手法と比較して,公平さと正確さのトレードオフが同等かそれ以上であることを示す。

Group fairness is a central research topic in text classification, where reaching fair treatment between sensitive groups (e.g. women vs. men) remains an open challenge. This paper presents a novel method for mitigating biases in neural text classification, agnostic to the model architecture. Considering the difficulty to distinguish fair from unfair information in a text encoder, we take inspiration from adversarial training to induce Wasserstein independence between representations learned to predict our target label and the ones learned to predict some sensitive attribute. Our approach provides two significant advantages. Firstly, it does not require annotations of sensitive attributes in both testing and training data. This is more suitable for real-life scenarios compared to existing methods that require annotations of sensitive attributes at train time. Second, our approach exhibits a comparable or better fairness-accuracy trade-off compared to existing methods.
翻訳日:2023-11-22 23:49:09 公開日:2023-11-21
# 分割共形予測とベイズ深層学習を組み合わせた分散範囲について

On the Out-of-Distribution Coverage of Combining Split Conformal Prediction and Bayesian Deep Learning ( http://arxiv.org/abs/2311.12688v1 )

ライセンス: Link先を確認
Paul Scemama, Ariel Kapusta(参考訳) ベイズ深層学習と共形予測は、不確かさを伝達し、機械学習システムにおける安全性を高めるために用いられてきた2つの手法である。 ベイズ深層学習と分割共形予測の組み合わせと,この組み合わせが分布外範囲,特にマルチクラス画像分類にどのように影響するかに着目した。 モデルが概してキャリブレーション集合に不信感がある場合、結果の共形集合は単純な予測可能な集合に比べて分布外カバレッジが悪くなる可能性があることを示唆する。 逆に、モデルがキャリブレーションセットに自信過剰であれば、共形予測の使用は分散範囲を改善する可能性がある。 分割共形法とニューラルネットワークを併用した予測セットの評価を行った。 (i)確率勾配降下 (二)ディープアンサンブル、及び (iii)平均場変分推論。 その結果,ベイズ型深層学習モデルと分割共形予測を組み合わせると,分散範囲の削減などの意図しない結果が引き起こされる可能性が示唆された。

Bayesian deep learning and conformal prediction are two methods that have been used to convey uncertainty and increase safety in machine learning systems. We focus on combining Bayesian deep learning with split conformal prediction and how this combination effects out-of-distribution coverage; particularly in the case of multiclass image classification. We suggest that if the model is generally underconfident on the calibration set, then the resultant conformal sets may exhibit worse out-of-distribution coverage compared to simple predictive credible sets. Conversely, if the model is overconfident on the calibration set, the use of conformal prediction may improve out-of-distribution coverage. We evaluate prediction sets as a result of combining split conformal methods and neural networks trained with (i) stochastic gradient descent, (ii) deep ensembles, and (iii) mean-field variational inference. Our results suggest that combining Bayesian deep learning models with split conformal prediction can, in some cases, cause unintended consequences such as reducing out-of-distribution coverage.
翻訳日:2023-11-22 23:48:53 公開日:2023-11-21
# MLに基づく非Functional Behaviorの管理:マルチモデルアプローチ

Managing ML-Based Application Non-Functional Behavior: A Multi-Model Approach ( http://arxiv.org/abs/2311.12686v1 )

ライセンス: Link先を確認
Marco Anisetti, Claudio A. Ardagna, Nicola Bena, Ernesto Damiani, Paolo G. Panero(参考訳) 現代のアプリケーションは、設計から運用までのアプリケーションライフサイクル全体に影響を与える非決定論的振る舞いを持つ機械学習(ml)モデルによってますます駆動される。 MLの普及は、MLベースのアプリケーションの時間的およびモデル変更間の安定した非機能的動作を保証するアプローチを緊急に求めている。 この目的のために、プライバシ、機密性、公正性、説明可能性などのMLモデルの非機能特性を監視、検証、維持する必要がある。 最新のアプリケーションがエッジクラウド連続体で動作し、複雑さと動的性が増すと、このニーズはさらに圧迫される。 既存のアプローチは主に 一 MLモデルの機能行動に応じて分類器選択ソリューションを実装すること。 ii) 継続的再訓練のような、このニーズに対する新しいアルゴリズム的解決策を見つけること。 本稿では、動的分類器選択に基づくマルチモデルアプローチを提案し、類似する非機能特性を示す複数のmlモデルが、(動的かつ予測不能な)文脈変化に応じて、時間とともに1つのモデルを選択する。 我々のソリューションは、MLベースのアプリケーションの安定した非機能的振る舞いを継続的に保証し、異なるMLモデルに適用可能であり、モデル自身で評価された非機能的特性によって駆動されるアーキテクチャ的および方法論的アプローチを提供することによって、最先端技術を越えている。 モデルアセスメントは、開発時にトレーニングされ選択されたmlモデルの非機能特性を検証するもので、モデル置換は、非機能特性の連続的かつ安定したサポートを保証する。 非機能的プロパティフェアネスに着目した実世界のシナリオで,我々のソリューションを実験的に評価した。

Modern applications are increasingly driven by Machine Learning (ML) models whose non-deterministic behavior is affecting the entire application life cycle from design to operation. The pervasive adoption of ML is urgently calling for approaches that guarantee a stable non-functional behavior of ML-based applications over time and across model changes. To this aim, non-functional properties of ML models, such as privacy, confidentiality, fairness, and explainability, must be monitored, verified, and maintained. This need is even more pressing when modern applications operate in the edge-cloud continuum, increasing their complexity and dynamicity. Existing approaches mostly focus on i) implementing classifier selection solutions according to the functional behavior of ML models, ii) finding new algorithmic solutions to this need, such as continuous re-training. In this paper, we propose a multi-model approach built on dynamic classifier selection, where multiple ML models showing similar non-functional properties are made available to the application and one model is selected over time according to (dynamic and unpredictable) contextual changes. Our solution goes beyond the state of the art by providing an architectural and methodological approach that continuously guarantees a stable non-functional behavior of ML-based applications, is applicable to different ML models, and is driven by non-functional properties assessed on the models themselves. It consists of a two-step process working during application operation, where model assessment verifies non-functional properties of ML models trained and selected at development time, and model substitution guarantees a continuous and stable support of non-functional properties. We experimentally evaluate our solution in a real-world scenario focusing on non-functional property fairness.
翻訳日:2023-11-22 23:48:32 公開日:2023-11-21
# マルチインスタンス学習を用いた高分解能画像ベースマルウェア分類

High-resolution Image-based Malware Classification using Multiple Instance Learning ( http://arxiv.org/abs/2311.12760v1 )

ライセンス: Link先を確認
Tim Peters, Hikmat Farhat(参考訳) 本稿では,高解像度グレースケール画像と複数インスタンス学習を用いて,敵対的バイナリ拡大を克服し,マルウェアを家族に分類する方法を提案する。 可視化ベースのマルウェア分類の現在の手法は、大きな可変サイズの画像を扱うためにサイズ変更などの入力の損失変換に大きく依存している。 経験的分析と実験を通じて,これらのアプローチが重要な情報損失をもたらし,活用できることが示されている。 提案手法は,イメージをパッチに分割し,畳み込みニューラルネットワークとアテンションアグリゲーション機能を備えた埋め込み型マルチインスタンス学習を用いて分類する。 この実装はmicrosoftのマルウェア分類データセットで評価され、22.8\%$のベースラインと比較して、反対に拡大したサンプルに対して最大96.6\%$の精度を達成する。 pythonコードはhttps://github.com/timppeters/mil-malware-imagesで入手できる。

This paper proposes a novel method of classifying malware into families using high-resolution greyscale images and multiple instance learning to overcome adversarial binary enlargement. Current methods of visualisation-based malware classification largely rely on lossy transformations of inputs such as resizing to handle the large, variable-sized images. Through empirical analysis and experimentation, it is shown that these approaches cause crucial information loss that can be exploited. The proposed solution divides the images into patches and uses embedding-based multiple instance learning with a convolutional neural network and an attention aggregation function for classification. The implementation is evaluated on the Microsoft Malware Classification dataset and achieves accuracies of up to $96.6\%$ on adversarially enlarged samples compared to the baseline of $22.8\%$. The Python code is available online at https://github.com/timppeters/MIL-Malware-Images .
翻訳日:2023-11-22 23:40:04 公開日:2023-11-21
# 熱力学マトリックス指数と熱力学的並列性

Thermodynamic Matrix Exponentials and Thermodynamic Parallelism ( http://arxiv.org/abs/2311.12759v1 )

ライセンス: Link先を確認
Samuel Duffield, Maxwell Aifer, Gavin Crooks, Thomas Ahle, and Patrick J. Coles(参考訳) 熱力学計算は物理系のゆらぎと散逸を利用して様々な数学的問題を効率的に解く。 例えば、最近、ある種の線形代数問題は熱力学的に解けることが示され、行列次元の漸近的なスピードアップスケーリングにつながった。 この「熱力学的アドバンテージ」の起源はまだ完全には説明されておらず、他の問題にどのようなメリットがあるのかは明らかではない。 本稿では,線形力学系をシミュレートする応用により,実行列を指数化する新しい熱力学アルゴリズムを提案する。 熱平衡がアルゴリズムを実装できる結合発振器を含む単純な電気回路について述べる。 また,このアルゴリズムは,次元に線形な漸近的な速度アップも提供することを示した。 最後に、この高速化を説明するために、熱力学的並列性の概念を導入し、熱力学的ノイズが計算の効果的な並列化につながるリソースを提供し、熱力学的優位を説明するメカニズムとしてこれを仮定する。

Thermodynamic computing exploits fluctuations and dissipation in physical systems to efficiently solve various mathematical problems. For example, it was recently shown that certain linear algebra problems can be solved thermodynamically, leading to an asymptotic speedup scaling with the matrix dimension. The origin of this "thermodynamic advantage" has not yet been fully explained, and it is not clear what other problems might benefit from it. Here we provide a new thermodynamic algorithm for exponentiating a real matrix, with applications in simulating linear dynamical systems. We describe a simple electrical circuit involving coupled oscillators, whose thermal equilibration can implement our algorithm. We also show that this algorithm also provides an asymptotic speedup that is linear in the dimension. Finally, we introduce the concept of thermodynamic parallelism to explain this speedup, stating that thermodynamic noise provides a resource leading to effective parallelization of computations, and we hypothesize this as a mechanism to explain thermodynamic advantage more generally.
翻訳日:2023-11-22 23:39:50 公開日:2023-11-21
# 非エルミート位相からの量子エンハンスセンシング

Quantum-enhanced sensing from non-Hermitian topology ( http://arxiv.org/abs/2311.12756v1 )

ライセンス: Link先を確認
Saubhik Sarkar, Francesco Ciccarello, Angelo Carollo, Abolfazl Bayat(参考訳) 非エルミート物理学は、例外点や非エルミート皮膚効果のようなユニークな位相的特徴を持つ開量子系力学を予測する。 この新しいトポロジカルシステムのパラダイムは、ハイゼンベルクスケーリングに到達した量子増強感度を持つバルクハミルトンパラメータのプローブとして機能することを示す。 このような拡張はスペクトルトポロジカル相転移に近く起こり、スペクトル全体が非局在化遷移を起こす。 そこで,本論文では,真に非エルミート的エネルギーギャップである点ギャップの閉包に基づく感度の向上について解説する。 これは非エルミート領域におけるエネルギーギャップ閉包と量子化の直接接続を確立する。 本知見は,様々な次元の非エルミート位相モデルと実験的実装を用いて実証された。

Non-Hermitian physics predicts open quantum system dynamics with unique topological features such as exceptional points and the non-Hermitian skin effect. We show that this new paradigm of topological systems can serve as probes for bulk Hamiltonian parameters with quantum-enhanced sensitivity reaching Heisenberg scaling. Such enhancement occurs close to a spectral topological phase transition, where the entire spectrum undergoes a delocalization transition. We provide an explanation for this enhanced sensitivity based on the closing of point gap, which is a genuinely non-Hermitian energy gap with no Hermitian counterpart. This establishes a direct connection between energy-gap closing and quantum enhancement in the non-Hermitian realm. Our findings are demonstrated through several paradigmatic non-Hermitian topological models in various dimensions and potential experimental implementations.
翻訳日:2023-11-22 23:39:33 公開日:2023-11-21
# サイバー物理システムにおける最適・自律的意思決定のためのディジタルツインフレームワーク:石油・ガス産業における信頼性と適応性の向上

Digital Twin Framework for Optimal and Autonomous Decision-Making in Cyber-Physical Systems: Enhancing Reliability and Adaptability in the Oil and Gas Industry ( http://arxiv.org/abs/2311.12755v1 )

ライセンス: Link先を確認
Carine Menezes Rebello, Johannes J\"aschkea, and Idelfonso B. R. Nogueira(参考訳) 完全なサイバー物理システムの仮想コピーを作成するというコンセプトは、物理的環境のリアルタイム評価や、信頼性と正確な情報を提供するシステムからの継続的学習など、多くの可能性を開く。 このプロセスは、ツインニングプロセスまたはデジタルツイン(DT)の開発として知られているが、様々な産業で広く採用されている。 しかし、リアルタイム情報交換シナリオにおいて、デジタル双生児のようなaiモデルを実装することの計算的要求を考慮すると、課題が発生する。 本研究は,石油・ガス産業におけるガスリフトプロセスに適用される最適かつ自律的な意思決定のためのディジタルツインフレームワークを提案し,DTの堅牢性と適応性の向上に焦点をあてた。 このフレームワークは、ベイズ推論、モンテカルロシミュレーション、転送学習、オンライン学習、モデル超次元還元や認知タックを含むdtへの認知を促進するための新しい戦略を組み合わせたものである。 その結果、効率的で信頼性があり、信頼できるDT識別のためのフレームワークを作成することができた。 提案手法は,デジタルツイン戦略における様々な学習手法と不確実性管理の統合に関する文献のギャップに対処する。 このデジタルツインフレームワークは、変化する環境に適応し、予測の不確実性を取り入れた、信頼性と効率のよいシステムを提供することを目的としている。 さらに、この研究は、プロセスシステム工学のためのデジタル双生児のさらなる発展の基盤となり、様々な産業分野における新しい進歩と応用を促進する可能性がある。

The concept of creating a virtual copy of a complete Cyber-Physical System opens up numerous possibilities, including real-time assessments of the physical environment and continuous learning from the system to provide reliable and precise information. This process, known as the twinning process or the development of a digital twin (DT), has been widely adopted across various industries. However, challenges arise when considering the computational demands of implementing AI models, such as those employed in digital twins, in real-time information exchange scenarios. This work proposes a digital twin framework for optimal and autonomous decision-making applied to a gas-lift process in the oil and gas industry, focusing on enhancing the robustness and adaptability of the DT. The framework combines Bayesian inference, Monte Carlo simulations, transfer learning, online learning, and novel strategies to confer cognition to the DT, including model hyperdimensional reduction and cognitive tack. Consequently, creating a framework for efficient, reliable, and trustworthy DT identification was possible. The proposed approach addresses the current gap in the literature regarding integrating various learning techniques and uncertainty management in digital twin strategies. This digital twin framework aims to provide a reliable and efficient system capable of adapting to changing environments and incorporating prediction uncertainty, thus enhancing the overall decision-making process in complex, real-world scenarios. Additionally, this work lays the foundation for further developments in digital twins for process systems engineering, potentially fostering new advancements and applications across various industrial sectors.
翻訳日:2023-11-22 23:39:23 公開日:2023-11-21
# SelfOcc: 自己監督型ビジョンベースの3D作業予測

SelfOcc: Self-Supervised Vision-Based 3D Occupancy Prediction ( http://arxiv.org/abs/2311.12754v1 )

ライセンス: Link先を確認
Yuanhui Huang, Wenzhao Zheng, Borui Zhang, Jie Zhou, Jiwen Lu(参考訳) 3D占有予測は、周囲の3D空間に各点が占有されているかどうかを予測することを目的とした、視覚中心の自律運転の堅牢性にとって重要な課題である。 既存の方法は通常、有意義な結果を得るために3dの占有ラベルを必要とする。 しかし、それぞれのボクセルの占有状況に注釈をつけるのは非常に困難である。 本稿では,ビデオシーケンスのみを用いて3Dの占有度を学習する自己教師型手法を提案する。 まず、画像を3D空間(例えば鳥の目視)に変換し、シーンの3D表現を得る。 符号付き距離場として扱うことにより,3次元表現に直接制約を課す。 そして、前と将来のフレームの2D画像を自己超越信号として描画し、3D表現を学習する。 複数の深度の提案により,SDFによる重み付けを直接最適化するMSV組込み方式を提案する。 我々のSelfOccは、SemanticKITTIの入力として単一のフレームを使用してSceneRFを58.7%向上させ、Occ3Dの周囲カメラに合理的な3D占有力を与える最初の自己監督型ワークである。 SelfOccは高品質な深度を生成し、新しい深度合成、単分子深度推定、SemanticKITTI、KITTI-2015、nuScenesのサラウンドビュー深度推定の最先端結果を達成する。 コード: https://github.com/huang-yh/selfocc。

3D occupancy prediction is an important task for the robustness of vision-centric autonomous driving, which aims to predict whether each point is occupied in the surrounding 3D space. Existing methods usually require 3D occupancy labels to produce meaningful results. However, it is very laborious to annotate the occupancy status of each voxel. In this paper, we propose SelfOcc to explore a self-supervised way to learn 3D occupancy using only video sequences. We first transform the images into the 3D space (e.g., bird's eye view) to obtain 3D representation of the scene. We directly impose constraints on the 3D representations by treating them as signed distance fields. We can then render 2D images of previous and future frames as self-supervision signals to learn the 3D representations. We propose an MVS-embedded strategy to directly optimize the SDF-induced weights with multiple depth proposals. Our SelfOcc outperforms the previous best method SceneRF by 58.7% using a single frame as input on SemanticKITTI and is the first self-supervised work that produces reasonable 3D occupancy for surround cameras on Occ3D. SelfOcc produces high-quality depth and achieves state-of-the-art results on novel depth synthesis, monocular depth estimation, and surround-view depth estimation on the SemanticKITTI, KITTI-2015, and nuScenes, respectively. Code: https://github.com/huang-yh/SelfOcc.
翻訳日:2023-11-22 23:38:55 公開日:2023-11-21
# 自然言語誘導ドローンに向けたgeotext-1652ベンチマーク

Towards Natural Language-Guided Drones: GeoText-1652 Benchmark with Spatially Relation Matching ( http://arxiv.org/abs/2311.12751v1 )

ライセンス: Link先を確認
Meng Chu, Zhedong Zheng, Wei Ji, Tat-Seng Chua(参考訳) 公開されているマルチモーダルデータセットの欠如と、きめ細かいビジュアルテキストアライメントの複雑な要求のため、自然言語コマンドによるドローンナビゲーションは依然として大きな課題である。 そこで,本研究では,強固な大規模言語モデル(llm)ベースのデータ生成フレームワークと事前学習されたビジョンモデルの専門知識を用いて,ジオテキスト1652という新たなヒューマンコンピュータインタラクションアノテーションベンチマークを提案する。 このデータセットは、既存の画像データセットである \ie, University-1652 を、複雑な画像テキスト境界ボックスアソシエーションを含む空間認識テキストアノテーションでシームレスに拡張する。 また,領域レベルの空間関係マッチングのために,混合空間マッチングと呼ばれる細粒度空間相関を利用するための新しい最適化目標を提案する。 大規模な実験により,本手法は様々な記述複雑さの下で例外的なリコール率を維持していることが明らかとなった。 このことは、現実のシナリオにおける自然言語コマンドのシームレスな統合を通じて、ドローンの制御とナビゲーションを向上する我々のアプローチの有望な可能性を浮き彫りにしている。

Drone navigation through natural language commands remains a significant challenge due to the lack of publicly available multi-modal datasets and the intricate demands of fine-grained visual-text alignment. In response to this pressing need, we present a new human-computer interaction annotation benchmark called GeoText-1652, meticulously curated through a robust Large Language Model (LLM)-based data generation framework and the expertise of pre-trained vision models. This new dataset seamlessly extends the existing image dataset, \ie, University-1652, with spatial-aware text annotations, encompassing intricate image-text-bounding box associations. Besides, we introduce a new optimization objective to leverage fine-grained spatial associations, called blending spatial matching, for region-level spatial relation matching. Extensive experiments reveal that our approach maintains an exceptional recall rate under varying description complexities. This underscores the promising potential of our approach in elevating drone control and navigation through the seamless integration of natural language commands in real-world scenarios.
翻訳日:2023-11-22 23:38:27 公開日:2023-11-21
# グラフトランスフォーマーによる風力発電所の最適化

Learning to Optimise Wind Farms with Graph Transformers ( http://arxiv.org/abs/2311.12750v1 )

ライセンス: Link先を確認
Siyi Li, Arnaud Robert, A. Aldo Faisal, Matthew D. Piggott(参考訳) 本研究は, 任意の配置, ヨー角配置, 風条件を有する風力発電所において, 全風力タービンの発電を正確に予測できる新しいデータ駆動モデルを提案する。 提案モデルでは,ウィンドファームを完全連結グラフに符号化し,グラフ変換器を用いてグラフ表現を処理する。 グラフトランスフォーマーサロゲートはよく一般化され、風力発電所のグラフ表現の中に潜伏した構造パターンを明らかにすることができる。 得られた代理モデルを用いて遺伝的アルゴリズムを用いてヨー角構成を最適化し,産業標準の風力発電シミュレーションツールと同等の精度で計算コストのごく一部を消費することを示した。

This work proposes a novel data-driven model capable of providing accurate predictions for the power generation of all wind turbines in wind farms of arbitrary layout, yaw angle configurations and wind conditions. The proposed model functions by encoding a wind farm into a fully-connected graph and processing the graph representation through a graph transformer. The graph transformer surrogate is shown to generalise well and is able to uncover latent structural patterns within the graph representation of wind farms. It is demonstrated how the resulting surrogate model can be used to optimise yaw angle configurations using genetic algorithms, achieving similar levels of accuracy to industrially-standard wind farm simulation tools while only taking a fraction of the computational cost.
翻訳日:2023-11-22 23:38:05 公開日:2023-11-21
# IoT時系列データのための画像変換: レビュー

Image Transformation for IoT Time-Series Data: A Review ( http://arxiv.org/abs/2311.12742v1 )

ライセンス: Link先を確認
Duygu Altunkaya, Feyza Yildirim Okay and Suat Ozdemir(参考訳) スマートフォン、組み込みシステム、ワイヤレスセンサー、ほぼすべてのスマートデバイスがローカルネットワークやインターネットを介して接続するIoT(Internet of Things)の時代、何十億ものスマートなものが相互に通信し、膨大な時系列データを生成する。 IoTの時系列データは高次元かつ高周波であるため、時系列分類や回帰はIoTにおいて難しい問題となっている。 近年、ディープラーニングアルゴリズムは、多くのスマートでインテリジェントなIoTアプリケーションにおける時系列データ分類において、優れたパフォーマンスを示している。 しかし、時系列の隠れた動的パターンや傾向を探索することは困難である。 近年の研究では、IoTデータを画像に変換することにより、学習モデルの性能が向上している。 本稿では,IoT領域における画像変換/エンコーディング技術を用いたこれらの研究について概説する。 本研究は, 符号化手法, データタイプ, 適用領域に応じて検討する。 最後に,画像変換の課題と今後の展望を強調する。

In the era of the Internet of Things (IoT), where smartphones, built-in systems, wireless sensors, and nearly every smart device connect through local networks or the internet, billions of smart things communicate with each other and generate vast amounts of time-series data. As IoT time-series data is high-dimensional and high-frequency, time-series classification or regression has been a challenging issue in IoT. Recently, deep learning algorithms have demonstrated superior performance results in time-series data classification in many smart and intelligent IoT applications. However, it is hard to explore the hidden dynamic patterns and trends in time-series. Recent studies show that transforming IoT data into images improves the performance of the learning model. In this paper, we present a review of these studies which use image transformation/encoding techniques in IoT domain. We examine the studies according to their encoding techniques, data types, and application areas. Lastly, we emphasize the challenges and future dimensions of image transformation.
翻訳日:2023-11-22 23:37:51 公開日:2023-11-21
# コンテンツ拡張型グラフニューラルネットワーク

Content Augmented Graph Neural Networks ( http://arxiv.org/abs/2311.12741v1 )

ライセンス: Link先を確認
Fatemeh Gholamzadeh Nasrabadi and AmirHossein Kashani and Pegah Zahedi and Mostafa Haghir Chehreghani(参考訳) 近年,グラフニューラルネットワーク(GNN)は,グラフ上のさまざまな問題を解決するツールとして人気が高まっている。 これらのモデルでは、グラフのリンク構造が一般的に利用され、隣接ノードに基づいてノードの埋め込みが反復的に更新される。 ノードの内容は特徴ベクトルの形でのみ使われ、ノードの第一層埋め込みとして機能する。 しかしながら、これらの初期埋め込みに繰り返し/層に適用されるフィルタや畳み込みは、それらの影響を減少させ、最終的な埋め込みに無意味に寄与する。 この問題に対処するため,本論文では,より高層なGNN層に,コンテンツから生成された埋め込みを組み込んでノードの埋め込みを強化することを提案する。 より正確には、GNNとコンテンツ埋め込みを用いた構造埋め込みを各ノードに対して計算するモデルを提案する。 これら2つの組み合わせは、結合層を使用して、所定の層にノードの埋め込みを形成する。 コンテンツ埋め込みを生成するために,オートエンコーダを使用する方法やコンテンツグラフを構築する方法を提案する。 最後に,いくつかの実世界のデータセットで実験を行うことで,モデルの精度と性能を実証する。

In recent years, graph neural networks (GNNs) have become a popular tool for solving various problems over graphs. In these models, the link structure of the graph is typically exploited and nodes' embeddings are iteratively updated based on adjacent nodes. Nodes' contents are used solely in the form of feature vectors, served as nodes' first-layer embeddings. However, the filters or convolutions, applied during iterations/layers to these initial embeddings lead to their impact diminish and contribute insignificantly to the final embeddings. In order to address this issue, in this paper we propose augmenting nodes' embeddings by embeddings generating from their content, at higher GNN layers. More precisely, we propose models wherein a structural embedding using a GNN and a content embedding are computed for each node. These two are combined using a combination layer to form the embedding of a node at a given layer. We suggest methods such as using an auto-encoder or building a content graph, to generate content embeddings. In the end, by conducting experiments over several real-world datasets, we demonstrate the high accuracy and performance of our models.
翻訳日:2023-11-22 23:37:38 公開日:2023-11-21
# 低データ制約下におけるグラフ分類手法の探索 : 総合的研究

Exploring Graph Classification Techniques Under Low Data Constraints: A Comprehensive Study ( http://arxiv.org/abs/2311.12737v1 )

ライセンス: Link先を確認
Kush Kothari, Bhavya Mehta, Reshmika Nambiar and Seema Shrawne(参考訳) 本稿では,グラフデータ拡張とマイナショット学習に関する最近の研究の概要について述べる。 ノードやエッジの摂動、グラフの粗さ化、グラフ生成など、グラフデータ拡張のさまざまなテクニックに加えて、メタラーニングやモデル非依存のメタラーニングなど、数少ないラーニングの最新開発もカバーしている。 本稿は、これらの領域を深く探求し、さらに下位分類に着目する。 規則に基づくアプローチと学習に基づくアプローチは、グラフ拡張技術の下で調査される。 グラフ上のFew-Shot Learningはまた、計量学習技術と最適化に基づく技術の観点から研究されている。 本稿では,低データシナリオで直面するグラフ処理問題の解決に活用可能な,広範囲な手法を提案する。

This survey paper presents a brief overview of recent research on graph data augmentation and few-shot learning. It covers various techniques for graph data augmentation, including node and edge perturbation, graph coarsening, and graph generation, as well as the latest developments in few-shot learning, such as meta-learning and model-agnostic meta-learning. The paper explores these areas in depth and delves into further sub classifications. Rule based approaches and learning based approaches are surveyed under graph augmentation techniques. Few-Shot Learning on graphs is also studied in terms of metric learning techniques and optimization-based techniques. In all, this paper provides an extensive array of techniques that can be employed in solving graph processing problems faced in low-data scenarios.
翻訳日:2023-11-22 23:37:20 公開日:2023-11-21
# 単にトレーニングだけでなく、テストも: ピアテスティング 機械学習駆動アプリケーションによる高校生の視点調整

Not Just Training, Also Testing: High School Youths' Perspective-Taking through Peer Testing Machine Learning-Powered Applications ( http://arxiv.org/abs/2311.12733v1 )

ライセンス: Link先を確認
L. Morales-Navarro, M. Shah, Y. B. Kafai(参考訳) K-12人工知能と機械学習(AI/ML)教育で最も注目されているのは、若者がモデルを訓練することであり、機械学習アプリケーションを作成する際にも、モデルが同様に重要なテストに注目されることははるかに少ない。 MLアプリケーションのテストは、予測に対するモデルの評価を可能にし、アプリケーションのクリエータがユーザエクスペリエンスに悪影響を及ぼす可能性のある障害やエッジケースを特定し、対処するのに役立つ。 それぞれのプロジェクトの機能やパフォーマンス,潜在的な問題について,青少年を視点として,相互にテストする方法を検討する。 2週間のワークショップで収集されたワークシート、音声、ビデオの録音テストを分析し、11人の高校生が(音声、ポーズ、画像)ML分類器を含む物理コンピューティングプロジェクトを作成した。 その結果、ピアテストの若者は、トレーニングデータセットのサイズ、トレーニングデータの多様性、クラスの設計、トレーニングデータを生成するコンテキストに反映していることがわかった。 本稿では,AI/ML教育におけるピアテスト研究の今後の方向性と,このような活動の限界について論じる。

Most attention in K-12 artificial intelligence and machine learning (AI/ML) education has been given to having youths train models, with much less attention to the equally important testing of models when creating machine learning applications. Testing ML applications allows for the evaluation of models against predictions and can help creators of applications identify and address failure and edge cases that could negatively impact user experiences. We investigate how testing each other's projects supported youths to take perspective about functionality, performance, and potential issues in their own projects. We analyzed testing worksheets, audio and video recordings collected during a two week workshop in which 11 high school youths created physical computing projects that included (audio, pose, and image) ML classifiers. We found that through peer-testing youths reflected on the size of their training datasets, the diversity of their training data, the design of their classes and the contexts in which they produced training data. We discuss future directions for research on peer-testing in AI/ML education and current limitations for these kinds of activities.
翻訳日:2023-11-22 23:37:08 公開日:2023-11-21
# 量子アニールの近似比に対するタイトリーブ-ロビンソン境界

Tight Lieb-Robinson Bound for approximation ratio in Quantum Annealing ( http://arxiv.org/abs/2311.12732v1 )

ライセンス: Link先を確認
Arthur Braida, Simon Martiel and Ioan Todinca(参考訳) 量子アニーリング(QA)は、特に組合せ最適化において、量子コンピューティングにおける最適化問題の公約を持っている。 このアナログフレームワークは複雑な問題に対処する可能性に注目を集めている。 ゲートベースのホモロジーであるQAOAは、NISQ時代に多くの注目を集めている。 いくつかの数値ベンチマークはこれらの2つのメタヒューリスティックを分類しようとするが、古典的な計算能力は性能の洞察を極めて制限する。 そこで本研究では,アルゴリズムの高精度な1局所解析が可能なQAのパラメータ化バージョンを提案する。 正規グラフに対するタイトなリーブ・ロビンソン境界を開発し、QAを局所的に解析するために最もよく知られた数値を得る。 ベンチマーク最適化問題としてMaxCutを用いた場合, 1-局所解析の線形スケジュールQAは0.7020以上の近似比を達成し, 既知の1-局所アルゴリズムより優れていることを示す。

Quantum annealing (QA) holds promise for optimization problems in quantum computing, especially for combinatorial optimization. This analog framework attracts attention for its potential to address complex problems. Its gate-based homologous, QAOA with proven performance, has brought lots of attention to the NISQ era. Several numerical benchmarks try to classify these two metaheuristics however, classical computational power highly limits the performance insights. In this work, we introduce a new parametrized version of QA enabling a precise 1-local analysis of the algorithm. We develop a tight Lieb-Robinson bound for regular graphs, achieving the best-known numerical value to analyze QA locally. Studying MaxCut over cubic graph as a benchmark optimization problem, we show that a linear-schedule QA with a 1-local analysis achieves an approximation ratio over 0.7020, outperforming any known 1-local algorithms.
翻訳日:2023-11-22 23:36:48 公開日:2023-11-21
# ソフトランダムサンプリング:理論的および経験的分析

Soft Random Sampling: A Theoretical and Empirical Analysis ( http://arxiv.org/abs/2311.12727v1 )

ライセンス: Link先を確認
Xiaodong Cui, Ashish Mittal, Songtao Lu, Wei Zhang, George Saon, Brian Kingsbury(参考訳) ソフトランダムサンプリング(Soft random sample, SRS)は、大規模深層ニューラルネットワークの大規模データ処理において、効率的かつ効果的なトレーニング手法である。 SRSは、各エポックにおける全データセットから、ランダムに置換されたサブセットを選択する。 本稿では,SRSの理論的,実証的な分析を行う。 まず,データカバレッジや占有率を含むサンプリングダイナミクスを分析する。 次に,非凸目的関数との収束を調べ,収束率を与える。 最後に、一般化性能を提供する。 CIFAR10における画像認識のためのSRSと、Librispeechにおける音声認識と、その有効性を示すための社内ペイロードデータセットを実験的に評価した。 既存のコアセットベースのデータ選択方法と比較して、SRSは精度と効率のトレードオフが優れている。 特に実世界の産業規模のデータセットでは、大きなスピードアップと競争性能を持つ強力なトレーニング戦略であり、追加の計算コストがほとんどないことが示されている。

Soft random sampling (SRS) is a simple yet effective approach for efficient training of large-scale deep neural networks when dealing with massive data. SRS selects a subset uniformly at random with replacement from the full data set in each epoch. In this paper, we conduct a theoretical and empirical analysis of SRS. First, we analyze its sampling dynamics including data coverage and occupancy. Next, we investigate its convergence with non-convex objective functions and give the convergence rate. Finally, we provide its generalization performance. We empirically evaluate SRS for image recognition on CIFAR10 and automatic speech recognition on Librispeech and an in-house payload dataset to demonstrate its effectiveness. Compared to existing coreset-based data selection methods, SRS offers a better accuracy-efficiency trade-off. Especially on real-world industrial scale data sets, it is shown to be a powerful training strategy with significant speedup and competitive performance with almost no additional computing cost.
翻訳日:2023-11-22 23:36:31 公開日:2023-11-21
# ダイヤモンド膜中の少数エミッタからのキャビティによる集団放出

Cavity-mediated collective emission from few emitters in a diamond membrane ( http://arxiv.org/abs/2311.12723v1 )

ライセンス: Link先を確認
Maximilian Pallmann, Kerim K\"oster, Yuan Zhang, Julia Heupel, Timon Eichhorn, Cyril Popov, Klaus M{\o}lmer, David Hunger(参考訳) 量子エミッターのアンサンブルが共通の放射場に結合すると、その偏光は同期し、超蛍光と呼ばれる集合放出が起こる。 自由空間でこのレジームに入るには、空間密度の高い多数のエミッタと、小さな不均一性を持つコヒーレントな光学遷移が必要である。 ここでは, ダイヤモンド膜中の窒素空孔(NV)中心を高濃度の微小キャビティに結合させることにより, 固体系に典型的な非整合性, 不均一性, 空間的に分離されたエミッタが, 集合放出の体制に入ることを示す。 我々は,集団排出の指標として,排出率の超線形電力依存性を観察した。 さらに, 2次自己相関関数における異なる時間スケールの光子束と反束は, 約15個のエミッタからの量子化放出に対するキャビティ誘起干渉を明らかにした。 本研究では,メソスコピックエミッタ数の理論モデルを開発し,ディッケ状態の挙動を解析し,キャビティ強化とフィルタリングを併用した集団状態の集団が観察を説明できることを示す。 このようなシステムには、多光子量子状態の生成と、少数のエミッター系における絡み合いの準備の見通しがある。

When an ensemble of quantum emitters couples to a common radiation field, their polarizations can synchronize and a collective emission termed superfluorescence can occur. Entering this regime in a free-space setting requires a large number of emitters with a high spatial density as well as coherent optical transitions with small inhomogeneity. Here we show that by coupling nitrogen-vacancy (NV) centers in a diamond membrane to a high-finesse microcavity, also few, incoherent, inhomogeneous, and spatially separated emitters - as are typical for solid state systems - can enter the regime of collective emission. We observe a super-linear power dependence of the emission rate as a hallmark of collective emission. Furthermore, we find simultaneous photon bunching and antibunching on different timescales in the second-order auto-correlation function, revealing cavity-induced interference in the quantized emission from about fifteen emitters. We develop theoretical models for mesoscopic emitter numbers to analyze the behavior in the Dicke state basis and find that the population of collective states together with cavity enhancement and filtering can explain the observations. Such a system has prospects for the generation of multi-photon quantum states, and for the preparation of entanglement in few-emitter systems.
翻訳日:2023-11-22 23:36:18 公開日:2023-11-21
# 物理誘導型形状テンプレート:ニューラルサロゲートモデルによる単眼映像知覚

Physics-guided Shape-from-Template: Monocular Video Perception through Neural Surrogate Models ( http://arxiv.org/abs/2311.12796v1 )

ライセンス: Link先を確認
David Stotko, Nils Wandel, Reinhard Klein(参考訳) 動的シーンの3d再構成はコンピュータグラフィックスの長年の問題であり、情報が少ないほど難しくなっている。 Shape-from-Template (SfT) 法は、RGB画像やビデオシーケンスからテンプレートベースの幾何学を再構築することを目的としており、通常のスマートフォン記録のような深度情報を持たない単一の単眼カメラを利用することが多い。 残念なことに、既存の再構成手法は非物理的でノイズが多いか最適化が遅い。 そこで本研究では,事前学習したニューラルサーロゲートモデルを用いた新しい布のsft再構成アルゴリズムを提案する。 シミュレートされたメッシュの微分可能なレンダリングは、形状情報だけでなく、布のストレッチ、せん断、曲げ剛性などの物理的パラメータを抽出するグラデーションベースの最適化手順に使用できる、再構成とターゲットビデオシーケンスをピクセル単位で比較することができる。 これにより、最先端の物理学ベースのSfTアプローチである$\phi$-SfTと比較して、400-500の係数でランタイムを削減しつつ、正確で安定で滑らかに再構成された幾何を維持することができる。

3D reconstruction of dynamic scenes is a long-standing problem in computer graphics and increasingly difficult the less information is available. Shape-from-Template (SfT) methods aim to reconstruct a template-based geometry from RGB images or video sequences, often leveraging just a single monocular camera without depth information, such as regular smartphone recordings. Unfortunately, existing reconstruction methods are either unphysical and noisy or slow in optimization. To solve this problem, we propose a novel SfT reconstruction algorithm for cloth using a pre-trained neural surrogate model that is fast to evaluate, stable, and produces smooth reconstructions due to a regularizing physics simulation. Differentiable rendering of the simulated mesh enables pixel-wise comparisons between the reconstruction and a target video sequence that can be used for a gradient-based optimization procedure to extract not only shape information but also physical parameters such as stretching, shearing, or bending stiffness of the cloth. This allows to retain a precise, stable, and smooth reconstructed geometry while reducing the runtime by a factor of 400-500 compared to $\phi$-SfT, a state-of-the-art physics-based SfT approach.
翻訳日:2023-11-22 23:28:45 公開日:2023-11-21
# sharegpt4v: 大きなマルチモーダルモデルの改善とキャプションの改善

ShareGPT4V: Improving Large Multi-Modal Models with Better Captions ( http://arxiv.org/abs/2311.12793v1 )

ライセンス: Link先を確認
Lin Chen, Jisong Li, Xiaoyi Dong, Pan Zhang, Conghui He, Jiaqi Wang, Feng Zhao, Dahua Lin(参考訳) 大規模マルチモーダルモデル(LMM)の領域では、高画質の画像テキストデータの不足により、効率的なモダリティアライメントが不可欠である。 このボトルネックに対処するため,世界知識,オブジェクト特性,空間関係,美的評価を網羅し,多様性と情報内容の既存のデータセットを超越した120万の高説明キャプションを備えた大規模リソースであるShareGPT4Vデータセットを紹介した。 具体的には、ShareGPT4Vは、高度なGPT4-Visionから収集された100Kの高品質キャプションから生まれ、このサブセットで訓練されたスーパーキャプションモデルで1.2Mに拡張されている。 ShareGPT4Vは、既存のSFTデータセットの詳細なキャプションを高品質なキャプションのサブセットに置き換え、MMEおよびMMBenchベンチマークにおけるLLaVA-7B、LLaVA-1.5-13B、Qwen-VL-Chat-7BなどのLMMを大幅に強化し、それぞれ222.8/22.0/22.3と2.7/1.3/1.5のゲインを付与することで、SFT(Supervised Fine-Tuning)フェーズの有効性を最初に示す。 さらに、事前学習とSFTフェーズの両方にShareGPT4Vデータを組み込み、マルチモーダルベンチマークの大部分で顕著な性能を持つ単純なアーキテクチャに基づく優れたLMMであるShareGPT4V-7Bを得る。 このプロジェクトはhttps://ShareGPT4V.github.ioで公開されており、LMMコミュニティを前進させるための重要なリソースとなっている。

In the realm of large multi-modal models (LMMs), efficient modality alignment is crucial yet often constrained by the scarcity of high-quality image-text data. To address this bottleneck, we introduce the ShareGPT4V dataset, a pioneering large-scale resource featuring 1.2 million highly descriptive captions, which surpasses existing datasets in diversity and information content, covering world knowledge, object properties, spatial relationships, and aesthetic evaluations. Specifically, ShareGPT4V originates from a curated 100K high-quality captions collected from advanced GPT4-Vision and has been expanded to 1.2M with a superb caption model trained on this subset. ShareGPT4V first demonstrates its effectiveness for the Supervised Fine-Tuning (SFT) phase, by substituting an equivalent quantity of detailed captions in existing SFT datasets with a subset of our high-quality captions, significantly enhancing the LMMs like LLaVA-7B, LLaVA-1.5-13B, and Qwen-VL-Chat-7B on the MME and MMBench benchmarks, with respective gains of 222.8/22.0/22.3 and 2.7/1.3/1.5. We further incorporate ShareGPT4V data into both the pre-training and SFT phases, obtaining ShareGPT4V-7B, a superior LMM based on a simple architecture that has remarkable performance across a majority of the multi-modal benchmarks. This project is available at https://ShareGPT4V.github.io to serve as a pivotal resource for advancing the LMMs community.
翻訳日:2023-11-22 23:28:22 公開日:2023-11-21
# 直交シェーディングによる固有画像分解

Intrinsic Image Decomposition via Ordinal Shading ( http://arxiv.org/abs/2311.12792v1 )

ライセンス: Link先を確認
Chris Careaga and Ya\u{g}{\i}z Aksoy(参考訳) 内在分解は、様々な逆レンダリングと計算写真パイプラインにおいて重要な役割を果たす基本的な中レベルのビジョン問題である。 高度に正確な内在的分解を生成することは、本質的に非拘束な作業であり、連続的に評価されたシェーディングとアルベドを正確に推定する必要がある。 本研究では,問題を2分割して高分解能な内在分解を実現する。 まず,本モデルに従うように予測を制限せずに順序的シェーディング手がかりを推定するために,シフトおよびスケール不変損失を用いた密順序シェーディングの定式化を提案する。 次に、第2のネットワークを用いた低分解能および高分解能の順序推定を組み合わせ、大域的コヒーレンシーと局所的詳細の両方でシェーディング推定を生成する。 我々は,本モデルが示唆するアルベドと同様に,推定シェーディングの損失を計算することで,正確な分解を学習することを奨励する。 我々は,我々のモデルによる予測とマルチイルミネーションデータを用いて,高密度な擬似地上真実を生成する方法を開発した。 そこで本研究では,予測固有成分の定性的,定量的な分析を行った。 最後に,リカラー化やリライト化といった難しい編集作業を行うことで,実際の評価の適用性を実証する。

Intrinsic decomposition is a fundamental mid-level vision problem that plays a crucial role in various inverse rendering and computational photography pipelines. Generating highly accurate intrinsic decompositions is an inherently under-constrained task that requires precisely estimating continuous-valued shading and albedo. In this work, we achieve high-resolution intrinsic decomposition by breaking the problem into two parts. First, we present a dense ordinal shading formulation using a shift- and scale-invariant loss in order to estimate ordinal shading cues without restricting the predictions to obey the intrinsic model. We then combine low- and high-resolution ordinal estimations using a second network to generate a shading estimate with both global coherency and local details. We encourage the model to learn an accurate decomposition by computing losses on the estimated shading as well as the albedo implied by the intrinsic model. We develop a straightforward method for generating dense pseudo ground truth using our model's predictions and multi-illumination data, enabling generalization to in-the-wild imagery. We present an exhaustive qualitative and quantitative analysis of our predicted intrinsic components against state-of-the-art methods. Finally, we demonstrate the real-world applicability of our estimations by performing otherwise difficult editing tasks such as recoloring and relighting.
翻訳日:2023-11-22 23:27:45 公開日:2023-11-21
# MadQCI: 製造設備に展開された異種でスケーラブルなSDN QKDネットワーク

MadQCI: a heterogeneous and scalable SDN QKD network deployed in production facilities ( http://arxiv.org/abs/2311.12791v1 )

ライセンス: Link先を確認
V. Martin, J.P. Brito, L. Ort\'iz, R. Brito-M\'endez, J. S\'aez-Buruaga, R. Vicente, A. Sebasti\'an-Lombra\~na, D. Rinc\'on, F. P\'erez, C. S\'anchez, M. Peev, H.H. Brunner, F. Fung, A. Poppe, F. Fr\"owis, A.J. Shields, R.I. Woodward, H. Griesser, S. Roehrich, F. De La Iglesia, C. Abell\'an, M. Hentschel, J.M. Rivas-Moscoso, A. Pastor Perales, J. Folgueira and D. López(参考訳) 現在の量子鍵分布(QKD)ネットワークは、可能な限り高いレートで秘密鍵を転送することに集中している。 その結果、量子チャネルへのペナルティを回避するために設計された、ほぼ固定、アドホック、論理的、物理的に孤立したインフラストラクチャとして構築される。 このアーキテクチャはスケーラブルでもなく、費用効率も高くない。 ここで提示されるmadqci qkdネットワークの構造は、分散したコンポーネントと、特に柔軟性、アップグレード性、セキュリティおよび通信ネットワークエコシステムにおけるqkdの統合を促進するために設計されたモダンなパラダイムに基づいている。 これらの根底にあるアイデアは、実世界のマルチテナント通信ネットワークに複数のメーカーから多くのQKDシステムをデプロイし、生産施設に設置し、インフラを商用トラフィックと共有することで検証されている。 様々な技術が様々なリンクに使われ、実際のネットワークで発生する様々な状況やニーズに対処し、幅広い可能性を探っている。 最後に、ネットワークの有効性と性能を示すために、一連の現実的なユースケースが実装されている。 テストは3年近くにわたって行われ、ほとんどのノードが継続的に動作していた。

Current quantum key distribution (QKD) networks focus almost exclusively on transporting secret keys with the highest possible rate. Consequently, they are built as mostly fixed, ad hoc, logically, and physically isolated infrastructures designed to avoid any penalty to the quantum channel. This architecture is neither scalable nor cost-effective and future, real-world deployments will differ considerably. The structure of the MadQCI QKD network presented here is based on disaggregated components and modern paradigms especially designed for flexibility, upgradability, and facilitating the integration of QKD in the security and telecommunications-networks ecosystem. These underlying ideas have been tested by deploying many QKD systems from several manufacturers in a real-world, multi-tenant telecommunications network, installed in production facilities and sharing the infrastructure with commercial traffic. Different technologies have been used in different links to address the variety of situations and needs that arise in real networks, exploring a wide range of possibilities. Finally, a set of realistic use cases have been implemented to demonstrate the validity and performance of the network. The testing took place during a period close to three years, where most of the nodes were continuously active.
翻訳日:2023-11-22 23:27:23 公開日:2023-11-21
# 手続き的タスクにおける微調整の効果の機械的解析

Mechanistically analyzing the effects of fine-tuning on procedurally defined tasks ( http://arxiv.org/abs/2311.12786v1 )

ライセンス: Link先を確認
Samyak Jain, Robert Kirk, Ekdeep Singh Lubana, Robert P. Dick, Hidenori Tanaka, Edward Grefenstette, Tim Rockt\"aschel, David Scott Krueger(参考訳) 微調整された大規模な事前学習モデルは、安全なデプロイモデルを含むタスク固有と汎用の両方の機械学習システムの開発において、事実上の戦略となっている。 その明確な重要性にもかかわらず、微調整が事前トレーニング中にモデルによって学習された基礎能力をどのように変えるかを説明する最小限の作業がある。 そこでは、機械的な解釈ツール(例えば、ネットワークの刈り取りや探索)を使って、モデルの基盤となる能力がどのように変化しているかを理解する。 これらの設定における微調整の効果を広範囲に分析し、以下を示す。 (i)微調整が基礎となるモデル能力を変えることはめったにない。 (ii)「ラッパー」と呼ぶ最小限の変換は、典型的には基礎となるモデル能力に基づいて学習され、修正されたという錯覚を生み出します。 (iii)そのような隠れた能力が関連するタスクのさらなる微調整は、その能力のサンプル効率の良い「復活」、すなわち、ほんの数回の勾配ステップでこれらの能力を再使用し始める。 これは、実践者が故意にモデルの安全ラッパーを単に微調整することで、例えば、表面的に無関係な下流タスクを除去できることを示している。 さらに、TinyStoriesデータセットでトレーニングされた言語モデルの解析を行い、より現実的な設定でクレームをサポートする。

Fine-tuning large pre-trained models has become the de facto strategy for developing both task-specific and general-purpose machine learning systems, including developing models that are safe to deploy. Despite its clear importance, there has been minimal work that explains how fine-tuning alters the underlying capabilities learned by a model during pretraining: does fine-tuning yield entirely novel capabilities or does it just modulate existing ones? We address this question empirically in synthetic, controlled settings where we can use mechanistic interpretability tools (e.g., network pruning and probing) to understand how the model's underlying capabilities are changing. We perform an extensive analysis of the effects of fine-tuning in these settings, and show that: (i) fine-tuning rarely alters the underlying model capabilities; (ii) a minimal transformation, which we call a 'wrapper', is typically learned on top of the underlying model capabilities, creating the illusion that they have been modified; and (iii) further fine-tuning on a task where such hidden capabilities are relevant leads to sample-efficient 'revival' of the capability, i.e., the model begins reusing these capability after only a few gradient steps. This indicates that practitioners can unintentionally remove a model's safety wrapper merely by fine-tuning it on a, e.g., superficially unrelated, downstream task. We additionally perform analysis on language models trained on the TinyStories dataset to support our claims in a more realistic setup.
翻訳日:2023-11-22 23:27:05 公開日:2023-11-21
# 大規模言語モデルのためのプロンプティングフレームワーク:サーベイ

Prompting Frameworks for Large Language Models: A Survey ( http://arxiv.org/abs/2311.12785v1 )

ライセンス: Link先を確認
Xiaoxia Liu, Jingyi Wang, Jun Sun, Xiaohan Yuan, Guoliang Dong, Peng Di, Wenhai Wang, Dongxia Wang(参考訳) OpenAIが開発した強力なAIチャットボットであるChatGPTのローンチ以来、大規模言語モデル(LLM)は学術と産業の両方で大幅に進歩し、多くの分野において基本的なエンジニアリングパラダイムシフトをもたらしている。 LLMは強力だが、"prompt"が中核的な役割を担っているパワーを最大限に活用することが重要である。 しかし、ChatGPTのような優れたAPIを含む急激なLLM自体には、いくつかの固有の制限がある。 1)訓練データの時間的遅れ、及び 2) 外部アクションを実行するための物理的能力の欠如。 近年,ダウンストリームタスクにllmのパワーをよりよく活用するために,プロンプトベースのツールを利用する傾向が観察されているが,この分野の急速な発展によって,体系的な文献や標準化された用語が欠如している。 そこで本研究では,関連するプロンプトツールを調査し,PF(Prompting Framework)の概念,すなわち,大規模言語モデルとのインタラクションの管理,簡素化,促進を行うフレームワークについて検討する。 私たちはPFのライフサイクルを、下位から上位まで、すなわちデータレベル、ベースレベル、実行レベル、サービスレベルという階層構造として定義します。 また,新たなPF分野の全体像を体系的に描き,今後の研究や課題についても論じる。 この分野での開発を継続的に追跡するために、私たちはhttps://github.com/lxx0628/Prompting-Framework-Surveyにリポジトリを保持します。

Since the launch of ChatGPT, a powerful AI Chatbot developed by OpenAI, large language models (LLMs) have made significant advancements in both academia and industry, bringing about a fundamental engineering paradigm shift in many areas. While LLMs are powerful, it is also crucial to best use their power where "prompt'' plays a core role. However, the booming LLMs themselves, including excellent APIs like ChatGPT, have several inherent limitations: 1) temporal lag of training data, and 2) the lack of physical capabilities to perform external actions. Recently, we have observed the trend of utilizing prompt-based tools to better utilize the power of LLMs for downstream tasks, but a lack of systematic literature and standardized terminology, partly due to the rapid evolution of this field. Therefore, in this work, we survey related prompting tools and promote the concept of the "Prompting Framework" (PF), i.e. the framework for managing, simplifying, and facilitating interaction with large language models. We define the lifecycle of the PF as a hierarchical structure, from bottom to top, namely: Data Level, Base Level, Execute Level, and Service Level. We also systematically depict the overall landscape of the emerging PF field and discuss potential future research and challenges. To continuously track the developments in this area, we maintain a repository at https://github.com/lxx0628/Prompting-Framework-Survey, which can be a useful resource sharing platform for both academic and industry in this field.
翻訳日:2023-11-22 23:26:38 公開日:2023-11-21
# 平均推定における最適性:最悪のケースを超えて、サブゲージを超えて、1+\alpha$ moments以上

Optimality in Mean Estimation: Beyond Worst-Case, Beyond Sub-Gaussian, and Beyond $1+\alpha$ Moments ( http://arxiv.org/abs/2311.12784v1 )

ライセンス: Link先を確認
Trung Dang, Jasper C.H. Lee, Maoyuan Song, Paul Valiant(参考訳) 価値あるデータから何を抽出するかの限界を理解することを目標に、平均推定のような基本的な統計問題に対するアルゴリズム的理解の改善に関心が高まっている。 $\mathbb{R}$における平均推定のためのアート結果の状態は 1) 有限であるが未知の分散を持つすべての分布に対する厳密な準ガウス定数を持つ[LV22]による最適ガウス平均推定器 2)[BCL13]による平均値アルゴリズムと[DLLO16]による下限値の解析により,$\alpha \in (0,1)$に対して1+\alpha$のモーメントしか存在しない分布に対する大O最適誤差を特徴づける。 しかし、どちらの結果も最悪の場合にのみ最適である。 アルゴリズムは、入力分布の有用な特徴を利用して、これらの特徴を明示的に知ることなく、サブガウス率を破ることができるか? 我々はこの問題を予期せぬほど微妙な答えで解決する:「限定的な体制ではそうだが、一般的にはノーだ」。 有限平均を持つ任意の分布 $p$ に対して、平均は $p$ から十分に分離されているが、$p$ と $q$ は高い確率で区別できない分布 $q$ を構築し、$q$ はさらに $p$'s moments を定数まで保存する。 主な結果は、[lv22]の最悪の結果に合致した、任意の分布のサブガウス誤差率よりも漸近的に達成できないということである。 より一般的に、我々は「隣接最適性」と呼ばれるアルゴリズムのきめ細かい最適性を分析するための新しい定義フレームワークを導入し、不確定に強い「インスタンス最適性」と自明に弱い「許容可能性」の定義を補間する。 新しい枠組みを適用すると、平均値中央値は、一定要素までの近傍最適であることが示される。 定数係数のずれのない近傍最適推定器を見つけることはオープンである。

There is growing interest in improving our algorithmic understanding of fundamental statistical problems such as mean estimation, driven by the goal of understanding the limits of what we can extract from valuable data. The state of the art results for mean estimation in $\mathbb{R}$ are 1) the optimal sub-Gaussian mean estimator by [LV22], with the tight sub-Gaussian constant for all distributions with finite but unknown variance, and 2) the analysis of the median-of-means algorithm by [BCL13] and a lower bound by [DLLO16], characterizing the big-O optimal errors for distributions for which only a $1+\alpha$ moment exists for $\alpha \in (0,1)$. Both results, however, are optimal only in the worst case. We initiate the fine-grained study of the mean estimation problem: Can algorithms leverage useful features of the input distribution to beat the sub-Gaussian rate, without explicit knowledge of such features? We resolve this question with an unexpectedly nuanced answer: "Yes in limited regimes, but in general no". For any distribution $p$ with a finite mean, we construct a distribution $q$ whose mean is well-separated from $p$'s, yet $p$ and $q$ are not distinguishable with high probability, and $q$ further preserves $p$'s moments up to constants. The main consequence is that no reasonable estimator can asymptotically achieve better than the sub-Gaussian error rate for any distribution, matching the worst-case result of [LV22]. More generally, we introduce a new definitional framework to analyze the fine-grained optimality of algorithms, which we call "neighborhood optimality", interpolating between the unattainably strong "instance optimality" and the trivially weak "admissibility" definitions. Applying the new framework, we show that median-of-means is neighborhood optimal, up to constant factors. It is open to find a neighborhood-optimal estimator without constant factor slackness.
翻訳日:2023-11-22 23:26:11 公開日:2023-11-21
# 標準量子限界を超えた量子イメージングと相蒸留

Quantum Imaging Beyond the Standard-Quantum Limit and Phase Distillation ( http://arxiv.org/abs/2311.12782v1 )

ライセンス: Link先を確認
Simon Schaffrath, Daniel Derr, Markus Gr\"afe, Enno Giese(参考訳) 非線形干渉計を用いた量子センシングは、興味の対象と相互作用しない光を使ったバイカラーイメージングの可能性を提供し、位相超感度、すなわち位相不確実性のハイゼンベルク型スケーリングを実現する方法を提供する。 このようなスケーリング動作はノイズに非常に敏感であり、デバイスの最適作業点を定義する特定のフェーズでのみ発生する。 位相シフトアルゴリズムはノイズによる消去効果に対してある程度頑健であるが、干渉計位相を広い範囲にわたってチューニングすることで画像を抽出する。 本研究では,非線形干渉計の動作の自発性と高利得性の両方について検討する。 実際、蒸留技術を使った自発的な状態において、作業点での運転は質的に類似した行動をもたらす。 しかし、高利得体制においては、典型的な蒸留技術は、スクラップ真空の光子統計の結果、本質的に標準量子限界よりもスケーリングを禁止した。 対照的に、作業点での操作は、ノイズの存在下でもショットノイズ以下の感度をもたらす可能性がある。 したがって, この手法は, 作業点近傍で作業することで, ショットノイズ位相の不確かさよりも優れたバイカラーイメージングの視点を開く。 提案手法は, バイカラー画像と位相超感度を組み合わせることで, 高利得環境に量子画像蒸留を移し, そのポテンシャルを最大限に活用することを目的としている。

Quantum sensing using non-linear interferometers offers the possibility of bicolour imaging, using light that never interacted with the object of interest, and provides a way to achieve phase supersensitivity, i.e. a Heisenberg-type scaling of the phase uncertainty. Such a scaling behaviour is extremely susceptible to noise and only arises at specific phases that define the optimal working point of the device. While phase-shifting algorithms are to some degree robust against the deleterious effects induced by noise they extract an image by tuning the interferometer phase over a broad range, implying an operation beyond the working point. In our theoretical study, we investigate both the spontaneous and the high-gain regime of operation of a non-linear interferometer. In fact, in the spontaneous regime using a distillation technique and operating at the working point leads to a qualitatively similar behaviour. In the high-gain regime, however, typical distillation techniques inherently forbid a scaling better than the standard-quantum limit, as a consequence of the photon statistics of squeezed vacuum. In contrast, an operation at the working point still may lead to a sensitivity below shot noise, even in the presence of noise. Therefore, this procedure opens the perspective of bicolour imaging with a better than shot-noise phase uncertainty by working in the vicinity of the working point. Our results transfer quantum imaging distillation in a noisy environment to the high-gain regime with the ultimate goal of harnessing its full potential by combining bicolour imaging and phase supersensitivity.
翻訳日:2023-11-22 23:25:31 公開日:2023-11-21
# 健常者を対象としたaiモデルによる障害と重症度の定量化

Quantifying Impairment and Disease Severity Using AI Models Trained on Healthy Subjects ( http://arxiv.org/abs/2311.12781v1 )

ライセンス: Link先を確認
Boyang Yu, Aakash Kaku, Kangning Liu, Avinash Parnandi, Emily Fokas, Anita Venkatesan, Natasha Pandit, Rajesh Ranganath, Heidi Schambra and Carlos Fernandez-Granda(参考訳) データ駆動医療における障害と重症度の自動評価は重要な課題である。 我々は、健康な個人にのみ訓練されたAIモデルを活用する、この課題に対処する新しいフレームワークを提案する。 Confidence-based chaRacterization of Anomalies (COBRA) スコアは、障害または疾患のある患者が健康な集団から逸脱したことを定量化するためにこれらのモデルの信頼性の低下を利用する。 脳卒中患者の上半身障害の現在の臨床的評価の鍵となる限界にCOBRAスコアを適用した。 金本位制のfugl-meyer assessment (fma) は、訓練を受けた評価者による30~45分間の対人管理を必要としており、監視頻度を制限し、医師が患者の進行にリハビリテーションの手順を適用することを妨げている。 1分以内に自動的に計算されるCOBRAスコアは、ウェアラブルセンサー(\rho = 0.845$, 95% CI [0.743,0.908])とビデオ(\rho = 0.746$, 95% C.I [0.594, 0.847])の2つの異なるデータモダリティのための独立したテストコホート上のFMAと強く相関している。 他の病態に対するアプローチの一般化性を示すために、磁気共鳴イメージングスキャンによる変形性膝関節症の重症度を定量化するためにコブラスコアが適用され、独立した臨床評価 (\rho = 0.644$, 95% c.i [0.585,0.696]) と有意な相関が得られた。

Automatic assessment of impairment and disease severity is a key challenge in data-driven medicine. We propose a novel framework to address this challenge, which leverages AI models trained exclusively on healthy individuals. The COnfidence-Based chaRacterization of Anomalies (COBRA) score exploits the decrease in confidence of these models when presented with impaired or diseased patients to quantify their deviation from the healthy population. We applied the COBRA score to address a key limitation of current clinical evaluation of upper-body impairment in stroke patients. The gold-standard Fugl-Meyer Assessment (FMA) requires in-person administration by a trained assessor for 30-45 minutes, which restricts monitoring frequency and precludes physicians from adapting rehabilitation protocols to the progress of each patient. The COBRA score, computed automatically in under one minute, is shown to be strongly correlated with the FMA on an independent test cohort for two different data modalities: wearable sensors ($\rho = 0.845$, 95% CI [0.743,0.908]) and video ($\rho = 0.746$, 95% C.I [0.594, 0.847]). To demonstrate the generalizability of the approach to other conditions, the COBRA score was also applied to quantify severity of knee osteoarthritis from magnetic-resonance imaging scans, again achieving significant correlation with an independent clinical assessment ($\rho = 0.644$, 95% C.I [0.585,0.696]).
翻訳日:2023-11-22 23:25:08 公開日:2023-11-21
# SuGaR:効率的な3次元メッシュ再構成と高品質メッシュレンダリングのための表面配向ガウススティング

SuGaR: Surface-Aligned Gaussian Splatting for Efficient 3D Mesh Reconstruction and High-Quality Mesh Rendering ( http://arxiv.org/abs/2311.12775v1 )

ライセンス: Link先を確認
Antoine Gu\'edon and Vincent Lepetit(参考訳) 本研究では, 3次元ガウススメッティングから高精度かつ超高速のメッシュ抽出を実現する方法を提案する。 gaussian splattingは最近、narfsよりもトレーニングがかなり速く、リアルなレンダリングをもたらすため、非常に人気がある。 しかし、これらのガウシアンは最適化後に組織化されず、これまで提案されていないため、何百万もの小さな3dガウシアンからメッシュを抽出することは困難である。 私たちの最初の重要な貢献は、ガウスがシーンの表面とうまく一致するように促す正規化の用語です。 次に,このアライメントを利用して,高速でスケーラブルで詳細を保存するポアソン再構成法を用いて,gaussianからメッシュを抽出する手法を提案する。 最後に、gaussianをメッシュの表面にバインドするオプションのリファインメント戦略を導入し、gaussian splattingレンダリングを通じてこれらのgaussianと meshを共同で最適化する。 これにより、ガウス人自身の代わりにメッシュを操作することで、従来のソフトウェアを使用して、ガウス人の編集、彫刻、リギング、アニメーション、合成、リライトが容易になる。 このような編集可能なメッシュの検索は、ニューラルネットワークsdfsの最先端のメソッドに比べて数分以内に行われ、より優れたレンダリング品質を提供する。

We propose a method to allow precise and extremely fast mesh extraction from 3D Gaussian Splatting. Gaussian Splatting has recently become very popular as it yields realistic rendering while being significantly faster to train than NeRFs. It is however challenging to extract a mesh from the millions of tiny 3D gaussians as these gaussians tend to be unorganized after optimization and no method has been proposed so far. Our first key contribution is a regularization term that encourages the gaussians to align well with the surface of the scene. We then introduce a method that exploits this alignment to extract a mesh from the Gaussians using Poisson reconstruction, which is fast, scalable, and preserves details, in contrast to the Marching Cubes algorithm usually applied to extract meshes from Neural SDFs. Finally, we introduce an optional refinement strategy that binds gaussians to the surface of the mesh, and jointly optimizes these Gaussians and the mesh through Gaussian splatting rendering. This enables easy editing, sculpting, rigging, animating, compositing and relighting of the Gaussians using traditional softwares by manipulating the mesh instead of the gaussians themselves. Retrieving such an editable mesh for realistic rendering is done within minutes with our method, compared to hours with the state-of-the-art methods on neural SDFs, while providing a better rendering quality.
翻訳日:2023-11-22 23:24:32 公開日:2023-11-21
# アイリス・プレゼンテーション・アタック: 酸化バナジウムフィルムと人工眼の組み合わせによる影響評価

Iris Presentation Attack: Assessing the Impact of Combining Vanadium Dioxide Films with Artificial Eyes ( http://arxiv.org/abs/2311.12773v1 )

ライセンス: Link先を確認
Darshika Jauhari, Renu Sharma, Cunjian Chen, Nelson Sepulveda, Arun Ross(参考訳) 近赤外スペクトル (nir) で動作する虹彩認識システムは、表示攻撃に対する脆弱性を示しており、敵はシステムを回避するために化粧品のコンタクトレンズ、人工眼、印刷された虹彩画像などの人工物を使用する。 同時に、多数の効果的なプレゼンテーションアタック検出(PAD)手法が開発されている。 これらの手法は、プレゼンテーション攻撃として人工眼(例えば偽のヴァン・ダイク眼)を検出することに成功した。 本研究では,Vanadium Dioxide (VO2) フィルムを表面上に様々な空間配置で付着させることにより,人工眼の光学特性を変化させる。 VO2フィルムは、NIR光を選択的に送信するために使用することができ、そのため、アイリスセンサによって捕獲された物体からNIR光の量を調節するために使用することができる。 センサが生成する画像が2つの最新アイリスpa検出法に与える影響について検討した。 人工眼表面へのVO2フィルムの添加は,PA検出法をボナファイド眼と誤分類する原因となる可能性がある。 これは、体系的に分析され、効果的に対処しなければならない脆弱性を表している。

Iris recognition systems, operating in the near infrared spectrum (NIR), have demonstrated vulnerability to presentation attacks, where an adversary uses artifacts such as cosmetic contact lenses, artificial eyes or printed iris images in order to circumvent the system. At the same time, a number of effective presentation attack detection (PAD) methods have been developed. These methods have demonstrated success in detecting artificial eyes (e.g., fake Van Dyke eyes) as presentation attacks. In this work, we seek to alter the optical characteristics of artificial eyes by affixing Vanadium Dioxide (VO2) films on their surface in various spatial configurations. VO2 films can be used to selectively transmit NIR light and can, therefore, be used to regulate the amount of NIR light from the object that is captured by the iris sensor. We study the impact of such images produced by the sensor on two state-of-the-art iris PA detection methods. We observe that the addition of VO2 films on the surface of artificial eyes can cause the PA detection methods to misclassify them as bonafide eyes in some cases. This represents a vulnerability that must be systematically analyzed and effectively addressed.
翻訳日:2023-11-22 23:24:08 公開日:2023-11-21
# 量子計算における制御流の誤差補正のT-複雑コスト

The T-Complexity Costs of Error Correction for Control Flow in Quantum Computation ( http://arxiv.org/abs/2311.12772v1 )

ライセンス: Link先を確認
Charles Yuan and Michael Carbin(参考訳) 多くの量子アルゴリズムは、物理量子ビットの本質的な不安定性を克服するために、量子エラー補正を使用する必要がある。 しかし、エラー訂正はT-複雑性(T-complexity)と呼ばれるユニークなパフォーマンスボトルネックを課し、量子プログラムとしてのアルゴリズムの実装を理想化されたハードウェアよりも遅く実行することができる。 本研究では、制御フローのプログラミングの抽象化、例えば量子if-ステートメントが、プログラムのT-複雑度に多項式増加をもたらすことを確かめる。 緩和しない場合、この減速は量子アルゴリズムの計算上の優位性を低下させる。 制御フローのコストに関する推論を可能にするために、開発者は量子誤差補正の下でプログラムのt複雑度を分析し、スローダウンの原因を特定できるコストモデルを提案する。 また,プログラムを書き換えてt-複雑度を低減し,コストモデルを用いて最適化したプログラムのt-複雑度を予測し,簡単な戦略で効率的な回路にコンパイルするプログラムレベルの最適化手法を提案する。 tower量子コンパイラの拡張であるspireでプログラムレベルの最適化を実装した。 制御フローを利用する11のベンチマークプログラムを用いて、コストモデルが正確であること、そしてスピアの最適化が漸近的に効率的なプログラムを復元すること、つまり、エラー修正時のT-複雑度は、理想化されたハードウェア上での時間複雑性に等しいことを示している。 その結果、回路にコンパイルする前にプログラムを最適化することで、非効率な回路にプログラムをコンパイルし、それ以前の作業で見つかった量子回路オプティマイザを起動するよりも優れた結果が得られることがわかった。 我々のベンチマークでは、8つある回路オプティマイザのうち2つだけが漸近的に効率的なT-複雑回路を回復する。 これら2つのオプティマイザと比較して、Spireは54倍から2400倍少ないコンパイル時間を使用する。

Numerous quantum algorithms require the use of quantum error correction to overcome the intrinsic unreliability of physical qubits. However, error correction imposes a unique performance bottleneck, known as T-complexity, that can make an implementation of an algorithm as a quantum program run more slowly than on idealized hardware. In this work, we identify that programming abstractions for control flow, such as the quantum if-statement, can introduce polynomial increases in the T-complexity of a program. If not mitigated, this slowdown can diminish the computational advantage of a quantum algorithm. To enable reasoning about the costs of control flow, we present a cost model, using which a developer can analyze the T-complexity of a program under quantum error correction and pinpoint the sources of slowdown. We also present a set of program-level optimizations, using which a developer can rewrite a program to reduce its T-complexity, predict the T-complexity of the optimized program using the cost model, and then compile it to an efficient circuit via a straightforward strategy. We implement the program-level optimizations in Spire, an extension of the Tower quantum compiler. Using a set of 11 benchmark programs that use control flow, we show that the cost model is accurate, and that Spire's optimizations recover programs that are asymptotically efficient, meaning their runtime T-complexity under error correction is equal to their time complexity on idealized hardware. Our results show that optimizing a program before it is compiled to a circuit can yield better results than compiling the program to an inefficient circuit and then invoking a quantum circuit optimizer found in prior work. For our benchmarks, only 2 of 8 existing circuit optimizers recover circuits with asymptotically efficient T-complexity. Compared to these 2 optimizers, Spire uses 54x to 2400x less compile time.
翻訳日:2023-11-22 23:23:48 公開日:2023-11-21
# mod2vqls:2次方程式系を解くための変分量子アルゴリズム

Mod2VQLS: a Variational Quantum Algorithm for Solving Systems of Linear Equations Modulo 2 ( http://arxiv.org/abs/2311.12771v1 )

ライセンス: Link先を確認
Willie Aboumrad and Dominic Widdows(参考訳) 本稿では,量子コンピュータを用いた二値線形方程式の解法を提案する。 このシステムはMod2VQLSと呼ばれ、Modulo2変分量子線形ソルバーを表す。 私たちの知る限りでは、これが最初の提案です。 設計は古典的な量子ハイブリッドである。 量子成分は行列乗算モジュラー2を実装するための新しい回路設計であり、最適化される変分回路である。 古典的なコンポーネントはコスト関数を測定し、各イテレーションの量子パラメータを更新するオプティマイザと、量子ジョブと古典的なオプティマイザイテレーションを実行するコントローラである。 本稿では, 変分回路に対する2つの代替アンサーゼやテンプレートを提案し, この問題に特化して設計された回転アンザッツが有効解への最も直接的な経路を提供することを示す。 低次元での数値実験により、mod2vqlsは、カスタムな回転 ansatz を用いて、この問題で最もよく知られているブロック・ヴィーデマンアルゴリズムと対等であることが示された。

This paper presents a system for solving binary-valued linear equations using quantum computers. The system is called Mod2VQLS, which stands for Modulo2 Variational Quantum Linear Solver. As far as we know, this is the first such proposal. The design is a classical-quantum hybrid. The quantum components are a new circuit design for implementing matrix multiplication modulo 2, and a variational circuit to be optimized. The classical components are the optimizer which measures the cost function and updates the quantum parameters for each iteration, and the controller that runs the quantum job and classical optimizer iterations. We propose two alternative ansatze or templates for the variational circuit, and present results showing that the rotation ansatz designed specifically for this problem provides the most direct path to a valid solution. Numerical experiments in low dimensions indicate that Mod2VQLS, using the custom rotations ansatz, is on-a-par with the block Wiedemann algorithm, the best-known to date for this problem.
翻訳日:2023-11-22 23:23:19 公開日:2023-11-21
# 効率的な超解法のためのスウィフトパラメータフリーアテンションネットワーク

Swift Parameter-free Attention Network for Efficient Super-Resolution ( http://arxiv.org/abs/2311.12770v1 )

ライセンス: Link先を確認
Cheng Wan, Hongyuan Yu, Zhiqi Li, Yihang Chen, Yajun Zou, Yuqing Liu, Xuanwu Yin, Kunlong Zuo(参考訳) SISR(Single Image Super-Resolution)は、低解像度コンピュータビジョンにおいて重要な課題であり、低解像度画像から高解像度画像を再構成することを目的としている。 従来の注意機構はsisrの性能を著しく向上させたが、複雑なネットワーク構造と多くのパラメータを生じさせ、推論速度が遅く、モデルサイズが大きくなる。 この問題に対処するために、パラメータカウント、推論速度、画像品質のバランスをとる高効率なSISRモデルであるSwift Parameter-free Attention Network (SPAN)を提案する。 スパンは新しいパラメータフリーアテンション機構を採用しており、対称的なアクティベーション機能と残差接続を利用して高い帰属情報を高め、冗長な情報を抑制する。 本理論解析は,注意機構の目的を達成する上で,この設計の有効性を示す。 複数のベンチマークでSPANを評価し、画像品質と推論速度の両面で既存の高効率超解像モデルより優れており、品質と速度のトレードオフが著しく達成されていることを示す。 これにより、SPANは現実世界のアプリケーション、特にリソース制約のあるシナリオに非常に適しています。 特に、我々のモデルは27.09dBの最高のPSNRに達し、NTIRE 2023の効率的な超解像チャレンジにおいて、我々のチームのテストランタイムは7.08ms削減される。 私たちのコードとモデルは、 \url{https://github.com/hongyuanyu/SPAN}で公開されています。

Single Image Super-Resolution (SISR) is a crucial task in low-level computer vision, aiming to reconstruct high-resolution images from low-resolution counterparts. Conventional attention mechanisms have significantly improved SISR performance but often result in complex network structures and large number of parameters, leading to slow inference speed and large model size. To address this issue, we propose the Swift Parameter-free Attention Network (SPAN), a highly efficient SISR model that balances parameter count, inference speed, and image quality. SPAN employs a novel parameter-free attention mechanism, which leverages symmetric activation functions and residual connections to enhance high-contribution information and suppress redundant information. Our theoretical analysis demonstrates the effectiveness of this design in achieving the attention mechanism's purpose. We evaluate SPAN on multiple benchmarks, showing that it outperforms existing efficient super-resolution models in terms of both image quality and inference speed, achieving a significant quality-speed trade-off. This makes SPAN highly suitable for real-world applications, particularly in resource-constrained scenarios. Notably, our model attains the best PSNR of 27.09 dB, and the test runtime of our team is reduced by 7.08ms in the NTIRE 2023 efficient super-resolution challenge. Our code and models are made publicly available at \url{https://github.com/hongyuanyu/SPAN}.
翻訳日:2023-11-22 23:23:02 公開日:2023-11-21
# 重み付き深層ニューラルネットワークの探索とiris提示攻撃検出への応用

Investigating Weight-Perturbed Deep Neural Networks With Application in Iris Presentation Attack Detection ( http://arxiv.org/abs/2311.12764v1 )

ライセンス: Link先を確認
Renu Sharma, Redwan Sony, Arun Ross(参考訳) ディープニューラルネットワーク(DNN)は、画像分類、音声認識、生体認証、物体検出など、さまざまな機械学習タスクにおいて優れたパフォーマンスを示す。 しかし、現実のアプリケーションに展開する前にパラメータ摂動に対する感度を分析することが不可欠である。 本研究では,DNNの重みとバイアスパラメータに対する摂動に対する感度を評価する。 感度分析には、3つのdnnアーキテクチャ(vgg、resnet、drknet)、3種類のパラメータ摂動(ゲージノイズ、重みゼロ化、重みスケーリング)、2つの設定(entire networkとlayer-wise)が含まれる。 我々は,公開データセットであるlivdet-iris-2017 と livdet-iris-2020 について iris プレゼンテーションの文脈で実験を行い,その評価を行った。 感度解析に基づいて,ネットワークのパラメータを摂動させることで学習を行なわずに改良モデルを提案する。 さらに、これらの摂動モデルをスコアレベルとパラメータレベルで組み合わせ、元のモデルよりも性能を向上させる。 パラメータレベルのアンサンブルは、LivDet-Iris-2017データセットで43.58%、LivDet-Iris-2020データセットで9.25%の平均的な改善を示している。 ソースコードは \href{https://github.com/redwankarimsony/WeightPerturbation-MSU}{https://github.com/redwankarimsony/WeightPerturbation-MSU} で公開されている。

Deep neural networks (DNNs) exhibit superior performance in various machine learning tasks, e.g., image classification, speech recognition, biometric recognition, object detection, etc. However, it is essential to analyze their sensitivity to parameter perturbations before deploying them in real-world applications. In this work, we assess the sensitivity of DNNs against perturbations to their weight and bias parameters. The sensitivity analysis involves three DNN architectures (VGG, ResNet, and DenseNet), three types of parameter perturbations (Gaussian noise, weight zeroing, and weight scaling), and two settings (entire network and layer-wise). We perform experiments in the context of iris presentation attack detection and evaluate on two publicly available datasets: LivDet-Iris-2017 and LivDet-Iris-2020. Based on the sensitivity analysis, we propose improved models simply by perturbing parameters of the network without undergoing training. We further combine these perturbed models at the score-level and at the parameter-level to improve the performance over the original model. The ensemble at the parameter-level shows an average improvement of 43.58% on the LivDet-Iris-2017 dataset and 9.25% on the LivDet-Iris-2020 dataset. The source code is available at \href{https://github.com/redwankarimsony/WeightPerturbation-MSU}{https://github.com/redwankarimsony/WeightPerturbation-MSU}.
翻訳日:2023-11-22 23:22:39 公開日:2023-11-21
# 高次元データセットのためのブラックボックス機械学習モデル解釈

Interpreting Black-box Machine Learning Models for High Dimensional Datasets ( http://arxiv.org/abs/2208.13405v4 )

ライセンス: Link先を確認
Md. Rezaul Karim, Md. Shajalal, Alex Gra{\ss}, Till D\"ohmen, Sisay Adugna Chala, Alexander Boden, Christian Beecks, Stefan Decker(参考訳) ディープニューラルネットワーク(DNN)は、複雑な問題のモデリングや高次元データセットの処理に有効であることから、さまざまなアプリケーション領域において、従来の機械学習アルゴリズムよりも優れていることが示されている。 しかし、多くの実生活データセットはますます高次元化しており、教師なしと教師なしの学習タスクの両方で多くの機能が無関係になる可能性がある。 このような機能の導入は、望ましくないノイズをもたらすだけでなく、計算の複雑さも増すだろう。 さらに,多数の特徴の非線型性や依存度が高いため,DNNモデルは不可避的に不透明であり,ブラックボックス法として認識される傾向にある。 アルゴリズムの複雑さはしばしば、ハイパーパラメーターの無数の相互作用を理解するために人間の能力を超える。 よく解釈可能なモデルは、統計的に重要な特徴を特定し、モデルの結果にどのように影響するかを説明することができる。 本稿では,高次元データセットの場合の分類タスクにおけるブラックボックスモデルの解釈性を向上させる効率的な手法を提案する。 まず,高次元データセット上でブラックボックスモデルを訓練し,分類を行う組込みを学習する。 ブラックボックスモデルの内部動作原理を分解し、トップkの重要特徴を特定するために、異なる探索法と摂動法を用いる。 次に,トップk特徴空間上の解釈可能なサロゲートモデルを用いてブラックボックスモデルの挙動を近似する。 最後に,サロゲートモデルから決定ルールと局所的説明を導出し,個々の決定を説明する。 当社のアプローチは,50~20,000wr.tのメトリクスと説明可能性の異なる異なるデータセットでテストした場合,TabNetやXGboostのような最先端の手法よりも優れています。

Deep neural networks (DNNs) have been shown to outperform traditional machine learning algorithms in a broad variety of application domains due to their effectiveness in modeling complex problems and handling high-dimensional datasets. Many real-life datasets, however, are of increasingly high dimensionality, where a large number of features may be irrelevant for both supervised and unsupervised learning tasks. The inclusion of such features would not only introduce unwanted noise but also increase computational complexity. Furthermore, due to high non-linearity and dependency among a large number of features, DNN models tend to be unavoidably opaque and perceived as black-box methods because of their not well-understood internal functioning. Their algorithmic complexity is often simply beyond the capacities of humans to understand the interplay among myriads of hyperparameters. A well-interpretable model can identify statistically significant features and explain the way they affect the model's outcome. In this paper, we propose an efficient method to improve the interpretability of black-box models for classification tasks in the case of high-dimensional datasets. First, we train a black-box model on a high-dimensional dataset to learn the embeddings on which the classification is performed. To decompose the inner working principles of the black-box model and to identify top-k important features, we employ different probing and perturbing techniques. We then approximate the behavior of the black-box model by means of an interpretable surrogate model on the top-k feature space. Finally, we derive decision rules and local explanations from the surrogate model to explain individual decisions. Our approach outperforms state-of-the-art methods like TabNet and XGboost when tested on different datasets with varying dimensionality between 50 and 20,000 w.r.t metrics and explainability.
翻訳日:2023-11-22 21:02:43 公開日:2023-11-21
# 高次元データセットのためのブラックボックス機械学習モデル解釈

Interpreting Black-box Machine Learning Models for High Dimensional Datasets ( http://arxiv.org/abs/2208.13405v3 )

ライセンス: Link先を確認
Md. Rezaul Karim, Md. Shajalal, Alex Gra{\ss}, Till D\"ohmen, Sisay Adugna Chala, Alexander Boden, Christian Beecks, Stefan Decker(参考訳) ディープニューラルネットワーク(DNN)は、複雑な問題のモデリングや高次元データセットの処理に有効であることから、さまざまなアプリケーション領域において、従来の機械学習アルゴリズムよりも優れていることが示されている。 しかし、多くの実生活データセットはますます高次元化しており、教師なしと教師なしの学習タスクの両方で多くの機能が無関係になる可能性がある。 このような機能の導入は、望ましくないノイズをもたらすだけでなく、計算の複雑さも増すだろう。 さらに,多数の特徴の非線型性や依存度が高いため,DNNモデルは不可避的に不透明であり,ブラックボックス法として認識される傾向にある。 アルゴリズムの複雑さはしばしば、ハイパーパラメーターの無数の相互作用を理解するために人間の能力を超える。 よく解釈可能なモデルは、統計的に重要な特徴を特定し、モデルの結果にどのように影響するかを説明することができる。 本稿では,高次元データセットの場合の分類タスクにおけるブラックボックスモデルの解釈性を向上させる効率的な手法を提案する。 まず,高次元データセット上でブラックボックスモデルを訓練し,分類を行う組込みを学習する。 ブラックボックスモデルの内部動作原理を分解し、トップkの重要特徴を特定するために、異なる探索法と摂動法を用いる。 次に,トップk特徴空間上の解釈可能なサロゲートモデルを用いてブラックボックスモデルの挙動を近似する。 最後に,サロゲートモデルから決定ルールと局所的説明を導出し,個々の決定を説明する。 当社のアプローチは,50~20,000wr.tのメトリクスと説明可能性の異なる異なるデータセットでテストした場合,TabNetやXGboostのような最先端の手法よりも優れています。

Deep neural networks (DNNs) have been shown to outperform traditional machine learning algorithms in a broad variety of application domains due to their effectiveness in modeling complex problems and handling high-dimensional datasets. Many real-life datasets, however, are of increasingly high dimensionality, where a large number of features may be irrelevant for both supervised and unsupervised learning tasks. The inclusion of such features would not only introduce unwanted noise but also increase computational complexity. Furthermore, due to high non-linearity and dependency among a large number of features, DNN models tend to be unavoidably opaque and perceived as black-box methods because of their not well-understood internal functioning. Their algorithmic complexity is often simply beyond the capacities of humans to understand the interplay among myriads of hyperparameters. A well-interpretable model can identify statistically significant features and explain the way they affect the model's outcome. In this paper, we propose an efficient method to improve the interpretability of black-box models for classification tasks in the case of high-dimensional datasets. First, we train a black-box model on a high-dimensional dataset to learn the embeddings on which the classification is performed. To decompose the inner working principles of the black-box model and to identify top-k important features, we employ different probing and perturbing techniques. We then approximate the behavior of the black-box model by means of an interpretable surrogate model on the top-k feature space. Finally, we derive decision rules and local explanations from the surrogate model to explain individual decisions. Our approach outperforms state-of-the-art methods like TabNet and XGboost when tested on different datasets with varying dimensionality between 50 and 20,000 w.r.t metrics and explainability.
翻訳日:2023-11-22 21:02:14 公開日:2023-11-21
# 逆移動可能性に対する後方伝播の再考

Rethinking the Backward Propagation for Adversarial Transferability ( http://arxiv.org/abs/2306.12685v3 )

ライセンス: Link先を確認
Xiaosen Wang, Kangheng Tong, Kun He(参考訳) 転送ベースの攻撃は、surrogateモデル上で敵対的な例を生成し、他のブラックボックスモデルをアクセスせずに誤解させ、現実世界のアプリケーションを攻撃することを約束する。 近年,サロゲートモデルを見落としている対向移動性を高めるために,いくつかの研究が提案されている。 本研究では,非線形層(relu,max-poolingなど)が後方伝播時の勾配を遮断し,勾配w.r.t.入力画像が損失関数に不適合であることを示す。 このような乱れが敵の例の伝達性を損なうと仮定し実証する。 そこで本研究では,BPA (Backward Propagation Attack) と呼ばれる新しい手法を提案し,入力画像の勾配w.r.t.と損失関数の関係性を高め,高い伝達性を持つ逆例を生成する。 具体的には、BPAはReLUの誘導体として非単調関数を採用し、温度にソフトマックスを組み込んで最大プーリングの誘導体を滑らかにし、勾配の後方伝播時の情報損失を軽減する。 imagenetデータセットの実証結果から,本手法は逆転送可能性を大幅に向上させるだけでなく,既存の転送ベースの攻撃にも汎用的であることが示された。 コードはhttps://github.com/Trustworthy-AI-Group/RPAで入手できる。

Transfer-based attacks generate adversarial examples on the surrogate model, which can mislead other black-box models without access, making it promising to attack real-world applications. Recently, several works have been proposed to boost adversarial transferability, in which the surrogate model is usually overlooked. In this work, we identify that non-linear layers (e.g., ReLU, max-pooling, etc.) truncate the gradient during backward propagation, making the gradient w.r.t. input image imprecise to the loss function. We hypothesize and empirically validate that such truncation undermines the transferability of adversarial examples. Based on these findings, we propose a novel method called Backward Propagation Attack (BPA) to increase the relevance between the gradient w.r.t. input image and loss function so as to generate adversarial examples with higher transferability. Specifically, BPA adopts a non-monotonic function as the derivative of ReLU and incorporates softmax with temperature to smooth the derivative of max-pooling, thereby mitigating the information loss during the backward propagation of gradients. Empirical results on the ImageNet dataset demonstrate that not only does our method substantially boost the adversarial transferability, but it is also general to existing transfer-based attacks. Code is available at https://github.com/Trustworthy-AI-Group/RPA.
翻訳日:2023-11-22 19:00:09 公開日:2023-11-21
# 逆移動可能性に対する後方伝播の再考

Rethinking the Backward Propagation for Adversarial Transferability ( http://arxiv.org/abs/2306.12685v2 )

ライセンス: Link先を確認
Xiaosen Wang, Kangheng Tong, Kun He(参考訳) 転送ベースの攻撃は、surrogateモデル上で敵対的な例を生成し、他のブラックボックスモデルをアクセスせずに誤解させ、現実世界のアプリケーションを攻撃することを約束する。 近年,サロゲートモデルを見落としている対向移動性を高めるために,いくつかの研究が提案されている。 本研究では,非線形層(relu,max-poolingなど)が後方伝播時の勾配を遮断し,勾配w.r.t.入力画像が損失関数に不適合であることを示す。 このような乱れが敵の例の伝達性を損なうと仮定し実証する。 そこで本研究では,BPA (Backward Propagation Attack) と呼ばれる新しい手法を提案し,入力画像の勾配w.r.t.と損失関数の関係性を高め,高い伝達性を持つ逆例を生成する。 具体的には、BPAはReLUの誘導体として非単調関数を採用し、温度にソフトマックスを組み込んで最大プーリングの誘導体を滑らかにし、勾配の後方伝播時の情報損失を軽減する。 imagenetデータセットの実証結果から,本手法は逆転送可能性を大幅に向上させるだけでなく,既存の転送ベースの攻撃にも汎用的であることが示された。 コードはhttps://github.com/Trustworthy-AI-Group/RPAで入手できる。

Transfer-based attacks generate adversarial examples on the surrogate model, which can mislead other black-box models without access, making it promising to attack real-world applications. Recently, several works have been proposed to boost adversarial transferability, in which the surrogate model is usually overlooked. In this work, we identify that non-linear layers (e.g., ReLU, max-pooling, etc.) truncate the gradient during backward propagation, making the gradient w.r.t. input image imprecise to the loss function. We hypothesize and empirically validate that such truncation undermines the transferability of adversarial examples. Based on these findings, we propose a novel method called Backward Propagation Attack (BPA) to increase the relevance between the gradient w.r.t. input image and loss function so as to generate adversarial examples with higher transferability. Specifically, BPA adopts a non-monotonic function as the derivative of ReLU and incorporates softmax with temperature to smooth the derivative of max-pooling, thereby mitigating the information loss during the backward propagation of gradients. Empirical results on the ImageNet dataset demonstrate that not only does our method substantially boost the adversarial transferability, but it is also general to existing transfer-based attacks. Code is available at https://github.com/Trustworthy-AI-Group/RPA.
翻訳日:2023-11-22 18:59:47 公開日:2023-11-21
# スライスネットワークにおけるオンラインアドミッション制御のためのデジタルツイン支援深層強化学習

Digital Twin Assisted Deep Reinforcement Learning for Online Admission Control in Sliced Network ( http://arxiv.org/abs/2310.09299v3 )

ライセンス: Link先を確認
Zhenyu Tao, Wei Xu, Xiaohu You(参考訳) 5g以降における多様な無線サービスの普及は、ネットワークスライシング技術の出現につながった。 サービス要求を選択的に受け入れることで、サービス指向の最適化目標を達成する上で、アクセス制御は重要な役割を担います。 深層強化学習(DRL)はその有効性と柔軟性によって多くの入場制御手法の基礎を成すが、DRLモデルの過度の収束遅延を伴う初期不安定性は、実際のネットワークへの展開を妨げる。 この問題に対処するために、ディジタルツイン(DT)高速化DRLソリューションを提案する。 具体的には、まずセミマルコフ決定プロセスとして入場決定過程を定式化し、その後DRL法の実装を容易にするために等価な離散時間マルコフ決定プロセスに単純化する。 ニューラルネットワークベースのDTは、システムをキューイングするためのカスタマイズされた出力層を備え、教師付き学習を通じてトレーニングされ、DRLモデルのトレーニングフェーズを支援するために使用される。 DT加速DRLは直接訓練された最先端Q-ラーニングモデルと比較して,資源利用率を40%以上向上させる。 この改善は、入場プロセスの長期報酬を最適化するモデルの能力を維持しながら達成される。

The proliferation of diverse wireless services in 5G and beyond has led to the emergence of network slicing technologies. Among these, admission control plays a crucial role in achieving service-oriented optimization goals through the selective acceptance of service requests. Although deep reinforcement learning (DRL) forms the foundation in many admission control approaches thanks to its effectiveness and flexibility, initial instability with excessive convergence delay of DRL models hinders their deployment in real-world networks. We propose a digital twin (DT) accelerated DRL solution to address this issue. Specifically, we first formulate the admission decision-making process as a semi-Markov decision process, which is subsequently simplified into an equivalent discrete-time Markov decision process to facilitate the implementation of DRL methods. A neural network-based DT is established with a customized output layer for queuing systems, trained through supervised learning, and then employed to assist the training phase of the DRL model. Extensive simulations show that the DT-accelerated DRL improves resource utilization by over 40% compared to the directly trained state-of-the-art dueling deep Q-learning model. This improvement is achieved while preserving the model's capability to optimize the long-term rewards of the admission process.
翻訳日:2023-11-22 17:32:28 公開日:2023-11-21
# スライスネットワークにおけるオンラインアドミッション制御のためのデジタルツイン支援深層強化学習

Digital Twin Assisted Deep Reinforcement Learning for Online Admission Control in Sliced Network ( http://arxiv.org/abs/2310.09299v2 )

ライセンス: Link先を確認
Zhenyu Tao, Wei Xu, Xiaohu You(参考訳) 5g以降における多様な無線サービスの普及は、ネットワークスライシング技術の出現につながった。 サービス要求を選択的に受け入れることで、サービス指向の最適化目標を達成する上で、アクセス制御は重要な役割を担います。 深層強化学習(DRL)はその有効性と柔軟性によって多くの入場制御手法の基礎を成すが、DRLモデルの過度の収束遅延を伴う初期不安定性は、実際のネットワークへの展開を妨げる。 この問題に対処するために、ディジタルツイン(DT)高速化DRLソリューションを提案する。 具体的には、まずセミマルコフ決定プロセスとして入場決定過程を定式化し、その後DRL法の実装を容易にするために等価な離散時間マルコフ決定プロセスに単純化する。 ニューラルネットワークベースのDTは、システムをキューイングするためのカスタマイズされた出力層を備え、教師付き学習を通じてトレーニングされ、DRLモデルのトレーニングフェーズを支援するために使用される。 DT加速DRLは直接訓練された最先端Q-ラーニングモデルと比較して,資源利用率を40%以上向上させる。 この改善は、入場プロセスの長期報酬を最適化するモデルの能力を維持しながら達成される。

The proliferation of diverse wireless services in 5G and beyond has led to the emergence of network slicing technologies. Among these, admission control plays a crucial role in achieving service-oriented optimization goals through the selective acceptance of service requests. Although deep reinforcement learning (DRL) forms the foundation in many admission control approaches thanks to its effectiveness and flexibility, initial instability with excessive convergence delay of DRL models hinders their deployment in real-world networks. We propose a digital twin (DT) accelerated DRL solution to address this issue. Specifically, we first formulate the admission decision-making process as a semi-Markov decision process, which is subsequently simplified into an equivalent discrete-time Markov decision process to facilitate the implementation of DRL methods. A neural network-based DT is established with a customized output layer for queuing systems, trained through supervised learning, and then employed to assist the training phase of the DRL model. Extensive simulations show that the DT-accelerated DRL improves resource utilization by over 40% compared to the directly trained state-of-the-art dueling deep Q-learning model. This improvement is achieved while preserving the model's capability to optimize the long-term rewards of the admission process.
翻訳日:2023-11-22 17:32:10 公開日:2023-11-21
# プライバシーに敏感なレコメンダシステムのためのマルチリゾリューション拡散

Multi-Resolution Diffusion for Privacy-Sensitive Recommender Systems ( http://arxiv.org/abs/2311.03488v2 )

ライセンス: Link先を確認
Derek Lilienthal, Paul Mello, Magdalini Eirinaki, Stas Tiomkin(参考訳) 推奨システムはWebエクスペリエンスの不可欠なコンポーネントになっているが、ユーザデータへの依存度が高いため、プライバシやセキュリティ上の懸念が高まる。 ユーザデータを合成データで置換することは、これらの懸念に対処できますが、現実のデータセットを正確に複製することは、非常に難しい問題です。 生成AIの最近の進歩は、様々な領域にわたる現実的なデータを生成するための拡散モデルの印象的な能力を示している。 本研究では,高精度なレコメンデータシステムのトレーニングに必要な実世界のデータセットの複雑なパターンをキャプチャするスコアベース拡散レコメンデーションモジュール(sdrm)を提案する。 SDRMは、ユーザのプライバシを保護するために既存のデータセットを置き換える合成データを生成することができる。 提案手法は, 生成逆数ネットワーク, 変分オートエンコーダなどの競合するベースラインよりも優れており, 様々なデータセットを合成し, 元のデータをRecall@$k$で平均4.30%, NDCG@$k$で平均4.65%改善する拡散モデルを提案する。

While recommender systems have become an integral component of the Web experience, their heavy reliance on user data raises privacy and security concerns. Substituting user data with synthetic data can address these concerns, but accurately replicating these real-world datasets has been a notoriously challenging problem. Recent advancements in generative AI have demonstrated the impressive capabilities of diffusion models in generating realistic data across various domains. In this work we introduce a Score-based Diffusion Recommendation Module (SDRM), which captures the intricate patterns of real-world datasets required for training highly accurate recommender systems. SDRM allows for the generation of synthetic data that can replace existing datasets to preserve user privacy, or augment existing datasets to address excessive data sparsity. Our method outperforms competing baselines such as generative adversarial networks, variational autoencoders, and recently proposed diffusion models in synthesizing various datasets to replace or augment the original data by an average improvement of 4.30% in Recall@$k$ and 4.65% in NDCG@$k$.
翻訳日:2023-11-22 16:42:43 公開日:2023-11-21
# Video-LLaVA: 投影前のアライメントによる統一視覚表現の学習

Video-LLaVA: Learning United Visual Representation by Alignment Before Projection ( http://arxiv.org/abs/2311.10122v1 )

ライセンス: Link先を確認
Bin Lin, Yang Ye, Bin Zhu, Jiaxi Cui, Munan Ning, Peng Jin, Li Yuan(参考訳) large vision-language model (lvlm)は、視覚言語理解における様々な下流タスクのパフォーマンスを高めた。 既存のアプローチのほとんどは、画像とビデオを別々の特徴空間にエンコードし、それを大きな言語モデルへの入力として入力する。 しかし、画像と動画の統一トークン化が欠如していること、すなわち投影前の不一致が原因で、大きな言語モデル(llm)が複数の不適切な投影層からマルチモーダルなインタラクションを学ぶことが困難になる。 本研究では,視覚表現を言語特徴空間に統一し,基礎的LLMを統一LVLMに向けて前進させる。 その結果,画像と映像の混在したデータセットから学習し,相互に強化する,単純かつ堅牢なlvlmベースラインであるvideo-llavaが確立された。 Video-LLaVAは5つの画像問合せデータセットと4つの画像ベンチマークツールキットにまたがる9つの画像ベンチマークにおいて、優れたパフォーマンスを実現している。 さらにビデオラバはビデオチャットgptを5.8%,9.9%,18.6%,10.1%,msrvtt,msvd,tgif,activitynetをそれぞれ上回っている。 特に、大規模な実験では、ビデオ-LLaVAは、画像やビデオ用に特別に設計されたモデルよりも優れた、統一された視覚表現内の画像とビデオに相互に利益をもたらすことを示した。 本研究の目的は,LLMのマルチモーダルインプットに対する控えめな洞察を提供することである。

The Large Vision-Language Model (LVLM) has enhanced the performance of various downstream tasks in visual-language understanding. Most existing approaches encode images and videos into separate feature spaces, which are then fed as inputs to large language models. However, due to the lack of unified tokenization for images and videos, namely misalignment before projection, it becomes challenging for a Large Language Model (LLM) to learn multi-modal interactions from several poor projection layers. In this work, we unify visual representation into the language feature space to advance the foundational LLM towards a unified LVLM. As a result, we establish a simple but robust LVLM baseline, Video-LLaVA, which learns from a mixed dataset of images and videos, mutually enhancing each other. Video-LLaVA achieves superior performances on a broad range of 9 image benchmarks across 5 image question-answering datasets and 4 image benchmark toolkits. Additionally, our Video-LLaVA also outperforms Video-ChatGPT by 5.8%, 9.9%, 18.6%, and 10.1% on MSRVTT, MSVD, TGIF, and ActivityNet, respectively. Notably, extensive experiments demonstrate that Video-LLaVA mutually benefits images and videos within a unified visual representation, outperforming models designed specifically for images or videos. We aim for this work to provide modest insights into the multi-modal inputs for the LLM.
翻訳日:2023-11-22 15:52:16 公開日:2023-11-21
# アスペクトベース感覚分析(ABSA)の体系的レビュー : 領域,方法,動向

A Systematic Review of Aspect-based Sentiment Analysis (ABSA): Domains, Methods, and Trends ( http://arxiv.org/abs/2311.10777v1 )

ライセンス: Link先を確認
Yan Cathy Hua, Paul Denny, Katerina Taskova, J\"org Wicker(参考訳) アスペクトベース感情分析(Aspect-based Sentiment Analysis、ABSA)は、特定のテキストからアスペクトと関連する意見を識別する、きめ細かい感情分析(SA)の一種である。 デジタル時代に入ると、ABSAは洞察と支援決定を得るために世論的なテキストデータのマイニングに人気を博し、応用した。 ABSAの研究は言語、統計、機械学習のアプローチを採用し、ラベル付きデータセット、アスペクト、感情のレキシコン、オントロジーなどのリソースを利用する。 本質的にABSAはドメインに依存しており、リソースとアプリケーションドメイン間のミスアライメントの影響に敏感である。 しかし、我々の知る限り、この話題は既存のABSA文献レビューでは検討されていない。 本稿では,研究アプリケーションドメイン,データセットドメイン,研究手法に着目したabsa研究の体系的文献レビュー(slr)を行い,それらの関係を調べ,経時的傾向を同定する。 本研究は,特定の研究アプリケーションドメインを持たない研究の大部分において,‘製品/サービスレビュー’データセットドメインの優位性や,教師付き機械学習などのデータセット・レジリエントな手法の普及など,ABSA研究文献における潜在的なシステム的問題について示唆する。 このレビューはABSAの研究分野に多くのユニークな貢献をしている。 1) 本知識は, 研究領域, データセット領域, 研究方法を体系的な視点で関連付けた最初のslrである。 2)ABSAにおける最大範囲のSLRの1つであり、時間制約のない4191の検索結果から519の適格な研究をフィルタリングする。 3) 評価手法は, スクリーニング品質と信頼性を高めるpdfマイニングに基づく革新的な自動フィルタリング手法を採用した。 提案とレビューの制限についても論じた。

Aspect-based Sentiment Analysis (ABSA) is a type of fine-grained sentiment analysis (SA) that identifies aspects and the associated opinions from a given text. In the digital era, ABSA gained increasing popularity and applications in mining opinionated text data to obtain insights and support decisions. ABSA research employs linguistic, statistical, and machine-learning approaches and utilises resources such as labelled datasets, aspect and sentiment lexicons and ontology. By its nature, ABSA is domain-dependent and can be sensitive to the impact of misalignment between the resource and application domains. However, to our knowledge, this topic has not been explored by the existing ABSA literature reviews. In this paper, we present a Systematic Literature Review (SLR) of ABSA studies with a focus on the research application domain, dataset domain, and the research methods to examine their relationships and identify trends over time. Our results suggest a number of potential systemic issues in the ABSA research literature, including the predominance of the ``product/service review'' dataset domain among the majority of studies that did not have a specific research application domain, coupled with the prevalence of dataset-reliant methods such as supervised machine learning. This review makes a number of unique contributions to the ABSA research field: 1) To our knowledge, it is the first SLR that links the research domain, dataset domain, and research method through a systematic perspective; 2) it is one of the largest scoped SLR on ABSA, with 519 eligible studies filtered from 4191 search results without time constraint; and 3) our review methodology adopted an innovative automatic filtering process based on PDF-mining, which enhanced screening quality and reliability. Suggestions and our review limitations are also discussed.
翻訳日:2023-11-22 14:37:07 公開日:2023-11-21
# カスタマイズ可能なストックプールにおけるポートフォリオ管理のためのマスク可能なストック表現を用いた強化学習

Reinforcement Learning with Maskable Stock Representation for Portfolio Management in Customizable Stock Pools ( http://arxiv.org/abs/2311.10801v1 )

ライセンス: Link先を確認
Wentao Zhang, Yilei Zhao, Shuo Sun, Jie Ying, Yonggang Xie, Zitao Song, Xinrun Wang, Bo An(参考訳) ポートフォリオ・マネジメント(pm)は金融取引の基本課題であり、長期利益を追求するために資本を異なる株式に最適に移すことを探求する。 強化学習(rl)は金融市場との対話を通じてpmの有益なエージェントを訓練する可能性を最近示した。 しかし、既存の仕事は、主に投資家の実際的な需要と矛盾する固定株プールに焦点を当てている。 特に、異なる投資家のターゲットの株価プールは、市場国家との格差のために劇的に変動し、個々の投資家は、取引したい株式(例えば1つの人気株を追加する)を一時的に調整し、カスタマイズ可能な株式プール(csp)に繋がる可能性がある。 既存のRL手法では、ストックプールを少し変更してもRLエージェントを再訓練する必要があるため、高い計算コストと不安定な性能が得られる。 この課題に取り組むため,我々は,グローバルストックプール(gsp)でのワンショットトレーニングを通じてpmをcspで扱うための,マスキング可能なストック表現を備えた強化学習フレームワークであるearnmoreを提案する。 具体的には,まず,ターゲットプールの外に在庫を隠蔽する機構を導入する。 第2に,自己教師付きマスキングと再構築プロセスを通じて有意義な在庫表現を学習する。 第3に、ポートフォリオが好意的な株式に集中し、ターゲットプールの外の株を無視するように再重み付けメカニズムが設計されている。 米国株式市場の8つのサブセット株式プールに関する広範な実験を通じて、EarnMoreは、利益の40%以上向上した6つの一般的な財務指標において、14の最先端のベースラインを大きく上回っていることを実証した。

Portfolio management (PM) is a fundamental financial trading task, which explores the optimal periodical reallocation of capitals into different stocks to pursue long-term profits. Reinforcement learning (RL) has recently shown its potential to train profitable agents for PM through interacting with financial markets. However, existing work mostly focuses on fixed stock pools, which is inconsistent with investors' practical demand. Specifically, the target stock pool of different investors varies dramatically due to their discrepancy on market states and individual investors may temporally adjust stocks they desire to trade (e.g., adding one popular stocks), which lead to customizable stock pools (CSPs). Existing RL methods require to retrain RL agents even with a tiny change of the stock pool, which leads to high computational cost and unstable performance. To tackle this challenge, we propose EarnMore, a rEinforcement leARNing framework with Maskable stOck REpresentation to handle PM with CSPs through one-shot training in a global stock pool (GSP). Specifically, we first introduce a mechanism to mask out the representation of the stocks outside the target pool. Second, we learn meaningful stock representations through a self-supervised masking and reconstruction process. Third, a re-weighting mechanism is designed to make the portfolio concentrate on favorable stocks and neglect the stocks outside the target pool. Through extensive experiments on 8 subset stock pools of the US stock market, we demonstrate that EarnMore significantly outperforms 14 state-of-the-art baselines in terms of 6 popular financial metrics with over 40% improvement on profit.
翻訳日:2023-11-22 14:27:09 公開日:2023-11-21
# カスタマイズ可能なストックプールにおけるポートフォリオ管理のためのマスク可能なストック表現を用いた強化学習

Reinforcement Learning with Maskable Stock Representation for Portfolio Management in Customizable Stock Pools ( http://arxiv.org/abs/2311.10801v2 )

ライセンス: Link先を確認
Wentao Zhang, Yilei Zhao, Shuo Sun, Jie Ying, Yonggang Xie, Zitao Song, Xinrun Wang, Bo An(参考訳) ポートフォリオ・マネジメント(pm)は金融取引の基本課題であり、長期利益を追求するために資本を異なる株式に最適に移すことを探求する。 強化学習(rl)は金融市場との対話を通じてpmの有益なエージェントを訓練する可能性を最近示した。 しかし、既存の仕事は、主に投資家の実際的な需要と矛盾する固定株プールに焦点を当てている。 特に、異なる投資家のターゲットの株価プールは、市場国家との格差のために劇的に変動し、個々の投資家は、取引したい株式(例えば1つの人気株を追加する)を一時的に調整し、カスタマイズ可能な株式プール(csp)に繋がる可能性がある。 既存のRL手法では、ストックプールを少し変更してもRLエージェントを再訓練する必要があるため、高い計算コストと不安定な性能が得られる。 この課題に取り組むため,我々は,グローバルストックプール(gsp)でのワンショットトレーニングを通じてpmをcspで扱うための,マスキング可能なストック表現を備えた強化学習フレームワークであるearnmoreを提案する。 具体的には,まず,ターゲットプールの外に在庫を隠蔽する機構を導入する。 第2に,自己教師付きマスキングと再構築プロセスを通じて有意義な在庫表現を学習する。 第3に、ポートフォリオが好意的な株式に集中し、ターゲットプールの外の株を無視するように再重み付けメカニズムが設計されている。 米国株式市場の8つのサブセット株式プールに関する広範な実験を通じて、EarnMoreは、利益の40%以上向上した6つの一般的な財務指標において、14の最先端のベースラインを大きく上回っていることを実証した。

Portfolio management (PM) is a fundamental financial trading task, which explores the optimal periodical reallocation of capitals into different stocks to pursue long-term profits. Reinforcement learning (RL) has recently shown its potential to train profitable agents for PM through interacting with financial markets. However, existing work mostly focuses on fixed stock pools, which is inconsistent with investors' practical demand. Specifically, the target stock pool of different investors varies dramatically due to their discrepancy on market states and individual investors may temporally adjust stocks they desire to trade (e.g., adding one popular stocks), which lead to customizable stock pools (CSPs). Existing RL methods require to retrain RL agents even with a tiny change of the stock pool, which leads to high computational cost and unstable performance. To tackle this challenge, we propose EarnMore, a rEinforcement leARNing framework with Maskable stOck REpresentation to handle PM with CSPs through one-shot training in a global stock pool (GSP). Specifically, we first introduce a mechanism to mask out the representation of the stocks outside the target pool. Second, we learn meaningful stock representations through a self-supervised masking and reconstruction process. Third, a re-weighting mechanism is designed to make the portfolio concentrate on favorable stocks and neglect the stocks outside the target pool. Through extensive experiments on 8 subset stock pools of the US stock market, we demonstrate that EarnMore significantly outperforms 14 state-of-the-art baselines in terms of 6 popular financial metrics with over 40% improvement on profit.
翻訳日:2023-11-22 14:10:09 公開日:2023-11-21
# 時間的論理課題を伴う確率システムに対する構成的ニューロシンボリック制御の検証

Verified Compositional Neuro-Symbolic Control for Stochastic Systems with Temporal Logic Tasks ( http://arxiv.org/abs/2311.10863v2 )

ライセンス: Link先を確認
Jun Wang, Kaiyuan Tan, Zihe Sun, Yiannis Kantaros(参考訳) 最近、LTL(Linear Temporal Logic)によって捕獲された複雑なミッションをタスクとする未知の確率力学を持つ自律エージェントのためのニューラルネットワーク(NN)コントローラを学習するいくつかの方法が提案されている。 これらの作品の大半のサンプル非効率のため、ltl仕様をより小さなサブタスクに分解する構成学習手法が提案されている。 そして、別個のコントローラを学習し、元のタスクを満たすように構成する。 これらのアプローチにおける重要な課題は、しばしば安全保証が欠如しているか、提供された保証が現実的でないことである。 本稿では,この問題に対処することを目的とする。 特に,未知の確率ダイナミクスとltlエンコードされたタスクを持つ自律システムを考える。 本システムは,訓練されたNNフィードバックコントローラによってモデル化されたベーススキルの有限セットを備えていると仮定する。 当社の目標は、トレーニングされたnnコントローラの時間的構成が存在するかどうかをチェックすることで、割り当てられたltlタスクを確率1で満足する複合システムの振る舞いを発生させることです。 本稿では,nn制御確率システムのためのオートマトン理論とデータ駆動到達可能性解析ツールの新しい統合手法を提案する。 結果として得られるニューロシンボリックコントローラは、エージェントがベースとなるスキルを活用することによって、知覚できない複雑な時相論理タスクの安全な振る舞いをゼロショット方式で生成することができる。 提案手法の正当性を示し,提案手法が完成する条件を提供する。 我々の知る限りでは、未知および確率的なシステムのためにNNコントローラの時間的構成を検証した最初の作品である。 最後に,ロボットナビゲーションタスクに関する広範な数値シミュレーションとハードウェア実験を行い,提案手法を実証する。

Several methods have been proposed recently to learn neural network (NN) controllers for autonomous agents, with unknown and stochastic dynamics, tasked with complex missions captured by Linear Temporal Logic (LTL). Due to the sample-inefficiency of the majority of these works, compositional learning methods have been proposed decomposing the LTL specification into smaller sub-tasks. Then, separate controllers are learned and composed to satisfy the original task. A key challenge within these approaches is that they often lack safety guarantees or the provided guarantees are impractical. This paper aims to address this challenge. Particularly, we consider autonomous systems with unknown and stochastic dynamics and LTL-encoded tasks. We assume that the system is equipped with a finite set of base skills modeled by trained NN feedback controllers. Our goal is to check if there exists a temporal composition of the trained NN controllers - and if so, to compute it - that will yield a composite system behavior that satisfies the assigned LTL task with probability one. We propose a new approach that relies on a novel integration of automata theory and data-driven reachability analysis tools for NN-controlled stochastic systems. The resulting neuro-symbolic controller allows the agent to generate safe behaviors for unseen complex temporal logic tasks in a zero-shot fashion by leveraging its base skills. We show correctness of the proposed method and we provide conditions under which it is complete. To the best of our knowledge, this is the first work that designs verified temporal compositions of NN controllers for unknown and stochastic systems. Finally, we provide extensive numerical simulations and hardware experiments on robot navigation tasks to demonstrate the proposed method.
翻訳日:2023-11-22 14:02:07 公開日:2023-11-21
# 時間的論理課題を伴う確率システムに対する構成的ニューロシンボリック制御の検証

Verified Compositional Neuro-Symbolic Control for Stochastic Systems with Temporal Logic Tasks ( http://arxiv.org/abs/2311.10863v1 )

ライセンス: Link先を確認
Jun Wang, Kaiyuan Tan, Zihe Sun, Yiannis Kantaros(参考訳) 最近、LTL(Linear Temporal Logic)によって捕獲された複雑なミッションをタスクとする未知の確率力学を持つ自律エージェントのためのニューラルネットワーク(NN)コントローラを学習するいくつかの方法が提案されている。 これらの作品の大半のサンプル非効率のため、ltl仕様をより小さなサブタスクに分解する構成学習手法が提案されている。 そして、別個のコントローラを学習し、元のタスクを満たすように構成する。 これらのアプローチにおける重要な課題は、しばしば安全保証が欠如しているか、提供された保証が現実的でないことである。 本稿では,この問題に対処することを目的とする。 特に,未知の確率ダイナミクスとltlエンコードされたタスクを持つ自律システムを考える。 本システムは,訓練されたNNフィードバックコントローラによってモデル化されたベーススキルの有限セットを備えていると仮定する。 当社の目標は、トレーニングされたnnコントローラの時間的構成が存在するかどうかをチェックすることで、割り当てられたltlタスクを確率1で満足する複合システムの振る舞いを発生させることです。 本稿では,nn制御確率システムのためのオートマトン理論とデータ駆動到達可能性解析ツールの新しい統合手法を提案する。 結果として得られるニューロシンボリックコントローラは、エージェントがベースとなるスキルを活用することによって、知覚できない複雑な時相論理タスクの安全な振る舞いをゼロショット方式で生成することができる。 提案手法の正当性を示し,提案手法が完成する条件を提供する。 我々の知る限りでは、未知および確率的なシステムのためにNNコントローラの時間的構成を検証した最初の作品である。 最後に,ロボットナビゲーションタスクに関する広範な数値シミュレーションとハードウェア実験を行い,提案手法を実証する。

Several methods have been proposed recently to learn neural network (NN) controllers for autonomous agents, with unknown and stochastic dynamics, tasked with complex missions captured by Linear Temporal Logic (LTL). Due to the sample-inefficiency of the majority of these works, compositional learning methods have been proposed decomposing the LTL specification into smaller sub-tasks. Then, separate controllers are learned and composed to satisfy the original task. A key challenge within these approaches is that they often lack safety guarantees or the provided guarantees are impractical. This paper aims to address this challenge. Particularly, we consider autonomous systems with unknown and stochastic dynamics and LTL-encoded tasks. We assume that the system is equipped with a finite set of base skills modeled by trained NN feedback controllers. Our goal is to check if there exists a temporal composition of the trained NN controllers - and if so, to compute it - that will yield a composite system behavior that satisfies the assigned LTL task with probability one. We propose a new approach that relies on a novel integration of automata theory and data-driven reachability analysis tools for NN-controlled stochastic systems. The resulting neuro-symbolic controller allows the agent to generate safe behaviors for unseen complex temporal logic tasks in a zero-shot fashion by leveraging its base skills. We show correctness of the proposed method and we provide conditions under which it is complete. To the best of our knowledge, this is the first work that designs verified temporal compositions of NN controllers for unknown and stochastic systems. Finally, we provide extensive numerical simulations and hardware experiments on robot navigation tasks to demonstrate the proposed method.
翻訳日:2023-11-22 14:01:40 公開日:2023-11-21
# マルチモーダル深層学習による露骨な映像コンテンツの抽出と要約

Extraction and Summarization of Explicit Video Content using Multi-Modal Deep Learning ( http://arxiv.org/abs/2311.10899v2 )

ライセンス: Link先を確認
Shaunak Joshi, Raghav Gaggar(参考訳) インターネット全体のビデオ共有プラットフォームの増加に伴い、人間が明示的なコンテンツのためにデータをモデレートすることは困難である。 したがって、明示的なコンテンツのためにビデオデータをスキャンする自動パイプラインが、時間を必要としている。 本稿では,マルチモーダル深層学習を用いて,まず入力ビデオの明示的なセグメントを抽出し,テキストを用いてコンテンツを要約し,その年齢と年齢を判定するパイプラインを提案する。 また、標準メトリクスを使用して、最後にパイプラインの有効性を評価します。

With the increase in video-sharing platforms across the internet, it is difficult for humans to moderate the data for explicit content. Hence, an automated pipeline to scan through video data for explicit content has become the need of the hour. We propose a novel pipeline that uses multi-modal deep learning to first extract the explicit segments of input videos and then summarize their content using text to determine its age appropriateness and age rating. We also evaluate our pipeline's effectiveness in the end using standard metrics.
翻訳日:2023-11-22 13:49:12 公開日:2023-11-21
# マルチモーダル深層学習による露骨な映像コンテンツの抽出と要約

Extraction and Summarization of Explicit Video Content using Multi-Modal Deep Learning ( http://arxiv.org/abs/2311.10899v1 )

ライセンス: Link先を確認
Shaunak Joshi, Raghav Gaggar(参考訳) インターネット全体のビデオ共有プラットフォームの増加に伴い、人間が明示的なコンテンツのためにデータをモデレートすることは困難である。 したがって、明示的なコンテンツのためにビデオデータをスキャンする自動パイプラインが、時間を必要としている。 本稿では,マルチモーダル深層学習を用いて,まず入力ビデオの明示的なセグメントを抽出し,テキストを用いてコンテンツを要約し,その年齢と年齢を判定するパイプラインを提案する。 また、標準メトリクスを使用して、最後にパイプラインの有効性を評価します。

With the increase in video-sharing platforms across the internet, it is difficult for humans to moderate the data for explicit content. Hence, an automated pipeline to scan through video data for explicit content has become the need of the hour. We propose a novel pipeline that uses multi-modal deep learning to first extract the explicit segments of input videos and then summarize their content using text to determine its age appropriateness and age rating. We also evaluate our pipeline's effectiveness in the end using standard metrics.
翻訳日:2023-11-22 13:48:39 公開日:2023-11-21
# バックプロパゲーションに代わる進化的アルゴリズムによる生体物理ニューラルネットワークとニューラルネットワークの教師あり学習

Evolutionary algorithms as an alternative to backpropagation for supervised training of Biophysical Neural Networks and Neural ODEs ( http://arxiv.org/abs/2311.10869v2 )

ライセンス: Link先を確認
James Hazelden, Yuhan Helena Liu, Eli Shlizerman, Eric Shea-Brown(参考訳) 生体物理学的に正確なニューロンモデルからなるトレーニングネットワークは、脳回路がタスクを編成し解決する方法に関する新たな洞察を与えることができる。 まず,ニューラルネットワーク学習の中心的なアルゴリズム -- バックプロパゲーション(bp)による確率的勾配降下 -- が,そのネットワークのトレーニングにどの程度用いられるかを分析する。 スパイク時間に対する剛性,高非線形性,長期評価時間などの正確なモデリングに必要な生体物理ベースニューラルネットワークモデルの特性は,BPを不安定にし,様々なケースで発散させる。 これらの不安定性に対処し、最近の研究に触発された我々は、生物物理学に基づくニューラルネットワークのトレーニングに「段階的推定」進化的アルゴリズム(EA)を用いて検討する。 EAには、直接BPよりも望ましい利点がいくつかあり、例えば、フォワードパスのみであり、ノイズに強い、硬い損失であり、離散的な損失の定式化を可能にし、パラメータのよりグローバルな探索を促進する可能性がある。 本稿では,刺激統合とワーキングメモリタスクにおけるモリス・レカーニューロンモデルの繰り返しネットワークのトレーニングに適用し,直接BPが適用不可能な場合にどのように成功するかを示す。 一般に、EAの生存可能性を高めるために、一般のニューラルODE問題と堅いニューラルODEベンチマークに適用し、EAが直接BP、特に過度にパラメータ化された状態に対して優れた性能を発揮することを発見した。 以上の結果から, 生体物理学ニューロンはBP-adjacent法の限界をテストする上で有用なベンチマークを提供し, 複雑なコンポーネントを持つネットワークをトレーニングするためのEAの生存可能性を示す可能性が示唆された。

Training networks consisting of biophysically accurate neuron models could allow for new insights into how brain circuits can organize and solve tasks. We begin by analyzing the extent to which the central algorithm for neural network learning -- stochastic gradient descent through backpropagation (BP) -- can be used to train such networks. We find that properties of biophysically based neural network models needed for accurate modelling such as stiffness, high nonlinearity and long evaluation timeframes relative to spike times makes BP unstable and divergent in a variety of cases. To address these instabilities and inspired by recent work, we investigate the use of "gradient-estimating" evolutionary algorithms (EAs) for training biophysically based neural networks. We find that EAs have several advantages making them desirable over direct BP, including being forward-pass only, robust to noisy and rigid losses, allowing for discrete loss formulations, and potentially facilitating a more global exploration of parameters. We apply our method to train a recurrent network of Morris-Lecar neuron models on a stimulus integration and working memory task, and show how it can succeed in cases where direct BP is inapplicable. To expand on the viability of EAs in general, we apply them to a general neural ODE problem and a stiff neural ODE benchmark and find again that EAs can out-perform direct BP here, especially for the over-parameterized regime. Our findings suggest that biophysical neurons could provide useful benchmarks for testing the limits of BP-adjacent methods, and demonstrate the viability of EAs for training networks with complex components.
翻訳日:2023-11-22 13:44:49 公開日:2023-11-21
# バックプロパゲーションに代わる進化的アルゴリズムによる生体物理ニューラルネットワークとニューラルネットワークの教師あり学習

Evolutionary algorithms as an alternative to backpropagation for supervised training of Biophysical Neural Networks and Neural ODEs ( http://arxiv.org/abs/2311.10869v1 )

ライセンス: Link先を確認
James Hazelden, Yuhan Helena Liu, Eli Shlizerman, Eric Shea-Brown(参考訳) 生体物理学的に正確なニューロンモデルからなるトレーニングネットワークは、脳回路がタスクを編成し解決する方法に関する新たな洞察を与えることができる。 まず,ニューラルネットワーク学習の中心的なアルゴリズム -- バックプロパゲーション(bp)による確率的勾配降下 -- が,そのネットワークのトレーニングにどの程度用いられるかを分析する。 スパイク時間に対する剛性,高非線形性,長期評価時間などの正確なモデリングに必要な生体物理ベースニューラルネットワークモデルの特性は,BPを不安定にし,様々なケースで発散させる。 これらの不安定性に対処し、最近の研究に触発された我々は、生物物理学に基づくニューラルネットワークのトレーニングに「段階的推定」進化的アルゴリズム(EA)を用いて検討する。 EAには、直接BPよりも望ましい利点がいくつかあり、例えば、フォワードパスのみであり、ノイズに強い、硬い損失であり、離散的な損失の定式化を可能にし、パラメータのよりグローバルな探索を促進する可能性がある。 本稿では,刺激統合とワーキングメモリタスクにおけるモリス・レカーニューロンモデルの繰り返しネットワークのトレーニングに適用し,直接BPが適用不可能な場合にどのように成功するかを示す。 一般に、EAの生存可能性を高めるために、一般のニューラルODE問題と堅いニューラルODEベンチマークに適用し、EAが直接BP、特に過度にパラメータ化された状態に対して優れた性能を発揮することを発見した。 以上の結果から, 生体物理学ニューロンはBP-adjacent法の限界をテストする上で有用なベンチマークを提供し, 複雑なコンポーネントを持つネットワークをトレーニングするためのEAの生存可能性を示す可能性が示唆された。

Training networks consisting of biophysically accurate neuron models could allow for new insights into how brain circuits can organize and solve tasks. We begin by analyzing the extent to which the central algorithm for neural network learning -- stochastic gradient descent through backpropagation (BP) -- can be used to train such networks. We find that properties of biophysically based neural network models needed for accurate modelling such as stiffness, high nonlinearity and long evaluation timeframes relative to spike times makes BP unstable and divergent in a variety of cases. To address these instabilities and inspired by recent work, we investigate the use of "gradient-estimating" evolutionary algorithms (EAs) for training biophysically based neural networks. We find that EAs have several advantages making them desirable over direct BP, including being forward-pass only, robust to noisy and rigid losses, allowing for discrete loss formulations, and potentially facilitating a more global exploration of parameters. We apply our method to train a recurrent network of Morris-Lecar neuron models on a stimulus integration and working memory task, and show how it can succeed in cases where direct BP is inapplicable. To expand on the viability of EAs in general, we apply them to a general neural ODE problem and a stiff neural ODE benchmark and find again that EAs can out-perform direct BP here, especially for the over-parameterized regime. Our findings suggest that biophysical neurons could provide useful benchmarks for testing the limits of BP-adjacent methods, and demonstrate the viability of EAs for training networks with complex components.
翻訳日:2023-11-22 13:44:18 公開日:2023-11-21
# ケースリポジトリ:aiアライメントのためのケースベース推論に向けて

Case Repositories: Towards Case-Based Reasoning for AI Alignment ( http://arxiv.org/abs/2311.10934v2 )

ライセンス: Link先を確認
K. J. Kevin Feng, Quan Ze Chen, Inyoung Cheong, King Xia, Amy X. Zhang(参考訳) ケーススタディは一般的に、法、倫理、その他の多くの領域において、人間の価値観によって知らされる複雑で曖昧な社会的問題に直面している。 aiが実際にどのように連携すべきかを考えると、同じような複雑さと曖昧さが生まれます。異なる個人やコミュニティの多様な(そして時には矛盾する)価値に直面するとき、その価値はaiと一致し、aiはどうすればよいのか? ケースベース推論(CBR)の考え方を基礎として,一組の事例に基づく判断による政策構築に焦点を当てた,立憲AIアライメントのための補完的アプローチを提案する。 このようなケースリポジトリを組み立てるプロセスを示します。 1) オンラインコミュニティでの議論から,特定のドメインにおいて,‘seed’ケースのセット – AIシステムに質問する可能性のある質問 – を収集する。 2【ドメインの専門家とのワークショップによるケースのドメイン固有のキーディメンジョンの抽出】 3) LLM を用いて野生で見られない症例のバリエーションを発生させ, 4) 事件の審理及び改善を公に行うこと。 次に、このようなケースリポジトリがaiアライメントにどのように役立つかについて議論し、受け入れ可能な行動の先例として直接行動し、個人やコミュニティがaiの倫理的推論に携わる媒体としての役割を論じる。

Case studies commonly form the pedagogical backbone in law, ethics, and many other domains that face complex and ambiguous societal questions informed by human values. Similar complexities and ambiguities arise when we consider how AI should be aligned in practice: when faced with vast quantities of diverse (and sometimes conflicting) values from different individuals and communities, with whose values is AI to align, and how should AI do so? We propose a complementary approach to constitutional AI alignment, grounded in ideas from case-based reasoning (CBR), that focuses on the construction of policies through judgments on a set of cases. We present a process to assemble such a case repository by: 1) gathering a set of ``seed'' cases -- questions one may ask an AI system -- in a particular domain from discussions in online communities, 2) eliciting domain-specific key dimensions for cases through workshops with domain experts, 3) using LLMs to generate variations of cases not seen in the wild, and 4) engaging with the public to judge and improve cases. We then discuss how such a case repository could assist in AI alignment, both through directly acting as precedents to ground acceptable behaviors, and as a medium for individuals and communities to engage in moral reasoning around AI.
翻訳日:2023-11-22 13:18:02 公開日:2023-11-21
# ケースリポジトリ:aiアライメントのためのケースベース推論に向けて

Case Repositories: Towards Case-Based Reasoning for AI Alignment ( http://arxiv.org/abs/2311.10934v1 )

ライセンス: Link先を確認
K. J. Kevin Feng, Quan Ze Chen, Inyoung Cheong, King Xia, Amy X. Zhang(参考訳) ケーススタディは一般的に、法、倫理、その他の多くの領域において、人間の価値観によって知らされる複雑で曖昧な社会的問題に直面している。 aiが実際にどのように連携すべきかを考えると、同じような複雑さと曖昧さが生まれます。異なる個人やコミュニティの多様な(そして時には矛盾する)価値に直面するとき、その価値はaiと一致し、aiはどうすればよいのか? ケースベース推論(CBR)の考え方を基礎として,一組の事例に基づく判断による政策構築に焦点を当てた,立憲AIアライメントのための補完的アプローチを提案する。 このようなケースリポジトリを組み立てるプロセスを示します。 1) オンラインコミュニティでの議論から,特定のドメインにおいて,‘seed’ケースのセット – AIシステムに質問する可能性のある質問 – を収集する。 2【ドメインの専門家とのワークショップによるケースのドメイン固有のキーディメンジョンの抽出】 3) LLM を用いて野生で見られない症例のバリエーションを発生させ, 4) 事件の審理及び改善を公に行うこと。 次に、このようなケースリポジトリがaiアライメントにどのように役立つかについて議論し、受け入れ可能な行動の先例として直接行動し、個人やコミュニティがaiの倫理的推論に携わる媒体としての役割を論じる。

Case studies commonly form the pedagogical backbone in law, ethics, and many other domains that face complex and ambiguous societal questions informed by human values. Similar complexities and ambiguities arise when we consider how AI should be aligned in practice: when faced with vast quantities of diverse (and sometimes conflicting) values from different individuals and communities, with whose values is AI to align, and how should AI do so? We propose a complementary approach to constitutional AI alignment, grounded in ideas from case-based reasoning (CBR), that focuses on the construction of policies through judgments on a set of cases. We present a process to assemble such a case repository by: 1) gathering a set of ``seed'' cases -- questions one may ask an AI system -- in a particular domain from discussions in online communities, 2) eliciting domain-specific key dimensions for cases through workshops with domain experts, 3) using LLMs to generate variations of cases not seen in the wild, and 4) engaging with the public to judge and improve cases. We then discuss how such a case repository could assist in AI alignment, both through directly acting as precedents to ground acceptable behaviors, and as a medium for individuals and communities to engage in moral reasoning around AI.
翻訳日:2023-11-22 13:17:39 公開日:2023-11-21
# 入射RGBDニューラルSLAM

Implicit Event-RGBD Neural SLAM ( http://arxiv.org/abs/2311.11013v2 )

ライセンス: Link先を確認
Delin Qu, Chi Yan, Dong Wang, Jie Yin, Dan Xu, Bin Zhao, Xuelong Li(参考訳) 神経性SLAMは近年顕著な進歩を遂げている。 それにもかかわらず、既存の手法は、動きのぼやけや照明の変動といった非理想的なシナリオにおいて重大な課題に直面しており、しばしば収束障害、局所化ドリフト、歪みマッピングといった問題を引き起こす。 これらの課題に対処するため,最初のイベント-RGBD暗黙的ニューラルネットワークSLAMフレームワークである$\textbf{EN-SLAM}$を提案する。 特に、EN-SLAMは、異なるRGBおよびイベントカメラデータを共有放射場を介して生成する、識別可能なCRF(Camera Response Function)レンダリング技術を提案する。 さらに,イベントの時間的差分特性に基づいて,イベントの連続的差分制約を活かし,イベントジョイントトラッキングとグローバルバンドル調整のための時間的集約最適化戦略を提案し,追跡精度とロバスト性を大幅に向上させる。 最後に、シミュレーションデータセット $\textbf{DEV-Indoors}$と、実際のキャプチャデータセット $\textbf{DEV-Reals}$に、6つのシーン、実用的なモーションボケのある17のシーケンスと、評価のための照明変更を含む。 実験結果から,本手法は ATE の追跡と ACC のマッピングにおいて,様々な難易度環境において,17ドル FPS のリアルタイムマッピングにおいて,SOTA 法よりも優れていることがわかった。 コードとデータセットは間もなくリリースされる。

Implicit neural SLAM has achieved remarkable progress recently. Nevertheless, existing methods face significant challenges in non-ideal scenarios, such as motion blur or lighting variation, which often leads to issues like convergence failures, localization drifts, and distorted mapping. To address these challenges, we propose $\textbf{EN-SLAM}$, the first event-RGBD implicit neural SLAM framework, which effectively leverages the high rate and high dynamic range advantages of event data for tracking and mapping. Specifically, EN-SLAM proposes a differentiable CRF (Camera Response Function) rendering technique to generate distinct RGB and event camera data via a shared radiance field, which is optimized by learning a unified implicit representation with the captured event and RGBD supervision. Moreover, based on the temporal difference property of events, we propose a temporal aggregating optimization strategy for the event joint tracking and global bundle adjustment, capitalizing on the consecutive difference constraints of events, significantly enhancing tracking accuracy and robustness. Finally, we construct the simulated dataset $\textbf{DEV-Indoors}$ and real captured dataset $\textbf{DEV-Reals}$ containing 6 scenes, 17 sequences with practical motion blur and lighting changes for evaluations. Experimental results show that our method outperforms the SOTA methods in both tracking ATE and mapping ACC with a real-time $17$ FPS in various challenging environments. The code and dataset will be released soon.
翻訳日:2023-11-22 12:56:40 公開日:2023-11-21
# 入射RGBDニューラルSLAM

Implicit Event-RGBD Neural SLAM ( http://arxiv.org/abs/2311.11013v1 )

ライセンス: Link先を確認
Delin Qu, Chi Yan, Dong Wang, Jie Yin, Dan Xu, Bin Zhao, Xuelong Li(参考訳) 神経性SLAMは近年顕著な進歩を遂げている。 それにもかかわらず、既存の手法は、動きのぼやけや照明の変動といった非理想的なシナリオにおいて重大な課題に直面しており、しばしば収束障害、局所化ドリフト、歪みマッピングといった問題を引き起こす。 これらの課題に対処するため,最初のイベント-RGBD暗黙的ニューラルネットワークSLAMフレームワークである$\textbf{EN-SLAM}$を提案する。 特に、EN-SLAMは、異なるRGBおよびイベントカメラデータを共有放射場を介して生成する、識別可能なCRF(Camera Response Function)レンダリング技術を提案する。 さらに,イベントの時間的差分特性に基づいて,イベントの連続的差分制約を活かし,イベントジョイントトラッキングとグローバルバンドル調整のための時間的集約最適化戦略を提案し,追跡精度とロバスト性を大幅に向上させる。 最後に、シミュレーションデータセット $\textbf{DEV-Indoors}$と、実際のキャプチャデータセット $\textbf{DEV-Reals}$に、6つのシーン、実用的なモーションボケのある17のシーケンスと、評価のための照明変更を含む。 実験結果から,本手法は ATE の追跡と ACC のマッピングにおいて,様々な難易度環境において,17ドル FPS のリアルタイムマッピングにおいて,SOTA 法よりも優れていることがわかった。 コードとデータセットは間もなくリリースされる。

Implicit neural SLAM has achieved remarkable progress recently. Nevertheless, existing methods face significant challenges in non-ideal scenarios, such as motion blur or lighting variation, which often leads to issues like convergence failures, localization drifts, and distorted mapping. To address these challenges, we propose $\textbf{EN-SLAM}$, the first event-RGBD implicit neural SLAM framework, which effectively leverages the high rate and high dynamic range advantages of event data for tracking and mapping. Specifically, EN-SLAM proposes a differentiable CRF (Camera Response Function) rendering technique to generate distinct RGB and event camera data via a shared radiance field, which is optimized by learning a unified implicit representation with the captured event and RGBD supervision. Moreover, based on the temporal difference property of events, we propose a temporal aggregating optimization strategy for the event joint tracking and global bundle adjustment, capitalizing on the consecutive difference constraints of events, significantly enhancing tracking accuracy and robustness. Finally, we construct the simulated dataset $\textbf{DEV-Indoors}$ and real captured dataset $\textbf{DEV-Reals}$ containing 6 scenes, 17 sequences with practical motion blur and lighting changes for evaluations. Experimental results show that our method outperforms the SOTA methods in both tracking ATE and mapping ACC with a real-time $17$ FPS in various challenging environments. The code and dataset will be released soon.
翻訳日:2023-11-22 12:55:52 公開日:2023-11-21
# BrainWash: 継続的な学習で忘れられるような攻撃

BrainWash: A Poisoning Attack to Forget in Continual Learning ( http://arxiv.org/abs/2311.11995v2 )

ライセンス: Link先を確認
Ali Abbasi, Parsa Nooralinejad, Hamed Pirsiavash, Soheil Kolouri(参考訳) 継続的学習はディープラーニングコミュニティで大きな注目を集め、シーケンシャル学習の難しい問題に対する有望な解決策を提供している。 しかし、このパラダイムのほとんど未熟な側面は、特に忘れることを誘発する目的で、敵対的な攻撃に対する感受性である。 本稿では,連続学習者に忘れを強いるように設計された新しいデータ中毒手法である"BrainWash"を紹介する。 様々なベースラインに洗脳ノイズを付加することにより、訓練された連続学習者が、これらの連続学習ベースラインを使用しても、過去の学習タスクを破滅的に忘れるように誘導できることを実証する。 このアプローチの重要な特徴は、攻撃者が以前のタスクのデータにアクセスする必要がなく、モデルの現在のパラメータと最新のタスクに属するデータだけで武装していることです。 本研究は,各種正規化型連続学習法におけるブレインウォッシュの有効性を強調する実験である。

Continual learning has gained substantial attention within the deep learning community, offering promising solutions to the challenging problem of sequential learning. Yet, a largely unexplored facet of this paradigm is its susceptibility to adversarial attacks, especially with the aim of inducing forgetting. In this paper, we introduce "BrainWash," a novel data poisoning method tailored to impose forgetting on a continual learner. By adding the BrainWash noise to a variety of baselines, we demonstrate how a trained continual learner can be induced to forget its previously learned tasks catastrophically, even when using these continual learning baselines. An important feature of our approach is that the attacker requires no access to previous tasks' data and is armed merely with the model's current parameters and the data belonging to the most recent task. Our extensive experiments highlight the efficacy of BrainWash, showcasing degradation in performance across various regularization-based continual learning methods.
翻訳日:2023-11-22 12:18:31 公開日:2023-11-21
# ダイヤモンドスズ空孔中心の電荷状態と光遷移周波数の周知初期化

Heralded initialization of charge state and optical transition frequency of diamond tin-vacancy centers ( http://arxiv.org/abs/2311.11962v2 )

ライセンス: Link先を確認
Julia M. Brevoord, Lorenzo De Santis, Takashi Yamamoto, Matteo Pasini, Nina Codreanu, Tim Turan, Hans K. C. Beukers, Christopher Waas, Ronald Hanson(参考訳) Diamond Tin-Vacancy Centerは、量子情報科学と技術のための有望なプラットフォームとして登場した。 より複雑な量子実験やスケーラブルな応用で使用する上で重要な課題は、所望の電荷状態の中心を予め定義された周波数で光遷移させる能力である。 本稿では,レーザー励起,光子検出,リアルタイム論理を併用したヘラルド作成について報告する。 まず、最適化共振プローブパルス中の蛍光光子数とその後の電荷状態と光遷移周波数とを強く相関させ、閾値光子計数により所望の状態をリアルタイムに階層化することを示した。 次に,光発光励起測定,コヒーレント光駆動,光ラムゼイ実験に適用し,閾値の上昇に伴う光コヒーレンスを強く改善した。 最後に、作製した光周波数が不均質線幅を横切るプローブレーザに従い、複数の均質線幅上の遷移周波数のチューニングを可能にすることを実証する。

Diamond Tin-Vacancy centers have emerged as a promising platform for quantum information science and technology. A key challenge for their use in more complex quantum experiments and scalable applications is the ability to prepare the center in the desired charge state with the optical transition at a pre-defined frequency. Here we report on heralding such successful preparation using a combination of laser excitation, photon detection, and real-time logic. We first show that fluorescence photon counts collected during an optimized resonant probe pulse strongly correlate with the subsequent charge state and optical transition frequency, enabling real-time heralding of the desired state through threshold photon counting. We then implement and apply this heralding technique to photoluminescence excitation measurements, coherent optical driving, and an optical Ramsey experiment, finding strongly improved optical coherence with increasing threshold. Finally, we demonstrate that the prepared optical frequency follows the probe laser across the inhomogeneous linewidth, enabling tuning of the transition frequency over multiple homogeneous linewidths.
翻訳日:2023-11-22 12:18:16 公開日:2023-11-21
# 継続的学習: 応用と今後の展望

Continual Learning: Applications and the Road Forward ( http://arxiv.org/abs/2311.11908v2 )

ライセンス: Link先を確認
Eli Verwimp, Rahaf Aljundi, Shai Ben-David, Matthias Bethge, Andrea Cossu, Alexander Gepperth, Tyler L. Hayes, Eyke H\"ullermeier, Christopher Kanan, Dhireesha Kudithipudi, Christoph H. Lampert, Martin Mundt, Razvan Pascanu, Adrian Popescu, Andreas S. Tolias, Joost van de Weijer, Bing Liu, Vincenzo Lomonaco, Tinne Tuytelaars, Gido M. van de Ven(参考訳) 継続的学習は機械学習のサブフィールドであり、過去の学習を忘れずに知識を蓄積することで、機械学習モデルが新しいデータを継続的に学習できるようにすることを目的としている。 この作業では、一歩後退して、"そもそも何故継続的な学習を気にすべきなのか"と尋ねます。 3つの主要な機械学習カンファレンスで発表された最近の連続学習論文を調査し、メモリ制約のある設定がこの分野を支配することを示した。 そして、機械学習における5つのオープン問題について議論し、それらは一見すると連続学習とは無関係に見えるものの、継続学習が必然的に彼らのソリューションの一部であることを示す。 これらの問題は、モデル編集、パーソナライゼーション、オンデバイス学習、高速(再)トレーニング、強化学習である。 最後に,未解決問題のデシデラタと継続学習における現在の仮定を比較し,継続学習研究の4つの今後の方向性について論じる。 この研究が、その潜在的な価値と成功のために追求しなければならない道を示しながら、継続的な学習の未来に対する興味深い視点を提供してくれることを願っています。 この研究は、2023年3月のDagtuhl Seminar on Deep Continual Learningで著者らが行った多くの議論の結果である。

Continual learning is a sub-field of machine learning, which aims to allow machine learning models to continuously learn on new data, by accumulating knowledge without forgetting what was learned in the past. In this work, we take a step back, and ask: "Why should one care about continual learning in the first place?". We set the stage by surveying recent continual learning papers published at three major machine learning conferences, and show that memory-constrained settings dominate the field. Then, we discuss five open problems in machine learning, and even though they seem unrelated to continual learning at first sight, we show that continual learning will inevitably be part of their solution. These problems are model-editing, personalization, on-device learning, faster (re-)training and reinforcement learning. Finally, by comparing the desiderata from these unsolved problems and the current assumptions in continual learning, we highlight and discuss four future directions for continual learning research. We hope that this work offers an interesting perspective on the future of continual learning, while displaying its potential value and the paths we have to pursue in order to make it successful. This work is the result of the many discussions the authors had at the Dagstuhl seminar on Deep Continual Learning, in March 2023.
翻訳日:2023-11-22 12:17:58 公開日:2023-11-21
# ビジネスインテリジェンスアプリケーション特定のための自然言語制御

Controlled Natural Languages for Specifying Business Intelligence Applications ( http://arxiv.org/abs/2311.11895v2 )

ライセンス: Link先を確認
Pedro das Neves Rodrigues, Alberto Rodrigues da Silva(参考訳) 本研究では,ビジネスインテリジェンス(BI)の適用要件を特定するために,制御自然言語(CNL)の使用について検討する。 CNLはCNL-BIとITLingo ASL (ASL)の2種類が用いられた。 仮説的BIアプリケーションであるMEDBuddy-BIは、National Health Service (NHS)のために開発され、言語がどのように使用できるかを示した。 MEDBuddy-BIは、インタラクションやアポイントメントを含む患者のデータを活用して、医療サービスを改善する。 本研究は,CNL-BIとASLのBIへの応用について概説する。 これらの言語は、複雑なデータ、ユーザインターフェイス、様々なBIアプリケーション機能を効果的に記述する。 MEDBuddy-BI の実行例を使用する。

This study examines the use of controlled natural languages (CNLs) to specify business intelligence (BI) application requirements. Two varieties of CNLs, CNL-BI and ITLingo ASL (ASL), were employed. A hypothetical BI application, MEDBuddy-BI, was developed for the National Health Service (NHS) to demonstrate how the languages can be used. MEDBuddy-BI leverages patient data, including interactions and appointments, to improve healthcare services. The research outlines the application of CNL-BI and ASL in BI. It details how these languages effectively describe complex data, user interfaces, and various BI application functions. Using the MEDBuddy-BI running example.
翻訳日:2023-11-22 12:17:38 公開日:2023-11-21
# テンソルネットワークアルゴリズムの安定かつ効率的な微分

Stable and efficient differentiation of tensor network algorithms ( http://arxiv.org/abs/2311.11894v2 )

ライセンス: Link先を確認
Anna Francuz, Norbert Schuch, Bram Vanhecke(参考訳) 勾配に基づく最適化法は、射影絡み合ったペア状態を持つ2次元の強い絡み合った量子システムを研究するための確立された最先端パラダイムである。 しかし,角移動行列(CTM)に基づくアプローチでは,重要な成分である勾配そのものが正確かつ確実に計算することが困難であることが証明されている。 勾配を計算する最もよく知られたツールである自動微分(AD)は、依然としていくつかの重大な欠点を被っている。 これらのいくつかは、過剰なメモリ使用の問題や、特異値分解(SVD)を微分する際に生じる発散など、知られている。 また,現在使用されているSVDのバックプロパゲーションには,これまで注目されていなかった根本的な不正確性があることが判明した。 本稿では,これらの問題をすべて説明し,コンパクトで実装が容易なソリューションを提供する。 これらの変更の影響を分析して、最後の問題(正しい勾配の使用)が圧倒的に支配的な問題であることに気付きました。

Gradient based optimization methods are the established state-of-the-art paradigm to study strongly entangled quantum systems in two dimensions with Projected Entangled Pair States. However, the key ingredient, the gradient itself, has proven challenging to calculate accurately and reliably in the case of a corner transfer matrix (CTM)-based approach. Automatic differentiation (AD), which is the best known tool for calculating the gradient, still suffers some crucial shortcomings. Some of these are known, like the problem of excessive memory usage and the divergences which may arise when differentiating a singular value decomposition (SVD). Importantly, we also find that there is a fundamental inaccuracy in the currently used backpropagation of SVD that had not been noted before. In this paper, we describe all these problems and provide them with compact and easy to implement solutions. We analyse the impact of these changes and find that the last problem -- the use of the correct gradient -- is by far the dominant one and thus should be considered a crucial patch to any AD application that makes use of an SVD for truncation.
翻訳日:2023-11-22 12:17:28 公開日:2023-11-21
# 構造移動を用いたロボットハンドアイ校正

Robot Hand-Eye Calibration using Structure-from-Motion ( http://arxiv.org/abs/2311.11808v2 )

ライセンス: Link先を確認
Nicolas Andreff, Radu Horaud and Bernard Espiau(参考訳) 本稿では,ハンドアイキャリブレーションのための新しいフレキシブルな手法を提案する。 既存の手目キャリブレーション技術の大部分は、カメラのポーズ推定手法と組み合わせて用いられるキャリブレーションリグを必要とする。 代わりに、構造移動と既知のロボットの動きを組み合わせることで、解が線形形式で得られることを示す。 後者は、手目パラメータと、構造移動法に固有の未知のスケールファクタの両方を解く。 そのような線形定式化で可能な代数的解析は、一般的なねじ運動のよく知られたケースだけでなく、純粋な翻訳、純粋な回転、平面運動のような特異な運動も調べることができる。 基本的に、ロボット搭載カメラは、未知の硬いレイアウトに見え、画像シーケンス上のポイントを追跡し、カメラとロボットの関係を推定する。 このような自己校正プロセスは、無人車や遠隔地で働くロボットなどに関係している。 提案手法を既存手法と比較し,その品質を検証する実験を多数実施した。

In this paper we propose a new flexible method for hand-eye calibration. The vast majority of existing hand-eye calibration techniques requires a calibration rig which is used in conjunction with camera pose estimation methods. Instead, we combine structure-from-motion with known robot motions and we show that the solution can be obtained in linear form. The latter solves for both the hand-eye parameters and for the unknown scale factor inherent with structure-from-motion methods. The algebraic analysis that is made possible with such a linear formulation allows to investigate not only the well known case of general screw motions but also such singular motions as pure translations, pure rotations, and planar motions. In essence, the robot-mounted camera looks to an unknown rigid layout, tracks points over an image sequence and estimates the camera-to-robot relationship. Such a self calibration process is relevant for unmanned vehicles, robots working in remote places, and so forth. We conduct a large number of experiments which validate the quality of the method by comparing it with existing ones.
翻訳日:2023-11-22 12:17:12 公開日:2023-11-21
# GS-SLAM:3Dガウススプラッティングによる高解像度視力SLAM

GS-SLAM: Dense Visual SLAM with 3D Gaussian Splatting ( http://arxiv.org/abs/2311.11700v2 )

ライセンス: Link先を確認
Chi Yan, Delin Qu, Dong Wang, Dan Xu, Zhigang Wang, Bin Zhao, Xuelong Li(参考訳) 本稿では,slamシステムにおいて,まず3次元ガウス表現を用いた$\textbf{gs-slam}$を提案する。 効率と正確さのバランスが向上します。 ニューラル暗黙表現を用いた最近のSLAM法と比較して,本手法では,マップ最適化とRGB-D再レンダリングに大幅な高速化を提供するリアルタイム微分可能なスプラッティングレンダリングパイプラインを利用する。 具体的には,新しいシーン形状を効率的に再構築し,以前に観測された領域のマッピングを改善するために,新しい,あるいはノイズの多い3次元ガウスを付加する適応展開戦略を提案する。 この戦略は、既存の手法で静的オブジェクトを合成するのではなく、3次元ガウス表現を拡張してシーン全体を再構築するために不可欠である。 さらに、ポーズトラッキングプロセスでは、カメラポーズを最適化する信頼性の高い3次元ガウス表現を選択するために、効果的な粗大化手法が設計されている。 提案手法は,Replica,TUM-RGBDデータセット上の既存の最先端リアルタイム手法と比較して,競争性能が向上する。 ソースコードはまもなくリリースされる予定だ。

In this paper, we introduce $\textbf{GS-SLAM}$ that first utilizes 3D Gaussian representation in the Simultaneous Localization and Mapping (SLAM) system. It facilitates a better balance between efficiency and accuracy. Compared to recent SLAM methods employing neural implicit representations, our method utilizes a real-time differentiable splatting rendering pipeline that offers significant speedup to map optimization and RGB-D re-rendering. Specifically, we propose an adaptive expansion strategy that adds new or deletes noisy 3D Gaussian in order to efficiently reconstruct new observed scene geometry and improve the mapping of previously observed areas. This strategy is essential to extend 3D Gaussian representation to reconstruct the whole scene rather than synthesize a static object in existing methods. Moreover, in the pose tracking process, an effective coarse-to-fine technique is designed to select reliable 3D Gaussian representations to optimize camera pose, resulting in runtime reduction and robust estimation. Our method achieves competitive performance compared with existing state-of-the-art real-time methods on the Replica, TUM-RGBD datasets. The source code will be released soon.
翻訳日:2023-11-22 12:16:58 公開日:2023-11-21
# 重量規範制御

Weight Norm Control ( http://arxiv.org/abs/2311.11446v2 )

ライセンス: Link先を確認
Ilya Loshchilov(参考訳) 重みの目標ノルムが 0 に設定されるような重みの標準制御において、疎み付き重みの減衰正則化は特別な場合である。 分離重み減衰正規化(英語版)(AdamW)を用いる任意の最適化法(例:Adam)は、ウェイトノルム制御を持つより一般的なアルゴリズム(例:AdamWN)の特別な場合と見なすことができる。 重みの目標ノルムを0に設定することは準最適であり、他の目標ノルム値を考えることができる。 例えば、AdamWが特定の重みのノルムを達成する任意のトレーニングランは、同等の重みのノルムを達成する予定のAdamWNによって挑戦される。 重み減衰の代わりに重みノルム制御を導入することの様々な意味について論じる。

We note that decoupled weight decay regularization is a particular case of weight norm control where the target norm of weights is set to 0. Any optimization method (e.g., Adam) which uses decoupled weight decay regularization (respectively, AdamW) can be viewed as a particular case of a more general algorithm with weight norm control (respectively, AdamWN). We argue that setting the target norm of weights to 0 can be suboptimal and other target norm values can be considered. For instance, any training run where AdamW achieves a particular norm of weights can be challenged by AdamWN scheduled to achieve a comparable norm of weights. We discuss various implications of introducing weight norm control instead of weight decay.
翻訳日:2023-11-22 12:16:37 公開日:2023-11-21
# Slicing Aided Hyper Inference with Refinement Strategy による高度なICノードの欠陥検出と分類法の改善

Improved Defect Detection and Classification Method for Advanced IC Nodes by Using Slicing Aided Hyper Inference with Refinement Strategy ( http://arxiv.org/abs/2311.11439v2 )

ライセンス: Link先を確認
Vic De Ridder, Bappaditya Dey, Victor Blanco, Sandip Halder, Bartel Van Waeyenberge(参考訳) 半導体製造において、リソグラフィーはしばしば最小のパターン次元を定義する製造ステップである。 近年,高NA(数値開口)EUVL(Extreme-Ultraviolet-Lithography)パラダイムへの進展が見られ,パターン縮小(2nm以下)が期待されている。 しかし,高naでは確率的欠陥の増加と欠陥検出の複雑さが顕著になる。 現状の欠陥検査技術(非機械学習と機械学習ベースの両方)は、高NA次元での良好な性能を達成できない。 本研究では,slicing aided hyper inference (sahi) フレームワークを用いて,現在の手法を改善する方法について検討する。 SAHIを用いて、SEM画像のサイズ増加スライスに対して推論を行う。 これにより、オブジェクト検出器の受信フィールドは、小さな欠陥インスタンスをキャプチャするのにより効果的になる。 まず,これまでに検討した半導体データセットの性能を様々な構成でベンチマークし,SAHI法により小さな欠陥の検出を近似により大幅に向上することを示した。 2倍。 その後、トレーニング中にシナリオが発生しなかった新しいテストデータセットに対して、SAHIの適用が欠陥のない検出率につながることを実証した。 最後に、真陽性予測を著しく減らすことなく偽陽性予測を排除できるsahiの拡張を定式化する。

In semiconductor manufacturing, lithography has often been the manufacturing step defining the smallest possible pattern dimensions. In recent years, progress has been made towards high-NA (Numerical Aperture) EUVL (Extreme-Ultraviolet-Lithography) paradigm, which promises to advance pattern shrinking (2 nm node and beyond). However, a significant increase in stochastic defects and the complexity of defect detection becomes more pronounced with high-NA. Present defect inspection techniques (both non-machine learning and machine learning based), fail to achieve satisfactory performance at high-NA dimensions. In this work, we investigate the use of the Slicing Aided Hyper Inference (SAHI) framework for improving upon current techniques. Using SAHI, inference is performed on size-increased slices of the SEM images. This leads to the object detector's receptive field being more effective in capturing small defect instances. First, the performance on previously investigated semiconductor datasets is benchmarked across various configurations, and the SAHI approach is demonstrated to substantially enhance the detection of small defects, by approx. 2x. Afterwards, we also demonstrated application of SAHI leads to flawless detection rates on a new test dataset, with scenarios not encountered during training, whereas previous trained models failed. Finally, we formulate an extension of SAHI that does not significantly reduce true-positive predictions while eliminating false-positive predictions.
翻訳日:2023-11-22 12:16:21 公開日:2023-11-21
# 公共データを用いた最適局所的非パラメトリック分類

Optimal Locally Private Nonparametric Classification with Public Data ( http://arxiv.org/abs/2311.11369v2 )

ライセンス: Link先を確認
Yuheng Ma and Hanfang Yang(参考訳) 本研究では,非パラメトリック分類に着目し,非対話型ldp(local differential privacy)学習の課題について検討する。 後方ドリフト仮定の下では, LDP制約による最小収束率を初めて導出した。 そこで,本研究では,極小最大収束率を実現する新しい手法である局所プライベート分類木を提案する。 さらに,パラメータチューニングを回避し,高速収束推定器を生成するデータ駆動プルーニング手順を設計する。 合成および実データを用いた総合的な実験は,提案手法の優れた性能を示す。 理論的および実験的な結果は、プライベートデータと比較して公開データの有効性を示すものであり、非プライベートデータ収集の優先順位付けの実践的提案につながっている。

In this work, we investigate the problem of public data-assisted non-interactive LDP (Local Differential Privacy) learning with a focus on non-parametric classification. Under the posterior drift assumption, we for the first time derive the mini-max optimal convergence rate with LDP constraint. Then, we present a novel approach, the locally private classification tree, which attains the mini-max optimal convergence rate. Furthermore, we design a data-driven pruning procedure that avoids parameter tuning and produces a fast converging estimator. Comprehensive experiments conducted on synthetic and real datasets show the superior performance of our proposed method. Both our theoretical and experimental findings demonstrate the effectiveness of public data compared to private data, which leads to practical suggestions for prioritizing non-private data collection.
翻訳日:2023-11-22 12:15:59 公開日:2023-11-21
# 手のひら印字認識のためのスケールアウェアコンペティションネットワーク

Scale-aware competition network for palmprint recognition ( http://arxiv.org/abs/2311.11354v2 )

ライセンス: Link先を確認
Chengrui Gao, Ziyuan Yang, Min Zhu, Andrew Beng Jin Teoh(参考訳) Palmprintのバイオメトリックスは、パームスキャンによる支払いと社会保障に注意を向けた。 しかし,テクスチャの寸法を無視して,テクスチャの配向を優先する手法が主流であった。 我々は,この制約を解消するために,イントラスケールとイントラスケールの機能を同時抽出する革新的なネットワークを設計した。 本稿では,ISCM(Inner-Scale Competition Module)とASCM(Across-Scale Competition Module)を含むSAC-Net(Scale-Aware competitive Network)を提案する。 ISCMは学習可能なGaborフィルタと自己認識機構を効率的に統合し、リッチな向きデータを抽出し、長距離識別特性を持つテクスチャを識別する。 その後、ASCMは様々なスケールの競争戦略を活用して、競合するテクスチャスケールの要素を効果的にカプセル化する。 iscm と ascm を併用することにより, パームプリントの特徴を特徴付ける。 3つのベンチマークデータセットにまたがる厳密な実験は、最先端の代替案と比較して、提案手法の例外的な認識性能と回復力を示している。

Palmprint biometrics garner heightened attention in palm-scanning payment and social security due to their distinctive attributes. However, prevailing methodologies singularly prioritize texture orientation, neglecting the significant texture scale dimension. We design an innovative network for concurrently extracting intra-scale and inter-scale features to redress this limitation. This paper proposes a scale-aware competitive network (SAC-Net), which includes the Inner-Scale Competition Module (ISCM) and the Across-Scale Competition Module (ASCM) to capture texture characteristics related to orientation and scale. ISCM efficiently integrates learnable Gabor filters and a self-attention mechanism to extract rich orientation data and discern textures with long-range discriminative properties. Subsequently, ASCM leverages a competitive strategy across various scales to effectively encapsulate the competitive texture scale elements. By synergizing ISCM and ASCM, our method adeptly characterizes palmprint features. Rigorous experimentation across three benchmark datasets unequivocally demonstrates our proposed approach's exceptional recognition performance and resilience relative to state-of-the-art alternatives.
翻訳日:2023-11-22 12:15:49 公開日:2023-11-21
# UMAAF:画像の多面的属性による美学の展開

UMAAF: Unveiling Aesthetics via Multifarious Attributes of Images ( http://arxiv.org/abs/2311.11306v2 )

ライセンス: Link先を確認
Weijie Li, Yitian Wan, Xingjiao Wu, Junjie Xu, Cheng Jin, Liang He(参考訳) スマートフォンやウェブサイトの普及に伴い、画像美容アセスメント(IAA)はますます重要になっている。 IAAにおける属性の重要性は広く認識されているが、多くの属性に基づく手法では美的属性の選択と利用について考慮されていない。 最初のステップは、パースペクティブとインタースペクティブの両方から美的属性を取得することです。 本研究では,画像の直接的視覚特性を抽出し,絶対的属性を構成する。 inter-perspectiveでは、同じシーケンス内の画像間の相対スコア関係をモデル化し、相対属性を形成することに重点を置いている。 次に,画像属性の美的評価をよりよく活用するために,画像の絶対的属性と相対的属性の両方をモデル化する統一多属性美的評価フレームワーク(umaaf)を提案する。 絶対属性に対しては,複数の絶対属性認識モジュールと絶対属性相互作用ネットワークを利用する。 絶対属性認識モジュールは、まずいくつかの絶対属性学習タスクで事前訓練され、その後、対応する絶対属性の特徴を抽出するために使用される。 絶対属性相互作用ネットワークは、多様な絶対属性特徴の重みを適応的に学習し、それらを様々な絶対属性視点から汎用的な美的特徴と効果的に統合し、美的予測を生成する。 画像の相対的属性をモデル化するために,画像間の相対的ランク付けと相対的距離関係を相対的相関損失関数で検討し,umaafのロバスト性を高める。 さらに、umaaf は tad66k と ava データセットで最先端のパフォーマンスを実現し、複数の実験で各モジュールの有効性とモデルの人間好みとの整合を実証した。

With the increasing prevalence of smartphones and websites, Image Aesthetic Assessment (IAA) has become increasingly crucial. While the significance of attributes in IAA is widely recognized, many attribute-based methods lack consideration for the selection and utilization of aesthetic attributes. Our initial step involves the acquisition of aesthetic attributes from both intra- and inter-perspectives. Within the intra-perspective, we extract the direct visual attributes of images, constituting the absolute attribute. In the inter-perspective, our focus lies in modeling the relative score relationships between images within the same sequence, forming the relative attribute. Then, to better utilize image attributes in aesthetic assessment, we propose the Unified Multi-attribute Aesthetic Assessment Framework (UMAAF) to model both absolute and relative attributes of images. For absolute attributes, we leverage multiple absolute-attribute perception modules and an absolute-attribute interacting network. The absolute-attribute perception modules are first pre-trained on several absolute-attribute learning tasks and then used to extract corresponding absolute attribute features. The absolute-attribute interacting network adaptively learns the weight of diverse absolute-attribute features, effectively integrating them with generic aesthetic features from various absolute-attribute perspectives and generating the aesthetic prediction. To model the relative attribute of images, we consider the relative ranking and relative distance relationships between images in a Relative-Relation Loss function, which boosts the robustness of the UMAAF. Furthermore, UMAAF achieves state-of-the-art performance on TAD66K and AVA datasets, and multiple experiments demonstrate the effectiveness of each module and the model's alignment with human preference.
翻訳日:2023-11-22 12:15:28 公開日:2023-11-21