このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240131となっている論文です。

PDF登録状況(公開日: 20240131)

TitleAuthorsAbstract論文公表日・翻訳日
# QUICによる触覚インターネットの高速化 - セキュリティとプライバシの観点から

Accelerating Tactile Internet with QUIC: A Security and Privacy Perspective ( http://arxiv.org/abs/2401.06657v2 )

ライセンス: Link先を確認
Jayasree Sengupta, Debasmita Dey, Simone Ferlin, Nirnay Ghosh, Vaibhav Bajpai, (参考訳) Tactile Internetパラダイムは、超信頼性、低レイテンシネットワーク上でのスキルセットのデリバリと触覚コミュニケーションを可能にすることで、人間の社会に革命をもたらす。 新たな第6世代(6G)モバイル通信システムは,このTactile Internetエコシステムを,ユビキタスなグローバル接続を提供することによって,ネットワークエッジに基盤を置くことを想定している。 しかし、Tactile Internetの多くの機会とは別に、セキュリティとプライバシの課題が目の前に浮かび上がっている。 最近標準化されたQUICプロトコルは、エンドツーエンドの暗号化とラウンドトリップ遅延の低減が特徴であり、Tactile Internetのバックボーンとして機能すると考えている。 本稿では,QUIC 対応ネットワークが基盤となる 6G 通信インフラを利用して,Tactile Internet の要求を満たす,未来的なシナリオを思い起こさせる。 興味深いことに、これはQUICの幅広いセキュリティとプライバシの課題を深く調査する必要がある。 この記事では、QUICにおける既存のセキュリティおよびプライバシ攻撃とそのユーザへの影響についてレビューする。 それを受けて、我々は最先端の攻撃緩和戦略について議論し、今後の作業の方向性についていくつかの欠点について検討する。

The Tactile Internet paradigm is set to revolutionize human society by enabling skill-set delivery and haptic communication over ultra-reliable, low-latency networks. The emerging sixth-generation (6G) mobile communication systems are envisioned to underpin this Tactile Internet ecosystem at the network edge by providing ubiquitous global connectivity. However, apart from a multitude of opportunities of the Tactile Internet, security and privacy challenges emerge at the forefront. We believe that the recently standardized QUIC protocol, characterized by end-to-end encryption and reduced round-trip delay would serve as the backbone of Tactile Internet. In this article, we envision a futuristic scenario where a QUIC-enabled network uses the underlying 6G communication infrastructure to achieve the requirements for Tactile Internet. Interestingly this requires a deeper investigation of a wide range of security and privacy challenges in QUIC, that need to be mitigated for its adoption in Tactile Internet. Henceforth, this article reviews the existing security and privacy attacks in QUIC and their implication on users. Followed by that, we discuss state-of-the-art attack mitigation strategies and investigate some of their drawbacks with possible directions for future work
翻訳日:2024-03-25 12:37:32 公開日:2024-01-31
# モノのインターネットのためのポスト量子暗号:パフォーマンスと最適化に関する調査

Post-Quantum Cryptography for Internet of Things: A Survey on Performance and Optimization ( http://arxiv.org/abs/2401.17538v1 )

ライセンス: Link先を確認
Tao Liu, Gowri Ramachandran, Raja Jurdak, (参考訳) 近年の量子コンピューティングの発展により、大規模な量子コンピュータの発明はもはや遠い未来ではない。 量子コンピューティングは、古典的な公開鍵暗号システムの下の難解な数学的問題を十分に大きな量子コンピュータで簡単に解くことができるため、現代の暗号を著しく脅かす。 そのため、研究者は量子コンピュータでさえ効率的に解けない問題に基づいてPQCを提案している。 一般に、量子後暗号化とシグネチャの計算は困難である。 これは、通常は計算能力に制限のある軽量デバイスで構成されているIoTにとって問題になる可能性がある。 本稿では,資源制約のあるデバイスにおけるPQCの性能に関する既存の文献を調査し,この問題の深刻さを理解する。 また、資源制約のあるデバイスに対するPQCアルゴリズムの最適化に関する最近の提案についてもレビューする。 全体としては、PQCは合理的に軽量なIoTでは実現可能だが、最適化の提案には標準化が欠如しているようだ。 そのため、今後の研究は、ポスト量子時代のIoTへの効率的かつ安全なマイグレーションを確保するために、コーディネートを求めることを提案する。

Due to recent development in quantum computing, the invention of a large quantum computer is no longer a distant future. Quantum computing severely threatens modern cryptography, as the hard mathematical problems beneath classic public-key cryptosystems can be solved easily by a sufficiently large quantum computer. As such, researchers have proposed PQC based on problems that even quantum computers cannot efficiently solve. Generally, post-quantum encryption and signatures can be hard to compute. This could potentially be a problem for IoT, which usually consist lightweight devices with limited computational power. In this paper, we survey existing literature on the performance for PQC in resource-constrained devices to understand the severeness of this problem. We also review recent proposals to optimize PQC algorithms for resource-constrained devices. Overall, we find that whilst PQC may be feasible for reasonably lightweight IoT, proposals for their optimization seem to lack standardization. As such, we suggest future research to seek coordination, in order to ensure an efficient and safe migration toward IoT for the post-quantum era.
翻訳日:2024-03-25 12:17:56 公開日:2024-01-31
# Bitcoinの銘文: 基礎とそれ以上

Bitcoin Inscriptions: Foundations and Beyond ( http://arxiv.org/abs/2401.17581v1 )

ライセンス: Link先を確認
Ningran Li, Minfeng Qi, Qin Wang, Shiping Chen, (参考訳) Bitcoinの銘文は、ブロックチェーン技術における重要な瞬間だ。 このレポートはBitcoinの銘文を主に調査している。 技術的基盤を掘り下げて、他のブロックチェーン上のBitcoinの銘文とNFTの詳細な比較分析を提供しています。 さらに、インプリントデリバティブプロトコル、Bitcoin Layer2ソリューション、相互運用性技術など、将来のイノベーションのための幅広いユースケースと重要な機会について検討する。

Bitcoin inscription marks a pivotal moment in blockchain technology. This report presents a primary exploration of Bitcoin inscriptions. We dive into the technological underpinnings and offer a detailed comparative analysis between Bitcoin inscriptions and NFTs on other blockchains. Further, we explore a wide range of use cases and significant opportunities for future innovation, including inscription derivative protocols, Bitcoin Layer2 solutions, and interoperability techniques.
翻訳日:2024-03-25 12:08:11 公開日:2024-01-31
# あらゆる面からのAmbush: オープンソースソフトウェアCI/CDパイプラインにおけるセキュリティ脅威の理解

Ambush from All Sides: Understanding Security Threats in Open-Source Software CI/CD Pipelines ( http://arxiv.org/abs/2401.17606v1 )

ライセンス: Link先を確認
Ziyue Pan, Wenbo Shen, Xingkai Wang, Yutian Yang, Rui Chang, Yao Liu, Chengwei Liu, Yang Liu, Kui Ren, (参考訳) 継続的インテグレーションと継続的デプロイメント(CI/CD)パイプラインは、GitHubなどのインターネットホスティングプラットフォームで広く採用されている。 CI/CDパイプラインの人気により、さまざまなセキュリティ脅威に直面している。 しかし、現在のCI/CDパイプラインは悪意のあるコードと深刻な脆弱性に悩まされている。 さらに悪いことに、人々は攻撃面とそれに対応する影響を十分に認識していない。 そこで本稿では,CI/CDパイプラインの攻撃面を明らかにし,セキュリティへの影響を定量化するために,大規模測定と系統解析を行う。 具体的には、32万以上のCI/CDパイプライン構成のGitHubリポジトリのデータセットを収集し、CI/CDパイプラインを解析してセキュリティクリティカルな使用例を抽出するための分析ツールを構築します。 さらに、現在のCI/CDエコシステムは、いくつかのコアスクリプトに大きく依存しているため、単一障害点につながる可能性がある。 CI/CDパイプラインには機密情報/運用が含まれており、攻撃者のお気に入りのターゲットとなっている。 測定結果から着想を得て,CI/CDパイプラインに対する脅威モデルと攻撃アプローチを抽象化し,続いて攻撃面,攻撃戦略,およびそれに対応する影響の系統的解析を行った。 さらに,実世界のCI/CD環境における5つの攻撃のケーススタディをローンチし,攻撃面を検証した。 最後に、CI/CD設定のセキュア化、CI/CDスクリプトのセキュア化、CI/CDインフラストラクチャの改善など、CI/CDスクリプトに対する攻撃の軽減について提案する。

The continuous integration and continuous deployment (CI/CD) pipelines are widely adopted on Internet hosting platforms, such as GitHub. With the popularity, the CI/CD pipeline faces various security threats. However, current CI/CD pipelines suffer from malicious code and severe vulnerabilities. Even worse, people have not been fully aware of its attack surfaces and the corresponding impacts. Therefore, in this paper, we conduct a large-scale measurement and a systematic analysis to reveal the attack surfaces of the CI/CD pipeline and quantify their security impacts. Specifically, for the measurement, we collect a data set of 320,000+ CI/CD pipeline-configured GitHub repositories and build an analysis tool to parse the CI/CD pipelines and extract security-critical usages. Besides, current CI/CD ecosystem heavily relies on several core scripts, which may lead to a single point of failure. While the CI/CD pipelines contain sensitive information/operations, making them the attacker's favorite targets. Inspired by the measurement findings, we abstract the threat model and the attack approach toward CI/CD pipelines, followed by a systematic analysis of attack surfaces, attack strategies, and the corresponding impacts. We further launch case studies on five attacks in real-world CI/CD environments to validate the revealed attack surfaces. Finally, we give suggestions on mitigating attacks on CI/CD scripts, including securing CI/CD configurations, securing CI/CD scripts, and improving CI/CD infrastructure.
翻訳日:2024-03-25 12:08:11 公開日:2024-01-31
# Beyond Control: Linuxシステムにおけるデータオンリーアタックのための新しいファイルシステムオブジェクトの探索

Beyond Control: Exploring Novel File System Objects for Data-Only Attacks on Linux Systems ( http://arxiv.org/abs/2401.17618v1 )

ライセンス: Link先を確認
Jinmeng Zhou, Jiayi Hu, Ziyue Pan, Jiaxun Zhu, Guoren Li, Wenbo Shen, Yulei Sui, Zhiyun Qian, (参考訳) 制御フローの整合性の広範な展開は、制御不能なデータ攻撃を主流に押し込んだ。 OSカーネルのドメインでは、重要な非制御データを破損させることで、ローカルアタッカーは制御フローをハイジャックすることなく、直接ルートアクセスまたは特権エスカレーションを得ることができる。 結果として、OSカーネルはそのような非制御データの利用を制限してきた。 これにより、攻撃者はOSカーネル内でより悪用可能な非制御データを探し続けることを余儀なくされる。 しかし、未知の非制御データの発見は、しばしば意味論に強く結びついており、普遍的なパターンが欠如しているため、非常に困難である。 本稿では,(1)ファイルサブシステムにおける重要な非制御オブジェクトの発見と,(2)攻撃性の分析を行う。 この研究は、最小限のドメイン知識を持つ最初の研究であり、Linuxカーネルのファイルサブシステム内で、利用可能な非制御データを半自動で発見し、評価する。 我々のソリューションは、将来有望な候補オブジェクトを静的かつ動的に識別するカスタム分析およびテストフレームワークを利用する。 さらに,これらの発見対象を,これらの対象の多くを隔離する防衛を克服するために必要な新しい戦略を含む,様々な攻撃戦略に適したタイプに分類する。 これらのオブジェクトは KASLR を必要とせずに利用することができるという利点があるため、エクスプロイトはよりシンプルで信頼性が高い。 我々は18の現実世界のCVEを用いて、様々なエクスプロイト戦略を用いてファイルシステムオブジェクトのエクスプロイラビリティを評価する。 我々はカーネルに対してCVEのサブセットを使用して10のエンドツーエンドエクスプロイトを開発する。

The widespread deployment of control-flow integrity has propelled non-control data attacks into the mainstream. In the domain of OS kernel exploits, by corrupting critical non-control data, local attackers can directly gain root access or privilege escalation without hijacking the control flow. As a result, OS kernels have been restricting the availability of such non-control data. This forces attackers to continue to search for more exploitable non-control data in OS kernels. However, discovering unknown non-control data can be daunting because they are often tied heavily to semantics and lack universal patterns. We make two contributions in this paper: (1) discover critical non-control objects in the file subsystem and (2) analyze their exploitability. This work represents the first study, with minimal domain knowledge, to semi-automatically discover and evaluate exploitable non-control data within the file subsystem of the Linux kernel. Our solution utilizes a custom analysis and testing framework that statically and dynamically identifies promising candidate objects. Furthermore, we categorize these discovered objects into types that are suitable for various exploit strategies, including a novel strategy necessary to overcome the defense that isolates many of these objects. These objects have the advantage of being exploitable without requiring KASLR, thus making the exploits simpler and more reliable. We use 18 real-world CVEs to evaluate the exploitability of the file system objects using various exploit strategies. We develop 10 end-to-end exploits using a subset of CVEs against the kernel with all state-of-the-art mitigations enabled.
翻訳日:2024-03-25 12:08:11 公開日:2024-01-31
# Elephantsは忘れない: プライバシ予算のための状態継続を伴う差別的プライバシ

Elephants Do Not Forget: Differential Privacy with State Continuity for Privacy Budget ( http://arxiv.org/abs/2401.17628v1 )

ライセンス: Link先を確認
Jiankai Jin, Chitchanok Chuengsatiansup, Toby Murray, Benjamin I. P. Rubinstein, Yuval Yarom, Olga Ohrimenko, (参考訳) 差分的プライベート(DP)システムの現在の実装では、データセットで消費されるグローバルプライバシ予算を追跡するためのサポートが欠如しているか、あるいは、この予算の状態を忠実に維持できないかのいずれかである。 プライバシ予算の維持に失敗したことで、対戦相手がリプレイやロールバック、フォーク攻撃をマウントできるようになります。 その結果、攻撃者はDPが保護しようとする秘密データを再構築することができる。 本研究では,グローバルDPモデルにおいて,信頼できるキュレーターと同じ保証を提供するシステムであるElephantDPを提案する。 我々のシステムは、プライバシー予算を保護するための状態継続モジュールと、DPコードを忠実に実行し、予算を更新するTEEに依存しています。 セキュリティを確保するため,提案プロトコルは,永続状態の内容や,予算更新とクエリ応答の順序など,いくつかの設計上の選択を行う。 我々は、ElephantDPがライブ性(すなわち、プロトコルが正しい状態から再起動し、予算を越えない限りクエリに応答できる)とDPの機密性(すなわち、攻撃者は信頼できるキュレーターと対話するのと同じくらいデータセットについて学習する)を提供することを証明した。 このプロトコルの実装と評価では、TEEとしてIntel SGXを使用してDPコードとTEEのネットワークを実行し、状態継続性を維持する。 安全でないベースラインと比較して、大きなデータセットと複雑なDPクエリに対して、オーバーヘッドは1.1-2$\times$で、相対オーバーヘッドは低い。

Current implementations of differentially-private (DP) systems either lack support to track the global privacy budget consumed on a dataset, or fail to faithfully maintain the state continuity of this budget. We show that failure to maintain a privacy budget enables an adversary to mount replay, rollback and fork attacks - obtaining answers to many more queries than what a secure system would allow. As a result the attacker can reconstruct secret data that DP aims to protect - even if DP code runs in a Trusted Execution Environment (TEE). We propose ElephantDP, a system that aims to provide the same guarantees as a trusted curator in the global DP model would, albeit set in an untrusted environment. Our system relies on a state continuity module to provide protection for the privacy budget and a TEE to faithfully execute DP code and update the budget. To provide security, our protocol makes several design choices including the content of the persistent state and the order between budget updates and query answers. We prove that ElephantDP provides liveness (i.e., the protocol can restart from a correct state and respond to queries as long as the budget is not exceeded) and DP confidentiality (i.e., an attacker learns about a dataset as much as it would from interacting with a trusted curator). Our implementation and evaluation of the protocol use Intel SGX as a TEE to run the DP code and a network of TEEs to maintain state continuity. Compared to an insecure baseline, we observe only 1.1-2$\times$ overheads and lower relative overheads for larger datasets and complex DP queries.
翻訳日:2024-03-25 12:08:11 公開日:2024-01-31
# 蒸留法に基づくフェデレーション学習におけるロジット中毒とその対策

Logit Poisoning Attack in Distillation-based Federated Learning and its Countermeasures ( http://arxiv.org/abs/2401.17746v1 )

ライセンス: Link先を確認
Yonghao Yu, Shunan Zhu, Jinglu Hu, (参考訳) 蒸留ベースのフェデレーション学習は、クライアントがプライベートモデルパラメータではなく、パブリックデータセットの出力ロジットベクトルを共有する、有望なコラボレーティブな学習アプローチとして登場した。 このプラクティスは、プライバシー侵害のリスクを低減し、異種学習を促進する。 蒸留に基づくフェデレート学習における中毒攻撃の状況は複雑であり、既存の研究ではモデルのパラメータをターゲットとした従来のデータ中毒戦略を採用している。 しかしながら、これらの攻撃方式は主に、ロジットベクトルではなくモデルパラメータをターゲットとする、元の設計に根ざした欠点がある。 さらに,情報伝達過程において,情報伝達におけるロジットベクトルの役割を十分に考慮していない。 このミスアライメントは、蒸留に基づくフェデレート学習の文脈における効率を低下させる。 既存の方法論の限界により、我々の研究はロジットベクトルの本質的な性質を解明し、より微妙な理解を目指しています。 これまでの問題点に対処するため,ロジト中毒攻撃のための2段階スキームを導入する。 まず、ローカルロジットを収集し、代表ベクトルを生成し、ベクトル内のロジット要素を分類し、情報エントロピーを最大化するシャッフルテーブルを設計する。 次に,シャッフルされたロジットベクトルを意図的に拡張し,対象ベクトルの大きさを拡大する。 同時に,利用者がアップロードしたベクターとベクターとの距離を計算し,この新たな毒殺対策を効果的に行うことを提案する。 本研究は広範な実験を通じて,ロジト中毒攻撃による重大な脅威を明らかにし,防衛アルゴリズムの有効性を強調した。

Distillation-based federated learning has emerged as a promising collaborative learning approach, where clients share the output logit vectors of a public dataset rather than their private model parameters. This practice reduces the risk of privacy invasion attacks and facilitates heterogeneous learning. The landscape of poisoning attacks within distillation-based federated learning is complex, with existing research employing traditional data poisoning strategies targeting the models' parameters. However, these attack schemes primarily have shortcomings rooted in their original designs, which target the model parameters rather than the logit vectors. Furthermore, they do not adequately consider the role of logit vectors in carrying information during the knowledge transfer process. This misalignment results in less efficiency in the context of distillation-based federated learning. Due to the limitations of existing methodologies, our research delves into the intrinsic properties of the logit vector, striving for a more nuanced understanding. We introduce a two-stage scheme for logit poisoning attacks, addressing previous shortcomings. Initially, we collect the local logits, generate the representative vectors, categorize the logit elements within the vector, and design a shuffling table to maximize information entropy. Then, we intentionally scale the shuffled logit vectors to enhance the magnitude of the target vectors. Concurrently, we propose an efficient defense algorithm to counter this new poisoning scheme by calculating the distance between estimated benign vectors and vectors uploaded by users. Through extensive experiments, our study illustrates the significant threat posed by the proposed logit poisoning attack and highlights the effectiveness of our defense algorithm.
翻訳日:2024-03-25 12:08:11 公開日:2024-01-31
# GuardFS: Linuxベースのランサムウェアの総合的検出と緩和のためのファイルシステム

GuardFS: a File System for Integrated Detection and Mitigation of Linux-based Ransomware ( http://arxiv.org/abs/2401.17917v1 )

ライセンス: Link先を確認
Jan von der Assen, Chao Feng, Alberto Huertas Celdrán, Róbert Oleš, Gérôme Bovet, Burkhard Stiller, (参考訳) ランサムウェアはメディアや研究で広く注目を集めているが、この進化する脅威ベクトルは依然として体系的な脅威となっている。 関連文献は、機械学習とディープラーニングを利用した様々なアプローチを用いて、それらの検出を調査してきた。 これらのアプローチはマルウェアを検出するのに有効であるが、脅威から保護するためにこのインテリジェンスを使用する方法には答えず、敵対的な環境におけるそれらの適用性に対する懸念を提起する。 緩和に焦点を絞ったソリューションは、特にLinuxベースのサンプルを考慮して、単に警告や実行の停止を防ぎ、防止する方法を調査することは滅多にない。 本稿では,ランサムウェアの検出と緩和の統合をファイルシステムベースで検討するGuardFSを提案する。 bespokeオーバーレイファイルシステムを使用して、ファイルにアクセスする前にデータを抽出する。 このデータに基づいてトレーニングされたモデルは、ファイルシステムへのアクセスを難なくし、遅延し、追跡する3つの新しい防御構成によって使用される。 GuardFSの実験では、リアクティブな設定で設定をテストする。 その結果,データ損失を完全に防止することはできないが,著しく低減できることがわかった。 ユーザビリティとパフォーマンス分析は、構成の防衛効果がリソース消費とユーザビリティに与える影響に関連していることを示している。

Although ransomware has received broad attention in media and research, this evolving threat vector still poses a systematic threat. Related literature has explored their detection using various approaches leveraging Machine and Deep Learning. While these approaches are effective in detecting malware, they do not answer how to use this intelligence to protect against threats, raising concerns about their applicability in a hostile environment. Solutions that focus on mitigation rarely explore how to prevent and not just alert or halt its execution, especially when considering Linux-based samples. This paper presents GuardFS, a file system-based approach to investigate the integration of detection and mitigation of ransomware. Using a bespoke overlay file system, data is extracted before files are accessed. Models trained on this data are used by three novel defense configurations that obfuscate, delay, or track access to the file system. The experiments on GuardFS test the configurations in a reactive setting. The results demonstrate that although data loss cannot be completely prevented, it can be significantly reduced. Usability and performance analysis demonstrate that the defense effectiveness of the configurations relates to their impact on resource consumption and usability.
翻訳日:2024-03-25 12:08:11 公開日:2024-01-31
# プライベート人口データリリースメカニズムのベンチマーク:Synthetic Data vs. TopDown

Benchmarking Private Population Data Release Mechanisms: Synthetic Data vs. TopDown ( http://arxiv.org/abs/2401.18024v1 )

ライセンス: Link先を確認
Aadyaa Maddi, Swadhin Routray, Alexander Goldberg, Giulia Fanti, (参考訳) 差分プライバシー(DP)は、国勢調査データのような階層的で表層的な人口データのリリースを保護するために、ますます使われてきている。 この設定でDPを実装するための一般的なアプローチは、事前定義されたクエリセットに対するノイズの多い応答をリリースすることである。 例えば、これは米国国勢調査局が使用しているTopDownアルゴリズムのアプローチである。 このようなメソッドには、最適化されていないクエリに応答できないという、重大な欠点がある。 魅力的な代替手段は、ある生成分布から引き出されたDP合成データを生成することである。 TopDownの方法と同じように、合成データは特定のクエリに応答するように最適化することもできる。 我々の知る限りでは、これらのアプローチの試行錯誤的な比較は行われていない。 本研究では、TopDownアルゴリズムとプライベート合成データ生成の比較を行い、クエリの複雑さ、分散内と分散外クエリ、プライバシ保証による精度への影響を判定する。 この結果から,TopDownアルゴリズムは,提案した合成データ手法よりもはるかに優れたプライバシ-忠実トレードオフを実現していることが明らかとなった。 本研究は,臨床医と総合データ研究コミュニティのガイドラインを示唆するものである。

Differential privacy (DP) is increasingly used to protect the release of hierarchical, tabular population data, such as census data. A common approach for implementing DP in this setting is to release noisy responses to a predefined set of queries. For example, this is the approach of the TopDown algorithm used by the US Census Bureau. Such methods have an important shortcoming: they cannot answer queries for which they were not optimized. An appealing alternative is to generate DP synthetic data, which is drawn from some generating distribution. Like the TopDown method, synthetic data can also be optimized to answer specific queries, while also allowing the data user to later submit arbitrary queries over the synthetic population data. To our knowledge, there has not been a head-to-head empirical comparison of these approaches. This study conducts such a comparison between the TopDown algorithm and private synthetic data generation to determine how accuracy is affected by query complexity, in-distribution vs. out-of-distribution queries, and privacy guarantees. Our results show that for in-distribution queries, the TopDown algorithm achieves significantly better privacy-fidelity tradeoffs than any of the synthetic data methods we evaluated; for instance, in our experiments, TopDown achieved at least $20\times$ lower error on counting queries than the leading synthetic data method at the same privacy budget. Our findings suggest guidelines for practitioners and the synthetic data research community.
翻訳日:2024-03-25 12:08:11 公開日:2024-01-31
# TLS, X.509証明書, Web PKIの計測方法: チュートリアルと簡単な調査

How to Measure TLS, X.509 Certificates, and Web PKI: A Tutorial and Brief Survey ( http://arxiv.org/abs/2401.18053v1 )

ライセンス: Link先を確認
Pouyan Fotouhi Tehrani, Eric Osterweil, Thomas C. Schmidt, Matthias Wählisch, (参考訳) トランスポート層セキュリティ(TLS)は、エンドツーエンドのセキュリティを実現するための多くのインターネットアプリケーションとサービスの基盤である。 本稿では,X.509証明書やWeb PKIなど,TLSデプロイメントの計測方法に関するガイダンスを提供する。 一般的なデータソースとツールを導入し、音響測定とデータ分析を行うために必要なステップを体系的に記述する。 以前のTLS測定研究を調査することで、異なるデプロイメントではなく、むしろ異なるセットアップに、ばらつきの結果が根付いていることがわかりました。 状況を改善するために,一般的な落とし穴を特定し,TLSおよびWeb PKI測定を記述するためのフレームワークを導入する。 必要ならば、私たちの洞察はデータ駆動アプローチによって支えられ、さらなる測定によって議論を補完します。

Transport Layer Security (TLS) is the base for many Internet applications and services to achieve end-to-end security. In this paper, we provide guidance on how to measure TLS deployments, including X.509 certificates and Web PKI. We introduce common data sources and tools, and systematically describe necessary steps to conduct sound measurements and data analysis. By surveying prior TLS measurement studies we find that diverging results are rather rooted in different setups instead of different deployments. To improve the situation, we identify common pitfalls and introduce a framework to describe TLS and Web PKI measurements. Where necessary, our insights are bolstered by a data-driven approach, in which we complement arguments by additional measurements.
翻訳日:2024-03-25 12:08:11 公開日:2024-01-31
# 層状検査におけるカストディのエビデンス・タンパリングと連鎖

Evidence Tampering and Chain of Custody in Layered Attestations ( http://arxiv.org/abs/2402.00203v1 )

ライセンス: Link先を確認
Ian D. Kretz, Clare C. Parran, John D. Ramsdell, Paul D. Rowe, (参考訳) 分散システムにおいて、信頼決定は、遠隔検定によって生成される完全性証明に基づいて行われる。 収集される可能性のあるエビデンスには、ブートタイムイメージハッシュ値、ユーザ空間アプリケーションの初期化ファイルの指紋、実行中のカーネルの包括的な計測などがある。 層状証明では、エビデンスは通常、ターゲットシステム内の異なる信頼境界から取られたキーサブコンポーネントの測定から成り立っている。 離散的な測定証拠は、検査を総括する成分によって評価するためにまとめられる。 本稿では,遠隔検診におけるエビデンスチェーンの研究を開始する。 Copland attestation仕様言語を用いて、ターゲットシステム上でアクティブな実行時敵が測定証拠を改ざんできる条件を正式に定義する。 提案手法は, 証拠が検出されることなく, 証拠を改ざんできる「戦略」を改ざんするだけでなく, 証拠を改ざんするための全ての改ざん機会を識別するアルゴリズムを提案する。 次に、コプランド仕様の証明を最大タンパー抵抗版に変換する手順を定義する。 私たちの取り組みは、証明プロトコルの設計者が、可能な限り最小かつ最も信頼できるコンポーネントの集合に機会を阻害する証拠を減らすことを支援することを目的としています。

In distributed systems, trust decisions are made on the basis of integrity evidence generated via remote attestation. Examples of the kinds of evidence that might be collected are boot time image hash values; fingerprints of initialization files for userspace applications; and a comprehensive measurement of a running kernel. In layered attestations, evidence is typically composed of measurements of key subcomponents taken from different trust boundaries within a target system. Discrete measurement evidence is bundled together for appraisal by the components that collectively perform the attestation. In this paper, we initiate the study of evidence chain of custody for remote attestation. Using the Copland attestation specification language, we formally define the conditions under which a runtime adversary active on the target system can tamper with measurement evidence. We present algorithms for identifying all such tampering opportunities for given evidence as well as tampering "strategies" by which an adversary can modify incriminating evidence without being detected. We then define a procedure for transforming a Copland-specified attestation into a maximally tamper-resistant version of itself. Our efforts are intended to help attestation protocol designers ensure their protocols reduce evidence tampering opportunities to the smallest, most trustworthy set of components possible.
翻訳日:2024-03-25 12:08:11 公開日:2024-01-31
# MOD-CL:制約付きロスによる複数ラベルオブジェクト検出

MOD-CL: Multi-label Object Detection with Constrained Loss ( http://arxiv.org/abs/2403.07885v1 )

ライセンス: Link先を確認
Sota Moriyama, Koji Watanabe, Katsumi Inoue, Akihiro Takemura, (参考訳) トレーニングプロセスにおける制約付き損失を利用して、与えられた要求を満たす出力を生成するマルチラベルオブジェクト検出フレームワークであるMOD-CLを紹介する。 本稿では, 最先端のオブジェクト検出モデル YOLOv8 上に構築されたマルチラベルオブジェクト検出モデルである $\mathrm{MOD_{YOLO}}$ を用いている。 タスク1では、オブジェクト検出プロセスの後に続く2つの新しいモデルであるCorrector ModelとBlender Modelを導入し、より制約のある出力を生成する。 Task 2では、Product T-Normを使用した$\mathrm{MOD_{YOLO}}$アーキテクチャに制約付き損失が組み込まれています。 その結果,これらの実装はタスク1とタスク2の両方のスコアを改善するのに有効であることが示唆された。

We introduce MOD-CL, a multi-label object detection framework that utilizes constrained loss in the training process to produce outputs that better satisfy the given requirements. In this paper, we use $\mathrm{MOD_{YOLO}}$, a multi-label object detection model built upon the state-of-the-art object detection model YOLOv8, which has been published in recent years. In Task 1, we introduce the Corrector Model and Blender Model, two new models that follow after the object detection process, aiming to generate a more constrained output. For Task 2, constrained losses have been incorporated into the $\mathrm{MOD_{YOLO}}$ architecture using Product T-Norm. The results show that these implementations are instrumental to improving the scores for both Task 1 and Task 2.
翻訳日:2024-03-25 08:27:08 公開日:2024-01-31
# オントログア・パラ・モニターar a deficiência mental em seus déficts no processamento da informação por declínio cognitivo e e evitar agressies psicológicas e físicas em ambientes educacionais com ajuda da I.A*

Ontologia para monitorar a deficiência mental em seus déficts no processamento da informação por declínio cognitivo e evitar agressões psicológicas e físicas em ambientes educacionais com ajuda da I.A* ( http://arxiv.org/abs/2403.08795v1 )

ライセンス: Link先を確認
Bruna Araújo de Castro Oliveira, (参考訳) 本研究の目的は,学校環境における破滅的な結果を防ぐために,UFOオントロジーによる言語的・身体的攻撃の出現を検知する人工知能の利用を提案することである。

The intention of this article is to propose the use of artificial intelligence to detect through analysis by UFO ontology the emergence of verbal and physical aggression related to psychosocial deficiencies and their provoking agents, in an attempt to prevent catastrophic consequences within school environments.
翻訳日:2024-03-25 08:16:13 公開日:2024-01-31
# 内部解析, 伸張技術およびバブリングジオメトリ

Interior analysis, stretched technique and bubbling geometries ( http://arxiv.org/abs/2312.16751v2 )

ライセンス: Link先を確認
Qiuye Jia, Hai Lin, (参考訳) 我々は、AdS漸近を持つ四分法BPSバブリング幾何学とその量子場理論側における双対状態との対応する双対関係を詳細に解析する。 一般化されたラプラス型方程式と、線形化されたモンゲ・アンペア方程式から得られる情報源を導出し、漸近的にAdS幾何学に使用する。 これにより、漸近的にAdSコンテキストに特有の解が得られる。 本研究では, 境界条件の徹底的な解析を行い, 境界条件を延伸面に課す拡張手法について検討する。 これらの境界条件は灰色の液滴を含む。 このストレッチされた手法は自然にスーパースターに使われ、ストレッチされた表面に灰色の液滴境界条件を配置する。 また,構成の粗粒化を行い,構成空間上のシンプレクティックな形状とその粗粒化を解析する。

We perform a detailed analysis of quarter BPS bubbling geometries with AdS asymptotics and their corresponding duality relations with their dual states in the quantum field theory side, among other aspects. We derive generalized Laplace-type equations with sources, obtained from linearized Monge-Ampere equations, and used for asymptotically AdS geometry. This enables us to obtain solutions specific to the asymptotically AdS context. We conduct a thorough analysis of boundary conditions and explore the stretched technique where boundary conditions are imposed on a stretched surface. These boundary conditions include grey droplets. This stretched technique is naturally used for the superstar, where we place grey droplet boundary conditions on the stretched surface. We also perform a coarse-graining of configurations and analyze the symplectic forms on the configuration space and their coarse-graining.
翻訳日:2024-03-18 11:18:35 公開日:2024-01-31
# ブロックチェーンコンセンサスの秘密を解き明かす: 証明の形式的セキュリティと証明の体系的比較

Unsealing the secrets of blockchain consensus: A systematic comparison of the formal security of proof-of-work and proof-of-stake ( http://arxiv.org/abs/2401.14527v2 )

ライセンス: Link先を確認
Iván Abellán Álvarez, Vincent Gramlich, Johannes Sedlmeir, (参考訳) さまざまな無許可のブロックチェーンネットワークに基づく分散型情報システムの採用の増加に伴い、コンセンサスメカニズムの選択は多くの議論の中心となっている。 Ethereumの最近の(PoW)から(PoS)ベースのコンセンサスへの移行は、どちらがより好ましいかという議論をさらに加速させた。 エネルギー消費の側面と(非)分散化の程度は公共の議論で強調されることが多いが、基礎研究は両方のアプローチの正式なセキュリティ面にも光を当てている。 しかし、関連する研究は、PoWとPoSのセキュリティ特性に関する知識を包括的に構造化していない。 むしろ、特定のプロトコルの詳細な分析や、幅広いコンセンサスメカニズムをカバーするハイレベルな比較レビューに焦点を当てている。 このギャップを埋め、PoWとPoSの正式なセキュリティ特性の共通点と相違点を明らかにするため、26以上の研究論文について体系的な文献レビューを行う。 以上の結果から,PoWをベースとした最長チェーンルールのコンセンサスによって,セキュリティ保証が最強であることが示唆された。 それでもPoSは、ハイブリッドアプローチによる安全性と生活性のトレードオフをより顕著に解決する上で、同様の保証を達成することができる。

With the increasing adoption of decentralized information systems based on a variety of permissionless blockchain networks, the choice of consensus mechanism is at the core of many controversial discussions. Ethereum's recent transition from (PoW) to proof-of-stake (PoS)-based consensus has further fueled the debate on which mechanism is more favorable. While the aspects of energy consumption and degree of (de-)centralization are often emphasized in the public discourse, seminal research has also shed light on the formal security aspects of both approaches individually. However, related work has not yet comprehensively structured the knowledge about the security properties of PoW and PoS. Rather, it has focused on in-depth analyses of specific protocols or high-level comparative reviews covering a broad range of consensus mechanisms. To fill this gap and unravel the commonalities and discrepancies between the formal security properties of PoW- and PoS-based consensus, we conduct a systematic literature review over 26 research articles. Our findings indicate that PoW-based consensus with the longest chain rule provides the strongest formal security guarantees. Nonetheless, PoS can achieve similar guarantees when addressing its more pronounced tradeoff between safety and liveness through hybrid approaches.
翻訳日:2024-03-18 08:07:41 公開日:2024-01-31
# アップ」はどこにある? アーム・コルテックス-Mシステムのセキュリティに関する総合的(ボトムアップ)研究

Where's the "up"?! A Comprehensive (bottom-up) Study on the Security of Arm Cortex-M Systems ( http://arxiv.org/abs/2401.15289v2 )

ライセンス: Link先を確認
Xi Tan, Zheyuan Ma, Sandro Pinto, Le Guan, Ning Zhang, Jun Xu, Zhiqiang Lin, Hongxin Hu, Ziming Zhao, (参考訳) Arm Cortex-Mプロセッサは組み込みおよびInternetof-Thingsデバイスの中で最も広く使われている32ビットマイクロコントローラである。 広く使われているにもかかわらず、ハードウェアのセキュリティ機能を要約し、ハードウェアとソフトウェアスタックの限界と脆弱性を特徴づけ、これらのシステムのセキュリティに関する研究を体系化する努力はほとんど行われていない。 本論文の目的と貢献は多岐にわたる。 まず、Cortex-Mシステムのハードウェアセキュリティの限界と問題を分析する。 第2に,Cortex-M向けに設計されたソフトウェアスタックの詳細な調査を行い,その限界を明らかにした。 第3に、Cortex-Mソフトウェアシステムにおける報告されたバグを分類する。 最後に,Cortex-Mシステムを保護するための取り組みを体系化し,それらが提供する保護,実行時のパフォーマンス,必要なハードウェア機能などの観点から評価する。 これらの知見に基づき、研究コミュニティとMCUソフトウェア開発者のための一連のレコメンデーションを開発する。

Arm Cortex-M processors are the most widely used 32-bit microcontrollers among embedded and Internetof-Things devices. Despite the widespread usage, there has been little effort in summarizing their hardware security features, characterizing the limitations and vulnerabilities of their hardware and software stack, and systematizing the research on securing these systems. The goals and contributions of this paper are multi-fold. First, we analyze the hardware security limitations and issues of Cortex-M systems. Second, we conducted a deep study of the software stack designed for Cortex-M and revealed its limitations, which is accompanied by an empirical analysis of 1,797 real-world firmware from seven hardware vendors. Third, we categorize the reported bugs in Cortex-M software systems. Finally, we systematize the efforts that aim at securing Cortex-M systems and evaluate them in terms of the protections they offer, run-time performance, required hardware features, etc. Based on the insights, we develop a set of recommendations for the research community and MCU software developers.
翻訳日:2024-03-18 08:07:41 公開日:2024-01-31
# 高性能bciシステムのための従来型および三極性脳波の比較検討

A Comparative Study of Conventional and Tripolar EEG for High-Performance Reach-to-Grasp BCI Systems ( http://arxiv.org/abs/2402.09448v1 )

ライセンス: Link先を確認
Ali Rabiee, Sima Ghafoori, Anna Cetera, Walter Besio, Reza Abiri(参考訳) 本研究の目的は、三極性脳波(tEEG)と従来の脳波(tEEG)の有効性を比較することで、運動障害のある個人に対するBCI応用を強化することである。 動力把握や精密把持などの様々な把持動作の解釈と復号に重点が置かれている。 目標は、どの脳波技術が関連する神経信号を処理し、翻訳するのにより効果的かを決定することである。 このアプローチでは、パワー把握と精度把握という2つの異なる把持動作を行った健康な参加者10人を対象に実験を行った。 本研究は,脳波とtEEGの解読動作における徹底的な比較を示す。 この比較は、信号対雑音比(SNR)、機能接続による空間分解能、ERP、ウェーブレット時間周波数分析など、いくつかの重要なパラメータにまたがる。 さらに,ウェーブレット係数から統計的特徴を抽出・解析し,二分法および多クラス分類法を併用した。 4つの機械学習アルゴリズムがデコードアキュラティの評価に用いられた。 以上の結果から,tEEGは従来の脳波よりも様々な面で優れた性能を示した。 これには、高信号対雑音比、空間分解能の向上、ERPおよびウェーブレット時間周波数解析におけるより情報的なデータが含まれていた。 tEEGの使用により、運動の区別のための復号精度が顕著に向上した。 具体的には、tEEGはバイナリで90%、マルチクラス分類で75.97%の精度を達成した。 これらの結果は、それぞれ同様のタスクで77.85%と61.27%の最大値を記録した標準脳波よりも著しく優れている。 以上の結果から,teeg over eegは,従来の研究と比較して,包括型復号において優れていること,複雑な分類における競合性や優れていること,などが分かる。

This study aims to enhance BCI applications for individuals with motor impairments by comparing the effectiveness of tripolar EEG (tEEG) with conventional EEG. The focus is on interpreting and decoding various grasping movements, such as power grasp and precision grasp. The goal is to determine which EEG technology is more effective in processing and translating grasp related neural signals. The approach involved experimenting on ten healthy participants who performed two distinct grasp movements: power grasp and precision grasp, with a no movement condition serving as the baseline. Our research presents a thorough comparison between EEG and tEEG in decoding grasping movements. This comparison spans several key parameters, including signal to noise ratio (SNR), spatial resolution via functional connectivity, ERPs, and wavelet time frequency analysis. Additionally, our study involved extracting and analyzing statistical features from the wavelet coefficients, and both binary and multiclass classification methods were employed. Four machine learning algorithms were used to evaluate the decoding accuracies. Our results indicated that tEEG demonstrated superior performance over conventional EEG in various aspects. This included a higher signal to noise ratio, enhanced spatial resolution, and more informative data in ERPs and wavelet time frequency analysis. The use of tEEG led to notable improvements in decoding accuracy for differentiating movement types. Specifically, tEEG achieved around 90% accuracy in binary and 75.97% for multiclass classification. These results are markedly better than those from standard EEG, which recorded a maximum of 77.85% and 61.27% in similar tasks, respectively. These findings highlight the superior effectiveness of tEEG over EEG in decoding grasp types and its competitive or superior performance in complex classifications compared with existing research.
翻訳日:2024-02-18 13:05:48 公開日:2024-01-31
# 非侵襲的脳波信号のウェーブレット解析 : 複合型と自然型を識別する

Wavelet Analysis of Noninvasive EEG Signals Discriminates Complex and Natural Grasp Types ( http://arxiv.org/abs/2402.09447v1 )

ライセンス: Link先を確認
Ali Rabiee, Sima Ghafoori, Anna Cetera, Reza Abiri(参考訳) 本研究の目的は、脳波から手の動きをデコードし、脳-コンピュータインタフェース(BCI)を応用することである。 特に、新しいEEGベースのBCIプラットフォームとウェーブレット信号処理を用いて、中立条件に加えて、2つの複雑な自然力と精度把握の区別に焦点を当てている。 ウェーブレット解析では、ウェーブレットパワー係数から時間周波数と地形図を生成する。 そして,新しいウェーブレット機能を持つ機械学習技術を用いることで,平均的精度が85.16%,無動作対パワー95.37%,無動作対精度95.40%,パワー対精度88.07%となり,脳波による把握分化におけるこれらの特徴の有効性を実証した。 従来の研究とは対照的に,本研究の重要部分はパーミュレーション特徴重要度分析であり,把握分類の重要な特徴を強調した。 その結果, 運動野, アルファ, ベータの周波数帯において, 握り時の脳活動が最も重要であった。 これらの知見は、リアルタイム神経補綴技術およびBCI応用におけるウェーブレット機能の可能性を示している。

This research aims to decode hand grasps from Electroencephalograms (EEGs) for dexterous neuroprosthetic development and Brain-Computer Interface (BCI) applications, especially for patients with motor disorders. Particularly, it focuses on distinguishing two complex natural power and precision grasps in addition to a neutral condition as a no-movement condition using a new EEG-based BCI platform and wavelet signal processing. Wavelet analysis involved generating time-frequency and topographic maps from wavelet power coefficients. Then, by using machine learning techniques with novel wavelet features, we achieved high average accuracies: 85.16% for multiclass, 95.37% for No-Movement vs Power, 95.40% for No-Movement vs Precision, and 88.07% for Power vs Precision, demonstrating the effectiveness of these features in EEG-based grasp differentiation. In contrast to previous studies, a critical part of our study was permutation feature importance analysis, which highlighted key features for grasp classification. It revealed that the most crucial brain activities during grasping occur in the motor cortex, within the alpha and beta frequency bands. These insights demonstrate the potential of wavelet features in real-time neuroprosthetic technology and BCI applications.
翻訳日:2024-02-18 13:05:18 公開日:2024-01-31
# imove:フィットネスアクティビティ認識のためのバイオインプデンスセンシングを探求

iMove: Exploring Bio-impedance Sensing for Fitness Activity Recognition ( http://arxiv.org/abs/2402.09445v1 )

ライセンス: Link先を確認
Mengxi Liu, Vitor Fortes Rey, Yu Zhang, Lala Shakti Swarup Ray, Bo Zhou, Paul Lukowicz(参考訳) 健康なライフスタイルの促進からパーソナライズされた予防医療まで、自動的かつ正確なフィットネスアクティビティ認識は有益である。 While IMUs are currently the prominent fitness tracking modality, through iMove, we show bio-impedence can help improve IMU-based fitness tracking through sensor fusion and contrastive learning.To evaluate our methods, we conducted an experiment including six upper body fitness activities performed by ten subjects over five days to collect synchronized data from bio-impedance across two wrists and IMU on the left wrist.The contrastive learning framework uses the two modalities to train a better IMU-only classification model, where bio-impedance is only required at the training phase, by which the average Macro F1 score with the input of a single IMU was improved by 3.22 \% reaching 84.71 \% compared to the 81.49 \% of the IMU baseline model. また,生体インピーダンスだけでは,平均マクロF1スコアが75.36 %であり,IMU単独でより優れていても,平均マクロF1スコアが89.57 %(トレーニングと推論の両方に必要な2つのモダリティ)に達することにより,生体インピーダンスがヒトの行動認識(HAR)を直接改善できることを示す。 また,このアプローチの汎用性を示す,低身長フィットネス活動分類のさらなる研究において同様の結果が得られた。この知見は,センサ融合とコントラスト学習を,フィットネスアクティビティ認識を前進させるための貴重なツールとして活用し,生体影響がicmベースのシステムの能力増強に重要な役割を果たしている。

Automatic and precise fitness activity recognition can be beneficial in aspects from promoting a healthy lifestyle to personalized preventative healthcare. While IMUs are currently the prominent fitness tracking modality, through iMove, we show bio-impedence can help improve IMU-based fitness tracking through sensor fusion and contrastive learning.To evaluate our methods, we conducted an experiment including six upper body fitness activities performed by ten subjects over five days to collect synchronized data from bio-impedance across two wrists and IMU on the left wrist.The contrastive learning framework uses the two modalities to train a better IMU-only classification model, where bio-impedance is only required at the training phase, by which the average Macro F1 score with the input of a single IMU was improved by 3.22 \% reaching 84.71 \% compared to the 81.49 \% of the IMU baseline model. We have also shown how bio-impedance can improve human activity recognition (HAR) directly through sensor fusion, reaching an average Macro F1 score of 89.57 \% (two modalities required for both training and inference) even if Bio-impedance alone has an average macro F1 score of 75.36 \%, which is outperformed by IMU alone. In addition, similar results were obtained in an extended study on lower body fitness activity classification, demonstrating the generalisability of our approach.Our findings underscore the potential of sensor fusion and contrastive learning as valuable tools for advancing fitness activity recognition, with bio-impedance playing a pivotal role in augmenting the capabilities of IMU-based systems.
翻訳日:2024-02-18 13:04:52 公開日:2024-01-31
# マルチモーダルアクション品質評価

Multimodal Action Quality Assessment ( http://arxiv.org/abs/2402.09444v1 )

ライセンス: Link先を確認
Ling-An Zeng and Wei-Shi Zheng(参考訳) アクション品質アセスメント(AQA)とは、アクションがどれだけうまく実行されるかを評価することである。 従来の作品では、視覚情報のみを使用して、音声情報を無視してモデリングを行う。 我々は、AQAは視覚情報に強く依存しているが、特にフィギュアスケートやリズミカル体操などのバックグラウンド音楽を持つスポーツにおいて、スコアレグレッションの精度を向上させるために、オーディオは相補的な情報であると主張している。 本稿では,aqaのマルチモーダル情報,すなわちrgb,オプティカルフロー,オーディオ情報を活用するために,モダリティ固有情報と混合モーダル情報とを別々にモデル化するプログレッシブ適応マルチモーダル融合ネットワーク(pamfn)を提案する。 本モデルは,モーダリティ特化情報を独立に探索する3つのモーダリティ特化枝と,モーダリティ特化枝からモーダリティ特化情報を段階的に集約する混合モーダリティ分岐からなる。 モダリティ特異的分岐と混合モダリティ分岐のブリッジを構築するために、3つの新しいモジュールを提案する。 まず、modality-specific feature decoderモジュールは、modality-specific informationをmixed-modalityブランチに選択的に転送するように設計されている。 第二に、モーダリティ固有の情報間の相互作用を探究する際、不変なマルチモーダル融合ポリシーを用いることは、行動の様々な部分における潜在的な多様性を考慮に入れ、最適以下の結果をもたらす可能性があると論じる。 そこで,適応型融合モジュールを提案し,動作の異なる部分における適応型マルチモーダル融合ポリシーを学習する。 このモジュールは、異なるマルチモーダル核融合戦略を探索するためのFusionNetと、どのFusionNetが有効かを決定するポリシーNetで構成されている。 第3に、cross-modal feature decoderと呼ばれるモジュールは、adaptive fusion moduleによって生成されたcross-modal featuresをmixed-modalityブランチに転送するように設計されている。

Action quality assessment (AQA) is to assess how well an action is performed. Previous works perform modelling by only the use of visual information, ignoring audio information. We argue that although AQA is highly dependent on visual information, the audio is useful complementary information for improving the score regression accuracy, especially for sports with background music, such as figure skating and rhythmic gymnastics. To leverage multimodal information for AQA, i.e., RGB, optical flow and audio information, we propose a Progressive Adaptive Multimodal Fusion Network (PAMFN) that separately models modality-specific information and mixed-modality information. Our model consists of with three modality-specific branches that independently explore modality-specific information and a mixed-modality branch that progressively aggregates the modality-specific information from the modality-specific branches. To build the bridge between modality-specific branches and the mixed-modality branch, three novel modules are proposed. First, a Modality-specific Feature Decoder module is designed to selectively transfer modality-specific information to the mixed-modality branch. Second, when exploring the interaction between modality-specific information, we argue that using an invariant multimodal fusion policy may lead to suboptimal results, so as to take the potential diversity in different parts of an action into consideration. Therefore, an Adaptive Fusion Module is proposed to learn adaptive multimodal fusion policies in different parts of an action. This module consists of several FusionNets for exploring different multimodal fusion strategies and a PolicyNet for deciding which FusionNets are enabled. Third, a module called Cross-modal Feature Decoder is designed to transfer cross-modal features generated by Adaptive Fusion Module to the mixed-modality branch.
翻訳日:2024-02-18 13:04:26 公開日:2024-01-31
# 強化学習を用いたヘテロジニアスネットワークにおける分散カラットルーティング

Decentralized Covert Routing in Heterogeneous Networks Using Reinforcement Learning ( http://arxiv.org/abs/2402.10087v1 )

ライセンス: Link先を確認
Justin Kong, Terrence J. Moore, and Fikadu T. Dagefu(参考訳) 本書は、送信者が複数の通信モダリティのうち1つのモダリティを任意に選択する中継ノードの助けを借りて、ソースが機密データを目的地に送信する異種ネットワークにおける秘密ルーティング通信を調査する。 本研究では,隣接ノードから受信した局所フィードバック情報のみに基づいて,各ノードが次のホップとモダリティを識別するソースから目的地への経路を探索する,新しい強化学習に基づく隠れ経路アルゴリズムを開発した。 本研究では,提案手法が最適集中型ルーティング方式に比べて性能損失が無視できることを示す数値シミュレーションを行った。

This letter investigates covert routing communications in a heterogeneous network where a source transmits confidential data to a destination with the aid of relaying nodes where each transmitter judiciously chooses one modality among multiple communication modalities. We develop a novel reinforcement learning-based covert routing algorithm that finds a route from the source to the destination where each node identifies its next hop and modality only based on the local feedback information received from its neighboring nodes. We show based on numerical simulations that the proposed covert routing strategy has only negligible performance loss compared to the optimal centralized routing scheme.
翻訳日:2024-02-18 12:38:43 公開日:2024-01-31
# LLM投票:人間の選択とAIによる集団決定

LLM Voting: Human Choices and AI Collective Decision Making ( http://arxiv.org/abs/2402.01766v1 )

ライセンス: Link先を確認
Joshua C. Yang, Marcin Korecki, Damian Dailisan, Carina I. Hausladen, and Dirk Helbing(参考訳) 本稿では,大規模言語モデル(LLM),特に OpenAI の GPT4 と LLaMA2 の投票行動と人間の投票パターンとの整合性について検討する。 提案手法は,人間選好のベースラインを確立するための投票実験と,llmエージェントを用いた並行実験を含む。 この研究は、集団的な結果と個人の嗜好の両方に焦点を当て、意思決定と人間とLLMの固有のバイアスの違いを明らかにした。 我々は,LLMにおける選好多様性とアライメントのトレードオフを観察し,人間の選好に比較して,より均一な選好の傾向を示した。 この結果は、LSMが投票支援に使用される際により均質な集団結果をもたらす可能性を示し、LSMの民主的プロセスへの慎重な統合の必要性を強調している。

This paper investigates the voting behaviors of Large Language Models (LLMs), particularly OpenAI's GPT4 and LLaMA2, and their alignment with human voting patterns. Our approach included a human voting experiment to establish a baseline for human preferences and a parallel experiment with LLM agents. The study focused on both collective outcomes and individual preferences, revealing differences in decision-making and inherent biases between humans and LLMs. We observed a trade-off between preference diversity and alignment in LLMs, with a tendency towards more uniform choices as compared to the diverse preferences of human voters. This finding indicates that LLMs could lead to more homogenized collective outcomes when used in voting assistance, underscoring the need for cautious integration of LLMs into democratic processes.
翻訳日:2024-02-11 15:51:37 公開日:2024-01-31
# LLMは大きな5人の人格をシミュレートする: さらなる証拠

LLMs Simulate Big Five Personality Traits: Further Evidence ( http://arxiv.org/abs/2402.01765v1 )

ライセンス: Link先を確認
Aleksandra Sorokovikova, Natalia Fedorova, Sharwin Rezagholi, Ivan P. Yamshchikov(参考訳) Llama2, GPT4, Mixtralという大言語モデル(LLM)によるビッグファイブの性格特性のシミュレーションに関する実証的研究を行った。 これらのモデルによりシミュレートされた性格特性とその安定性を解析する。 これは、パーソナリティ特性をシミュレートするllmの能力と、パーソナライズされた人間とコンピュータの相互作用に対するそれぞれの意味の理解に寄与する。

An empirical investigation into the simulation of the Big Five personality traits by large language models (LLMs), namely Llama2, GPT4, and Mixtral, is presented. We analyze the personality traits simulated by these models and their stability. This contributes to the broader understanding of the capabilities of LLMs to simulate personality traits and the respective implications for personalized human-computer interaction.
翻訳日:2024-02-11 15:51:22 公開日:2024-01-31
# xp2021体験レポート:仕事の未来のための5つの戦略:技術移転によるイノベーションの加速

XP2021 Experience Report: Five Strategies for the Future of Work: Accelerating Innovation through Tech Transfer ( http://arxiv.org/abs/2402.01764v1 )

ライセンス: Link先を確認
Steven Fraser(参考訳) この経験レポートでは、Global 1000の4社(HP、Cisco、Qualcomm、Nortel)で25年間に渡り開発されてきた5つの技術移転戦略について概説している。 この5つの戦略は、特許、貿易秘密、著作権などの知的財産権(IPR)をライセンスするよりも、オープンな知識共有を通じてイノベーションを加速させる。 戦略は、企業技術フォーラム、会議パネル、探索ワークショップ、研究レビュー(大学や企業)、人材交換に基づいている。 最初の目標は、ソフトウェアベストプラクティスの企業導入を促進することであったが、時間とともに戦略は、企業間の研究開発コラボレーションのインキュベーション、組織の記憶の獲得、外部研究パートナーシップの育成と活用、企業の人材パイプラインの供給など、企業のイノベーションに大きな影響を与えた。

This experience report outlines five tech transfer strategies developed over a period of 25 years at four Global 1000 companies (HP, Cisco, Qualcomm, and Nortel) to mitigate R&D challenges associated with duplicated effort, product quality, and time-to-market. The five strategies accelerate innovation through open knowledge sharing, rather than licensing intellectual property rights (IPR) such as patents, trade secrets, and copyrights. The strategies are based on corporate tech forums, conference panels, exploratory workshops, research reviews (at universities and companies), and talent exchanges. While the initial objective was to foster the corporate adoption of software best practices, over time the strategies had broader impact on company innovation, including incubating cross-company R&D collaborations, capturing organizational memory, cultivating and leveraging external research partnerships, and feeding company talent pipelines.
翻訳日:2024-02-11 15:51:13 公開日:2024-01-31
# rag-fusion: 検索型生成の新しいアプローチ

RAG-Fusion: a New Take on Retrieval-Augmented Generation ( http://arxiv.org/abs/2402.03367v1 )

ライセンス: Link先を確認
Zackary Rackauckas(参考訳) Infineonは、エンジニア、アカウントマネージャ、顧客が迅速に製品情報を取得する必要性を特定している。 従来,この問題は検索強化型チャットボット(RAG)で対処されてきたが,本研究では新たに普及したRAG-Fusion法を用いて評価した。 RAG-Fusion は RAG と reciprocal rank fusion (RRF) を組み合わせて複数のクエリを生成し、それらを相互スコアに再分類し、文書とスコアを融合させる。 精度,関連性,包括性に関する回答を手動で評価することで,RAG-Fusionは,生成したクエリをさまざまな視点からコンテキスト化することによって,正確かつ包括的な回答を提供することができた。 しかし、生成したクエリと元のクエリとの関連性が不十分な場合、いくつかの回答はトピックから逸脱した。 この研究は、人工知能(ai)と自然言語処理(nlp)のアプリケーションにおける重要な進歩を示し、グローバルかつ多産業のコンテキストにおけるトランスフォーメーションを実証する。

Infineon has identified a need for engineers, account managers, and customers to rapidly obtain product information. This problem is traditionally addressed with retrieval-augmented generation (RAG) chatbots, but in this study, I evaluated the use of the newly popularized RAG-Fusion method. RAG-Fusion combines RAG and reciprocal rank fusion (RRF) by generating multiple queries, reranking them with reciprocal scores and fusing the documents and scores. Through manually evaluating answers on accuracy, relevance, and comprehensiveness, I found that RAG-Fusion was able to provide accurate and comprehensive answers due to the generated queries contextualizing the original query from various perspectives. However, some answers strayed off topic when the generated queries' relevance to the original query is insufficient. This research marks significant progress in artificial intelligence (AI) and natural language processing (NLP) applications and demonstrates transformations in a global and multi-industry context.
翻訳日:2024-02-11 15:26:52 公開日:2024-01-31
# 大規模言語モデルを用いた不確実性を考慮した説明可能な勧告

Uncertainty-Aware Explainable Recommendation with Large Language Models ( http://arxiv.org/abs/2402.03366v1 )

ライセンス: Link先を確認
Yicui Peng, Hao Chen, Chingsheng Lin, Guo Huang, Jinrong Hu, Hui Guo, Bin Kong, Shu Hu, Xi Wu, and Xin Wang(参考訳) 推薦システム内での説明を提供することは、特にユーザに適した推奨項目を選択する理由を解明することによって、ユーザの満足度を高め、信頼を高める。 このドメインにおける主要なアプローチは、テキストベースの説明を生成し、大きな言語モデル(llm)の適用に重点を置いている。 しかし、説明可能なレコメンデーションのためにLLMを精錬することは、時間制約と計算資源の制限により実用的でないことを証明している。 代替として、現在のアプローチでは、LSMではなくプロンプトをトレーニングする。 本研究では,ユーザおよびアイテム入力のIDベクトルをGPT-2のプロンプトとして利用するモデルを開発した。 提案課題と説明課題の両方を最適化するために,マルチタスク学習フレームワークに共同学習機構を採用した。 この戦略により、ユーザの興味をより効果的に探索し、推奨の有効性とユーザの満足度を向上させることができる。 この実験により,yelp,tripadvisor,amazon dataset上で1.59 div, 0.57 usr, 0.41 fcrをそれぞれ達成し,説明可能性評価指標において4つのsota法よりも優れた性能を示す。 さらに,提案モデルが3つの公開データセット上で安定したテキスト品質を保証することができることを確認した。

Providing explanations within the recommendation system would boost user satisfaction and foster trust, especially by elaborating on the reasons for selecting recommended items tailored to the user. The predominant approach in this domain revolves around generating text-based explanations, with a notable emphasis on applying large language models (LLMs). However, refining LLMs for explainable recommendations proves impractical due to time constraints and computing resource limitations. As an alternative, the current approach involves training the prompt rather than the LLM. In this study, we developed a model that utilizes the ID vectors of user and item inputs as prompts for GPT-2. We employed a joint training mechanism within a multi-task learning framework to optimize both the recommendation task and explanation task. This strategy enables a more effective exploration of users' interests, improving recommendation effectiveness and user satisfaction. Through the experiments, our method achieving 1.59 DIV, 0.57 USR and 0.41 FCR on the Yelp, TripAdvisor and Amazon dataset respectively, demonstrates superior performance over four SOTA methods in terms of explainability evaluation metric. In addition, we identified that the proposed model is able to ensure stable textual quality on the three public datasets.
翻訳日:2024-02-11 15:26:33 公開日:2024-01-31
# グラフ畳み込みネットワークを用いたヘテロフィアウェアフェアレコメンデーション

Heterophily-Aware Fair Recommendation using Graph Convolutional Networks ( http://arxiv.org/abs/2402.03365v1 )

ライセンス: Link先を確認
Nemat Gholinejad and Mostafa Haghir Chehreghani(参考訳) 近年,グラフニューラルネットワーク(GNN)は,レコメンデータシステムの精度と性能を向上させるツールとして人気が高まっている。 現代のレコメンダシステムは、エンドユーザにサービスを提供するだけでなく、アイテムやアイテムプロバイダなどの他の参加者に利益をもたらすように設計されている。 これらの参加者は異なる、あるいは矛盾する目標や関心を持ち、公平性や人気バイアスの考慮の必要性を高める。 GNNベースのレコメンデーション手法はまた、不公平さと人気バイアスの課題に直面し、それらの正規化と集約プロセスはこれらの課題に直面する。 本稿では,商品の側面の公平性を改善するために,HetroFairと呼ばれる公正なGNNベースのレコメンデーションシステムを提案する。 HetroFairは2つの別々のコンポーネントを使用してフェアネスを認識した埋め込みを生成する。 一 点積をGNNの正常化過程に取り入れ、ノードの等級の影響を減少させる公正対応注意 二 凝集過程において、異なる特徴に異なる重みを割り当てるヘテロフィリー特徴重み付け HetroFairの有効性を評価するために、6つの実世界のデータセットに対して広範な実験を行う。 実験の結果,HetroFairはアイテム側の不公平さや人気バイアスを軽減するだけでなく,ユーザ側の精度も向上することがわかった。 私たちの実装はhttps://github.com/NematGH/HetroFairで公開されています。

In recent years, graph neural networks (GNNs) have become a popular tool to improve the accuracy and performance of recommender systems. Modern recommender systems are not only designed to serve the end users, but also to benefit other participants, such as items and items providers. These participants may have different or conflicting goals and interests, which raise the need for fairness and popularity bias considerations. GNN-based recommendation methods also face the challenges of unfairness and popularity bias and their normalization and aggregation processes suffer from these challenges. In this paper, we propose a fair GNN-based recommender system, called HetroFair, to improve items' side fairness. HetroFair uses two separate components to generate fairness-aware embeddings: i) fairness-aware attention which incorporates dot product in the normalization process of GNNs, to decrease the effect of nodes' degrees, and ii) heterophily feature weighting to assign distinct weights to different features during the aggregation process. In order to evaluate the effectiveness of HetroFair, we conduct extensive experiments over six real-world datasets. Our experimental results reveal that HetroFair not only alleviates the unfairness and popularity bias on the items' side, but also achieves superior accuracy on the users' side. Our implementation is publicly available at https://github.com/NematGH/HetroFair
翻訳日:2024-02-11 15:26:11 公開日:2024-01-31
# 大規模言語モデルにおけるプロンプトインジェクション攻撃の早期分類

An Early Categorization of Prompt Injection Attacks on Large Language Models ( http://arxiv.org/abs/2402.00898v1 )

ライセンス: Link先を確認
Sippo Rossi, Alisia Marianne Michel, Raghava Rao Mukkamala and Jason Bennett Thatcher(参考訳) 大規模な言語モデルとAIチャットボットは、人工知能の民主化の最前線にある。 しかし、ChatGPTや他の類似ツールのリリースは、大きな言語モデルとその出力を制御することの難しさに対する懸念が高まっている。 現在我々は、ユーザーが新しいインジェクションと呼ばれる攻撃でモデルを誤用しようとする猫とマウスのゲームを目撃している。 対照的に、開発者は脆弱性を発見し、同時に攻撃をブロックしようとする。 本稿では,これらの創発的脅威を概観し,プロンプトインジェクションのカテゴリ化を行い,プロンプトインジェクションに関する今後の研究を導くとともに,llmインターフェース開発における脆弱性チェックリストとして機能する。 さらに, 従来の文献と我々の経験的研究に基づいて, LLMエンドユーザ, 開発者, 研究者に対する即時注入の影響について考察した。

Large language models and AI chatbots have been at the forefront of democratizing artificial intelligence. However, the releases of ChatGPT and other similar tools have been followed by growing concerns regarding the difficulty of controlling large language models and their outputs. Currently, we are witnessing a cat-and-mouse game where users attempt to misuse the models with a novel attack called prompt injections. In contrast, the developers attempt to discover the vulnerabilities and block the attacks simultaneously. In this paper, we provide an overview of these emergent threats and present a categorization of prompt injections, which can guide future research on prompt injections and act as a checklist of vulnerabilities in the development of LLM interfaces. Moreover, based on previous literature and our own empirical research, we discuss the implications of prompt injections to LLM end users, developers, and researchers.
翻訳日:2024-02-05 18:32:33 公開日:2024-01-31
# 音声バイオマーカーを用いた早期認知症のスクリーニング法

Screening method for early dementia using sound objects as voice biomarkers ( http://arxiv.org/abs/2402.00897v1 )

ライセンス: Link先を確認
Adam Pluta, Zbigniew Pioch, J\k{e}drzej Kardach, Piotr Zio{\l}o, Tomasz Kr\k{e}cicki, El\.zbieta Trypka(参考訳) 紹介:音声バイオマーカーとして音響オブジェクトを用いた早期認知症のスクリーニング手法を提案する。 方法: 機械学習モデルに使用される最終データセットは、266の観測結果からなり、186人の健常者、46人がアルツハイマー病、34人がMCIと診断された。 この方法は、被験者が発声する持続母音/a/の6秒間の記録に基づいている。 この作品の主な貢献は、サウンドオブジェクトに基づいた注意深く構築された特徴の使用である。 このアプローチにより、まず標準スペクトルよりも正確な方法で音響スペクトルを表現し、その後、被験者の音声に対する制御に関する関連情報を含む解釈可能な特徴を構築することができる。 結果: 健常者とMCIを区別するためのROC AUCは0.85であり, 精度は0.76であった。 健常者と MCI または Alzheimer の鑑別では, それぞれ 0.84 と 0.77 であった。 結論: 音声オブジェクトに基づく特徴の使用は, 言語非依存的音声サンプルの非常に短い記録でも早期認知症スクリーニングを可能にする。

Introduction: We present a screening method for early dementia using features based on sound objects as voice biomarkers. Methods: The final dataset used for machine learning models consisted of 266 observations, with a distribution of 186 healthy individuals, 46 diagnosed with Alzheimer's, and 34 with MCI. This method is based on six-second recordings of the sustained vowel /a/ spoken by the subject. The main original contribution of this work is the use of carefully crafted features based on sound objects. This approach allows one to first represent the sound spectrum in a more accurate way than the standard spectrum, and then build interpretable features containing relevant information about subjects' control over their voice. Results: ROC AUC obtained in this work for distinguishing healthy subjects from those with MCI was 0.85, while accuracy was 0.76. For distinguishing between healthy subjects and those with either MCI or Alzheimer's the results were 0.84, 0.77, respectively. Conclusion: The use of features based on sound objects enables screening for early dementia even on very short recordings of language-independent voice samples.
翻訳日:2024-02-05 18:31:31 公開日:2024-01-31
# クラウドベースのAIサービスのプライバシとセキュリティへの影響 : 調査

Privacy and Security Implications of Cloud-Based AI Services : A Survey ( http://arxiv.org/abs/2402.00896v1 )

ライセンス: Link先を確認
Alka Luqman, Riya Mahesh, Anupam Chattopadhyay(参考訳) 本稿では,今日のクラウドエコシステムにおけるプライバシとセキュリティの状況について詳述するとともに,マシンラーニングモデルによって引き起こされるリスクに対処する上でギャップがあることを示す。 機械学習アルゴリズムが進化し続け、さまざまな領域にわたるアプリケーションを見つけるにつれ、プライバシとセキュリティリスクの分類と定量化の必要性がますます重要になっている。 AI-as-a-Service(AIaaS)の台頭とともに、機械学習AIモデル(あるいはMLモデル)はモデルプロバイダによってクラウドにデプロイされ、モデルコンシューマが使用する。 最初にAIaaSの状況を調査して、MLモデル、特にDeep Neural Networksが引き起こすさまざまな負債をドキュメント化し、そのギャップを埋めるための分類を紹介します。 このような構造化されたアプローチは、MLモデルプロバイダが堅牢なソリューションを作成する上で有益である。 同様に、MLモデル消費者は、そのようなソリューションを評価し、そうしたサービスとの関わりの意義を理解するのに価値があると考えている。 提案された分類学は、プライベートでセキュアで堅牢なMLにおけるソリューションの基盤を提供し、より透明でレジリエントなAIシステムへの道を開く。

This paper details the privacy and security landscape in today's cloud ecosystem and identifies that there is a gap in addressing the risks introduced by machine learning models. As machine learning algorithms continue to evolve and find applications across diverse domains, the need to categorize and quantify privacy and security risks becomes increasingly critical. With the emerging trend of AI-as-a-Service (AIaaS), machine learned AI models (or ML models) are deployed on the cloud by model providers and used by model consumers. We first survey the AIaaS landscape to document the various kinds of liabilities that ML models, especially Deep Neural Networks pose and then introduce a taxonomy to bridge this gap by holistically examining the risks that creators and consumers of ML models are exposed to and their known defences till date. Such a structured approach will be beneficial for ML model providers to create robust solutions. Likewise, ML model consumers will find it valuable to evaluate such solutions and understand the implications of their engagement with such services. The proposed taxonomies provide a foundational basis for solutions in private, secure and robust ML, paving the way for more transparent and resilient AI systems.
翻訳日:2024-02-05 18:30:59 公開日:2024-01-31
# 二重量子ドット光セルの熱力学的進化による太陽電池特性の評価

Photovoltaic properties evaluated by its thermodynamic evolution in a double quantum dot photocell ( http://arxiv.org/abs/2402.00894v1 )

ライセンス: Link先を確認
Sheng-Nan Zhu, Shun-Cai Zhao, Lin-Jie Chen(参考訳) 量子ドット(QD)光セルにおける光電変換の物理機構の獲得は、光電変換効率を高めるための戦略の1つである。 本研究では,光電変換過程における光セルの熱力学的進化を評価することによって,光セルの性能を評価するための新たな理論的アプローチをDQD(Double Quant dot)光セルモデルで定式化することを試みた。 その結果,熱力学関連量は光起電力力学の法則を反映し,光電伝達特性は間接的に熱電流によって評価できることがわかった。 この研究の利点は、光電輸送過程における熱電流の物理法則の理解を広げるだけでなく、dqd光セルにおける光電変換効率を最適化する新しい方法を提案するかもしれない。

Obtaining the physical mechanism of photoelectric transfer in quantum-dot (QD) photocells may be one strategy to boost the photovoltaic conversion efficiency. In this work, we attempted to formulate a novel theoretical approach to evaluate photocells' performance via evaluating their thermodynamic evolution during the photoelectric conversion process in a double quantum dot (DQD) photocell model. Results demonstrate that the thermodynamic-related quantities can reflect the law of photovoltaic dynamics, i.e., the photoelectric transfer properties can be evaluated by the heat currents indirectly. The merit of this work not only expands our understanding of the physical law of heat currents in the photoelectric transport process, but it may also propose a new method for optimizing photoelectric conversion efficiency in a DQD photocell.
翻訳日:2024-02-05 18:30:34 公開日:2024-01-31
# mode: 専門家間の相互蒸留を伴う混合専門家モデル

MoDE: A Mixture-of-Experts Model with Mutual Distillation among the Experts ( http://arxiv.org/abs/2402.00893v1 )

ライセンス: Link先を確認
Zhitian Xie, Yinger Zhang, Chenyi Zhuang, Qitao Shi, Zhining Liu, Jinjie Gu, Guannan Zhang(参考訳) モデルの性能を向上させる能力により,Mixix-of-Experts (MoE) が普及している。 MoE構造では、ゲート層は異なる専門家に入力機能の識別とルーティングに重要な役割を果たす。 これにより、各専門家が対応するサブタスクの処理を専門化できる。 個々のMoEの専門家は、割り当てられたサブタスクの学習により多くのサンプルを使用することができず、その結果、MoEはその一般化能力をさらに向上するために制限される。 そこで本研究では,各専門家が他の専門家から学んだより多くの特徴を抽出し,元のサブタスクでより正確な認識を得られるように,専門家間で適度な相互蒸留を行う方法であるmixed-of-distilled-expert(mode)を提案する。 我々は,表計算,NLP,CVデータセットなどの実験を行い,MoDEの有効性,普遍性,堅牢性を示す。 さらに, 「専門家調査」 を革新的に構築し, モードが機能する理由を実験的に証明する並列研究を行った。 適度な蒸留知識は, 与えられたタスクにおける個々の専門家のテスト性能を改善し, moe の全体的な性能改善に繋がる。

The application of mixture-of-experts (MoE) is gaining popularity due to its ability to improve model's performance. In an MoE structure, the gate layer plays a significant role in distinguishing and routing input features to different experts. This enables each expert to specialize in processing their corresponding sub-tasks. However, the gate's routing mechanism also gives rise to narrow vision: the individual MoE's expert fails to use more samples in learning the allocated sub-task, which in turn limits the MoE to further improve its generalization ability. To effectively address this, we propose a method called Mixture-of-Distilled-Expert (MoDE), which applies moderate mutual distillation among experts to enable each expert to pick up more features learned by other experts and gain more accurate perceptions on their original allocated sub-tasks. We conduct plenty experiments including tabular, NLP and CV datasets, which shows MoDE's effectiveness, universality and robustness. Furthermore, we develop a parallel study through innovatively constructing "expert probing", to experimentally prove why MoDE works: moderate distilling knowledge can improve each individual expert's test performances on their assigned tasks, leading to MoE's overall performance improvement.
翻訳日:2024-02-05 18:30:19 公開日:2024-01-31
# EVA-GAN: スケーラブルな生成共振器ネットワークによる各種オーディオ生成の強化

EVA-GAN: Enhanced Various Audio Generation via Scalable Generative Adversarial Networks ( http://arxiv.org/abs/2402.00892v1 )

ライセンス: Link先を確認
Shijia Liao, Shiyi Lan, Arun George Zachariah(参考訳) 大規模モデルの出現は、複雑なパターンをキャプチャし、合成するために巨大なデータセットを活用することによって、より小さなモデルを大きく上回る、機械学習の新しい時代を告げる。 これらの進歩にもかかわらず、特にオーディオ生成領域でのスケーリングへの探索は限定的であり、以前の取り組みはハイファイダリティ(HiFi)44.1kHzドメインに拡張されず、周波数領域におけるスペクトルの不連続性と曖昧さの両方に悩まされ、ドメイン外データに対する堅牢性の欠如があった。 これらの制限は、音楽や歌声の生成を含む多様なユースケースにモデルの適用性を制限する。 Our work introduces Enhanced Various Audio Generation via Scalable Generative Adversarial Networks (EVA-GAN), yields significant improvements over previous state-of-the-art in spectral and high-frequency reconstruction and robustness in out-of-domain data performance, enabling the generation of HiFi audios by employing an extensive dataset of 36,000 hours of 44.1kHz audio, a context-aware module, a Human-In-The-Loop artifact measurement toolkit, and expands the model to approximately 200 million parameters. 私たちの作品のデモンストレーションはhttps://double-blind-eva-gan.ccで利用可能です。

The advent of Large Models marks a new era in machine learning, significantly outperforming smaller models by leveraging vast datasets to capture and synthesize complex patterns. Despite these advancements, the exploration into scaling, especially in the audio generation domain, remains limited, with previous efforts didn't extend into the high-fidelity (HiFi) 44.1kHz domain and suffering from both spectral discontinuities and blurriness in the high-frequency domain, alongside a lack of robustness against out-of-domain data. These limitations restrict the applicability of models to diverse use cases, including music and singing generation. Our work introduces Enhanced Various Audio Generation via Scalable Generative Adversarial Networks (EVA-GAN), yields significant improvements over previous state-of-the-art in spectral and high-frequency reconstruction and robustness in out-of-domain data performance, enabling the generation of HiFi audios by employing an extensive dataset of 36,000 hours of 44.1kHz audio, a context-aware module, a Human-In-The-Loop artifact measurement toolkit, and expands the model to approximately 200 million parameters. Demonstrations of our work are available at https://double-blind-eva-gan.cc.
翻訳日:2024-02-05 18:29:57 公開日:2024-01-31
# 人工知能の本当の火花と内的解釈可能性の重要性

Real Sparks of Artificial Intelligence and the Importance of Inner Interpretability ( http://arxiv.org/abs/2402.00901v1 )

ライセンス: Link先を確認
Alex Grzankowski(参考訳) 本稿では、Microsoftの技術者による研究であるGPTのインテリジェンスに関する最も詳細な記事の1つについて述べる。 彼らの仕事には多くの価値がありますが、哲学的な理由から、彼らの方法論は ! blackbox interpretability"#は間違っている。しかし、より良い方法がある。!inner interpretabilityのエキサイティングで新興の分野がある。#(特に機械的な解釈可能性)は、モデルの内部のアクティベーションと重みを解明し、彼らが何を表現し、彼らが実装したアルゴリズムを理解することを目的としている。 私の考えでは、ブラックボックスの解釈可能性の重大な誤りは、プロセスがどのように実行されるかが、知性と理解に関して重要であると理解できないことです。 私は、知的になるために必要な条件と十分な条件の両方を提供する完全なストーリーを持つふりをすることはできませんが、内的解釈能力は、知性が必要とするものに対する、説得力のある哲学的見解と密接に関係していると思います。 結論は控えめですが、私の考えでは重要な点は、研究を正しい方向に進める方法を見ることです。 論文の終わりに向けて、哲学的概念のいくつかは、内的解釈可能性のアプローチをさらに洗練するためにどのように利用できるかを示し、この論文は、哲学者と計算機科学者の間の利益ある双方向の交換を図り出すのに役立つ。

The present paper looks at one of the most thorough articles on the intelligence of GPT, research conducted by engineers at Microsoft. Although there is a great deal of value in their work, I will argue that, for familiar philosophical reasons, their methodology, !Blackbox Interpretability"#is wrongheaded. But there is a better way. There is an exciting and emerging discipline of !Inner Interpretability"#(and specifically Mechanistic Interpretability) that aims to uncover the internal activations and weights of models in order to understand what they represent and the algorithms they implement. In my view, a crucial mistake in Black-box Interpretability is the failure to appreciate that how processes are carried out matters when it comes to intelligence and understanding. I can#t pretend to have a full story that provides both necessary and sufficient conditions for being intelligent, but I do think that Inner Interpretability dovetails nicely with plausible philosophical views of what intelligence requires. So the conclusion is modest, but the important point in my view is seeing how to get the research on the right track. Towards the end of the paper, I will show how some of the philosophical concepts can be used to further refine how Inner Interpretability is approached, so the paper helps draw out a profitable, future two-way exchange between Philosophers and Computer Scientists.
翻訳日:2024-02-05 18:15:02 公開日:2024-01-31
# 予測可能な性能保証を伴うAIエラー訂正のための弱教師付き学習者

Weakly Supervised Learners for Correction of AI Errors with Provable Performance Guarantees ( http://arxiv.org/abs/2402.00899v1 )

ライセンス: Link先を確認
Ivan Y. Tyukin, Tatiana Tyukina, Daniel van Helden, Zedong Zhang, Evgeny M. Mirkes, Oliver J. Sutton, Qinghua Zhou, Alexander N. Gorban, Penelope Allison(参考訳) 本稿では,最優先性能保証付き弱教師付きAI誤り訂正器を導入することにより,AIエラーを処理する新しい手法を提案する。 これらのAI補正は、その決定を承認または拒否することで、以前に構築されたいくつかの下位分類器の決定を緩和する役割を持つ補助マップである。 決定の拒絶は、決定の棄却を示唆する信号として用いることができる。 この作業の重要な技術的焦点は、不正確な決定の確率の限界を通して、これらの新しいai修正者のパフォーマンス保証を提供することである。 これらの境界は分布非依存であり、データ次元の仮定に依存しない。 私たちの経験的な例は、トレーニングデータが不足している実世界の課題において、画像分類器のパフォーマンス向上にフレームワークを適用する方法を示している。

We present a new methodology for handling AI errors by introducing weakly supervised AI error correctors with a priori performance guarantees. These AI correctors are auxiliary maps whose role is to moderate the decisions of some previously constructed underlying classifier by either approving or rejecting its decisions. The rejection of a decision can be used as a signal to suggest abstaining from making a decision. A key technical focus of the work is in providing performance guarantees for these new AI correctors through bounds on the probabilities of incorrect decisions. These bounds are distribution agnostic and do not rely on assumptions on the data dimension. Our empirical example illustrates how the framework can be applied to improve the performance of an image classifier in a challenging real-world task where training data are scarce.
翻訳日:2024-02-05 18:14:32 公開日:2024-01-31
# 新たな運動量ステップを持つ適応アルゴリズムの理論的および実証的研究と確率的非凸最適化のためのシフト更新

A theoretical and empirical study of new adaptive algorithms with additional momentum steps and shifted updates for stochastic non-convex optimization ( http://arxiv.org/abs/2110.08531v2 )

ライセンス: Link先を確認
Cristian Daniel Alecsa(参考訳) 適応最適化アルゴリズムは機械学習分野の台頭の背後にある重要な柱を表現していることが知られている。 最適化文献では, 加速度勾配法について多くの研究がなされてきたが, 最近の適応型反復手法は理論的観点から解析された。 本稿では,確率的非凸最適化問題に対するモーメント項を用いた適応アルゴリズムを提案する。 本研究の目的は,異なる慣性ステップを持つ加速法とAMSGrad型運動量法との深い関係を示すことである。 本手法は, 確率的かつ非凸的対象写像の枠組みと, 適応アルゴリズムの研究でよく用いられるいくつかの仮定に基づいている。 ある種の最終反復とほぼ確実に定常点への収束に関する有限時間地平線解析の議論に加えて、最悪の場合のイテレーションの複雑さについても考察する。 これに続いて、勾配の2乗ユークリッドノルムの期待値の見積もりが行われる。 ニューラルネットワークのトレーニングのための様々な計算シミュレーションが理論解析を支援するために使用されている。 今後の研究のために,本研究には複数の拡張が考えられることを強調し,非滑らかな目的関数に関する調査と,適応最適化を確率的枠組みで包含するより一般的な定式化の理論的分析について述べる。

It is known that adaptive optimization algorithms represent the key pillar behind the rise of the Machine Learning field. In the Optimization literature numerous studies have been devoted to accelerated gradient methods but only recently adaptive iterative techniques were analyzed from a theoretical point of view. In the present paper we introduce new adaptive algorithms endowed with momentum terms for stochastic non-convex optimization problems. Our purpose is to show a deep connection between accelerated methods endowed with different inertial steps and AMSGrad-type momentum methods. Our methodology is based on the framework of stochastic and possibly non-convex objective mappings, along with some assumptions that are often used in the investigation of adaptive algorithms. In addition to discussing the finite-time horizon analysis in relation to a certain final iteration and the almost sure convergence to stationary points, we shall also look at the worst-case iteration complexity. This will be followed by an estimate for the expectation of the squared Euclidean norm of the gradient. Various computational simulations for the training of neural networks are being used to support the theoretical analysis. For future research we emphasize that there are multiple possible extensions to our work, from which we mention the investigation regarding non-smooth objective functions and the theoretical analysis of a more general formulation that encompass our adaptive optimizers in a stochastic framework.
翻訳日:2024-02-02 20:22:53 公開日:2024-01-31
# 機械学習を用いたHPCアプリケーションにおけるデータ分割のためのブロックサイズ推定

Block size estimation for data partitioning in HPC applications using machine learning techniques ( http://arxiv.org/abs/2211.10819v2 )

ライセンス: Link先を確認
Riccardo Cantini, Fabrizio Marozzo, Alessio Orsino, Domenico Talia, Paolo Trunfio, Rosa M. Badia, Jorge Ejarque, Fernando Vazquez(参考訳) データ集約型アプリケーションを実行するためのHPCインフラストラクチャとフレームワークの広範な使用により、データパーティショニング技術や戦略への関心が高まっている。 実際、アプリケーションのパフォーマンスはデータのパーティショニングの仕方によって大きく影響を受ける可能性がある。 したがって、効率的なパーティショニング、すなわち適切なブロックサイズを見つけることは、並列データ集約アプリケーションの高速化とスケーラビリティ向上の鍵となる戦略である。 本稿では,教師付き機械学習技術に依存するブロックサイズ推定手法であるBLEST-ML(BLock size ESTimation through Machine Learning)について述べる。 提案手法は、PyCOMPSsフレームワーク上に構築された機械学習アルゴリズムに重点を置いた分散コンピューティングライブラリであるdislibに適した実装を設計することで評価された。 MareNostrum 4 スーパーコンピュータを含む,ディリブ,データセット,インフラストラクチャの異なるアルゴリズムを考慮した広範な実験評価により,提案手法の有効性を評価した。 その結果、blest-mlが与えられたデータセットを効率的に分割する方法を決定できることが示され、高性能環境でのデータ並列アプリケーションの効率的な実行を可能にするための適用性が証明された。

The extensive use of HPC infrastructures and frameworks for running dataintensive applications has led to a growing interest in data partitioning techniques and strategies. In fact, application performance can be heavily affected by how data are partitioned, which in turn depends on the selected size for data blocks, i.e. the block size. Therefore, finding an effective partitioning, i.e. a suitable block size, is a key strategy to speed-up parallel data-intensive applications and increase scalability. This paper describes a methodology, namely BLEST-ML (BLock size ESTimation through Machine Learning), for block size estimation that relies on supervised machine learning techniques. The proposed methodology was evaluated by designing an implementation tailored to dislib, a distributed computing library highly focused on machine learning algorithms built on top of the PyCOMPSs framework. We assessed the effectiveness of the provided implementation through an extensive experimental evaluation considering different algorithms from dislib, datasets, and infrastructures, including the MareNostrum 4 supercomputer. The results we obtained show the ability of BLEST-ML to efficiently determine a suitable way to split a given dataset, thus providing a proof of its applicability to enable the efficient execution of data-parallel applications in high performance environments.
翻訳日:2024-02-02 20:16:41 公開日:2024-01-31
# フィードフォワード潜在ドメイン適応

Feed-Forward Latent Domain Adaptation ( http://arxiv.org/abs/2207.07624v2 )

ライセンス: Link先を確認
Ondrej Bohdal, Da Li, Shell Xu Hu, Timothy Hospedales(参考訳) リソース制約のあるエッジデバイスが、事前学習したモデルをローカルなデータ分散に適応できるような、非常に実践的な新しい問題設定について検討する。 このデバイスのデータは、ラベルなしのドメイン関連例とドメイン非関連例の混合を含む複数の潜在ドメインから来る可能性が高いことを認識し、潜在ドメイン適応の比較的未熟な問題に焦点を当てる。 エッジデバイスの限界を考慮すれば,事前学習したモデルのみを使用してフィードフォワードに適応し,バックプロパゲーションを使用せず,ソースデータへのアクセスも行なわないことを目指している。 これらの現実的な制約をモデル化することは、フィードフォワード潜在ドメイン適応の新しい、そして事実上重要な問題設定をもたらす。 我々のソリューションは、混合関係目標データセットを埋め込み、クロスアテンションを用いてターゲット例の推論を動的に適応できるネットワークをメタ学習することである。 その結果、フレームワークは強力なEMMベースラインよりも一貫した改善をもたらす。 また、我々のフレームワークは、適応のためにドメイン関連インスタンスのみを提供するドメイン教師付き適応の上限を上回ることさえあることも示しています。 これは、人間のアノテーション付きドメインラベルが常に最適であるとは限らないことを示唆し、自動インスタンス選択によってより良い処理を行う可能性を高める。

We study a new highly-practical problem setting that enables resource-constrained edge devices to adapt a pre-trained model to their local data distributions. Recognizing that device's data are likely to come from multiple latent domains that include a mixture of unlabelled domain-relevant and domain-irrelevant examples, we focus on the comparatively under-studied problem of latent domain adaptation. Considering limitations of edge devices, we aim to only use a pre-trained model and adapt it in a feed-forward way, without using back-propagation and without access to the source data. Modelling these realistic constraints bring us to the novel and practically important problem setting of feed-forward latent domain adaptation. Our solution is to meta-learn a network capable of embedding the mixed-relevance target dataset and dynamically adapting inference for target examples using cross-attention. The resulting framework leads to consistent improvements over strong ERM baselines. We also show that our framework sometimes even improves on the upper bound of domain-supervised adaptation, where only domain-relevant instances are provided for adaptation. This suggests that human annotated domain labels may not always be optimal, and raises the possibility of doing better through automated instance selection.
翻訳日:2024-02-02 20:13:28 公開日:2024-01-31
# グラフ上の協調確率比の推定

Collaborative likelihood-ratio estimation over graphs ( http://arxiv.org/abs/2205.14461v2 )

ライセンス: Link先を確認
Alejandro de la Concha and Nicolas Vayatis and Argyris Kalogeratos(参考訳) 2つの未知の確率密度関数 (pdfs) と $p$ と $q$ から iid の観測があるとすれば、lre は利用可能なデータのみに依存することで、2つのpdfを比較するためのエレガントなアプローチである。 固定グラフの各ノード $v$ が未知のノード固有の 2 つの pdf から来る観察へのアクセス権を持つとする。 $p_v$ と $q_v$ であり、各ノードに対して、グラフ構造によって提供される情報も考慮して、両方の pdf 間のラピエート比を推定することである。 ノードレベルの推定タスクは、グラフによって伝達される類似性を示すもので、ノードがより効率的に解くために協力できることを示唆している。 我々はこの概念を,グラフベース相対非拘束最小二乗法(grulsif)と呼ぶ具体的非パラメトリック法で開発する。 我々は,ノードごとの利用可能な観測回数,グラフのサイズ,グラフ構造がタスク間の類似性をいかに正確にエンコードするかといった,変数が果たす役割を強調する協調アプローチの収束率を導出する。 これらの理論的な結果は、協調的な見積もりが効果的にパフォーマンスの向上に繋がる状況を明確にし、各問題を独立して解くことと比較する。 最後に,一連の実験において,各ノードで独立に動作する最先端lre法と比較して,グラフのノードの確率比をgrulsifがより正確に推定することを示すとともに,grulsifの挙動が従来の理論解析と一致していることを検証する。

Assuming we have iid observations from two unknown probability density functions (pdfs), $p$ and $q$, the likelihood-ratio estimation (LRE) is an elegant approach to compare the two pdfs only by relying on the available data. In this paper, we introduce the first -to the best of our knowledge-graph-based extension of this problem, which reads as follows: Suppose each node $v$ of a fixed graph has access to observations coming from two unknown node-specific pdfs, $p_v$ and $q_v$, and the goal is to estimate for each node the likelihood-ratio between both pdfs by also taking into account the information provided by the graph structure. The node-level estimation tasks are supposed to exhibit similarities conveyed by the graph, which suggests that the nodes could collaborate to solve them more efficiently. We develop this idea in a concrete non-parametric method that we call Graph-based Relative Unconstrained Least-squares Importance Fitting (GRULSIF). We derive convergence rates for our collaborative approach that highlights the role played by variables such as the number of available observations per node, the size of the graph, and how accurately the graph structure encodes the similarity between tasks. These theoretical results explicit the situations where collaborative estimation effectively leads to an improvement in performance compared to solving each problem independently. Finally, in a series of experiments, we illustrate how GRULSIF infers the likelihood-ratios at the nodes of the graph more accurately compared to state-of-the art LRE methods, which would operate independently at each node, and we also verify that the behavior of GRULSIF is aligned with our previous theoretical analysis.
翻訳日:2024-02-02 20:12:51 公開日:2024-01-31
# レグレッション・水平政策グラディエントの観点からのLQR制御の再検討

Revisiting LQR Control from the Perspective of Receding-Horizon Policy Gradient ( http://arxiv.org/abs/2302.13144v3 )

ライセンス: Link先を確認
Xiangyuan Zhang, Tamer Ba\c{s}ar(参考訳) 本稿では,制御アプリケーションのためのモデルフリー学習フレームワークであるreceding-horizon policy gradient(rhpg)の観点から,離散時間線形二次レギュレータ(lqr)問題を再検討する。 我々は,rhpg の最適 lqr 解に近い安定性および$\epsilon$ の制御ポリシーを学習するために,詳細なサンプル複雑性解析を行い,初期化のための安定化制御ポリシーを知る必要はない。 カルマンフィルタの学習におけるRHPGの最近の応用と組み合わせて、線形制御におけるRHPGの一般的な適用性および線形解析による推定を実証する。

We revisit in this paper the discrete-time linear quadratic regulator (LQR) problem from the perspective of receding-horizon policy gradient (RHPG), a newly developed model-free learning framework for control applications. We provide a fine-grained sample complexity analysis for RHPG to learn a control policy that is both stabilizing and $\epsilon$-close to the optimal LQR solution, and our algorithm does not require knowing a stabilizing control policy for initialization. Combined with the recent application of RHPG in learning the Kalman filter, we demonstrate the general applicability of RHPG in linear control and estimation with streamlined analyses.
翻訳日:2024-02-02 20:02:45 公開日:2024-01-31
# 二元イベント予測のための大胆さの修正

Boldness-Recalibration for Binary Event Predictions ( http://arxiv.org/abs/2305.03780v3 )

ライセンス: Link先を確認
Adeline P. Guthrie and Christopher T. Franck(参考訳) 確率予測は多くの分野にわたる意思決定に必須である。 理想的には 確率予測は (i)よく校正された。 (ii)正確で (三)大胆な、すなわち、決定を下すのに十分な情報を広める。 しかし、予測が過度に慎重である場合、すなわち非ボルドの場合、キャリブレーションのメトリクスが高いため、キャリブレーションと大胆さの間には基本的な緊張関係がある。 本研究の目的は, キャリブレーション評価のためのベイズモデル選択に基づくアプローチと, キャリブレーションの要求レベルの予測に責任を負うことができる大胆さ補正戦略を開発することである。 具体的には、ユーザが所望のキャリブレーションの後方確率を事前に指定し、この制約に従う予測を最大に具現化する。 本手法は,ホッケーホームチームの勝利確率をケーススタディで検証し,シミュレーションにより提案手法の有効性を検証した。 校正確率のごくわずかな緩和(例えば 0.99 から 0.95 まで)は、高度に校正され正確である場合(例えば、ホッケーの予測範囲が .26-.78 から .10-.91 まで)に実質的に具現化できる。

Probability predictions are essential to inform decision making across many fields. Ideally, probability predictions are (i) well calibrated, (ii) accurate, and (iii) bold, i.e., spread out enough to be informative for decision making. However, there is a fundamental tension between calibration and boldness, since calibration metrics can be high when predictions are overly cautious, i.e., non-bold. The purpose of this work is to develop a Bayesian model selection-based approach to assess calibration, and a strategy for boldness-recalibration that enables practitioners to responsibly embolden predictions subject to their required level of calibration. Specifically, we allow the user to pre-specify their desired posterior probability of calibration, then maximally embolden predictions subject to this constraint. We demonstrate the method with a case study on hockey home team win probabilities and then verify the performance of our procedures via simulation. We find that very slight relaxation of calibration probability (e.g., from 0.99 to 0.95) can often substantially embolden predictions when they are well calibrated and accurate (e.g., widening hockey predictions range from .26-.78 to .10-.91).
翻訳日:2024-02-02 19:49:33 公開日:2024-01-31
# mc-nn:インフルエンザaウイルス宿主および抗原型予測のためのエンドツーエンドマルチチャネルニューラルネットワークアプローチ

MC-NN: An End-to-End Multi-Channel Neural Network Approach for Predicting Influenza A Virus Hosts and Antigenic Types ( http://arxiv.org/abs/2306.05587v3 )

ライセンス: Link先を確認
Yanhua Xu and Dominik Wojtczak(参考訳) インフルエンザは公衆衛生、特に高齢者、幼児、基礎疾患を持つ人々にとって重大な脅威となる。 肺炎などの重篤な症状の出現は、インフルエンザ感染の予防の重要性を強調している。 A型インフルエンザウイルスの宿主および抗原サブタイプの正確な予測は、特に資源に制約のある地域でこの問題に対処するために不可欠である。 本研究では,ヘマグルチニンおよびノイラミニダーゼタンパク質配列からインフルエンザAウイルスの宿主および抗原サブタイプを予測するためのマルチチャネルニューラルネットワークモデルを提案する。 本モデルは,完全タンパク質配列の包括的データセットを用いて訓練し,完全および不完全配列の様々な試験データセットを用いて評価した。 その結果、インフルエンザAウイルスの宿主および抗原サブタイプを全タンパク質配列および部分タンパク質配列から予測するためのマルチチャネルニューラルネットワークの有用性と実用性を示した。

Influenza poses a significant threat to public health, particularly among the elderly, young children, and people with underlying dis-eases. The manifestation of severe conditions, such as pneumonia, highlights the importance of preventing the spread of influenza. An accurate and cost-effective prediction of the host and antigenic sub-types of influenza A viruses is essential to addressing this issue, particularly in resource-constrained regions. In this study, we propose a multi-channel neural network model to predict the host and antigenic subtypes of influenza A viruses from hemagglutinin and neuraminidase protein sequences. Our model was trained on a comprehensive data set of complete protein sequences and evaluated on various test data sets of complete and incomplete sequences. The results demonstrate the potential and practicality of using multi-channel neural networks in predicting the host and antigenic subtypes of influenza A viruses from both full and partial protein sequences.
翻訳日:2024-02-02 19:37:47 公開日:2024-01-31
# SiBBlInGS:国別グラフを用いた類似性駆動型ビルディングブロック推論

SiBBlInGS: Similarity-driven Building-Block Inference using Graphs across States ( http://arxiv.org/abs/2306.04817v3 )

ライセンス: Link先を確認
Noga Mudrik, Gal Mishne, Adam S. Charles(参考訳) 科学的領域にわたる時系列データは、しばしば異なる状態(例えばタスク)の下で収集される。 この複雑さを捉えるための重要なアプローチは、データ内の基本的な解釈可能なユニット、すなわちビルディングブロック(BB)を明らかにすることである。 マルチウェイデータ中のBBを識別する既存の方法は、しばしば状態内変動に対して相互に見落とし、解釈不能なコンポーネントを生成したり、サンプルの欠落や異なる期間のセッションを含む実際のデータプロパティと整合しない。 本稿では,状態間のグラフを用いた類似性に基づくビルディングブロック推論のフレームワークを提案する。 SiBBlInGSは、コアクティビティパターンと状態間の関係に基づく、スパースBBを発見するためのグラフベースの辞書学習アプローチを提供する。 さらに、SiBBlInGSは、心房内時間変動と制御されたクロスステート構造BB適応をキャプチャし、状態固有成分と状態不変成分を識別し、観測されたセッションの数と期間におけるノイズ、サンプルの欠如、および変動性に頑健である。 我々は、Web検索やニューラルデータを含むいくつかの合成および実世界の例を通して、複雑な現象の洞察を明らかにするSiBBlINGS能力を実証する。

Time series data across scientific domains are often collected under distinct states (e.g., tasks), wherein latent processes (e.g., biological factors) create complex inter- and intra-state variability. A key approach to capture this complexity is to uncover fundamental interpretable units within the data, i.e., Building Blocks (BBs), that modulate their activity and adjust their structure across observations. Existing methods for identifying BBs in multi-way data often overlook inter- vs. intra-state variability, produce uninterpretable components, or do not align with some real-world data properties including missing samples and sessions of different durations. Here, we present a framework for Similarity-driven Building Block Inference using Graphs across States (SiBBlInGS). SiBBlInGS offers a graph-based dictionary learning approach for discovering sparse BBs along with their temporal traces, based on co-activity patterns and inter- vs. intra-state relationships. Moreover, SiBBlInGS captures per-trial temporal variability and controlled cross-state structural BB adaptations, identifies state-specific vs. state-invariant components, and is robust to noise, missing samples, and variability in the number and duration of observed sessions across states. We demonstrate SiBBlINGS ability to reveal insights into complex phenomena through several synthetic and real-world examples, including web search and neural data.
翻訳日:2024-02-02 19:37:30 公開日:2024-01-31
# MutateNN: ハードウェアアクセラレータにデプロイされた画像認識モデルの変異テスト

MutateNN: Mutation Testing of Image Recognition Models Deployed on Hardware Accelerators ( http://arxiv.org/abs/2306.01697v3 )

ライセンス: Link先を確認
Nikolaos Louloudakis, Perry Gibson, Jos\'e Cano, and Ajitha Rajan(参考訳) 人工知能(AI)ソリューションの利用の増加は、設定やソフトウェア欠陥の問題からデプロイメントインフラストラクチャにエラーが発生したため、誤分類や準最適実行時間パフォーマンスといった、その固有のリスクをもたらします。 それに加えて、Deep Neural Networks(DNN)などのAIメソッドを使用して、要求のあるリソース集約的かつ安全クリティカルなタスクを実行し、デプロイされたDNNモデルのパフォーマンスを効果的に向上するために、さまざまな機械学習(ML)コンパイラが開発され、GPUやTPUといったさまざまなハードウェアアクセラレーションデバイスとの互換性が実現されている。 さらに、コンパイルプロセスの正確性を検証する必要がある。 本稿では、開発者や研究者がMLコンパイラを介して異なるハードウェアアクセラレータにデプロイされるDNNモデルの堅牢性を調べるために、異なるハードウェアアクセラレータへのデプロイ状況において、突然変異テストとモデル解析機能を提供するツールであるMutateNNを提案する。 mutatennの機能を示すために,画像分類に使用される7つの確立されたモデルに突然変異テストを適用することにより,画像認識領域に注目する。 6つのカテゴリの21の変異を指示し、様々な能力を持つ4つの異なるハードウェアアクセラレーションデバイスにミュータントをデプロイする。 以上の結果から,モデルは層修正や算術演算子による変化に対して頑健であることが証明され,条件演算子に関連するミュータントでは最大90.3%の相違が認められた。 また,変数の算術型に関連する変異に対して予期せぬ性能劣化が観察され,全てのデータセット入力に対して同じ分類が得られた。

The increased utilization of Artificial Intelligence (AI) solutions brings with it inherent risks, such as misclassification and sub-optimal execution time performance, due to errors introduced in their deployment infrastructure because of problematic configuration and software faults. On top of that, AI methods such as Deep Neural Networks (DNNs) are utilized to perform demanding, resource-intensive and even safety-critical tasks, and in order to effectively increase the performance of the DNN models deployed, a variety of Machine Learning (ML) compilers have been developed, allowing compatibility of DNNs with a variety of hardware acceleration devices, such as GPUs and TPUs. Furthermore the correctness of the compilation process should be verified. In order to allow developers and researchers to explore the robustness of DNN models deployed on different hardware accelerators via ML compilers, in this paper we propose MutateNN, a tool that provides mutation testing and model analysis features in the context of deployment on different hardware accelerators. To demonstrate the capabilities of MutateNN, we focus on the image recognition domain by applying mutation testing to 7 well-established models utilized for image classification. We instruct 21 mutations of 6 different categories, and deploy our mutants on 4 different hardware acceleration devices of varying capabilities. Our results indicate that models are proven robust to changes related to layer modifications and arithmetic operators, while presenting discrepancies of up to 90.3% in mutants related to conditional operators. We also observed unexpectedly severe performance degradation on mutations related to arithmetic types of variables, leading the mutants to produce the same classifications for all dataset inputs.
翻訳日:2024-02-02 19:36:20 公開日:2024-01-31
# Code Llama: コードのためのオープンファンデーションモデル

Code Llama: Open Foundation Models for Code ( http://arxiv.org/abs/2308.12950v3 )

ライセンス: Link先を確認
Baptiste Rozi\`ere, Jonas Gehring, Fabian Gloeckle, Sten Sootla, Itai Gat, Xiaoqing Ellen Tan, Yossi Adi, Jingyu Liu, Romain Sauvestre, Tal Remez, J\'er\'emy Rapin, Artyom Kozhevnikov, Ivan Evtimov, Joanna Bitton, Manish Bhatt, Cristian Canton Ferrer, Aaron Grattafiori, Wenhan Xiong, Alexandre D\'efossez, Jade Copet, Faisal Azhar, Hugo Touvron, Louis Martin, Nicolas Usunier, Thomas Scialom, Gabriel Synnaeve(参考訳) Code Llamaは、Llama 2に基づくコードのための大規模言語モデルのファミリーで、オープンモデル間の最先端のパフォーマンス、インフィル機能、大きな入力コンテキストのサポート、プログラミングタスクのゼロショットインストラクションに続く機能を提供します。 ファンデーションモデル(Code Llama)、Pythonの特殊化(Code Llama - Python)、命令追従モデル(Code Llama - Instruct)、それぞれ7B、13B、34B、70Bパラメータを持つ。 すべてのモデルは16kトークンのシーケンスでトレーニングされ、最大10kトークンによる入力の改善を示す。 7B, 13B, 70B Code Llamaと Code Llama - 周辺コンテンツに基づいたインフィルをサポートする命令型。 Code Llamaは、いくつかのコードベンチマークで、HumanEvalとMBPPでそれぞれ67%と65%のスコアで、最先端のパフォーマンスを達成した。 特に、code llama - python 7bはhumanevalとmbppのllama 2 70bよりも優れています。 私たちはCode Llamaをパーミッシブライセンスでリリースし、研究と商用の両方の使用を可能にします。

We release Code Llama, a family of large language models for code based on Llama 2 providing state-of-the-art performance among open models, infilling capabilities, support for large input contexts, and zero-shot instruction following ability for programming tasks. We provide multiple flavors to cover a wide range of applications: foundation models (Code Llama), Python specializations (Code Llama - Python), and instruction-following models (Code Llama - Instruct) with 7B, 13B, 34B and 70B parameters each. All models are trained on sequences of 16k tokens and show improvements on inputs with up to 100k tokens. 7B, 13B and 70B Code Llama and Code Llama - Instruct variants support infilling based on surrounding content. Code Llama reaches state-of-the-art performance among open models on several code benchmarks, with scores of up to 67% and 65% on HumanEval and MBPP, respectively. Notably, Code Llama - Python 7B outperforms Llama 2 70B on HumanEval and MBPP, and all our models outperform every other publicly available model on MultiPL-E. We release Code Llama under a permissive license that allows for both research and commercial use.
翻訳日:2024-02-02 19:28:53 公開日:2024-01-31
# GPTを活用した「ギターピッグトライアル」 : 企業競争と協力研究のための新しいスマートエージェントベースモデリングアプローチ

"Guinea Pig Trials" Utilizing GPT: A Novel Smart Agent-Based Modeling Approach for Studying Firm Competition and Collusion ( http://arxiv.org/abs/2308.10974v4 )

ライセンス: Link先を確認
Xu Han, Zengqing Wu, Chuan Xiao(参考訳) 企業間のコミュニケーションを考えるとき、企業競争と共謀は複雑なダイナミクスを伴う。 このような問題は複雑なシステムの問題としてモデル化することができ、伝統的に人体やエージェントベースのモデリング手法を含む実験を通じてアプローチされる。 我々は,gpt-4技術が支援するスマートエージェントが企業を代表し,相互に対話する,smart agent-based modeling(sabm)という革新的なフレームワークを提案する。 様々な条件下で企業価格競争と結束行動を研究するための制御実験を行った。 SABMは、人間の被験者による実験よりもコスト効率が高く、柔軟である。 スマートエージェントは意思決定のための広範な知識基盤を持ち、従来のABMエージェントを超越した人間のような戦略能力を示す。 さらに、スマートエージェントは人間の会話をシミュレートしてパーソナライズすることができ、コミュニケーションに関わる複雑な状況を研究するのに最適である。 その結果, コミュニケーションの欠如により, スマートエージェントは相変わらず暗黙の結束に到達し, 価格がベルトランド均衡価格よりも高く, モノポリーやカルテル価格よりも低い水準で収束することが示された。 通信が許可されると、スマートエージェントはカルテル価格に近い価格で高いレベルの共謀を達成する。 協調はコミュニケーションによってより速く形成され、価格収束はそれなしではよりスムーズである。 これらの結果から,企業間の信頼関係が向上し,高水準の勝敗状況の機会を探究し,価格戦争を引き起こす可能性を低減するため,頻繁な価格変動を促すことが示唆された。 また,行動の差異を分析するために,企業に対して異なるペルソナを割り当て,多様な市場構造の下でモデルの検証を行った。 この結果はSABMの有効性と堅牢性を示し,競争と共謀に関する興味深い洞察を与える。

Firm competition and collusion involve complex dynamics, particularly when considering communication among firms. Such issues can be modeled as problems of complex systems, traditionally approached through experiments involving human subjects or agent-based modeling methods. We propose an innovative framework called Smart Agent-Based Modeling (SABM), wherein smart agents, supported by GPT-4 technologies, represent firms, and interact with one another. We conducted a controlled experiment to study firm price competition and collusion behaviors under various conditions. SABM is more cost-effective and flexible compared to conducting experiments with human subjects. Smart agents possess an extensive knowledge base for decision-making and exhibit human-like strategic abilities, surpassing traditional ABM agents. Furthermore, smart agents can simulate human conversation and be personalized, making them ideal for studying complex situations involving communication. Our results demonstrate that, in the absence of communication, smart agents consistently reach tacit collusion, leading to prices converging at levels higher than the Bertrand equilibrium price but lower than monopoly or cartel prices. When communication is allowed, smart agents achieve a higher-level collusion with prices close to cartel prices. Collusion forms more quickly with communication, while price convergence is smoother without it. These results indicate that communication enhances trust between firms, encouraging frequent small price deviations to explore opportunities for a higher-level win-win situation and reducing the likelihood of triggering a price war. We also assigned different personas to firms to analyze behavioral differences and tested variant models under diverse market structures. The findings showcase the effectiveness and robustness of SABM and provide intriguing insights into competition and collusion.
翻訳日:2024-02-02 19:27:10 公開日:2024-01-31
# CATS v2: 堅牢な医療セグメント化のためのハイブリッドエンコーダ

CATS v2: Hybrid encoders for robust medical segmentation ( http://arxiv.org/abs/2308.06377v3 )

ライセンス: Link先を確認
Hao Li, Han Liu, Dewei Hu, Xing Yao, Jiacheng Wang, Ipek Oguz(参考訳) 畳み込みニューラルネットワーク(CNN)は、エッジやテクスチャといった高レベルな(ローカルな)情報をキャプチャすることで、医用画像セグメンテーションタスクにおいて強力なパフォーマンスを示した。 しかし、畳み込みカーネルの視野が限られているため、CNNがグローバル情報を完全に表現することは困難である。 近年,医療画像のセグメンテーションにおいて,長距離依存関係をモデル化する能力により,トランスフォーマーの性能が向上している。 それでもトランスフォーマーはcnnのような高レベルな空間的特徴を効果的に捉えるのに苦労している。 優れたセグメンテーションモデルは、ローカル機能とグローバル機能の両方が正確かつセマンティックに正確であるように、より良い表現を学ぶべきです。 本稿では,トランスエンコーダを付加したU字型セグメンテーションネットワークであるCATSを提案する。 本研究では,このモデルをさらに拡張し,ハイブリッドエンコーダを用いたCATS v2を提案する。 特に、ハイブリッドエンコーダは、CNNベースのエンコーダパスからなり、シフトウィンドウを持つトランスフォーマーパスに平行して、ローカル情報とグローバル情報の両方を利用して、堅牢な3次元医用画像セグメンテーションを生成する。 我々は、異なる解像度のスキップ接続で畳み込みエンコーダとトランスから情報を融合し、最終的なセグメンテーションを形成する。 提案手法は, Cranial Vault(BTCV), Cross-Modality Domain Adaptation(CrossMoDA), Task 5 of Medical Segmentation Decathlon(MSD-5), Task 5 of abdominal organs(VS)とpreibular schwannoma(VS)の3つの公開課題データセットで評価した。 提案手法は最先端の手法と比較して高いDiceスコアの点で優れた性能を示す。 私たちのコードはhttps://github.com/MedICL-VU/CATS.comで公開されています。

Convolutional Neural Networks (CNNs) have exhibited strong performance in medical image segmentation tasks by capturing high-level (local) information, such as edges and textures. However, due to the limited field of view of convolution kernel, it is hard for CNNs to fully represent global information. Recently, transformers have shown good performance for medical image segmentation due to their ability to better model long-range dependencies. Nevertheless, transformers struggle to capture high-level spatial features as effectively as CNNs. A good segmentation model should learn a better representation from local and global features to be both precise and semantically accurate. In our previous work, we proposed CATS, which is a U-shaped segmentation network augmented with transformer encoder. In this work, we further extend this model and propose CATS v2 with hybrid encoders. Specifically, hybrid encoders consist of a CNN-based encoder path paralleled to a transformer path with a shifted window, which better leverage both local and global information to produce robust 3D medical image segmentation. We fuse the information from the convolutional encoder and the transformer at the skip connections of different resolutions to form the final segmentation. The proposed method is evaluated on three public challenge datasets: Beyond the Cranial Vault (BTCV), Cross-Modality Domain Adaptation (CrossMoDA) and task 5 of Medical Segmentation Decathlon (MSD-5), to segment abdominal organs, vestibular schwannoma (VS) and prostate, respectively. Compared with the state-of-the-art methods, our approach demonstrates superior performance in terms of higher Dice scores. Our code is publicly available at https://github.com/MedICL-VU/CATS.
翻訳日:2024-02-02 19:26:22 公開日:2024-01-31
# Qibolab: オープンソースのハイブリッド量子オペレーティングシステム

Qibolab: an open-source hybrid quantum operating system ( http://arxiv.org/abs/2308.06313v2 )

ライセンス: Link先を確認
Stavros Efthymiou, Alvaro Orgaz-Fuertes, Rodolfo Carobene, Juan Cereijo, Andrea Pasquale, Sergi Ramos-Calderer, Simone Bordoni, David Fuentes-Ruiz, Alessandro Candido, Edoardo Pedicillo, Matteo Robbiati, Yuanzheng Paul Tan, Jadwiga Wilkens, Ingo Roth, Jos\'e Ignacio Latorre, Stefano Carrazza(参考訳) 我々はqibo量子コンピューティングミドルウェアフレームワークと統合された量子ハードウェア制御のためのオープンソースソフトウェアライブラリqibolabを提案する。 Qibolabは、カスタムのセルフホスト量子ハードウェアプラットフォーム上でサーキットベースのアルゴリズムを自動実行するために必要なソフトウェア層を提供する。 本稿では,機器,トランスパイラ,最適化アルゴリズムのためのパルス指向ドライバによる量子制御へのプログラム的アクセスを提供するためのオブジェクトセットを提案する。 qibolabを使えば、実験家や開発者は、量子コンピューティングアルゴリズムを拡張可能なハードウェアに依存しない方法で、量子コンピューティングアルゴリズムの展開を標準化できるように、ハードウェア実装の複雑な側面をライブラリに委譲することができる。 まず、ライブラリの全てのコンポーネントの状態を説明し、次に超伝導量子ビットプラットフォームの制御設定の例を示す。 最後に,回路ベースのアルゴリズムに関する応用結果を示す。

We present Qibolab, an open-source software library for quantum hardware control integrated with the Qibo quantum computing middleware framework. Qibolab provides the software layer required to automatically execute circuit-based algorithms on custom self-hosted quantum hardware platforms. We introduce a set of objects designed to provide programmatic access to quantum control through pulses-oriented drivers for instruments, transpilers and optimization algorithms. Qibolab enables experimentalists and developers to delegate all complex aspects of hardware implementation to the library so they can standardize the deployment of quantum computing algorithms in a extensible hardware-agnostic way, using superconducting qubits as the first officially supported quantum technology. We first describe the status of all components of the library, then we show examples of control setup for superconducting qubits platforms. Finally, we present successful application results related to circuit-based algorithms.
翻訳日:2024-02-02 19:25:47 公開日:2024-01-31
# smarla: 深層強化学習エージェントのための安全性監視手法

SMARLA: A Safety Monitoring Approach for Deep Reinforcement Learning Agents ( http://arxiv.org/abs/2308.02594v2 )

ライセンス: Link先を確認
Amirhossein Zolfagharian, Manel Abdellatif, Lionel C. Briand, and Ramesh S(参考訳) 深層強化学習アルゴリズム(drl)は安全性クリティカルなシステムでますます使われている。 DRLエージェントの安全性を確保することは、このような文脈において重要な関心事である。 しかし、安全性を保証するにはテストのみに頼るだけでは十分ではない。 安全モニターの構築は、この課題を軽減するためのソリューションのひとつだ。 本稿では,DRLエージェントを対象とした機械学習による安全監視手法SMARLAを提案する。 SMARLAはブラックボックス(エージェントの内部や訓練データへのアクセスを必要としないため)として設計されており、状態抽象化を活用して状態空間を減らし、エージェントの状態から安全違反予測モデルの学習を容易にする。 SMARLAを2つの有名なRL症例で検討した。 経験的分析により、SMARLAは偽陽性率の低い正確な違反予測を達成し、違反が起こる前にエージェントの実行のほぼ途中で、早期に安全違反を予測できることが明らかになった。

Deep reinforcement learning algorithms (DRL) are increasingly being used in safety-critical systems. Ensuring the safety of DRL agents is a critical concern in such contexts. However, relying solely on testing is not sufficient to ensure safety as it does not offer guarantees. Building safety monitors is one solution to alleviate this challenge. This paper proposes SMARLA, a machine learning-based safety monitoring approach designed for DRL agents. For practical reasons, SMARLA is designed to be black-box (as it does not require access to the internals or training data of the agent) and leverages state abstraction to reduce the state space and thus facilitate the learning of safety violation prediction models from agent's states. We validated SMARLA on two well-known RL case studies. Empirical analysis reveals that SMARLA achieves accurate violation prediction with a low false positive rate, and can predict safety violations at an early stage, approximately halfway through the agent's execution before violations occur.
翻訳日:2024-02-02 19:25:11 公開日:2024-01-31
# 単層グラフェン中の超臨界不純物クラスターの空間電荷とスクリーニング

Space charge and screening of a supercritical impurity cluster in monolayer graphene ( http://arxiv.org/abs/2309.02199v2 )

ライセンス: Link先を確認
Eugene B. Kolomeisky and Joseph P. Straley(参考訳) coulomb impurity of charge $ze$ は、z$ が物質の微細構造定数 $\alpha$ で設定された1/2\alpha$ の臨界値を超える場合、スクリーニング空間電荷の生成に関して未ドープグラフェンの基底状態を不安定にすることが知られている。 最近の実験的進歩により、臨界点を越えて$z$をチューニングすることで、この遷移を制御できるようになりました。 これは比較的大きな値である$\alpha$と組み合わせることで、スクリーニング電荷が大きい場合の超臨界不純物$z\alpha\gg1$に対するグラフェンのスクリーニング反応を研究できる可能性を開く。 この方法でのスクリーニングの性格は、無次元スクリーニングパラメータ$z\alpha^{2}$によって制御される。 具体的には、円不純物クラスターの場合、弱いスクリーニング体制である$Z\alpha^{2}\ll1$のスクリーニング電荷のほとんどは、クラスタの外側に存在する。 強い遮蔽状態である$z\alpha^{2}\gg1$ はトムソン原子の実現をもたらす: 遮蔽電荷の大部分は、空間電荷の残りの電荷が局所化されているクラスタのエッジ付近の遷移層を除いて、ほぼ完全に源電荷を中和する。

Coulomb impurity of charge $Ze$ is known to destabilize the ground state of undoped graphene with respect to creation of screening space charge if $Z$ exceeds a critical value of $1/2\alpha$ set by material's fine structure constant $\alpha$. Recent experimental advances made it possible to explore this transition in a controlled manner by tuning $Z$ across the critical point. Combined with relatively large value of $\alpha$ this opens a possibility to study graphene's screening response to a supercritical impurity $Z\alpha\gg1$ when the screening charge is large, and the Thomas-Fermi analysis, that we revisit, is adequate. The character of screening in this regime is controlled by the dimensionless screening parameter $Z\alpha^{2}$. Specifically, for circular impurity cluster most of the screening charge in the weak-screening regime $Z\alpha^{2}\ll1$ is found to reside outside the cluster. The strong-screening regime $Z\alpha^{2}\gg1$ provides a realization of the Thomson atom: most of the screening charge is inside the cluster nearly perfectly neutralizing the source charge with the exception of a transition layer near cluster's edge where the rest of the space charge is localized.
翻訳日:2024-02-02 19:12:28 公開日:2024-01-31
# Hilbert-P'olya Conjecture に対するハミルトニアン

Hamiltonian for the Hilbert-P\'olya Conjecture ( http://arxiv.org/abs/2309.00405v3 )

ライセンス: Link先を確認
Enderalp Yakaboylu(参考訳) 半直線上の数演算子を用いることで、ベリー-キーティングハミルトニアンをヒルベルト-p\'olya予想のハミルトニアンに写像する類似性変換を導入する。 導入されたハミルトンの固有函数は、リーマンゼータ函数の非自明な零点によってディリクレ境界で消える。 その結果、固有値は非自明リーマン零点によって決定される。 リーマン予想(RH)が真であれば、固有値は実数となり、非自明リーマン零点の虚部を表す。 逆に、ハミルトニアンが自己随伴である、あるいはより一般的には、実固有値のみを認めるならば、rh は従う。 後者を示す試みとして、ディリクレ境界条件自身が積分境界条件として表されるメルリン空間におけるハミルトニアンに対する対応する微分作用素を同定する。 ハミルトンは加重ヒルベルト空間の領域に自己随伴し、与えられた境界条件によって指定され、すべての固有値が実であることを保証する。 我々の結果は、零点が臨界線上にあるより広い種類の函数に拡張することができる。

By using the number operator on the half-line, we introduce a similarity transformation that maps the Berry-Keating Hamiltonian to a Hamiltonian for the Hilbert-P\'olya conjecture. The eigenfunctions of the introduced Hamiltonian vanish at the Dirichlet boundary by the nontrivial zeros of the Riemann zeta function. Consequently, the eigenvalues are determined by the nontrivial Riemann zeros. If the Riemann hypothesis (RH) is true, the eigenvalues become real and represent the imaginary parts of the nontrivial Riemann zeros. Conversely, if the Hamiltonian is self-adjoint, or more generally, admits only real eigenvalues, then the RH follows. In an attempt to show the latter, we identify the corresponding differential operator for the Hamiltonian in the Mellin space, where the Dirichlet boundary condition manifests itself as an integral boundary condition. It is shown that the Hamiltonian is self-adjoint on the domain of a weighted Hilbert space, specified by the imposed boundary condition, thereby ensuring that its every eigenvalue is real. Our result can be extended to a wider class of functions whose zeros lie on the critical line.
翻訳日:2024-02-02 19:12:06 公開日:2024-01-31
# オークションに基づくスケジューリング

Auction-Based Scheduling ( http://arxiv.org/abs/2310.11798v2 )

ライセンス: Link先を確認
Guy Avni, Kaushik Mallik, Suman Sadhukhan(参考訳) 多くのシーケンシャルな意思決定タスクは、複数の部分的に矛盾する目的の満足度を必要とする。 既存のアプローチはモノリシックで、すなわち、アクションのシーケンスを選択する関数である単一のポリシを使用して、すべての目的を達成している。 本稿では,多目的意思決定問題に対するモジュラーフレームワークであるオークションベースのスケジューリングを提案する。 それぞれの目的は別々のポリシーを使用して達成され、ポリシーは独立して作成、変更、置換が可能である。 当然のことながら、相反する目標を持つ異なる政策は、同時に相反する行動を選択することがある。 紛争を解決し、政策を構成するために、我々は新しいオークションベースのメカニズムを採用する。 我々は、各政策に制限付き予算を割り当て、各段階において、スケジュールされ、行動を選択する特権のために、利用可能な予算から同時に政策を入札する。 ポリシーは入札と境界予算を使ってスケジュールの緊急性を表現し、長期のスケジュールの公平性を保証する。 2つの時間目標を持つ有限グラフ上の経路計画問題を用いたオークションベースのスケジューリングの基礎を提示する。 我々は,2つのポリシー,当初割り当てられた予算,入札戦略を合成する分散アルゴリズムを提案する。 我々は、政策が相互に行う仮定によってパラメータ化される分散合成問題の3つのカテゴリを考察する。 (a)強い合成、仮定なし、強い保証なし。 (b)最弱理性仮定による前提許容合成、及び (c) 明示的な契約に基づく仮定を伴う前提保証合成。 到達可能性の目的に対して、すべての頂点の外度が少なくとも2つであるとき、驚くほど、非集中的な仮定許容合成が常に可能であることを示す。

Many sequential decision-making tasks require satisfaction of multiple, partially contradictory objectives. Existing approaches are monolithic, namely all objectives are fulfilled using a single policy, which is a function that selects a sequence of actions. We present auction-based scheduling, a modular framework for multi-objective decision-making problems. Each objective is fulfilled using a separate policy, and the policies can be independently created, modified, and replaced. Understandably, different policies with conflicting goals may choose conflicting actions at a given time. In order to resolve conflicts, and compose policies, we employ a novel auction-based mechanism. We allocate a bounded budget to each policy, and at each step, the policies simultaneously bid from their available budgets for the privilege of being scheduled and choosing an action. Policies express their scheduling urgency using their bids and the bounded budgets ensure long-run scheduling fairness. We lay the foundations of auction-based scheduling using path planning problems on finite graphs with two temporal objectives. We present decentralized algorithms to synthesize a pair of policies, their initially allocated budgets, and bidding strategies. We consider three categories of decentralized synthesis problems, parameterized by the assumptions that the policies make on each other: (a) strong synthesis, with no assumptions and strongest guarantees, (b) assume-admissible synthesis, with weakest rationality assumptions, and (c) assume-guarantee synthesis, with explicit contract-based assumptions. For reachability objectives, we show that, surprisingly, decentralized assume-admissible synthesis is always possible when the out-degrees of all vertices are at most two.
翻訳日:2024-02-02 19:01:52 公開日:2024-01-31
# 時系列予測のためのデコーダ専用基礎モデル

A decoder-only foundation model for time-series forecasting ( http://arxiv.org/abs/2310.10688v2 )

ライセンス: Link先を確認
Abhimanyu Das, Weihao Kong, Rajat Sen, Yichen Zhou(参考訳) 自然言語処理のための大規模言語モデル(nlp)の最近の進歩に動機づけられ、様々なパブリックデータセットにおけるゼロショット性能が各データセットに対する最先端の教師付き予測モデルの精度に近い予測のための時系列基礎モデルを設計する。 提案モデルは,大規模時系列コーパス上でパッチドデコーダ方式の注意モデルを事前学習し,予測履歴長,予測長,時間的粒度など,様々な予測にまたがってうまく機能する。

Motivated by recent advances in large language models for Natural Language Processing (NLP), we design a time-series foundation model for forecasting whose out-of-the-box zero-shot performance on a variety of public datasets comes close to the accuracy of state-of-the-art supervised forecasting models for each individual dataset. Our model is based on pretraining a patched-decoder style attention model on a large time-series corpus, and can work well across different forecasting history lengths, prediction lengths and temporal granularities.
翻訳日:2024-02-02 19:01:09 公開日:2024-01-31
# InstructRetro: Retrieval-Augmented Pretrainingのインストラクションチューニング

InstructRetro: Instruction Tuning post Retrieval-Augmented Pretraining ( http://arxiv.org/abs/2310.07713v2 )

ライセンス: Link先を確認
Boxin Wang, Wei Ping, Lawrence McAfee, Peng Xu, Bo Li, Mohammad Shoeybi, Bryan Catanzaro(参考訳) 自動回帰型大言語モデル (LLM) の検索による事前学習は, 外部データベースを活用することにより, 難易度と事実精度が向上することを示す。 しかし、既存の事前訓練された検索拡張LDMのサイズは依然として制限されており(例えばRetroは7.5Bパラメータを持つ)、命令チューニングとゼロショットの一般化の有効性を制限している。 本稿では,検索を前提としたLLMであるRetro 48Bを紹介する。 具体的には、12兆のトークンから検索することでRetro拡張法を用いて、さらに1000億のトークンに43BのGPTモデルを事前訓練し続けます。 特に、得られたファウンデーションモデルであるretro 48bは、1.2tトークンでトレーニングされたgpt 43bを2.58%追加のgpu時間で上回っており、この方法の重要なスケーリング可能性を示している。 レトロでの命令チューニングの後、instructretroは幅広いゼロショットタスクでチューニングされたgptよりも大幅な改善を示す。 具体的には、InstructRetroの平均的な改善は、8つの短い形式QAにまたがるGPTよりも7%、長い形式QAに10%、そして3つの要約タスクに16%である。 驚いたことに、instructretroアーキテクチャからエンコーダを外すことができ、デコーダバックボーンを直接使用でき、同等の結果を得ることができる。 提案手法は,学習前の検索を継続し,より優れたGPTデコーダを得るための有望な方向を示すものである。 私たちのコードとチェックポイントは、https://github.com/NVIDIA/Megatron-LM/tree/InstructRetro/tools/retroで公開されています。

Pretraining auto-regressive large language models (LLMs) with retrieval demonstrates better perplexity and factual accuracy by leveraging external databases. However, the size of existing pretrained retrieval-augmented LLM is still limited (e.g., Retro has 7.5B parameters), which limits the effectiveness of instruction tuning and zero-shot generalization. In this work, we introduce Retro 48B, the largest LLM pretrained with retrieval. Specifically, we continue to pretrain a 43B GPT model on additional 100 billion tokens using the Retro augmentation method by retrieving from 1.2 trillion tokens. Notably, the obtained foundation model, Retro 48B, largely outperforms the counterpart GPT 43B trained on 1.2T tokens in terms of perplexity with only 2.58% additional GPU hours, demonstrating the significant scaling potential of the method. After instruction tuning on Retro, InstructRetro demonstrates significant improvement over the instruction tuned GPT on a wide range of zero-shot tasks. Specifically, the average improvement of InstructRetro is 7% over its GPT counterpart across 8 short-form QA and reading comprehension tasks, 10% over GPT across 4 challenging long-form QA tasks, and 16% over GPT across 3 summarization tasks. Surprisingly, we find that one can ablate the encoder from InstructRetro architecture and directly use its decoder backbone, while achieving comparable results. Our results highlight the promising direction to obtain a better GPT decoder through continued pretraining with retrieval before instruction tuning. Our code and checkpoints are publicly available at: https://github.com/NVIDIA/Megatron-LM/tree/InstructRetro/tools/retro.
翻訳日:2024-02-02 19:00:35 公開日:2024-01-31
# 拡散モデルの暗黙的概念除去

Implicit Concept Removal of Diffusion Models ( http://arxiv.org/abs/2310.05873v4 )

ライセンス: Link先を確認
Zhili Liu, Kai Chen, Yifan Zhang, Jianhua Han, Lanqing Hong, Hang Xu, Zhenguo Li, Dit-Yan Yeung, James Kwok(参考訳) テキスト・ツー・イメージ(T2I)拡散モデルはしばしば、透かしや安全でない画像のような望ましくない概念を生成する。 これらの概念は「単純概念」と呼ばれ、訓練中に意図せず学習され、推論中に制御不能に生成される。 既存の削除メソッドは、主にモデルが実際に認識できない概念を認識する能力に依存しているため、暗黙的な概念を排除するのに苦労している。 そこで我々は,暗黙的概念の内在的幾何学的特徴を活用し,幾何学的制御に基づく新しい概念除去手法Geom-Erasingを提案する。 具体的には、不要な暗黙的な概念が特定されると、概念の存在と幾何学的情報をテキストプロンプトに統合し、アクセス可能な分類器や検出器モデルの助けを借ります。 その後、モデルは、生成のための負のプロンプトとして採用される、この情報を識別し、切り離すように最適化される。 さらに、暗黙的概念が容易に注入される現実の状況を反映した3つの典型的な暗黙的概念(QRコード、透かし、テキスト)を組み込んだ新しい画像テキストデータセットであるImplicit Concept Dataset(ICD)を導入する。 Geom-Erasingは暗黙的な概念の生成を効果的に軽減し、不適切なイメージプロンプト(I2P)と我々の挑戦的なImplicit Concept Dataset(ICD)ベンチマークで最先端の結果を達成する。

Text-to-image (T2I) diffusion models often inadvertently generate unwanted concepts such as watermarks and unsafe images. These concepts, termed as the "implicit concepts", could be unintentionally learned during training and then be generated uncontrollably during inference. Existing removal methods still struggle to eliminate implicit concepts primarily due to their dependency on the model's ability to recognize concepts it actually can not discern. To address this, we utilize the intrinsic geometric characteristics of implicit concepts and present the Geom-Erasing, a novel concept removal method based on geometric-driven control. Specifically, once an unwanted implicit concept is identified, we integrate the existence and geometric information of the concept into text prompts with the help of an accessible classifier or detector model. Subsequently, the model is optimized to identify and disentangle this information, which is adopted as negative prompts for generation. Moreover, we introduce Implicit Concept Dataset (ICD), a novel image-text dataset imbued with three typical implicit concepts (i.e., QR codes, watermarks, and text), reflecting real-life situations where implicit concepts are easily injected. Geom-Erasing effectively mitigates the generation of implicit concepts, achieving state-of-the-art results on the Inappropriate Image Prompts (I2P) and our challenging Implicit Concept Dataset (ICD) benchmarks.
翻訳日:2024-02-02 19:00:03 公開日:2024-01-31
# 制約HRT表面とそのエントロピー解釈

Constrained HRT Surfaces and their Entropic Interpretation ( http://arxiv.org/abs/2311.18290v3 )

ライセンス: Link先を確認
Xi Dong, Donald Marolf and Pratik Rath(参考訳) 共通境界コーシー曲面にある2つの境界部分領域$A$と$B$を考え、関連するHRT曲面$\gamma_B$ for $B$を考える。 この文脈において、制約付き HRT 曲面 $\gamma_{A:B}$ は、$A$ に固定された余次元2バルク曲面として定義することができ、これは$\gamma_B$ を含むコーシースライスに制限された最大構成によって得られる。 その結果、$\gamma_{A:B}$ は 2 つのピースの和 $\gamma^B_{A:B}$ と $\gamma^{\bar B}_{A:B}$ はそれぞれ$B$ の絡み合いのくさびと、その補集合 $\gamma B$ である。 hrt曲面の領域 $\mathcal{a}\left(\gamma_a\right)$ とは異なり、少なくとも半古典的極限では、領域 $\mathcal{a}\left(\gamma_{a:b}\right)$ は$\gamma_{a:b}$ であり、領域 $\mathcal{a}\left(\gamma_b\right)$ は$\gamma_b$ である。 $\mathcal{A}\left(\gamma_{A:B}\right)$ のエントロピー解釈を研究するために、サブリージョン $A$ の R'enyi エントロピーを、サブリージョン $B$ の固定領域状態において解析する。 重力経路積分を用いて、$n\approx1$ R\enyiエントロピーが$\mathcal{A}\left(\gamma_A\right)$を、$\mathcal{A}\left(\gamma_B\right)$に共役して定義される時空上で最小化することを示す。 一定のブースト角で交わる、$\gamma^b_{a:b}$ と $\gamma^{\bar b}_{a:b}$ が交わる場合、幾何学的議論により、$n\approx1$ r\'enyi entropy は $\frac{\mathcal{a}(\gamma_{a:b})}{4g}$ によって与えられる。 我々は、$n\approx1$ R'enyiエントロピーが、$n\to1$と$G\to0$の可換性の欠如により、フォン・ノイマンエントロピーとどのように異なるかについて議論する。 固定領域状態の幅の関数として挙動がどのように変化するかについても論じる。 以上の結果は,標準ランダムテンソルネットワークを用いた時間依存幾何学表現の試みに関連するいくつかの問題に関連している。

Consider two boundary subregions $A$ and $B$ that lie in a common boundary Cauchy surface, and consider also the associated HRT surface $\gamma_B$ for $B$. In that context, the constrained HRT surface $\gamma_{A:B}$ can be defined as the codimension-2 bulk surface anchored to $A$ that is obtained by a maximin construction restricted to Cauchy slices containing $\gamma_B$. As a result, $\gamma_{A:B}$ is the union of two pieces, $\gamma^B_{A:B}$ and $\gamma^{\bar B}_{A:B}$ lying respectively in the entanglement wedges of $B$ and its complement $\bar B$. Unlike the area $\mathcal{A}\left(\gamma_A\right)$ of the HRT surface $\gamma_A$, at least in the semiclassical limit, the area $\mathcal{A}\left(\gamma_{A:B}\right)$ of $\gamma_{A:B}$ commutes with the area $\mathcal{A}\left(\gamma_B\right)$ of $\gamma_B$. To study the entropic interpretation of $\mathcal{A}\left(\gamma_{A:B}\right)$, we analyze the R\'enyi entropies of subregion $A$ in a fixed-area state of subregion $B$. We use the gravitational path integral to show that the $n\approx1$ R\'enyi entropies are then computed by minimizing $\mathcal{A}\left(\gamma_A\right)$ over spacetimes defined by a boost angle conjugate to $\mathcal{A}\left(\gamma_B\right)$. In the case where the pieces $\gamma^B_{A:B}$ and $\gamma^{\bar B}_{A:B}$ intersect at a constant boost angle, a geometric argument shows that the $n\approx1$ R\'enyi entropy is then given by $\frac{\mathcal{A}(\gamma_{A:B})}{4G}$. We discuss how the $n\approx1$ R\'enyi entropy differs from the von Neumann entropy due to a lack of commutativity of the $n\to1$ and $G\to0$ limits. We also discuss how the behaviour changes as a function of the width of the fixed-area state. Our results are relevant to some of the issues associated with attempts to use standard random tensor networks to describe time dependent geometries.
翻訳日:2024-02-02 18:51:18 公開日:2024-01-31
# 知識集約型タスクの合理化としての大規模言語モデルの特徴付け

Characterizing Large Language Models as Rationalizers of Knowledge-intensive Tasks ( http://arxiv.org/abs/2311.05085v2 )

ライセンス: Link先を確認
Aditi Mishra and Sajjadur Rahman and Hannah Kim and Kushan Mitra and Estevam Hruschka(参考訳) 大規模言語モデル(LLM)は、タスク固有の最小限の監督力を持つ流動的なテキストを生成するのに熟練している。 しかし、知識集約的なタスクに対して十分に根拠のある合理化を提供する能力は、未検討のままである。 このようなタスクは、コモンセンスの多重選択問題のように、予測をサポートし、代替オプションに反論するためには、世界知識に基づいた合理性を必要とする。 専門家による事例を数ショットで表現することで,自然言語における知識誘導的合理化の課題を考察する。 驚いたことに、群衆労働者はクラウドソースの合理化よりも知識に基づく合理化を好んだ。 LLMの生成する論理は好ましいが、簡潔さと新規性をさらに改善する必要がある。 別の研究では、誤ったモデル予測の合理化が、LLM生成の合理性に対する人間の信頼を損なうことを示す。 これらの観察により、タスク予測をレビューし、合理化前の潜在的な誤った決定を排除し、信頼できる合理化生成を可能にする2段階のパイプラインを作成する。

Large language models (LLMs) are proficient at generating fluent text with minimal task-specific supervision. Yet, their ability to provide well-grounded rationalizations for knowledge-intensive tasks remains under-explored. Such tasks, like commonsense multiple-choice questions, require rationales based on world knowledge to support predictions and refute alternate options. We consider the task of generating knowledge-guided rationalization in natural language by using expert-written examples in a few-shot manner. Surprisingly, crowd-workers preferred knowledge-grounded rationales over crowdsourced rationalizations, citing their factuality, sufficiency, and comprehensive refutations. Although LLMs-generated rationales were preferable, further improvements in conciseness and novelty are required. In another study, we show how rationalization of incorrect model predictions erodes humans' trust in LLM-generated rationales. Motivated by these observations, we create a two-stage pipeline to review task predictions and eliminate potential incorrect decisions before rationalization, enabling trustworthy rationale generation.
翻訳日:2024-02-02 18:48:13 公開日:2024-01-31
# Union-free Generic Depthによる機械学習アルゴリズムの比較

Comparing Machine Learning Algorithms by Union-Free Generic Depth ( http://arxiv.org/abs/2312.12839v2 )

ライセンス: Link先を確認
Hannah Blocher, Georg Schollmeyer, Malte Nalenz, Christoph Jansen(参考訳) 本稿では,深度関数の概念に基づく部分順序集合を記述的に解析するフレームワークを提案する。 線形空間や距離空間における集中的な研究にもかかわらず、部分順序のような非標準データ型に対する深さ関数についてはほとんど議論がない。 我々は、よく知られたsimplicial depthをすべての部分順序、union-free generic (ufg) depthの集合に適応させる。 さらに,多次元性能測定に基づく機械学習アルゴリズムの比較のために,我々の ufg 深度を利用する。 具体的には、標準ベンチマークデータセットのサンプルに対する分類器比較の2つの例を示す。 本結果は, ufg 法に基づく多種多様な解析手法を有望に示すものである。 さらに,本手法が既存のベンチマーク手法と大きく異なることを概説し,分類比較に関する活発な議論に新たな視点を加えている。

We propose a framework for descriptively analyzing sets of partial orders based on the concept of depth functions. Despite intensive studies in linear and metric spaces, there is very little discussion on depth functions for non-standard data types such as partial orders. We introduce an adaptation of the well-known simplicial depth to the set of all partial orders, the union-free generic (ufg) depth. Moreover, we utilize our ufg depth for a comparison of machine learning algorithms based on multidimensional performance measures. Concretely, we provide two examples of classifier comparisons on samples of standard benchmark data sets. Our results demonstrate promisingly the wide variety of different analysis approaches based on ufg methods. Furthermore, the examples outline that our approach differs substantially from existing benchmarking approaches, and thus adds a new perspective to the vivid debate on classifier comparison.
翻訳日:2024-02-02 18:37:06 公開日:2024-01-31
# 科学と深層学習における信頼性と解釈可能性

Reliability and Interpretability in Science and Deep Learning ( http://arxiv.org/abs/2401.07359v2 )

ライセンス: Link先を確認
Luigi Scorzato(参考訳) 近年,機械学習(ML)手法の信頼性に関する疑問が重要視され,関連する不確実性の分析が研究の動機となっている。 しかしながら、これらの研究の多くは、標準の誤り解析をMLモデル、特に標準科学的モデリングからかなり離れたディープニューラルネットワーク(DNN)モデルに適用している。 したがって、標準誤差解析を、dnnモデルと標準科学的モデリングの相違の可能性と、これらの相違が信頼性評価に与える影響についてのより深い認識論的分析と統合する必要がある。 この記事にはいくつかの貢献がある。 まず、理論自由科学の錯覚に対するモデル仮定(MLと従来の科学の両方)のユビキタスな役割を強調します。 第二に、モデル仮定は、言語非依存であることが示される、その(エピスティックな)複雑さの観点から分析される。 dnnモデルの高い認識論的複雑性は、その信頼性と長期的な進歩の予測を妨げていると論じている。 今後の可能性も示唆されている。 第3に,責任あるaiの文脈で導入されたモデル認識複雑性とその解釈可能性との密接な関係を明らかにする。 モデル(ブラックボックスの問題)の理解の欠如は、個々のスキルとは無関係な方法で、その解釈可能性に影響を与える。 また、解釈可能性が、統計分析だけでは理解できないあらゆるモデルの信頼性を評価するための前提条件であることも明らかにした。 本稿では,従来の科学的モデルとDNNモデルの比較に焦点を当てる。 しかし、ランダムフォレストやロジスティック回帰モデルも簡単に考慮される。

In recent years, the question of the reliability of Machine Learning (ML) methods has acquired significant importance, and the analysis of the associated uncertainties has motivated a growing amount of research. However, most of these studies have applied standard error analysis to ML models, and in particular Deep Neural Network (DNN) models, which represent a rather significant departure from standard scientific modelling. It is therefore necessary to integrate the standard error analysis with a deeper epistemological analysis of the possible differences between DNN models and standard scientific modelling and the possible implications of these differences in the assessment of reliability. This article offers several contributions. First, it emphasises the ubiquitous role of model assumptions (both in ML and traditional Science) against the illusion of theory-free science. Secondly, model assumptions are analysed from the point of view of their (epistemic) complexity, which is shown to be language-independent. It is argued that the high epistemic complexity of DNN models hinders the estimate of their reliability and also their prospect of long-term progress. Some potential ways forward are suggested. Thirdly, this article identifies the close relation between a model's epistemic complexity and its interpretability, as introduced in the context of responsible AI. This clarifies in which sense, and to what extent, the lack of understanding of a model (black-box problem) impacts its interpretability in a way that is independent of individual skills. It also clarifies how interpretability is a precondition for assessing the reliability of any model, which cannot be based on statistical analysis alone. This article focuses on the comparison between traditional scientific models and DNN models. But, Random Forest and Logistic Regression models are also briefly considered.
翻訳日:2024-02-02 18:25:14 公開日:2024-01-31
# 非エルミート系における生物直交位相電荷ポンプ

Biorthogonal topological charge pumping in non-Hermitian systems ( http://arxiv.org/abs/2401.17564v1 )

ライセンス: Link先を確認
Zhenming Zhang, Tianyu Li, Xiwang Luo, Wei Yi(参考訳) 一般の非エルミート系における電荷ポンプについて検討し,非エルミート型ハミルトニアンの左右固有ベクトルを用いて電荷輸送を評価するバイオカルトゴナル形式の下でのみ量子化電荷ポンプが保証されることを示した。 具体的には、一般の1次元非エルミートモデルにおける生体直交電荷ポンプについて、量子化輸送がパラメータ空間のチャーン数とどのように関連しているかを示す。 非エルミートモデルが非エルミート皮膚効果を持ち、バルク内のブロッホ状態が変形して境界に向かって局所化される場合、一般化ブリルアンゾーンを含むパラメータ空間で定義される非ブロッホチャーン数とポンプ電荷が関連するシナリオを提案する。 本研究は, 実例を用いて解析結果の妥当性を示し, バイオカルトゴナルチャージポンプの文脈で, 損失の多い環境で量子化チャージポンプが観測された最近の実験を詳細に検討した。

We study charge pumping in generic non-Hermitian settings, and show that quantized charge pumping is only guaranteed under a biorthogonal formalism therein, where the charge transport is evaluated using the left and right eigenvectors of the non-Hermitian Hamiltonian. Specifically, for biorthogonal charge pumping in generic one-dimensional non-Hermitian models, we demonstrate how quantized transport is related to the Chern number in the parameter space. When the non-Hermitian model possesses the non-Hermitian skin effect, under which Bloch states in the bulk are deformed and localize toward boundaries, we propose a scenario where the pumped charge is related to the non-Bloch Chern number defined in the parameter space involving the generalized Brillouin zone. We illustrate the validity of our analytic results using concrete examples, and, in the context of the biorthogonal charge pumping, discuss in detail a recent experiment where quantized charge pumping was observed in a lossy environment.
翻訳日:2024-02-02 18:00:12 公開日:2024-01-31
# フェデレーション設定における分解可能部分モジュラ最大化

Decomposable Submodular Maximization in Federated Setting ( http://arxiv.org/abs/2402.00138v1 )

ライセンス: Link先を確認
Akbar Rafiey(参考訳) サブモジュラー関数、および分解可能なサブモジュラー関数のサブクラス、およびそれらの最適化は、機械学習、レコメンデーションシステム、福祉最大化における幅広い応用に現れる。 しかし、数百万の成分関数を持つ分解可能な部分モジュラ関数の最適化は計算上は不可能である。 さらに、コンポーネント関数はプライベートであり(例えば、ユーザー好み関数を表すかもしれない)、広く共有することはできない。 これらの問題に対処するため、分解可能な部分モジュラ最適化のためのフェデレーション最適化設定を提案する。 この設定では、クライアントは独自の好み関数を持ち、これらの好みの重み付けを最大化する必要がある。 この設定では、クライアントはローカルソリューションに向かって並列に小さなローカルステップを踏んで、そのローカルな変更を中央サーバに集約します。 多数のクライアントに対応するために、アグリゲーションはサブサンプルセットでのみ実行される。 さらに、並列ローカルステップのストレッチ間の間欠的にのみアグリゲーションを行い、通信コストを大幅に削減する。 以上のようなコスト削減対策が存在する場合でも,我々のフェデレーションアルゴリズムは近似解が得られることが保証されている。 最後に,最大範囲や施設位置といった基本離散部分モジュラー最適化問題を解くために,フェデレーション設定をどのように組み込むかを示す。

Submodular functions, as well as the sub-class of decomposable submodular functions, and their optimization appear in a wide range of applications in machine learning, recommendation systems, and welfare maximization. However, optimization of decomposable submodular functions with millions of component functions is computationally prohibitive. Furthermore, the component functions may be private (they might represent user preference function, for example) and cannot be widely shared. To address these issues, we propose a {\em federated optimization} setting for decomposable submodular optimization. In this setting, clients have their own preference functions, and a weighted sum of these preferences needs to be maximized. We implement the popular {\em continuous greedy} algorithm in this setting where clients take parallel small local steps towards the local solution and then the local changes are aggregated at a central server. To address the large number of clients, the aggregation is performed only on a subsampled set. Further, the aggregation is performed only intermittently between stretches of parallel local steps, which reduces communication cost significantly. We show that our federated algorithm is guaranteed to provide a good approximate solution, even in the presence of above cost-cutting measures. Finally, we show how the federated setting can be incorporated in solving fundamental discrete submodular optimization problems such as Maximum Coverage and Facility Location.
翻訳日:2024-02-02 17:53:11 公開日:2024-01-31
# 励起状態からの量子トンネル:リアルタイム解析による想像的瞬間の復元

Quantum tunneling from excited states: Recovering imaginary-time instantons from a real-time analysis ( http://arxiv.org/abs/2402.00099v1 )

ライセンス: Link先を確認
Thomas Steingasser, David I. Kaiser(参考訳) 量子トンネルの経路積分記述を再検討し、励起状態に一般化する方法を示す。 明確にするために、我々は2重井戸ポテンシャルにおける点粒子の単純なおもちゃモデルに焦点を合わせ、すべてのステップを明示的に実行する。 物理から虚時への親しみやすいウィック回転(励起状態からのトンネル処理において必要な境界条件と矛盾する)を実行する代わりに、ハミルトニアンに無限小複素寄与を加えて経路積分を定式化し、厳密な実数を保つ。 これはピカール=レフシッツ理論の最近の知見と一致して、複雑な定常相解をもたらす。 次に、対応する運動方程式に対する解析解のクラスが存在することを示し、これは消滅するレギュレータと無限の物理時間との物理的関連極限における適切な境界条件に一致するようにすることができる。 我々はこの非自明な限界について詳細に議論する。 明示的な時間依存を持たない系では、有限ユークリッド時間間隔で定義されるインスタントンのような解の像を再現する。 最後に,高精度計算のための信頼性の高いフレームワークとして機能する,より広い種類のシステムへのアプローチの一般化について論じる。

We revisit the path integral description of quantum tunneling and show how it can be generalized to excited states. For clarity, we focus on the simple toy model of a point particle in a double-well potential, for which we perform all steps explicitly. Instead of performing the familiar Wick rotation from physical to imaginary time - which is inconsistent with the requisite boundary conditions when treating tunneling from excited states - we regularize the path integral by adding an infinitesimal complex contribution to the Hamiltonian, while keeping time strictly real. We find that this gives rise to a complex stationary-phase solution, in agreement with recent insights from Picard-Lefshitz theory. We then show that there exists a class of analytic solutions for the corresponding equations of motion, which can be made to match the appropriate boundary conditions in the physically relevant limits of a vanishing regulator and an infinite physical time. We provide a detailed discussion of this non-trivial limit. We find that, for systems without an explicit time-dependence, our approach reproduces the picture of an instanton-like solution defined on a finite Euclidean-time interval. Lastly, we discuss the generalization of our approach to broader classes of systems, for which it serves as a reliable framework for high-precision calculations.
翻訳日:2024-02-02 17:52:48 公開日:2024-01-31
# 2次元重力における閉宇宙

Closed universes in two dimensional gravity ( http://arxiv.org/abs/2402.00098v1 )

ライセンス: Link先を確認
Mykhaylo Usatyuk, Zi-Yue Wang, Ying Zhao(参考訳) 我々は、物質に結合したジャッキー・タイテルボイム(JT)重力のような2次元重力の単純なモデルと、前者の重要な特徴を捉えるおもちゃのトポロジーモデルで閉じた宇宙を研究する。 我々は、この理論の摂動的側面と非摂動的側面の間には、強いコントラストといくつかの関係があることを発見した。 私たちはリッチな半古典物理学を見つける。 しかし、非摂動効果を含む場合、各理論に一意な閉宇宙状態が存在する。 我々はこの観察の可能な意味と解釈について議論する。

We study closed universes in simple models of two dimensional gravity, such as Jackiw-Teiteilboim (JT) gravity coupled to matter, and a toy topological model that captures the key features of the former. We find there is a stark contrast, as well as some connections, between the perturbative and non-perturbative aspects of the theory. We find rich semi-classical physics. However, when non-perturbative effects are included there is a unique closed universe state in each theory. We discuss possible meanings and interpretations of this observation.
翻訳日:2024-02-02 17:52:25 公開日:2024-01-31
# Code-Aware Prompting:LLMを用いた回帰設定におけるカバーガイドテスト生成の検討

Code-Aware Prompting: A study of Coverage Guided Test Generation in Regression Setting using LLM ( http://arxiv.org/abs/2402.00097v1 )

ライセンス: Link先を確認
Gabriel Ryan, Siddhartha Jain, Mingyue Shang, Shiqi Wang, Xiaofei Ma, Murali Krishna Ramanathan, Baishakhi Ray(参考訳) テストはソフトウェアの品質を確保する上で重要な役割を果たすが、従来のsbst(search based software testing)メソッドは複雑なソフトウェアユニットで苦労し、準最適テストカバレッジを達成する。 テスト生成に大規模な言語モデル(llms)を使用する最近の研究は、テスト生成コンテキストを最適化し、モデル出力のエラーを訂正することで、生成品質を改善することに重点を置いている。 その結果、LLM生成テストスイートは、まだ低カバレッジに悩まされている。 本稿では,テスト生成におけるLLMのコード認識促進戦略であるSymPromptを提案する。 SymPrompt のアプローチは、LLM がより複雑な論理的問題を、多段階的な推論によって解けることを示す最近の研究に基づいている。 この手法をテスト生成に適用し、テストスイート生成プロセスを多段階のシーケンスに分解し、それぞれがテスト対象のメソッドの実行パスに合わせた特定のプロンプトによって駆動され、関連する型と依存関係の焦点コンテキストをモデルに暴露する。 我々のアプローチは、事前訓練されたLLMが追加の訓練をすることなく、より完全なテストケースを生成することを可能にする。 我々はtreesitterパースフレームワークを使ってsympromptを実装し,オープンソースpythonプロジェクトのベンチマーク課題メソッドを評価した。 SymPromptは、正しいテスト世代を5倍に増やし、CodeGen2の相対カバレッジを26%向上させる。 特に、GPT-4に適用すると、シンボリックパスはベースラインのプロンプト戦略に比べて2倍以上のカバレッジを向上させる。

Testing plays a pivotal role in ensuring software quality, yet conventional Search Based Software Testing (SBST) methods often struggle with complex software units, achieving suboptimal test coverage. Recent work using large language models (LLMs) for test generation have focused on improving generation quality through optimizing the test generation context and correcting errors in model outputs, but use fixed prompting strategies that prompt the model to generate tests without additional guidance. As a result LLM-generated test suites still suffer from low coverage. In this paper, we present SymPrompt, a code-aware prompting strategy for LLMs in test generation. SymPrompt's approach is based on recent work that demonstrates LLMs can solve more complex logical problems when prompted to reason about the problem in a multi-step fashion. We apply this methodology to test generation by deconstructing the testsuite generation process into a multi-stage sequence, each of which is driven by a specific prompt aligned with the execution paths of the method under test, and exposing relevant type and dependency focal context to the model. Our approach enables pretrained LLMs to generate more complete test cases without any additional training. We implement SymPrompt using the TreeSitter parsing framework and evaluate on a benchmark challenging methods from open source Python projects. SymPrompt enhances correct test generations by a factor of 5 and bolsters relative coverage by 26% for CodeGen2. Notably, when applied to GPT-4, symbolic path prompts improve coverage by over 2x compared to baseline prompting strategies.
翻訳日:2024-02-02 17:52:15 公開日:2024-01-31
# ディープニューラルネットワーク:非アルキメデス解析による定式化

Deep Neural Networks: A Formulation Via Non-Archimedean Analysis ( http://arxiv.org/abs/2402.00094v1 )

ライセンス: Link先を確認
W. A. Z\'u\~niga-Galindo(参考訳) 本稿では,多層構造を持つディープニューラルネットワーク(dnn)の新たなクラスを提案する。 アーキテクチャは非アルキメデス局所体の整数環の数値を用いて成文化される。 これらの環は無限根木として自然な階層構造を持つ。 これらの環上の自然な射は有限多層構造を構築することができる。 新しいDNNは、上記の環上で定義された実数値関数の強普遍近似である。 また、DNNは単位区間で定義される実数値二乗可積分関数の強普遍近似器であることを示す。

We introduce a new class of deep neural networks (DNNs) with multilayered tree-like architectures. The architectures are codified using numbers from the ring of integers of non-Archimdean local fields. These rings have a natural hierarchical organization as infinite rooted trees. Natural morphisms on these rings allow us to construct finite multilayered architectures. The new DNNs are robust universal approximators of real-valued functions defined on the mentioned rings. We also show that the DNNs are robust universal approximators of real-valued square-integrable functions defined in the unit interval.
翻訳日:2024-02-02 17:51:49 公開日:2024-01-31
# chiraag: chatgptは迅速かつ自動化されたアサーション生成を知らせる

ChIRAAG: ChatGPT Informed Rapid and Automated Assertion Generation ( http://arxiv.org/abs/2402.00093v1 )

ライセンス: Link先を確認
Bhabesh Mali, Karthik Maddala, Sweeya Reddy, Vatsal Gupta, Chandan Karfa, Ramesh Karri(参考訳) System Verilog Assertion (SVA) は批判的だが複雑なタスクであり、FPV(Formal Property Verification)プロセスの前提条件である。 伝統的に、SVAの定式化には専門家主導の仕様解釈が含まれる。 これは時間がかかり、ヒューマンエラーを起こしやすい。 しかし,近年のLarge Language Models (LLM) やLLMによる自動アサーション生成が注目されている。 我々はLLMに基づく新しいパイプラインを設計し、自然言語仕様から英語、線形時間論理、SVAのアサーションを生成する。 実験のために OpenAI GPT4 をベースとしたカスタム LLM を開発した。 さらに,LLM生成アサーションの検証・検証を行うテストベンチを開発した。 LLM生成の生のアサーションの43%に構文や論理的誤りを含む誤りがあった。 テストケース障害に由来する注意深いプロンプトを使用してllmを反復的にプロンプトすることで、パイプラインは最大9回のプロンプトの後に正しいsvaを生成することができる。 その結果,LCMはアサーション生成ワークフローを合理化し,検証ワークフローを再構築できることがわかった。

System Verilog Assertion (SVA) formulation, a critical yet complex task, is a pre-requisite in the Formal Property Verification (FPV) process. Traditionally, SVA formulation involves expert-driven interpretation of specifications. This is time consuming and prone to human error. However, recent advances in Large Language Models (LLM), LLM-informed automatic assertion generation is gaining interest. We designed a novel LLM-based pipeline to generate assertions in English Language, Linear Temporal Logic, and SVA from natural language specifications. We developed a custom LLM-based on OpenAI GPT4 for our experiments. Furthermore, we developed testbenches to verify/validate the LLM-generated assertions. Only 43% of LLM-generated raw assertions had errors, including syntax and logical errors. By iteratively prompting the LLMs using carefully crafted prompts derived from test case failures, the pipeline could generate correct SVAs after a maximum of nine iterations of prompting. Our results show that LLMs can streamline the assertion generation workflow, reshaping verification workflows.
翻訳日:2024-02-02 17:51:40 公開日:2024-01-31
# 単発学習のためのエピソディクスフリータスク選択

Episodic-free Task Selection for Few-shot Learning ( http://arxiv.org/abs/2402.00092v1 )

ライセンス: Link先を確認
Tao Zhang(参考訳) エピソディクスのトレーニングは、マイナショット学習の主流のトレーニング戦略である。 しかし、少数のシナリオでは、この戦略は非エポゾディックなトレーニング戦略よりも劣ることが多い。 g. 近隣成分分析(neighborhood component analysis, nca)は、訓練条件が試験条件に合致しなければならないという原則に挑戦する。 そこで、自然に疑問が投げかけられる: より優れた数発学習のために、どのようにエピソードなしのタスクを検索するか? 本稿では,エピソジックトレーニングを超えた新しいメタトレーニングフレームワークを提案する。 このフレームワークでは、エピソディックタスクは直接トレーニングに使われず、メタリーナーのトレーニングのために実行されるタスクセットから選択されたエピソディックフリータスクの有効性を評価するために用いられる。 選択基準は、選択されたタスクでトレーニングした後の目標タスクの実行時に損失が減少する度合いを測定するアフィニティで設計される。 実験では、トレーニングタスクセットには有望な型が含まれている。 g. 対照的な学習と分類、ターゲットとなる数ショットタスクは、miniImageNet, tiered-ImageNet, CIFAR-FSデータセット上で最寄りのセントロイド分類器によって達成される。 実験の結果,本手法の有効性が示された。

Episodic training is a mainstream training strategy for few-shot learning. In few-shot scenarios, however, this strategy is often inferior to some non-episodic training strategy, e. g., Neighbourhood Component Analysis (NCA), which challenges the principle that training conditions must match testing conditions. Thus, a question is naturally asked: How to search for episodic-free tasks for better few-shot learning? In this work, we propose a novel meta-training framework beyond episodic training. In this framework, episodic tasks are not used directly for training, but for evaluating the effectiveness of some selected episodic-free tasks from a task set that are performed for training the meta-learners. The selection criterion is designed with the affinity, which measures the degree to which loss decreases when executing the target tasks after training with the selected tasks. In experiments, the training task set contains some promising types, e. g., contrastive learning and classification, and the target few-shot tasks are achieved with the nearest centroid classifiers on the miniImageNet, tiered-ImageNet and CIFAR-FS datasets. The experimental results demonstrate the effectiveness of our approach.
翻訳日:2024-02-02 17:51:21 公開日:2024-01-31
# SCAPE:進化を用いた概念的アーキテクチャプロンプトの検索

SCAPE: Searching Conceptual Architecture Prompts using Evolution ( http://arxiv.org/abs/2402.00089v1 )

ライセンス: Link先を確認
Soo Ling Lim, Peter J Bentley, Fuyuki Ishikawa(参考訳) 概念的建築は、しばしば建築家が急進的な新しい形式、材料、テクスチャ、そして建物のための色を考えると、他の分野から取られる、非常に創造的な新しいアイデアの探索を含む。 今日の生成AIシステムは驚くべき結果をもたらすことができるが、進化的アルゴリズムによって何十年にもわたって実証された創造性を欠いている。 提案するツールであるSCAPEは、進化的検索と生成AIを組み合わせることで、ユーザーはシンプルなポイント・アンド・クリックインターフェースを通じて、初期入力にインスパイアされた創造的で高品質なデザインを探索することができる。 SCAPEは生成AIにランダム性を注入し、GPT-4の組み込み言語スキルを活用して、テキストベースの突然変異とクロスオーバーを通じてプロンプトを変化させる。 dall-e 3と比較して、scapeは画像のノベルティが67%向上し、クオリティと使用効率が向上し、わずか3回のイテレーションで画像ノベルティが24%向上し、効果的な探索が可能となり、ユーザによる画像の最適化が可能となることを実証した。 20以上の独立したアーキテクトを使ってスケープを評価しています。

Conceptual architecture involves a highly creative exploration of novel ideas, often taken from other disciplines as architects consider radical new forms, materials, textures and colors for buildings. While today's generative AI systems can produce remarkable results, they lack the creativity demonstrated for decades by evolutionary algorithms. SCAPE, our proposed tool, combines evolutionary search with generative AI, enabling users to explore creative and good quality designs inspired by their initial input through a simple point and click interface. SCAPE injects randomness into generative AI, and enables memory, making use of the built-in language skills of GPT-4 to vary prompts via text-based mutation and crossover. We demonstrate that compared to DALL-E 3, SCAPE enables a 67% improvement in image novelty, plus improvements in quality and effectiveness of use; we show that in just 3 iterations SCAPE has a 24% image novelty increase enabling effective exploration, plus optimization of images by users. We use more than 20 independent architects to assess SCAPE, who provide markedly positive feedback.
翻訳日:2024-02-02 17:51:00 公開日:2024-01-31
# 偏光を有するトラベル可能なワームホールにおけるレインボー重力の影響下の相対論的量子振動子

Relativistic quantum oscillator under rainbow gravity's effects in traversable wormhole with disclination ( http://arxiv.org/abs/2402.00088v1 )

ライセンス: Link先を確認
Abdullah Guvendi, Faizuddin Ahmed(参考訳) 本稿では,3次元トラベル可能なワームホールの回折と喉頭半径が量子振動子場に与える影響について検討する。 具体的には, 虹彩重力の影響を考慮したペリーマン型ワームホールに着目した。 このワームホール背景の相対論的Klein-Gordon発振器の半径式を重力虹の影響下で導出し, 解析的固有値解は収束関数を用いて得られる。 実際, 振動子場の挙動は, 偏差や喉頭半径の存在だけでなく, 虹彩重力のパラメータにも大きく影響していることがわかった。 我々は、量子振動子の固有値解を提示し解析するために、様々な虹彩関数を選択する。

In this paper, our principal objective is to investigate the impact of disclination and throat radius of a three-dimensional traversable wormhole on quantum oscillator fields. Specifically, we focus on Perry-Mann-type wormhole with disclination while also considering the influence of rainbow gravity's. We derive the radial equation of the relativistic Klein-Gordon oscillator within this wormhole background under the effects of gravity's rainbow and the analytical eigenvalue solution is obtained using the confluent Heun function. In fact, we show that the behavior of the oscillator fields is significantly influenced not only by the presence of disclination and the throat radius but also by the parameter of rainbow gravity's. We choose various such rainbow functions to present and analyze the eigenvalue solutions of the quantum oscillator fields.
翻訳日:2024-02-02 17:50:38 公開日:2024-01-31
# シリカ反応データ増強による再合成予測

Retrosynthesis prediction enhanced by in-silico reaction data augmentation ( http://arxiv.org/abs/2402.00086v1 )

ライセンス: Link先を確認
Xu Zhang and Yiming Mo and Wenguan Wang and Yi Yang(参考訳) 機械学習(ML)の最近の進歩は、化学者がより効率的に実験を設計できるように支援することで、再合成の研究を迅速化している。 しかしながら、全てのMLベースの手法は、かなりの量のペアトレーニングデータ(化学反応:製品-反応性(s)ペア)を消費する。 さらに、企業は反応データを貴重な資産とみなし、研究者へのアクセシビリティを制限している。 これらの問題は、データ駆動性によるより強力な逆合成モデルの作成を妨げる。 その結果, 容易にアクセス可能な非ペアデータ(すなわち, 製品-反応体(s)ペアの1つのコンポーネント)を用いて, シリカ内ペアデータを生成することで, モデルトレーニングが容易になる。 具体的には、実際のペアデータから推定されるベースモデルを用いて、未ペアデータを用いてシリコン内反応生成および拡張を行うセルフブートフレームワークであるRetroWISEについて述べる。 3つのベンチマークデータセットでは、RetroWISEは最先端モデル(USPTO-50Kテストデータセットでは+8.6%)に対して最高の全体的なパフォーマンスを達成する。 さらに,レアトランスフォーメーションの予測精度を一貫して向上させる。 これらの結果から,RetroWISEはシリコン内反応によるトレーニングボトルネックを克服し,より効果的なMLベースレトロシンセシスモデルへの道を開いた。

Recent advances in machine learning (ML) have expedited retrosynthesis research by assisting chemists to design experiments more efficiently. However, all ML-based methods consume substantial amounts of paired training data (i.e., chemical reaction: product-reactant(s) pair), which is costly to obtain. Moreover, companies view reaction data as a valuable asset and restrict the accessibility to researchers. These issues prevent the creation of more powerful retrosynthesis models due to their data-driven nature. As a response, we exploit easy-to-access unpaired data (i.e., one component of product-reactant(s) pair) for generating in-silico paired data to facilitate model training. Specifically, we present RetroWISE, a self-boosting framework that employs a base model inferred from real paired data to perform in-silico reaction generation and augmentation using unpaired data, ultimately leading to a superior model. On three benchmark datasets, RetroWISE achieves the best overall performance against state-of-the-art models (e.g., +8.6% top-1 accuracy on the USPTO-50K test dataset). Moreover, it consistently improves the prediction accuracy of rare transformations. These results show that Retro- WISE overcomes the training bottleneck by in-silico reactions, thereby paving the way toward more effective ML-based retrosynthesis models.
翻訳日:2024-02-02 17:50:25 公開日:2024-01-31
# schedule curiosity-deep dyna-q: 対話政策学習のための効率的な探索

Scheduled Curiosity-Deep Dyna-Q: Efficient Exploration for Dialog Policy Learning ( http://arxiv.org/abs/2402.00085v1 )

ライセンス: Link先を確認
Xuecheng Niu, Akinori Ito, Takashi Nose(参考訳) 強化学習に基づくタスク指向のダイアログエージェントのトレーニングは、時間を要するものであり、実際のユーザとの大量のインタラクションを必要とする。 限られたダイアログ体験の中でダイアログポリシーを把握する方法は、エージェントのトレーニングプロセスの効率を損なう障害である。 さらに、従来のほとんどのフレームワークは、人間の学習方法とは異なるトレーニングサンプルをランダムに選択することでトレーニングを開始し、トレーニングの効率と安定性を損なう。 そこで我々は,現在最先端のモデルに基づく強化学習ダイアログモデルであるDeep Dyna-Q(DDQ)をベースとした,好奇心駆動型カリキュラム学習フレームワークであるSchduled Curiosity-Deep Dyna-Q(SC-DDQ)を提案する。 さらに,SC-DDQ と DDQ の学習スケジュールを,古典的なカリキュラム学習と逆の2つの学習方法に従って設計した。 その結果,本フレームワークは,スケジュール学習と好奇心を導入することで,DDQとディープQラーニング(DQN)を大幅に改善することがわかった。 驚いたことに、従来のカリキュラム学習は必ずしも効果的ではなかった。 具体的には、実験結果によると、SC-DDQ と DDQ には、より容易で難易度の高い戦略が適している。 実験結果から,実験結果のエントロピーを用いて行動探索を図った結果,第1段階では高いエントロピー,最終段階では低いエントロピーのトレーニング戦略が良好なパフォーマンスをもたらすことがわかった。

Training task-oriented dialog agents based on reinforcement learning is time-consuming and requires a large number of interactions with real users. How to grasp dialog policy within limited dialog experiences remains an obstacle that makes the agent training process less efficient. In addition, most previous frameworks start training by randomly choosing training samples, which differs from the human learning method and hurts the efficiency and stability of training. Therefore, we propose Scheduled Curiosity-Deep Dyna-Q (SC-DDQ), a curiosity-driven curriculum learning framework based on a state-of-the-art model-based reinforcement learning dialog model, Deep Dyna-Q (DDQ). Furthermore, we designed learning schedules for SC-DDQ and DDQ, respectively, following two opposite training strategies: classic curriculum learning and its reverse version. Our results show that by introducing scheduled learning and curiosity, the new framework leads to a significant improvement over the DDQ and Deep Q-learning(DQN). Surprisingly, we found that traditional curriculum learning was not always effective. Specifically, according to the experimental results, the easy-first and difficult-first strategies are more suitable for SC-DDQ and DDQ. To analyze our results, we adopted the entropy of sampled actions to depict action exploration and found that training strategies with high entropy in the first stage and low entropy in the last stage lead to better performance.
翻訳日:2024-02-02 17:50:03 公開日:2024-01-31
# EPSD : 自己蒸留によるモデル圧縮の効率化

EPSD: Early Pruning with Self-Distillation for Efficient Model Compression ( http://arxiv.org/abs/2402.00084v1 )

ライセンス: Link先を確認
Dong Chen, Ning Liu, Yichen Zhu, Zhengping Che, Rui Ma, Fachao Zhang, Xiaofeng Mou, Yi Chang, Jian Tang(参考訳) 知識蒸留(KD)やネットワークプルーニングなどのニューラルネットワーク圧縮技術が注目されている。 近年の「Prune, then Distill」は、学生が親しみやすい教師ネットワークがKDの性能に寄与することを示した。 しかし,教師の煩雑な事前訓練と複雑な圧縮ステップを伴う従来の教師学習パイプラインは,kdによる刈り取りの効率を低下させる。 圧縮モデルに加えて、最近の圧縮技術は効率の面も強調している。 早期刈り込み要求は、大規模な事前訓練モデルを必要としないため、従来の刈り込み法と比較して計算コストを著しく削減する。 同様に、kdの特別な場合である自己蒸留(sd)は、事前訓練や学生と教師のペアの選択を必要としないため、より効率的である。 これにより、高速なモデル圧縮のために、早期にSDと協調するインスピレーションが得られます。 本研究では,あるSDタスクの早期処理において,蒸留可能重量を特定し保存するEPSD(Early Pruning with Self-Distillation)というフレームワークを提案する。 EPSDは2段階のプロセスで早期刈り込みと自己蒸留を効率よく組み合わせ、刈り込みネットワークの圧縮訓練性を維持する。 プルーニングとsdの単純な組み合わせではなく、epsdはプルーニングされたネットワークがより蒸留可能な重みをトレーニング前に保持することで、プルーニングされたネットワークをより良く蒸留することを可能にする。 我々はepsdが視覚的および定量的解析によりprunedネットワークのトレーニングを改善することを実証した。 評価では,CIFAR-10/100, Tiny-ImageNet, full ImageNet, CUB-200-2011, Pascal VOCの多種多様なベンチマークについて検討した。

Neural network compression techniques, such as knowledge distillation (KD) and network pruning, have received increasing attention. Recent work `Prune, then Distill' reveals that a pruned student-friendly teacher network can benefit the performance of KD. However, the conventional teacher-student pipeline, which entails cumbersome pre-training of the teacher and complicated compression steps, makes pruning with KD less efficient. In addition to compressing models, recent compression techniques also emphasize the aspect of efficiency. Early pruning demands significantly less computational cost in comparison to the conventional pruning methods as it does not require a large pre-trained model. Likewise, a special case of KD, known as self-distillation (SD), is more efficient since it requires no pre-training or student-teacher pair selection. This inspires us to collaborate early pruning with SD for efficient model compression. In this work, we propose the framework named Early Pruning with Self-Distillation (EPSD), which identifies and preserves distillable weights in early pruning for a given SD task. EPSD efficiently combines early pruning and self-distillation in a two-step process, maintaining the pruned network's trainability for compression. Instead of a simple combination of pruning and SD, EPSD enables the pruned network to favor SD by keeping more distillable weights before training to ensure better distillation of the pruned network. We demonstrated that EPSD improves the training of pruned networks, supported by visual and quantitative analyses. Our evaluation covered diverse benchmarks (CIFAR-10/100, Tiny-ImageNet, full ImageNet, CUB-200-2011, and Pascal VOC), with EPSD outperforming advanced pruning and SD techniques.
翻訳日:2024-02-02 17:49:38 公開日:2024-01-31
# 資源配分の格差低減のためのアクセス差のモデル化

Modeling Access Differences to Reduce Disparity in Resource Allocation ( http://arxiv.org/abs/2402.00083v1 )

ライセンス: Link先を確認
Kenya Andrews and Mesrob Ohannessian and Tanya Berger-Wolf(参考訳) 新型コロナウイルス(COVID-19)ワクチンの割り当てにより、脆弱なサブポピュレーションが健康の面で同時に影響され、ワクチンへのアクセスに関してより不利な状態にある場合、我々は、アドバンテージとデメリットと相関する固有のアクセス差がある場合に、リソース割り当ての問題を形式化し、研究する。 この文脈において、リソース格差の低減が重要な目標であると認識し、より微妙な下流への影響のプロキシとしての役割を示す。 本研究では,その間のアクセスギャップに基づいて,与えられたアロケーションが有利なリソースフローにどのように変換されるかの定量化を支援する具体的なアクセスモデルを開発する。 次に、アクセスアウェアアロケーションの方法論を提供します。 直感的には、結果として生じる割り当ては、より脆弱な人口の多い場所でより多くのワクチンを活用し、アクセスギャップを緩和し、全体的な格差を減らす。 驚いたことに、アクセス・アウェア・アロケーションの実行にはアクセスギャップに関する知識は必要ないことが多い。 この形式化を支援するために,アクセスモデルに対する実証的な証拠を提供し,アクセス対応アロケーションが資源格差を著しく低減し,下流結果を改善することを示す。 我々は、郡、州、全国、グローバルレベルを含む様々な規模でこれを実証する。

Motivated by COVID-19 vaccine allocation, where vulnerable subpopulations are simultaneously more impacted in terms of health and more disadvantaged in terms of access to the vaccine, we formalize and study the problem of resource allocation when there are inherent access differences that correlate with advantage and disadvantage. We identify reducing resource disparity as a key goal in this context and show its role as a proxy to more nuanced downstream impacts. We develop a concrete access model that helps quantify how a given allocation translates to resource flow for the advantaged vs. the disadvantaged, based on the access gap between them. We then provide a methodology for access-aware allocation. Intuitively, the resulting allocation leverages more vaccines in locations with higher vulnerable populations to mitigate the access gap and reduce overall disparity. Surprisingly, knowledge of the access gap is often not needed to perform access-aware allocation. To support this formalism, we provide empirical evidence for our access model and show that access-aware allocation can significantly reduce resource disparity and thus improve downstream outcomes. We demonstrate this at various scales, including at county, state, national, and global levels.
翻訳日:2024-02-02 17:49:04 公開日:2024-01-31
# グローバーの探索アルゴリズムの強化:良い状態の確率を高めるための改良されたアプローチ

Enhancing Grover's Search Algorithm: A Modified Approach to Increase the Probability of Good States ( http://arxiv.org/abs/2402.00082v1 )

ライセンス: Link先を確認
Ismael Abdulrahman(参考訳) 本稿では,Grover検索アルゴリズムを改良し,アルゴリズムの初期イテレーションにおける良好な状態を見つける可能性を高める。 これは (y+z) 軸のまわりに回転ゲートを組み込むことを提案し、その位相は初期反復時の微分器出力の微分から数学的に決定される。 さらに、連続反復間の振幅の推定増加比に基づいて位相角を調整することにより最適化する。 この結果は、目標状態を特定する確率が高いために、必要なイテレーション数の約25%が減少し、全体のプロセスが高速になることを示す。 これは、シミュレーションに使用されるコンピュータの計算能力を考慮して最大8キュービットのインスタンスを含む、様々なシナリオで観察される。

This article introduces an enhancement to the Grover search algorithm to increase the probability of finding good states in the early iterations of the algorithm. It suggests incorporating a rotation gate around the (y+z)-axis, with its phase determined mathematically from the derivative of the diffuser output during the initial iteration. Furthermore, the phase angles are optimized through adjustments based on the estimated increasing ratio of amplitudes between consecutive iterations. The findings indicate a noteworthy decrease, around 25%, in the required number of iterations to attain a high probability of identifying target states resulting in a faster overall process. This is observed across various scenarios, including instances with up to eight qubits considering the computational capabilities of the computer used for simulation.
翻訳日:2024-02-02 17:48:40 公開日:2024-01-31
# 超解像法によるサッカーの物体検出品質向上

Improving Object Detection Quality in Football Through Super-Resolution Techniques ( http://arxiv.org/abs/2402.00163v1 )

ライセンス: Link先を確認
Karolina Seweryn, Gabriel Ch\k{e}\'c, Szymon {\L}ukasik, Anna Wr\'oblewska(参考訳) 本研究では,サッカーにおける物体検出精度向上のための超解像技術の可能性を検討する。 スポーツの速さと、分析と放送の両方における正確な物体(例えば、ボール、プレーヤー)の追跡の重要性を考えると、超高解像度は大きな改善をもたらす可能性がある。 超解像による高度な画像処理がフットボールの試合映像処理における物体検出アルゴリズムの精度と信頼性に与える影響について検討する。 提案手法では,サッカーネットの多種多様な試合ビデオに最先端の超解像技術を適用し,続いてFaster R-CNNを用いた物体検出を行った。 これらのアルゴリズムの性能は、超解像強調の有無に関わらず、検出精度の観点から厳密に評価された。 その結果,超解像前処理による物体検出精度は著しく向上した。 超分解能技術の統合による物体検出の改善は、特に低分解能シナリオにおいて、RLFNを用いて解像度を4倍にすると、IoU(Intersection over Union)範囲で平均平均精度(mAP)が0.50:0.95に顕著に増加し、大きな利点をもたらす。 寸法が大きくなるにつれて、改善の規模はより抑えられていくが、検出品質の明確な改善は一貫して明らかである。 さらに,リアルタイムスポーツ分析,選手追跡,視聴体験全般におけるこれらの発見の意義について考察した。 本研究は,サッカー分析と放送における超解像技術の統合の実践的メリットと限界を実証し,スポーツ技術の発展に寄与する。

This study explores the potential of super-resolution techniques in enhancing object detection accuracy in football. Given the sport's fast-paced nature and the critical importance of precise object (e.g. ball, player) tracking for both analysis and broadcasting, super-resolution could offer significant improvements. We investigate how advanced image processing through super-resolution impacts the accuracy and reliability of object detection algorithms in processing football match footage. Our methodology involved applying state-of-the-art super-resolution techniques to a diverse set of football match videos from SoccerNet, followed by object detection using Faster R-CNN. The performance of these algorithms, both with and without super-resolution enhancement, was rigorously evaluated in terms of detection accuracy. The results indicate a marked improvement in object detection accuracy when super-resolution preprocessing is applied. The improvement of object detection through the integration of super-resolution techniques yields significant benefits, especially for low-resolution scenarios, with a notable 12\% increase in mean Average Precision (mAP) at an IoU (Intersection over Union) range of 0.50:0.95 for 320x240 size images when increasing the resolution fourfold using RLFN. As the dimensions increase, the magnitude of improvement becomes more subdued; however, a discernible improvement in the quality of detection is consistently evident. Additionally, we discuss the implications of these findings for real-time sports analytics, player tracking, and the overall viewing experience. The study contributes to the growing field of sports technology by demonstrating the practical benefits and limitations of integrating super-resolution techniques in football analytics and broadcasting.
翻訳日:2024-02-02 17:40:13 公開日:2024-01-31
# 言語適応器がNLUの言語間移動に与える影響

The Impact of Language Adapters in Cross-Lingual Transfer for NLU ( http://arxiv.org/abs/2402.00149v1 )

ライセンス: Link先を確認
Jenny Kunz, Oskar Holmstr\"om(参考訳) 新しいタスク、ドメイン、言語への事前学習モデルの効率的な適応のために、モジュール型ディープラーニングが提案されている。 特に、言語アダプタとタスクアダプタの組み合わせは、言語に教師付きデータが存在しない可能性を示している。 本稿では,自然言語理解(NLU)ベンチマークにおけるゼロショット言語間変換における言語アダプタの役割について検討する。 2つの多言語モデルと3つの多言語データセットを用いた詳細なアブレーション研究において,ターゲット言語アダプタを含める効果について検討した。 本結果から,タスク,言語,モデル間でターゲット言語アダプタの効果は相容れないことがわかった。 ソース言語アダプタを保持することは、しばしば同等で、時にはより良いパフォーマンスをもたらす。 トレーニング後の言語アダプタの削除は弱いマイナス効果しかなく、言語アダプタが予測に強い影響を及ぼさないことを示している。

Modular deep learning has been proposed for the efficient adaption of pre-trained models to new tasks, domains and languages. In particular, combining language adapters with task adapters has shown potential where no supervised data exists for a language. In this paper, we explore the role of language adapters in zero-shot cross-lingual transfer for natural language understanding (NLU) benchmarks. We study the effect of including a target-language adapter in detailed ablation studies with two multilingual models and three multilingual datasets. Our results show that the effect of target-language adapters is highly inconsistent across tasks, languages and models. Retaining the source-language adapter instead often leads to an equivalent, and sometimes to a better, performance. Removing the language adapter after training has only a weak negative effect, indicating that the language adapters do not have a strong impact on the predictions.
翻訳日:2024-02-02 17:39:42 公開日:2024-01-31
# ランダム監視量子符号

Randomly Monitored Quantum Codes ( http://arxiv.org/abs/2402.00145v1 )

ライセンス: Link先を確認
Dongjin Lee and Beni Yoshida(参考訳) 量子計測は、従来は量子情報処理の最終段階と考えられており、処理された情報を読み出すのに必須であるが、量子状態は古典状態へと崩壊する。 しかし、近年の研究では、量子測定自体が新しい量子現象を誘発できることが示されている。 モニターされたランダム回路は、ランダムなユニタリ回路よりも高速に長距離の絡み合いを生成することができる。 量子情報が量子誤り訂正符号にエンコードされている場合、エンコードされた情報を破壊するために、何つの物理量子ビットをランダムに測定すべきなのか? 様々な量子誤り訂正符号に対するこの質問を調査し、測定によって情報を破壊するために必要な十分条件を導出する。 特に,量子誤り訂正符号の大規模なクラスでは,物理キュービットのごく一部がまだ測定されていない場合,ランダムな単一キュービットパウリ計測によって符号化情報を破棄することは不可能であることを示す。 我々の結果は、測定デコヒーレンスの下での量子コードの異常な堅牢性だけでなく、量子情報処理タスクにおける潜在的な応用も示唆している。

Quantum measurement has conventionally been regarded as the final step in quantum information processing, which is essential for reading out the processed information but collapses the quantum state into a classical state. However, recent studies have shown that quantum measurement itself can induce novel quantum phenomena. One seminal example is a monitored random circuit, which can generate long-range entanglement faster than a random unitary circuit. Inspired by these results, in this paper, we address the following question: When quantum information is encoded in a quantum error-correcting code, how many physical qubits should be randomly measured to destroy the encoded information? We investigate this question for various quantum error-correcting codes and derive the necessary and sufficient conditions for destroying the information through measurements. In particular, we demonstrate that for a large class of quantum error-correcitng codes, it is impossible to destroy the encoded information through random single-qubit Pauli measurements when a tiny portion of physical qubits is still unmeasured. Our results not only reveal the extraordinary robustness of quantum codes under measurement decoherence, but also suggest potential applications in quantum information processing tasks.
翻訳日:2024-02-02 17:39:29 公開日:2024-01-31
# 会話モデリングにおける長い物語の短縮

Making a Long Story Short in Conversation Modeling ( http://arxiv.org/abs/2402.00143v1 )

ライセンス: Link先を確認
Yufei Tao, Tiernan Mines, Ameeta Agrawal(参考訳) 会話システムは、ユニークなパーソナリティと異なる書き方を持つ多様なユーザーを収容する。 マルチターン対話モデリングの領域内では,会話モデルによって生成される応答の質に及ぼす発話長の影響について検討する。 GPT-3をベースモデル、複数の対話データセット、およびいくつかのメトリクスとして使用し、会話モデルのこの側面を徹底的に調査する。 本分析では,対話システムによって生成される発話長と追従応答の質の複雑な関係に光を当てる。 実験結果から,ある種の会話では,フォローアップ応答の質に顕著な違いが生じることなく,発話長を最大72%削減できることがわかった。

Conversation systems accommodate diverse users with unique personalities and distinct writing styles. Within the domain of multi-turn dialogue modeling, this work studies the impact of varied utterance lengths on the quality of subsequent responses generated by conversation models. Using GPT-3 as the base model, multiple dialogue datasets, and several metrics, we conduct a thorough exploration of this aspect of conversational models. Our analysis sheds light on the complex relationship between utterance lengths and the quality of follow-up responses generated by dialogue systems. Empirical findings suggests that, for certain types of conversations, utterance lengths can be reduced by up to 72% without any noticeable difference in the quality of follow-up responses.
翻訳日:2024-02-02 17:39:09 公開日:2024-01-31
# ChatGPTによるマルチモーダル神経変性疾患のサブタイプ

Multimodal Neurodegenerative Disease Subtyping Explained by ChatGPT ( http://arxiv.org/abs/2402.00137v1 )

ライセンス: Link先を確認
Diego Machado Reyes, Hanqing Chao, Juergen Hahn, Li Shen and Pingkun Yan(参考訳) アルツハイマー病(ad)は最も一般的な神経変性疾患であるが、現在利用可能な治療は疾患の進行を止めることに限られている。 さらに、これらの治療法の有効性は、疾患の不均一性のため保証されない。 したがって,疾患の亜型を極めて早期に同定することが不可欠である。 現在のデータ駆動型アプローチでは、ADまたは関連する障害の後期段階でサブタイプを分類することができるが、無症状またはプロドロマル段階の予測では困難である。 さらに、既存のモデルの多くは、分類の背後に説明可能性がないか、評価に単一のモダリティのみを使用し、分析の範囲を制限している。 そこで我々は,AD患者を早期にサブタイプに分類するために,画像,遺伝学,臨床評価などの早期指標を用いたマルチモーダルフレームワークを提案する。 同様に、我々はプロンプトを構築し、ChatGPTのような大きな言語モデルを使用して、モデルの発見を解釈する。 本稿では,クロスモーダル特徴関係を明示的に学習するためのtri-modal co-attion mechanism(tri-coat)を提案する。 提案モデルはベースラインモデルより優れており、既知の生物学的メカニズムによって支持される重要なクロスモーダル特徴関連についての洞察を提供する。

Alzheimer's disease (AD) is the most prevalent neurodegenerative disease; yet its currently available treatments are limited to stopping disease progression. Moreover, effectiveness of these treatments is not guaranteed due to the heterogenetiy of the disease. Therefore, it is essential to be able to identify the disease subtypes at a very early stage. Current data driven approaches are able to classify the subtypes at later stages of AD or related disorders, but struggle when predicting at the asymptomatic or prodromal stage. Moreover, most existing models either lack explainability behind the classification or only use a single modality for the assessment, limiting scope of its analysis. Thus, we propose a multimodal framework that uses early-stage indicators such as imaging, genetics and clinical assessments to classify AD patients into subtypes at early stages. Similarly, we build prompts and use large language models, such as ChatGPT, to interpret the findings of our model. In our framework, we propose a tri-modal co-attention mechanism (Tri-COAT) to explicitly learn the cross-modal feature associations. Our proposed model outperforms baseline models and provides insight into key cross-modal feature associations supported by known biological mechanisms.
翻訳日:2024-02-02 17:39:01 公開日:2024-01-31
# 学際的多様的知識アプローチ

Transdisciplinary Multi Modal Approach to Knowledge ( http://arxiv.org/abs/2402.00136v1 )

ライセンス: Link先を確認
Johanna Casado and Beatriz Garc\'ia and Natasha Maria Monserrat Bertaina Lucero(参考訳) 本論文は、ユーザ中心設計の枠組みで開発された包括的ツールに関する研究の一環として、自然に対するミューティモーダルまたは多感覚的知覚を提示する。 本提案では,設計者と最終ユーザ間だけでなく,人間とコンピュータ間のフィードバックを確立することで,エラーを低減し,個人のニーズに応じてリソースを共同設計することが可能であることを示唆する。 本研究では,本研究の一環として,ユーザを念頭に置いて設計した新たなアクセス可能なソフトウェアであるsonounoの基礎を提示するとともに,ユーザの能力向上,さまざまな自然信号の検出,ヒューマン・コンピュータ・インタフェースの理解向上,教育やアウトリーチだけでなく,研究においても新たな窓を開くためのトレーニング活動を提案する。 これらの新しいデバイスやツールの利用例も紹介されている。

The muti-modal or multi-sensorial perception of nature is presented in this article as part of research devoted to inclusive tools developed in the framework of User Centered Design. This proposal shows that it is possible to work in a transdisciplinary way, establishing feedback not only between designers and final users, but also between humans and computers, to reduce errors and co-design the resources according to personal needs. As part of the present research, we present the basis for a new accessible software, sonoUno, which was designed with the user in mind from the beginning, and we propose a training activity to enhance the user's capacities, expand the detection of different kinds of natural signals, and improve the comprehension of the Human Computer Interfaces, opening new windows to the sciences for diverse populations, not only in education and outreach but also in research. Some examples of the exploitation of these new devices and tools are also presented.
翻訳日:2024-02-02 17:38:41 公開日:2024-01-31
# 下肢外骨格の松葉杖力最小化のための強化学習型制御器

A Reinforcement Learning Based Controller to Minimize Forces on the Crutches of a Lower-Limb Exoskeleton ( http://arxiv.org/abs/2402.00135v1 )

ライセンス: Link先を確認
Aydin Emre Utku, Suzan Ece Ada, Muhammet Hatipoglu, Mustafa Derman, Emre Ugur and Evren Samur(参考訳) 下肢エクソ骨格使用者の代謝エネルギー消費は、下肢が受動的であると考えられるため、主に上肢運動によるものである。 しかし,ユーザの上半身の努力は,モーションコントローラ設計の文献では無視されている。 本研究では,松葉杖の床反力(grf)を最小限に抑えるロコモーションコントローラの開発に,深層強化学習を用いた。 GRFの最小化の根拠は、使用者の上半身の労力を減らすことである。 そこで我々は松葉杖を用いた人体外骨格システムのためのモデルと学習フレームワークを設計する。 我々は,ロボットの所定の制約を満たしつつ,人間の外骨格系の前方変位を促す報酬関数を定式化する。 複数の実験で異なるハイパーパラメータとネットワークアーキテクチャを持つ MuJoCo 物理学シミュレータ上で,最先端の深部強化学習(RL)手法である Proximal Policy Optimization を用いた新しいフレームワークの評価を行った。 我々の学習モデルでは,足の関節角度,速度,GRFに基づいて関節トルクを生成できることを実証的に示す。 結果として生じるエクソスケルトンモデルは、RLフレームワークに従って状態から関節トルクを直接生成することができる。 最後に,本手法を用いてトレーニングしたポリシーは,基準値に対してGRFを35%低減した歩行を生成できることを示す。

Metabolic energy consumption of a powered lower-limb exoskeleton user mainly comes from the upper body effort since the lower body is considered to be passive. However, the upper body effort of the users is largely ignored in the literature when designing motion controllers. In this work, we use deep reinforcement learning to develop a locomotion controller that minimizes ground reaction forces (GRF) on crutches. The rationale for minimizing GRF is to reduce the upper body effort of the user. Accordingly, we design a model and a learning framework for a human-exoskeleton system with crutches. We formulate a reward function to encourage the forward displacement of a human-exoskeleton system while satisfying the predetermined constraints of a physical robot. We evaluate our new framework using Proximal Policy Optimization, a state-of-the-art deep reinforcement learning (RL) method, on the MuJoCo physics simulator with different hyperparameters and network architectures over multiple trials. We empirically show that our learning model can generate joint torques based on the joint angle, velocities, and the GRF on the feet and crutch tips. The resulting exoskeleton model can directly generate joint torques from states in line with the RL framework. Finally, we empirically show that policy trained using our method can generate a gait with a 35% reduction in GRF with respect to the baseline.
翻訳日:2024-02-02 17:38:27 公開日:2024-01-31
# 直線スピン波理論を超えた磁性ポーラロン:マグノンによる中間子

Magnetic polarons beyond linear spin-wave theory: Mesons dressed by magnons ( http://arxiv.org/abs/2402.00130v1 )

ライセンス: Link先を確認
Pit Bermes, Annabelle Bohrdt, Fabian Grusdt(参考訳) 移動孔が反強磁性体にドープされると、その動きは周囲の磁気秩序を歪め、磁極を生成する。 スピンと電荷の自由度の複雑な相互作用は、非常に豊富な物理学を生み出し、銅酸化物の高温超伝導の中心であると考えられている。 本稿では, 強結合状態における磁性ポーラロンを記述するために, 現象論的パルトン記述に基づく定量的理論的形式論を考案する。 我々は、背景のスピン波励起に弱い結合を持つ効果的なハミルトニアンを構築し、標準偏光法の利用を可能にした。 我々の出発点は、線形スピン波近似を超えた電荷とスピン自由度の強い相関ホッピング過程を「幾何学的弦」によって記述されたAFMにドープされた1つの穴である。 その後、一般化された1/S展開を通じてマグノン励起を導入し、これらのスピン波をホールと弦(中間子)を効果的に結合させて密度密度型相互作用を持つ有効ポーラロンハミルトンに到達させる。 ボルン-オッペンハイマー型近似を行った後、自己整合ボルン近似を用いて再正規化ポーラロン特性を抽出する。 形式主義を応用し (i)線形スピン波ARPESスペクトルを超える計算 (二)ロ振動子励起の相互作用を明らかにすること、及び (ii)低ドーピングで想定される疑似ギャップを分析する。 さらに, 磁気ポーラロンを平衡外あるいはフラストレーション系で探索するには, 弱い結合アプローチが望ましいこと, 線形スピン波理論を超越することが必要である。

When a mobile hole is doped into an antiferromagnet, its movement will distort the surrounding magnetic order and yield a magnetic polaron. The resulting complex interplay of spin and charge degrees of freedom gives rise to very rich physics and is widely believed to be at the heart of high-temperature superconductivity in cuprates. In this paper, we develop a quantitative theoretical formalism, based on the phenomenological parton description, to describe magnetic polarons in the strong coupling regime. We construct an effective Hamiltonian with weak coupling to the spin-wave excitations in the background, making the use of standard polaronic methods possible. Our starting point is a single hole doped into an AFM described by a 'geometric string' capturing the strongly correlated hopping processes of charge and spin degrees of freedom, beyond linear spin-wave approximation. Subsequently, we introduce magnon excitations through a generalized 1/S expansion and derive an effective coupling of these spin-waves to the hole plus the string (the meson) to arrive at an effective polaron Hamiltonian with density-density type interactions. After making a Born-Oppenheimer-type approximation, this system is solved using the self-consistent Born approximation to extract the renormalized polaron properties. We apply our formalism (i) to calculate beyond linear spin-wave ARPES spectra, (ii) to reveal the interplay of ro-vibrational meson excitations, and (ii) to analyze the pseudogap expected at low doping. Moreover, our work paves the way for exploring magnetic polarons out-of equilibrium or in frustrated systems, where weak-coupling approaches are desirable and going beyond linear spin-wave theory becomes necessary.
翻訳日:2024-02-02 17:38:08 公開日:2024-01-31
# cmrnext: 野生のカメラとライダーのマッチングによる位置推定と余分なキャリブレーション

CMRNext: Camera to LiDAR Matching in the Wild for Localization and Extrinsic Calibration ( http://arxiv.org/abs/2402.00129v1 )

ライセンス: Link先を確認
Daniele Cattaneo and Abhinav Valada(参考訳) LiDARは動的環境におけるマッピングとローカライゼーションに広く利用されている。 しかし、その高いコストは広く普及を制限する。 一方、安価なカメラを用いたLiDARマップの単眼位置決めは、大規模展開のためのコスト効率の良い代替手段である。 それでも、既存のほとんどのアプローチは、新しいセンサーのセットアップと環境への一般化に苦労し、再訓練や微調整を必要としている。 本稿では,センサ固有パラメータに依存しないカメラ-LIDARマッチングの新しいアプローチであるCMRNextについて述べる。 CMRNextは、クロスモーダルデータとロバストポーズ推定のための標準的な幾何学的手法をマッチングするために、ディープニューラルネットワークの最近の進歩を活用している。 光フロー推定問題として画素マッチング問題を再構成し、その結果の対応に基づいてパースペクティブ・n・ポイント問題を解くことにより、カメラとLiDAR点雲の相対的なポーズを求める。 3つの公開データセットと3つの社内ロボットを含む6つの異なるロボットプラットフォーム上でCMRNextを広範囲に評価した。 実験により,CMRNextは両タスクの既存手法よりも優れており,従来は見つからなかった環境やセンサのセットアップをゼロショットで効果的に一般化することを示した。 コードと事前訓練されたモデルはhttp://cmrnext.cs.uni-freiburg.deで公開しています。

LiDARs are widely used for mapping and localization in dynamic environments. However, their high cost limits their widespread adoption. On the other hand, monocular localization in LiDAR maps using inexpensive cameras is a cost-effective alternative for large-scale deployment. Nevertheless, most existing approaches struggle to generalize to new sensor setups and environments, requiring retraining or fine-tuning. In this paper, we present CMRNext, a novel approach for camera-LIDAR matching that is independent of sensor-specific parameters, generalizable, and can be used in the wild for monocular localization in LiDAR maps and camera-LiDAR extrinsic calibration. CMRNext exploits recent advances in deep neural networks for matching cross-modal data and standard geometric techniques for robust pose estimation. We reformulate the point-pixel matching problem as an optical flow estimation problem and solve the Perspective-n-Point problem based on the resulting correspondences to find the relative pose between the camera and the LiDAR point cloud. We extensively evaluate CMRNext on six different robotic platforms, including three publicly available datasets and three in-house robots. Our experimental evaluations demonstrate that CMRNext outperforms existing approaches on both tasks and effectively generalizes to previously unseen environments and sensor setups in a zero-shot manner. We make the code and pre-trained models publicly available at http://cmrnext.cs.uni-freiburg.de .
翻訳日:2024-02-02 17:37:37 公開日:2024-01-31
# 自律走行のためのリアルタイム交通物体検出

Real-time Traffic Object Detection for Autonomous Driving ( http://arxiv.org/abs/2402.00128v1 )

ライセンス: Link先を確認
Abdul Hannan Khan, Syed Tahseen Raza Rizvi, Andreas Dengel(参考訳) 最近のコンピュータビジョンの進歩により、自動運転は後年よりも早く現代社会の一部になるようだ。 しかし、対応すべき懸念点がまだ多数残っている。 現代のコンピュータビジョン技術は優れた性能を示すが、リアルタイムアプリケーションにおいて重要な側面である効率よりも精度を優先する傾向がある。 大規模物体検出モデルは、通常より高度なオンボードハードウェアを使用することで達成される高い計算能力を必要とする。 自動運転では、これらの要件は燃料コストの増大と最終的に走行距離の減少につながる。 さらに、計算の要求にもかかわらず、既存の物体検出器はリアルタイムにはほど遠い。 本研究では,これまで提案してきた,高度に効率的な歩行者検知LSFMの,多様な気象条件や夜間シーンを含む,確立された自律走行ベンチマークにおける堅牢性を評価する。 さらに,交通現場における物体のリアルタイム検出を実現するため,LSFMモデルを拡張した。 トラフィックオブジェクト検出データセットの性能,低レイテンシ,一般化性を評価する。 さらに,物体検出システムで採用されている現状のキー性能指標の不足を自律運転の文脈で検討し,リアルタイム要求を組み込んだより適切な代替案を提案する。

With recent advances in computer vision, it appears that autonomous driving will be part of modern society sooner rather than later. However, there are still a significant number of concerns to address. Although modern computer vision techniques demonstrate superior performance, they tend to prioritize accuracy over efficiency, which is a crucial aspect of real-time applications. Large object detection models typically require higher computational power, which is achieved by using more sophisticated onboard hardware. For autonomous driving, these requirements translate to increased fuel costs and, ultimately, a reduction in mileage. Further, despite their computational demands, the existing object detectors are far from being real-time. In this research, we assess the robustness of our previously proposed, highly efficient pedestrian detector LSFM on well-established autonomous driving benchmarks, including diverse weather conditions and nighttime scenes. Moreover, we extend our LSFM model for general object detection to achieve real-time object detection in traffic scenes. We evaluate its performance, low latency, and generalizability on traffic object detection datasets. Furthermore, we discuss the inadequacy of the current key performance indicator employed by object detection systems in the context of autonomous driving and propose a more suitable alternative that incorporates real-time requirements.
翻訳日:2024-02-02 17:37:14 公開日:2024-01-31
# ディープフェイク検出のための常識推論

Common Sense Reasoning for Deep Fake Detection ( http://arxiv.org/abs/2402.00126v1 )

ライセンス: Link先を確認
Yue Zhang, Ben Colman, Ali Shahriyari, Gaurav Bharaj(参考訳) 最先端のアプローチは、ディープフェイク検出バイナリ分類のためにニューラルネットワークによって抽出された画像に基づく機能に依存している。 教師付き感覚で訓練されたこれらのアプローチは、おそらく偽の特徴を抽出するが、不自然な「非物理的な」意味的な顔の特徴、ぼやけた毛髪、双眼、堅い瞳孔、または不自然な皮膚の陰を表現できない可能性がある。 しかし、このような顔の特徴は一般的に常識推論によって人間によって容易に認識される。 さらに,視覚的説明を提供する画像に基づく特徴抽出手法は,人間の解釈が困難である。 これらの課題に対処するため,Deepfake Detection VQA(DD-VQA)タスクに対して,画像のラベル付けの背景にある理由を実物か偽物かを説明する上で,人間の直感をモデル化するための常識推論手法を提案する。 そこで本研究では,画像の真正性に関する質問に対する回答と,それに対応する説明を提供する新しいデータセットを提案する。 また、DD-VQAタスクのためのビジョン・アンド・ランゲージ・トランスフォーマーベースのフレームワークを提案し、テキストと画像認識機能アライメントを組み込んだ。 最後に, ディープフェイク検出の性能と, 生成した説明文の品質について評価を行った。 このタスクは、ディープフェイク検出の領域において、言語ベースの解釈可能性とクロスモダリティ応用を強化するための新たな道筋を研究者に探り出すことを願っている。

State-of-the-art approaches rely on image-based features extracted via neural networks for the deepfake detection binary classification. While these approaches trained in the supervised sense extract likely fake features, they may fall short in representing unnatural `non-physical' semantic facial attributes -- blurry hairlines, double eyebrows, rigid eye pupils, or unnatural skin shading. However, such facial attributes are generally easily perceived by humans via common sense reasoning. Furthermore, image-based feature extraction methods that provide visual explanation via saliency maps can be hard to be interpreted by humans. To address these challenges, we propose the use of common sense reasoning to model deepfake detection, and extend it to the Deepfake Detection VQA (DD-VQA) task with the aim to model human intuition in explaining the reason behind labeling an image as either real or fake. To this end, we introduce a new dataset that provides answers to the questions related to the authenticity of an image, along with its corresponding explanations. We also propose a Vision and Language Transformer-based framework for the DD-VQA task, incorporating text and image aware feature alignment formulations. Finally, we evaluate our method on both the performance of deepfake detection and the quality of the generated explanations. We hope that this task inspires researchers to explore new avenues for enhancing language-based interpretability and cross-modality applications in the realm of deepfake detection.
翻訳日:2024-02-02 17:36:56 公開日:2024-01-31
# テンプレートベースとテンプレートフリー言語モデルの比較

Comparing Template-based and Template-free Language Model Probing ( http://arxiv.org/abs/2402.00123v1 )

ライセンス: Link先を確認
Sagi Shaier, Kevin Bennett, Lawrence E Hunter, Katharina von der Wense(参考訳) cloze-task language model (lm) の検索方法の違い 1)専門家製テンプレート及び 2)自然発生のテキストはしばしば見落とされた。 ここでは、16の異なるLM(テンプレートベース4つ、テンプレートフリー6つ)を評価して、以下の研究課題に答える。 (RQ1) モデルランキングは、2つのアプローチで異なるのか? (RQ2) モデルの絶対スコアは2つのアプローチで異なるか? (RQ3) RQ1とRQ2に対する答えは、一般モデルとドメイン固有モデルによって異なるのか? 私たちの発見は 1)テンプレートフリーとテンプレートベースのアプローチは、トップドメイン固有のモデルを除いて、しばしば異なるランク付けをする。 2) 並列テンプレートフリーとテンプレートベースのプロンプトを比較すると,スコアは最大42%減少する。 3) 複雑度はテンプレートフリーアプローチの精度と負に相関するが, 反対にテンプレートベースのプローブでは正に相関する。 4)モデルでは,テンプレートベースのプロンプトに対して,プロンプト間で同じ回答を頻繁に予測する傾向がある。

The differences between cloze-task language model (LM) probing with 1) expert-made templates and 2) naturally-occurring text have often been overlooked. Here, we evaluate 16 different LMs on 10 probing English datasets -- 4 template-based and 6 template-free -- in general and biomedical domains to answer the following research questions: (RQ1) Do model rankings differ between the two approaches? (RQ2) Do models' absolute scores differ between the two approaches? (RQ3) Do the answers to RQ1 and RQ2 differ between general and domain-specific models? Our findings are: 1) Template-free and template-based approaches often rank models differently, except for the top domain-specific models. 2) Scores decrease by up to 42% Acc@1 when comparing parallel template-free and template-based prompts. 3) Perplexity is negatively correlated with accuracy in the template-free approach, but, counter-intuitively, they are positively correlated for template-based probing. 4) Models tend to predict the same answers frequently across prompts for template-based probing, which is less common when employing template-free techniques.
翻訳日:2024-02-02 17:36:28 公開日:2024-01-31
# デコヒーレンスフリー部分空間は波動関数の崩壊を防げない

Decoherence-Free Subspaces Cannot Prevent the Collapse of Wave Functions ( http://arxiv.org/abs/2402.00112v1 )

ライセンス: Link先を確認
Alfred Li, Herschel A. Rabitz, Benjamin Lienhard(参考訳) 量子情報処理の有効性を保証するには、長いコヒーレンス時間と正確な量子制御に依存する。 量子情報処理の限界を調べることは、量子プロセッサやアルゴリズムの開発を進める上で不可欠である。 量子システムの運用における一般的な課題は、意図しない波動関数の崩壊である。 エネルギー損失に伴うランダム波動関数の崩壊は自発的放出と呼ばれる。 自然放出は物理量子プロセッサレベルでの最大性能を制限する可能性がある。 環境相互作用によって誘導される非単位動力学に理論的に免疫を持つ非コヒーレンスな部分空間は、潜在的な解決策を提供する。 このような部分空間に量子情報をエンコードすることは環境障害から保護し、長期間コヒーレンスを維持する。 本研究では,連続的自発的局所化によってモデル化された自発的波動関数の崩壊に対する非一貫性のない部分空間の存在について検討する。 その結果,非コヒーレンスな部分空間は連続的な自発局所化によってモデル化された自然波動関数の崩壊に対して遮蔽できないことが判明した。

Ensuring the effectiveness of quantum information processing relies on prolonged coherence times and precise quantum control. Investigating the limitations of quantum information processing is vital for advancing the development of quantum processors and algorithms. One common challenge in operating quantum systems is an unintended wave function collapse. A random wave function collapse associated with the loss of energy is referred to as spontaneous emission. Spontaneous emission may limit the maximal performance at the physical quantum processor level. Decoherence-free subspaces, theoretically immune to non-unitary dynamics induced by environmental interactions, offer a potential solution. Encoding quantum information in such a subspace can protect it from environmental disturbances, maintaining coherence for extended periods. In this study, we explore the existence of a decoherence-free subspace resilient to spontaneous wave function collapses modeled by continuous spontaneous localization -- a mathematical framework at the forefront of addressing the measurement problem in quantum mechanics. Our findings reveal that decoherence-free subspaces cannot shield against spontaneous wave function collapses modeled by continuous spontaneous localization, establishing the spontaneous emission rate as an upper limiting factor on the physical coherence time of quantum systems.
翻訳日:2024-02-02 17:36:11 公開日:2024-01-31
# 自律量子処理ユニット:量子計算のための自己完結型モデルを構築するには何が必要か?

Autonomous Quantum Processing Unit: What does it take to construct a self-contained model for quantum computation? ( http://arxiv.org/abs/2402.00111v1 )

ライセンス: Link先を確認
Florian Meier, Marcus Huber, Paul Erker, Jake Xuereb(参考訳) 計算とは、解決すべき問題を符号化するプログラムを、解を出力する機械に挿入する入力出力プロセスである。 この入出力機能を量子領域に持ち上げる量子チューリングマシンの形式が開発されているが、量子計算が物理的に考えられているわけではない。 通常、そのような量子計算は、古典的システムによって実行されるプログラムに従ってマクロ制御相互作用の操作によって行われる。 計算の基本的な限界を理解するためには、特に必要な資源に関して、計算資源と熱力学資源が古典的制御によって隠蔽されない量子計算の完全な自己完結的な記述を扱うことが重要である。 この目的のために、我々は「完全に自律的な量子計算のための物理モデルを構築するか?」という問いに答える。 自律的な量子処理ユニット(aQPU)をダブするフレームワークを開発することで実現しています。 タイムキーピング機構、命令レジスタ及び計算システムからなるこのマシンは、エージェントが問題を入力し、その解を出力として、自律的に受信することができる。 オープン量子システムの理論と量子時計の分野の結果を用いて、aqpuを形式論として利用し、所望の量子計算の熱力学、複雑性、速度、忠実性の関係を調べることができる。

Computation is an input-output process, where a program encoding a problem to be solved is inserted into a machine that outputs a solution. Whilst a formalism for quantum Turing machines which lifts this input-output feature into the quantum domain has been developed, this is not how quantum computation is physically conceived. Usually, such a quantum computation is enacted by the manipulation of macroscopic control interactions according to a program executed by a classical system. To understand the fundamental limits of computation, especially in relation to the resources required, it is pivotal to work with a fully self-contained description of a quantum computation where computational and thermodynamic resources are not be obscured by the classical control. To this end, we answer the question; "Can we build a physical model for quantum computation that is fully autonomous?", i.e., where the program to be executed as well as the control are both quantum. We do so by developing a framework that we dub the autonomous Quantum Processing Unit (aQPU). This machine, consisting of a timekeeping mechanism, instruction register and computational system allows an agent to input their problem and receive the solution as an output, autonomously. Using the theory of open quantum systems and results from the field of quantum clocks we are able to use the aQPU as a formalism to investigate relationships between the thermodynamics, complexity, speed and fidelity of a desired quantum computation.
翻訳日:2024-02-02 17:35:50 公開日:2024-01-31
# データセット凝縮駆動型マシンアンラーニング

Dataset Condensation Driven Machine Unlearning ( http://arxiv.org/abs/2402.00195v1 )

ライセンス: Link先を確認
Junaid Iqbal Khan(参考訳) データ規制要件とプライバシ保護機械学習の現在のトレンドは、機械学習の重要性を強調している。 余分なサンプルを再学習することで、非学習的なトレーニングデータに対する単純なアプローチは、計算上の課題に影響を受けやすい。 これらの課題は、機械学習の傘の下に落ちるテクニックの集合を通じて、効果的に対処されてきた。 しかしながら、未学習モデルの実用性とプライバシと調和して、永続的な計算上の課題に対処する上で、十分性が欠如している。 これは,学習データセットの観点から,近似学習の計算複雑性を改善するための作業の欠如を特徴としている。 本稿では,画像分類の文脈において,機械学習の重要な要素としてデータセットの凝縮を導入することで,このギャップを埋めることを目的とする。 この目的を達成するために,新しいデータセットの凝縮技術と,機械学習のプライバシ,ユーティリティ,効率のバランスを取る革新的なアンラーニング手法を提案する。 さらに,マシンアンラーニングのための新しい効果的な手法を提案するとともに,メンバシップ推論やモデルインバージョンアタックに対する防御への応用を提案する。 さらに,非学習サンプルの影響を受けずに任意のモデルの迅速なトレーニングを行う 'condensed model' からデータを削除するという,新たなアプローチの適用方法について検討する。

The current trend in data regulation requirements and privacy-preserving machine learning has emphasized the importance of machine unlearning. The naive approach to unlearning training data by retraining over the complement of the forget samples is susceptible to computational challenges. These challenges have been effectively addressed through a collection of techniques falling under the umbrella of machine unlearning. However, there still exists a lack of sufficiency in handling persistent computational challenges in harmony with the utility and privacy of unlearned model. We attribute this to the lack of work on improving the computational complexity of approximate unlearning from the perspective of the training dataset. In this paper, we aim to fill this gap by introducing dataset condensation as an essential component of machine unlearning in the context of image classification. To achieve this goal, we propose new dataset condensation techniques and an innovative unlearning scheme that strikes a balance between machine unlearning privacy, utility, and efficiency. Furthermore, we present a novel and effective approach to instrumenting machine unlearning and propose its application in defending against membership inference and model inversion attacks. Additionally, we explore a new application of our approach, which involves removing data from `condensed model', which can be employed to quickly train any arbitrary model without being influenced by unlearning samples.
翻訳日:2024-02-02 17:27:59 公開日:2024-01-31
# エネルギー連続体の存在下での量子再帰は存在するか?

Is There Quantum Recurrence in the Presence of an Energy Continuum? ( http://arxiv.org/abs/2402.00193v1 )

ライセンス: Link先を確認
James P. Lavine(参考訳) 初期状態がエネルギー状態の連続体と結合すると仮定する。 初期状態の人口は時間とともに減少すると予想されるが、モノトニックは減少するのか? 初期状態の占有確率は生存確率であり、問題は生存確率が増加する時間間隔があるかどうかを問うことと等価である。 このような再成長は再生または再発とも呼ばれ、可算数の離散状態を持つ系で起こる。 回帰は初期状態と連続状態の間の遷移を可能にする単純なモデルで研究されるが、連続状態間の遷移は許されない。 このモデルはフルエネルギー連続体に対してシュローディンガー方程式の解を用いる。 そのような連続体は-無限から+無限まで続き、時間の中で指数関数的崩壊しか持たない。 しかし、切断された連続体の生存確率は、様々な行動を持つことが判明した。 一般に、生存確率は数桁の等級で減少し、しばしば指数関数として減少し、再成長が制限される。

Suppose an initial state is coupled to a continuum of energy states. The population of the initial state is expected to decrease with time, but is the decrease monotonic? The occupation probability of the initial state is the survival probability and the question is equivalent to asking if there are intervals of time where the survival probability increases. Such regrowth is also referred to as regeneration or recurrence and it occurs in systems with a countable number of discrete states. Regrowth is investigated with a simple model that allows transitions between the initial state and continuum states, but transitions between continuum states are not permitted. The model uses the solution of Schroedinger's Equation for a full energy continuum. Such a continuum runs from -infinity to +infinity and is found to have only exponential decay in time. However, the survival probability for a truncated continuum turns out to have a wide variety of behaviors. Generally, the survival probability decreases by several orders of magnitudes, often as an exponential, and then has limited regrowth.
翻訳日:2024-02-02 17:27:40 公開日:2024-01-31
# ガウス面モデルによる距離と衝突確率の推定

Distance and Collision Probability Estimation from Gaussian Surface Models ( http://arxiv.org/abs/2402.00186v1 )

ライセンス: Link先を確認
Kshitij Goel and Wennie Tabib(参考訳) 本稿では, 楕円型ロボットモデルとガウス分布の集合としてモデル化された環境表面との衝突確率, ユークリッド距離, 勾配を推定するための連続空間法について述べる。 連続空間衝突確率推定は不確実性を考慮した運動計画に重要である。 ほとんどの衝突検出と回避アプローチは、ロボットが球体としてモデル化されていると仮定するが、楕円形表現はより厳密な近似を提供し、散らばった狭い空間でのナビゲーションを可能にする。 最先端の手法は、大きなワークスペースに計算コストがかかる原点雲を処理してユークリッド距離と勾配を導出する。 ガウス曲面モデリング(例えば混合モデル、スプラッティング)の最近の進歩は、圧縮された高忠実な表面表現を可能にする。 そのようなモデルから連続空間占有率を推定する方法はほとんどない。 彼らはガウスに自由空間をモデル化することを求め、楕円体ロボットの衝突確率、ユークリッド距離、勾配を推定できない。 提案手法は, 楕円-楕円-ユークリッド距離における先行作業を延長し, ガウス面モデルへの衝突確率推定により, このギャップを橋渡しする。 衝突確率推定を改善するために幾何学的ブレンド手法も提案されている。 本手法は実世界の点雲データを用いて数値2次元および3次元実験により評価した。

This paper describes continuous-space methodologies to estimate the collision probability, Euclidean distance and gradient between an ellipsoidal robot model and an environment surface modeled as a set of Gaussian distributions. Continuous-space collision probability estimation is critical for uncertainty-aware motion planning. Most collision detection and avoidance approaches assume the robot is modeled as a sphere, but ellipsoidal representations provide tighter approximations and enable navigation in cluttered and narrow spaces. State-of-the-art methods derive the Euclidean distance and gradient by processing raw point clouds, which is computationally expensive for large workspaces. Recent advances in Gaussian surface modeling (e.g. mixture models, splatting) enable compressed and high-fidelity surface representations. Few methods exist to estimate continuous-space occupancy from such models. They require Gaussians to model free space and are unable to estimate the collision probability, Euclidean distance and gradient for an ellipsoidal robot. The proposed methods bridge this gap by extending prior work in ellipsoid-to-ellipsoid Euclidean distance and collision probability estimation to Gaussian surface models. A geometric blending approach is also proposed to improve collision probability estimation. The approaches are evaluated with numerical 2D and 3D experiments using real-world point cloud data.
翻訳日:2024-02-02 17:27:25 公開日:2024-01-31
# 身元不明は必ずしも十分ではない

De-identification is not always enough ( http://arxiv.org/abs/2402.00179v1 )

ライセンス: Link先を確認
Atiquer Rahman Sarkar, Yao-Shun Chuang, Noman Mohammed, Xiaoqian Jiang(参考訳) プライバシーに敏感なデータを共有するためには、プライバシーの保護に適していると見なされる。 合成データは、プライバシ保護の代替案としても考えられている。 最近の数値および表データ生成モデルの成功と大規模な生成言語モデルのブレークスルーは、合成された臨床ノートが研究目的の実際のノートの代替となるかどうかという疑問を提起している。 この研究で、我々はそれを実証した。 (i)実際の臨床ノートの非同定は、会員推理攻撃に対して記録を保護しない。 (ii)最先端の大規模言語モデルを用いた合成臨床ノート作成のための新しい手法を提案する。 (iii)臨床領域課題における合成音符の性能評価と機能評価 (iv)ターゲットモデルが合成データで訓練されるメンバーシップ推論アタックをマウントする方法を提案した。 合成された音符が実データの性能と密接に一致した場合、実際のデータと同じようなプライバシー上の懸念が生じる。 合成した臨床ノートに対する他のアプローチがより良いトレードオフを提供し、センシティブなリアルノートの代替となるかどうかについては、さらなる調査が進められている。

For sharing privacy-sensitive data, de-identification is commonly regarded as adequate for safeguarding privacy. Synthetic data is also being considered as a privacy-preserving alternative. Recent successes with numerical and tabular data generative models and the breakthroughs in large generative language models raise the question of whether synthetically generated clinical notes could be a viable alternative to real notes for research purposes. In this work, we demonstrated that (i) de-identification of real clinical notes does not protect records against a membership inference attack, (ii) proposed a novel approach to generate synthetic clinical notes using the current state-of-the-art large language models, (iii) evaluated the performance of the synthetically generated notes in a clinical domain task, and (iv) proposed a way to mount a membership inference attack where the target model is trained with synthetic data. We observed that when synthetically generated notes closely match the performance of real data, they also exhibit similar privacy concerns to the real data. Whether other approaches to synthetically generated clinical notes could offer better trade-offs and become a better alternative to sensitive real notes warrants further investigation.
翻訳日:2024-02-02 17:27:03 公開日:2024-01-31
# adversarial quantum machine learning: 情報理論一般化分析

Adversarial Quantum Machine Learning: An Information-Theoretic Generalization Analysis ( http://arxiv.org/abs/2402.00176v1 )

ライセンス: Link先を確認
Petros Georgiou, Sharu Theresa Jose and Osvaldo Simeone(参考訳) 従来のものと類似した方法では、量子分類器は入力を乱す敵の攻撃に対して脆弱である。 有望な対策は、攻撃認識(attack-aware)、あるいは敵対的損失関数を採用して量子分類器を訓練することである。 本稿では,有界ノルムホワイトボックス攻撃に対して相反的に訓練された量子分類器の一般化特性について検討する。 具体的には、量子敵は入力状態 $\rho(x)$ を元の状態 $\rho(x)$ in $p$-Schatten 距離に $\epsilon$-close である状態 $\lambda$ に変換することで、分類器の損失を最大化する。 量子埋め込み $\rho(x)$ の適切な仮定の下で、$p = 1$ および $p = \infty$ の逆訓練量子分類器の一般化誤差に関する新しい情報理論上界を導出する。 導出上界は2つの項からなる: 第一は古典的データと量子埋め込みの間の2-R'enyi相互情報の指数関数であり、第二項は逆摂動サイズ$\epsilon$と線形にスケールする。 両方の項は、トレーニングセットサイズ$T$に対して$/\sqrt{T}$として減少する。 トレーニング中に想定される敵が、テスト入力に影響を与える相手と比較して、$p$と$\epsilon$が異なるパラメータを持つ拡張も考慮されている。 最後に, 合成設定のための数値実験を行い, 理論的知見を検証した。

In a manner analogous to their classical counterparts, quantum classifiers are vulnerable to adversarial attacks that perturb their inputs. A promising countermeasure is to train the quantum classifier by adopting an attack-aware, or adversarial, loss function. This paper studies the generalization properties of quantum classifiers that are adversarially trained against bounded-norm white-box attacks. Specifically, a quantum adversary maximizes the classifier's loss by transforming an input state $\rho(x)$ into a state $\lambda$ that is $\epsilon$-close to the original state $\rho(x)$ in $p$-Schatten distance. Under suitable assumptions on the quantum embedding $\rho(x)$, we derive novel information-theoretic upper bounds on the generalization error of adversarially trained quantum classifiers for $p = 1$ and $p = \infty$. The derived upper bounds consist of two terms: the first is an exponential function of the 2-R\'enyi mutual information between classical data and quantum embedding, while the second term scales linearly with the adversarial perturbation size $\epsilon$. Both terms are shown to decrease as $1/\sqrt{T}$ over the training set size $T$ . An extension is also considered in which the adversary assumed during training has different parameters $p$ and $\epsilon$ as compared to the adversary affecting the test inputs. Finally, we validate our theoretical findings with numerical experiments for a synthetic setting.
翻訳日:2024-02-02 17:26:46 公開日:2024-01-31
# CTにおける骨病変の軽度観察

Weakly-Supervised Detection of Bone Lesions in CT ( http://arxiv.org/abs/2402.00175v1 )

ライセンス: Link先を確認
Tao Sheng, Tejas Sudharshan Mathai, Alexander Shieh, Ronald M. Summers(参考訳) 骨格領域は乳腺と前立腺に転移性癌が拡がる一般的な部位の1つである。 CTは定期的に骨の病変の大きさを測定するために用いられる。 しかし、大きさ、形状、外観の多様さから見分けることは困難である。 このような病変の正確な局在は、間隔の変化(成長、収縮、または状態の変化)の信頼できる追跡を可能にする。 そのため、骨病変を検出する自動化技術が極めて望ましい。 本研究は,CTボリュームの骨病変(解析的,破砕的,混合的)をプロキシセグメンテーションタスクにより検出するパイプラインを開発した。 まず,CTの2次元スライスで放射線技師に特徴付けられる骨病変を用いて,弱い3次元セグメンテーションマスクに改造した。 そして,これらの弱い3Dアノテーションを用いて3次元フルレゾリューションnnUNetモデルを訓練し,病変を同定した。 不完全および部分的トレーニングデータを用いたにもかかわらず,CTでは96.7%の精度で骨病変を認め,47.3%のリコールを認めた。 我々の知る限り、私たちはまず、プロキシセグメンテーションタスクを通じて、CTの骨病変を直接検出しようと試みています。

The skeletal region is one of the common sites of metastatic spread of cancer in the breast and prostate. CT is routinely used to measure the size of lesions in the bones. However, they can be difficult to spot due to the wide variations in their sizes, shapes, and appearances. Precise localization of such lesions would enable reliable tracking of interval changes (growth, shrinkage, or unchanged status). To that end, an automated technique to detect bone lesions is highly desirable. In this pilot work, we developed a pipeline to detect bone lesions (lytic, blastic, and mixed) in CT volumes via a proxy segmentation task. First, we used the bone lesions that were prospectively marked by radiologists in a few 2D slices of CT volumes and converted them into weak 3D segmentation masks. Then, we trained a 3D full-resolution nnUNet model using these weak 3D annotations to segment the lesions and thereby detected them. Our automated method detected bone lesions in CT with a precision of 96.7% and recall of 47.3% despite the use of incomplete and partial training data. To the best of our knowledge, we are the first to attempt the direct detection of bone lesions in CT via a proxy segmentation task.
翻訳日:2024-02-02 17:26:13 公開日:2024-01-31
# サロゲートによる連続処理効果

Continuous Treatment Effects with Surrogate Outcomes ( http://arxiv.org/abs/2402.00168v1 )

ライセンス: Link先を確認
Zhenghao Zeng, David Arbour, Avi Feller, Raghavendra Addanki, Ryan Rossi, Ritwik Sinha, Edward H. Kennedy(参考訳) 多くの実世界の因果推論アプリケーションでは、主要な結果(ラベル)が部分的に欠落していることが多い。 欠如が共変量に依存する場合(つまり、欠如は完全にランダムではない)、完全に観測されたサンプルのみに基づく分析は偏りがある。 一次結果に関連する処理後変数が完全に観察されたサロゲートを組み込むことは、この場合の推定を改善することができる。 本稿では, 連続処理効果の推定におけるサロゲートの役割について検討し, ラベル付きデータとラベルなしデータの両方を用いて, 上記の選択バイアス問題に苦しむことなく, 効率的にサロゲートを組み込む2つの頑健な手法を提案する。 重要なことは,提案した推定器の漸近正規性を確立し,ラベル付きデータのみを使用する手法と比較して分散性の向上の可能性を示す。 広範にシミュレーションした結果,実験的なパフォーマンスを享受できることがわかった。

In many real-world causal inference applications, the primary outcomes (labels) are often partially missing, especially if they are expensive or difficult to collect. If the missingness depends on covariates (i.e., missingness is not completely at random), analyses based on fully-observed samples alone may be biased. Incorporating surrogates, which are fully observed post-treatment variables related to the primary outcome, can improve estimation in this case. In this paper, we study the role of surrogates in estimating continuous treatment effects and propose a doubly robust method to efficiently incorporate surrogates in the analysis, which uses both labeled and unlabeled data and does not suffer from the above selection bias problem. Importantly, we establish asymptotic normality of the proposed estimator and show possible improvements on the variance compared with methods that solely use labeled data. Extensive simulations show our methods enjoy appealing empirical performance.
翻訳日:2024-02-02 17:25:55 公開日:2024-01-31
# 政策勾配の探究の神話の背後には

Behind the Myth of Exploration in Policy Gradients ( http://arxiv.org/abs/2402.00162v1 )

ライセンス: Link先を確認
Adrien Bolland, Gaspard Lambrechts, Damien Ernst(参考訳) ポリシーグラディエントアルゴリズムは、連続状態と行動空間による制御問題を解くための効果的な強化学習手法である。 準最適政策を計算するためには,探索用語を学習目的に含めることが不可欠である。 これらの用語の有効性は,本質的な環境探索の必要性によって正当化されることが多いが,新しい分析法を提案し,その2つの異なる意味を区別する。 まず、学習目的を円滑にし、グローバルな最大値を保ちながら局所最適性を排除できるようにする。 第2に、勾配推定を変更し、確率的パラメータ更新が最終的に最適なポリシーを提供する確率を高める。 これらの効果を踏まえて,エントロピーボーナスに基づく経験的探索戦略を議論し,それらの限界を強調し,それらの戦略の設計と分析における今後の作業への道筋を開く。

Policy-gradient algorithms are effective reinforcement learning methods for solving control problems with continuous state and action spaces. To compute near-optimal policies, it is essential in practice to include exploration terms in the learning objective. Although the effectiveness of these terms is usually justified by an intrinsic need to explore environments, we propose a novel analysis and distinguish two different implications of these techniques. First, they make it possible to smooth the learning objective and to eliminate local optima while preserving the global maximum. Second, they modify the gradient estimates, increasing the probability that the stochastic parameter update eventually provides an optimal policy. In light of these effects, we discuss and illustrate empirically exploration strategies based on entropy bonuses, highlighting their limitations and opening avenues for future works in the design and analysis of such strategies.
翻訳日:2024-02-02 17:25:39 公開日:2024-01-31
# 量子ビットを超えたデバイス非依存量子鍵分布

Device-Independent Quantum Key Distribution beyond qubits ( http://arxiv.org/abs/2402.00161v1 )

ライセンス: Link先を確認
Javier Rivera-Dean, Anna Steffinlongo, Neil Parker-S\'anchez, Antonio Ac\'in, Enky Oudot(参考訳) デバイスに依存しない量子鍵分布(diqkd)は、使用中のデバイスへの信頼を頼らずに、キー生成に厳格なノイズ制約を課すことを目的としている。 本研究では、DIQKDにおける高次元量子システムのレジリエンスについて検討し、量子ビットと量子ビットの比較に焦点を当てた。 達成可能な鍵レートの下位境界は数値最適化により検討され、上限は任意の次元を考慮しさらに拡張された凸結合攻撃を用いて評価される。 これらの境界の観測された違いは、ノイズ閾値とDIQKDシナリオの潜在的な拡張に関する洞察を与え、関連する実験的な努力から、次元の増大のメリットに関する議論を促す。

Device-Independent Quantum Key Distribution (DIQKD) aims to generate secret keys between two parties without relying on trust in their employed devices, imposing strict noise constraints for key generation. This study explores the resilience of high-dimensional quantum systems in DIQKD, focusing on a comparison between qubits and qutrits. Lower bounds on achievable key rates are investigated through numerical optimization, while upper bounds are evaluated using the Convex-Combination attack, which has been further extended to account for arbitrary dimensions. The observed difference between these bounds provides insights into noise thresholds and potential enhancements in DIQKD scenarios, prompting debate on the merit of increased dimensions given the associated experimental efforts required.
翻訳日:2024-02-02 17:25:22 公開日:2024-01-31
# EHR(MEME)の多層埋め込みモデルを用いた救急部門予知タスクのマルチモーダル臨床評価

Multimodal Clinical Pseudo-notes for Emergency Department Prediction Tasks using Multiple Embedding Model for EHR (MEME) ( http://arxiv.org/abs/2402.00160v1 )

ライセンス: Link先を確認
Simon A. Lee, Sujay Jain, Alex Chen, Arabdha Biswas, Jennifer Fang, Akos Rudas, Jeffrey N. Chiang(参考訳) 本稿ではElectronic Health Records(EHR)をマルチモーダルデータとみなすアプローチであるMultiple Embedding Model for EHR(MEME)を紹介する。 本手法では, 診断や医薬品などの表層EHR概念のテキスト表現である「疑似ノート」を取り入れ, EHR表現に大規模言語モデル(LLM)を効果的に活用する。 このフレームワークはマルチモーダルアプローチを採用し、それぞれのEHRモダリティを個別に埋め込む。 複数の病院システムにまたがる救急部門における複数の業務にMEMEを適用することで,その効果を実証する。 その結果,MEMEは単一モード埋め込み法と従来の機械学習手法の両方の性能を上回っていることがわかった。 しかし,全試験モデルにおいて,病院施設間での一般化可能性に顕著な制限が認められた。

In this work, we introduce Multiple Embedding Model for EHR (MEME), an approach that views Electronic Health Records (EHR) as multimodal data. This approach incorporates "pseudo-notes", textual representations of tabular EHR concepts such as diagnoses and medications, and allows us to effectively employ Large Language Models (LLMs) for EHR representation. This framework also adopts a multimodal approach, embedding each EHR modality separately. We demonstrate the effectiveness of MEME by applying it to several tasks within the Emergency Department across multiple hospital systems. Our findings show that MEME surpasses the performance of both single modality embedding methods and traditional machine learning approaches. However, we also observe notable limitations in generalizability across hospital institutions for all tested models.
翻訳日:2024-02-02 17:25:08 公開日:2024-01-31
# dolma: 言語モデル事前学習研究のための3兆トークンのオープンコーパス

Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research ( http://arxiv.org/abs/2402.00159v1 )

ライセンス: Link先を確認
Luca Soldaini, Rodney Kinney, Akshita Bhagia, Dustin Schwenk, David Atkinson, Russell Authur, Ben Bogin, Khyathi Chandu, Jennifer Dumas, Yanai Elazar, Valentin Hofmann, Ananya Harsh Jha, Sachin Kumar, Li Lucy, Xinxi Lyu, Nathan Lambert, Ian Magnusson, Jacob Morrison, Niklas Muennighoff, Aakanksha Naik, Crystal Nam, Matthew E. Peters, Abhilasha Ravichander, Kyle Richardson, Zejiang Shen, Emma Strubell, Nishant Subramani, Oyvind Tafjord, Pete Walsh, Luke Zettlemoyer, Noah A. Smith, Hannaneh Hajishirzi, Iz Beltagy, Dirk Groeneveld, Jesse Dodge, Kyle Lo(参考訳) 言語モデルは、幅広い自然言語処理タスクに取り組む上で重要な技術となっているが、最も優れた言語モデルがどのように開発されたかについての詳細は報告されていない。 商用言語モデルは、彼らのデータに関する情報を提供することは滅多になく、オープンモデルでさえ、トレーニングされたデータセットや、それらを再現するための正確なレシピをリリースすることが滅多にない。 その結果、トレーニングデータがどのようにモデル能力に影響を与え、その限界を形作るかを理解するなど、特定の言語モデリング研究のスレッドを実行することは困難である。 言語モデル事前学習のオープンな研究を容易にするため,Webコンテンツ,科学論文,コード,パブリックドメイン書籍,ソーシャルメディア,百科事典資料の多様さから構築された,3兆単位の英語コーパスであるDolmaをリリースする。 さらに、我々の研究のさらなる実験と再現を可能にするデータキュレーションツールキットをオープンソース化した。 本報告では,dolmaの設計原則,構造の詳細,内容の概要などについて述べる。 本報告は,Dolmaの中間状態に関する言語モデルの解析と実験結果を用いて,コンテンツや品質フィルタの役割,重複解消,マルチソース混合など,重要なデータキュレーションの実践について学んだことを共有する。 Dolmaは、言語モデリングの科学を構築し研究するために設計された、最先端のオープン言語モデルとフレームワークであるOLMoのトレーニングに使用されている。

Language models have become a critical technology to tackling a wide range of natural language processing tasks, yet many details about how the best-performing language models were developed are not reported. In particular, information about their pretraining corpora is seldom discussed: commercial language models rarely provide any information about their data; even open models rarely release datasets they are trained on, or an exact recipe to reproduce them. As a result, it is challenging to conduct certain threads of language modeling research, such as understanding how training data impacts model capabilities and shapes their limitations. To facilitate open research on language model pretraining, we release Dolma, a three trillion tokens English corpus, built from a diverse mixture of web content, scientific papers, code, public-domain books, social media, and encyclopedic materials. In addition, we open source our data curation toolkit to enable further experimentation and reproduction of our work. In this report, we document Dolma, including its design principles, details about its construction, and a summary of its contents. We interleave this report with analyses and experimental results from training language models on intermediate states of Dolma to share what we have learned about important data curation practices, including the role of content or quality filters, deduplication, and multi-source mixing. Dolma has been used to train OLMo, a state-of-the-art, open language model and framework designed to build and study the science of language modeling.
翻訳日:2024-02-02 17:24:52 公開日:2024-01-31
# 数学的推論のための大規模言語モデル:進展と課題

Large Language Models for Mathematical Reasoning: Progresses and Challenges ( http://arxiv.org/abs/2402.00157v1 )

ライセンス: Link先を確認
Janice Ahn, Rishu Verma, Renze Lou, Di Liu, Rui Zhang, Wenpeng Yin(参考訳) 数学的推論は、人間の知能の基本的な認知能力を評価するための基礎となる。 近年,数学問題の自動解法を目的とした大規模言語モデル(LLM)の開発が顕著に進んでいる。 しかし、数学的な問題の種類は様々であり、LLM指向の手法は様々なデータセットや設定で評価されている。 この多様性は、この急成長する分野における真の進歩と障害を理解するのを難しくする。 この調査は4つの重要な次元に取り組みます 一 調査した各種数学上の問題及びその対応するデータセットの総合的な調査 二 数学的問題解決のために提案されたLLM指向技術のスペクトルの検討 三 数学の解法における LLM に影響する要因及び問題の概要 四 この領域における持続する課題の解明 我々の知る限りでは、この調査は数学の領域におけるLLMの展望に関する最初の広範な調査の1つであり、この急速に発展する分野における現在の状況、成果、今後の課題に関する総合的な視点を提供するものである。

Mathematical reasoning serves as a cornerstone for assessing the fundamental cognitive capabilities of human intelligence. In recent times, there has been a notable surge in the development of Large Language Models (LLMs) geared towards the automated resolution of mathematical problems. However, the landscape of mathematical problem types is vast and varied, with LLM-oriented techniques undergoing evaluation across diverse datasets and settings. This diversity makes it challenging to discern the true advancements and obstacles within this burgeoning field. This survey endeavors to address four pivotal dimensions: i) a comprehensive exploration of the various mathematical problems and their corresponding datasets that have been investigated; ii) an examination of the spectrum of LLM-oriented techniques that have been proposed for mathematical problem-solving; iii) an overview of factors and concerns affecting LLMs in solving math; and iv) an elucidation of the persisting challenges within this domain. To the best of our knowledge, this survey stands as one of the first extensive examinations of the landscape of LLMs in the realm of mathematics, providing a holistic perspective on the current state, accomplishments, and future challenges in this rapidly evolving field.
翻訳日:2024-02-02 17:24:22 公開日:2024-01-31
# 超解像生成対向ネットワークを用いた地震データのサンプリング周波数向上のための完全データ駆動モデル

Fully Data-Driven Model for Increasing Sampling Rate Frequency of Seismic Data using Super-Resolution Generative Adversarial Networks ( http://arxiv.org/abs/2402.00153v1 )

ライセンス: Link先を確認
Navid Gholizadeh and Javad Katebi(参考訳) 高品質のデータは、あらゆるエンジニアリングアプリケーションにとって重要な要件の1つです。 地震工学の実践において、構造健康モニタリング(SHM)アプリケーションにおける構造や損傷検出プロセスの応答の予測には正確なデータが重要である。 しかし、高解像度データを取得するには、大幅なコスト、広範なデータチャネル、大規模なストレージ要求といった課題が伴う。 これらの課題に対処するために, センサネットワークがSHMアプリケーションで取得したデータなどの時系列データの解像度を改善するため, SRGANの地震工学領域における最初の適用例を示すために, SRGANを用いた。 時系列データはRGB値に変換され、生データを画像に変換する。 SRGANはこれらの低解像度画像のスケールアップに利用され、全体的なセンサー解像度が向上する。 この方法論は、データストレージ要件の潜在的な削減を提供するだけでなく、センサーネットワークを単純化し、インストールとメンテナンスのコストを削減します。 SRGAN法は実地震データを用いて厳密に評価し,その性能を従来の拡張手法と比較した。 本研究の成果は、SHMシステムにおけるセンサの分解能の費用対効果と効率の向上を図り、世界中のインフラの安全性と持続可能性に有望な影響を与える。

High-quality data is one of the key requirements for any engineering application. In earthquake engineering practice, accurate data is pivotal in predicting the response of structure or damage detection process in an Structural Health Monitoring (SHM) application with less uncertainty. However, obtaining high-resolution data is fraught with challenges, such as significant costs, extensive data channels, and substantial storage requirements. To address these challenges, this study employs super-resolution generative adversarial networks (SRGANs) to improve the resolution of time-history data such as the data obtained by a sensor network in an SHM application, marking the first application of SRGANs in earthquake engineering domain. The time-series data are transformed into RGB values, converting raw data into images. SRGANs are then utilized to upscale these low-resolution images, thereby enhancing the overall sensor resolution. This methodology not only offers potential reductions in data storage requirements but also simplifies the sensor network, which could result in lower installation and maintenance costs. The proposed SRGAN method is rigorously evaluated using real seismic data, and its performance is compared with traditional enhancement techniques. The findings of this study pave the way for cost-effective and efficient improvements in the resolution of sensors used in SHM systems, with promising implications for the safety and sustainability of infrastructures worldwide.
翻訳日:2024-02-02 17:24:06 公開日:2024-01-31
# 深い、あるいはより広い:ソボレフ損失を伴う最適一般化誤差からの視点

Deeper or Wider: A Perspective from Optimal Generalization Error with Sobolev Loss ( http://arxiv.org/abs/2402.00152v1 )

ライセンス: Link先を確認
Yahong Yang and Juncai He(参考訳) ニューラルネットワークのアーキテクチャを構築することは、マシンラーニングコミュニティにとって困難な作業であり、より深く、より広く進むべきかというジレンマは、いまだに根強い疑問である。 本稿では,よりフレキシブルな層数を持つディープニューラルネットワーク(DeNN)と限られた層を持つワイドニューラルネットワーク(WeNN)を比較し,ソボレフ損失における最適一般化誤差に着目した。 分析研究により、ニューラルネットワークのアーキテクチャは、サンプルポイントの数、ニューラルネットワーク内のパラメータ、損失関数の正則性など、様々な要因に大きく影響を受けることが判明した。 具体的には、より多くのパラメータがWeNNを好む傾向にあり、一方、サンプルポイントの増加と損失関数の規則性の向上は、DeNNの採用に傾いている。 この理論を、ディープ・リッツと物理インフォームド・ニューラルネットワーク(PINN)法を用いた偏微分方程式に応用し、ニューラルネットワークの設計を導く。

Constructing the architecture of a neural network is a challenging pursuit for the machine learning community, and the dilemma of whether to go deeper or wider remains a persistent question. This paper explores a comparison between deeper neural networks (DeNNs) with a flexible number of layers and wider neural networks (WeNNs) with limited hidden layers, focusing on their optimal generalization error in Sobolev losses. Analytical investigations reveal that the architecture of a neural network can be significantly influenced by various factors, including the number of sample points, parameters within the neural networks, and the regularity of the loss function. Specifically, a higher number of parameters tends to favor WeNNs, while an increased number of sample points and greater regularity in the loss function lean towards the adoption of DeNNs. We ultimately apply this theory to address partial differential equations using deep Ritz and physics-informed neural network (PINN) methods, guiding the design of neural networks.
翻訳日:2024-02-02 17:23:41 公開日:2024-01-31
# 円パディングおよび零パディングを有する畳み込み層のスペクトルノルム

Spectral Norm of Convolutional Layers with Circular and Zero Paddings ( http://arxiv.org/abs/2402.00240v1 )

ライセンス: Link先を確認
Blaise Delattre and Quentin Barth\'elemy and Alexandre Allauzen(参考訳) 本稿では, スペクトルノルムを上界保証付きで計算するための, 効率的かつ決定論的, 微分可能な手法である \emph{Gram iteration} を利用する。 円錐畳み込み層のために設計され,Gram の反復法をパッド状畳み込み層ゼロに一般化し,その二次収束性を証明する。 また、円と零パディング畳み込みのスペクトルノルムのギャップを埋めるための定理も提供する。 私たちは、ネットワークの堅牢性を高める1ドルのリプシッツ層として使用できる \emph{spectral rescaling} を設計します。 実験によって実証された本手法は, 精度, 計算コスト, スケーラビリティにおいて最先端技術より優れている。 実験のコードはhttps://github.com/blaisedelattre/lip4convで入手できる。

This paper leverages the use of \emph{Gram iteration} an efficient, deterministic, and differentiable method for computing spectral norm with an upper bound guarantee. Designed for circular convolutional layers, we generalize the use of the Gram iteration to zero padding convolutional layers and prove its quadratic convergence. We also provide theorems for bridging the gap between circular and zero padding convolution's spectral norm. We design a \emph{spectral rescaling} that can be used as a competitive $1$-Lipschitz layer that enhances network robustness. Demonstrated through experiments, our method outperforms state-of-the-art techniques in precision, computational cost, and scalability. The code of experiments is available at https://github.com/blaisedelattre/lip4conv.
翻訳日:2024-02-02 17:16:56 公開日:2024-01-31
# インターネットを利用したバイオテクノロジー産業用CNN-FL

CNN-FL for Biotechnology Industry Empowered by Internet-of-BioNano Things and Digital Twins ( http://arxiv.org/abs/2402.00238v1 )

ライセンス: Link先を確認
Mohammad (Behdad) Jamshidi, Dinh Thai Hoang, and Diep N. Nguyen(参考訳) デジタル・ツイン(dts)は生物資産、微生物、医薬品開発プロセス、デジタル医療の高度なデジタル表現を可能にし、バイオテクノロジー産業に革命をもたらしている。 しかし、特にバクテリアのような複雑なエンティティをモデル化する場合、マイクロスケールとナノスケールでのデジタルツインニングは、高度なIoT(Internet of Things)インフラストラクチャとコンピューティングアプローチを必要とし、精度とスケーラビリティの向上を実現する上で大きな課題となる。 本稿では,バイオナノモノのインターネット(iobnt)と高度な機械学習技術,特に畳み込みニューラルネットワーク(cnn)と連合学習(fl)を統合し,その課題を効果的に解決するための新しい枠組みを提案する。 我々のフレームワーク内では、画像ベースの生物学的データを様々な物理的環境にわたって収集するためにIoBNTデバイスがデプロイされ、CNNの強力な能力を活用して、堅牢なマシンビジョンとパターン認識を実現している。 その後、flはこれらの異なるデータソースから洞察を集約し、精度と予測信頼性を継続的に向上させる洗練されたグローバルモデルを作成し、バイオテクノロジーにおけるdtsの効果的な展開に不可欠である。 主な貢献は、IoBNTの機能によって強化されたCNNとFLを相乗的に結合する新しいフレームワークの開発である。 この新しいアプローチは、バイオテクノロジー産業におけるDTの強化に特化している。 その結果,微生物DTの信頼性と安全性が向上し,精度が向上した。 さらに,提案フレームワークはエネルギー効率とセキュリティに優れ,ユーザフレンドリーで適応可能なソリューションを提供する。 これにより、バイオテクノロジーや製薬業界、臨床や病院の環境など様々な分野にも応用範囲を広げる。

Digital twins (DTs) are revolutionizing the biotechnology industry by enabling sophisticated digital representations of biological assets, microorganisms, drug development processes, and digital health applications. However, digital twinning at micro and nano scales, particularly in modeling complex entities like bacteria, presents significant challenges in terms of requiring advanced Internet of Things (IoT) infrastructure and computing approaches to achieve enhanced accuracy and scalability. In this work, we propose a novel framework that integrates the Internet of Bio-Nano Things (IoBNT) with advanced machine learning techniques, specifically convolutional neural networks (CNN) and federated learning (FL), to effectively tackle the identified challenges. Within our framework, IoBNT devices are deployed to gather image-based biological data across various physical environments, leveraging the strong capabilities of CNNs for robust machine vision and pattern recognition. Subsequently, FL is utilized to aggregate insights from these disparate data sources, creating a refined global model that continually enhances accuracy and predictive reliability, which is crucial for the effective deployment of DTs in biotechnology. The primary contribution is the development of a novel framework that synergistically combines CNN and FL, augmented by the capabilities of the IoBNT. This novel approach is specifically tailored to enhancing DTs in the biotechnology industry. The results showcase enhancements in the reliability and safety of microorganism DTs, while preserving their accuracy. Furthermore, the proposed framework excels in energy efficiency and security, offering a user-friendly and adaptable solution. This broadens its applicability across diverse sectors, including biotechnology and pharmaceutical industries, as well as clinical and hospital settings.
翻訳日:2024-02-02 17:16:42 公開日:2024-01-31
# 位置エンコーディングは、ニューラルネットワークが大きな語彙を扱うのに役立つ

Positional Encoding Helps Recurrent Neural Networks Handle a Large Vocabulary ( http://arxiv.org/abs/2402.00236v1 )

ライセンス: Link先を確認
Takashi Morita(参考訳) 本研究では,合成ベンチマークを用いたrecurrent neural network (rnns) における位置符号化の効果について検討する。 時系列の"タイムスタンプ"データポイントの位置符号化は、データ順序を表す固有のメカニズムを欠いたトランスフォーマーニューラルネットワークの能力を補完するものだ。 対照的に、RNNはデータポイントの時間情報を自身でエンコードすることができ、位置エンコーディングの使用は「冗長」のように見える。 それにもかかわらず、実証的な調査では、RNNと組み合わせても位置符号化の有効性が明らかにされている。 これらの知見は、入力駆動と自律時間表現の組み合わせに関して、RNNに関する新しい研究の道を開いた。 さらに, 生体脳における位置符号化の正弦波的実装と神経振動との親和性の観点から, 計算・シミュレーション結果の生物学的意義を考察した。

This study discusses the effects of positional encoding on recurrent neural networks (RNNs) utilizing synthetic benchmarks. Positional encoding "time-stamps" data points in time series and complements the capabilities of Transformer neural networks, which lack an inherent mechanism for representing the data order. By contrast, RNNs can encode the temporal information of data points on their own, rendering their use of positional encoding seemingly "redundant". Nonetheless, empirical investigations reveal the effectiveness of positional encoding even when coupled with RNNs, specifically for handling a large vocabulary that yields diverse observations. These findings pave the way for a new line of research on RNNs, concerning the combination of input-driven and autonomous time representation. Additionally, biological implications of the computational/simulational results are discussed, in the light of the affinity between the sinusoidal implementation of positional encoding and neural oscillations in biological brains.
翻訳日:2024-02-02 17:16:12 公開日:2024-01-31
# 公開音声認識コーパスを用いたデコーダ限定モデルの限界探索

Exploring the limits of decoder-only models trained on public speech recognition corpora ( http://arxiv.org/abs/2402.00235v1 )

ライセンス: Link先を確認
Ankit Gupta, George Saon, Brian Kingsbury(参考訳) 産業規模の音声認識(asr)モデルであるwhisperやusmは、それぞれ1m時間弱のラベル付き音声と112m時間のプロプライエタリデータに基づいてトレーニングされており、大規模なasrコーパスと競合するオープンソースのパイプラインの必要性が高まっている。 上記のモデルとは異なり、大きな言語モデルは典型的にはトランスフォーマデコーダに基づいており、パブリックデータのみに基づいてトレーニングされたデコーダのみのモデルが競合性能を提供するかどうかは不明である。 本研究では,公開英語asrコーパスのみを用いて,学習データセットの選択や,最高のパフォーマンスを得るために必要なモデリングコンポーネントなどについて検討する。 我々のASR用デコーダオンリートランスフォーマー(DOTA)モデルは、15テストセット中7セットで、ほぼ全ての英語のASRベンチマークおよびWhisper large-v3で、エンコーダ-デコーダのオープンソースレプリケーション(OWSM)を総合的に上回ります。 私たちはコードベースとモデルチェックポイントを許容ライセンスでリリースします。

The emergence of industrial-scale speech recognition (ASR) models such as Whisper and USM, trained on 1M hours of weakly labelled and 12M hours of audio only proprietary data respectively, has led to a stronger need for large scale public ASR corpora and competitive open source pipelines. Unlike the said models, large language models are typically based on Transformer decoders, and it remains unclear if decoder-only models trained on public data alone can deliver competitive performance. In this work, we investigate factors such as choice of training datasets and modeling components necessary for obtaining the best performance using public English ASR corpora alone. Our Decoder-Only Transformer for ASR (DOTA) model comprehensively outperforms the encoder-decoder open source replication of Whisper (OWSM) on nearly all English ASR benchmarks and outperforms Whisper large-v3 on 7 out of 15 test sets. We release our codebase and model checkpoints under permissive license.
翻訳日:2024-02-02 17:15:57 公開日:2024-01-31
# 生成型AIシステムは患者の情報ニーズを支援することができるか?

Are Generative AI systems Capable of Supporting Information Needs of Patients? ( http://arxiv.org/abs/2402.00234v1 )

ライセンス: Link先を確認
Shreya Rajagopal, Subhashis Hazarika, Sookyung Kim, Yan-ming Chiou, Jae Ho Sohn, Hari Subramonyam, Shiwali Mohan(参考訳) がんなどの複雑な疾患を管理する患者は、病気について学ぶだけでなく、その管理方法も学ばなければならない複雑な情報課題に直面している。 医療専門家(放射線学者、腫瘍学者)との密接な相互作用は、患者の学習を改善し、その結果、病気の結果をもたらす。 しかし、このアプローチはリソース集約的で、他の重要なタスクから専門家の時間を離します。 近年,医療システムの改善を目的とした生成型aiモデルが進歩していることを踏まえ,放射線画像データの観点から,生成型ビジュアル質問応答システムが患者情報のニーズを適切に支援できるかどうかについて検討した。 胸部ct(ctct)スキャンと,心臓胸部x線医との架空の近親者のx線学的所見について検討した。 被験者と医療専門家の会話のテーマ分析を用いて,医療用語の明確化,スキャン画像に記載された問題点の特定,疾患予後の理解,次の診断手順の議論,治療オプションの比較など,相互作用に共通するテーマを特定した。 これらのテーマに基づき、放射線科医の反応に対して2つの最先端の視覚言語モデルを評価した。 その結果,様々なテーマでモデルが生成する応答の質の変動が明らかになった。 我々は,患者の現実的な情報ニーズに合わせて,多様な会話テーマに対応するために,患者が直面する生成AIシステムの重要性を強調した。

Patients managing a complex illness such as cancer face a complex information challenge where they not only must learn about their illness but also how to manage it. Close interaction with healthcare experts (radiologists, oncologists) can improve patient learning and thereby, their disease outcome. However, this approach is resource intensive and takes expert time away from other critical tasks. Given the recent advancements in Generative AI models aimed at improving the healthcare system, our work investigates whether and how generative visual question answering systems can responsibly support patient information needs in the context of radiology imaging data. We conducted a formative need-finding study in which participants discussed chest computed tomography (CT) scans and associated radiology reports of a fictitious close relative with a cardiothoracic radiologist. Using thematic analysis of the conversation between participants and medical experts, we identified commonly occurring themes across interactions, including clarifying medical terminology, locating the problems mentioned in the report in the scanned image, understanding disease prognosis, discussing the next diagnostic steps, and comparing treatment options. Based on these themes, we evaluated two state-of-the-art generative visual language models against the radiologist's responses. Our results reveal variability in the quality of responses generated by the models across various themes. We highlight the importance of patient-facing generative AI systems to accommodate a diverse range of conversational themes, catering to the real-world informational needs of patients.
翻訳日:2024-02-02 17:15:31 公開日:2024-01-31
# ソフトウェア工学のゲーム化のためのアーキテクチャ

An Architecture for Software Engineering Gamification ( http://arxiv.org/abs/2402.00233v1 )

ライセンス: Link先を確認
\'Oscar Pedreira, F\'elix Garc\'ia, Mario Piattini, Alejandro Corti\~nas, Ana Cerdeira-Pena(参考訳) ゲーミフィケーションはソフトウェア工学において、人々のモチベーションとエンゲージメントを高めることによって品質と結果を改善するために適用されている。 組織的なマッピングによってこの分野の研究ギャップが特定され、そのうちの1つは、既存のゲーミフィケーションツールの多くはカスタム開発やプロトタイプであるため、組織のすべてのツールを含む統合ゲーミフィケーション環境の作成が困難である。 本稿では,ソフトウェア組織の作業環境を統合されたゲーム化環境に転換することを可能にするゲーム化ソフトウェアアーキテクチャを提案する。 我々は提案に基づいてゲーミフィケーションエンジンを開発し,実ソフトウェア開発会社に導入した事例研究を行った。 ケーススタディでは、独自の開発ツールとRedmine、TestLink、JUnitといった既製のツールをゲーミフィケーションエンジンに統合することで、ゲーミフィケーションエンジンがゲーミフィケーションワークスの開発を可能にしたことが示されている。 主な利点は2つある。 (i)私たちのソリューションは、組織が現在のツールを維持できるようにし、 (二)一元的なゲーム化環境において、あらゆるツールのアクションに対する報酬が蓄積する。

Gamification has been applied in software engineering to improve quality and results by increasing people's motivation and engagement. A systematic mapping has identified research gaps in the field, one of them being the difficulty of creating an integrated gamified environment comprising all the tools of an organization, since most existing gamified tools are custom developments or prototypes. In this paper, we propose a gamification software architecture that allows us to transform the work environment of a software organization into an integrated gamified environment, i.e., the organization can maintain its tools, and the rewards obtained by the users for their actions in different tools will mount up. We developed a gamification engine based on our proposal, and we carried out a case study in which we applied it in a real software development company. The case study shows that the gamification engine has allowed the company to create a gamified workplace by integrating custom developed tools and off-the-shelf tools such as Redmine, TestLink, or JUnit, with the gamification engine. Two main advantages can be highlighted: (i) our solution allows the organization to maintain its current tools, and (ii) the rewards for actions in any tool accumulate in a centralized gamified environment.
翻訳日:2024-02-02 17:15:08 公開日:2024-01-31
# 教師付きコントラスト学習によるラベル階層学習

Learning Label Hierarchy with Supervised Contrastive Learning ( http://arxiv.org/abs/2402.00232v1 )

ライセンス: Link先を確認
Ruixue Lian, William A. Sethares, Junjie Hu(参考訳) 教師付きコントラスト学習(SCL)フレームワークは、各クラスを独立したものとして扱うため、すべてのクラスが同様に重要である。 これはラベル階層が存在する一般的なシナリオを無視し、同じカテゴリ下のきめ細かいクラスは、非常に異なるクラスよりも多くの類似性を示す。 本稿では,クラス間の類似性を利用して階層情報をSCLに組み込んだラベル認識型SCL法(LASCL)のファミリーを紹介する。 これは、インスタンス間の距離を、インスタンス-インスタンス間コントラストをスケールしたクラス間の近接の尺度に基づいて、最初に調整することによって達成される。 追加のインスタンス中心方向のコントラストは、学習可能なラベルパラメータのセットで表されるクラス内の例をその中心に近づけるために導入された。 学習されたラベルパラメータは、さらに微調整することなく、最寄りの隣接分類器として直接使用できる。 このようにして、クラスタ内コンパクト性とクラスタ間分離の改善により、より優れた特徴表現が生成される。 3つのデータセットの実験により、提案したLASCLは、複数のラベルの1つのラベルを区別するテキスト分類にうまく機能し、ベースライン管理アプローチよりも優れていることが示された。 私たちのコードは公開されています。

Supervised contrastive learning (SCL) frameworks treat each class as independent and thus consider all classes to be equally important. This neglects the common scenario in which label hierarchy exists, where fine-grained classes under the same category show more similarity than very different ones. This paper introduces a family of Label-Aware SCL methods (LASCL) that incorporates hierarchical information to SCL by leveraging similarities between classes, resulting in creating a more well-structured and discriminative feature space. This is achieved by first adjusting the distance between instances based on measures of the proximity of their classes with the scaled instance-instance-wise contrastive. An additional instance-center-wise contrastive is introduced to move within-class examples closer to their centers, which are represented by a set of learnable label parameters. The learned label parameters can be directly used as a nearest neighbor classifier without further finetuning. In this way, a better feature representation is generated with improvements of intra-cluster compactness and inter-cluster separation. Experiments on three datasets show that the proposed LASCL works well on text classification of distinguishing a single label among multi-labels, outperforming the baseline supervised approaches. Our code is publicly available.
翻訳日:2024-02-02 17:14:46 公開日:2024-01-31
# ImageNetにおける線内画像からの3次元画像の幾何学的認識

Geometry aware 3D generation from in-the-wild images in ImageNet ( http://arxiv.org/abs/2402.00225v1 )

ライセンス: Link先を確認
Qijia Shen, Guangrun Wang(参考訳) 正確な3dモデルの生成は、従来の3dデータセットからの教師あり学習による明示的な学習を必要とする難しい問題である。 近年の進歩により、2d画像から3dモデルを学ぶことが期待されているが、これらの方法は、各インスタンスやカメラのポーズ情報を含む、構造化されたデータセットに依存することが多い。 さらに、これらのデータセットは、通常、単純な形状のクリーンな背景を含んでおり、取得が高価で一般化が難しいため、これらの方法の適用性が制限される。 これらの制約を克服するために,カメラのポーズ情報のない多様な非構造化画像ネットデータセットから3次元形状を再構成する手法を提案する。 2次元画像から3次元モデルを学習し、StyleGAN2に基づいて生成元バックボーンのアーキテクチャを変更し、高度に多様なデータセットに適応する。 多様なデータのモード崩壊を防止し、トレーニング安定性を向上させるため、マルチビュー識別を提案する。 訓練されたジェネレータは、任意の視点からのレンダリングだけでなく、クラス条件の3Dモデルを生成することができる。 クラス条件生成の結果は,現在の最先端手法よりも大幅に改善した。 さらに、PTIを用いて、単視点画像から3次元図形全体を効率的に再構築することができる。

Generating accurate 3D models is a challenging problem that traditionally requires explicit learning from 3D datasets using supervised learning. Although recent advances have shown promise in learning 3D models from 2D images, these methods often rely on well-structured datasets with multi-view images of each instance or camera pose information. Furthermore, these datasets usually contain clean backgrounds with simple shapes, making them expensive to acquire and hard to generalize, which limits the applicability of these methods. To overcome these limitations, we propose a method for reconstructing 3D geometry from the diverse and unstructured Imagenet dataset without camera pose information. We use an efficient triplane representation to learn 3D models from 2D images and modify the architecture of the generator backbone based on StyleGAN2 to adapt to the highly diverse dataset. To prevent mode collapse and improve the training stability on diverse data, we propose to use multi-view discrimination. The trained generator can produce class-conditional 3D models as well as renderings from arbitrary viewpoints. The class-conditional generation results demonstrate significant improvement over the current state-of-the-art method. Additionally, using PTI, we can efficiently reconstruct the whole 3D geometry from single-view images.
翻訳日:2024-02-02 17:14:25 公開日:2024-01-31
# 都市における重複コミュニティの性質を明らかにする

Uncover the nature of overlapping community in cities ( http://arxiv.org/abs/2402.00222v1 )

ライセンス: Link先を確認
Peng Luo and Di Zhu(参考訳) 都市空間はしばしば離散的なコミュニティと見なされるが、様々な機能的・社会的グループによって共有される。 本研究は,都市社会に内在する複雑な重なり合う自然を照らす,グラフベースの物理認識型深層学習フレームワークを提案する。 米国ミネソタ州ツインシティーズ都市圏(TCMA)における携帯電話の位置データを分析した結果、都市機能の複雑さの95.7%は、平日におけるコミュニティの重複構造に起因することがわかった。 重要なことに、我々の研究はこれらの重複を定量化するだけでなく、アメリカの都市における複雑な隔離パターンを解き放ち、収入と人種指標との説得力のある相関を明らかにする。 都市社会の重複する性質を明らかにする最初の試みとして、この研究は都市構造を考察するユニークな地理空間的視点を提供し、都市内の社会経済ダイナミクスの微妙な相互作用を強調する。

Urban spaces, though often perceived as discrete communities, are shared by various functional and social groups. Our study introduces a graph-based physics-aware deep learning framework, illuminating the intricate overlapping nature inherent in urban communities. Through analysis of individual mobile phone positioning data at Twin Cities metro area (TCMA) in Minnesota, USA, our findings reveal that 95.7 % of urban functional complexity stems from the overlapping structure of communities during weekdays. Significantly, our research not only quantifies these overlaps but also reveals their compelling correlations with income and racial indicators, unraveling the complex segregation patterns in U.S. cities. As the first to elucidate the overlapping nature of urban communities, this work offers a unique geospatial perspective on looking at urban structures, highlighting the nuanced interplay of socioeconomic dynamics within cities.
翻訳日:2024-02-02 17:14:05 公開日:2024-01-31
# fedcore: 分散コアセットを用いたストラグラーフリーフェデレーション学習

FedCore: Straggler-Free Federated Learning with Distributed Coresets ( http://arxiv.org/abs/2402.00219v1 )

ライセンス: Link先を確認
Hongpeng Guo, Haotian Gu, Xiaoyang Wang, Bo Chen, Eun Kyung Lee, Tamar Eilam, Deming Chen and Klara Nahrstedt(参考訳) フェデレーション学習(federated learning, fl)は、複数のクライアントがデータをオンプレミスに保持しながら共有モデルを協調的にトレーニングできる、マシンラーニングのパラダイムである。 しかし、トラグラーの問題は、遅いクライアントのため、FLの効率性とスケーラビリティを妨げることが多い。 本稿では,データセットの代表的な部分集合であるコアセットの分散選択を通じてストラグラー問題に革新的に取り組むアルゴリズムであるfeedcoreを提案する。 既存の集中型コアセットメソッドとは対照的に、FedCoreは各クライアントに直接分散的にコアセットを生成し、FLのプライバシ保護を保証する。 fedcoreはcoreset最適化問題をより扱いやすいk-medoidsクラスタリング問題に変換し、各クライアントで分散動作する。 理論的解析によりFedCoreの収束が確認され、実際の評価ではモデルの精度を損なうことなくFLトレーニング時間の8倍の短縮が示される。 また、FedCoreは既存のFLフレームワークによく当てはまります。

Federated learning (FL) is a machine learning paradigm that allows multiple clients to collaboratively train a shared model while keeping their data on-premise. However, the straggler issue, due to slow clients, often hinders the efficiency and scalability of FL. This paper presents FedCore, an algorithm that innovatively tackles the straggler problem via the decentralized selection of coresets, representative subsets of a dataset. Contrary to existing centralized coreset methods, FedCore creates coresets directly on each client in a distributed manner, ensuring privacy preservation in FL. FedCore translates the coreset optimization problem into a more tractable k-medoids clustering problem and operates distributedly on each client. Theoretical analysis confirms FedCore's convergence, and practical evaluations demonstrate an 8x reduction in FL training time, without compromising model accuracy. Our extensive evaluations also show that FedCore generalizes well to existing FL frameworks.
翻訳日:2024-02-02 17:13:49 公開日:2024-01-31
# 使用可能な構成:形式的なフレームワーク

Usable-by-Construction: a formal framework ( http://arxiv.org/abs/2402.00218v1 )

ライセンス: Link先を確認
Steve Reeves(参考訳) 本稿では,使用可能なシステムのモデルをいかに抽象化できるかを考察するが,それでも有用かつ興味深いことを述べるため,本論文は,ユーザビリティ・オブ・デザインを例として用いて,抽象化と形式化の課題である。 私たちは、少なくともユーザビリティ特性に関する保証を与えるために、使用可能なシステムを設計していると主張するとき、その見解を受け入れます。 これは非常に抽象的な概念だが、将来の作業の基礎を提供し、たとえこのレベルでも、利用可能な対話型システムの設計と構築という(非常に具体的な)ビジネスについて言うべきことがあることを示している。 さまざまな形式の検証と検証は、高いレベルの保証を提供することができますが、非常にコストがかかります。 本稿では, 使用可能なシステムについて(非常に抽象的に)考える上で, 正しい構成の考え方を取り入れ, 適用する, 使用可能なシステムに対する考え方を紹介する。 使用可能なシステムの設計を開発するための一連の建設規則や戦術を提示し、また、設計されたシステムのためのクレームをチェックするための証明アシスタントなどに適した状態に定式化します。 将来的には、これらの戦略により、必要なユーザビリティ特性を持つシステムを構築することができ、そのため、構築可能なシステムの基礎を提供することができるでしょう。 また、産業強度要求の事例システムを用いて、その戦術が特性を保存できることも示すべきである。 また、今後の研究の方向性も検討する。

We propose here to look at how abstract a model of a usable system can be, but still say something useful and interesting, so this paper is an exercise in abstraction and formalisation, with usability-of-design as an example target use. We take the view that when we claim to be designing a usable system we have, at the very least, to give assurances about its usability properties. This is a very abstract notion, but provides the basis for future work, and shows, even at this level that there are things to say about the (very concrete) business of designing and building usable, interactive systems. Various forms of verification and validation can provide a high level of assurance but it can be very costly, and there is clearly a lot of resistance to doing things this way. In this paper, we introduce the idea of usable-by-construction, which adopts and applies the ideas of correct-by-construction to (very abstractly) thinking about usable systems. We give a set of construction rules or tactics to develop designs of usable systems, and we also formalize them into a state suitable for, for example, a proof assistant to check claims made for the system as designed. In the future, these tactics would allow us to create systems that have the required usability properties and thus provide a basis to a usable-by-construction system. Also, we should then go on to show that the tactics preserve properties by using an example system with industrial strength requirements. And we might also consider future research directions.
翻訳日:2024-02-02 17:13:32 公開日:2024-01-31
# MP-SL: マルチホップ並列スプリット学習

MP-SL: Multihop Parallel Split Learning ( http://arxiv.org/abs/2402.00208v1 )

ライセンス: Link先を確認
Joana Tirana, Spyros Lalis, Dimitris Chatzopoulos(参考訳) フェデレートラーニング(FL)は、分散データを維持しながら機械学習(ML)モデルのトレーニングを容易にする広く採用されているプロトコルである。 しかし、異種なデバイス群を扱う場合、特にリソースの少ないデバイス間でトレーニングプロセスに遅延が生じるという課題が発生する。 さらに、膨大な数のパラメータでMLモデルをトレーニングするタスクは、モバイルやIoT(Internet of Things)デバイスのような小さなデバイスの能力を超えた、コンピューティングとメモリリソースを必要とする。 これらの問題に対処するために、パラレル分割学習(SL)のような技術が導入され、複数のリソース制約されたデバイスがリソース豊富な計算ノードの助けを借りて協調的なトレーニングプロセスに積極的に参加できるようにする。 それでも、Parallel SLの欠点は計算ノードに必要なメモリ割り当てであり、例えば、100人の参加者が80GBを必要とするVGG-19をトレーニングするなどである。 本稿では,Multihop Parallel SL(MP-SL)について紹介する。Multihop Parallel SL(Multihop Parallel SL)は,Multihop Parallel SL(ML-SL)フレームワークである。 特に、計算ノード当たりのメモリ要求を軽減するために、MP-SLはマルチホップ並列SLベースのトレーニングをサポートする。 これには、モデルを複数の部分に分割し、パイプライン化された方法で複数の計算ノードを活用することが含まれる。 大規模な実験により、MP-SLのシステム不均一性を扱う能力が検証され、特にコスト効率の高い計算ノードを含むシナリオにおいて、マルチホップ構成が水平スケールのワンホップ・パラレルSLセットアップよりも効率的であることが証明された。

Federated Learning (FL) stands out as a widely adopted protocol facilitating the training of Machine Learning (ML) models while maintaining decentralized data. However, challenges arise when dealing with a heterogeneous set of participating devices, causing delays in the training process, particularly among devices with limited resources. Moreover, the task of training ML models with a vast number of parameters demands computing and memory resources beyond the capabilities of small devices, such as mobile and Internet of Things (IoT) devices. To address these issues, techniques like Parallel Split Learning (SL) have been introduced, allowing multiple resource-constrained devices to actively participate in collaborative training processes with assistance from resourceful compute nodes. Nonetheless, a drawback of Parallel SL is the substantial memory allocation required at the compute nodes, for instance training VGG-19 with 100 participants needs 80 GB. In this paper, we introduce Multihop Parallel SL (MP-SL), a modular and extensible ML as a Service (MLaaS) framework designed to facilitate the involvement of resource-constrained devices in collaborative and distributed ML model training. Notably, to alleviate memory demands per compute node, MP-SL supports multihop Parallel SL-based training. This involves splitting the model into multiple parts and utilizing multiple compute nodes in a pipelined manner. Extensive experimentation validates MP-SL's capability to handle system heterogeneity, demonstrating that the multihop configuration proves more efficient than horizontally scaled one-hop Parallel SL setups, especially in scenarios involving more cost-effective compute nodes.
翻訳日:2024-02-02 17:13:07 公開日:2024-01-31
# マルチホスピタルデータのための分散、協調、プライバシ保存機械学習

Decentralised, Collaborative, and Privacy-preserving Machine Learning for Multi-Hospital Data ( http://arxiv.org/abs/2402.00205v1 )

ライセンス: Link先を確認
Congyu Fang, Adam Dziedzic, Lin Zhang, Laura Oliva, Amol Verma, Fahad Razak, Nicolas Papernot, Bo Wang(参考訳) 機械学習(ML)は医療データ分析に大きな可能性を実証している。 さまざまなソースや設定から収集された大規模なデータセットは、医療におけるmlモデルにとって、精度と一般化性を達成する上で不可欠である。 さまざまな医療機関間でデータを共有することは、プライバシーと規制要件が複雑で異なるため難しい。 したがって、複数のパーティが、これらのデータセットを直接共有したり、コラボレーションを通じてデータセットのプライバシを妥協することなく、各パーティで利用可能なプライベートデータセットを活用するMLモデルを共同でトレーニングすることは、困難だが重要なことです。 本稿では,マルチホスピタルデータ(DeCaPH)のための分散型,協調型,プライバシ保護型MLを提案する。 1)プライベートデータセットを転送せずにMLモデルを協調的にトレーニングすること、(2)トレーニングプロセス中に参加者間で共有されるコンテンツから生じる潜在的なプライバシー漏洩を制限し、患者のプライバシを保護すること、(3)集中型サーバに頼ることなくMLモデルのトレーニングを容易にすること、である。 本研究では,電子健康記録を用いた患者死亡予測,単細胞ヒトゲノムを用いた細胞型分類,胸部X線像を用いた病理診断の3つの課題におけるDeCaPHの一般化可能性と能力を示す。 DeCaPHフレームワークでトレーニングされたMLモデルは、ユーティリティとプライバシのトレードオフが改善されており、トレーニングデータポイントのプライバシを保ちながら、モデルのパフォーマンスが良好であることを示す。 さらに、DeCaPHフレームワークでトレーニングされたMLモデルは、個々のパーティからのプライベートデータセットでのみトレーニングされたモデルよりも優れており、DeCaPHがモデルの一般化性を高めることを示している。

Machine Learning (ML) has demonstrated its great potential on medical data analysis. Large datasets collected from diverse sources and settings are essential for ML models in healthcare to achieve better accuracy and generalizability. Sharing data across different healthcare institutions is challenging because of complex and varying privacy and regulatory requirements. Hence, it is hard but crucial to allow multiple parties to collaboratively train an ML model leveraging the private datasets available at each party without the need for direct sharing of those datasets or compromising the privacy of the datasets through collaboration. In this paper, we address this challenge by proposing Decentralized, Collaborative, and Privacy-preserving ML for Multi-Hospital Data (DeCaPH). It offers the following key benefits: (1) it allows different parties to collaboratively train an ML model without transferring their private datasets; (2) it safeguards patient privacy by limiting the potential privacy leakage arising from any contents shared across the parties during the training process; and (3) it facilitates the ML model training without relying on a centralized server. We demonstrate the generalizability and power of DeCaPH on three distinct tasks using real-world distributed medical datasets: patient mortality prediction using electronic health records, cell-type classification using single-cell human genomes, and pathology identification using chest radiology images. We demonstrate that the ML models trained with DeCaPH framework have an improved utility-privacy trade-off, showing it enables the models to have good performance while preserving the privacy of the training data points. In addition, the ML models trained with DeCaPH framework in general outperform those trained solely with the private datasets from individual parties, showing that DeCaPH enhances the model generalizability.
翻訳日:2024-02-02 17:12:34 公開日:2024-01-31
# ロジスティック回帰を用いた特徴選択の試み

An Experiment on Feature Selection using Logistic Regression ( http://arxiv.org/abs/2402.00201v1 )

ライセンス: Link先を確認
Raisa Islam, Subhasish Mazumdar, Rakibul Islam(参考訳) 教師付き機械学習では、計算時間と精度関連メトリクスによって測定された説明可能性と性能を潜在的に高めることにより、特徴選択が非常に重要な役割を果たす。 本稿では,ロジスティック回帰(LR)に付随するよく知られたL1およびL2正規化戦略に基づく特徴選択手法について検討する。 学習係数は、重みとして機能し、特徴のランク付けに利用できることはよく知られている。 我々はl1とl2の正規化の知見を合成する。 実験では,CIC-IDS2018データセットをそのサイズと分離が難しい2つの問題のあるクラスの存在から選択した。 まず、それらのうちの1つを除外し、次にその包含を報告します。 まず特徴点をl1,次にl2でランク付けし,ロジスティック回帰をl1(lr+l1)とl2(lr+l2)と比較した。 特徴集合が選択されると,2つの手法の精度に有意な差は認められなかった。 我々は、L1から得られた集合とL2から得られた集合の両方に存在する特徴のみを合成し、決定木やランダムフォレストのようなより複雑なモデルで実験し、特徴集合の小さいにもかかわらず精度が非常に近いことを観察した。 さらに,標準指標である精度,精度,リコール,f1-scoreについても報告する。

In supervised machine learning, feature selection plays a very important role by potentially enhancing explainability and performance as measured by computing time and accuracy-related metrics. In this paper, we investigate a method for feature selection based on the well-known L1 and L2 regularization strategies associated with logistic regression (LR). It is well known that the learned coefficients, which serve as weights, can be used to rank the features. Our approach is to synthesize the findings of L1 and L2 regularization. For our experiment, we chose the CIC-IDS2018 dataset owing partly to its size and also to the existence of two problematic classes that are hard to separate. We report first with the exclusion of one of them and then with its inclusion. We ranked features first with L1 and then with L2, and then compared logistic regression with L1 (LR+L1) against that with L2 (LR+L2) by varying the sizes of the feature sets for each of the two rankings. We found no significant difference in accuracy between the two methods once the feature set is selected. We chose a synthesis, i.e., only those features that were present in both the sets obtained from L1 and that from L2, and experimented with it on more complex models like Decision Tree and Random Forest and observed that the accuracy was very close in spite of the small size of the feature set. Additionally, we also report on the standard metrics: accuracy, precision, recall, and f1-score.
翻訳日:2024-02-02 17:12:02 公開日:2024-01-31
# 表面強化ラマンスペクトルの機械分類による微量有機汚染濃度の定量

Determination of Trace Organic Contaminant Concentration via Machine Classification of Surface-Enhanced Raman Spectra ( http://arxiv.org/abs/2402.00197v1 )

ライセンス: Link先を確認
Vishnu Jayaprakash, Jae Bem You, Chiranjeevi Kanike, Jinfeng Liu, Christopher McCallum, and Xuehua Zhang(参考訳) 水に残留する有機汚染物質の痕跡の正確な検出と分析は、環境の安定性と生物蓄積の可能性から、環境モニタリングや食品品質管理など、多くの分野で重要である。 従来の有機汚染物質の分析には高価な装置が必要であるが、表面増強ラマン分光法(SERS)はこれらの汚染物質の正確な検出に大きな可能性を示している。 しかし、スペクトル前処理やデノナイジング、基板ベースのスペクトル変動といったSERS分析の難しさは、この技術の普及を妨げている。 本稿では,機械学習を用いて未処理のRamanデータから試料汚染物質の濃度を予測する手法を示す。 フーリエ変換やウォルシュ・アダマール変換を含む周波数領域変換法は、水中の3つのモデルマイクロ汚染物質のラマンスペクトル(ロドアミン6G、クロロピリフォス、トリクロサン)に応用され、機械学習アルゴリズムの訓練に使用される。 標準的な機械学習モデルを用いて、サンプル汚染物質の濃度を生のRamanデータから80%以上精度で予測する。 85パーセントのクロスバリデーション精度は、中程度のデータセット(100スペクトル)でディープラーニングを使用して達成され、非常に小さなデータセット(50スペクトル)でも70から80%のクロスバリデーション精度が達成された。 また,標準モデルでは,重要度の分析により特徴ピークを正確に識別できることが示されている。 ここで示すアプローチは、表面励起ラマン分光法による残留有機汚染物質の正確な検出と分析を容易にするために応用される可能性を持っている。

Accurate detection and analysis of traces of persistent organic pollutants in water is important in many areas, including environmental monitoring and food quality control, due to their long environmental stability and potential bioaccumulation. While conventional analysis of organic pollutants requires expensive equipment, surface enhanced Raman spectroscopy (SERS) has demonstrated great potential for accurate detection of these contaminants. However, SERS analytical difficulties, such as spectral preprocessing, denoising, and substrate-based spectral variation, have hindered widespread use of the technique. Here, we demonstrate an approach for predicting the concentration of sample pollutants from messy, unprocessed Raman data using machine learning. Frequency domain transform methods, including the Fourier and Walsh Hadamard transforms, are applied to sets of Raman spectra of three model micropollutants in water (rhodamine 6G, chlorpyrifos, and triclosan), which are then used to train machine learning algorithms. Using standard machine learning models, the concentration of sample pollutants are predicted with more than 80 percent cross-validation accuracy from raw Raman data. cross-validation accuracy of 85 percent was achieved using deep learning for a moderately sized dataset (100 spectra), and 70 to 80 percent cross-validation accuracy was achieved even for very small datasets (50 spectra). Additionally, standard models were shown to accurately identify characteristic peaks via analysis of their importance scores. The approach shown here has the potential to be applied to facilitate accurate detection and analysis of persistent organic pollutants by surface-enhanced Raman spectroscopy.
翻訳日:2024-02-02 17:11:17 公開日:2024-01-31
# double $\Lambda$-systemによる固体スピンのコヒーレント全光制御

Coherent all-optical control of a solid-state spin via a double $\Lambda$-system ( http://arxiv.org/abs/2402.00244v1 )

ライセンス: Link先を確認
C. Adambukulam and J. A. Scott and S. Q. Lim and I. Aharonovich and A. Morello and A. Laucht(参考訳) 全光学制御は、通常$\lambda$-systemで単一のラマン遷移によって実現されるカラーセンタースピンの高速量子演算を可能にする。 ここでは、ダイアモンド中のゲルマニウム空孔(gev)のスピンを制御するために、両方のラマン遷移を二重の$\lambda$-systemで同時に駆動する。 高速な演算を行い、2つのラマン遷移の間の量子干渉を観察し、GeVコヒーレンス(T_2^*=224\pm14$ ns, $T_2^{\rm H}=11.9\pm0.3$$\mu$s)を探索する。 重要なことは、double $\Lambda$-systemによる制御は他のカラーセンター、特にダイヤモンドにおけるグループIV欠陥にも適用可能である。

All-optical control enables fast quantum operations on color center spins that are typically realized via a single Raman transition in a $\Lambda$-system. Here, we simultaneously drive both Raman transitions in a double $\Lambda$-system to control the spin of a germanium vacancy (GeV) in diamond. In doing so, we achieve fast operations, observe the quantum interference between the two Raman transitions and probe the GeV coherence ($T_2^*=224\pm14$ ns, $T_2^{\rm H}=11.9\pm0.3$ $\mu$s). Importantly, control via a double $\Lambda$-system is applicable to other color centers and particularly, the group-IV defects in diamond.
翻訳日:2024-02-02 17:00:16 公開日:2024-01-31
# スマート製造のための物体検出を用いた容量制約解析

Capacity Constraint Analysis Using Object Detection for Smart Manufacturing ( http://arxiv.org/abs/2402.00243v1 )

ライセンス: Link先を確認
Hafiz Mughees Ahmad, Afshin Rahimi, Khizer Hayat(参考訳) ディープラーニング(DL)ベースのオブジェクト検出(OD)手法の普及と,その実世界の応用により,スマートマニュファクチャリングの新たな場が開かれた。 コロナウイルス(COVID-19)以降の容量制限に苦しめられた伝統的産業は、収益を最適化し増加させるために、詳細な業務分析のための非侵襲的な方法を必要としている。 本研究ではまず,この問題に対処する畳み込みニューラルネットワーク(CNN)を用いたODモデルを開発した。 このモデルは、生産フロアにおける椅子や個人の存在を正確に識別するために訓練される。 識別されたオブジェクトはcnnベースのトラッカーに渡され、ワークステーションのライフサイクルを通して追跡される。 抽出したメタデータは、キャパシティ制約解析のための新しいフレームワークによってさらに処理される。 ステーションcの生産性は6ヶ月で70.6%に過ぎなかった。 また、各駅での使用時間を記録し、各オブジェクトに対して集約する。 このデータは、年次監査を行い、時間とともに労働や材料を効果的に管理するのに役立つ。

The increasing popularity of Deep Learning (DL) based Object Detection (OD) methods and their real-world applications have opened new venues in smart manufacturing. Traditional industries struck by capacity constraints after Coronavirus Disease (COVID-19) require non-invasive methods for in-depth operations' analysis to optimize and increase their revenue. In this study, we have initially developed a Convolutional Neural Network (CNN) based OD model to tackle this issue. This model is trained to accurately identify the presence of chairs and individuals on the production floor. The identified objects are then passed to the CNN based tracker, which tracks them throughout their life cycle in the workstation. The extracted meta-data is further processed through a novel framework for the capacity constraint analysis. We identified that the Station C is only 70.6% productive through 6 months. Additionally, the time spent at each station is recorded and aggregated for each object. This data proves helpful in conducting annual audits and effectively managing labor and material over time.
翻訳日:2024-02-02 16:59:57 公開日:2024-01-31
# 非インタラクティブソースシミュレーションにおける量子アドバンテージ

Quantum Advantage in Non-Interactive Source Simulation ( http://arxiv.org/abs/2402.00242v1 )

ライセンス: Link先を確認
Hojat Allah Salehi, Farhad Shirani and S. Sandeep Pradhan(参考訳) 本研究は非インタラクティブソースシミュレーション問題(NISS)について考察する。 NISSの標準的なシナリオでは、分散エージェントのペアであるAliceとBobは、共同分布の$P_{X,Y}$に基づいて生成された分散バイナリメモリレスソース$(X^d,Y^d)$を観測する。 エージェントは、一対の離散確率変数 $(u_d,v_d)$ とジョイント分布 $p_{u_d,v_d}$ を生成したいので、$p_{u_d,v_d}$ は、目標分布 $q_{u,v}$ に総変動距離収束する。 NISSのシナリオには2つのバリエーションがある。 最初のバリエーションでは、$(X^d,Y^d) に加えて、エージェントは共有の Bell 状態にアクセスすることができる。 エージェントはそれぞれの状態を測定し、それぞれの選択を計測し、その古典的な出力と$(X^d,Y^d)$を使ってターゲット分布をシミュレートする。 このシナリオは絡み合い支援NIS(EA-NISS)と呼ばれる。 第2のバリエーションでは、エージェントは$(X^d,Y^d)$に加えて古典的な共通乱数ビット$Z$にアクセスできる。 このシナリオは古典的共通ランダムネス NISS (CR-NISS) と呼ばれる。 バイナリ出力NASのシナリオでは、EA-NISSとCR-NISSの可能な分布の集合は互いに等しいことが示されている。 したがって、これらのEA-NISSシナリオには量子的優位性はない。 非バイナリ出力NASのシナリオでは、EA-NISSでは可能だがCR-NISSでは不可能な分布が存在する。 これは、非バイナリ出力EA-NISSに量子的優位性が存在することを示している。

This work considers the non-interactive source simulation problem (NISS). In the standard NISS scenario, a pair of distributed agents, Alice and Bob, observe a distributed binary memoryless source $(X^d,Y^d)$ generated based on joint distribution $P_{X,Y}$. The agents wish to produce a pair of discrete random variables $(U_d,V_d)$ with joint distribution $P_{U_d,V_d}$, such that $P_{U_d,V_d}$ converges in total variation distance to a target distribution $Q_{U,V}$. Two variations of the standard NISS scenario are considered. In the first variation, in addition to $(X^d,Y^d)$ the agents have access to a shared Bell state. The agents each measure their respective state, using a measurement of their choice, and use its classical output along with $(X^d,Y^d)$ to simulate the target distribution. This scenario is called the entanglement-assisted NISS (EA-NISS). In the second variation, the agents have access to a classical common random bit $Z$, in addition to $(X^d,Y^d)$. This scenario is called the classical common randomness NISS (CR-NISS). It is shown that for binary-output NISS scenarios, the set of feasible distributions for EA-NISS and CR-NISS are equal with each other. Hence, there is not quantum advantage in these EA-NISS scenarios. For non-binary output NISS scenarios, it is shown through an example that there are distributions that are feasible in EA-NISS but not in CR-NISS. This shows that there is a quantum advantage in non-binary output EA-NISS.
翻訳日:2024-02-02 16:59:40 公開日:2024-01-31
# 安定表現と経験再生を用いた連続教師なしドメイン適応

Continuous Unsupervised Domain Adaptation Using Stabilized Representations and Experience Replay ( http://arxiv.org/abs/2402.00580v1 )

ライセンス: Link先を確認
Mohammad Rostami(参考訳) 本稿では,教師なしドメイン適応(UDA)問題に継続学習(CL)シナリオで対処するアルゴリズムを提案する。 主な目的は、未ラベルのデータのみがその後のタスクでアクセス可能な場合にのみベースモデルを更新することで、新しいドメインが継続的にやってくるとき、ドメインシフトの下でモデル一般化を維持することである。 既存のudaアルゴリズムは数多く存在するが、通常はソースとターゲットの両方のドメインデータセットを同時にアクセスする必要がある。 逆に、既存のCLアプローチは、すべてラベル付きデータを持つタスクを処理できる。 私たちのソリューションは、学習した内部分布を安定化し、新しいドメインのモデル一般化を強化することに基づいています。 内部分布は隠れ層内のネットワーク応答によってモデル化される。 この内部分布をガウス混合モデル(gmm)を用いてモデル化し,新しい領域の内部分布を推定したgmmと一致させてモデルを更新する。 さらに、我々は経験リプレイを活用して、新しいタスクを学習する際に獲得した知識を失う大惨な忘れを克服する。 アルゴリズムが機能する理由を説明するために理論的分析を提供する。 また,本手法が有効であることを示すため,広範な比較分析実験を行った。 4つのベンチマークデータセットで実験を行い、このアプローチが効果的であることを示す。

We introduce an algorithm for tackling the problem of unsupervised domain adaptation (UDA) in continual learning (CL) scenarios. The primary objective is to maintain model generalization under domain shift when new domains arrive continually through updating a base model when only unlabeled data is accessible in subsequent tasks. While there are many existing UDA algorithms, they typically require access to both the source and target domain datasets simultaneously. Conversely, existing CL approaches can handle tasks that all have labeled data. Our solution is based on stabilizing the learned internal distribution to enhances the model generalization on new domains. The internal distribution is modeled by network responses in hidden layer. We model this internal distribution using a Gaussian mixture model (GMM ) and update the model by matching the internally learned distribution of new domains to the estimated GMM. Additionally, we leverage experience replay to overcome the problem of catastrophic forgetting, where the model loses previously acquired knowledge when learning new tasks. We offer theoretical analysis to explain why our algorithm would work. We also offer extensive comparative and analytic experiments to demonstrate that our method is effective. We perform experiments on four benchmark datasets to demonstrate that our approach is effective.
翻訳日:2024-02-02 15:10:20 公開日:2024-01-31
# SeFi-IDE:パーソナライズされた拡散生成のためのセマンティック・フィデリティ・アイデンティティ・埋め込み

SeFi-IDE: Semantic-Fidelity Identity Embedding for Personalized Diffusion-Based Generation ( http://arxiv.org/abs/2402.00631v1 )

ライセンス: Link先を確認
Yang Li, Songlin Yang, Wei Wang, Jing Dong(参考訳) 安定拡散モデルのような高度な拡散ベースのテキスト・ツー・イメージ(T2I)モデルは、テキストプロンプトだけで多彩で高品質な画像を生成することに大きく進歩した。 しかし、t2iモデルは、有名でないユーザーがパーソナライズされた画像生成を必要とする場合に正確なidをマッピングできない。 主な問題は、既存のT2Iモデルが新規ユーザのIDイメージアライメントを学習していないことである。 以前の手法は、顔領域に正確に適合しなかったり、他のT2Iモデル(シーン、アクション、顔属性など、与えられたプロンプトで記述された他の概念を生成できなかった)にインタラクティブな生成能力を失ったりした。 本稿では,パーソナライズされた生成のための安定拡散モデルに埋め込まれた正確かつセマンティックなIDに焦点を当てる。 本稿では,この課題を2つの視点から解決する。 具体的には,まず注意過剰問題の可視化を行い,対象画像全体ではなく顔領域に適合する顔方向注意損失を提案する。 この鍵となるトリックは、他の既存の概念とIDの精度と対話的な生成能力を大幅に向上させる。 次に、1つのid表現をステージ毎の複数のトークンとして最適化する。 このテキスト条件空間の拡張はセマンティック・フィデリティ制御を強化する。 広範な実験により,従来の手法よりも優れたid精度と操作能力が得られた。

Advanced diffusion-based Text-to-Image (T2I) models, such as the Stable Diffusion Model, have made significant progress in generating diverse and high-quality images using text prompts alone. However, T2I models are unable to accurately map identities (IDs) when non-famous users require personalized image generation. The main problem is that existing T2I models do not learn the ID-image alignments of new users. The previous methods either failed to accurately fit the face region or lost the interactive generative ability with other existing concepts in T2I models (i.e., unable to generate other concepts described in given prompts such as scenes, actions, and facial attributes). In this paper, we focus on accurate and semantic-fidelity ID embedding into the Stable Diffusion Model for personalized generation. We address this challenge from two perspectives: face-wise region fitting, and semantic-fidelity token optimization. Specifically, we first visualize the attention overfit problem, and propose a face-wise attention loss to fit the face region instead of the whole target image. This key trick significantly enhances the ID accuracy and interactive generative ability with other existing concepts. Then, we optimize one ID representation as multiple per-stage tokens where each token contains two disentangled features. This expansion of the textual conditioning space enhances semantic-fidelity control. Extensive experiments validate that our results exhibit superior ID accuracy and manipulation ability compared to previous methods.
翻訳日:2024-02-02 14:58:45 公開日:2024-01-31
# OptiState: Transformer-based Vision と Kalman Filtering を用いた手指ロボットの状態推定

OptiState: State Estimation of Legged Robots using Gated Networks with Transformer-based Vision and Kalman Filtering ( http://arxiv.org/abs/2401.16719v2 )

ライセンス: Link先を確認
Alexander Schperberg, Yusuke Tanaka, Saviz Mowlavi, Feng Xu, Bharathan Balaji, Dennis Hong(参考訳) 脚のあるロボットの状態推定は、非常にダイナミックな動きとセンサーの精度による制限のために困難である。 カルマンフィルタリング,最適化,学習に基づくモダリティを統合することで,ロボットのトランクの状態推定のための固有受容情報と外的情報を組み合わせたハイブリッドソリューションを提案する。 共振器エンコーダとIMU測定を応用し,コンベックスモデル予測制御の最適化による接地力制御出力を組み込んだ単一剛体モデルにより,カルマンフィルタを改良した。 奥行き画像に適用した視覚トランスフォーマーオートエンコーダから意味的洞察とロボット高さを考慮したゲートリカレントユニットにより,推定をさらに洗練する。 このフレームワークは、不確実性評価を含む正確なロボット状態推定を行うだけでなく、センサ測定や学習によるモデルの単純化から生じる非線形誤差を最小限にすることができる。 提案手法は,様々な地形で四足歩行ロボットを用いてハードウェア上で評価され,VO SLAMベースラインと比較してルート平均角誤差が65%向上した。 コード例: https://github.com/alexs28/optistate

State estimation for legged robots is challenging due to their highly dynamic motion and limitations imposed by sensor accuracy. By integrating Kalman filtering, optimization, and learning-based modalities, we propose a hybrid solution that combines proprioception and exteroceptive information for estimating the state of the robot's trunk. Leveraging joint encoder and IMU measurements, our Kalman filter is enhanced through a single-rigid body model that incorporates ground reaction force control outputs from convex Model Predictive Control optimization. The estimation is further refined through Gated Recurrent Units, which also considers semantic insights and robot height from a Vision Transformer autoencoder applied on depth images. This framework not only furnishes accurate robot state estimates, including uncertainty evaluations, but can minimize the nonlinear errors that arise from sensor measurements and model simplifications through learning. The proposed methodology is evaluated in hardware using a quadruped robot on various terrains, yielding a 65% improvement on the Root Mean Squared Error compared to our VIO SLAM baseline. Code example: https://github.com/AlexS28/OptiState
翻訳日:2024-02-02 11:51:35 公開日:2024-01-31
# 分数チャーン絶縁体におけるエッジおよびバルク集合モードの分光

Spectroscopy of edge and bulk collective modes in fractional Chern insulators ( http://arxiv.org/abs/2306.01624v2 )

ライセンス: Link先を確認
F. Binanti, N. Goldman, C. Repellin(参考訳) 原子分数量子ホール(fqh)状態の探索は、光格子実験の限界に達している。 ホーフシュタッター・ボース・ハバードモデルを実現するシステム(Leonard et al., Nature 2023]では、基底状態のシグネチャが観測されているが、この文脈ではホールマークの低エネルギー集団モードへのアクセス方法が中心的な疑問である。 制御された角運動量とエネルギーを系に伝達する2つの干渉ラゲア・ガウシアンビームに基づく分光スキームを提案する。 プローブに対するエッジとバルク反応は、FQH液滴のバルクとエッジの間の原子の移動を追跡することで局所密度測定によって検出される。 この検出方式は,fqh状態の2つの特異なシグネチャ,すなわちカイラルエッジ分岐とバルク磁気ロートンモードを同時に明らかにする。 本手法は,Hofstadter-Bose-Hubbard モデルの基底状態である $\nu=1/2$ Laughlin のボソンをほとんど考慮せず,これらのシグネチャが2つのボソンの現実的なシステムで既に検出可能であることを示す。 我々の研究は、エッジシグネチャによる寒冷原子の分数統計の検出方法である。

The exploration of atomic fractional quantum Hall (FQH) states is now within reach in optical-lattice experiments. While ground-state signatures have been observed in a system realizing the Hofstadter-Bose-Hubbard model in a box [Leonard et al., Nature 2023], how to access hallmark low-energy collective modes remains a central open question in this context. We introduce a spectroscopic scheme based on two interfering Laguerre-Gaussian beams, which transfer a controlled angular momentum and energy to the system. The edge and bulk responses to the probe are detected through local density measurements, by tracking the transfer of atoms between the bulk and the edge of the FQH droplet. This detection scheme is shown to simultaneously reveal two specific signatures of FQH states: their chiral edge branch and their bulk magneto-roton mode. We numerically benchmark our method by considering few bosons in the $\nu=1/2$ Laughlin ground state of the Hofstadter-Bose-Hubbard model, and demonstrate that these signatures are already detectable in realistic systems of two bosons, provided that the box potential is larger than the droplet. Our work paves the way for the detection of fractional statistics in cold atoms through edge signatures.
翻訳日:2024-02-01 20:27:36 公開日:2024-01-31
# 強凸最適化のための下次手法の原始双対理論

Some Primal-Dual Theory for Subgradient Methods for Strongly Convex Optimization ( http://arxiv.org/abs/2305.17323v3 )

ライセンス: Link先を確認
Benjamin Grimmer, Danlin Li(参考訳) 強凸だが非滑らかな非リプシッツ最適化のための(統計的)部分次数法を考える。 古典的下位段階法,近位下位段階法,スイッチング下位段階法に対して,新しい等価な二重記述(二重平均化のスタイル)を提供する。 これらの同値性により、$O(1/T)$収束保証は古典的原始的ギャップと、強い凸最適化のための以前に解析されなかった双対ギャップの両方の観点から可能である。 その結果,本理論は,計算コストを増すことなく,簡便で最適な停止基準と最適性証明書をこれらの古典的手法に提供する。 この結果は、段階的な選択や、過次法の初期反復が指数関数的に高速に発散できるような非リプシッツ不条件問題(私たちの知る限りでは、事前の作業アドレスがない現象)に適用できる。 このような望ましくない振る舞いが存在する場合でも、我々の理論は最終的な収束を保証し、境界を与える。

We consider (stochastic) subgradient methods for strongly convex but potentially nonsmooth non-Lipschitz optimization. We provide new equivalent dual descriptions (in the style of dual averaging) for the classic subgradient method, the proximal subgradient method, and the switching subgradient method. These equivalences enable $O(1/T)$ convergence guarantees in terms of both their classic primal gap and a not previously analyzed dual gap for strongly convex optimization. Consequently, our theory provides these classic methods with simple, optimal stopping criteria and optimality certificates at no added computational cost. Our results apply to a wide range of stepsize selections and of non-Lipschitz ill-conditioned problems where the early iterations of the subgradient method may diverge exponentially quickly (a phenomenon which, to the best of our knowledge, no prior works address). Even in the presence of such undesirable behaviors, our theory still ensures and bounds eventual convergence.
翻訳日:2024-02-01 20:26:29 公開日:2024-01-31
# ベイズネットワークの辺独立構造に関する組合せ的および代数的観点

Combinatorial and algebraic perspectives on the marginal independence structure of Bayesian networks ( http://arxiv.org/abs/2210.00822v3 )

ライセンス: Link先を確認
Danai Deligeorgaki, Alex Markham, Pratik Misra, Liam Solus(参考訳) 本研究では,ベイズネットワークの辺独立構造を観測データから推定し,無条件依存グラフと呼ぶ非有向グラフを学習する問題を考える。 ベイズネットワークの非条件依存グラフは、同じ独立性および交叉数を持つグラフに対応することを示す。 この観察を用いて、ベイズネットワークの無条件依存グラフに付随するトーリックイデアルのgr\"obner基底が与えられ、そのようなすべてのグラフの空間を接続するための追加の双項関係によって拡張される。 GrUES (Gr\-obner-based Unconditional Equivalence Search) と呼ばれるMCMC法は、その結果に基づいて実装され、合成ガウスデータに適用される。 gruesは、単純な独立性テストよりも高いレートでペナルティ化された最大確率またはマップ推定値を介して真の辺独立性構造を回復し、また、後部の推定値も与え、この20〜%のhpd信頼できる集合は、密度が0.5$以上のデータ生成グラフに対して高いレートで真の構造を含む。

We consider the problem of estimating the marginal independence structure of a Bayesian network from observational data, learning an undirected graph we call the unconditional dependence graph. We show that unconditional dependence graphs of Bayesian networks correspond to the graphs having equal independence and intersection numbers. Using this observation, a Gr\"obner basis for a toric ideal associated to unconditional dependence graphs of Bayesian networks is given and then extended by additional binomial relations to connect the space of all such graphs. An MCMC method, called GrUES (Gr\"obner-based Unconditional Equivalence Search), is implemented based on the resulting moves and applied to synthetic Gaussian data. GrUES recovers the true marginal independence structure via a penalized maximum likelihood or MAP estimate at a higher rate than simple independence tests while also yielding an estimate of the posterior, for which the $20\%$ HPD credible sets include the true structure at a high rate for data-generating graphs with density at least $0.5$.
翻訳日:2024-02-01 20:25:19 公開日:2024-01-31
# 有理分数多項式を持つ高次および非線形直列の効率的な解法:比ネット

Efficiently Solving High-Order and Nonlinear ODEs with Rational Fraction Polynomial: the Ratio Net ( http://arxiv.org/abs/2105.11309v2 )

ライセンス: Link先を確認
Chenxin Qin, Ruhao Liu, Maocai Li, Shengyuan Li, Yi Liu, and Chichun Zhou(参考訳) 近年,ニューラルネットワークを用いた常微分方程式(ODE)の解法が注目されている。 ニューラルネットワークは、勾配のバックプロパゲーションアルゴリズムによって助けられ、関数空間内の試行機能や近似ソリューションとして機能する。 しかし、高次および非線形ケースを含む複雑なODEの解決には依然として課題があり、効率と効率性の改善の必要性を強調している。 従来の手法は通常、問題解決効率を改善するために確立された知識の統合に依存している。 対照的に、この研究では、比率ネットとして知られる試行機能を構築するための新しいニューラルネットワークアーキテクチャを導入することで、異なるアプローチをとる。 このアーキテクチャは有理分数多項式近似関数、特にパド近似から着想を得ている。 実験により,提案手法は,多項式型および多層型パーセプトロン(mlp)ニューラルネットワークを用いた手法に比べて高い効率を示すことを示した。 比重ネットは、微分方程式の解法効率と有効性を向上させることを約束する。

Recent advances in solving ordinary differential equations (ODEs) with neural networks have been remarkable. Neural networks excel at serving as trial functions and approximating solutions within functional spaces, aided by gradient backpropagation algorithms. However, challenges remain in solving complex ODEs, including high-order and nonlinear cases, emphasizing the need for improved efficiency and effectiveness. Traditional methods have typically relied on established knowledge integration to improve problem-solving efficiency. In contrast, this study takes a different approach by introducing a new neural network architecture for constructing trial functions, known as ratio net. This architecture draws inspiration from rational fraction polynomial approximation functions, specifically the Pade approximant. Through empirical trials, it demonstrated that the proposed method exhibits higher efficiency compared to existing approaches, including polynomial-based and multilayer perceptron (MLP) neural network-based methods. The ratio net holds promise for advancing the efficiency and effectiveness of solving differential equations.
翻訳日:2024-02-01 20:24:38 公開日:2024-01-31
# 個人差分データをストリーミングするアルゴリズム

An Algorithm for Streaming Differentially Private Data ( http://arxiv.org/abs/2401.14577v2 )

ライセンス: Link先を確認
Girish Kumar, Thomas Strohmer, and Roman Vershynin(参考訳) ディファレンシャルプライバシに関する調査の多くは、すべてのデータが同時に利用できるという仮定で、オフラインアプリケーションに焦点を当てている。 これらのアルゴリズムが、データが時間の経過とともに収集されるストリームに実際に適用される場合、プライバシ保証に違反するか、ユーティリティが低下する。 本稿では,特に空間データセットを指向した,微分的にプライベートな合成ストリーミングデータ生成のためのアルゴリズムを導出する。 さらに,問合せ応答や合成データ生成など,多くのタスクの基盤となるクエリの集合のうち,オンライン選択カウントのための一般的なフレームワークを提供する。 本アルゴリズムの有効性は実世界とシミュレーションデータセットの両方で検証される。

Much of the research in differential privacy has focused on offline applications with the assumption that all data is available at once. When these algorithms are applied in practice to streams where data is collected over time, this either violates the privacy guarantees or results in poor utility. We derive an algorithm for differentially private synthetic streaming data generation, especially curated towards spatial datasets. Furthermore, we provide a general framework for online selective counting among a collection of queries which forms a basis for many tasks such as query answering and synthetic data generation. The utility of our algorithm is verified on both real-world and simulated datasets.
翻訳日:2024-02-01 20:21:17 公開日:2024-01-31
# 時間依存ロビン境界条件で制御される離散座標暗号・エルミタン量子系

Discrete-coordinate crypto-Hermitian quantum system controlled by time-dependent Robin boundary conditions ( http://arxiv.org/abs/2401.10682v2 )

ライセンス: Link先を確認
Miloslav Znojil(参考訳) 非エルミート的(あるいはより正確にはエルミート的)相互作用-ピクチャー表現で定式化されたユニタリ量子力学の非定常バージョンは、時間依存境界条件によって物理が制御される1Dボックス系を模倣する基礎的な$N$ by$N$Matrix Hamiltonian $H(t)$で示される。 このモデルは解析的解法として$N=2$で表される。 表現法(expressis verbis)とは、基礎となるハイゼンベルグ方程式とシュルンベルク発展方程式の両方に対して、生成元(つまり、我々の記法では、各作用素 $\sigma(t)$ と $g(t)$) が閉形式で利用可能になることを意味する。 我々の重要なメッセージは、従来の信念に反し、システムの進化のユニタリ性にもかかわらず、その「ハイゼンベルク的ハミルトン」(Heisenbergian Hamiltonian)$\Sigma(t)$も、その「Schr\"{o}dingerian Hamiltonian" $G(t)$も実スペクトルまたは複素固有値の共役対を持たないことである。 これは、いずれの「ハミルトニア」も擬エルミート的エイリアスpt対称とはならないことを意味する。

Non-stationary version of unitary quantum mechanics formulated in non-Hermitian (or, more precisely, in hiddenly Hermitian) interaction-picture representation is illustrated via an elementary $N$ by $N$ matrix Hamiltonian $H(t)$ mimicking a 1D-box system with physics controlled by time-dependent boundary conditions. The model is presented as analytically solvable at $N=2$. Expressis verbis, this means that for both of the underlying Heisenbergian and Schr\"{o}dingerian evolution equations the generators (i.e., in our notation, the respective operators $\Sigma(t)$ and $G(t)$) become available in closed form. Our key message is that contrary to the conventional beliefs and in spite of the unitarity of the evolution of the system, neither its "Heisenbergian Hamiltonian" $\Sigma(t)$ nor its "Schr\"{o}dingerian Hamiltonian" $G(t)$ possesses a real spectrum or the conjugate pairs of complex eigenvalues. This means that neither one of these "Hamiltonians" can be pseudo-Hermitian alias PT-symmetric.
翻訳日:2024-02-01 20:21:07 公開日:2024-01-31
# 製造シミュレーションのための量子コンピューティング強化サービスエコシステム

Quantum Computing Enhanced Service Ecosystem for Simulation in Manufacturing ( http://arxiv.org/abs/2401.10623v2 )

ライセンス: Link先を確認
Wolfgang Maass, Ankit Agrawal, Alessandro Ciani, Sven Danz, Alejandro Delgadillo, Philipp Ganser, Pascal Kienast, Marco Kulig, Valentina K\"onig, Nil Rodellas-Gr\`acia, Rivan Rughubar, Stefan Schr\"oder, Marc Stautner, Hannah Stein, Tobias Stollenwerk, Daniel Zeuch, Frank K. Wilhelm(参考訳) 量子コンピューティング (QC) と機械学習 (ML) は、量子支援ML (QML) に個別にあるいは組み合わせられ、計算が高速化、精度の向上、リソース削減といった大きな可能性を秘めている。 工学における数値シミュレーションの改善は、製造業に強い経済的影響を与える可能性を示唆している。 本稿では, ハードウェアからアルゴリズム, サービス層, 組織層に至るまで, さまざまなレイヤから構成される, 製造シミュレーションのための量子コンピューティングによるサービスエコシステムの枠組みを提案する。 さらに,QCとQMLに基づくアプリケーション研究の現状について,科学的・産業的な観点から考察する。 我々は,これらの新しい計算パラダイムの定量的評価を目的とし,これら2つの高価値なユースケースをさらに分析する。

Quantum computing (QC) and machine learning (ML), taken individually or combined into quantum-assisted ML (QML), are ascending computing paradigms whose calculations come with huge potential for speedup, increase in precision, and resource reductions. Likely improvements for numerical simulations in engineering imply the possibility of a strong economic impact on the manufacturing industry. In this project report, we propose a framework for a quantum computing-enhanced service ecosystem for simulation in manufacturing, consisting of various layers ranging from hardware to algorithms to service and organizational layers. In addition, we give insight into the current state of the art of applications research based on QC and QML, both from a scientific and an industrial point of view. We further analyse two high-value use cases with the aim of a quantitative evaluation of these new computing paradigms for industrially-relevant settings.
翻訳日:2024-02-01 20:20:36 公開日:2024-01-31
# スカラー量子電磁力学における絡み合いエントロピー

Entanglement Entropy in Scalar Quantum Electrodynamics ( http://arxiv.org/abs/2401.10332v2 )

ライセンス: Link先を確認
Samuel Fedida, Anupam Mazumdar, Sougato Bose and Alessio Serafini(参考訳) スカラー量子電磁力学における真空状態の部分領域の絡み合いエントロピーは、2ループ準位に摂動的に作用する。 そうすることで、円錐ユークリッド空間におけるマクスウェル・プロカプロパゲーターを導出する。 絡み合いエントロピーの領域法則は、予想通り、この理論の質量と質量の限界の両方において回復される。 これらの結果から, エンタングルメントエントロピーの正規化群フローが得られ, ループ寄与はエンタングルメントエントロピーを抑制することがわかった。 これらの結果は、スカラー量子力学において増加するカップリングとコレレータの正規化群フローの光において強調され、時空の2点間の相関の増大と時空とエネルギーの2つの領域間の絡み合いエントロピーの減少の間の潜在的な緊張関係が議論される。 実際、時空の部分領域の真空はスカラー量子電磁力学においてエネルギーを純化しており、これはスクリーニングの概念に関連している。

We find the entanglement entropy of a subregion of the vacuum state in scalar quantum electrodynamics, working perturbatively to the 2-loops level. Doing so leads us to derive the Maxwell-Proca propagator in conical Euclidean space. The area law of entanglement entropy is recovered in both the massive and massless limits of the theory, as is expected. These results yield the renormalisation group flow of entanglement entropy, and we find that loop contributions suppress entanglement entropy. We highlight these results in the light of the renormalization group flow of couplings and correlators, which are increased in scalar quantum electrodynamics, so that the potential tension between the increase in correlations between two points of spacetime and the decrease in entanglement entropy between two regions of spacetime with energy is discussed. We indeed show that the vacuum of a subregion of spacetime purifies with energy in scalar quantum electrodynamics, which is related to the concept of screening.
翻訳日:2024-02-01 20:20:23 公開日:2024-01-31
# 絡み合い、量子場の埋め込みとフォン・ノイマン代数の分類

Embezzlement of entanglement, quantum fields, and the classification of von Neumann algebras ( http://arxiv.org/abs/2401.07299v2 )

ライセンス: Link先を確認
Lauritz van Luijk, Alexander Stottmeister, Reinhard F. Werner, Henrik Wilming(参考訳) 我々はフォン・ノイマン代数の設定における絡み合いの包括的処理を提供し、フォン・ノイマン代数の分類との関係と相対論的量子場理論への応用について論じる。 絡み合いのエンベゼルメント(英: embezzlement of entanglement)とは、共有絡み合いリソース状態から任意の精度で絡み合い状態を生成するタスクであり、通信を使わずに、任意に資源を摂動させる。 非相対論的量子論とは対照的に、量子場の記述はタイプi(有限または無限次元行列代数)を超えるフォン・ノイマン代数を必要とし、特にタイプiiiの代数は自然に現れる。 したがって、量子場理論は、潜在的により大きな種類の横領資源を許容する。 コンヌのIII型ノイマン代数の分類は、エンタングルメントの埋め込みのタスクを用いて定量的な操作的解釈を与えることができることを示す。 具体的には、すべてのタイプ iii$_\lambda$ factor と $\lambda>0$ host embezzling state と、タイプ iii$_1$ factor 上のすべての正規状態がembezzlingであることを示す。 さらに、半有限因子(I型またはII型)はエンベジング状態をホストすることができず、正確なエンベジング状態は非分離ヒルベルト空間を必要とすることを証明している。 これらの結果は、重みのフローにおけるエンベジング状態と不変状態の間の1対1の対応から導かれる。 本研究は、iii$_1$因子を「普遍的横領者」として特徴づけ、相対論的量子場理論がベルの不等式を最大に破る理由について、簡単な説明を与える。 結果の多くはモジュラー理論と重みのフローを幅広く用いているが、ITPFI因子の普遍的なエンベジングは基本的議論によってIII$_1$であることを示す。

We provide a comprehensive treatment of embezzlement of entanglement in the setting of von Neumann algebras and discuss its relation to the classification of von Neumann algebras as well as its application to relativistic quantum field theory. Embezzlement of entanglement is the task of producing any entangled state to arbitrary precision from a shared entangled resource state using local operations without communication while perturbing the resource arbitrarily little. In contrast to non-relativistic quantum theory, the description of quantum fields requires von Neumann algebras beyond type I (finite or infinite dimensional matrix algebras) -- in particular, algebras of type III appear naturally. Thereby, quantum field theory allows for a potentially larger class of embezzlement resources. We show that Connes' classification of type III von Neumann algebras can be given a quantitative operational interpretation using the task of embezzlement of entanglement. Specifically, we show that all type III$_\lambda$ factors with $\lambda>0$ host embezzling states and that every normal state on a type III$_1$ factor is embezzling. Furthermore, semifinite factors (type I or II) cannot host embezzling states, and we prove that exact embezzling states require non-separable Hilbert spaces. These results follow from a one-to-one correspondence between embezzling states and invariant states on the flow of weights. Our findings characterize type III$_1$ factors as "universal embezzlers" and provide a simple explanation as to why relativistic quantum field theories maximally violate Bell inequalities. While most of our results make extensive use of modular theory and the flow of weights, we establish that universally embezzling ITPFI factors are of type III$_1$ by elementary arguments.
翻訳日:2024-02-01 20:20:04 公開日:2024-01-31
# 通信コストが18キロバイト未満の10億大言語モデルのフェデレーションフルパラメータチューニング

Federated Full-Parameter Tuning of Billion-Sized Language Models with Communication Cost under 18 Kilobytes ( http://arxiv.org/abs/2312.06353v3 )

ライセンス: Link先を確認
Zhen Qin, Daoyuan Chen, Bingchen Qian, Bolin Ding, Yaliang Li, Shuiguang Deng(参考訳) 事前訓練された大規模言語モデル(LLM)は、自然言語命令に対する応答性を改善するために微調整が必要である。 フェデレーション学習は、データプライバシを損なうことなく、エンドデバイス上の豊富なデータを使用してLLMを微調整する方法を提供する。 LLMの既存のファインチューニング手法の多くはパラメータ効率のよいファインチューニング技術に依存しており、フルパラメータチューニングでは到達できない。 しかし,LLMのフェデレーションフルパラメータチューニングは通信コストが大きいため,非自明な問題である。 本研究は,無作為種子の有限集合を用いたゼロ次最適化を用いたfedexseedを導入する。 サーバとクライアント間の通信要求をランダムなシード数個とスカラー勾配数個に減らし、数千バイトに減らし、デバイス上で数十億のLLMのフェデレーションされたフルパラメータチューニングを可能にする。 そこで我々は,確率微分型シードサンプリングを実現する手法を開発し,モデル精度に大きな影響を与える摂動の優先順位付けを行う。 各種LLM,データセット,データパーティションを用いた6つのシナリオを対象とした実験により,我々の手法は,コミュニケーション効率とタスク一般化の両面において,既存のLLMファインチューニング手法よりも優れていることを示した。

Pre-trained large language models (LLMs) need fine-tuning to improve their responsiveness to natural language instructions. Federated learning offers a way to fine-tune LLMs using the abundant data on end devices without compromising data privacy. Most existing federated fine-tuning methods for LLMs rely on parameter-efficient fine-tuning techniques, which may not reach the performance height possible with full-parameter tuning. However, federated full-parameter tuning of LLMs is a non-trivial problem due to the immense communication cost. This work introduces FedKSeed that employs zeroth-order optimization with a finite set of random seeds. It significantly reduces transmission requirements between the server and clients to just a few random seeds and scalar gradients, amounting to only a few thousand bytes, making federated full-parameter tuning of billion-sized LLMs possible on devices. Building on it, we develop a strategy enabling probability-differentiated seed sampling, prioritizing perturbations with greater impact on model accuracy. Experiments across six scenarios with various LLMs, datasets and data partitions demonstrate that our approach outperforms existing federated LLM fine-tuning methods in both communication efficiency and new task generalization.
翻訳日:2024-02-01 20:19:15 公開日:2024-01-31
# オーバーエアフェデレーション政策のグラディエント

Over-the-air Federated Policy Gradient ( http://arxiv.org/abs/2310.16592v2 )

ライセンス: Link先を確認
Huiwen Yang, Lingying Huang, Subhrakanti Dey, Ling Shi(参考訳) 近年,大規模分散学習,最適化,センシングにおいて,空中アグリゲーションが広く検討されている。 本稿では,ローカル情報を含むアナログ信号を共通無線チャネルに同時に送信するオーバー・ザ・エア・フェデレーション・ポリシー勾配アルゴリズムを提案し,中央制御器は受信した集約波形を用いてポリシーパラメータを更新する。 本研究では,提案アルゴリズムの収束に及ぼす雑音とチャネル歪みの影響について検討し,$\epsilon$-approximate stationary pointを求めるための通信とサンプリングの複雑さを確立する。 最後に,本アルゴリズムの有効性を示すシミュレーション結果を示す。

In recent years, over-the-air aggregation has been widely considered in large-scale distributed learning, optimization, and sensing. In this paper, we propose the over-the-air federated policy gradient algorithm, where all agents simultaneously broadcast an analog signal carrying local information to a common wireless channel, and a central controller uses the received aggregated waveform to update the policy parameters. We investigate the effect of noise and channel distortion on the convergence of the proposed algorithm, and establish the complexities of communication and sampling for finding an $\epsilon$-approximate stationary point. Finally, we present some simulation results to show the effectiveness of the algorithm.
翻訳日:2024-02-01 20:18:49 公開日:2024-01-31
# Maxwell-Density Matrix Langevin 法による動的光電子デバイスシミュレーションにおけるゆらぎのモデル化

Modeling of Fluctuations in Dynamical Optoelectronic Device Simulations within a Maxwell-Density Matrix Langevin Approach ( http://arxiv.org/abs/2310.16039v2 )

ライセンス: Link先を確認
Johannes Popp (1), Johannes Stowasser (1), Michael A. Schreiber (1), Lukas Seitner (1), Felix Hitzelhammer (2), Michael Haider (1), Gabriela Slavcheva (2 and 3), Christian Jirauschek (1 and 4) ((1) TUM School of Computation, Information and Technology, Technical University of Munich, Garching, Germany (2) Institute of Physics, NAWI Graz, University of Graz, Graz, Austria (3) Quantopticon, Chicago, IL, USA (4) TUM Center for Quantum Engineering (ZQE), Garching, Germany)(参考訳) 本稿では,量子カスケードレーザー(qcls)や量子ドット(qd)構造などのアクティブフォトニックデバイスにおける時空間ダイナミクスのモデル化のために,c数確率ノイズ項を含む全波マクスウェル密度行列シミュレーションツールを提案する。 このようなデバイスにおけるコヒーレント光-マター相互作用は、周波数コムやその他の非線形および非古典光学現象の生成において重要な役割を果たす。 非線形および非古典的特徴の出現はノイズ特性に直接関連しているため、ノイズ特性の詳細なシミュレーションは低ノイズ量子光電子源の開発に必要である。 我々の半古典的シミュレーションフレームワークは、電子動力学のリンドブラッド方程式とレーザー導波路の光伝搬のマクスウェル方程式を組み合わせたものである。 光学場と量子系とそれらの貯水池の相互作用から生じるゆらぎは、量子ランジュバン理論の中で扱われる。 ここで、揺らぎは、マクスウェル密度行列方程式に確率的なc-数項を加えることによって含まれる。 mbsolve動的シミュレーションフレームワークの実装が公開されている。

We present a full-wave Maxwell-density matrix simulation tool including c-number stochastic noise terms for the modeling of the spatiotemporal dynamics in active photonic devices, such as quantum cascade lasers (QCLs) and quantum dot (QD) structures. The coherent light-matter interaction in such devices plays an important role in the generation of frequency combs and other nonlinear and nonclassical optical phenomena. Since the emergence of nonlinear and nonclassical features is directly linked to the noise properties, detailed simulations of the noise characteristics are required for the development of low-noise quantum optoelectronic sources. Our semiclassical simulation framework is based on the Lindblad equation for the electron dynamics, coupled with Maxwell's equations for the optical propagation in the laser waveguide. Fluctuations arising from interactions of the optical field and quantum system with their reservoirs are treated within the quantum Langevin theory. Here, the fluctuations are included by adding stochastic c-number terms to the Maxwell-density matrix equations. The implementation in the mbsolve dynamic simulation framework is publicly available.
翻訳日:2024-02-01 20:18:00 公開日:2024-01-31
# $k$-$t$ CLAIR:動的並列MR画像再構成のための自己整合性指導型マルチプライアラーニング

$k$-$t$ CLAIR: Self-Consistency Guided Multi-Prior Learning for Dynamic Parallel MR Image Reconstruction ( http://arxiv.org/abs/2310.11050v2 )

ライセンス: Link先を確認
Liping Zhang and Weitian Chen(参考訳) 心臓磁気共鳴画像(CMR)は、心臓疾患の診断に広く用いられている。 しかし、長い買収時間はリアルタイムアプリケーションの開発を妨げている。 本稿では,高アンサンプデータの時空間相関を利用して動的並列MRI再構成を高速化する,新しい自己整合性指導型多元学習フレームワークである$k$-$t$CLAIRを提案する。 x$-$t$、$x$-$f$、$k$-$t$ドメインで学んだ複数の相補的先行値を活用することで、動的MRIは時空間冗長度が高いため、徐々に忠実なイメージを再構築する。 さらに、$k$-$t$ CLAIRは、事前学習のための校正情報を組み込んでおり、より一貫性のある再構築をもたらす。 心シネ画像とT1W/T2W画像の実験結果から,k$-$t$ CLAIRは定量および定性の両方のパフォーマンスで高品質な動的MR再構成を実現することが示された。

Cardiac magnetic resonance imaging (CMR) has been widely used in clinical practice for the medical diagnosis of cardiac diseases. However, the long acquisition time hinders its development in real-time applications. Here, we propose a novel self-consistency guided multi-prior learning framework named $k$-$t$ CLAIR to exploit spatiotemporal correlations from highly undersampled data for accelerated dynamic parallel MRI reconstruction. The $k$-$t$ CLAIR progressively reconstructs faithful images by leveraging multiple complementary priors learned in the $x$-$t$, $x$-$f$, and $k$-$t$ domains in an iterative fashion, as dynamic MRI exhibits high spatiotemporal redundancy. Additionally, $k$-$t$ CLAIR incorporates calibration information for prior learning, resulting in a more consistent reconstruction. Experimental results on cardiac cine and T1W/T2W images demonstrate that $k$-$t$ CLAIR achieves high-quality dynamic MR reconstruction in terms of both quantitative and qualitative performance.
翻訳日:2024-02-01 20:17:17 公開日:2024-01-31
# ストリーミング多変量時系列からの一貫性信号再構成

Consistent Signal Reconstruction from Streaming Multivariate Time Series ( http://arxiv.org/abs/2308.12459v2 )

ライセンス: Link先を確認
Emilio Ruiz-Moreno, Luis Miguel L\'opez-Ramos, Baltasar Beferull-Lozano(参考訳) 実世界のアナログ信号のデジタル化は、通常、サンプリング時間と振幅の離散化を伴う。 その後の信号再構成は、取得したサンプルの振幅分解能と時間密度に依存するエラーを必然的に負う。 実装の観点からは、サンプリング率の増加に伴い、一貫した信号再構成法は利益率の低下を証明している。 それにもかかわらず、これらの結果はオフライン設定で得られる。 したがって、データストリームからの一貫した信号再構成方法に関する研究ギャップが存在する。 この問題を解決することは、既存のオフライン手法よりも計算コストが低い場合や、一貫性の確保のメリットを失うことなく、リアルタイムな要件の下での使用が可能なため、非常に重要である。 本稿では,ストリーミング時系列データから一貫した信号再構成の概念を初めて定式化する。 そこで,本研究では,一貫性を強制し,多変量時系列データの時空間依存性を利用して信号再構成誤差を低減できる信号再構成手法を提案する。 提案手法は, 類似しているが非矛盾な再構成に比べて, サンプリング速度で良好な誤差速度の減衰を達成できることを示す。

Digitalizing real-world analog signals typically involves sampling in time and discretizing in amplitude. Subsequent signal reconstructions inevitably incur an error that depends on the amplitude resolution and the temporal density of the acquired samples. From an implementation viewpoint, consistent signal reconstruction methods have proven a profitable error-rate decay as the sampling rate increases. Despite that, these results are obtained under offline settings. Therefore, a research gap exists regarding methods for consistent signal reconstruction from data streams. Solving this problem is of great importance because such methods could run at a lower computational cost than the existing offline ones or be used under real-time requirements without losing the benefits of ensuring consistency. In this paper, we formalize for the first time the concept of consistent signal reconstruction from streaming time-series data. Then, we present a signal reconstruction method able to enforce consistency and also exploit the spatiotemporal dependencies of streaming multivariate time-series data to further reduce the signal reconstruction error. Our experiments show that our proposed method achieves a favorable error-rate decay with the sampling rate compared to a similar but non-consistent reconstruction.
翻訳日:2024-02-01 20:16:23 公開日:2024-01-31
# 従来型および非慣習型ディッケモデル:多重安定性と非平衡ダイナミクス

Conventional and unconventional Dicke models: Multistabilities and nonequilibrium dynamics ( http://arxiv.org/abs/2307.05686v3 )

ライセンス: Link先を確認
Farokh Mivehvar(参考訳) ディックモデルは、キャビティの単一の量子化された放射場と同一に相互作用する2レベル原子(スピン-1/2)のサブ波長サイズアンサンブルの集合的挙動を記述する。 臨界カップリング強度の他に、通常の状態から超放射相へのゼロ温度の相転移を示し、そこで場が占有され、集合スピンが非ゼロの$x$成分を取得し、これは原子スピンの$x$に沿った強磁性秩序として想像できる。 ここでは、スピンの2つのサブ波長サイズのアンサンブルが、異なる強度を持つ単一の量子化された放射場と相互作用する、このモデルの変種を紹介する。 その後、結合強度が逆である特別な場合(等結合強度に一意的に等しい)に自分自身を制限します。 各アンサンブルにおける全スピンの保存のため、この系はx$-強磁性とx$-強磁性のスピン秩序を持つ2つの異なる超ラジアント状態をサポートし、大きなパラメータ構造において互いに共存する。 熱力学限界における系の安定性と力学を半古典的手法を用いて検討し, マルチスタビリティによる非定常挙動を予測する。 最終的には、半古典的な計算と一致して、小型の完全量子力学計算も行います。

The Dicke model describes the collective behavior of a sub-wavelength--size ensemble of two-level atoms (i.e., spin-1/2) interacting identically with a single quantized radiation field of a cavity. Across a critical coupling strength it exhibits a zero-temperature phase transition from the normal state to the superradiant phase where the field is populated and the collective spin acquires a nonzero $x$-component, which can be imagined as ferromagnetic ordering of the atomic spins along $x$. Here we introduce a variant of this model where two sub-wavelength--size ensembles of spins interact with a single quantized radiation field with different strengths. Subsequently, we restrict ourselves to a special case where the coupling strengths are opposite (which is unitarily equivalent to equal-coupling strengths). Due to the conservation of the total spin in each ensemble individually, the system supports two distinct superradiant states with $x$-ferromagnetic and $x$-ferrimagnetic spin ordering, coexisting with each other in a large parameter regime. The stability and dynamics of the system in the thermodynamic limit are examined using a semiclassical approach, which predicts non-stationary behaviors due to the multistabilities. At the end, we also perform small-scale full quantum-mechanical calculations, with results consistent with the semiclassical ones.
翻訳日:2024-02-01 20:16:09 公開日:2024-01-31
# ディープアンサンブルニューラルネットワークを用いたエンドポイントデバイス上の微小分子可溶性予測

Predicting small molecules solubilities on endpoint devices using deep ensemble neural networks ( http://arxiv.org/abs/2307.05318v3 )

ライセンス: Link先を確認
Mayk Caldas Ramos and Andrew D. White(参考訳) 水溶性は、予測する価値のあるが難しい性質である。 第一原理法による溶解度計算はエントロピーとエンタルピーの競合する効果を考慮しなければならず、結果として長い計算が比較的精度が低い。 ディープラーニングのようなデータ駆動アプローチは、精度と計算効率が向上するが、一般的に不確かさの定量化が欠如している。 さらに、使いやすさはいかなる計算手法にも懸念され続けており、グループベースのコントリビューション手法が持続的に普及している。 本研究では,静的Webサイト上で(サーバなしで)実行される予測の不確実性のあるディープラーニングモデルを用いて,これらの問題に対処する。 このアプローチは、コンピューティングニーズをインストールを必要とせずにwebサイト訪問者に移し、サーバの支払いとメンテナンスを不要にする。 このモデルは溶解度予測に十分な結果が得られる。 さらに,不確実性と使いやすさのバランスをとる分子特性予測モデルの作成方法を示す。 コードはhttps://github.com/ur-whitelab/mol.devで、モデルはhttps://mol.devで利用できる。

Aqueous solubility is a valuable yet challenging property to predict. Computing solubility using first-principles methods requires accounting for the competing effects of entropy and enthalpy, resulting in long computations for relatively poor accuracy. Data-driven approaches, such as deep learning, offer improved accuracy and computational efficiency but typically lack uncertainty quantification. Additionally, ease of use remains a concern for any computational technique, resulting in the sustained popularity of group-based contribution methods. In this work, we addressed these problems with a deep learning model with predictive uncertainty that runs on a static website (without a server). This approach moves computing needs onto the website visitor without requiring installation, removing the need to pay for and maintain servers. Our model achieves satisfactory results in solubility prediction. Furthermore, we demonstrate how to create molecular property prediction models that balance uncertainty and ease of use. The code is available at https://github.com/ur-whitelab/mol.dev, and the model is usable at https://mol.dev.
翻訳日:2024-02-01 20:15:43 公開日:2024-01-31
# クロスドメイン潜在変調を用いた変分伝達学習

Variational Transfer Learning using Cross-Domain Latent Modulation ( http://arxiv.org/abs/2205.15523v2 )

ライセンス: Link先を確認
Jinyong Hou, Jeremiah D. Deng, Stephen Cranefield, Xuejie Din(参考訳) トレーニング済みニューラルネットワークモデルを新しいドメインに適用するには、強力なトランスファー学習ソリューションが不可欠である。 本稿では,可変オートエンコーダフレームワークに新しいクロスドメイン潜在変調機構を導入し,効果的な転送学習を実現する。 私たちの重要なアイデアは、あるデータドメインから深い表現を取得し、他のドメインの潜在変数の再パラメータ化に影響を与えるためにそれを使用することです。 具体的には、まず、ソースとターゲットドメインの深い表現を統一推論モデルで抽出し、勾配反転を用いて整列する。 学習した深層表現は、一貫性の制約が適用される代替ドメインの潜在エンコーディングに相互変調される。 教師なしドメイン適応とイメージ・ツー・イメージ翻訳のための多くの移行学習ベンチマークタスクを含む実証的検証において,本モデルは,可視化から得られた証拠を裏付ける競合性能を示す。

To successfully apply trained neural network models to new domains, powerful transfer learning solutions are essential. We propose to introduce a novel cross-domain latent modulation mechanism to a variational autoencoder framework so as to achieve effective transfer learning. Our key idea is to procure deep representations from one data domain and use it to influence the reparameterization of the latent variable of another domain. Specifically, deep representations of the source and target domains are first extracted by a unified inference model and aligned by employing gradient reversal. The learned deep representations are then cross-modulated to the latent encoding of the alternative domain, where consistency constraints are also applied. In the empirical validation that includes a number of transfer learning benchmark tasks for unsupervised domain adaptation and image-to-image translation, our model demonstrates competitive performance, which is also supported by evidence obtained from visualization.
翻訳日:2024-02-01 18:27:59 公開日:2024-01-31
# 公平とは何か? 保護された属性と架空の世界の役割について

What Is Fairness? On the Role of Protected Attributes and Fictitious Worlds ( http://arxiv.org/abs/2205.09622v4 )

ライセンス: Link先を確認
Ludwig Bothmann, Kristina Peters, Bernd Bischl(参考訳) フェアネスを意識したML(fairML)における文献の増大は、機械学習(ML)に関連する不公平さを自動意思決定(ADM)で軽減することを目的としており、MLモデルの公平性を測定するメトリクスを定義し、トレーニングされたMLモデルがこれらのメトリクスで低い値を達成することを保証する方法を提案する。 しかし、公正とは何かという根本的な概念は、何世紀にもわたる哲学的議論とMLコミュニティにおけるこの概念の最近の採用の間にかなりのギャップを残しているため、ほとんど議論されない。 本研究では,公正性という一貫した概念を定式化し,哲学的考察をADMシステムにおけるMLモデルのトレーニングと評価のための形式的枠組みに変換することにより,このギャップを埋めようとしている。 フェアネス問題は保護属性(PA)の存在なしに既に発生しており、フェアネスと予測性能は相容れないものではなく、前者を達成するためには後者が必要であることを指摘した。 さらに, PAが因果的影響を持たない架空の規範的(FiND)世界を提案することによって, PAの存在の公平性を評価する上で, 因果的配慮がなぜ必要かについて議論する。 実際には、このFiND世界は、実世界のデータからPAの因果効果を取り除かなければならない、歪んだ世界によって近似されなければならない。 最終的に、fairMLの議論において、より言語的明瞭さを実現する。 実用化のための第1のアルゴリズムを提案し,CompASデータに関する実証実験を行う。

A growing body of literature in fairness-aware ML (fairML) aspires to mitigate machine learning (ML)-related unfairness in automated decision-making (ADM) by defining metrics that measure fairness of an ML model and by proposing methods that ensure that trained ML models achieve low values in those metrics. However, the underlying concept of fairness, i.e., the question of what fairness is, is rarely discussed, leaving a considerable gap between centuries of philosophical discussion and recent adoption of the concept in the ML community. In this work, we try to bridge this gap by formalizing a consistent concept of fairness and by translating the philosophical considerations into a formal framework for the training and evaluation of ML models in ADM systems. We derive that fairness problems can already arise without the presence of protected attributes (PAs), pointing out that fairness and predictive performance are not irreconcilable counterparts, but rather that the latter is necessary to achieve the former. Moreover, we argue why and how causal considerations are necessary when assessing fairness in the presence of PAs by proposing a fictitious, normatively desired (FiND) world where the PAs have no causal effects. In practice, this FiND world must be approximated by a warped world, for which the causal effects of the PAs must be removed from the real-world data. Eventually, we achieve greater linguistic clarity for the discussion of fairML. We propose first algorithms for practical applications and present illustrative experiments on COMPAS data.
翻訳日:2024-02-01 18:27:43 公開日:2024-01-31
# 半教師付き連続学習のための勾配予測学習

Learning to Predict Gradients for Semi-Supervised Continual Learning ( http://arxiv.org/abs/2201.09196v2 )

ライセンス: Link先を確認
Yan Luo, Yongkang Wong, Mohan Kankanhalli, Qi Zhao(参考訳) マシンインテリジェンスの重要な課題は、以前獲得した知識を忘れずに新しい視覚概念を学ぶことだ。 継続的学習は、この課題に取り組むことを目的としている。 しかし、既存の教師付き連続学習と人間のような知性の間にはギャップがあり、人間はラベル付きデータとラベルなしデータの両方から学習することができる。 ラベルのないデータが、継続的な学習プロセスにおける学習と破滅的な忘れにどのように影響するかは、いまだ不明である。 そこで本研究では,既存の連続学習モデルに汎用的に適用可能な,半教師付き連続学習法を提案する。 具体的には、ラベル付きデータから新しい勾配学習者が学習し、ラベルなしデータの勾配を予測する。 したがって、ラベルのないデータは教師付き連続学習法に適合する。 従来の半教師付き設定とは異なり、ラベルなしデータに関連付けられた下位クラスが学習プロセスに知られているとは考えていない。 言い換えれば、ラベルのないデータはラベル付きデータと非常に異なる可能性がある。 提案手法は,主流の連続学習,逆連続学習,および半教師付き学習タスクにおいて評価される。 提案手法は,半教師付き学習環境における分類精度の所望の性能を保ちながら,連続学習環境における分類精度と後方移動に関する最先端性能を実現する。 このことは、ラベルのない画像は、目に見えないデータに対する予測能力に対する連続学習モデルの一般化性を高め、破滅的な忘れを著しく軽減できることを示している。 コードは \url{https://github.com/luoyan407/grad_prediction.git} で入手できる。

A key challenge for machine intelligence is to learn new visual concepts without forgetting the previously acquired knowledge. Continual learning is aimed towards addressing this challenge. However, there is a gap between existing supervised continual learning and human-like intelligence, where human is able to learn from both labeled and unlabeled data. How unlabeled data affects learning and catastrophic forgetting in the continual learning process remains unknown. To explore these issues, we formulate a new semi-supervised continual learning method, which can be generically applied to existing continual learning models. Specifically, a novel gradient learner learns from labeled data to predict gradients on unlabeled data. Hence, the unlabeled data could fit into the supervised continual learning method. Different from conventional semi-supervised settings, we do not hypothesize that the underlying classes, which are associated to the unlabeled data, are known to the learning process. In other words, the unlabeled data could be very distinct from the labeled data. We evaluate the proposed method on mainstream continual learning, adversarial continual learning, and semi-supervised learning tasks. The proposed method achieves state-of-the-art performance on classification accuracy and backward transfer in the continual learning setting while achieving desired performance on classification accuracy in the semi-supervised learning setting. This implies that the unlabeled images can enhance the generalizability of continual learning models on the predictive ability on unseen data and significantly alleviate catastrophic forgetting. The code is available at \url{https://github.com/luoyan407/grad_prediction.git}.
翻訳日:2024-02-01 18:27:15 公開日:2024-01-31
# データから動的モデルを抽出する

Extracting Dynamical Models from Data ( http://arxiv.org/abs/2110.06917v6 )

ライセンス: Link先を確認
Michael F. Zimmer(参考訳) 時間とともに与えられたデータのみを与えられた場合、システムの基盤となるダイナミクスを決定する問題は、何十年も科学者に挑戦してきた。 本稿では、相空間変数の更新をモデル化するために機械学習を使用する手法を紹介し、相空間変数の関数として実行する。 (より一般的には、モデリングはジェット空間の機能を越えて行われる。) このアプローチ(fjetと呼ばれる)は、ダイナミクスを正確に再現することができ、減衰調和振動子、減衰振子、ダフィング振動子の例で示される。 さらに、データは時間とともにどのようにサンプリングされるか(定期的に、または不規則に)にもよらない。 FJetの回帰実装は、Range-Kutta (RK) 数値積分スキームのテイラー級数展開によるモデルに類似していることが示されている。 この識別は、モデルで使用する関数空間を明示的に明らかにすることの利点と、関連する更新の不確実性定量化をもたらす。 最後に、アンアンパンプ調和振動子(unamped harmonic oscillator)の例では、更新の安定性が4$th-order rk(時間ステップ0.1$)よりも安定して10^9$倍長いことが示されている。

The problem of determining the underlying dynamics of a system when only given data of its state over time has challenged scientists for decades. In this paper, the approach of using machine learning to model the updates of the phase space variables is introduced; this is done as a function of the phase space variables. (More generally, the modeling is done over functions of the jet space.) This approach (named FJet) allows one to accurately replicate the dynamics, and is demonstrated on the examples of the damped harmonic oscillator, the damped pendulum, and the Duffing oscillator; the underlying differential equation is also accurately recovered for each example. In addition, the results in no way depend on how the data is sampled over time (i.e., regularly or irregularly). It is demonstrated that a regression implementation of FJet is similar to the model resulting from a Taylor series expansion of the Runge-Kutta (RK) numerical integration scheme. This identification confers the advantage of explicitly revealing the function space to use in the modeling, as well as the associated uncertainty quantification for the updates. Finally, it is shown in the undamped harmonic oscillator example that the stability of the updates is stable $10^9$ times longer than with $4$th-order RK (with time step $0.1$).
翻訳日:2024-02-01 18:26:48 公開日:2024-01-31
# 階層化とシャーディングによるセキュアで効率的な連合学習

Secure and Efficient Federated Learning Through Layering and Sharding Blockchain ( http://arxiv.org/abs/2104.13130v5 )

ライセンス: Link先を確認
Shuo Yuan, Bin Cao, Yao Sun, Zhiguo Wan, Mugen Peng(参考訳) ブロックチェーンを連合学習(fl)に導入して、送信と学習のための信頼されたエッジコンピューティング環境を構築することは、新しい分散学習パターンとして広く注目を集めている。 しかしながら、ブロックチェーンシステムの従来のコンセンサスメカニズムとアーキテクチャは、大規模なFLタスク、特にIoT(Internet of Things)デバイスでの処理において、リソース使用量、トランザクションスループットの制限、複雑な通信要求など、大きな課題に直面しています。 そこで本稿では,ブロックチェーン駆動型2層flシステムchainflを提案する。 IoTネットワークをサブチェーン層内の複数のシャードに分割し、情報交換の規模を効果的に削減し、ダイレクト・サイクリックグラフ(DAG)ベースのメインチェーンをメインチェーン層として使用することにより、並列かつ非同期なクロスシャード検証を可能にする。 さらに、FLプロシージャをブロックチェーン技術と深く統合するようにカスタマイズし、異常モデルによる歪みを軽減するために改良されたDAGコンセンサス機構を設計する。 Hyperledger Fabricに基づく複数のサブチェーンと自己開発DAGベースのメインチェーンがデプロイされる概念実証実装および評価を提供する。 大規模な実験では、ChainFLが従来のFLシステムを大幅に上回り、トレーニング効率が14%向上し、堅牢性が3倍向上した。

Introducing blockchain into Federated Learning (FL) to build a trusted edge computing environment for transmission and learning has attracted widespread attention as a new decentralized learning pattern. However, traditional consensus mechanisms and architectures of blockchain systems face significant challenges in handling large-scale FL tasks, especially on Internet of Things (IoT) devices, due to their substantial resource consumption, limited transaction throughput, and complex communication requirements. To address these challenges, this paper proposes ChainFL, a novel two-layer blockchain-driven FL system. It splits the IoT network into multiple shards within the subchain layer, effectively reducing the scale of information exchange, and employs a Direct Acyclic Graph (DAG)-based mainchain as the mainchain layer, enabling parallel and asynchronous cross-shard validation. Furthermore, the FL procedure is customized to integrate deeply with blockchain technology, and a modified DAG consensus mechanism is designed to mitigate distortion caused by abnormal models. To provide a proof-of-concept implementation and evaluation, multiple subchains based on Hyperledger Fabric and a self-developed DAG-based mainchain are deployed. Extensive experiments demonstrate that ChainFL significantly surpasses conventional FL systems, showing up to a 14% improvement in training efficiency and a threefold increase in robustness.
翻訳日:2024-02-01 18:26:29 公開日:2024-01-31
# 平面クリフォード回路の高速シミュレーション

Fast simulation of planar Clifford circuits ( http://arxiv.org/abs/2009.03218v3 )

ライセンス: Link先を確認
David Gosset, Daniel Grier, Alex Kerzner, Luke Schaeffer(参考訳) 一般的な量子回路は指数時間で古典的にシミュレートすることができる。 平面レイアウトを持つ場合、マルコフとシによるテンソル-ネットワーク縮小アルゴリズムは、その大きさの平方根に指数関数的、またはより一般に基礎となるグラフのツリー幅に指数的である。 これとは別に、ゴッテスマンとクニルは、すべてのゲートがクリフォードに制限されている場合、多項式時間シミュレーションが存在することを示した。 これら2つのアイデアを組み合わせることで、ツリー幅と平面性を利用してクリフォード回路シミュレーションを改善することができることを示す。 我々の主な結果は、与えられたパウリ基底の平面グラフ状態のすべての$n$ qubitsを測定することで得られる出力分布から得られるサンプルである$n^{\omega/2}<n^{1.19}$と漸近的にスケールする古典的アルゴリズムである。 ここで$\omega$は行列乗算指数である。 また,平面幾何における定深さクリフォード回路の出力分布からサンプルする,同じ漸近的ランタイムを持つ古典的アルゴリズムを提供する。 我々の研究は、既知の古典的アルゴリズムを立方体ランタイムで改善する。 重要な要素は、あるグラフ$G$のツリー分解が与えられたとき、ツリー分解を反映し、対応するグラフ状態の測定をエミュレートする構造を持つクリフォード回路を生成するマッピングである。 この回路の古典的なシミュレーションを平面グラフのランタイムと、それ以外は$t$が木分解の幅である$nt^{\omega-1}$で提供する。 アルゴリズムには2つのサブルーチンが組み込まれている。 1つ目は、安定化状態におけるマルチキュービット測定のゴッテマン・クニルシミュレーションの行列乗算時間バージョンである。 2つ目は、平面幾何学において$\mathbb{f}_2$ 上の対称線型系を解くための新しい古典的アルゴリズムであり、同様の設定で非特異線型系にのみ適用される以前の作品を拡張している。

A general quantum circuit can be simulated classically in exponential time. If it has a planar layout, then a tensor-network contraction algorithm due to Markov and Shi has a runtime exponential in the square root of its size, or more generally exponential in the treewidth of the underlying graph. Separately, Gottesman and Knill showed that if all gates are restricted to be Clifford, then there is a polynomial time simulation. We combine these two ideas and show that treewidth and planarity can be exploited to improve Clifford circuit simulation. Our main result is a classical algorithm with runtime scaling asymptotically as $n^{\omega/2}<n^{1.19}$ which samples from the output distribution obtained by measuring all $n$ qubits of a planar graph state in given Pauli bases. Here $\omega$ is the matrix multiplication exponent. We also provide a classical algorithm with the same asymptotic runtime which samples from the output distribution of any constant-depth Clifford circuit in a planar geometry. Our work improves known classical algorithms with cubic runtime. A key ingredient is a mapping which, given a tree decomposition of some graph $G$, produces a Clifford circuit with a structure that mirrors the tree decomposition and which emulates measurement of the corresponding graph state. We provide a classical simulation of this circuit with the runtime stated above for planar graphs and otherwise $nt^{\omega-1}$ where $t$ is the width of the tree decomposition. Our algorithm incorporates two subroutines which may be of independent interest. The first is a matrix-multiplication-time version of the Gottesman-Knill simulation of multi-qubit measurement on stabilizer states. The second is a new classical algorithm for solving symmetric linear systems over $\mathbb{F}_2$ in a planar geometry, extending previous works which only applied to non-singular linear systems in the analogous setting.
翻訳日:2024-02-01 18:26:04 公開日:2024-01-31
# 適度に監督された学習:定義、枠組み、一般性

Moderately Supervised Learning: Definition, Framework and Generality ( http://arxiv.org/abs/2008.11945v6 )

ライセンス: Link先を確認
Yongquan Yang(参考訳) 教師付き学習は多くの人工知能(AI)アプリケーションで顕著な成功を収めた。 現在の文献では、トレーニングデータセットに用意されたラベルの特性を参照することにより、教師あり学習(SL)と弱教師あり学習(WSL)に分類される。 SLは、トレーニングデータセットが理想的な(完全で正確な)ラベルで割り当てられている状況、WSLはトレーニングデータセットが非理想的(不完全、不正確な、不正確な)ラベルで割り当てられている状況に関する。 しかし、SLタスクに対する様々なソリューションは、与えられたラベルが必ずしも習得しやすいとは限らないことを示しており、与えられたラベルから学習が容易なターゲットへの変換は最終SLソリューションの性能に大きな影響を及ぼす可能性がある。 SLの定義は、与えられたラベルから簡単に学習できるターゲットへの変換の性質を考慮せずに、特定のSLタスクの適切なソリューションを構築する上で重要ないくつかの詳細を隠蔽する。 したがって、AIアプリケーション分野のエンジニアには、これらの詳細を体系的に明らかにすることが望ましい。 本稿では、SLの分類を拡大し、与えられたラベルが理想である状況に関するサブタイプの中等教育学習(MSL)を調査することにより、この目標を達成することを試みるが、アノテーションの単純さにより、与えられたラベルを学習しやすいターゲットに変換するには、注意深い設計が必要である。 定義, フレームワーク, 一般性の観点から, MSL を概念化し, MSL タスクを体系的に解析するための基本的基礎を提供する。 その間、mslの概念化と数学者のビジョンの関係を明らかにするとともに、この論文は、数学者のビジョンから解決すべき問題を見るためのaiアプリケーションエンジニアのためのチュートリアルを確立する。

Learning with supervision has achieved remarkable success in numerous artificial intelligence (AI) applications. In the current literature, by referring to the properties of the labels prepared for the training dataset, learning with supervision is categorized as supervised learning (SL) and weakly supervised learning (WSL). SL concerns the situation where the training data set is assigned with ideal (complete, exact and accurate) labels, while WSL concerns the situation where the training data set is assigned with non-ideal (incomplete, inexact or inaccurate) labels. However, various solutions for SL tasks have shown that the given labels are not always easy to learn, and the transformation from the given labels to easy-to-learn targets can significantly affect the performance of the final SL solutions. Without considering the properties of the transformation from the given labels to easy-to-learn targets, the definition of SL conceals some details that can be critical to building the appropriate solutions for specific SL tasks. Thus, for engineers in the AI application field, it is desirable to reveal these details systematically. This article attempts to achieve this goal by expanding the categorization of SL and investigating the sub-type moderately supervised learning (MSL) that concerns the situation where the given labels are ideal, but due to the simplicity in annotation, careful designs are required to transform the given labels into easy-to-learn targets. From the perspectives of the definition, framework and generality, we conceptualize MSL to present a complete fundamental basis to systematically analyse MSL tasks. At meantime, revealing the relation between the conceptualization of MSL and the mathematicians' vision, this paper as well establishes a tutorial for AI application engineers to refer to viewing a problem to be solved from the mathematicians' vision.
翻訳日:2024-02-01 18:25:28 公開日:2024-01-31
# 多様体上の固有ガウス過程とその対称性による加速

Intrinsic Gaussian Processes on Manifolds and Their Accelerations by Symmetry ( http://arxiv.org/abs/2006.14266v2 )

ライセンス: Link先を確認
Ke Ye, Mu Niu, Pokman Cheung, Zhenwen Dai, Yuan Liu(参考訳) 非パラメトリック回帰への関心が高まっている中、ガウス過程(gp)において多様体に基づく予測器に適用する大きな課題に対処した。 既存の手法は主に熱核推定のための低次元制約領域に焦点をあて、高次元多様体での有効性を制限している。 本研究では直交群,ユニタリ群,スティーフェル多様体,グラスマン多様体などの一般多様体上でgpを構築するための本質的アプローチを提案する。 本手法は指数写像を用いてブラウン運動サンプル経路をシミュレートすることで熱核を推定し,多様体の埋め込みから独立性を確保する。 余剰対称性を持つ多様体に適したストリップアルゴリズムの導入と、任意の多様体用に設計された球アルゴリズムは、我々の重要な貢献となる。 どちらのアルゴリズムも理論的な証明と数値的なテストによって厳密に裏付けられ、ストリップアルゴリズムは従来の手法よりも顕著な効率向上を示している。 この本質的なアプローチは、高次元多様体の適用性、大域的パラメトリゼーションや埋め込みの必要性の排除など、いくつかの重要な利点をもたらす。 実世界のデータセット(ゴリラ頭蓋骨平面画像と拡散テンソル画像)のための二元分類器を開発することにより,回帰的ケーススタディ(トーラス結び目と8次元射影空間)による実用性を示す。 これらの分類器は、特に限られたデータシナリオにおいて、従来の手法よりも優れている。

Amidst the growing interest in nonparametric regression, we address a significant challenge in Gaussian processes(GP) applied to manifold-based predictors. Existing methods primarily focus on low dimensional constrained domains for heat kernel estimation, limiting their effectiveness in higher-dimensional manifolds. Our research proposes an intrinsic approach for constructing GP on general manifolds such as orthogonal groups, unitary groups, Stiefel manifolds and Grassmannian manifolds. Our methodology estimates the heat kernel by simulating Brownian motion sample paths using the exponential map, ensuring independence from the manifold's embedding. The introduction of our strip algorithm, tailored for manifolds with extra symmetries, and the ball algorithm, designed for arbitrary manifolds, constitutes our significant contribution. Both algorithms are rigorously substantiated through theoretical proofs and numerical testing, with the strip algorithm showcasing remarkable efficiency gains over traditional methods. This intrinsic approach delivers several key advantages, including applicability to high dimensional manifolds, eliminating the requirement for global parametrization or embedding. We demonstrate its practicality through regression case studies (torus knots and eight dimensional projective spaces) and by developing binary classifiers for real world datasets (gorilla skulls planar images and diffusion tensor images). These classifiers outperform traditional methods, particularly in limited data scenarios.
翻訳日:2024-02-01 18:24:56 公開日:2024-01-31
# 名前付きエンティティ間の次数関係のモデル化のためのRelEntLessベンチマーク

A RelEntLess Benchmark for Modelling Graded Relations between Named Entities ( http://arxiv.org/abs/2305.15002v2 )

ライセンス: Link先を確認
Asahi Ushio and Jose Camacho Collados and Steven Schockaert(参考訳) これらの関係をどの程度満足しているかに基づいてエンティティペアをランク付けすることは可能だが、それらを満たすペアとそうでないペアの間に線を引くことは困難である。 このようなグレード付き関係は多くのアプリケーションにおいて中心的な役割を果たすが、通常は既存の知識グラフではカバーされない。 本稿では,このギャップを埋めるためにLarge Language Models (LLM) を用いる可能性を検討する。 この目的のために,与えられた格付け関係をどの程度満たしているかに応じてエンティティペアをランク付けしなければならない,新たなベンチマークを導入する。 このタスクは数ショットのランキング問題として定式化され、モデルでは関係と5つの原型インスタンスの記述にしかアクセスできない。 提案したベンチマークを用いて,GPT-4 のような一般向け LLM とクローズドモデルの両方をカバーする,最新の LLM の評価を行った。 全体として、モデルのサイズと性能の間には強い相関関係が見られ、より小さな言語モデルでは単純なベースラインを上回りません。 最大のFlan-T5およびOPTモデルの結果は極めて強いが、人間のパフォーマンスとの明確なギャップは残る。

Relations such as "is influenced by", "is known for" or "is a competitor of" are inherently graded: we can rank entity pairs based on how well they satisfy these relations, but it is hard to draw a line between those pairs that satisfy them and those that do not. Such graded relations play a central role in many applications, yet they are typically not covered by existing Knowledge Graphs. In this paper, we consider the possibility of using Large Language Models (LLMs) to fill this gap. To this end, we introduce a new benchmark, in which entity pairs have to be ranked according to how much they satisfy a given graded relation. The task is formulated as a few-shot ranking problem, where models only have access to a description of the relation and five prototypical instances. We use the proposed benchmark to evaluate state-of-the-art relation embedding strategies as well as several recent LLMs, covering both publicly available LLMs and closed models such as GPT-4. Overall, we find a strong correlation between model size and performance, with smaller Language Models struggling to outperform a naive baseline. The results of the largest Flan-T5 and OPT models are remarkably strong, although a clear gap with human performance remains.
翻訳日:2024-02-01 18:21:32 公開日:2024-01-31
# 微細粒度・高忠実度説明生成能力を有するCAM法

Empowering CAM-Based Methods with Capability to Generate Fine-Grained and High-Faithfulness Explanations ( http://arxiv.org/abs/2303.09171v3 )

ライセンス: Link先を確認
Changqing Qiu, Fusheng Jin, Yining Zhang(参考訳) 近年,ニューラルネットワークモデルの説明が研究の注目を集めている。 コンピュータビジョンでは, CAM (Class Activation Map) と LRP (Layer-wise Relevance Propagation) の2つの手法が一般的である。 しかし、ほとんどのCAMベースの手法はグローバルウェイトしか生成できないため、深い層で粗い粒度の説明しか生成できない。 一方、lrpとその変種は、細かな説明を生成することができる。 しかし、説明の忠実さは低すぎる。 これらの課題に対処するため,本論文では,細粒度で高忠実な説明を生成するために,CAM法を拡張したFG-CAM(Fine-Grained CAM)を提案する。 fg-camは、解像度の違いを持つ2つの隣接する特徴マップの層間の関係を利用して、徐々に分解性を高め、寄与画素を見つけ、寄与しない画素をフィルタリングする。 提案手法は, CAM法の特徴を変化させることなく, その欠点を解消するだけでなく, LRPとその変種よりも忠実である詳細な説明を生成する。 また,FG-CAMはFG-CAMの変種であり,説明の忠実度にはほとんど変化がなく,ノイズの少ない説明を生成できる。 実験結果から,FG-CAMの性能にはほとんど影響がないことが明らかとなった。 FG-CAMは、浅い層と中間層の両方で既存のCAM法を著しく上回り、入力層においてLPPとその変種を著しく上回ります。 私たちのコードはhttps://github.com/dongmo-qcq/fg-camで入手できる。

Recently, the explanation of neural network models has garnered considerable research attention. In computer vision, CAM (Class Activation Map)-based methods and LRP (Layer-wise Relevance Propagation) method are two common explanation methods. However, since most CAM-based methods can only generate global weights, they can only generate coarse-grained explanations at a deep layer. LRP and its variants, on the other hand, can generate fine-grained explanations. But the faithfulness of the explanations is too low. To address these challenges, in this paper, we propose FG-CAM (Fine-Grained CAM), which extends CAM-based methods to enable generating fine-grained and high-faithfulness explanations. FG-CAM uses the relationship between two adjacent layers of feature maps with resolution differences to gradually increase the explanation resolution, while finding the contributing pixels and filtering out the pixels that do not contribute. Our method not only solves the shortcoming of CAM-based methods without changing their characteristics, but also generates fine-grained explanations that have higher faithfulness than LRP and its variants. We also present FG-CAM with denoising, which is a variant of FG-CAM and is able to generate less noisy explanations with almost no change in explanation faithfulness. Experimental results show that the performance of FG-CAM is almost unaffected by the explanation resolution. FG-CAM outperforms existing CAM-based methods significantly in both shallow and intermediate layers, and outperforms LRP and its variants significantly in the input layer. Our code is available at https://github.com/dongmo-qcq/FG-CAM.
翻訳日:2024-02-01 18:21:09 公開日:2024-01-31
# 深層学習に基づくグローバル・セグメンテーションに基づくセマンティック特徴融合による屋内シーン分類

A Deep Learning-based Global and Segmentation-based Semantic Feature Fusion Approach for Indoor Scene Classification ( http://arxiv.org/abs/2302.06432v3 )

ライセンス: Link先を確認
Ricardo Pereira, Tiago Barros, Luis Garrote, Ana Lopes, Urbano J. Nunes(参考訳) 本研究では,セグメンテーション・セグメンテーション・マスクを用いてシーン全体のセグメンテーション・カテゴリの2次元空間レイアウトをセグメンテーション・ベース・セグメンテーション・セグメンテーション・フィーチャー(ssfs)で指定する手法を提案する。 これらの特徴は、セグメンテーションカテゴリごと、画素数、および2D平均位置と各標準偏差値を表す。 さらに,RGB画像から抽出したCNNによるグローバルな特徴と,提案したSSFから抽出したセグメンテーションに基づく特徴を活かした2分岐ネットワークGS2F2Appを提案する。 GS2F2Appは、SUN RGB-DとNYU Depth V2の2つの屋内シーンベンチマークデータセットで評価され、両方のデータセットで最先端の結果が得られた。

This work proposes a novel approach that uses a semantic segmentation mask to obtain a 2D spatial layout of the segmentation-categories across the scene, designated by segmentation-based semantic features (SSFs). These features represent, per segmentation-category, the pixel count, as well as the 2D average position and respective standard deviation values. Moreover, a two-branch network, GS2F2App, that exploits CNN-based global features extracted from RGB images and the segmentation-based features extracted from the proposed SSFs, is also proposed. GS2F2App was evaluated in two indoor scene benchmark datasets: the SUN RGB-D and the NYU Depth V2, achieving state-of-the-art results on both datasets.
翻訳日:2024-02-01 18:20:40 公開日:2024-01-31
# ドメイン一般化可能な多重ドメインクラスタリング

Domain-Generalizable Multiple-Domain Clustering ( http://arxiv.org/abs/2301.13530v2 )

ライセンス: Link先を確認
Amit Rozner, Barak Battash, Lior Wolf, Ofir Lindenbaum(参考訳) この研究は、ラベル付きサンプルが存在しない場合(完全に教師なし)に教師なしドメイン一般化の問題を一般化する。 複数のソースドメインからラベルなしのサンプルが与えられ、意味的に関連するクラスタにサンプルを割り当てる共有予測子を学ぼうとしています。 評価は、これまで見つからなかったドメインのクラスタ割り当てを予測することで行われる。 本研究の目的は,(1)ドメイン不変なセマンティックな特徴を抽出するための自己教師付き事前学習である。 2) 特徴空間とクラスタヘッド予測の両方に依存する疑似ラベルを用いたマルチヘッドクラスタ予測は,新たな予測に基づくラベル平滑化方式をさらに活用する。 対象領域のサンプルやある程度の監督レベルを用いて微調整を必要とするベースラインよりも,我々のモデルの方が正確であることを示す。 私たちのコードはhttps://github.com/amitrozner/domain-generalizable-multiple-domain-clusteringで利用可能です。

This work generalizes the problem of unsupervised domain generalization to the case in which no labeled samples are available (completely unsupervised). We are given unlabeled samples from multiple source domains, and we aim to learn a shared predictor that assigns examples to semantically related clusters. Evaluation is done by predicting cluster assignments in previously unseen domains. Towards this goal, we propose a two-stage training framework: (1) self-supervised pre-training for extracting domain invariant semantic features. (2) multi-head cluster prediction with pseudo labels, which rely on both the feature space and cluster head prediction, further leveraging a novel prediction-based label smoothing scheme. We demonstrate empirically that our model is more accurate than baselines that require fine-tuning using samples from the target domain or some level of supervision. Our code is available at https://github.com/AmitRozner/domain-generalizable-multiple-domain-clustering.
翻訳日:2024-02-01 18:20:21 公開日:2024-01-31
# ベイズ自己教師付きコントラスト学習

Bayesian Self-Supervised Contrastive Learning ( http://arxiv.org/abs/2301.11673v4 )

ライセンス: Link先を確認
Bin Liu, Bang Wang, Tianrui Li(参考訳) 近年、さまざまな領域におけるコントラスト学習の多くの成功例が見られたが、自己管理版は依然として多くのエキサイティングな課題が残っている。 負のサンプルはラベルのないデータセットから抽出されるため、ランダムに選択されたサンプルは実際にはアンカーに偽の陰性であり、誤ったエンコーダのトレーニングをもたらす。 本稿では, ラベル付きデータからのランダムなサンプルを引き続き用いながら, 重み付きバイアスを補正するBCL損失という, 新たな自己監督型コントラスト損失を提案する。 鍵となる考え方は、ベイズフレームワークの下で真の正のサンプルをサンプリングするために望ましいサンプリング分布を設計することである。 顕著な利点は、所望のサンプリング分布がパラメトリック構造であり、それぞれが偽陰性および濃度パラメータを偏り、ハード負をマイニングする位置パラメータである点である。 実験はbcl損失の有効性と優位性を検証する。

Recent years have witnessed many successful applications of contrastive learning in diverse domains, yet its self-supervised version still remains many exciting challenges. As the negative samples are drawn from unlabeled datasets, a randomly selected sample may be actually a false negative to an anchor, leading to incorrect encoder training. This paper proposes a new self-supervised contrastive loss called the BCL loss that still uses random samples from the unlabeled data while correcting the resulting bias with importance weights. The key idea is to design the desired sampling distribution for sampling hard true negative samples under the Bayesian framework. The prominent advantage lies in that the desired sampling distribution is a parametric structure, with a location parameter for debiasing false negative and concentration parameter for mining hard negative, respectively. Experiments validate the effectiveness and superiority of the BCL loss.
翻訳日:2024-02-01 18:20:05 公開日:2024-01-31
# 量子思考への転換を促進する--知識の再編成・組織化・認識論的課題に取り組む中等教育コースの開発

Promoting the transition to quantum thinking: development of a secondary school course for addressing knowledge revision, organization, and epistemological challenges ( http://arxiv.org/abs/2301.00239v6 )

ライセンス: Link先を確認
Giacomo Zuccarini and Marisa Michelini(参考訳) 本稿では, 古典的知識の改訂, 専門分野における組織化された知識構造の構築, 量子世界の可解な図像の開発などに関わる課題に対処するため, 中等教育における量子力学のコースの開発について述べる。 このコースは、古典力学から量子力学への移行における分析に依存し、認知的および認識論的側面を協調する概念変化に対する体系的アプローチに基づいている。 このアプローチが設計原則の導出を助長する方法,これらの原則が指導シーケンスの開発とその戦略をいかに導くか,それらの実装が異なる研究視点と学習システムのブレンドを必要とするかを示す。 第1の課題は、理論変化の各概念のダイナミクスに従って事前知識を活用する古典的概念と構成の修正の道を通して解決される。 2つ目は、コンテキストをまたいだ量子計測の統一図の構築を促進するフレームワークの採用である。 3つ目は、学生が理論物理学者のエピステマティックな実践、例えば思考実験の生成や実行、純粋に理論的な環境での数学的モデリングなどに関わるモデリングプロセスに関するコースを設計することである。 すべては、学生が自分の探究のもっともらしい産物として世界の量子的記述を受け入れるのを助けることを目的としている。 このプロセスは、提案された解釈的選択のそれぞれによって引き起こされる基礎的な議論の側面の議論に助けられ、その文化的重要性、選択された立場の制限、オープンな問題に対する認識を促進することを目的としている。 改良のサイクルに関するデータは、一連のアクティビティがローカルレベルでの課題にどのように効果的に対処されたかを示しています。

We describe the development of a course of quantum mechanics for secondary school designed to address the challenges related to the revision of classical knowledge, to the building of a well-organized knowledge structure on the discipline, and to the development of a plausible picture of the quantum world. The course is based on a systemic approach to conceptual change, which relies on its analysis in the transition from classical to quantum mechanics, and coordinates cognitive and epistemological aspects. We show how our approach drives the derivation of design principles, how these principles guide the development of the instructional sequence and of its strategies, how their implementation requires the blending of different research perspectives and learning systems. The first challenge is addressed through a path of revision of classical concepts and constructs which leverages prior knowledge according to the dynamics of each notion in theory change. The second by adopting a framework that promotes the construction of a unifying picture of quantum measurement across contexts. The third by designing the course around a modelling process that engages students in epistemic practices of the theoretical physicist, such as generating and/or running thought experiments, and mathematical modelling in a purely theoretical setting. All is aimed to help students accept the quantum description of the world as a plausible product of their own inquiry. This process is assisted by the discussion of the facets of the foundational debate that are triggered by each of the suggested interpretive choices, with the goal to promote an awareness of its cultural significance, of the limits the chosen stance, of the open issues. Data on the cycles of refinement illustrate how a set of activities have been made effective in addressing the challenges at a local level.
翻訳日:2024-02-01 18:19:47 公開日:2024-01-31
# ジェネレーションシーケンスラベリングにおけるビームサーチはどのようにスパンレベル信頼度推定を改善するか?

How Does Beam Search improve Span-Level Confidence Estimation in Generative Sequence Labeling? ( http://arxiv.org/abs/2212.10767v3 )

ライセンス: Link先を確認
Kazuma Hashimoto and Iftekhar Naim and Karthik Raman(参考訳) シーケンスラベリングはie/irシステムのテキスト理解におけるコアタスクである。 テキスト生成モデルは、このようなタスク(エンティティ抽出やダイアログスロットの充填など)のゴーツーソリューションになりつつある。 ほとんどの研究はラベル付けの精度に重点を置いているが、重要な実践的重要性を持つ重要な側面は、モデルの信頼性を理解することである。 より具体的には、ラベル付きスパン毎の予測においてモデルの信頼度を確実に評価する方法の原則的な理解が欠けている。 本稿では,生成配列ラベリングにおけるモデル信頼度の推定に関する実証的な知見を提供する。 最も注目すべきは、デコーダの出力確率 \textbf{is} を単純に使うだけで、よく校正された信頼推定を実現することができることである。 異なるタスクの6つの公開データセットで検証した結果、ビームサーチによる上位$kの予測統計を利用する提案手法は、生成シーケンスラベルモデルの予測のキャリブレーションエラーを著しく低減することがわかった。

Sequence labeling is a core task in text understanding for IE/IR systems. Text generation models have increasingly become the go-to solution for such tasks (e.g., entity extraction and dialog slot filling). While most research has focused on the labeling accuracy, a key aspect -- of vital practical importance -- has slipped through the cracks: understanding model confidence. More specifically, we lack a principled understanding of how to reliably gauge the confidence of a model in its predictions for each labeled span. This paper aims to provide some empirical insights on estimating model confidence for generative sequence labeling. Most notably, we find that simply using the decoder's output probabilities \textbf{is not} the best in realizing well-calibrated confidence estimates. As verified over six public datasets of different tasks, we show that our proposed approach -- which leverages statistics from top-$k$ predictions by a beam search -- significantly reduces calibration errors of the predictions of a generative sequence labeling model.
翻訳日:2024-02-01 18:19:17 公開日:2024-01-31
# 自然言語理解におけるデータ拡張のためのオンザフライDenoising

On-the-fly Denoising for Data Augmentation in Natural Language Understanding ( http://arxiv.org/abs/2212.10558v2 )

ライセンス: Link先を確認
Tianqing Fang, Wenxuan Zhou, Fangyu Liu, Hongming Zhang, Yangqiu Song, Muhao Chen(参考訳) データ拡張(DA)は、自動的に追加の人間のアノテーションなしで追加のトレーニングデータを提供するために頻繁に使用される。 しかし、データ拡張はトレーニングを阻害するノイズデータをもたらす可能性がある。 拡張データの品質を保証するため、既存の手法では、拡張データにノイズが存在しないと仮定し、一貫性トレーニングを採用するか、トレーニング損失や多様性制約などの単純なヒューリスティックを使って"ノイズ"データをフィルタリングする。 しかし、これらのフィルタリングされた例は有用な情報を含んでいる可能性があり、それらを落とすと完全に監視信号が失われる。 本稿では,オリジナルデータセットが拡張データよりもクリーンであるという仮定に基づいて,よりクリーンなオリジナルデータに基づいてトレーニングされた有機教師モデルによって提供されるソフト拡張ラベルから学習されるデータ拡張のためのオン・ザ・フライ・デノイジング手法を提案する。 さらにノイズラベルの過度な適合を防止するため、単純な自己正規化モジュールを適用して、2つの異なるドロップアウト間でモデル予測を一貫性を持たせる。 本手法は,一般的な拡張手法に適用でき,テキスト分類と質問応答の両タスクの性能を一貫して向上させることができる。

Data Augmentation (DA) is frequently used to provide additional training data without extra human annotation automatically. However, data augmentation may introduce noisy data that impairs training. To guarantee the quality of augmented data, existing methods either assume no noise exists in the augmented data and adopt consistency training or use simple heuristics such as training loss and diversity constraints to filter out "noisy" data. However, those filtered examples may still contain useful information, and dropping them completely causes a loss of supervision signals. In this paper, based on the assumption that the original dataset is cleaner than the augmented data, we propose an on-the-fly denoising technique for data augmentation that learns from soft augmented labels provided by an organic teacher model trained on the cleaner original data. To further prevent overfitting on noisy labels, a simple self-regularization module is applied to force the model prediction to be consistent across two distinct dropouts. Our method can be applied to general augmentation techniques and consistently improve the performance on both text classification and question-answering tasks.
翻訳日:2024-02-01 18:18:10 公開日:2024-01-31
# ecgに基づく応力検出モデルの一般化について

On the Generalizability of ECG-based Stress Detection Models ( http://arxiv.org/abs/2210.06225v2 )

ライセンス: Link先を確認
Pooja Prajod, Elisabeth Andr\'e(参考訳) ストレスは、仕事、医療、社会的相互作用など、日常生活の多くの側面で一般的です。 多くの作品は、ストレスの指標となる様々な生体信号から手作りの特徴を研究している。 近年,ストレス検出のためのディープラーニングモデルも提案されている。 通常、ストレスモデルはトレーニングされ、同じデータセット上で検証される。 しかし,各シナリオのストレスデータを収集することは現実的ではない。 したがって、これらのモデルの一般化可能性を研究し、他のシナリオでどの程度使用できるかを決定することが重要である。 本稿では,心電図に基づく深部学習モデルと手作り心電図の特徴に基づくモデル,すなわち心拍変動(HRV)特徴の一般化能力について検討する。 この目的のために、入力としてECG信号を使用する3つのHRVモデルと2つのディープラーニングモデルを訓練する。 WESADとSWELL-KWという2つの一般的なストレスデータセットからのECG信号は、応力計と記録装置の点で異なる。 まず、同じデータセットからのトレーニングと検証サンプルを用いて、LOSO(Left-one-subject-out)クロスバリデーションを用いてモデルを評価する。 次に、WESADデータセットでトレーニングされたLOSOモデルをSWELL-KWサンプルを用いて検証し、その逆で検証する。 ディープラーニングモデルは、同じデータセットで最高の結果を得るが、hrvに基づくモデルは、異なるデータセットのデータに対してかなり優れている。 この傾向は、両方のデータセット上のすべてのモデルで観察される。 したがって、HRVモデルは、データセットのシナリオとは異なるアプリケーションにおいて、ストレス認識のためのより良い選択である。 我々の知る限りでは、ECGベースのディープラーニングモデルとHRVモデルのデータセット間の一般化性を比較する最初の試みである。

Stress is prevalent in many aspects of everyday life including work, healthcare, and social interactions. Many works have studied handcrafted features from various bio-signals that are indicators of stress. Recently, deep learning models have also been proposed to detect stress. Typically, stress models are trained and validated on the same dataset, often involving one stressful scenario. However, it is not practical to collect stress data for every scenario. So, it is crucial to study the generalizability of these models and determine to what extent they can be used in other scenarios. In this paper, we explore the generalization capabilities of Electrocardiogram (ECG)-based deep learning models and models based on handcrafted ECG features, i.e., Heart Rate Variability (HRV) features. To this end, we train three HRV models and two deep learning models that use ECG signals as input. We use ECG signals from two popular stress datasets - WESAD and SWELL-KW - differing in terms of stressors and recording devices. First, we evaluate the models using leave-one-subject-out (LOSO) cross-validation using training and validation samples from the same dataset. Next, we perform a cross-dataset validation of the models, that is, LOSO models trained on the WESAD dataset are validated using SWELL-KW samples and vice versa. While deep learning models achieve the best results on the same dataset, models based on HRV features considerably outperform them on data from a different dataset. This trend is observed for all the models on both datasets. Therefore, HRV models are a better choice for stress recognition in applications that are different from the dataset scenario. To the best of our knowledge, this is the first work to compare the cross-dataset generalizability between ECG-based deep learning models and HRV models.
翻訳日:2024-02-01 18:17:13 公開日:2024-01-31
# Margin-based Label Smoothing を用いたセグメンテーションネットワークの校正

Calibrating Segmentation Networks with Margin-based Label Smoothing ( http://arxiv.org/abs/2209.09641v2 )

ライセンス: Link先を確認
Balamurali Murugesan, Bingyuan Liu, Adrian Galdran, Ismail Ben Ayed, Jose Dolz(参考訳) 深層ニューラルネットワークによって引き起こされる視覚認識タスクの不確実な進歩にもかかわらず、これらのモデルが校正が不十分であることを示す最近の証拠がある。 訓練中のクロスエントロピー損失を最小化する標準的な慣行は、予測されたソフトマックス確率を1つのホットラベル割り当てに合致させる。 それにもかかわらず、これは、残りのアクティベーションよりもかなり大きい正しいクラスのソフトマックス前のアクティベーションをもたらし、誤校正問題を悪化させる。 分類文献からの最近の観察から、予測のエントロピーを暗黙的または明示的に最大化する損失関数は、最先端のキャリブレーション性能をもたらすことが示唆されている。 これらの結果にもかかわらず、医療画像分割ネットワークの校正作業におけるこれらの損失の影響は未解明のままである。 本研究では,現在のキャリブレーション損失の統一的最適化視点を提案する。 特に、これらの損失はロジット距離の等式制約を課す線形ペナルティ(あるいはラグランジュ項)の近似と見なすことができる。 このことは、そのような基礎となる等式制約の重要な制限であり、従って勾配が常に非形式的解に向かって進み、勾配に基づく最適化の際の判別性能とモデルのキャリブレーションの最良の妥協点に達するのを防いでいることを示している。 本稿では,不等式制約に基づく簡易かつ柔軟な一般化を提案し,ロジット距離に制御可能なマージンを課す。 各種公開医用画像セグメンテーションベンチマークの総合的な実験により,ネットワークキャリブレーションの観点から,これらのタスクに新たな成果が得られたが,識別性能も向上した。

Despite the undeniable progress in visual recognition tasks fueled by deep neural networks, there exists recent evidence showing that these models are poorly calibrated, resulting in over-confident predictions. The standard practices of minimizing the cross entropy loss during training promote the predicted softmax probabilities to match the one-hot label assignments. Nevertheless, this yields a pre-softmax activation of the correct class that is significantly larger than the remaining activations, which exacerbates the miscalibration problem. Recent observations from the classification literature suggest that loss functions that embed implicit or explicit maximization of the entropy of predictions yield state-of-the-art calibration performances. Despite these findings, the impact of these losses in the relevant task of calibrating medical image segmentation networks remains unexplored. In this work, we provide a unifying constrained-optimization perspective of current state-of-the-art calibration losses. Specifically, these losses could be viewed as approximations of a linear penalty (or a Lagrangian term) imposing equality constraints on logit distances. This points to an important limitation of such underlying equality constraints, whose ensuing gradients constantly push towards a non-informative solution, which might prevent from reaching the best compromise between the discriminative performance and calibration of the model during gradient-based optimization. Following our observations, we propose a simple and flexible generalization based on inequality constraints, which imposes a controllable margin on logit distances. Comprehensive experiments on a variety of public medical image segmentation benchmarks demonstrate that our method sets novel state-of-the-art results on these tasks in terms of network calibration, whereas the discriminative performance is also improved.
翻訳日:2024-02-01 18:16:47 公開日:2024-01-31
# 自己アタッチメント治療のための共感型AIコーチ

An Empathetic AI Coach for Self-Attachment Therapy ( http://arxiv.org/abs/2209.08316v2 )

ライセンス: Link先を確認
Lisa Alazraki, Ali Ghachem, Neophytos Polydorou, Foaad Khosmood and Abbas Edalat(参考訳) 本研究では,デジタルコーチのための新たなデータセットと計算戦略を提案する。 本フレームワークは,ユーザのテキスト応答の背景となる感情を識別する深層学習分類器と,新規で流動的で共感的な発話を生成するための深層学習支援検索手法を,ルールベースの会話エージェントに付加する。 ユーザが対話することのできる、人間のようなペルソナも作っています。 私たちの目標は、仮想セラピーセッションで高いレベルのエンゲージメントを達成することです。 我々は,N=16人の被験者を対象に,5日間にわたり少なくとも4人のエージェントと相互作用した非臨床試験において,我々のフレームワークの有効性を評価した。 私たちのプラットフォームは、単純なルールベースのフレームワークよりも共感、ユーザエンゲージメント、有用性に対して一貫して高い評価を受けています。 最後に、受信したフィードバックに応じて、アプリケーションの設計と性能をさらに改善するためのガイドラインを提供する。

In this work, we present a new dataset and a computational strategy for a digital coach that aims to guide users in practicing the protocols of self-attachment therapy. Our framework augments a rule-based conversational agent with a deep-learning classifier for identifying the underlying emotion in a user's text response, as well as a deep-learning assisted retrieval method for producing novel, fluent and empathetic utterances. We also craft a set of human-like personas that users can choose to interact with. Our goal is to achieve a high level of engagement during virtual therapy sessions. We evaluate the effectiveness of our framework in a non-clinical trial with N=16 participants, all of whom have had at least four interactions with the agent over the course of five days. We find that our platform is consistently rated higher for empathy, user engagement and usefulness than the simple rule-based framework. Finally, we provide guidelines to further improve the design and performance of the application, in accordance with the feedback received.
翻訳日:2024-02-01 18:16:14 公開日:2024-01-31
# 多重可観測エントロピー不確実性関係からのタイト境界

Tight bounds from multiple-observable entropic uncertainty relations ( http://arxiv.org/abs/2207.13469v3 )

ライセンス: Link先を確認
Alberto Riccardi, Giovanni Chesi, Chiara Macchiavello and Lorenzo Maccone(参考訳) 局所測定結果の確率の合同シャノンエントロピーで定義されるエントロピー不確実性関係(EUR)を用いて,両部系および多部系系の添加性について検討した。 特に、状態独立性および状態依存性エントロピー不等式を導入する。 興味深いことに、これらの不等式違反は量子相関の存在と厳密に結びついている。 EUR の加法性は 2 つ以上の可観測性を含む EUR に対してのみ成り立つが、これは 2 つ以上の可観測性を考える不等式や部分系のフォン・ノイマンエントロピーの追加の場合ではない。 これらを二成分系および三量子系のいくつかの状態のクラスに適用する。

We investigate the additivity properties for both bipartite and multipartite systems by using entropic uncertainty relations (EUR) defined in terms of the joint Shannon entropy of probabilities of local measurement outcomes. In particular, we introduce state-independent and state-dependent entropic inequalities. Interestingly, the violation of these inequalities is strictly connected with the presence of quantum correlations. We show that the additivity of EUR holds only for EUR that involve two observables, while this is not the case for inequalities that consider more than two observables or the addition of the von Neumann entropy of a subsystem. We apply them to bipartite systems and to several classes of states of a three-qubit system.
翻訳日:2024-02-01 18:15:58 公開日:2024-01-31
# Deep Network Approximation: ReLUを超えて、さまざまなアクティベーション関数

Deep Network Approximation: Beyond ReLU to Diverse Activation Functions ( http://arxiv.org/abs/2307.06555v5 )

ライセンス: Link先を確認
Shijun Zhang, Jianfeng Lu, Hongkai Zhao(参考訳) 本稿では,多様な活性化関数に対するディープニューラルネットワークの表現力について検討する。 $\mathtt{ReLU}$, $\mathtt{LeakyReLU}$, $\matht{ReLU}^2$, $\matht{ELU}$, $\matht{CELU}$, $\matht{SELU}$, $\matht{Softplus}$, $\matht{GELU}$, $\matht{SiLU}$, $\matht{Swish}$, $\matht{Mish$, $\matht{Swish}$, $\matht{Swish}$, $\matht{Swish}$, $, $\mathtt{ELU}$, $\mathtt{Swt}$, $, $\mathtt{Swish}$, $, $\mathttt{Swish}$, $, $\mathttt{SELU}$, $, $\mathttt{CELU}$, $, $\mathttt{SELU}$, $, $\mathtt{SELU}$, $, $\mathttt{SELU}$, $\mathttt{SELU}$, $, $\mathttt{Swt{Swt}$, $, $, $\mathttt{Sw, $\matht{Swt}$, $, $\mathtt , $\matht, $\matht , $\matht, $\matht{SELU}$\matht{S}$}$, $\matht{SELU}$, $\matht{SELU}$, $\matht{S}$, $, $\matht{S, $\matht, $, $\matht , $, $, $} 任意の活性化関数 $\varrho\in \mathscr{A}$, a $\mathtt{ReLU}$ network of width $N$ and depth $L$ に対して、任意の有界集合上の$\varrho$-activated network of width $3N$ and depth $2L$ を任意の精度で近似できることを示した。 この発見により、$\mathtt{ReLU}$ネットワークで達成されるほとんどの近似結果を、定数がわずかに増加するにもかかわらず、様々な活性化関数に拡張することができる。 重要なことに、 (width,$\,$depth) スケーリング因子が $(3,2)$ から $(1,1)$ にさらに還元できることは、$\varrho$ が $\mathscr{A}$ の特定の部分集合に該当することを保証する。 このサブセットには、$\matht{ELU}$, $\matht{CELU}$, $\matht{SELU}$, $\matht{Softplus}$, $\matht{GELU}$, $\matht{SiLU}$, $\matht{Swish}$, $\matht{Mish}$などのアクティベーション関数が含まれる。

This paper explores the expressive power of deep neural networks for a diverse range of activation functions. An activation function set $\mathscr{A}$ is defined to encompass the majority of commonly used activation functions, such as $\mathtt{ReLU}$, $\mathtt{LeakyReLU}$, $\mathtt{ReLU}^2$, $\mathtt{ELU}$, $\mathtt{CELU}$, $\mathtt{SELU}$, $\mathtt{Softplus}$, $\mathtt{GELU}$, $\mathtt{SiLU}$, $\mathtt{Swish}$, $\mathtt{Mish}$, $\mathtt{Sigmoid}$, $\mathtt{Tanh}$, $\mathtt{Arctan}$, $\mathtt{Softsign}$, $\mathtt{dSiLU}$, and $\mathtt{SRS}$. We demonstrate that for any activation function $\varrho\in \mathscr{A}$, a $\mathtt{ReLU}$ network of width $N$ and depth $L$ can be approximated to arbitrary precision by a $\varrho$-activated network of width $3N$ and depth $2L$ on any bounded set. This finding enables the extension of most approximation results achieved with $\mathtt{ReLU}$ networks to a wide variety of other activation functions, albeit with slightly increased constants. Significantly, we establish that the (width,$\,$depth) scaling factors can be further reduced from $(3,2)$ to $(1,1)$ if $\varrho$ falls within a specific subset of $\mathscr{A}$. This subset includes activation functions such as $\mathtt{ELU}$, $\mathtt{CELU}$, $\mathtt{SELU}$, $\mathtt{Softplus}$, $\mathtt{GELU}$, $\mathtt{SiLU}$, $\mathtt{Swish}$, and $\mathtt{Mish}$.
翻訳日:2024-02-01 18:11:51 公開日:2024-01-31
# 量子機構からの相対論的時間拡張

Relativistic time dilation from a quantum mechanism ( http://arxiv.org/abs/2307.04254v3 )

ライセンス: Link先を確認
Esteban Mart\'inez-Vargas(参考訳) 従来の直観に最も挑戦する相対性理論の1つの概念は時間拡張と長さ収縮である。 量子系における相対論的効果を記述する通常のアプローチは、これらの効果を物理的制約として仮定するだけである。 本稿では,量子力学的考察から特殊相対性理論の再構築を提案する。 これは、光速の普遍性という基本的な仮定を捨てることによって行われる。 ローレンツ変換は量子機構によって得られる。 我々は、有界量子状態が定義されるガリレオ参照フレームに依存するという事実を用いる。 言い換えれば、観測者のガリレオ参照フレームの外の有界量子状態は歪む。 次に、この歪みに対して、期待値が時間のローレンツ共変関数であるような、時間依存の可観測値の存在を示す。 次に、このメカニズムを特殊相対性現象の源として仮定する。 この理論では、光の速度の基本的な限界は、光よりも速い粒子に対して透明性条件を課す。 この透明性効果は、この量子フォーマリズムに続くより一般的な理論でダークマターを説明するのに役立つ。

One of the concepts of Relativity theory that challenge conventional intuition the most is time dilation and length contraction. Usual approaches for describing relativistic effects in quantum systems merely postulate the consequences these effects as physical constraints. Here, we propose to rebuild Special Relativity from quantum mechanical considerations. This is done by dropping one of its fundamental postulates: the universality of the speed of light. Lorentz transformations are obtained by a quantum mechanism. We use the fact that bound quantum states depend on the Galilean reference frame where they are defined. In other words, bound quantum states outside an observer's Galilean reference frame are distorted. Then, we show the existence of observables that are time-dependent that are sensible to this distortion in such a way that their expectation value is a Lorentz-covariant function of time. We then postulate this mechanism as the source of the Special Relativity phenomena. In this theory, the fundamental limit of speed of light imposes a transparency condition for faster-than-light particles: they are allowed but they are not detectable. The transparency effect could help explain dark matter in a more general theory following this quantum formalism.
翻訳日:2024-02-01 18:06:58 公開日:2024-01-31
# マルチユーザ量子ネットワークにおける絡み合いの連続分布に対する性能指標

Performance metrics for the continuous distribution of entanglement in multi-user quantum networks ( http://arxiv.org/abs/2307.01406v2 )

ライセンス: Link先を確認
\'Alvaro G. I\~nesta and Stephanie Wehner(参考訳) 遠方のノード間で共有される絡み合った状態は、量子ネットワークアプリケーションで頻繁に使用される。 量子リソースが豊富な場合、絡み合った状態はネットワーク全体に継続的に分散され、ノードが必要に応じてそれらを消費することができる。 このエンタングルメントの連続分布により、量子ネットワークアプリケーションが連続的に動作し、エンタングル状態が定期的に供給される。 本稿では,エンタングルメントの連続分布のためのプロトコルの定常的性能解析に着目する。 性能指標として,仮想近傍サイズと仮想ノード次数を提案する。 パレート最適性の概念を用いて、多目的最適化問題を定式化し、性能を最大化する。 一例として、木トポロジーを持つ量子ネットワークの問題を解く。 我々の分析から得られた主な結論の1つは、絡み合いの消費率は、忠実度要求よりもプロトコルの性能に大きな影響を及ぼすということである。 本論文で確立した指標は,大規模量子ネットワークにおける絡み合い分散プロトコルの実現可能性を評価するのに有用である。

Entangled states shared among distant nodes are frequently used in quantum network applications. When quantum resources are abundant, entangled states can be continuously distributed across the network, allowing nodes to consume them whenever necessary. This continuous distribution of entanglement enables quantum network applications to operate continuously while being regularly supplied with entangled states. Here, we focus on the steady-state performance analysis of protocols for continuous distribution of entanglement. We propose the virtual neighborhood size and the virtual node degree as performance metrics. We utilize the concept of Pareto optimality to formulate a multi-objective optimization problem to maximize the performance. As an example, we solve the problem for a quantum network with a tree topology. One of the main conclusions from our analysis is that the entanglement consumption rate has a greater impact on the protocol performance than the fidelity requirements. The metrics that we establish in this manuscript can be utilized to assess the feasibility of entanglement distribution protocols for large-scale quantum networks.
翻訳日:2024-02-01 18:06:42 公開日:2024-01-31
# 自己監督音声モデルは単語について何を知っているか?

What Do Self-Supervised Speech Models Know About Words? ( http://arxiv.org/abs/2307.00162v3 )

ライセンス: Link先を確認
Ankita Pasad, Chung-Ming Chien, Shane Settle, Karen Livescu(参考訳) 多くの自己教師型音声モデル(S3M)がここ数年で導入され、様々な音声タスクの性能とデータ効率が向上した。 しかし、これらの経験的な成功だけでは、事前トレーニング中に学んだことの完全な図は示されていない。 最近の研究は、音声情報や話者情報などの特定の特性をS3Mでエンコードする方法を分析し始めたが、それでも、単語レベルでエンコードされた知識の適切な理解は欠如している。 本研究では,S3Mで符号化された単語識別,境界,発音,構文的特徴,意味的特徴などセグメントレベルの言語特性を研究するために,軽量な解析手法を用いる。 我々は,10 s3msの層別表現の比較研究を行い,それを見出す。 (i)各単語セグメント内のフレームレベルの表現は、すべて等しく情報的ではなく、 (ii)事前学習目標とモデルサイズは,レイヤ間の言語情報のアクセシビリティと分布に大きく影響する。 また、いくつかのタスク -- 単語の識別、単語分割、意味文の類似性 -- では、視覚的な接頭辞で訓練されたs3msが、音声のみのタスクよりも優れていることも分かりました。 最後に,タスクベース分析により,従来の作業よりも単純な手法を用いて,単語分割と音響単語識別の性能が向上することを示す。

Many self-supervised speech models (S3Ms) have been introduced over the last few years, improving performance and data efficiency on various speech tasks. However, these empirical successes alone do not give a complete picture of what is learned during pre-training. Recent work has begun analyzing how S3Ms encode certain properties, such as phonetic and speaker information, but we still lack a proper understanding of knowledge encoded at the word level and beyond. In this work, we use lightweight analysis methods to study segment-level linguistic properties -- word identity, boundaries, pronunciation, syntactic features, and semantic features -- encoded in S3Ms. We present a comparative study of layer-wise representations from ten S3Ms and find that (i) the frame-level representations within each word segment are not all equally informative, and (ii) the pre-training objective and model size heavily influence the accessibility and distribution of linguistic information across layers. We also find that on several tasks -- word discrimination, word segmentation, and semantic sentence similarity -- S3Ms trained with visual grounding outperform their speech-only counterparts. Finally, our task-based analyses demonstrate improved performance on word segmentation and acoustic word discrimination while using simpler methods than prior work.
翻訳日:2024-02-01 18:06:26 公開日:2024-01-31
# ゼロ膨張・ロングテール走行需要予測のための時空間ツイーディモデルによる不確実性定量化

Uncertainty Quantification via Spatial-Temporal Tweedie Model for Zero-inflated and Long-tail Travel Demand Prediction ( http://arxiv.org/abs/2306.09882v2 )

ライセンス: Link先を確認
Xinke Jiang, Dingyi Zhuang, Xianghui Zhang, Hao Chen, Jiayuan Luo, Xiaowei Gao(参考訳) O-D(Origin-Destination)旅行需要の理解は交通管理に不可欠である。 しかし、従来の時空間深層学習モデルは、高分解能O-D行列のスパース特性と長テール特性に対処し、予測の不確かさを定量化する。 このジレンマは、決定論的深層学習モデルに固有のガウス的仮定に挑戦する、多くのゼロと過分散需要パターンから生じる。 これらの課題に対処するため,時空間Tweedie Graph Neural Network (STTD) という新しいアプローチを提案する。 STTDは、従来の「ゼロインフレード」モデルの代替としてツイーディ分布を導入し、空間的および時間的埋め込みを利用して旅行需要分布をパラメータ化している。 実世界のデータセットを用いた評価では、特に高分解能シナリオにおいて、正確な予測と正確な信頼区間を提供することにおいて、sttdが優れていることを強調する。

Understanding Origin-Destination (O-D) travel demand is crucial for transportation management. However, traditional spatial-temporal deep learning models grapple with addressing the sparse and long-tail characteristics in high-resolution O-D matrices and quantifying prediction uncertainty. This dilemma arises from the numerous zeros and over-dispersed demand patterns within these matrices, which challenge the Gaussian assumption inherent to deterministic deep learning models. To address these challenges, we propose a novel approach: the Spatial-Temporal Tweedie Graph Neural Network (STTD). The STTD introduces the Tweedie distribution as a compelling alternative to the traditional 'zero-inflated' model and leverages spatial and temporal embeddings to parameterize travel demand distributions. Our evaluations using real-world datasets highlight STTD's superiority in providing accurate predictions and precise confidence intervals, particularly in high-resolution scenarios.
翻訳日:2024-02-01 18:06:05 公開日:2024-01-31
# GMS-3DQA:3次元モデル品質評価のための投影型グリッドミニパッチサンプリング

GMS-3DQA: Projection-based Grid Mini-patch Sampling for 3D Model Quality Assessment ( http://arxiv.org/abs/2306.05658v2 )

ライセンス: Link先を確認
Zicheng Zhang, Wei Sun, Houning Wu, Yingjie Zhou, Chunyi Li, Xiongkuo Min, Guangtao Zhai, Weisi Lin(参考訳) 現在,ほとんどの3次元モデル品質評価手法は性能向上を目的としている。 しかし,実用的応用に必要な計算コストや推論時間にはほとんど注意が払われていない。 モデルに基づく3DQA法は,その複雑さを特徴とする3Dモデルから直接特徴を抽出する。 その結果,多くの研究者が投影型3DQA手法の活用に傾いている。 それにもかかわらず、従来のプロジェクションベースの3DQA手法は、複数のプロジェクションから特徴を直接抽出し、品質予測の精度を保証する。 そこで本稿では,Non-Reference (NR) プロジェクションベースの \textit{\underline{G}rid \underline{M}ini-patch \underline{S}ampling \underline{3D} Model \underline{Q}uality \underline{A}ssessment (GMS-3DQA)} 法を提案する。 投影画像は3次元モデルの垂直な6つの視点から描画され、十分な品質情報をカバーする。 冗長性と推論資源を低減するため,マルチプロジェクションからグリッドミニパッチをサンプリングし,サンプルグリッドミニパッチを1つの品質ミニパッチマップ(QMM)に形成するマルチプロジェクショングリッドミニパッチサンプリング戦略(MP-GMS)を提案する。 Swin-Transformerの小さなバックボーンはQMMから品質を認識した特徴を抽出するために使われる。 実験の結果,提案したGMS-3DQAは,ポイントクラウド品質評価データベース上で,既存のNR-3DQA手法よりも優れていることがわかった。 効率分析により,提案したGMS-3DQAは,他の3DQA競合よりも計算資源と推論時間をはるかに少なくすることがわかった。 コードはhttps://github.com/zzc-1998/GMS-3DQAで入手できる。

Nowadays, most 3D model quality assessment (3DQA) methods have been aimed at improving performance. However, little attention has been paid to the computational cost and inference time required for practical applications. Model-based 3DQA methods extract features directly from the 3D models, which are characterized by their high degree of complexity. As a result, many researchers are inclined towards utilizing projection-based 3DQA methods. Nevertheless, previous projection-based 3DQA methods directly extract features from multi-projections to ensure quality prediction accuracy, which calls for more resource consumption and inevitably leads to inefficiency. Thus in this paper, we address this challenge by proposing a no-reference (NR) projection-based \textit{\underline{G}rid \underline{M}ini-patch \underline{S}ampling \underline{3D} Model \underline{Q}uality \underline{A}ssessment (GMS-3DQA)} method. The projection images are rendered from six perpendicular viewpoints of the 3D model to cover sufficient quality information. To reduce redundancy and inference resources, we propose a multi-projection grid mini-patch sampling strategy (MP-GMS), which samples grid mini-patches from the multi-projections and forms the sampled grid mini-patches into one quality mini-patch map (QMM). The Swin-Transformer tiny backbone is then used to extract quality-aware features from the QMMs. The experimental results show that the proposed GMS-3DQA outperforms existing state-of-the-art NR-3DQA methods on the point cloud quality assessment databases. The efficiency analysis reveals that the proposed GMS-3DQA requires far less computational resources and inference time than other 3DQA competitors. The code will be available at https://github.com/zzc-1998/GMS-3DQA.
翻訳日:2024-02-01 18:05:47 公開日:2024-01-31
# APPLS: 平易な言語要約のための評価指標の評価

APPLS: Evaluating Evaluation Metrics for Plain Language Summarization ( http://arxiv.org/abs/2305.14341v2 )

ライセンス: Link先を確認
Yue Guo, Tal August, Gondy Leroy, Trevor Cohen, Lucy Lu Wang(参考訳) PLS(Plain Language Summarization)のモデルの開発は進んでいるが、評価は依然として課題である。 PLSには専用の評価基準がなく、テキスト生成評価基準の適合性は、関連するユニークな変換(背景説明の追加、専門用語の削除など)のために不明確である。 これらの問題に対処するため,本研究では,PLSの指標評価を目的とした,詳細なメタ評価テストベッドであるAPPLSを提案する。 我々は、plsメトリックが捉えるべき以前の仕事から着想を得た4つの基準に沿って一連の摂動を定義する: 情報性、単純化、一貫性、忠実性。 テストベッドを使用したメトリクスの分析では、現在のメトリクスは、シンプルさを継続的に捉えることができません。 PLSにおけるテキストの単純化を評価するために設計された新しい指標であるPOMMEを導入し、ドメイン内モデルとドメイン外モデルとの正規化パープレクティリティ差として算出する。 本稿では,簡易化における細粒度変化とpommeの相関を示し,その感度を4つのテキスト簡易化データセットで検証する。 この研究は、plsのための最初のメタ評価テストベッドと既存のメトリクスの包括的な評価に寄与する。 APPLSテストベッドとPOMMEはhttps://github.com/LinguisticAnomalies/APPLSで入手できる。

While there has been significant development of models for Plain Language Summarization (PLS), evaluation remains a challenge. PLS lacks a dedicated assessment metric, and the suitability of text generation evaluation metrics is unclear due to the unique transformations involved (e.g., adding background explanations, removing specialized terminology). To address these concerns, our study presents a granular meta-evaluation testbed, APPLS, designed to evaluate metrics for PLS. We define a set of perturbations along four criteria inspired by previous work that a PLS metric should capture: informativeness, simplification, coherence, and faithfulness. An analysis of metrics using our testbed reveals that current metrics fail to capture simplification consistently. In response, we introduce POMME, a new metric designed to assess text simplification in PLS; the metric is calculated as the normalized perplexity difference between an in-domain and out-of-domain language model. We demonstrate POMME's correlation with fine-grained variations in simplification and validate its sensitivity across 4 text simplification datasets. This work contributes the first meta-evaluation testbed for PLS and a comprehensive evaluation of existing metrics. The APPLS testbed and POMME is available at https://github.com/LinguisticAnomalies/APPLS.
翻訳日:2024-02-01 18:05:15 公開日:2024-01-31
# $\mu$PLAN: クロスリンガルブリッジとしてのコンテンツプランを用いた要約

$\mu$PLAN: Summarizing using a Content Plan as Cross-Lingual Bridge ( http://arxiv.org/abs/2305.14205v2 )

ライセンス: Link先を確認
Fantine Huot, Joshua Maynez, Chris Alberti, Reinald Kim Amplayo, Priyanka Agrawal, Constanza Fierro, Shashi Narayan, Mirella Lapata(参考訳) 言語間の要約は、異なる言語で入力文書が与えられた1つの言語で要約を生成し、他の言語の話者間で関連コンテンツの拡散を可能にする。 主な課題は、言語間データセットのポーシティと、要約と翻訳の複合的な難しさである。 この研究は、中間計画段階を言語横断橋として利用する言語横断要約へのアプローチである$\mu$PLANを提示する。 我々は,サマリーの内容とコミュニケーションすべき順序をキャプチャするエンティティのシーケンスとしてプランを定式化した。 重要なことは、私たちの計画は表面的な形態から抽象化されている: 多言語知識ベースを使用して、エンティティを言語間の標準的指定に整列し、この言語横断ブリッジと入力に条件付けられた要約を生成する。 XWikisデータセット(4つの言語ペア)における自動的および人的評価は、我々の計画目標が情報性と忠実性の観点から最先端のパフォーマンスを達成することを示す。 さらに$\mu$planモデルは、プランニングコンポーネントのないベースラインと比較して、新しい言語間ペアへのゼロショット転送を改善する。

Cross-lingual summarization consists of generating a summary in one language given an input document in a different language, allowing for the dissemination of relevant content across speakers of other languages. The task is challenging mainly due to the paucity of cross-lingual datasets and the compounded difficulty of summarizing and translating. This work presents $\mu$PLAN, an approach to cross-lingual summarization that uses an intermediate planning step as a cross-lingual bridge. We formulate the plan as a sequence of entities capturing the summary's content and the order in which it should be communicated. Importantly, our plans abstract from surface form: using a multilingual knowledge base, we align entities to their canonical designation across languages and generate the summary conditioned on this cross-lingual bridge and the input. Automatic and human evaluation on the XWikis dataset (across four language pairs) demonstrates that our planning objective achieves state-of-the-art performance in terms of informativeness and faithfulness. Moreover, $\mu$PLAN models improve the zero-shot transfer to new cross-lingual language pairs compared to baselines without a planning component.
翻訳日:2024-02-01 18:04:52 公開日:2024-01-31
# カード:時系列予測のためのチャネルアラインロバストブレンド変圧器

CARD: Channel Aligned Robust Blend Transformer for Time Series Forecasting ( http://arxiv.org/abs/2305.12095v4 )

ライセンス: Link先を確認
Wang Xue, Tian Zhou, Qingsong Wen, Jinyang Gao, Bolin Ding, Rong Jin(参考訳) 最近の研究では、時系列予測のための変圧器モデルの大きなパワーが実証されている。 トランスフォーマーの成功に繋がる重要な要素の1つは、トレーニングの堅牢性を改善するためのチャネル非依存(CI)戦略である。 しかし、CIにおける異なるチャネル間の相関の無知は、モデルの予測能力を制限する。 本研究では,CI型変圧器の時系列予測における欠点に対処する特殊変換器,すなわち,bf R}obust Blen{\bf d} 変圧器(略してCARD)を設計する。 まずcardでは,信号間の時間的相関と,複数の変数間の時間的依存性の両方をキャプチャ可能なチャネルアライメントアテンション構造を導入している。 第2に,マルチスケールの知識を効率的に活用するために,異なる解像度のトークンを生成するトークンブレンドモジュールを設計する。 第3に, 時系列予測のためのロバストな損失関数を導入して, 潜在過充足問題を緩和する。 この新しい損失関数は、予測の不確実性に基づく有限地平線上の予測の重要性を強調する。 複数の長期・短期予測データセットの評価は,CARDが最先端の時系列予測手法よりも優れていることを示す。 コードは以下の匿名リポジトリで入手できる。 \url{https://anonymous.4open.science/r/card-6eec}

Recent studies have demonstrated the great power of Transformer models for time series forecasting. One of the key elements that lead to the transformer's success is the channel-independent (CI) strategy to improve the training robustness. However, the ignorance of the correlation among different channels in CI would limit the model's forecasting capacity. In this work, we design a special Transformer, i.e., {\bf C}hannel {\bf A}ligned {\bf R}obust Blen{\bf d} Transformer (CARD for short), that addresses key shortcomings of CI type Transformer in time series forecasting. First, CARD introduces a channel-aligned attention structure that allows it to capture both temporal correlations among signals and dynamical dependence among multiple variables over time. Second, in order to efficiently utilize the multi-scale knowledge, we design a token blend module to generate tokens with different resolutions. Third, we introduce a robust loss function for time series forecasting to alleviate the potential overfitting issue. This new loss function weights the importance of forecasting over a finite horizon based on prediction uncertainties. Our evaluation of multiple long-term and short-term forecasting datasets demonstrates that CARD significantly outperforms state-of-the-art time series forecasting methods. The code is available at the following anonymous repository: \url{https://anonymous.4open.science/r/CARD-6EEC}
翻訳日:2024-02-01 18:04:32 公開日:2024-01-31
# Text2NeRF:ニューラルラジアンスフィールドを用いたテキスト駆動3次元シーン生成

Text2NeRF: Text-Driven 3D Scene Generation with Neural Radiance Fields ( http://arxiv.org/abs/2305.11588v2 )

ライセンス: Link先を確認
Jingbo Zhang, Xiaoyu Li, Ziyu Wan, Can Wang, and Jing Liao(参考訳) テキスト駆動の3dシーン生成は、ビデオゲーム、映画産業、そして3dシーンに対する大きな需要を持つメタバースアプリケーションに適用できる。 しかし、既存のtext-to-3d生成法は、現実性に欠ける単純なジオメトリや夢のようなスタイルを持つ3dオブジェクトの生成に限定されている。 本稿では,テキストプロンプトから,複雑な幾何学的構造と高精細なテクスチャを持つ広い範囲の3dシーンを生成できるtext2nerfを提案する。 そこで我々は,NeRFを3次元表現として採用し,事前学習したテキスト・画像拡散モデルを用いて,NeRFの3次元再構成を制約し,シーン記述を反映する。 具体的には,テキスト関連画像を内容先として推定するために拡散モデルを用い,幾何学的先行を提供するために単眼深度推定法を用いる。 コンテンツと幾何学的事前情報の両方を用いてNeRFモデルを更新する。 異なる視点間のテクスチャと幾何学的一貫性を保証するため,新たな視点合成のためのプログレッシブ・シーンのインペインティングと更新戦略を提案する。 本手法は,追加の訓練データを必要としないが,入力としてシーンの自然言語記述のみを必要とする。 我々のText2NeRFは、さまざまな自然言語プロンプトからフォトリアリスティック、マルチビュー、多様な3Dシーンを生成する既存の手法よりも優れています。 私たちのコードはhttps://github.com/eckertzhang/text2nerfで利用可能です。

Text-driven 3D scene generation is widely applicable to video gaming, film industry, and metaverse applications that have a large demand for 3D scenes. However, existing text-to-3D generation methods are limited to producing 3D objects with simple geometries and dreamlike styles that lack realism. In this work, we present Text2NeRF, which is able to generate a wide range of 3D scenes with complicated geometric structures and high-fidelity textures purely from a text prompt. To this end, we adopt NeRF as the 3D representation and leverage a pre-trained text-to-image diffusion model to constrain the 3D reconstruction of the NeRF to reflect the scene description. Specifically, we employ the diffusion model to infer the text-related image as the content prior and use a monocular depth estimation method to offer the geometric prior. Both content and geometric priors are utilized to update the NeRF model. To guarantee textured and geometric consistency between different views, we introduce a progressive scene inpainting and updating strategy for novel view synthesis of the scene. Our method requires no additional training data but only a natural language description of the scene as the input. Extensive experiments demonstrate that our Text2NeRF outperforms existing methods in producing photo-realistic, multi-view consistent, and diverse 3D scenes from a variety of natural language prompts. Our code is available at https://github.com/eckertzhang/Text2NeRF.
翻訳日:2024-02-01 18:04:07 公開日:2024-01-31
# ディラックの自由場の量子論の作用素

Operators of quantum theory of Dirac's free field ( http://arxiv.org/abs/2304.12182v7 )

ライセンス: Link先を確認
Ion I. Cotaescu(参考訳) 自由ディラックの質量フェルミオンの量子論は、新しい保存されたスピン作用素とその対応する位置を中心に、長い間プリースによって提案され、最近は新しいスピン対称性と適切なスペクトル表現の助けを借りて再定義された。 【私】 I. Cot\u{a}escu, Eur. Phys J.C (2022) 82:1073。 このアプローチは、受動モードにおける作用素の作用を定義し、モードスピノルの代わりに運動量表現において粒子と反粒子波スピノルに直接作用する一対の積分作用素の構成表現における任意の積分作用素に関連付ける。 この枠組みは、一粒子作用素の大きな集合に物理的意味を与える効果的な量子化手順を、イソメトリ生成器、パウリ・ルバンスキーおよび位置演算子または他のスピン型作用素のスピンおよび軌道部分として与えることができる。 粒子と反粒子のセクタを混合するオペレーターには特に注意が払われる。 通常の座標演算子を含むこのタイプの主作用素は、ここで初めて導出される。 その結果, これらの観測装置は, zitterbewegung や spin dynamics を使わずに一様に移動する一粒子の波動束を準備・検出し, 一般相対論的にも非相対論的波束として広く分布することが分かった。

The quantum theory of free Dirac's massive fermions is reconstructed around the new conserved spin operator and its corresponding position one proposed initially by Pryce long time ago and re-defined recently with the help of a new spin symmetry and suitable spectral representations. [I. I. Cot\u{a}escu, Eur. Phys. J. C (2022) 82:1073]. This approach is generalized here defining the operator action in passive mode, associating to any integral operator in configuration representation a pair of integral operators acting directly on particle and antiparticle wave spinors in momentum representation instead on the mode spinors. This framework allows an effective quantization procedure giving a large set of one-particle operators with physical meaning as the spin and orbital parts of the isometry generators, the Pauli-Lubanski and position operators or other spin-type operators proposed so far. A special attention is paid to the operators which mix the particle and antiparticle sectors whose off-diagonal associated operators have oscillating terms producing zitterbevegung. The principal operators of this type including the usual coordinate operator are derived here for the first time. As an application, it is shown that an apparatus measuring these new observables may prepare and detect one-particle wave-packets moving uniformly without zitterbewegung or spin dynamics, spreading in time normally as any other relativistic even non-relativistic wave-packet.
翻訳日:2024-02-01 18:03:16 公開日:2024-01-31
# 等角不確かさ伝播を用いた協調的多物体追跡

Collaborative Multi-Object Tracking with Conformal Uncertainty Propagation ( http://arxiv.org/abs/2303.14346v2 )

ライセンス: Link先を確認
Sanbao Su, Songyang Han, Yiming Li, Zhili Zhang, Chen Feng, Caiwen Ding, Fei Miao(参考訳) オブジェクト検出と複数のオブジェクト追跡(mot)は、自動運転システムの必須コンポーネントである。 正確な検出と不確かさの定量化は、自動運転車の安全性と堅牢性を改善するために、知覚、予測、計画といったオンボードモジュールにおいて重要である。 協調物体検出(COD)は,複数エージェントの視点を利用して,検出精度の向上と不確実性を低減するために提案されている。 しかし,MOT性能を向上させるため,CODの不確実性定量化の活用にはほとんど注意が払われていない。 本稿では,この課題に対処する最初の試みとして,MOT-CUPと呼ばれる不確実性伝播フレームワークを設計する。 まず, 直接モデリングと共形予測を通じてcodの不確かさを定量化し, この不確実性情報を運動予測および関連ステップに伝播する。 MOT-CUPは、異なる協調オブジェクト検出器とベースラインMOTアルゴリズムで動作するように設計されている。 総合的なコラボレーティブ知覚データセットであるv2x-sim上でのmot-cupを評価し,精度が2%向上し,不確実性が2.67倍低減することを示した。 高い閉塞レベルを特徴とするシナリオでは、MOT-CUPは4.01\%の精度向上を示す。 MOT-CUPはCODとMOTの両方において不確実性定量化の重要性を示し、不確実性伝播を通じてCODに基づくMOTの精度を改善し、不確実性を低減するための最初の試みである。 私たちのコードはhttps://coperception.github.io/MOT-CUP/で公開されています。

Object detection and multiple object tracking (MOT) are essential components of self-driving systems. Accurate detection and uncertainty quantification are both critical for onboard modules, such as perception, prediction, and planning, to improve the safety and robustness of autonomous vehicles. Collaborative object detection (COD) has been proposed to improve detection accuracy and reduce uncertainty by leveraging the viewpoints of multiple agents. However, little attention has been paid to how to leverage the uncertainty quantification from COD to enhance MOT performance. In this paper, as the first attempt to address this challenge, we design an uncertainty propagation framework called MOT-CUP. Our framework first quantifies the uncertainty of COD through direct modeling and conformal prediction, and propagates this uncertainty information into the motion prediction and association steps. MOT-CUP is designed to work with different collaborative object detectors and baseline MOT algorithms. We evaluate MOT-CUP on V2X-Sim, a comprehensive collaborative perception dataset, and demonstrate a 2% improvement in accuracy and a 2.67X reduction in uncertainty compared to the baselines, e.g. SORT and ByteTrack. In scenarios characterized by high occlusion levels, our MOT-CUP demonstrates a noteworthy $4.01\%$ improvement in accuracy. MOT-CUP demonstrates the importance of uncertainty quantification in both COD and MOT, and provides the first attempt to improve the accuracy and reduce the uncertainty in MOT based on COD through uncertainty propagation. Our code is public on https://coperception.github.io/MOT-CUP/.
翻訳日:2024-02-01 18:02:42 公開日:2024-01-31
# 汚染データを用いた教師なし異常検出のための汎用機械学習フレームワーク

A Generic Machine Learning Framework for Fully-Unsupervised Anomaly Detection with Contaminated Data ( http://arxiv.org/abs/2308.13352v3 )

ライセンス: Link先を確認
Markus Ulmer, Jannik Zgraggen, and Lilach Goren Huber(参考訳) 異常検出(AD)タスクは、さまざまなドメインやアプリケーションで機械学習アルゴリズムを用いて解決されている。 これらのアルゴリズムの大部分は、正規データを使用して残差ベースモデルをトレーニングし、学習された正規状態と相違点に基づいて異常スコアを未確認サンプルに割り当てる。 これらのアプローチの基本的な前提は、異常のないデータがトレーニングに利用できることだ。 しかし、実際の運用環境では、トレーニングデータが未知の異常サンプルの一部で汚染される場合が多い。 汚染データによるトレーニングは、必然的に残差ベースアルゴリズムのAD性能を低下させる。 本稿では,ADタスクに対する汚染されたトレーニングデータの完全教師なし改善のためのフレームワークを提案する。 フレームワークは汎用的であり、残差ベースの機械学習モデルに適用することができる。 本稿では,異なるアプリケーション分野からの時系列マシンデータの2つの公開データセットへのフレームワークの適用を実演する。 本研究は, 改質を伴わない汚染データを用いた簡易な訓練法よりも明らかに優れていることを示す。 さらに、異常のないデータがトレーニングに利用できる理想的で非現実的な参照と比較する。 この方法は、与えられたモデルの一般化能力に対する個々のサンプルの寄与を評価し、正常なサンプルとの異常の寄与を対比するものである。 その結果、提案手法は通常のサンプルのみによるトレーニングに匹敵し、しばしば優れる。

Anomaly detection (AD) tasks have been solved using machine learning algorithms in various domains and applications. The great majority of these algorithms use normal data to train a residual-based model and assign anomaly scores to unseen samples based on their dissimilarity with the learned normal regime. The underlying assumption of these approaches is that anomaly-free data is available for training. This is, however, often not the case in real-world operational settings, where the training data may be contaminated with an unknown fraction of abnormal samples. Training with contaminated data, in turn, inevitably leads to a deteriorated AD performance of the residual-based algorithms. In this paper we introduce a framework for a fully unsupervised refinement of contaminated training data for AD tasks. The framework is generic and can be applied to any residual-based machine learning model. We demonstrate the application of the framework to two public datasets of multivariate time series machine data from different application fields. We show its clear superiority over the naive approach of training with contaminated data without refinement. Moreover, we compare it to the ideal, unrealistic reference in which anomaly-free data would be available for training. The method is based on evaluating the contribution of individual samples to the generalization ability of a given model, and contrasting the contribution of anomalies with the one of normal samples. As a result, the proposed approach is comparable to, and often outperforms training with normal samples only.
翻訳日:2024-02-01 17:56:23 公開日:2024-01-31
# Try with Simpler -- ログベース異常検出における主成分分析の改善の評価

Try with Simpler -- An Evaluation of Improved Principal Component Analysis in Log-based Anomaly Detection ( http://arxiv.org/abs/2308.12612v2 )

ライセンス: Link先を確認
Lin Yang, Junjie Chen, Shutao Gao, Zhihao Gong, Hongyu Zhang, Yue Kang, Huaan Li(参考訳) ディープラーニング(dl)の急速な成長は、ログベースの異常検出の強化への関心を高めた。 本手法は,ログイベント(ログメッセージテンプレート)から意味を抽出し,異常検出のための高度なDLモデルを開発することを目的とする。 しかし、これらのDL手法は、モデルの複雑さにより、トレーニングデータ、ラベル、計算資源に大きく依存するなどの課題に直面している。 対照的に、従来の機械学習やデータマイニング技術は、DLよりもデータ依存が少なく、効率も良くない。 ログベースの異常検出をより実用的なものにするため、dlの有効性にマッチする従来のテクニックを強化することが目標だ。 異なるドメイン(Stack Overflowにリンクする)における以前の研究は、最適化された従来のテクニックが最先端のDLメソッドと競合する可能性があることを示唆している。 この概念からインスピレーションを得て、実証的研究を行った。 従来の手法である教師なしPCA(Principal Component Analysis)を,軽量なセマンティックなログ表現を取り入れて最適化した。 これは、トレーニングデータの未発見のログイベントの問題に対処し、ログ表現を強化する。 本研究は,4つのDLベース,2つの従来手法,およびパブリックデータセットと産業データセットを用いた最適化PCA手法を含む,ログベースの異常検出手法を比較した。 その結果, 高度教師付き/半教師付きDL手法と, 限られた訓練データと資源効率でより安定でありながら, 最適化された教師なしPCA手法が類似した効果を達成できることが示唆された。 これは、小さなが影響のある適応を通じて、従来のテクニックの適応性と強みを示しています。

The rapid growth of deep learning (DL) has spurred interest in enhancing log-based anomaly detection. This approach aims to extract meaning from log events (log message templates) and develop advanced DL models for anomaly detection. However, these DL methods face challenges like heavy reliance on training data, labels, and computational resources due to model complexity. In contrast, traditional machine learning and data mining techniques are less data-dependent and more efficient but less effective than DL. To make log-based anomaly detection more practical, the goal is to enhance traditional techniques to match DL's effectiveness. Previous research in a different domain (linking questions on Stack Overflow) suggests that optimized traditional techniques can rival state-of-the-art DL methods. Drawing inspiration from this concept, we conducted an empirical study. We optimized the unsupervised PCA (Principal Component Analysis), a traditional technique, by incorporating lightweight semantic-based log representation. This addresses the issue of unseen log events in training data, enhancing log representation. Our study compared seven log-based anomaly detection methods, including four DL-based, two traditional, and the optimized PCA technique, using public and industrial datasets. Results indicate that the optimized unsupervised PCA technique achieves similar effectiveness to advanced supervised/semi-supervised DL methods while being more stable with limited training data and resource-efficient. This demonstrates the adaptability and strength of traditional techniques through small yet impactful adaptations.
翻訳日:2024-02-01 17:56:03 公開日:2024-01-31
# 生涯多エージェント経路探索のための交通流最適化

Traffic Flow Optimisation for Lifelong Multi-Agent Path Finding ( http://arxiv.org/abs/2308.11234v5 )

ライセンス: Link先を確認
Zhe Chen, Daniel Harabor, Jiaoyang Li, Peter J. Stuckey(参考訳) Multi-Agent Path Finding (MAPF)は、ロボット工学の基本的問題であり、エージェントのチームが衝突のない経路を計算し、全員が共有マップを横切るように要求する。 この話題には多くの研究があるが、エージェントの数が増えるにつれて、現在のアルゴリズムはすべて苦労している。 主な理由は、既存のアプローチが通常、渋滞を引き起こす自由フロー最適経路を計画しているからである。 この問題に対処するために,エージェントが渋滞回避経路に従って目的地に誘導されるMAPFの新しいアプローチを提案する。 各エージェントが1つの宛先を持つワンショットMAPFと、エージェントが常に新しい宛先を割り当てる終身MAPFの2つの大規模設定でこのアイデアを評価する。 実験では,ワンショートMAPFのソリューション品質と,生涯にわたるMAPFのスループットに大きな改善が報告された。

Multi-Agent Path Finding (MAPF) is a fundamental problem in robotics that asks us to compute collision-free paths for a team of agents, all moving across a shared map. Although many works appear on this topic, all current algorithms struggle as the number of agents grows. The principal reason is that existing approaches typically plan free-flow optimal paths, which creates congestion. To tackle this issue, we propose a new approach for MAPF where agents are guided to their destination by following congestion-avoiding paths. We evaluate the idea in two large-scale settings: one-shot MAPF, where each agent has a single destination, and lifelong MAPF, where agents are continuously assigned new destinations. Empirically, we report large improvements in solution quality for one-short MAPF and in overall throughput for lifelong MAPF.
翻訳日:2024-02-01 17:55:40 公開日:2024-01-31
# ConcatPlexer: より高速なViTのための追加のDim1バッチ

ConcatPlexer: Additional Dim1 Batching for Faster ViTs ( http://arxiv.org/abs/2308.11199v2 )

ライセンス: Link先を確認
Donghoon Han, Seunghyeon Seo, Donghyeon Jeon, Jiho Jang, Chaerin Kong and Nojun Kwak(参考訳) トランスフォーマーは自然言語処理(nlp)の領域だけでなく、コンピュータビジョンの分野においても大きな成功を収め、様々な創造的なアプローチや応用を無視している。 しかし、トランスフォーマの優れた性能とモデリングの柔軟性は計算コストの大幅な増加をもたらしたため、この負担を軽減する方法がいくつか提案されている。 データ多重化(data multiplexing, datamux)という言語モデルで当初提案されていたコスト削減手法に触発されて,dim1バッチ(すなわち結合)を付加し,精度を損なうことなくスループットを大幅に向上させる効率的な視覚認識のための新しい手法を提案する。 まず,視覚モデルに対するdatamuxのナイーブな適応,イメージ多重化,その弱点を克服するための新しいコンポーネントの考案,最終モデルであるconcatplexerを推論速度と精度の中間のスイートスポットに配置する。 ConcatPlexerはImageNet1KとCIFAR100データセットでトレーニングされ、それぞれ69.5%と83.4%の精度でVT-B/16よりも23.5%少ないGFLOPを達成した。

Transformers have demonstrated tremendous success not only in the natural language processing (NLP) domain but also the field of computer vision, igniting various creative approaches and applications. Yet, the superior performance and modeling flexibility of transformers came with a severe increase in computation costs, and hence several works have proposed methods to reduce this burden. Inspired by a cost-cutting method originally proposed for language models, Data Multiplexing (DataMUX), we propose a novel approach for efficient visual recognition that employs additional dim1 batching (i.e., concatenation) that greatly improves the throughput with little compromise in the accuracy. We first introduce a naive adaptation of DataMux for vision models, Image Multiplexer, and devise novel components to overcome its weaknesses, rendering our final model, ConcatPlexer, at the sweet spot between inference speed and accuracy. The ConcatPlexer was trained on ImageNet1K and CIFAR100 dataset and it achieved 23.5% less GFLOPs than ViT-B/16 with 69.5% and 83.4% validation accuracy, respectively.
翻訳日:2024-02-01 17:55:24 公開日:2024-01-31
# 20msのダイヤモンド量子メモリにおけるゲルマニウム空孔

Germanium Vacancy in Diamond Quantum Memory Exceeding 20 ms ( http://arxiv.org/abs/2308.09666v3 )

ライセンス: Link先を確認
Katharina Senkalla, Genko Genov, Mathias H. Metsch, Petr Siyushev, and Fedor Jelezko(参考訳) ダイヤモンド中の負電荷のgroup-iv欠陥は、効率的なスピン光子界面のため量子ネットワークノードとして大きなポテンシャルを示す。 しかし、十分に長いコヒーレンス時間に達することは依然として困難である。 本研究では、ミリケルビン温度におけるゲルマニウム空洞中心(GeV)のコヒーレント制御を実証し、そのコヒーレンス時間を数桁程度20msまで拡張し、Ornstein-Uhlenbeckプロセスとして磁気ノイズと振幅ノイズをモデル化し、実験結果を再現する。 各種実験条件におけるグループIV欠陥のコヒーレンス時間最適化法とその量子技術への応用

Negatively charged group-IV defects in diamond show great potential as quantum network nodes due to their efficient spin-photon interface. However, reaching sufficiently long coherence times remains a challenge. In this work, we demonstrate coherent control of germanium vacancy center (GeV) at millikelvin temperatures and extend its coherence time by several orders of magnitude to more than 20 ms. We model the magnetic and amplitude noise as an Ornstein-Uhlenbeck process, reproducing the experimental results well. The utilized method paves the way to optimized coherence times of group-IV defects in various experimental conditions and their successful applications in quantum technologies
翻訳日:2024-02-01 17:54:59 公開日:2024-01-31
# BSED: ベースラインシェープ型説明可能な検出器

BSED: Baseline Shapley-Based Explainable Detector ( http://arxiv.org/abs/2308.07490v2 )

ライセンス: Link先を確認
Michihiro Kuroki, Toshihiko Yamasaki(参考訳) 説明可能な人工知能(xai)は、学習モデルの予測に関連する画像の特徴を強調するためにサリエンシーマップが使用されるなど、オブジェクト認識の分野で大きな進歩を遂げている。 これらの進歩により、AIベースのテクノロジーは人間にとってより解釈可能になったが、いくつかの問題が明らかになった。 いくつかのアプローチは予測とは無関係な説明を示し、xai (axioms) の有効性を保証することができない。 本研究では,shapley値から物体検出まで拡張し,解釈の有効性を高めるためのベースラインであるshapley-based explanationable detector (bsed)を提案する。 Shapley値は、学習したモデルの予測を、説明可能性公理を満足しながらベースライン特徴とみなすことができる。 BSEDの処理コストは妥当範囲内であり、元のShapley値は計算コストが禁じられている。 さらに、BSEDはモデルに依存しない方法で様々な検出器に適用できる一般化可能な手法であり、パラメータの微粒化を伴わずに様々な検出対象を解釈できる。 これらの強みは、XAIの実践的適用を可能にする。 本稿では,既存手法と定量的,定性的な比較を行い,提案手法の優れた性能を説明妥当性の観点から示す。 さらに,本手法の解説に基づいて検出を補正するなど,いくつかの応用を提案する。

Explainable artificial intelligence (XAI) has witnessed significant advances in the field of object recognition, with saliency maps being used to highlight image features relevant to the predictions of learned models. Although these advances have made AI-based technology more interpretable to humans, several issues have come to light. Some approaches present explanations irrelevant to predictions, and cannot guarantee the validity of XAI (axioms). In this study, we propose the Baseline Shapley-based Explainable Detector (BSED), which extends the Shapley value to object detection, thereby enhancing the validity of interpretation. The Shapley value can attribute the prediction of a learned model to a baseline feature while satisfying the explainability axioms. The processing cost for the BSED is within the reasonable range, while the original Shapley value is prohibitively computationally expensive. Furthermore, BSED is a generalizable method that can be applied to various detectors in a model-agnostic manner, and interpret various detection targets without fine-grained parameter tuning. These strengths can enable the practical applicability of XAI. We present quantitative and qualitative comparisons with existing methods to demonstrate the superior performance of our method in terms of explanation validity. Moreover, we present some applications, such as correcting detection based on explanations from our method.
翻訳日:2024-02-01 17:54:47 公開日:2024-01-31
# lindblad以外の量子ビットダイナミクス:非マルコフ性と回転波近似

Qubit Dynamics beyond Lindblad: Non-Markovianity versus Rotating Wave Approximation ( http://arxiv.org/abs/2308.06029v3 )

ライセンス: Link先を確認
Kiyoto Nakamura, Joachim Ankerhold(参考訳) 実際の量子ビットデバイスの性能が向上するにつれて、量子ビットと環境自由度の間の相互作用の微妙な効果が徐々に関連し、実験的に見えるようになる。 これは特に、従来のリンドブラッド・マスター方程式(LE: Lindblad master equation)、マルコフ近似(Markov approximation)と回転波近似(RWA:Roing Wave approximation)という、キュービット演算に最もよく使用される数値シミュレーションプラットフォームの基礎となる時間スケールの分離に適用される。 この貢献で私たちは質問に光を当てた (i)これらの時間スケール分離のいずれの違反を実験的に監視できる程度 (ii)関連するパラメータ範囲における(近似)数値スキーム内の高精度な予測を提供するのに最も厳しいものはどれか。 そこで本研究では, 還元密度行列の3つのシミュレーション手法と, 漸進的に増加する精度を比較した。 特に,オーミックとサブオーミックのスペクトル密度を持つ貯水池の存在下での量子ビット系の緩和と非一貫性の予測を探究し,ラムゼー実験に基づく適切なプロトコルを用いて,非マルコビアン性とrwaの役割を明らかにした。 今後の実験への可能性や、近似的かつ正確な数値的アプローチの設計について論じる。

With increasing performance of actual qubit devices, even subtle effects in the interaction between qubits and environmental degrees of freedom become progressively relevant and experimentally visible. This applies particularly to the timescale separations that are at the basis of the most commonly used numerical simulation platform for qubit operations, namely, the conventional Lindblad master equation (LE): the Markov approximation and the rotating wave approximation (RWA). In this contribution we shed light on the questions (i) to which extent it is possible to monitor violations of either of these timescale separations experimentally and (ii) which of them is the most severe to provide highly accurate predictions within (approximate) numerical schemes in relevant parameter ranges. For this purpose, we compare three simulation methods for the reduced density matrix with progressively growing accuracy. In particular, predictions for relaxation and decoherence of a qubit system in the presence of reservoirs with Ohmic and sub-Ohmic spectral densities are explored and, with the aid of proper protocols based on Ramsey experiments, the role of non-Markovianity and RWA are revealed. We discuss potential implications for future experiments and the design of approximate yet accurate numerical approaches.
翻訳日:2024-02-01 17:54:26 公開日:2024-01-31
# 驚きを超えて:サプライズ・ノベルティによる探索の改善

Beyond Surprise: Improving Exploration Through Surprise Novelty ( http://arxiv.org/abs/2308.04836v2 )

ライセンス: Link先を確認
Hung Le, Kien Do, Dung Nguyen, Svetha Venkatesh(参考訳) 我々は,既存のサプライズ駆動探索の限界に対処する強化学習における内在的な報酬のための新しい計算モデルを提案する。 報酬は驚きの規範というよりも、驚きの斬新さです。 本稿では,サプライズを記憶ネットワークの検索エラーとして推定し,サプライズを記憶・再構成する。 我々のサプライズメモリ(SM)は、サプライズベースの固有のモチベーターの能力を増強し、エージェントのエキサイティングな探索への関心を維持しながら、望ましくないアトラクションを予測不可能またはノイズの多い観測に還元する。 実験の結果,SMと各種のサプライズ予測器を組み合わせることで,探索行動の効率が向上し,ノイズTV,ナビゲーション,アタリゲームなどの粗末な報奨環境における最終性能が著しく向上することがわかった。

We present a new computing model for intrinsic rewards in reinforcement learning that addresses the limitations of existing surprise-driven explorations. The reward is the novelty of the surprise rather than the surprise norm. We estimate the surprise novelty as retrieval errors of a memory network wherein the memory stores and reconstructs surprises. Our surprise memory (SM) augments the capability of surprise-based intrinsic motivators, maintaining the agent's interest in exciting exploration while reducing unwanted attraction to unpredictable or noisy observations. Our experiments demonstrate that the SM combined with various surprise predictors exhibits efficient exploring behaviors and significantly boosts the final performance in sparse reward environments, including Noisy-TV, navigation and challenging Atari games.
翻訳日:2024-02-01 17:54:03 公開日:2024-01-31
# 駆動量子ビットの最終状態を制御するために初期位相を調整する

Tuning the initial phase to control the final state of a driven qubit ( http://arxiv.org/abs/2308.03571v2 )

ライセンス: Link先を確認
Polina Kofman, Sergey Shevchenko, Franco Nori(参考訳) 駆動量子系はランダウ・ツェナー=シュタッケルベルク=マヨラナ(LZSM)の遷移を、それぞれのエネルギーレベルが準交差するときに経験することができる。 この準交叉が周期的な駆動下で繰り返し横切られた場合、軌道は構成的にも破壊的にも干渉することができる。 トンネルのコヒーレント破壊として知られる後者の場合、エネルギー状態間の遷移が抑制される。 二重通過の場合においても、累積相差(スタッケルベルク相とも呼ばれる)は破壊的な干渉を引き起こし、遷移は起こらない。 本稿では,single-passage dynamicsにおける同様のプロセスについて述べる。 重畳状態から始まるLZSMシングルパス問題について検討する。 この初期状態の位相差は干渉をもたらす。 これがゼロまたは単位遷移確率のどちらかをもたらすと、そのような状況は目標状態における単一パス完全局在化と呼ばれる。 この位相は、遷移後の占有確率が変化しないよう選択できるが、これは遷移のない運転の問題に類似している。 量子コヒーレント制御において,システムのパラメータ(走行速度,初期フェーズ,初期デチューニング)がいかに変化するかを示す。

A driven quantum system can experience Landau-Zener-Stuckelberg-Majorana (LZSM) transitions between its states, when the respective energy levels quasi-cross. If this quasicrossing is traversed repeatedly under periodic driving, the trajectories can interfere either constructively or destructively. In the latter case, known as coherent destruction of tunneling, the transition between the energy states is suppressed. Even for the double-passage case, the accumulated phase difference (also referred to as the Stuckelberg phase) can lead to destructive interference, resulting in no transition. In this paper, we discuss a similar process for the single-passage dynamics. We study the LZSM single-passage problem starting from a superposition state. The phase difference of this initial state results in interference. When this results in either a zero or a unit transition probability, such a situation can be called single-passage complete localization in a target state. The phase can be chosen so that the occupation probabilities do not change after the transition, which is analogous to the problem of transitionless driving. We demonstrate how varying the system parameters (driving velocity, initial phase, initial detuning) can be used for quantum coherent control.
翻訳日:2024-02-01 17:52:48 公開日:2024-01-31
# 認知的トランスフューザ: 意味論的誘導型トランスフォーマーを用いたセンサフュージョン

Cognitive TransFuser: Semantics-guided Transformer-based Sensor Fusion for Improved Waypoint Prediction ( http://arxiv.org/abs/2308.02126v2 )

ライセンス: Link先を確認
Hwan-Soo Choi, Jongoh Jeong, Young Hoo Cho, Kuk-Jin Yoon, and Jong-Hwan Kim(参考訳) インテリジェントな自動運転エージェントのためのセンサー融合アプローチは、入力センサーから取得した視覚的なグローバルコンテキストを考えると、シーン理解の鍵である。 特に、ローカルな waypoint 予測タスクでは、シングルモダリティネットワークは入力センサの感度に強く依存しているため、近年の研究では、機能レベルでの融合における複数のセンサの使用が促進されている。 複数のデータモダリティが相互コンテキスト交換を促進することはよく知られているが、実際の運転シナリオに展開する際には最小限の計算量でリアルタイムにグローバルな3Dシーン理解が必要である。 本報では,目的とするタスク(例えば,交通信号の認識やセマンティックセグメンテーション)と高い相関性を持つ,慎重に選択された補助タスクを,補助タスクの特徴を融合させ,模倣学習に基づくウェイポイント予測に補助ヘッドを用いる。 我々のRGB-LIDARベースのマルチタスク機能融合ネットワークであるCognitive TransFuserは、CARLAシミュレータにおいてより安全で完全な道路ナビゲーションのために、ベースラインネットワークを大幅に拡張し、超える。 提案したネットワークをCown05 Short と Town05 Long Benchmarkで広範囲な実験により検証し,44.2 FPSのリアルタイム推論時間を実現する。

Sensor fusion approaches for intelligent self-driving agents remain key to driving scene understanding given visual global contexts acquired from input sensors. Specifically, for the local waypoint prediction task, single-modality networks are still limited by strong dependency on the sensitivity of the input sensor, and thus recent works therefore promote the use of multiple sensors in fusion in feature level in practice. While it is well known that multiple data modalities encourage mutual contextual exchange, it requires global 3D scene understanding in real-time with minimal computation upon deployment to practical driving scenarios, thereby placing greater significance on the training strategy given a limited number of practically usable sensors. In this light, we exploit carefully selected auxiliary tasks that are highly correlated with the target task of interest (e.g., traffic light recognition and semantic segmentation) by fusing auxiliary task features and also using auxiliary heads for waypoint prediction based on imitation learning. Our RGB-LIDAR-based multi-task feature fusion network, coined Cognitive TransFuser, augments and exceeds the baseline network by a significant margin for safer and more complete road navigation in the CARLA simulator. We validate the proposed network on the Town05 Short and Town05 Long Benchmark through extensive experiments, achieving up to 44.2 FPS real-time inference time.
翻訳日:2024-02-01 17:52:01 公開日:2024-01-31
# 因果推定評価のためのRCTリジェクションサンプリング

RCT Rejection Sampling for Causal Estimation Evaluation ( http://arxiv.org/abs/2307.15176v3 )

ライセンス: Link先を確認
Katherine A. Keith, Sergey Feldman, David Jurgens, Jonathan Bragg, Rohit Bhattacharya(参考訳) コンバウンディングは観測データから因果効果の偏りのない推定に重要な障害となる。 テキストデータやゲノミクス,行動社会科学といった,高次元の共変量設定では,機械学習手法を因果推定の目標に適応させることで,共変量を調整する方法が提案されている。 しかし、これらの調整方法の実証的な評価は困難で制限されている。 本研究では,評価設計を単純化し,実データを使用する有望な実証的評価戦略を構築する。rcts(subsampling randomized controlled trials)は,rctsの平均的因果効果を基盤として使用しながら,複合的な観測データセットを作成する。 提案手法は, RCT拒絶サンプリングと呼ばれる新しいサンプリングアルゴリズムに寄与し, 観測データに因果同定が保持されていることを理論的に保証し, 基幹RCTとの比較を可能にする。 合成データを用いて,本アルゴリズムは,従来提案されていたアルゴリズムでは必ずしもそうではないような,既成のサンプルに対してオラクル推定器を評価した場合のバイアスが小さくなることを示す。 この識別結果に加えて, RCT のリジェクションサンプリングを自身のデータセットで使用することを計画している評価設計者に対して, 有限データ考慮点をいくつか挙げる。 概念実証として、サンプル評価パイプラインを実装し、これらの有限データの考察を、約70kの観測とテキストデータを高次元の共変量として公開する、新しい実世界のrctで検討する。 これらの貢献は、因果推定に対する経験的評価を改善するという、より広いアジェンダに向かっている。

Confounding is a significant obstacle to unbiased estimation of causal effects from observational data. For settings with high-dimensional covariates -- such as text data, genomics, or the behavioral social sciences -- researchers have proposed methods to adjust for confounding by adapting machine learning methods to the goal of causal estimation. However, empirical evaluation of these adjustment methods has been challenging and limited. In this work, we build on a promising empirical evaluation strategy that simplifies evaluation design and uses real data: subsampling randomized controlled trials (RCTs) to create confounded observational datasets while using the average causal effects from the RCTs as ground-truth. We contribute a new sampling algorithm, which we call RCT rejection sampling, and provide theoretical guarantees that causal identification holds in the observational data to allow for valid comparisons to the ground-truth RCT. Using synthetic data, we show our algorithm indeed results in low bias when oracle estimators are evaluated on the confounded samples, which is not always the case for a previously proposed algorithm. In addition to this identification result, we highlight several finite data considerations for evaluation designers who plan to use RCT rejection sampling on their own datasets. As a proof of concept, we implement an example evaluation pipeline and walk through these finite data considerations with a novel, real-world RCT -- which we release publicly -- consisting of approximately 70k observations and text data as high-dimensional covariates. Together, these contributions build towards a broader agenda of improved empirical evaluation for causal estimation.
翻訳日:2024-02-01 17:51:35 公開日:2024-01-31
# 歯科用点雲の変分自動符号化

Variational Autoencoding of Dental Point Clouds ( http://arxiv.org/abs/2307.10895v3 )

ライセンス: Link先を確認
Johan Ziruo Ye, Thomas {\O}rkild, Peter Lempel S{\o}ndergaard, S{\o}ren Hauberg(参考訳) デジタル歯科は大きな進歩を遂げているが、多くの課題が残っている。 本稿では歯のメッシュと点雲の広範なコレクションであるFDI 16データセットを紹介する。 さらに, 点雲用に設計された完全確率的変分オートエンコーダである変分FoldingNet (VF-Net) を提案する。 特に、点雲に対する先行潜伏変数モデルは、入力点と出力点の間の1対1対応を欠いている。 代わりに、正規化された分布の対応式を欠いた計量であるシャムファー距離の最適化に頼り、確率的モデリングには適さない。 チャンファー距離の明示的な最小化を適切なエンコーダに置き換え、確率的拡張を簡素化しながら計算効率を向上する。 これにより、メッシュ生成、形状補完、表現学習など、さまざまなタスクに簡単な適用が可能になる。 経験的に, 歯の再構築や補間における再構成誤差が低く, 有意な潜在表現を同定しながら, 歯のサンプル生成における術中性能を示す。

Digital dentistry has made significant advancements, yet numerous challenges remain. This paper introduces the FDI 16 dataset, an extensive collection of tooth meshes and point clouds. Additionally, we present a novel approach: Variational FoldingNet (VF-Net), a fully probabilistic variational autoencoder designed for point clouds. Notably, prior latent variable models for point clouds lack a one-to-one correspondence between input and output points. Instead, they rely on optimizing Chamfer distances, a metric that lacks a normalized distributional counterpart, rendering it unsuitable for probabilistic modeling. We replace the explicit minimization of Chamfer distances with a suitable encoder, increasing computational efficiency while simplifying the probabilistic extension. This allows for straightforward application in various tasks, including mesh generation, shape completion, and representation learning. Empirically, we provide evidence of lower reconstruction error in dental reconstruction and interpolation, showcasing state-of-the-art performance in dental sample generation while identifying valuable latent representations.
翻訳日:2024-02-01 17:50:47 公開日:2024-01-31
# GEAR: 汎用的で効率的なツール解決による言語モデルの拡張

GEAR: Augmenting Language Models with Generalizable and Efficient Tool Resolution ( http://arxiv.org/abs/2307.08775v2 )

ライセンス: Link先を確認
Yining Lu and Haoping Yu and Daniel Khashabi(参考訳) 外部ツールを使用するための大型言語モデル(llm)の拡張は、さまざまなタスクにおけるパフォーマンスを向上させる。 しかしながら、タスク固有のツール使用のデモでは、大規模LLMへのコールが多すぎるため、その一般化性と計算コストが制限される。 GEARは,タスク固有の実演に頼らず,ツールの使用を必要とする様々なタスクに一般化可能な,計算効率のよいクエリツールグラウンドアルゴリズムである。 GEARは、ツール接地と実行をそれぞれ小言語モデル(SLM)とLLMに委譲し、質問レベルと回答レベルのセマンティックとパターンベースの評価を活用して、一般化可能なツール接地を実現する。 6つのダウンストリームタスクにまたがる14のデータセット上でギアを評価し,新しいタスクやツール,slmの汎用性を示す。 効率性は高いが、GEAR は LLM プロンプトを用いた以前の戦略に比べてツール接地精度が向上し、計算コストの削減により下流の精度が向上する。 例えば,gear-augmented gpt-j と gpt-3 がツール-augmented ベースラインよりも優れたツール使用率を示す。

Augmenting large language models (LLM) to use external tools enhances their performance across a variety of tasks. However, prior works over-rely on task-specific demonstration of tool use that limits their generalizability and computational cost due to making many calls to large-scale LLMs. We introduce GEAR, a computationally efficient query-tool grounding algorithm that is generalizable to various tasks that require tool use while not relying on task-specific demonstrations. GEAR achieves better efficiency by delegating tool grounding and execution to small language models (SLM) and LLM, respectively; while leveraging semantic and pattern-based evaluation at both question and answer levels for generalizable tool grounding. We evaluate GEAR on 14 datasets across 6 downstream tasks, demonstrating its strong generalizability to novel tasks, tools and different SLMs. Despite offering more efficiency, GEAR achieves higher precision in tool grounding compared to prior strategies using LLM prompting, thus improving downstream accuracy at a reduced computational cost. For example, we demonstrate that GEAR-augmented GPT-J and GPT-3 outperform counterpart tool-augmented baselines because of better tool use.
翻訳日:2024-02-01 17:50:28 公開日:2024-01-31
# max-$k$-cut問題に対する量子回路の確率論的テンソル最適化

Probabilistic tensor optimization of quantum circuits for the max-$k$-cut problem ( http://arxiv.org/abs/2310.10360v2 )

ライセンス: Link先を確認
G. V. Paradezhenko, A. A. Pervishko, D. Yudin(参考訳) 本稿では,確率的テンソルサンプリング最適化に基づく変分量子アルゴリズムのパラメータ化回路の最適化手法を提案する。 この方法では、変動パラメータの初期推定を生成するためにランダム初期化問題やヒューリスティックスを緩和することができ、局所最小化を避けるために使用できる。 本稿では,量子近似最適化アルゴリズム (qaoa) の例として,量子ビット数に効率的なバイナリエンコーディングに基づく最大$k$-cut問題に適用する手法を提案する。 本稿では,従来の最適化手法と比較して,QAOA回路の最適変動パラメータを求める手法の利点について論じる。

We propose a technique for optimizing parameterized circuits in variational quantum algorithms based on the probabilistic tensor sampling optimization. This method allows one to relax random initialization issues or heuristics for generating initial guess of variational parameters, and can be used to avoid local minima. We illustrate our approach on the example of the quantum approximate optimization algorithm (QAOA) applied to the max-$k$-cut problem based on the binary encoding efficient in the number of qubits. We discuss the advantages of our technique for searching optimal variational parameters of QAOA circuits in comparison to classical optimization methods.
翻訳日:2024-02-01 17:42:43 公開日:2024-01-31
# 大言語と視覚言語モデルを用いた横断障害のある環境におけるインタラクティブナビゲーション

Interactive Navigation in Environments with Traversable Obstacles Using Large Language and Vision-Language Models ( http://arxiv.org/abs/2310.08873v2 )

ライセンス: Link先を確認
Zhen Zhang, Anran Lin, Chun Wai Wong, Xiangyu Chu, Qi Dou, and K. W. Samuel Au(参考訳) 本稿では,大規模言語モデルと視覚言語モデルを用いた対話型ナビゲーションフレームワークを提案する。 我々は,大規模言語モデル (GPT-3.5) とオープンセットのビジョン言語モデル (Grounding DINO) を用いて,アクション対応のコストマップを作成し,微調整なしで効果的な経路計画を行う。 大規模モデルでは,「薬を私に届けるためにカーテンを通すことができるか?」というテキスト指示から,アクションアウェア属性のバウンディングボックス(例えばカーテン)まで,エンドツーエンドシステムを実現することができる。 それらはLiDARの点雲を2つの部分に分けられる: トラバース可能と非トラバース可能の2つの部分、そして、実行可能なパスを生成するためにアクション対応のコストマップを構築する。 事前訓練された大きなモデルは、高度な一般化能力を持ち、トレーニングのために追加の注釈付きデータを必要としないため、インタラクティブなナビゲーションタスクの迅速な展開が可能になる。 我々は,カーテンや草などの複数のトラバータブルオブジェクトを使用して,ロボットにトラバースを指示することで検証を行う。 さらに、医療シナリオでカーテンを横切るテストも行われた。 すべての実験結果から,提案手法の有効性と多様な環境への適応性が示された。

This paper proposes an interactive navigation framework by using large language and vision-language models, allowing robots to navigate in environments with traversable obstacles. We utilize the large language model (GPT-3.5) and the open-set Vision-language Model (Grounding DINO) to create an action-aware costmap to perform effective path planning without fine-tuning. With the large models, we can achieve an end-to-end system from textual instructions like "Can you pass through the curtains to deliver medicines to me?", to bounding boxes (e.g., curtains) with action-aware attributes. They can be used to segment LiDAR point clouds into two parts: traversable and untraversable parts, and then an action-aware costmap is constructed for generating a feasible path. The pre-trained large models have great generalization ability and do not require additional annotated data for training, allowing fast deployment in the interactive navigation tasks. We choose to use multiple traversable objects such as curtains and grasses for verification by instructing the robot to traverse them. Besides, traversing curtains in a medical scenario was tested. All experimental results demonstrated the proposed framework's effectiveness and adaptability to diverse environments.
翻訳日:2024-02-01 17:42:32 公開日:2024-01-31
# エバネッセント粒子とunruh-dewitt検出器の相互作用

Interaction of evanescent particles with an Unruh-DeWitt detector ( http://arxiv.org/abs/2310.06716v2 )

ライセンス: Link先を確認
Daniele Colosi (ENES-Morelia-UNAM), Robert Oeckl (CCM-UNAM), Adamantia Zampeli (ICTQT)(参考訳) 我々は,最近導入された巨大なスカラー場のエバネッセント粒子がunruh-dewitt検出器によって放出・吸収されることを実証する。 その際、粒子は、通常の伝播する粒子と非常に類似した方法で、量子化されたエネルギー量を検出器から運び出すか、沈殿させる。 粒子の伝播と対照的に、エネルギーの量は磁場の質量よりも少ないが、それでも正である。 本研究は, プロパゲート粒子とエバネッセント粒子の両方を含む検出器発光スペクトル, 発光確率, 吸収確率について検討した。

We demonstrate that the recently introduced evanescent particles of a massive scalar field can be emitted and absorbed by an Unruh-DeWitt detector. In doing so the particles carry away from or deposit on the detector a quantized amount of energy, in a manner quite analogous to ordinary propagating particles. In contradistinction to propagating particles the amount of energy is less than the mass of the field, but still positive. We develop relevant methods and provide a study of the detector emission spectrum, emission probability and absorption probability involving both propagating and evanescent particles.
翻訳日:2024-02-01 17:42:10 公開日:2024-01-31
# 自己教師型音声と言語モデルは人間の脳と同様の表現を抽出するか?

Do self-supervised speech and language models extract similar representations as human brain? ( http://arxiv.org/abs/2310.04645v2 )

ライセンス: Link先を確認
Peili Chen, Linyang He, Li Fu, Lu Fan, Edward F. Chang, Yuanning Li(参考訳) 自己教師付き学習(SSL)によって訓練された音声と言語モデルは、音声と言語知覚の間の脳活動と強い整合性を示す。 しかし、異なるトレーニングのモダリティを考えると、それらが同じ神経的側面と相関しているかどうかは不明だ。 本稿では,2つの代表的なSSLモデルであるWav2Vec2.0とGPT-2の脳波予測性能を評価することで,この問題を直接解決する。 以上の結果から,両モデルとも聴覚野の発話応答を正確に予測し,脳の予測に有意な相関を示した。 特に、Wav2Vec2.0 と GPT-2 間の音声コンテキスト情報の共有は、静的意味情報と低レベル音響音声情報を上回る、説明された脳活動のばらつきの大部分を占める。 これらの結果は、SSLモデルにおける音声文脈表現の収束と、その基盤となる音声知覚との整合性を強調し、SSLモデルと音声および言語処理のニューラルネットワークに関する貴重な洞察を提供する。

Speech and language models trained through self-supervised learning (SSL) demonstrate strong alignment with brain activity during speech and language perception. However, given their distinct training modalities, it remains unclear whether they correlate with the same neural aspects. We directly address this question by evaluating the brain prediction performance of two representative SSL models, Wav2Vec2.0 and GPT-2, designed for speech and language tasks. Our findings reveal that both models accurately predict speech responses in the auditory cortex, with a significant correlation between their brain predictions. Notably, shared speech contextual information between Wav2Vec2.0 and GPT-2 accounts for the majority of explained variance in brain activity, surpassing static semantic and lower-level acoustic-phonetic information. These results underscore the convergence of speech contextual representations in SSL models and their alignment with the neural network underlying speech perception, offering valuable insights into both SSL models and the neural basis of speech and language processing.
翻訳日:2024-02-01 17:41:59 公開日:2024-01-31
# 腫瘍, 研究室, 種間のドメイン一般化 -mitosis domain generalization challenge 2022年版より-

Domain generalization across tumor types, laboratories, and species -- insights from the 2022 edition of the Mitosis Domain Generalization Challenge ( http://arxiv.org/abs/2309.15589v2 )

ライセンス: Link先を確認
Marc Aubreville, Nikolas Stathonikos, Taryn A. Donovan, Robert Klopfleisch, Jonathan Ganz, Jonas Ammeling, Frauke Wilm, Mitko Veta, Samir Jabari, Markus Eckstein, Jonas Annuscheit, Christian Krumnow, Engin Bozaba, Sercan Cayir, Hongyan Gu, Xiang 'Anthony' Chen, Mostafa Jahanifar, Adam Shephard, Satoshi Kondo, Satoshi Kasai, Sujatha Kotte, VG Saipradeep, Maxime W. Lafarge, Viktor H. Koelzer, Ziyue Wang, Yongbing Zhang, Sen Yang, Xiyue Wang, Katharina Breininger, Christof A. Bertram(参考訳) 病理組織学的腫瘍標本における有糸分裂像の認識は患者の予後評価に極めて関連している。 この課題は、画像表現のシフトによるアルゴリズム性能の低下とともに、アルゴリズムや人間の専門家にとっても困難である。 異なる腫瘍タイプで評価を行う場合、異なるデジタル化装置を用いて画像を取得する場合、または異なる実験室で標本を作成する場合、かなりの共変量シフトが発生する。 この観察は、2022年のミトーシス領域一般化(MIDOG 2022)の発端となった。 この課題は、6つの異なるドメインの組織学的腫瘍像を注釈し、10つの独立したドメインの9人のチャレンジ参加者による有糸分裂型人物検出のためのアルゴリズム的アプローチを評価した。 3つの専門的なコンセンサスと、独立した免疫組織化学によるラベルセットの2つの方法が確立された。 この研究は、課題タスク、参加者が採用するアルゴリズム戦略、そしてその成功に寄与する潜在的な要因の概要を示している。 トップパフォーマンスチームのF_1$スコアは0.764で、今日のディープラーニングベースの認識パイプラインでは、さまざまな腫瘍ドメインにわたるドメインの一般化が可能であることを要約します。 しかし,訓練セットに存在しない領域特性(新種としてのネコ,新形態としてのスピンドル細胞形状,新しいスキャナ)が小さかったが,性能は著しく低下した。 免疫組織化学補助基準に対して評価すると、すべての方法がリコールスコアを低下させたが、ランキングの参加者の順にわずかな変化しかなかった。

Recognition of mitotic figures in histologic tumor specimens is highly relevant to patient outcome assessment. This task is challenging for algorithms and human experts alike, with deterioration of algorithmic performance under shifts in image representations. Considerable covariate shifts occur when assessment is performed on different tumor types, images are acquired using different digitization devices, or specimens are produced in different laboratories. This observation motivated the inception of the 2022 challenge on MItosis Domain Generalization (MIDOG 2022). The challenge provided annotated histologic tumor images from six different domains and evaluated the algorithmic approaches for mitotic figure detection provided by nine challenge participants on ten independent domains. Ground truth for mitotic figure detection was established in two ways: a three-expert consensus and an independent, immunohistochemistry-assisted set of labels. This work represents an overview of the challenge tasks, the algorithmic strategies employed by the participants, and potential factors contributing to their success. With an $F_1$ score of 0.764 for the top-performing team, we summarize that domain generalization across various tumor domains is possible with today's deep learning-based recognition pipelines. However, we also found that domain characteristics not present in the training set (feline as new species, spindle cell shape as new morphology and a new scanner) led to small but significant decreases in performance. When assessed against the immunohistochemistry-assisted reference standard, all methods resulted in reduced recall scores, but with only minor changes in the order of participants in the ranking.
翻訳日:2024-02-01 17:41:42 公開日:2024-01-31
# 連想変換器

Associative Transformer ( http://arxiv.org/abs/2309.12862v3 )

ライセンス: Link先を確認
Yuwei Sun, Hideya Ochiai, Zhirong Wu, Stephen Lin, Ryota Kanai(参考訳) 従来のトランスフォーマーの対の注意から、生物学的脳の局所的、文脈的学習とより緊密に連携するスパース注意機構への関心が高まっている。 コーディネーション法のような既存の研究では、入力の疎結合を可能にするためにボトルネックを伴う反復的なクロスアテンション機構を採用している。 しかし、これらのメソッドはパラメータ非効率であり、より複雑な関係推論タスクでは失敗する。 そこで本稿では,AiT (Associative Transformer) を提案する。AiT (Associative Transformer) は,疎結合な入力パッチ間の関連性を高め,パラメータ効率と関係推論タスクの性能を向上させる。 AiTは学習可能な明示的なメモリを活用しており、様々な局所的な特徴の抽出を容易にするためにボトルネックの注意を払っている。 さらに,ホップフィールドエネルギー関数を用いた新しい連想メモリ対応パッチ再構成を提案する。 aitの3つの異なるサイズを持つ4つの画像分類タスクにおける広範囲な実験は、aitが視覚トランスフォーマーや広い範囲のスパーストランスフォーマーよりもはるかに少ないパラメータと注意層を必要とすることを示している。 さらに、AiTは、Solt-of-CLEVRデータセットで新しいSOTAパフォーマンスを確立し、以前のコーディネーション手法より優れている。

Emerging from the pairwise attention in conventional Transformers, there is a growing interest in sparse attention mechanisms that align more closely with localized, contextual learning in the biological brain. Existing studies such as the Coordination method employ iterative cross-attention mechanisms with a bottleneck to enable the sparse association of inputs. However, these methods are parameter inefficient and fail in more complex relational reasoning tasks. To this end, we propose Associative Transformer (AiT) to enhance the association among sparsely attended input patches, improving parameter efficiency and performance in relational reasoning tasks. AiT leverages a learnable explicit memory, comprised of various specialized priors, with a bottleneck attention to facilitate the extraction of diverse localized features. Moreover, we propose a novel associative memory-enabled patch reconstruction with a Hopfield energy function. The extensive experiments in four image classification tasks with three different sizes of AiT demonstrate that AiT requires significantly fewer parameters and attention layers while outperforming Vision Transformers and a broad range of sparse Transformers. Additionally, AiT establishes new SOTA performance in the Sort-of-CLEVR dataset, outperforming the previous Coordination method.
翻訳日:2024-02-01 17:40:50 公開日:2024-01-31
# 偏光に基づく角速度測定のための循環弱値距離法

Polarization-based cyclic weak value metrology for angular velocity measurement ( http://arxiv.org/abs/2309.11041v2 )

ライセンス: Link先を確認
Zi-Rui Zhong and Yue Chen and Wei-Jun Tan and Xiang-Ming Hu and Qing-Lin Wu(参考訳) 弱測定は、選択後の低い確率でほとんどの光子を捨てながら、メートルの変化の検出を増幅することが証明されている。 従来の電力リサイクル方式では、失敗した後光子の繰り返し選択が可能であり、非効率な後選択を克服し、検出精度を向上する。 本研究では, 偏光による弱値角速度測定に着目し, ガウシアンビームの時間変化検出精度を高めるための3つの循環法, 電力リサイクル, 信号リサイクル, 二重リサイクル方式を提案する。 1つまたは2つの部分透過ミラーをシステムに組み込むことで、検出された光のパワーと信号対雑音比(SNR)が大幅に向上する。 非偏光方式と比較して、偏光に基づくアプローチは、より低い光損失、一意な巡回方向、より広い最適領域など、いくつかの利点をもたらす。 これらの特徴は、異なる光路間のクロストークを効果的に低減し、理論的にウォークオフ効果を排除し、理論的性能と応用性の両方の改善をもたらす。

Weak measurement has been proven to amplify the detection of changes in meters while discarding most photons due to the low probability of post-selection. Previous power-recycling schemes enable the failed post-selection photons to be repeatedly selected, thus overcoming the inefficient post-selection and increasing the precision of detection. In this study, we focus on the polarization-based weak value angular-velocity measurement and introduce three cyclic methods to enhance the accuracy of detecting time shift in a Gaussian beam: power recycling, signal recycling, and dual recycling schemes. By incorporating one or two partially transmitting mirrors into the system, both the power and signal-to-noise ratio (SNR) of the detected light are substantially enhanced. Compared to non-polarization schemes, polarization-based approaches offer several advantages, including lower optical loss, unique cyclic directions, and a wider optimal region. These features effectively reduce crosstalk among different light paths and theoretically eliminate the walk-off effect, thus yielding improvements in both theoretical performance and application.
翻訳日:2024-02-01 17:40:27 公開日:2024-01-31
# PLVS:ポイント,ライン,ボリュームマッピング,3次元インクリメンタルセグメンテーションを備えたSLAMシステム

PLVS: A SLAM System with Points, Lines, Volumetric Mapping, and 3D Incremental Segmentation ( http://arxiv.org/abs/2309.10896v2 )

ライセンス: Link先を確認
Luigi Freda(参考訳) 本論文では,スパースSLAM,ボリュームマッピング,非教師なしインクリメンタルセグメンテーションを利用したリアルタイムシステムPLVSについて述べる。 PLVS は Points, Lines, Volumetric Mapping, Segmentation の略である。 RGB-Dとステレオカメラをサポートしており、オプションでIMUを搭載している。 SLAMモジュールはキーフレームベースで、スパースポイントとラインセグメントを機能として抽出し追跡する。 ボリュームマッピングはSLAMフロントエンドに対して並列に実行され、キーフレームからバックプロジェクションされた点雲を融合することにより、探索された環境の3次元再構築を生成する。 PLVSには様々なボリュームマッピング方法がサポートされている。 バンドル調整ラインセグメントに新しい再投影エラーを用いる。 この誤差は利用可能な深度情報を利用して線分エンドポイントの位置推定を安定化する。 PLVSフレームワークのRGB-Dカメラにインクリメンタルで幾何学的なセグメンテーション手法を実装し,統合する。 PLVSフレームワークの質的,定量的な評価を公開データセット上で行う。 付録では、採用されたステレオ線三角法を詳述し、線誤差項に使用したヤコビアンを導出する。 ソフトウェアはオープンソースとして利用可能である。

This document presents PLVS: a real-time system that leverages sparse SLAM, volumetric mapping, and 3D unsupervised incremental segmentation. PLVS stands for Points, Lines, Volumetric mapping, and Segmentation. It supports RGB-D and Stereo cameras, which may be optionally equipped with IMUs. The SLAM module is keyframe-based, and extracts and tracks sparse points and line segments as features. Volumetric mapping runs in parallel with respect to the SLAM front-end and generates a 3D reconstruction of the explored environment by fusing point clouds backprojected from keyframes. Different volumetric mapping methods are supported and integrated in PLVS. We use a novel reprojection error to bundle-adjust line segments. This error exploits available depth information to stabilize the position estimates of line segment endpoints. An incremental and geometric-based segmentation method is implemented and integrated for RGB-D cameras in the PLVS framework. We present qualitative and quantitative evaluations of the PLVS framework on some publicly available datasets. The appendix details the adopted stereo line triangulation method and provides a derivation of the Jacobians we used for line error terms. The software is available as open-source.
翻訳日:2024-02-01 17:40:07 公開日:2024-01-31
# 単言語または多言語命令チューニング:より優れたalpacaを作る

Monolingual or Multilingual Instruction Tuning: Which Makes a Better Alpaca ( http://arxiv.org/abs/2309.08958v2 )

ライセンス: Link先を確認
Pinzhen Chen, Shaoxiong Ji, Nikolay Bogoychev, Andrey Kutuzov, Barry Haddow, Kenneth Heafield(参考訳) foundational large language model(llms)は、オープンドメインの質問応答を実行するための命令調整が可能であり、チャットアシスタントのようなアプリケーションを促進する。 このような取り組みは単一の言語で行われることが多いが、多言語シナリオのコスト効率戦略を実証的に分析する。 本研究は,alpacaデータセットと機械翻訳を用いて多言語データを作成し,低位適応とフルパラメータトレーニングのどちらでもllmをチューニングする。 制御された計算予算の下では、比較によって、多言語チューニングは各言語に対するモデルのチューニングと同等かそれ以上であることを示している。 さらに、サンプルデータによる多言語チューニングは、強力で堅牢である。 本研究は,指導指導による言語サポート拡大のためのガイドとして機能する。

Foundational large language models (LLMs) can be instruction-tuned to perform open-domain question answering, facilitating applications like chat assistants. While such efforts are often carried out in a single language, we empirically analyze cost-efficient strategies for multilingual scenarios. Our study employs the Alpaca dataset and machine translations of it to form multilingual data, which is then used to tune LLMs through either low-rank adaptation or full-parameter training. Under a controlled computation budget, comparisons show that multilingual tuning is on par or better than tuning a model for each language. Furthermore, multilingual tuning with downsampled data can be as powerful and more robust. Our findings serve as a guide for expanding language support through instruction tuning.
翻訳日:2024-02-01 17:39:47 公開日:2024-01-31
# コントラスト学習における多言語陽性事例の活用による文の埋め込み改善

Leveraging Multi-lingual Positive Instances in Contrastive Learning to Improve Sentence Embedding ( http://arxiv.org/abs/2309.08929v2 )

ライセンス: Link先を確認
Kaiyan Zhao, Qiyu Wu, Xin-Qiang Cai, Yoshimasa Tsuruoka(参考訳) 多言語文の埋め込みを学ぶことは自然言語処理の基本的なタスクである。 単言語文と多言語文の埋め込みを学習する最近のトレンドは、主にアンカーと1つの正のインスタンスと複数の負のインスタンスの対比学習(cl)に基づいている。 本研究では,(1)多様な言語群における正は言語間学習に有用であり,(2)複数の正語間の推移的類似性は,学習に信頼できる構造情報を提供できるため,多言語文埋め込みに複数の正の活用を考慮すべきである。 CLにおける複数陽性の影響を調べるため,MPCLと呼ばれる新しい手法を提案し,複数の正のインスタンスを効果的に活用し,多言語文の埋め込みの学習を改善する。 様々なバックボーンモデルと下流タスクの実験結果から,MPCLは従来のCLと比較して,検索,意味的類似性,分類性能の向上につながることが示された。 また,未熟な言語では,複数の正に訓練された文埋め込みモデルの方が,単一の正のインスタンスで訓練されたモデルよりも言語間伝達性能が良好であることが観察された。

Learning multi-lingual sentence embeddings is a fundamental task in natural language processing. Recent trends in learning both mono-lingual and multi-lingual sentence embeddings are mainly based on contrastive learning (CL) among an anchor, one positive, and multiple negative instances. In this work, we argue that leveraging multiple positives should be considered for multi-lingual sentence embeddings because (1) positives in a diverse set of languages can benefit cross-lingual learning, and (2) transitive similarity across multiple positives can provide reliable structural information for learning. In order to investigate the impact of multiple positives in CL, we propose a novel approach, named MPCL, to effectively utilize multiple positive instances to improve the learning of multi-lingual sentence embeddings. Experimental results on various backbone models and downstream tasks demonstrate that MPCL leads to better retrieval, semantic similarity, and classification performances compared to conventional CL. We also observe that in unseen languages, sentence embedding models trained on multiple positives show better cross-lingual transfer performance than models trained on a single positive instance.
翻訳日:2024-02-01 17:39:35 公開日:2024-01-31
# 深層学習とストリートビューの併用による小規模作物の地図化

Combining Deep Learning and Street View Imagery to Map Smallholder Crop Types ( http://arxiv.org/abs/2309.05930v2 )

ライセンス: Link先を確認
Jordi Laguarta Soler, Thomas Friedel, Sherrie Wang(参考訳) 正確な作物型地図は、大規模生産における収量進捗の監視、地球規模の作物生産の予測、効果的な政策の立案に欠かせない情報源である。 しかしこれまでは、機械学習モデルのトレーニングのための根拠のラベルがないため、低所得国や中所得国では、作物タイプの地図の作成が難しいままだった。 フィールドサーベイは正確性の点では金の標準であるが、時間、お金、統計能力が頻繁に必要である。 近年、Googleストリートビュー、KartaView、Mapillaryなどのストリートレベルの画像が世界中で利用可能になっている。 このような画像には、特定の場所や時代に栽培された作物の種類に関する豊富な情報が含まれている。 本研究では,深層学習とGoogleストリートビュー画像を用いた作物型土壌参照の自動生成システムを開発した。 作物畑を含む一組のストリートビュー画像を効率的にキュレートし、異なる領域外からの弱ラベル画像を利用して作物種を予測し、予測ラベルとリモートセンシング時系列を組み合わせることで、壁から壁までの作物種別地図を作成する。 タイでは,米,キャッサバ,トウモロコシ,サトウキビの全国分布図が93%の精度で得られた。 2022年、タイ全土で最初の作物型地図を10m解像度で公開しました。 私たちの知る限り、スモールホルダーの国で10m解像度のマルチクロップマップが作成されたのはこれが初めてです。 道路沿いの画像が拡大するにつれて、私たちのパイプラインは世界中の作物のタイプを地図化する方法を提供しています。

Accurate crop type maps are an essential source of information for monitoring yield progress at scale, projecting global crop production, and planning effective policies. To date, however, crop type maps remain challenging to create in low and middle-income countries due to a lack of ground truth labels for training machine learning models. Field surveys are the gold standard in terms of accuracy but require an often-prohibitively large amount of time, money, and statistical capacity. In recent years, street-level imagery, such as Google Street View, KartaView, and Mapillary, has become available around the world. Such imagery contains rich information about crop types grown at particular locations and times. In this work, we develop an automated system to generate crop type ground references using deep learning and Google Street View imagery. The method efficiently curates a set of street view images containing crop fields, trains a model to predict crop type by utilizing weakly-labelled images from disparate out-of-domain sources, and combines predicted labels with remote sensing time series to create a wall-to-wall crop type map. We show that, in Thailand, the resulting country-wide map of rice, cassava, maize, and sugarcane achieves an accuracy of 93%. We publicly release the first-ever crop type map for all of Thailand 2022 at 10m-resolution with no gaps. To our knowledge, this is the first time a 10m-resolution, multi-crop map has been created for any smallholder country. As the availability of roadside imagery expands, our pipeline provides a way to map crop types at scale around the globe, especially in underserved smallholder regions.
翻訳日:2024-02-01 17:39:15 公開日:2024-01-31
# 弱い測定相互作用におけるメーター揺らぎの起源

Origin of meter fluctuations in weak measurement interactions ( http://arxiv.org/abs/2309.01932v3 )

ライセンス: Link先を確認
Tomonori Matsushita and Holger F. Hofmann(参考訳) 測定値は、観測可能な対象の値をメートルシフトにマップし、結果として、メートル状態の初期統計と観測対象の量子統計とを組み合わせるメートル読み出しが行われる。 弱い測定相互作用の限界においても、測定相互作用によって引き起こされる読み出し変動の変化から、観測可能な対象の揺らぎに関する情報を抽出することができる。 そこで,このハイゼンベルク像を用いて,測定値応答における非線形性の影響を含む,十分な弱測定相互作用による測定値の読み出し統計量の変化を分析する。 その後のシステム測定で追加情報が得られると、対象の観測可能な後選択された統計に基づいてメーター変動が変化する。 また,測定間相互作用における計測器の動力学にポストセレクション確率が依存することによるメーター変動の直接的変化を解析により明らかにする。 量子フォーマリズムは、この動的項を観測対象の物理的変動と区別することを難しくし、観測対象の実際の条件変動と測定バックアクションに関連する動的擬分散とを区別することの重要性を強調している。

Measurements map the value of a target observable onto a meter shift, resulting in a meter readout that combines the initial statistics of the meter state with the quantum statistics of the target observable. Even in the limit of weak measurement interactions, some information about the fluctuations of the target observable can be extracted from the change in the readout fluctuations caused by the measurement interaction. Here, we apply the Heisenberg picture to analyze the changes in the meter readout statistics caused by sufficiently weak measurement interactions, including the effects of non-linearities in the meter response. When additional information is obtained in a subsequent measurement of the system, the meter fluctuations are modified based on the post-selected statistics of the target observable. In addition, our analysis reveals a direct modification of the meter fluctuations due to the dependence of the post-selection probability on the dynamics induced by the meter in the measurement interaction. We point out that the quantum formalism makes it difficult to distinguish this dynamic term from the physical fluctuations of the target observable and stress the importance of distinguishing between genuine conditional fluctuations of the target observable and the dynamic pseudovariance associated with the measurement back-action.
翻訳日:2024-02-01 17:38:35 公開日:2024-01-31
# 量子超チャネルの実験シミュレーション

Experimental simulation of quantum superchannels ( http://arxiv.org/abs/2308.14262v2 )

ライセンス: Link先を確認
Hang Li, Kai Wang, Shijie Wei, Fan Yang, Xinyu Chen, Barry C. Sanders, Dong-Sheng Wang, and Gui-Lu Long(参考訳) 量子物理過程のシミュレーションは、量子情報科学の主要な動機の1つである。 量子チャネルは完全に正の保存過程であり、量子進化を記述するための標準的な数学的言語であり、近年では量子スーパーチャネルが実質的な拡張として出現している。 超チャネルは量子記憶と非マルコフ性の効果をより正確に捉え、普遍モデル、アルゴリズム、メトロロジー、識別タスクなどに広く応用されている。 本稿では,最近開発されたスーパーチャネルシミュレーションのための量子アルゴリズムに基づいて,核磁気共鳴(nmr)システム内の量子ビットスーパーチャネルを高精度にシミュレーションする。 提案アルゴリズムは任意のターゲット超チャネルに適用し,実験によりNMRシミュレータの短期使用における高品質性を示す。 我々のアプローチは他の実験システムにも適用でき、スーパーチャネルのさらなる応用の可能性を示す。

Simulating quantum physical processes has been one of the major motivations for quantum information science. Quantum channels, which are completely positive and trace preserving processes, are the standard mathematical language to describe quantum evolution, while in recent years quantum superchannels have emerged as the substantial extension. Superchannels capture effects of quantum memory and non-Markovianality more precisely, and have found broad applications in universal models, algorithm, metrology, discrimination tasks, as examples. Here, we report an experimental simulation of qubit superchannels in a nuclear magnetic resonance (NMR) system with high accuracy, based on a recently developed quantum algorithm for superchannel simulation. Our algorithm applies to arbitrary target superchannels, and our experiment shows the high quality of NMR simulators for near-term usage. Our approach can also be adapted to other experimental systems and demonstrates prospects for more applications of superchannels.
翻訳日:2024-02-01 17:38:16 公開日:2024-01-31
# 分離エンハンス:Text2画像拡散モデルのための合成ファインタニング

Separate-and-Enhance: Compositional Finetuning for Text2Image Diffusion Models ( http://arxiv.org/abs/2312.06712v2 )

ライセンス: Link先を確認
Zhipeng Bao and Yijun Li and Krishna Kumar Singh and Yu-Xiong Wang and Martial Hebert(参考訳) 拡散ベースのテキスト・ツー・イメージ(T2I)モデルによって達成された最近の顕著な進歩にもかかわらず、現在のシステムはテキストプロンプト、特にマルチオブジェクト・ジェネレーションの適切な構成生成を保証する能力は依然として低い。 この研究は、注意力の低いアクティベーションスコアとマスクオーバーラップに関連する問題を指摘し、このような不一致の根本的な理由を照らしている。 これまでの研究はこれらの問題に個別に取り組んできたが、総合的なアプローチが最重要であると断言する。 そこで本稿では,物体マスクの重なりを減らし,注目度を最大化する2つの新しい目的,分離損失とエンハンス損失を提案する。 本手法は,従来のテスト時間適応手法と異なり,限界パラメータの微調整に焦点を合わせ,スケーラビリティと一般化性を高める。 総合的な評価は,画像リアリズム,テキスト・画像アライメント,適応性,特に著明なベースラインよりも優れた性能を示す。 本研究は,T2I拡散モデルにおいて,合成能力の向上と適用性の向上を図っている。

Despite recent significant strides achieved by diffusion-based Text-to-Image (T2I) models, current systems are still less capable of ensuring decent compositional generation aligned with text prompts, particularly for the multi-object generation. This work illuminates the fundamental reasons for such misalignment, pinpointing issues related to low attention activation scores and mask overlaps. While previous research efforts have individually tackled these issues, we assert that a holistic approach is paramount. Thus, we propose two novel objectives, the Separate loss and the Enhance loss, that reduce object mask overlaps and maximize attention scores, respectively. Our method diverges from conventional test-time-adaptation techniques, focusing on finetuning critical parameters, which enhances scalability and generalizability. Comprehensive evaluations demonstrate the superior performance of our model in terms of image realism, text-image alignment, and adaptability, notably outperforming prominent baselines. Ultimately, this research paves the way for T2I diffusion models with enhanced compositional capacities and broader applicability.
翻訳日:2024-02-01 17:32:26 公開日:2024-01-31
# ECNR:時変ボリュームデータセットの効率的な圧縮的ニューラル表現

ECNR: Efficient Compressive Neural Representation of Time-Varying Volumetric Datasets ( http://arxiv.org/abs/2311.12831v3 )

ライセンス: Link先を確認
Kaiyuan Tang and Chaoli Wang(参考訳) 概念の単純さと汎用性から、圧縮的ニューラルネットワーク表現は、大規模なボリュームデータセットを管理する従来の圧縮方法に代わる有望な選択肢として現れてきた。 ニューラル圧縮の現在の実践は、単一の大きな多層パーセプトロン(MLP)を使用して、グローバルボリュームを符号化し、遅いトレーニングと推論をもたらす。 本稿では、ラプラシアンピラミッドを用いた適応信号整合法を用いて、時間変化データ圧縮のための効率的な圧縮ニューラル表現(ECNR)ソリューションを提案する。 マルチスケール構造に続き、各スケールで複数の小さなMLPを活用して、局所的な内容や残留ブロックを適合させる。 同様のブロックをサイズ均一化により同一のMLPに割り当てることで、MPP間のバランスの取れた並列化を可能にし、トレーニングと推論を大幅に高速化する。 マルチスケール構造と協調して、結果のモデルをコンパクト化するために、深い圧縮戦略を調整します。 本稿では、ECNRを複数のデータセットで比較し、最先端圧縮法(主にSZ3, TTHRESH, neurcomp)と比較する。 結果はecnrをボリュームデータ圧縮の有望な解として位置づける。

Due to its conceptual simplicity and generality, compressive neural representation has emerged as a promising alternative to traditional compression methods for managing massive volumetric datasets. The current practice of neural compression utilizes a single large multilayer perceptron (MLP) to encode the global volume, incurring slow training and inference. This paper presents an efficient compressive neural representation (ECNR) solution for time-varying data compression, utilizing the Laplacian pyramid for adaptive signal fitting. Following a multiscale structure, we leverage multiple small MLPs at each scale for fitting local content or residual blocks. By assigning similar blocks to the same MLP via size uniformization, we enable balanced parallelization among MLPs to significantly speed up training and inference. Working in concert with the multiscale structure, we tailor a deep compression strategy to compact the resulting model. We show the effectiveness of ECNR with multiple datasets and compare it with state-of-the-art compression methods (mainly SZ3, TTHRESH, and neurcomp). The results position ECNR as a promising solution for volumetric data compression.
翻訳日:2024-02-01 17:32:07 公開日:2024-01-31
# 雑音光素子を用いたフォトニックデバイスシミュレーション

Simulating photonic devices with noisy optical elements ( http://arxiv.org/abs/2311.10613v2 )

ライセンス: Link先を確認
Michele Vischi, Giovanni Di Bartolomeo, Massimiliano Proietti, Seid Koudia, Filippo Cerocchi, Massimiliano Dispenza and Angelo Bassi(参考訳) 量子コンピュータは本質的にノイズによって影響を受ける。 長期的な誤り訂正符号では、物理的な量子ビットを増やすコストでノイズが考慮されるが、近い将来、あらゆる量子アルゴリズムの性能をテストし、ノイズの存在下でシミュレートする必要がある。 ノイズがハードウェアに作用するので、量子アルゴリズムの古典的なシミュレーションは、計算に使用するプラットフォームに依存すべきではない。 本研究では,最近提案するノイズゲート法を適用し,デュアルレール方式で記述されたノイズ光回路を効率的にシミュレートする。 状態ベクトルの進化は、密度行列フレームワークへのマッピングを必要とせずに直接シミュレートされる。 特に,ゲートベースと測定ベースの両方の量子コンピューティングモデルで本手法を検証したところ,アプローチは非常に汎用性が高いことがわかった。 また,max-2カット問題を解くために,フォトニック変分量子アルゴリズムの性能を評価する。 特に、最大$p \sim 10^{-3}$の光子損失に対して弾力性のあるアンサッツを設計し、シミュレートします。

Quantum computers are inherently affected by noise. While in the long-term error correction codes will account for noise at the cost of increasing physical qubits, in the near-term the performance of any quantum algorithm should be tested and simulated in the presence of noise. As noise acts on the hardware, the classical simulation of a quantum algorithm should not be agnostic on the platform used for the computation. In this work, we apply the recently proposed noisy gates approach to efficiently simulate noisy optical circuits described in the dual rail framework. The evolution of the state vector is simulated directly, without requiring the mapping to the density matrix framework. Notably, we test the method on both the gate-based and measurement-based quantum computing models, showing that the approach is very versatile. We also evaluate the performance of a photonic variational quantum algorithm to solve the MAX-2-CUT problem. In particular we design and simulate an ansatz which is resilient to photon losses up to $p \sim 10^{-3}$ making it relevant for near term applications.
翻訳日:2024-02-01 17:31:25 公開日:2024-01-31
# 医用画像のフェデレーション学習におけるプライバシーリスク分析と緩和

Privacy Risks Analysis and Mitigation in Federated Learning for Medical Images ( http://arxiv.org/abs/2311.06643v2 )

ライセンス: Link先を確認
Badhan Chandra Das, M. Hadi Amini, Yanzhao Wu(参考訳) 医療画像分析の分野では, 患者データを保護し, プライバシ規制に従うための効果的な手法として, フェデレートラーニング(FL)が普及している。 しかし、最近のいくつかの研究により、FLのデフォルト設定がプライバシー攻撃の下でプライベートトレーニングデータを漏洩させる可能性があることが明らかになった。 したがって、FLのそのようなプライバシーリスクが医療領域にどの程度存在するのか、また「そのようなリスクを軽減するにはどうすればいいのか? 本稿では,まず,フェデレートラーニング(MedPFL)における医療データプライバシリスク分析と緩和のための総合的枠組みを提案し,プライバシリスクを分析し,私的医療データを保護するための効果的な緩和戦略を開発する。 第2に、FLを用いて医療画像を処理する場合のプライバシーリスクについて、敵が容易にプライバシー攻撃を行い、医療画像を正確に再構築できることを示す。 第3に、ランダムノイズを付加する防御アプローチは、flにおけるプライバシー攻撃から医療画像を保護するために常に効果的に機能するとは限らないことを示し、プライバシー保護のための医療データに関する独特で差し迫った課題を提起する。

Federated learning (FL) is gaining increasing popularity in the medical domain for analyzing medical images, which is considered an effective technique to safeguard sensitive patient data and comply with privacy regulations. However, several recent studies have revealed that the default settings of FL may leak private training data under privacy attacks. Thus, it is still unclear whether and to what extent such privacy risks of FL exist in the medical domain, and if so, "how to mitigate such risks?". In this paper, first, we propose a holistic framework for Medical data Privacy risk analysis and mitigation in Federated Learning (MedPFL) to analyze privacy risks and develop effective mitigation strategies in FL for protecting private medical data. Second, we demonstrate the substantial privacy risks of using FL to process medical images, where adversaries can easily perform privacy attacks to reconstruct private medical images accurately. Third, we show that the defense approach of adding random noises may not always work effectively to protect medical images against privacy attacks in FL, which poses unique and pressing challenges associated with medical data for privacy protection.
翻訳日:2024-02-01 17:30:32 公開日:2024-01-31
# ランダム自然勾配

Random Natural Gradient ( http://arxiv.org/abs/2311.04135v2 )

ライセンス: Link先を確認
Ioannis Kolotouros and Petros Wallden(参考訳) ハイブリッド量子古典アルゴリズムは、短期量子アプリケーションにとって最も有望なアプローチである。 重要なボトルネックは古典的な最適化ループであり、複数の局所ミニマとバレンプレートの出現はこれらのアプローチを魅力的にしない。 最適化を改善するために,量子状態空間の局所幾何情報を用いた量子自然勾配法 [量子4,269 (2020)] を導入した。 QNGベースの最適化は有望であるが、QNGを計算するためには$O(m^2)$の量子状態の準備が必要であり、$m$はパラメータ化された回路のパラメータの数である。 本研究は,QNG最適化の利点と性能を維持しつつ,QNGに必要な資源・状態準備を削減できる2つの手法を提案する。 具体的には、ランダム測定と古典的なフィッシャー情報行列(QNGで使用される量子フィッシャー情報とは対照的に)を用いたランダム自然勾配(RNG)を導入する。 必須量子資源は線形$O(m)$に減少し、2次的な"スピードアップ"を提供するが、数値シミュレーションでは精度の点でQNGと一致する。 我々は、RNGに関する理論的議論を行い、古典的問題と量子的問題の両方についてQNGを用いて手法をベンチマークする。 第2に、確率座標法に着想を得て、各繰り返しにおける全パラメータの小さな(ランダムにサンプリングされた)分だけを最適化する確率座標量子自然勾配と呼ばれるQNGに対する新しい近似を提案する。 この方法はベンチマークでも同等に機能するが、QNGよりも少ないリソースを使用する。

Hybrid quantum-classical algorithms appear to be the most promising approach for near-term quantum applications. An important bottleneck is the classical optimization loop, where the multiple local minima and the emergence of barren plateaux make these approaches less appealing. To improve the optimization the Quantum Natural Gradient (QNG) method [Quantum 4, 269 (2020)] was introduced - a method that uses information about the local geometry of the quantum state-space. While the QNG-based optimization is promising, in each step it requires more quantum resources, since to compute the QNG one requires $O(m^2)$ quantum state preparations, where $m$ is the number of parameters in the parameterized circuit. In this work we propose two methods that reduce the resources/state preparations required for QNG, while keeping the advantages and performance of the QNG-based optimization. Specifically, we first introduce the Random Natural Gradient (RNG) that uses random measurements and the classical Fisher information matrix (as opposed to the quantum Fisher information used in QNG). The essential quantum resources reduce to linear $O(m)$ and thus offer a quadratic "speed-up", while in our numerical simulations it matches QNG in terms of accuracy. We give some theoretical arguments for RNG and then benchmark the method with the QNG on both classical and quantum problems. Secondly, inspired by stochastic-coordinate methods, we propose a novel approximation to the QNG which we call Stochastic-Coordinate Quantum Natural Gradient that optimizes only a small (randomly sampled) fraction of the total parameters at each iteration. This method also performs equally well in our benchmarks, while it uses fewer resources than the QNG.
翻訳日:2024-02-01 17:30:11 公開日:2024-01-31
# マルチフォーカスとマルチモーダルのギャップを埋める - マルチモーダル画像融合のための集中型統合フレームワーク

Bridging the Gap between Multi-focus and Multi-modal: A Focused Integration Framework for Multi-modal Image Fusion ( http://arxiv.org/abs/2311.01886v2 )

ライセンス: Link先を確認
Xilai Li, Xiaosong Li, Tao Ye, Xiaoqi Cheng, Wuyang Liu, Haishu Tan(参考訳) マルチモーダル画像融合(mmif)は、異なるモダリティ画像からの貴重な情報を融合画像に統合する。 しかし、異なる焦点領域と赤外線画像を持つ複数の可視画像の融合は、実際のMMIFアプリケーションでは前例のない課題である。 これは、可視光学レンズの焦点の深さが限られており、同じシーン内で焦点情報の同時捕捉を阻害しているためである。 この問題に対処するため,本稿では,統合統合とモダリティ情報抽出のためのmmifフレームワークを提案する。 具体的には、半スパーシティーに基づく平滑化フィルタを導入し、画像を構造とテクスチャコンポーネントに分解する。 その後,様々な画像から画素焦点属性と関連データを考慮し,重要な情報を検出することのできる,テクスチャ成分を融合する新しいマルチスケール演算子を提案する。 また,シーンの輝度と適度なコントラスト維持を効果的に捉えるために,多方向周波数分散と情報エントロピーの観点から,構造成分内のエネルギー情報の分布を考察する。 既存のMMIFデータセットおよびオブジェクト検出および深度推定タスクに関する広範な実験は、提案アルゴリズムが視覚知覚および定量的評価における最先端の手法を超えることができることを一貫して証明している。 コードはhttps://github.com/ixilai/MFIF-MMIFで公開されている。

Multi-modal image fusion (MMIF) integrates valuable information from different modality images into a fused one. However, the fusion of multiple visible images with different focal regions and infrared images is a unprecedented challenge in real MMIF applications. This is because of the limited depth of the focus of visible optical lenses, which impedes the simultaneous capture of the focal information within the same scene. To address this issue, in this paper, we propose a MMIF framework for joint focused integration and modalities information extraction. Specifically, a semi-sparsity-based smoothing filter is introduced to decompose the images into structure and texture components. Subsequently, a novel multi-scale operator is proposed to fuse the texture components, capable of detecting significant information by considering the pixel focus attributes and relevant data from various modal images. Additionally, to achieve an effective capture of scene luminance and reasonable contrast maintenance, we consider the distribution of energy information in the structural components in terms of multi-directional frequency variance and information entropy. Extensive experiments on existing MMIF datasets, as well as the object detection and depth estimation tasks, consistently demonstrate that the proposed algorithm can surpass the state-of-the-art methods in visual perception and quantitative evaluation. The code is available at https://github.com/ixilai/MFIF-MMIF.
翻訳日:2024-02-01 17:29:43 公開日:2024-01-31
# 言語モデルの強化微調整における消失勾配

Vanishing Gradients in Reinforcement Finetuning of Language Models ( http://arxiv.org/abs/2310.20703v2 )

ライセンス: Link先を確認
Noam Razin, Hattie Zhou, Omid Saremi, Vimal Thilak, Arwen Bradley, Preetum Nakkiran, Joshua Susskind, Etai Littwin(参考訳) 事前訓練された言語モデルは、政策勾配アルゴリズムを用いて(おそらく学習可能な)報酬関数を最大化する強化微調整(RFT)によって、人間の好みや下流タスクと整合している。 この研究は、RFTにおける基本的な最適化の障害を特定し、モデルの下での報酬標準偏差が小さくても、入力の期待勾配がなくなることを証明した。 RFTベンチマークと制御された環境の実験、および理論的解析を通じて、小さな報酬標準偏差による失効勾配が一般的かつ有害であることを示し、非常に低い報酬最大化をもたらす。 最後に、RFTにおける消滅する勾配を克服する方法を検討する。 我々は,初期教師付き微調整(SFT)フェーズが最も有望な候補であることに気付き,RFTパイプラインにおけるその重要性に光を当てる。 さらに,入力サンプルの1%に留まらず,比較的少数のSFT最適化ステップが十分であることを示すとともに,初期SFTフェーズは計算やデータラベリングにおいて高価でなくてもよいことを示す。 以上の結果から,評価基準偏差によって期待される勾配が消える入力に対して注意が必要であることが,RTTの実行を成功させる上で重要であることが示唆された。

Pretrained language models are commonly aligned with human preferences and downstream tasks via reinforcement finetuning (RFT), which refers to maximizing a (possibly learned) reward function using policy gradient algorithms. This work identifies a fundamental optimization obstacle in RFT: we prove that the expected gradient for an input vanishes when its reward standard deviation under the model is small, even if the expected reward is far from optimal. Through experiments on an RFT benchmark and controlled environments, as well as a theoretical analysis, we then demonstrate that vanishing gradients due to small reward standard deviation are prevalent and detrimental, leading to extremely slow reward maximization. Lastly, we explore ways to overcome vanishing gradients in RFT. We find the common practice of an initial supervised finetuning (SFT) phase to be the most promising candidate, which sheds light on its importance in an RFT pipeline. Moreover, we show that a relatively small number of SFT optimization steps on as few as 1% of the input samples can suffice, indicating that the initial SFT phase need not be expensive in terms of compute and data labeling efforts. Overall, our results emphasize that being mindful for inputs whose expected gradient vanishes, as measured by the reward standard deviation, is crucial for successful execution of RFT.
翻訳日:2024-02-01 17:29:22 公開日:2024-01-31
# 大規模軌道モデルはスケーラブルな運動予測器とプランナーである

Large Trajectory Models are Scalable Motion Predictors and Planners ( http://arxiv.org/abs/2310.19620v2 )

ライセンス: Link先を確認
Qiao Sun, Shiduo Zhang, Danjiao Ma, Jingzhe Shi, Derun Li, Simian Luo, Yu Wang, Ningyi Xu, Guangzhi Cao, Hang Zhao(参考訳) 運動予測と計画は自動運転において重要なタスクであり、最近の取り組みは機械学習ベースのアプローチに移行している。 課題には、多様な道路トポロジの理解、長期にわたる交通力学の推論、異種行動の解釈、大規模連続状態空間におけるポリシーの生成などが含まれる。 モデルスケーリングによる類似の複雑さに対処する大規模言語モデルの成功に触発されて、我々はState Transformer (STR)と呼ばれるスケーラブルなトラジェクトリモデルを導入した。 strは、観測、状態、動作を一つの統一シーケンスモデリングタスクに配置することで、動き予測と動き計画の問題を再構成する。 提案手法は軌道生成問題と他のシーケンスモデリング問題を統合し,言語モデリングなどの周辺領域におけるブレークスルーを伴う迅速なイテレーションを実現する。 実験結果から,STRなどの大型軌道モデル(LTM)は,優れた適応性と学習効率を示すことにより,スケーリング法則に従うことが明らかとなった。 定性的な結果は、LTMがトレーニングデータ分布から大きく分岐するシナリオにおいて、妥当な予測を行うことができることを示している。 LTMはまた、明確な損失設計やコストの高い高レベルのアノテーションなしで、長期計画のための複雑な推論を行うことを学ぶ。

Motion prediction and planning are vital tasks in autonomous driving, and recent efforts have shifted to machine learning-based approaches. The challenges include understanding diverse road topologies, reasoning traffic dynamics over a long time horizon, interpreting heterogeneous behaviors, and generating policies in a large continuous state space. Inspired by the success of large language models in addressing similar complexities through model scaling, we introduce a scalable trajectory model called State Transformer (STR). STR reformulates the motion prediction and motion planning problems by arranging observations, states, and actions into one unified sequence modeling task. Our approach unites trajectory generation problems with other sequence modeling problems, powering rapid iterations with breakthroughs in neighbor domains such as language modeling. Remarkably, experimental results reveal that large trajectory models (LTMs), such as STR, adhere to the scaling laws by presenting outstanding adaptability and learning efficiency. Qualitative results further demonstrate that LTMs are capable of making plausible predictions in scenarios that diverge significantly from the training data distribution. LTMs also learn to make complex reasonings for long-term planning, without explicit loss designs or costly high-level annotations.
翻訳日:2024-02-01 17:28:10 公開日:2024-01-31
# 変分量子特異値分解アルゴリズムの修正について

On Modifying the Variational Quantum Singular Value Decomposition Algorithm ( http://arxiv.org/abs/2310.19504v2 )

ライセンス: Link先を確認
Jezer Jojo, Ankit Khandelwal, M Girish Chandra(参考訳) 本稿では,本論文で広く用いられている変分量子特異値分解アルゴリズムに対する2つの修正について考察する。 1つ目は、アルゴリズムの性能向上を示唆する目的関数の変更である。 第2の修正では、アルゴリズムの重要なステップである一般行列の期待値の計算方法が導入された。 そして、この修正アルゴリズムをベンチマークし、新しい目的関数のパフォーマンスを既存のアルゴリズムと比較します。

In this work, we discuss two modifications that can be made to a known variational quantum singular value decomposition algorithm popular in the literature. The first is a change to the objective function which hints at improved performance of the algorithm. The second modification introduces a new way of computing expectation values of general matrices, which is a key step in the algorithm. We then benchmark this modified algorithm and compare the performance of our new objective function with the existing one.
翻訳日:2024-02-01 17:27:39 公開日:2024-01-31
# CARPE-ID: 個人化ロボット支援のための連続適応型再識別

CARPE-ID: Continuously Adaptable Re-identification for Personalized Robot Assistance ( http://arxiv.org/abs/2310.19413v2 )

ライセンス: Link先を確認
Federico Rollo, Andrea Zunino, Nikolaos Tsagarakis, Enrico Mingo Hoffman, Arash Ajoudani(参考訳) 今日のHuman-Robot Interaction(HRI)のシナリオでは、ロボットが最も近い個人と協力するか、あるいはシーンがただの人間アクターを含んでいると仮定する傾向が一般的である。 しかし,店舗のフロア操作のような現実的なシナリオでは,そのような仮定は保持されず,混み合った環境でロボットがターゲット認識を行う必要がある。 この要件を満たすために,本研究では,ロボットが適切な個人とシームレスに協調し,視覚的な外観や部分的,あるいは完全な咬合を受けることを保証する,連続的な視覚適応技術に基づく人物再識別モジュールを提案する。 実験室で記録されたビデオとHRIシナリオ,すなわち移動ロボットによる人物追従タスクを用いて,このフレームワークを単体でテストする。 ターゲットは追跡中の外観を変え、カメラの視野から消えて、閉塞や服装のバリエーションの難しいケースをテストするように求められます。 提案手法を最先端マルチオブジェクトトラッキング (mot) 法と比較し, 全事例において, carpe-id が選択した各ターゲットを正確に追跡できることを示した。 同時に、s-o-t-a MOTはビデオ毎に4つのトラッキングエラーがある。

In today's Human-Robot Interaction (HRI) scenarios, a prevailing tendency exists to assume that the robot shall cooperate with the closest individual or that the scene involves merely a singular human actor. However, in realistic scenarios, such as shop floor operations, such an assumption may not hold and personalized target recognition by the robot in crowded environments is required. To fulfil this requirement, in this work, we propose a person re-identification module based on continual visual adaptation techniques that ensure the robot's seamless cooperation with the appropriate individual even subject to varying visual appearances or partial or complete occlusions. We test the framework singularly using recorded videos in a laboratory environment and an HRI scenario, i.e., a person-following task by a mobile robot. The targets are asked to change their appearance during tracking and to disappear from the camera field of view to test the challenging cases of occlusion and outfit variations. We compare our framework with one of the state-of-the-art Multi-Object Tracking (MOT) methods and the results show that the CARPE-ID can accurately track each selected target throughout the experiments in all the cases (except two limit cases). At the same time, the s-o-t-a MOT has a mean of 4 tracking errors for each video.
翻訳日:2024-02-01 17:27:07 公開日:2024-01-31
# 機械学習モデルにおけるメンバーシップ推論攻撃の基本限界

Fundamental Limits of Membership Inference Attacks on Machine Learning Models ( http://arxiv.org/abs/2310.13786v3 )

ライセンス: Link先を確認
Eric Aubinais, Elisabeth Gassiat, Pablo Piantanida(参考訳) メンバーシップ推論攻撃(MIA)は、特定のデータポイントがトレーニングデータセットの一部であったかどうかを明らかにすることができる。 本稿では、機械学習モデルにおけるMIAに関する基本的な統計的制限を探索することによって理論的保証を提供する。 より正確には、このような攻撃の有効性と成功を左右する統計量を導出する。 そして、アルゴリズムをオーバーフィッティングする非常に一般的な回帰環境では、攻撃が成功する確率が高いと推定する。 最後に、この量の利害関係を示すいくつかの状況について検討する。 その結果,学習モデルのサンプル数およびその他の構造パラメータに基づいて,潜在的な攻撃の精度を推定できることがわかった。 特定のインスタンスでは、これらのパラメータはデータセットから直接推定できる。

Membership inference attacks (MIA) can reveal whether a particular data point was part of the training dataset, potentially exposing sensitive information about individuals. This article provides theoretical guarantees by exploring the fundamental statistical limitations associated with MIAs on machine learning models. More precisely, we first derive the statistical quantity that governs the effectiveness and success of such attacks. We then deduce that in a very general regression setting with overfitting algorithms, attacks may have a high probability of success. Finally, we investigate several situations for which we provide bounds on this quantity of interest. Our results enable us to deduce the accuracy of potential attacks based on the number of samples and other structural parameters of learning models. In certain instances, these parameters can be directly estimated from the dataset.
翻訳日:2024-02-01 17:26:42 公開日:2024-01-31
# 長距離・等価量子システムの効率的学習

Efficient Learning of Long-Range and Equivariant Quantum Systems ( http://arxiv.org/abs/2312.17019v2 )

ライセンス: Link先を確認
\v{S}t\v{e}p\'an \v{S}m\'id, Roberto Bondesan(参考訳) 本研究では,量子ハミルトニアンとその性質の量子多体物理学における基礎的課題について考察する。 近年,データから学習した幾何学的局所観測量の和の基底状態期待値を予測する課題が研究されている。 短距離ガッピングハミルトニアンに対しては、誤差の量子ビット数と準多項数の対数であるサンプル複雑性が得られた。 ここでは、分子系と原子系における長距離相互作用の関連性により、ハミルトニアンとオブザーバブルの両方の局所的な要求を超えてこれらの結果を拡張する。 系の2倍以上の大きさの指数を持つパワー則として崩壊する相互作用に対して、量子ビット数に関して同じ効率の対数スケーリングを回復するが、誤差への依存は指数関数的に悪化する。 さらに、相互作用ハイパーグラフの自己同型群の下での学習アルゴリズムは、特に周期的境界条件を持つ系における局所観測可能量の総和を学習するために、サンプルの複雑さを減少させる。 私たちは、最大128ドルキュービットの長距離および無秩序システムのdmrgシミュレーションから学ぶことで、実際に効率的なスケーリングを実演します。 最後に,中央極限定理を起点とする大域観測量の期待値の集中度を解析した結果,予測精度が向上した。

In this work, we consider a fundamental task in quantum many-body physics - finding and learning ground states of quantum Hamiltonians and their properties. Recent works have studied the task of predicting the ground state expectation value of sums of geometrically local observables by learning from data. For short-range gapped Hamiltonians, a sample complexity that is logarithmic in the number of qubits and quasipolynomial in the error was obtained. Here we extend these results beyond the local requirements on both Hamiltonians and observables, motivated by the relevance of long-range interactions in molecular and atomic systems. For interactions decaying as a power law with exponent greater than twice the dimension of the system, we recover the same efficient logarithmic scaling with respect to the number of qubits, but the dependence on the error worsens to exponential. Further, we show that learning algorithms equivariant under the automorphism group of the interaction hypergraph achieve a sample complexity reduction, leading in particular to a constant number of samples for learning sums of local observables in systems with periodic boundary conditions. We demonstrate the efficient scaling in practice by learning from DMRG simulations of $1$D long-range and disordered systems with up to $128$ qubits. Finally, we provide an analysis of the concentration of expectation values of global observables stemming from the central limit theorem, resulting in increased prediction accuracy.
翻訳日:2024-02-01 17:19:57 公開日:2024-01-31
# 連続可変系における真の多部絡み合いのマルチコピー活性化

Multi-copy activation of genuine multipartite entanglement in continuous-variable systems ( http://arxiv.org/abs/2312.16570v2 )

ライセンス: Link先を確認
Kl\'ara Baksov\'a, Olga Leskovjanov\'a, Ladislav Mi\v{s}ta Jr., Elizabeth Agudelo, Nicolai Friis(参考訳) 真のマルチパートエンタングルメント(GME)の活性化は、2つの分離可能な状態の複数のコピーがGMEとなる現象である。 これは有限次元で一般化可能であることが示されている。 ここでは、この解析を無限次元に拡張する。 GME活性非ガウス状態の例を示す。 ガウス状態に対しては、共分散行列 (CM) に必要な双分離性基準を用い、GMEの活性化を検出できないことを示す。 さらに, 基準を満たしながら, 複数コピーであってもgmeであることを示す, 完全に分離できないガウス状態を特定する。 したがって,cmビセパラビリティ基準はガウス状態においても十分ではないことを示す。

Activation of genuine multipartite entanglement (GME) is a phenomenon whereby multiple copies of biseparable but fully inseparable states can be GME. This was shown to be generically possible in finite dimensions. Here, we extend this analysis to infinite dimensions. We provide examples of GME-activatable non-Gaussian states. For Gaussian states we employ a necessary biseparability criterion for the covariance matrix (CM) and show that it cannot detect GME activation. We further identify fully inseparable Gaussian states that satisfy the criterion but show that multiple and, in some cases, even single copies are GME. Thus, we show that the CM biseparability criterion is not sufficient even for Gaussian states.
翻訳日:2024-02-01 17:19:31 公開日:2024-01-31
# 完全連続変数量子計算アーキテクチャ:クラスタ状態生成からフォールトトレラントな達成まで

A complete continuous-variable quantum computation architecture: from cluster state generation to fault-tolerant accomplishment ( http://arxiv.org/abs/2312.13877v3 )

ライセンス: Link先を確認
Peilin Du, Jing Zhang, Tiancai Zhang, Rongguo Yang, Jiangrui Gao(参考訳) 連続変数計測に基づく量子計算は、決定論的に生成された大規模クラスタ状態を必要とするが、実用的でスケーラブルで普遍的でフォールトトレラントな量子計算の候補として有望である。 本研究では,クラスタ状態の準備,ゲート実装,エラー訂正を含む完全なアーキテクチャを実証する。 まず,時間領域と空間領域の両方を多重化して2次元大規模連続変数クラスタ状態を生成する手法を提案する。 次に、ゲートテレポーテーションによる普遍量子計算のゲート実装について論じ、生成されたクラスタ状態からの実際のゲートノイズとGottesman-Kitaev-Preskill(GKP)状態について考察する。 その後、二乗格子GKP符号を利用して量子誤差補正を行うことができる。 最後に、フォールトトレラントな量子計算は、(位相フリップを防ぐために)正方格子GKP符号にバイアスを導入し、(残ビットフリップエラーを処理するために)古典的な繰り返し符号を12.3dBで結合することで実現できる。 我々の研究は、将来完全なフォールトトレラントな量子計算アーキテクチャに可能な選択肢を提供する。

Continuous-variable measurement-based quantum computation, which requires deterministically generated large-scale cluster state, is a promising candidate for practical, scalable, universal, and fault-tolerant quantum computation. In this work, a complete architecture including cluster state preparation, gate implementations, and error correction, is demonstrated. First, a scheme for generating two-dimensional large-scale continuous-variable cluster state by multiplexing both the temporal and spatial domains is proposed. Then, the corresponding gate implementations for universal quantum computation by gate teleportation are discussed and the actual gate noise from the generated cluster state and Gottesman-Kitaev-Preskill (GKP) state are considered. After that, the quantum error correction can be further achieved by utilizing the square-lattice GKP code. Finally, a fault-tolerent quantum computation can be realized by introducing bias into the square-lattice GKP code (to protect against phase-flips) and concatenating a classical repetition code (to handle the residual bit-flip errors), with a squeezing threshold of 12.3 dB. Our work provides a possible option for a complete fault-tolerent quantum computation architecture in the future.
翻訳日:2024-02-01 17:19:17 公開日:2024-01-31
# 長期量子スクランブルと一般化テンソル生成物構造

Long-time Quantum Scrambling and Generalized Tensor Product Structures ( http://arxiv.org/abs/2312.13386v2 )

ライセンス: Link先を確認
Faidon Andreadakis, Emanuel Dallas, Paolo Zanardi(参考訳) 最近の研究は、量子システムにおける情報スクランブルの研究に費やされている。 本稿では,非共振条件下での長時間平均に対する解析式を導出し,代数的外順序相関器($\mathcal{a}$-otoc)の長期的特性について検討する。 この$\mathcal{a}$-otoc は、作用素の部分代数 $\mathcal{a}$ によって記述される自由度に関して量子スクランブルを定量化する。 近年、システムのユニタリダイナミクスから自然にどの分割が生じるかを決定する基準として、$\mathcal{a}$-otoc の短時間成長が提案されている。 本稿では,このプログラムを,$\mathcal{A}$-OTOCの長期平均がサブシステムの出現の指標となるような長期体制に拡張する。 この枠組みの下では、自然システムの分割は、長期間のスケールで情報を最小にスクランブルする傾向によって特徴づけられる。 量子多体系や安定化符号から量子参照フレームまで、いくつかの物理例を考察し、関連する代数の族に対して解析的および数値的に$\mathcal{A}$-OTOCの時間平均を最小化する。 非共振条件の単純な場合では、最小の$\mathcal{a}$-otoc の長い時間平均は、創発的な系分割を横断するハミルトン固有状態の最小の絡み合いに関係している。 最後に、我々は非共鳴ハミルトニアンの平均を最小化する代数の一般構造についての予想と証拠を提供する。

Much recent work has been devoted to the study of information scrambling in quantum systems. In this paper, we study the long-time properties of the algebraic out-of-time-order-correlator ("$\mathcal{A}$-OTOC") and derive an analytical expression for its long-time average under the non-resonance condition. The $\mathcal{A}$-OTOC quantifies quantum scrambling with respect to degrees of freedom described by an operator subalgebra $\mathcal{A}$, which is associated with a partitioning of the corresponding system into a generalized tensor product structure. Recently, the short-time growth of the $\mathcal{A}$-OTOC was proposed as a criterion to determine which partition arises naturally from the system's unitary dynamics. In this paper, we extend this program to the long-time regime where the long-time average of the $\mathcal{A}$-OTOC serves as the metric of subsystem emergence. Under this framework, natural system partitions are characterized by the tendency to minimally scramble information over long time scales. We consider several physical examples, ranging from quantum many-body systems and stabilizer codes to quantum reference frames, and perform the minimization of the $\mathcal{A}$-OTOC long-time average both analytically and numerically over relevant families of algebras. For simple cases subject to the non-resonant condition, minimal $\mathcal{A}$-OTOC long-time average is shown to be related to minimal entanglement of the Hamiltonian eigenstates across the emergent system partition. Finally, we conjecture and provide evidence for a general structure of the algebra that minimizes the average for non-resonant Hamiltonians.
翻訳日:2024-02-01 17:18:56 公開日:2024-01-31
# グラフニューラルネットワークに基づく設計技術共最適化のための高速セルライブラリ特性評価

Fast Cell Library Characterization for Design Technology Co-Optimization Based on Graph Neural Networks ( http://arxiv.org/abs/2312.12784v3 )

ライセンス: Link先を確認
Tianliang Ma, Zhihui Deng, Xuguang Sun, Leilai Shao, Kainlu Low(参考訳) 設計技術共最適化(DTCO)は、半導体プロセス開発における最適電力、性能、面積(PPA)を達成する上で重要な役割を果たしている。 細胞ライブラリーの特徴はDTCOフローに必須であるが、従来の手法は時間と費用がかかる。 これらの課題を克服するため,我々は,高速かつ正確なセルライブラリ解析のためのグラフニューラルネットワーク(GNN)に基づく機械学習モデルを提案する。 本モデルはセル構造を組み込んで様々なプロセス電圧温度(pvt)コーナーと技術パラメータにわたって高い予測精度を示す。 512の技術コーナーと100万以上のテストデータポイントによる検証は、平均絶対パーセンテージ誤差(MAPE)0.95%、SPICEシミュレーションと比較して100倍の速度で、33種類のセルの遅延、電力、入力ピン容量の正確な予測を示している。 さらに,nnnモデルから得られた未発見コーナーでの予測値を用いて,最悪負のスラックス(wns),リーク電力,動的パワーなどのシステムレベルの指標を調査した。 このモデルは、wnsの絶対誤差$\le$3.0 ps、リーク電力のパーセンテージ誤差$\le$0.60%、golden referenceと比較して動的電力$0.99%という正確な予測を達成している。 さらに, 小型・中規模設計におけるPPA向上のための微粒化駆動強度補間法を提案し, ほぼ1-3%の改善を実現した。

Design technology co-optimization (DTCO) plays a critical role in achieving optimal power, performance, and area (PPA) for advanced semiconductor process development. Cell library characterization is essential in DTCO flow, but traditional methods are time-consuming and costly. To overcome these challenges, we propose a graph neural network (GNN)-based machine learning model for rapid and accurate cell library characterization. Our model incorporates cell structures and demonstrates high prediction accuracy across various process-voltage-temperature (PVT) corners and technology parameters. Validation with 512 unseen technology corners and over one million test data points shows accurate predictions of delay, power, and input pin capacitance for 33 types of cells, with a mean absolute percentage error (MAPE) $\le$ 0.95% and a speed-up of 100X compared with SPICE simulations. Additionally, we investigate system-level metrics such as worst negative slack (WNS), leakage power, and dynamic power using predictions obtained from the GNN-based model on unseen corners. Our model achieves precise predictions, with absolute error $\le$3.0 ps for WNS, percentage errors $\le$0.60% for leakage power, and $\le$0.99% for dynamic power, when compared to golden reference. With the developed model, we further proposed a fine-grained drive strength interpolation methodology to enhance PPA for small-to-medium-scale designs, resulting in an approximate 1-3% improvement.
翻訳日:2024-02-01 17:18:25 公開日:2024-01-31
# 拡散モデルの推論安定性について

On Inference Stability for Diffusion Models ( http://arxiv.org/abs/2312.12431v2 )

ライセンス: Link先を確認
Viet Nguyen, Giang Vu, Tung Nguyen Thanh, Khoat Than, Toan Tran(参考訳) DPM(Denoising Probabilistic Models)は、多彩で高品質な画像を生成するのに優れた生成モデルの分野である。 しかし、現在のDPMのトレーニング手法の多くは、時間ステップ間の相関を無視することが多く、画像生成におけるモデルの性能を効果的に制限している。 理論的には、この問題は予測と実際の軌道の累積的な推定ギャップによって引き起こされる可能性がある。 このギャップを最小限に抑えるために,推定ギャップを削減してサンプリング品質を向上させることを目的とした,新しい \textit{sequence-aware} 損失を提案する。 さらに,提案する損失関数は,従来のdpmの損失と比較して,推定損失の上限がより狭いことを理論的に示す。 CIFAR10,CelebA,CelebA-HQなどのベンチマークデータセットによる実験結果から,FIDおよびInception Scoreによる画像一般化品質をDPMベースラインと比較した場合,提案手法の顕著な改善が得られた。 私たちのコードと事前訓練されたチェックポイントは、 \url{https://github.com/VinAIResearch/SA-DPM}で利用可能です。

Denoising Probabilistic Models (DPMs) represent an emerging domain of generative models that excel in generating diverse and high-quality images. However, most current training methods for DPMs often neglect the correlation between timesteps, limiting the model's performance in generating images effectively. Notably, we theoretically point out that this issue can be caused by the cumulative estimation gap between the predicted and the actual trajectory. To minimize that gap, we propose a novel \textit{sequence-aware} loss that aims to reduce the estimation gap to enhance the sampling quality. Furthermore, we theoretically show that our proposed loss function is a tighter upper bound of the estimation loss in comparison with the conventional loss in DPMs. Experimental results on several benchmark datasets including CIFAR10, CelebA, and CelebA-HQ consistently show a remarkable improvement of our proposed method regarding the image generalization quality measured by FID and Inception Score compared to several DPM baselines. Our code and pre-trained checkpoints are available at \url{https://github.com/VinAIResearch/SA-DPM}.
翻訳日:2024-02-01 17:17:54 公開日:2024-01-31
# 効率的な大規模言語モデル:調査

Efficient Large Language Models: A Survey ( http://arxiv.org/abs/2312.03863v3 )

ライセンス: Link先を確認
Zhongwei Wan, Xin Wang, Che Liu, Samiul Alam, Yu Zheng, Jiachen Liu, Zhongnan Qu, Shen Yan, Yi Zhu, Quanlu Zhang, Mosharaf Chowdhury, Mi Zhang(参考訳) 大言語モデル(LLM)は、自然言語理解、言語生成、複雑な推論といった重要なタスクにおいて顕著な能力を示し、社会に大きな影響を与える可能性がある。 しかし,このような能力には十分な資源が備わっており,効率上の課題に対処するための効果的な技術開発の必要性を浮き彫りにしており,本調査では,効率的なllm研究の体系的かつ包括的なレビューを行う。 論文は3つの主要なカテゴリからなる分類学で編成され、それぞれモデル中心、データ中心、フレームワーク中心の観点から、相互に相互に相互に連携する効率的なLLMトピックを網羅する。 私たちはまた、GitHubリポジトリを作成し、この調査で紹介された論文をhttps://github.com/AIoT-MLSys-Lab/Efficient-LLMs-Surveyでコンパイルしました。 我々の調査は、研究者や実践者が効率的なLLMにおける研究の体系的な理解を得て、この重要かつエキサイティングな分野に貢献するための貴重な情報源となることを願っています。

Large Language Models (LLMs) have demonstrated remarkable capabilities in important tasks such as natural language understanding, language generation, and complex reasoning and have the potential to make a substantial impact on our society. Such capabilities, however, come with the considerable resources they demand, highlighting the strong need to develop effective techniques for addressing their efficiency challenges.In this survey, we provide a systematic and comprehensive review of efficient LLMs research. We organize the literature in a taxonomy consisting of three main categories, covering distinct yet interconnected efficient LLMs topics from model-centric, data-centric, and framework-centric perspective, respectively. We have also created a GitHub repository where we compile the papers featured in this survey at https://github.com/AIoT-MLSys-Lab/Efficient-LLMs-Survey, and will actively maintain this repository and incorporate new research as it emerges. We hope our survey can serve as a valuable resource to help researchers and practitioners gain a systematic understanding of the research developments in efficient LLMs and inspire them to contribute to this important and exciting field.
翻訳日:2024-02-01 17:17:36 公開日:2024-01-31
# 対話状態追跡のための言語知識をBERTに注入する

Injecting linguistic knowledge into BERT for Dialogue State Tracking ( http://arxiv.org/abs/2311.15623v2 )

ライセンス: Link先を確認
Xiaohan Feng, Xixin Wu, Helen Meng(参考訳) 対話状態追跡(DST)モデルは、しばしば複雑なニューラルネットワークアーキテクチャを使用し、実質的なトレーニングデータを必要とする。 本稿では,教師なしの枠組みを用いて言語知識を抽出し,その知識を用いてdstタスクにおけるbertの性能と解釈可能性を高める手法を提案する。 知識抽出手順は計算経済的であり、注釈や追加の訓練データを必要としない。 抽出された知識の注入は、単純な神経モジュールのみを追加する必要がある。 我々は,dstタスクの特徴抽出ツールとしてconvex polytopic model(cpm)を用い,獲得した特徴が対話における構文的・意味的パターンと関連していることを示す。 この相関は、DSTモデルの意思決定プロセスに影響を与える言語的特徴の包括的理解を促進する。 このフレームワークを様々なDSTタスクでベンチマークし、精度の顕著な改善を観察する。

Dialogue State Tracking (DST) models often employ intricate neural network architectures, necessitating substantial training data, and their inference processes lack transparency. This paper proposes a method that extracts linguistic knowledge via an unsupervised framework and subsequently utilizes this knowledge to augment BERT's performance and interpretability in DST tasks. The knowledge extraction procedure is computationally economical and does not necessitate annotations or additional training data. The injection of the extracted knowledge necessitates the addition of only simple neural modules. We employ the Convex Polytopic Model (CPM) as a feature extraction tool for DST tasks and illustrate that the acquired features correlate with the syntactic and semantic patterns in the dialogues. This correlation facilitates a comprehensive understanding of the linguistic features influencing the DST model's decision-making process. We benchmark this framework on various DST tasks and observe a notable improvement in accuracy.
翻訳日:2024-02-01 17:16:06 公開日:2024-01-31
# 赤道計測を用いた資源効率シャドウトモグラフィ

Resource-efficient shadow tomography using equatorial measurements ( http://arxiv.org/abs/2311.14622v2 )

ライセンス: Link先を確認
Guedong Park, Yong Siah Teo, and Hyunseok Jeong(参考訳) クリフォード単位の部分集合から生成される赤道安定化器の測定値を用いた資源効率の高いシャドウトモグラフィー手法を提案する。 n$-qubitシステムでは、赤道安定器ベースのシャドウトモグラフィスキームは、多項式に束縛されたフロベニウスノルムを持つトレースレス部分を含む、多くのオブザーバブルのコピーをサンプリングするために$\mathcal{o}(\log(m),\mathrm{poly}(n),1/\varepsilon^2)$を用いて、$m$オブザーバブルを推定することができる。 任意の量子状態オブザーバブルの場合、サンプリング複雑性は$n$-独立 -$\mathcal{O}(\log(M),1/\varepsilon^2)$となる。 我々のスキームは、サンプリングコピーごとに$n$-depth control-$z$ (cz) 回路 [$\mathcal{o}(n^2)$ cz gates] とpauli測定が必要であり、従来知られていたランダム化されたcliffordベースの提案と比較して、より小さい最大ゲート数を示す。 実装面では、最大回路深さは、制御NOT(CNOT)ゲートを持つ$\frac{n}{2}+\mathcal{O}(\log(n))$に縮小される。 あるいは、O(n^2)$近くのCNOTゲートを含む2n$depth回路で実現でき、さらにゲート数の改善が期待できる。 ランダムな純粋な状態とマルチキュービットのグラフ状態を持つ理論上のシャドウ・トモグラフィーサンプリングの複雑さを数値的に確認する。 最後に,赤道安定化器を用いたシャドウトモグラフィは,GHZおよびW状態の平均ゲート忠実度および状態検証の観点から,ランダム化クリフォード方式よりも耐雑音性が高いことを示す。

We propose a resource-efficient shadow-tomography scheme using equatorial-stabilizer measurements generated from subsets of Clifford unitaries. For $n$-qubit systems, equatorial-stabilizer-based shadow-tomography schemes can estimate $M$ observables (up to an additive error $\varepsilon$) using $\mathcal{O}(\log(M),\mathrm{poly}(n),1/\varepsilon^2)$ sampling copies for a large class of observables, including those with traceless parts possessing polynomially-bounded Frobenius norms. For arbitrary quantum-state observables, sampling complexity becomes $n$-independent -- $\mathcal{O}(\log(M),1/\varepsilon^2)$. Our scheme only requires an $n$-depth controlled-$Z$ (CZ) circuit [$\mathcal{O}(n^2)$ CZ gates] and Pauli measurements per sampling copy, exhibiting a smaller maximal gate count relative to previously-known randomized-Clifford-based proposals. Implementation-wise, the maximal circuit depth is reduced to $\frac{n}{2}+\mathcal{O}(\log(n))$ with controlled-NOT (CNOT) gates. Alternatively, our scheme is realizable with $2n$-depth circuits comprising $O(n^2)$ nearest-neighboring CNOT gates, with possible further gate-count improvements. We numerically confirm our theoretically-derived shadow-tomographic sampling complexities with random pure states and multiqubit graph states. Finally, we numerically demonstrate that equatorial-stabilizer-based shadow tomography is more noise-tolerant than randomized-Clifford-based schemes in terms of average gate fidelity and state verification for GHZ and W states.
翻訳日:2024-02-01 17:15:53 公開日:2024-01-31
# GRATH: 大規模言語モデルのための経時的自己改善

GRATH: Gradual Self-Truthifying for Large Language Models ( http://arxiv.org/abs/2401.12292v2 )

ライセンス: Link先を確認
Weixin Chen, Dawn Song, Bo Li(参考訳) 現実のアプリケーションにますますデプロイされているため、大きな言語モデル(LLM)にとって真実性は最重要である。 しかし、既存のllmは、truefulqaのようなベンチマークでの控えめなパフォーマンスによって証明されるように、依然として真理のあるコンテンツの生成に苦労している。 この問題に対処するために,LLMの真正性を高めるための新しいポストプロセッシング手法であるGRATHを提案する。 GRATHは、ドメイン外質問プロンプトを使用して、質問を含む各ペアとその正解と誤答を含むペアの真正性トレーニングデータを生成し、直接選好最適化(DPO)を介してモデルを最適化し、回答ペア間の真正性差から学習する。 grath氏は繰り返し真理データを洗練し、モデルを更新することで、自己監督的な方法でモデルの真理性を段階的に改善する。 実験により,GRATHを異なる7B-LLMを用いて評価し,ベンチマークデータセットの類似あるいはそれ以上の大きさのLLMと比較した。 以上の結果から, GRATHは他のコア能力を損なうことなく, LLMの真偽性を効果的に改善できることが示唆された。 特に、GRATHはTrathfulQAの最先端性能を達成し、MC1の精度は54.71%、MC2の精度は69.10%であり、70B-LLMよりも高い。

Truthfulness is paramount for large language models (LLMs) as they are increasingly deployed in real-world applications. However, existing LLMs still struggle with generating truthful content, as evidenced by their modest performance on benchmarks like TruthfulQA. To address this issue, we propose GRAdual self-truTHifying (GRATH), a novel post-processing method to enhance truthfulness of LLMs. GRATH utilizes out-of-domain question prompts to generate pairwise truthfulness training data with each pair containing a question and its correct and incorrect answers, and then optimizes the model via direct preference optimization (DPO) to learn from the truthfulness difference between answer pairs. GRATH iteratively refines truthfulness data and updates the model, leading to a gradual improvement in model truthfulness in a self-supervised manner. Empirically, we evaluate GRATH using different 7B-LLMs and compare with LLMs with similar or even larger sizes on benchmark datasets. Our results show that GRATH effectively improves LLMs' truthfulness without compromising other core capabilities. Notably, GRATH achieves state-of-the-art performance on TruthfulQA, with MC1 accuracy of 54.71% and MC2 accuracy of 69.10%, which even surpass those on 70B-LLMs.
翻訳日:2024-02-01 17:08:18 公開日:2024-01-31
# UniM-OV3D:細粒度特徴表現を用いた一様オープンボキャブラリ3次元シーン理解

UniM-OV3D: Uni-Modality Open-Vocabulary 3D Scene Understanding with Fine-Grained Feature Representation ( http://arxiv.org/abs/2401.11395v2 )

ライセンス: Link先を確認
Qingdong He, Jinlong Peng, Zhengkai Jiang, Kai Wu, Xiaozhong Ji, Jiangning Zhang, Yabiao Wang, Chengjie Wang, Mingang Chen, Yunsheng Wu(参考訳) 3d open-vocabulary scene understandingは、ベースラベル空間を超えて任意の新しいカテゴリを認識することを目的としている。 しかし、既存の作品では、3dドメインで利用可能な全てのモーダル情報を十分に活用できないだけでなく、各モダリティの特徴を表現するのに十分な粒度を欠いている。 本稿では,ポイント・クラウドを画像,言語,奥行きと整合させる,統合型マルチモーダル3次元オープンボキャブラリー・シーン理解ネットワーク,unim-ov3dを提案する。 ポイントクラウドのグローバルおよびローカルな機能をよりよく統合するために、包括的な細かな特徴表現を学ぶ階層的ポイントクラウド特徴抽出モジュールを設計します。 さらに,キャプションから粗視から細かなポイントセマンティクス表現の学習を容易にするために,3次元シーンの様々な視点における幾何学的制約を活かした階層的3次元キャプションペアの利用を提案する。 ScanNet, ScanNet200, S3IDS, nuScenes などの屋内および屋外のベンチマークにおいて, 最先端の性能を実現するオープン語彙セマンティックとインスタンスセマンティクスにおける本手法の有効性と優位性を示す。 コードはhttps://github.com/hithqd/UniM-OV3Dで入手できる。

3D open-vocabulary scene understanding aims to recognize arbitrary novel categories beyond the base label space. However, existing works not only fail to fully utilize all the available modal information in the 3D domain but also lack sufficient granularity in representing the features of each modality. In this paper, we propose a unified multimodal 3D open-vocabulary scene understanding network, namely UniM-OV3D, which aligns point clouds with image, language and depth. To better integrate global and local features of the point clouds, we design a hierarchical point cloud feature extraction module that learns comprehensive fine-grained feature representations. Further, to facilitate the learning of coarse-to-fine point-semantic representations from captions, we propose the utilization of hierarchical 3D caption pairs, capitalizing on geometric constraints across various viewpoints of 3D scenes. Extensive experimental results demonstrate the effectiveness and superiority of our method in open-vocabulary semantic and instance segmentation, which achieves state-of-the-art performance on both indoor and outdoor benchmarks such as ScanNet, ScanNet200, S3IDS and nuScenes. Code is available at https://github.com/hithqd/UniM-OV3D.
翻訳日:2024-02-01 17:07:52 公開日:2024-01-31
# gaussian adaptive attention: 複数のモダリティにまたがるロバストな文脈表現

Gaussian Adaptive Attention is All You Need: Robust Contextual Representations Across Multiple Modalities ( http://arxiv.org/abs/2401.11143v3 )

ライセンス: Link先を確認
Georgios Ioannides, Aman Chadha, Aaron Elkins(参考訳) 本稿では,新しい確率的アテンションフレームワークであるGAAM(Multi-Head Gaussian Adaptive Attention Mechanism)と,音声,テキスト,ビジョンを含む複数のモードにわたる情報集約を強化するために設計されたGAT(Gaussian Adaptive Transformer)を提案する。 GAAMは学習可能な平均と分散をアテンションメカニズムに統合し、マルチヘッドフレームワークで実装され、任意の確率分布をまとめてモデル化し、特徴の動的再分類を可能にする。 この手法は、特に非定常データにおいて、特徴空間内のキー要素を識別することで、モデル性能(精度で約20%まで)における最先端の注意技術を上回る重要な改善を示す。 GAAMのドット製品ベースのアテンションモデルと比較的少ないパラメータとの互換性は、その適応性と既存のアテンションフレームワークを強化する可能性を示している。 GAAMは、音声における感情認識、画像分類、テキスト分類など、様々なタスクにおいて優れた適応性と有効性を示し、マルチモーダルデータを扱う際の堅牢性と汎用性を確立する。 さらに,GAAM法で学習したモデルの説明可能性を高めるための新しい学習基準であるImportance Factor(IF)を導入する。 GAAMは、複数のモードにわたるより優れたパフォーマンスと説明可能な注意モデルの開発に向けた進歩を表している。

We propose the Multi-Head Gaussian Adaptive Attention Mechanism (GAAM), a novel probabilistic attention framework, and the Gaussian Adaptive Transformer (GAT), designed to enhance information aggregation across multiple modalities, including Speech, Text and Vision. GAAM integrates learnable mean and variance into its attention mechanism, implemented in a Multi-Headed framework enabling it to collectively model any Probability Distribution for dynamic recalibration of feature significance. This method demonstrates significant improvements, especially with highly non-stationary data, surpassing the state-of-the-art attention techniques in model performance (up to approximately +20% in accuracy) by identifying key elements within the feature space. GAAM's compatibility with dot-product-based attention models and relatively low number of parameters showcases its adaptability and potential to boost existing attention frameworks. Empirically, GAAM exhibits superior adaptability and efficacy across a diverse range of tasks, including emotion recognition in speech, image classification, and text classification, thereby establishing its robustness and versatility in handling multi-modal data. Furthermore, we introduce the Importance Factor (IF), a new learning-based metric that enhances the explainability of models trained with GAAM-based methods. Overall, GAAM represents an advancement towards development of better performing and more explainable attention models across multiple modalities.
翻訳日:2024-02-01 17:07:28 公開日:2024-01-31
# SAMF:オブジェクト検出のための小面積多焦点画像融合

SAMF: Small-Area-Aware Multi-focus Image Fusion for Object Detection ( http://arxiv.org/abs/2401.08357v2 )

ライセンス: Link先を確認
Xilai Li, Xiaosong Li, Haishu Tan, Jinyang Li(参考訳) 既存のマルチフォーカス画像融合(MFIF)法は、不確実な遷移領域の保存に失敗し、大規模な非集中領域内の小さな焦点領域を正確に検出する。 そこで本研究では,オブジェクト検出能力を向上させるためのMFIFアルゴリズムを提案する。 まず,小焦点領域と境界領域の画素属性を強調し,その後,視覚塩分検出と組み合わせることで,焦点領域の分布を判別するプレフュージョン結果を得る。 画素焦点を正確に確保するため,光源画像はフォーカス領域,デフォーカス領域,不確実領域の組み合わせとして考慮し,三領域分割戦略を提案する。 最後に,セグメンテーション決定マップを生成する効果的な画素選択ルールを設計し,最終的な融合結果を得る。 実験により,提案手法は対象検出性能を向上し,主観的,客観的両評価において既存手法よりも優れることがわかった。 ソースコードはhttps://github.com/ixilai/samfで入手できる。

Existing multi-focus image fusion (MFIF) methods often fail to preserve the uncertain transition region and detect small focus areas within large defocused regions accurately. To address this issue, this study proposes a new small-area-aware MFIF algorithm for enhancing object detection capability. First, we enhance the pixel attributes within the small focus and boundary regions, which are subsequently combined with visual saliency detection to obtain the pre-fusion results used to discriminate the distribution of focused pixels. To accurately ensure pixel focus, we consider the source image as a combination of focused, defocused, and uncertain regions and propose a three-region segmentation strategy. Finally, we design an effective pixel selection rule to generate segmentation decision maps and obtain the final fusion results. Experiments demonstrated that the proposed method can accurately detect small and smooth focus areas while improving object detection performance, outperforming existing methods in both subjective and objective evaluations. The source code is available at https://github.com/ixilai/SAMF.
翻訳日:2024-02-01 17:05:58 公開日:2024-01-31
# 教育のための自然言語処理に関する調査:分類学、体系的レビュー、将来の動向

Survey of Natural Language Processing for Education: Taxonomy, Systematic Review, and Future Trends ( http://arxiv.org/abs/2401.07518v2 )

ライセンス: Link先を確認
Yunshi Lan, Xinyuan Li, Hanyue Du, Xuesong Lu, Ming Gao, Weining Qian, Aoying Zhou(参考訳) 自然言語処理(NLP)は、コンピュータ科学分野の技法を用いてテキストを分析することを目的としている。 医療、商業、教育の分野で応用されている。 特にNLPは、教育と学習を支援するために教育領域に適用される。 本調査では,NLPの最近の進歩を,教育領域に関わる課題の解決に焦点をあてて概観する。 詳しくは、関連する背景を紹介することから始める。 次に,教育領域におけるNLPの分類について述べる。 次に,上記の分類に基づくタスク定義,課題,対応技術について述べる。 その後,本分野における実演を紹介するとともに,今後の方向性について述べる。

Natural Language Processing (NLP) aims to analyze the text via techniques in the computer science field. It serves the applications in healthcare, commerce, and education domains. Particularly, NLP has been applied to the education domain to help teaching and learning. In this survey, we review recent advances in NLP with a focus on solving problems related to the education domain. In detail, we begin with introducing the relevant background. Then, we present the taxonomy of NLP in the education domain. Next, we illustrate the task definition, challenges, and corresponding techniques based on the above taxonomy. After that, we showcase some off-the-shelf demonstrations in this domain and conclude with future directions.
翻訳日:2024-02-01 17:05:39 公開日:2024-01-31
# ada-retrieval:逐次レコメンデーションのための適応型マルチラウンド検索パラダイム

Ada-Retrieval: An Adaptive Multi-Round Retrieval Paradigm for Sequential Recommendations ( http://arxiv.org/abs/2401.06633v2 )

ライセンス: Link先を確認
Lei Li, Jianxun Lian, Xiao Zhou, Xing Xie(参考訳) 検索モデルは、あるユーザの好みにマッチする少数の項目候補を選択することを目的としている。 ローダのようなその後のモデルがアイテム候補の品質に大きく依存するため、大規模なレコメンデーションシステムにおいて重要な役割を果たす。 しかし、既存の検索モデルの多くはシングルラウンド推論パラダイムを採用しており、ユーザの好みの動的な性質を適切に捉えておらず、アイテム空間の1つの領域に留まっている。 本稿では,ユーザ表現を反復的に洗練し,全項目領域の候補をよりよく把握する,適応型マルチラウンド検索パラダイムであるAda-Retrievalを提案する。 Ada-Retrievalは、アイテム表現アダプタとユーザ表現アダプタの2つの重要なモジュールから構成されている。 フレームワークはモデルに依存しない設計を維持しており、RNNやTransformerといった様々なバックボーンモデルとシームレスに統合できる。 5つの強力なシーケンシャルレコメンデータをバックボーンモデルとして組み込んだ,広く使用されている3つの公開データセットの実験を行った。 以上の結果から,Ada-Retrievalは様々なベースモデルの性能を著しく向上し,各データセット間で一貫した改善が見られた。 私たちのコードとデータは、https://github.com/ll0ruc/Ada-Retrieval.comで公開されています。

Retrieval models aim at selecting a small set of item candidates which match the preference of a given user. They play a vital role in large-scale recommender systems since subsequent models such as rankers highly depend on the quality of item candidates. However, most existing retrieval models employ a single-round inference paradigm, which may not adequately capture the dynamic nature of user preferences and stuck in one area in the item space. In this paper, we propose Ada-Retrieval, an adaptive multi-round retrieval paradigm for recommender systems that iteratively refines user representations to better capture potential candidates in the full item space. Ada-Retrieval comprises two key modules: the item representation adapter and the user representation adapter, designed to inject context information into items' and users' representations. The framework maintains a model-agnostic design, allowing seamless integration with various backbone models such as RNNs or Transformers. We perform experiments on three widely used public datasets, incorporating five powerful sequential recommenders as backbone models. Our results demonstrate that Ada-Retrieval significantly enhances the performance of various base models, with consistent improvements observed across different datasets. Our code and data are publicly available at: https://github.com/ll0ruc/Ada-Retrieval.
翻訳日:2024-02-01 17:05:04 公開日:2024-01-31
# リモートセンシング画像と地理的事前情報による利害関係のマルチモーダル都市域

Multimodal Urban Areas of Interest Generation via Remote Sensing Imagery and Geographical Prior ( http://arxiv.org/abs/2401.06550v2 )

ライセンス: Link先を確認
Chuanji Shi, Yingying Zhang, Jiaotuan Wang, Xin Guo and Qiqi Zhu(参考訳) アーバン・エリア・オブ・インタレスト(urban area-of-interest、aoi)は、定義された境界を持つ統合的な都市機能ゾーンである。 都市商業の急速な発展により、AOIを定義するためのより正確な要件に対する需要が高まっている。 しかし、既存の研究は主に都市計画や地域経済分析のための広いAOI鉱業に集中しており、モバイルインターネット・オンライン・オフラインビジネスの正確な要求に応えていない。 これらのビジネスは、特定のコミュニティ、学校、病院まで正確さを必要とする。 本稿では、リモートセンシング画像とマルチセマンティック参照情報を用いて、AOIフェンスポリゴンを検出するエンドツーエンドのマルチモーダルディープラーニングアルゴリズムを提案する。 次に、動的な人体移動と物流アドレス情報を含むカスケードモジュールを用いて、そのタイムラインを評価する。 具体的には、特定のカテゴリのポイント・オブ・関心(POI)を選択して、それを使って対応するリモートセンシング画像、近くのPOI、道路ノード、人間の移動性、物流アドレスをリコールし、トランスフォーマーエンコーダ・デコーダアーキテクチャ(AOITR)に基づくマルチモーダル検出モデルを構築する。 このモデルでは、リモートセンシング画像に加えて、コアPOIとロードノードを含むマルチセマンティック情報を、トランスフォーマーデコーダのクエリコンテンツ部として埋め込み再編成し、AOIポリゴンを生成する。 一方,人間の移動性,近傍pois,ロジスティクスアドレスの比較的ダイナミックな分布特性は,逐次的なフィードフォワードネットワークによるaoi信頼性評価に用いられる。 実験の結果,本アルゴリズムは既存の2つの手法を大きく上回ることがわかった。

Urban area-of-interest (AOI) refers to an integrated urban functional zone with defined boundaries. The rapid development of urban commerce has resulted in an increased demand for more precise requirements in defining AOIs. However, existing research primarily concentrates on broad AOI mining for urban planning or regional economic analysis, failing to cater to the precise requirements of mobile Internet online-to-offline businesses. These businesses necessitate accuracy down to a specific community, school, or hospital. In this paper, we propose an end-to-end multimodal deep learning algorithm for detecting AOI fence polygon using remote sensing images and multi-semantics reference information. We then evaluate its timeliness through a cascaded module that incorporates dynamic human mobility and logistics address information. Specifically, we begin by selecting a point-of-interest (POI) of specific category, and use it to recall corresponding remote sensing images, nearby POIs, road nodes, human mobility, and logistics addresses to build a multimodal detection model based on transformer encoder-decoder architecture, titled AOITR. In the model, in addition to the remote sensing images, multi-semantic information including core POI and road nodes is embedded and reorganized as the query content part for the transformer decoder to generate the AOI polygon. Meanwhile, relatively dynamic distribution features of human mobility, nearby POIs, and logistics addresses are used for AOI reliability evaluation through a cascaded feedforward network. The experimental results demonstrate that our algorithm significantly outperforms two existing methods.
翻訳日:2024-02-01 17:04:39 公開日:2024-01-31
# OCRのスケーリング法則に関する実証的研究

An Empirical Study of Scaling Law for OCR ( http://arxiv.org/abs/2401.00028v3 )

ライセンス: Link先を確認
Miao Rang, Zhenni Bi, Chuanjian Liu, Yunhe Wang, Kai Han(参考訳) モデルサイズ、データボリューム、計算、モデル性能の法則は自然言語処理(nlp)の分野で広く研究されてきた。 しかし、光学文字認識(OCR)におけるスケーリング法則はまだ研究されていない。 そこで本研究では,テキスト認識分野におけるモデルの性能とスケール,データボリューム,計算の相関関係を総合的に検討し,他の要因が一定である場合に,性能とモデルサイズ間のスムーズなパワー則と,データボリュームのトレーニングを行う。 さらに,600万実サンプルと1800万合成サンプルからなる,rebu-synと呼ばれる大規模データセットを構築した。 スケーリング法則と新しいデータセットに基づいて、シーンテキスト認識モデルをトレーニングし、トップ1の平均精度97.42%の6つの一般的なテストベンチマーク上で、最先端の新たなテストを実現しました。 モデルとデータセットはhttps://github.com/large-ocr-model/large-ocr-model.github.ioで公開されている。

The laws of model size, data volume, computation and model performance have been extensively studied in the field of Natural Language Processing (NLP). However, the scaling laws in Optical Character Recognition (OCR) have not yet been investigated. To address this, we conducted comprehensive studies that involved examining the correlation between performance and the scale of models, data volume and computation in the field of text recognition.Conclusively, the study demonstrates smooth power laws between performance and model size, as well as training data volume, when other influencing factors are held constant. Additionally, we have constructed a large-scale dataset called REBU-Syn, which comprises 6 million real samples and 18 million synthetic samples. Based on our scaling law and new dataset, we have successfully trained a scene text recognition model, achieving a new state-ofthe-art on 6 common test benchmarks with a top-1 average accuracy of 97.42%. The models and dataset are publicly available at https://github.com/large-ocr-model/large-ocr-model.github.io.
翻訳日:2024-02-01 17:04:00 公開日:2024-01-31
# 量子グレードナノダイアモンドによる生体細胞の超垂直スピン検出

Quantum-grade nanodiamonds for ultrabright spin detection in live cells ( http://arxiv.org/abs/2312.17603v2 )

ライセンス: Link先を確認
Keisuke Oshimi, Hiromu Nakashima, Sara Mandi\'c, Hina Kobayashi, Minori Teramoto, Hirokazu Tsuji, Yoshiki Nishibayashi, Yutaka Shikano, Toshu An, and Masazumi Fujiwara(参考訳) 光アクセス可能なスピン活性ナノ材料は、生物サンプルを探索するための量子ナノセンサーとして有望である。 しかし、これらの材料に対するバイオイメージングレベルの明るさと高品質なスピン特性を達成することは困難であり、量子バイオセンシングへの応用を妨げる。 ここでは、スピンレス12C-炭素同位体の濃縮と置換窒素スピン不純物低減によるスピン環境工学により、0.6-1.3ppm窒素空孔(NV)中心を含む超明るい蛍光ナノダイヤモンド(NDs)を実証する。 培養細胞に容易に導入されたNDは、かなり狭く光学的に検出された磁気共鳴(ODMR)スペクトルを示し、従来のIb型NDに匹敵するODMR深度を与えるために16倍のマイクロ波励起電力を必要とした。 T1 = 0.68 ms と T_2 = 1.6 us (1.6 ms と 2.7 us max) の平均スピン緩和時間は、それぞれタイプIbよりも5倍と11倍長い。 本研究で得られたバルク状nvスピン特性と明るい蛍光は,生体用nd系量子センサの感度を著しく向上させた。

Optically accessible spin-active nanomaterials are promising as quantum nanosensors for probing biological samples. However, achieving bioimaging-level brightness and high-quality spin properties for these materials is challenging and hinders their application in quantum biosensing. Here, we demonstrate ultrabright fluorescent nanodiamonds (NDs) containing 0.6-1.3-ppm nitrogen-vacancy (NV) centers by spin-environment engineering via enriching spin-less 12C-carbon isotopes and reducing substitutional nitrogen spin impurities. The NDs, readily introduced into cultured cells, exhibited substantially narrow optically detected magnetic resonance (ODMR) spectra, requiring 16-times less microwave excitation power to give an ODMR depth comparable to that of conventional type-Ib NDs. They show average spin-relaxation times of T1 = 0.68 ms and T_2 = 1.6 us (1.6 ms and 2.7 us maximum) that were 5- and 11-fold longer than those of type-Ib, respectively. The bulk-like NV spin properties and bright fluorescence demonstrated in this study significantly improve the sensitivity of ND-based quantum sensors for biological applications.
翻訳日:2024-02-01 17:03:32 公開日:2024-01-31
# ビデオ予測に関する調査 : 決定論的アプローチから生成的アプローチへ

A Survey on Video Prediction: From Deterministic to Generative Approaches ( http://arxiv.org/abs/2401.14718v2 )

ライセンス: Link先を確認
Ruibo Ming, Zhewei Huang, Zhuoxuan Ju, Jianming Hu, Lihui Peng, Shuchang Zhou(参考訳) コンピュータビジョンの基本課題である映像予測は、モデルが既存の映像コンテンツに基づいて将来のフレームのシーケンスを生成することを可能にすることを目的としている。 このタスクは様々なドメインに広く適用されている。 本稿では,この分野における歴史的・現代的作品を総合的に調査し,最も広く利用されているデータセットとアルゴリズムについて述べる。 本調査は,コンピュータビジョンの領域における映像予測の課題と展望を考察する。 本稿では,ビデオ予測アルゴリズムの確率的性質に着目した新しい分類法を提案する。 この分類法は決定論的な予測方法論から生成的予測方法論への段階的な変化を強調し、アプローチの著しい進歩と変化を強調する。

Video prediction, a fundamental task in computer vision, aims to enable models to generate sequences of future frames based on existing video content. This task has garnered widespread application across various domains. In this paper, we comprehensively survey both historical and contemporary works in this field, encompassing the most widely used datasets and algorithms. Our survey scrutinizes the challenges and evolving landscape of video prediction within the realm of computer vision. We propose a novel taxonomy centered on the stochastic nature of video prediction algorithms. This taxonomy accentuates the gradual transition from deterministic to generative prediction methodologies, underlining significant advancements and shifts in approach.
翻訳日:2024-02-01 16:51:53 公開日:2024-01-31
# 特許データを用いた抗体人間性予測の改善

Improving Antibody Humanness Prediction using Patent Data ( http://arxiv.org/abs/2401.14442v2 )

ライセンス: Link先を確認
Talip Ucar, Aubin Ramon, Dino Oglic, Rebecca Croasdale-Wood, Tom Diethe, Pietro Sormanni(参考訳) マルチステージ・マルチロス・トレーニングプロセスを用いて,抗体の人間性予測を改善するための特許データの可能性を検討する。 人間性は、抗体治療に対する免疫原性反応の指標となり、薬物の発見における主要な原因の1つであり、臨床での使用において困難である。 我々は,初期学習段階を弱い教師付きコントラスト学習問題として位置づけ,各抗体配列は多種の関数の識別子と関連付けられ,その特性に応じてそれらをグループ化するエンコーダを学習することを目的としている。 次に、コントラストエンコーダの一部を凍結し、クロスエントロピー損失を用いて特許データに基づいてトレーニングし、与えられた抗体配列の人間性スコアを予測する。 トレーニング中に見つからない3つの異なる免疫原性データセットを推論することにより,特許データの有用性とアプローチについて述べる。 実験結果から,学習モデルは6つの推論タスクのうち5つにおいて,代替ベースラインを一貫して上回り,新しい最先端を確立できることを示した。

We investigate the potential of patent data for improving the antibody humanness prediction using a multi-stage, multi-loss training process. Humanness serves as a proxy for the immunogenic response to antibody therapeutics, one of the major causes of attrition in drug discovery and a challenging obstacle for their use in clinical settings. We pose the initial learning stage as a weakly-supervised contrastive-learning problem, where each antibody sequence is associated with possibly multiple identifiers of function and the objective is to learn an encoder that groups them according to their patented properties. We then freeze a part of the contrastive encoder and continue training it on the patent data using the cross-entropy loss to predict the humanness score of a given antibody sequence. We illustrate the utility of the patent data and our approach by performing inference on three different immunogenicity datasets, unseen during training. Our empirical results demonstrate that the learned model consistently outperforms the alternative baselines and establishes new state-of-the-art on five out of six inference tasks, irrespective of the used metric.
翻訳日:2024-02-01 16:51:30 公開日:2024-01-31
# 意味的感度と矛盾予測:NLIモデルの脆弱性の測定

Semantic Sensitivities and Inconsistent Predictions: Measuring the Fragility of NLI Models ( http://arxiv.org/abs/2401.14440v2 )

ライセンス: Link先を確認
Erik Arakelyan, Zhaoqi Liu, Isabelle Augenstein(参考訳) トランスフォーマティブ・ベースの自然言語理解(nlu)モデルの創発的能力に関する最近の研究は、語彙的および構成的意味論の理解を持っていることを示している。 現状の自然言語推論(NLI)モデルは、表面形状の変動を保ったマイナーセマンティクスに敏感であり、推論中に大きな一貫性のないモデル決定をもたらすことが判明した。 特に、この振る舞いは構成意味論の妥当性と深い理解とは異なっているが、標準ベンチマークでのモデル精度の評価や、構文、単調、論理的に堅牢な推論の探索には現れない。 意味感受性の程度を測定するための新しい枠組みを提案する。 そこで本論文では,表層形状の入力雑音を保存した逆生成例のNLIモデルを評価する。 これは、NLIモデルが元の入力と逆入力の関係を対称同値関係として予測するという明示的な条件で条件付きテキスト生成によって達成される。 我々は,この現象がNLIモデル全体に与える影響を,$\textbf{in-}$と$\textbf{out-of-}$ドメイン設定に対して体系的に研究する。 我々の実験では、セマンティックセンシティブは、それぞれ$\textbf{in-}$と$\textbf{out-of-}$ドメイン設定に対して平均$12.92\%と$23.71\%のパフォーマンス劣化を引き起こす。 さらにアブレーション研究を行い,モデル,データセット,推論のバリエーションをまたいだ解析を行い,モデル予測において意味的感度が大きな不整合をもたらすことを示した。

Recent studies of the emergent capabilities of transformer-based Natural Language Understanding (NLU) models have indicated that they have an understanding of lexical and compositional semantics. We provide evidence that suggests these claims should be taken with a grain of salt: we find that state-of-the-art Natural Language Inference (NLI) models are sensitive towards minor semantics preserving surface-form variations, which lead to sizable inconsistent model decisions during inference. Notably, this behaviour differs from valid and in-depth comprehension of compositional semantics, however does neither emerge when evaluating model accuracy on standard benchmarks nor when probing for syntactic, monotonic, and logically robust reasoning. We propose a novel framework to measure the extent of semantic sensitivity. To this end, we evaluate NLI models on adversarially generated examples containing minor semantics-preserving surface-form input noise. This is achieved using conditional text generation, with the explicit condition that the NLI model predicts the relationship between the original and adversarial inputs as a symmetric equivalence entailment. We systematically study the effects of the phenomenon across NLI models for $\textbf{in-}$ and $\textbf{out-of-}$ domain settings. Our experiments show that semantic sensitivity causes performance degradations of $12.92\%$ and $23.71\%$ average over $\textbf{in-}$ and $\textbf{out-of-}$ domain settings, respectively. We further perform ablation studies, analysing this phenomenon across models, datasets, and variations in inference and show that semantic sensitivity can lead to major inconsistency within model predictions.
翻訳日:2024-02-01 16:51:11 公開日:2024-01-31
# panaf20k:野生の猿の検出と行動認識のための大規模ビデオデータセット

PanAf20K: A Large Video Dataset for Wild Ape Detection and Behaviour Recognition ( http://arxiv.org/abs/2401.13554v2 )

ライセンス: Link先を確認
Otto Brookes, Majid Mirmehdi, Colleen Stephens, Samuel Angedakin, Katherine Corogenes, Dervla Dowd, Paula Dieguez, Thurston C. Hicks, Sorrel Jones, Kevin Lee, Vera Leinert, Juan Lapuente, Maureen S. McCarthy, Amelia Meier, Mizuki Murai, Emmanuelle Normand, Virginie Vergnes, Erin G. Wessling, Roman M. Wittig, Kevin Langergraber, Nuria Maldonado, Xinyu Yang, Klaus Zuberbuhler, Christophe Boesch, Mimi Arandjelovic, Hjalmar Kuhl, Tilo Burghardt(参考訳) 我々は,自然環境において類人猿の最大かつ最も多様なオープンアクセスアノテートビデオデータセットであるpanaf20kデータセットを提案する。 約2万本のチンパンジーとゴリラのカメラトラップビデオが、パンアフリカプログラムの一環として、熱帯アフリカの14のフィールドサイトから収集された700万フレーム以上からなる。 映像には豊富なアノテーションとベンチマークが付属しており、猿の検出や行動認識など、さまざまな挑戦的で生態学的に重要なコンピュータビジョンタスクのトレーニングとテストに適している。 国際自然保護連合(international union for conservation of nature)は、大型猿科の全ての種を絶滅危惧種または絶滅危惧種としてリストアップしているため、カメラトラップ情報のai分析は極めて重要である。 データセットがAIコミュニティの関与の確固たる基盤を形成し、パフォーマンス、効率、結果の解釈を改善し、類人猿の存在、豊富さ、分布、行動の評価を支援し、保存活動を支援することを願っている。

We present the PanAf20K dataset, the largest and most diverse open-access annotated video dataset of great apes in their natural environment. It comprises more than 7 million frames across ~20,000 camera trap videos of chimpanzees and gorillas collected at 14 field sites in tropical Africa as part of the Pan African Programme: The Cultured Chimpanzee. The footage is accompanied by a rich set of annotations and benchmarks making it suitable for training and testing a variety of challenging and ecologically important computer vision tasks including ape detection and behaviour recognition. Furthering AI analysis of camera trap information is critical given the International Union for Conservation of Nature now lists all species in the great ape family as either Endangered or Critically Endangered. We hope the dataset can form a solid basis for engagement of the AI community to improve performance, efficiency, and result interpretation in order to support assessments of great ape presence, abundance, distribution, and behaviour and thereby aid conservation efforts.
翻訳日:2024-02-01 16:50:40 公開日:2024-01-31
# 点雲表現と拡散モデルによる結晶構造生成設計

Generative Design of Crystal Structures by Point Cloud Representations and Diffusion Model ( http://arxiv.org/abs/2401.13192v2 )

ライセンス: Link先を確認
Zhelin Li, Rami Mrad, Runxian Jiao, Guan Huang, Jun Shan, Shibing Chu and Yuanping Chen(参考訳) エネルギー的に安定な結晶構造を効果的に生成することは、主に結晶格子内の原子の配置によって、材料設計において長年の課題であった。 安定な物質の発見を容易にするために, 点雲表現を利用して複雑な構造情報を符号化し, 合成可能な材料を生成する枠組みを提案する。 この枠組みの核心は、基本的な柱として拡散モデルを導入することである。 提案手法の有効性を評価するため,トレーニングデータセットから入力構造を再構築し,高い復元性能を厳格に検証した。 さらに,全く新しい物質を生成し,その合成性を強調することにより,ポイントクラウドベースの結晶拡散(PCCD)の可能性を示す。 本研究は, 従来の代替や経験に基づく発見ではなく, 創発的設計の最先端の道を通して, 材料設計と合成の進歩に注目すべき貢献である。

Efficiently generating energetically stable crystal structures has long been a challenge in material design, primarily due to the immense arrangement of atoms in a crystal lattice. To facilitate the discovery of stable material, we present a framework for the generation of synthesizable materials, leveraging a point cloud representation to encode intricate structural information. At the heart of this framework lies the introduction of a diffusion model as its foundational pillar. To gauge the efficacy of our approach, we employ it to reconstruct input structures from our training datasets, rigorously validating its high reconstruction performance. Furthermore, we demonstrate the profound potential of Point Cloud-Based Crystal Diffusion (PCCD) by generating entirely new materials, emphasizing their synthesizability. Our research stands as a noteworthy contribution to the advancement of materials design and synthesis through the cutting-edge avenue of generative design instead of the conventional substitution or experience-based discovery.
翻訳日:2024-02-01 16:50:23 公開日:2024-01-31
# パラメタライズド量子回路の局所ハミルトン分解と古典シミュレーション

Local Hamiltonian decomposition and classical simulation of parametrized quantum circuits ( http://arxiv.org/abs/2401.13156v2 )

ライセンス: Link先を確認
Bibhas Adhikari, Aryan Jha(参考訳) 本稿では,1量子ビットと2量子ビットの制御ゲートの総数を$k$とするn$ qubitsのパラメトリ化量子回路 (pqcs) をシミュレートする計算量$o(k \, 2^n)$の古典的なアルゴリズムを開発した。 このアルゴリズムは、$n$-qubitシステムにおいて、任意のシングルキュービットと2キュービットの制御ゲートに明示的に対応して、2^n$のスパースユニタリ行列を求めることによって開発される。 最後に、そのようなゲートに対するハミルトニアンの解析的表現を決定し、従って任意のPQCの局所ハミルトニアン分解が得られる。 全ての結果は数値シミュレーションで検証される。

In this paper we develop a classical algorithm of complexity $O(K \, 2^n)$ to simulate parametrized quantum circuits (PQCs) of $n$ qubits, where $K$ is the total number of one-qubit and two-qubit control gates. The algorithm is developed by finding $2$-sparse unitary matrices of order $2^n$ explicitly corresponding to any single-qubit and two-qubit control gates in an $n$-qubit system. Finally, we determine analytical expression of Hamiltonians for any such gate and consequently a local Hamiltonian decomposition of any PQC is obtained. All results are validated with numerical simulations.
翻訳日:2024-02-01 16:50:09 公開日:2024-01-31
# sphera lcaとecoinventデータベースを用いたbitcoinマイニング機器のクレードル-ゲート間ライフサイクル解析

A Cradle-to-Gate Life Cycle Analysis of Bitcoin Mining Equipment Using Sphera LCA and ecoinvent Databases ( http://arxiv.org/abs/2401.17512v1 )

ライセンス: Link先を確認
Ludmila Courtillat--Piazza and Thibault Pirson and Louis Golard and David Bol(参考訳) ビットコインマイニングは、大量のエネルギー消費と温室効果ガス排出量が原因で定期的に指摘されており、気候変動に大きく寄与している。 しかし、多くの研究は鉱業機器の製造による環境への影響を無視しており、これは非常に特殊なハードウェアの寿命が短いことを考えると問題である。 本研究では,専用Bitcoin採掘装置の特定の構造を考慮したLCA(cradle-to-gate Life cycle Assessment)を行う。 その結果、bitcoinマイニング用に設計されたアプリケーション固有の集積回路が、プロダクション関連の影響の主な要因であることがわかった。 この観測は、地球温暖化の可能性を含むほとんどの影響カテゴリに適用される。 さらに、この発見はハードウェアの特異性を慎重に検討する必要性を強調している。 これらの結果をいくつかの利用シナリオと比較することにより,使用段階の電力供給源によっては,このタイプの機器を生産することによる影響が著しく(ライフサイクルへの影響の最大80%)あることを実証する。 そこで本研究では,bitcoinマイニングハードウェアの環境影響を評価する際に,生産段階を考える必要性を浮き彫りにする。 この結果の有効性を検証するために,Sphera LCAとecoinventデータベースを用いて,システムの背景モデリングを行った。 驚くべきことに、同じフォアグラウンドモデリングを使用しているにもかかわらず、毒性関連指標の最大4桁の変動をもたらす。 このデータベースのミスマッチ現象は、以前の研究で既に特定されており、電子機器の分野における環境への影響をよりよく理解し、検討し、議論し、気候変動の指標を超えている。

Bitcoin mining is regularly pointed out for its massive energy consumption and associated greenhouse gas emissions, hence contributing significantly to climate change. However, most studies ignore the environmental impacts of producing mining equipment, which is problematic given the short lifespan of such highly specific hardware. In this study, we perform a cradle-to-gate life cycle assessment (LCA) of dedicated Bitcoin mining equipment, considering their specific architecture. Our results show that the application-specific integrated circuit designed for Bitcoin mining is the main contributor to production-related impacts. This observation applies to most impact categories, including the global warming potential. In addition, this finding stresses out the necessity to carefully consider the specificity of the hardware. By comparing these results with several usage scenarios, we also demonstrate that the impacts of producing this type of equipment can be significant (up to 80% of the total life cycle impacts), depending on the sources of electricity supply for the use phase. Therefore, we highlight the need to consider the production phase when assessing the environmental impacts of Bitcoin mining hardware. To test the validity of our results, we use the Sphera LCA and ecoinvent databases for the background modeling of our system. Surprisingly, it leads to results with variations of up to 4 orders of magnitude for toxicity-related indicators, despite using the same foreground modeling. This database mismatch phenomenon, already identified in previous studies, calls for better understanding, consideration and discussion of environmental impacts in the field of electronics, going well beyond climate change indicators.
翻訳日:2024-02-01 16:18:54 公開日:2024-01-31
# ノイズ量子カーネルの電力特性評価

Power Characterization of Noisy Quantum Kernels ( http://arxiv.org/abs/2401.17526v1 )

ライセンス: Link先を確認
Yabo Wang, Bo Qi, Xin Wang, Tongliang Liu and Daoyi Dong(参考訳) 量子カーネル法は、量子の利点を達成する可能性を持つ有望な量子機械学習アルゴリズムの1つとして広く認識されている。 本稿では,ノイズ量子核のパワーを理論的に特徴付け,大域的非分極ノイズ下での入力データの違いにより,雑音量子核が推定する最適仮説の予測が一定の値にほぼ集中することを示す。 特に, 量子ノイズの強度, トレーニングサンプルのサイズ, 量子ビット数, 量子ノイズの影響を受ける層数, および計測ショット数の観点から, 収束速度を記述する。 その結果,一般化誤差が小さい場合でも,ノイズにより量子カーネル手法は予測能力に乏しいものとなりうることがわかった。 したがって,量子計算にノイズのある量子カーネル法を用いるための重要な警告を与えるとともに,量子の利点を達成するための実用的な量子カーネルアルゴリズムを開発する際に,理論的な結果がガイドラインとなる。

Quantum kernel methods have been widely recognized as one of promising quantum machine learning algorithms that have potential to achieve quantum advantages. In this paper, we theoretically characterize the power of noisy quantum kernels and demonstrate that under global depolarization noise, for different input data the predictions of the optimal hypothesis inferred by the noisy quantum kernel approximately concentrate towards some fixed value. In particular, we depict the convergence rate in terms of the strength of quantum noise, the size of training samples, the number of qubits, the number of layers affected by quantum noises, as well as the number of measurement shots. Our results show that noises may make quantum kernel methods to only have poor prediction capability, even when the generalization error is small. Thus, we provide a crucial warning to employ noisy quantum kernel methods for quantum computation and the theoretical results can also serve as guidelines when developing practical quantum kernel algorithms for achieving quantum advantages.
翻訳日:2024-02-01 16:06:12 公開日:2024-01-31
# ゲーム理論未学習事例生成装置

Game-Theoretic Unlearnable Example Generator ( http://arxiv.org/abs/2401.17523v1 )

ライセンス: Link先を確認
Shuang Liu and Yihan Wang and Xiao-Shan Gao(参考訳) 学習不能な例として、トレーニングサンプルに知覚不能な摂動を加えることで、ディープラーニングのクリーンなテスト精度を低下させることを目的としたデータ中毒攻撃がある。 しかし、この最適化問題を直接解くことはディープニューラルネットワークにとって難解である。 本稿では,非ゼロ和スタックルバーグゲームとしてアタックを定式化することにより,ゲーム理論の観点からの未知例攻撃について検討する。 まず、ゲーム平衡の存在は、通常設定と逆トレーニング設定の下で証明される。 ゲーム平衡は、ある損失関数が使用される場合、犠牲者が同じ仮説空間内の全てのネットワークの中で最も低いテスト精度を有するという最も強力な毒攻撃を与える。 第2に,3つの主要な勾配を持つGUE(Game Unlearnable Example)と呼ばれる新たな攻撃手法を提案する。 1) 毒は, ダッケルベルクゲームの平衡を直接1次アルゴリズムで解くことによって得られる。 2) 毒物攻撃者にはオートエンコーダのような生成ネットワークモデルを用いる。 3) 毒物の性能を評価するために, 新たな給付機能を導入する。 総合的な実験により、GUEは様々なシナリオで効果的にモデルに悪影響を及ぼすことを示した。 さらに、GUEは、訓練データの比較的小さなパーセンテージを使用してジェネレータを訓練し、毒発生器は、よく見えないデータに一般化することができる。 実装コードはhttps://github.com/hong-xian/gueで確認できます。

Unlearnable example attacks are data poisoning attacks aiming to degrade the clean test accuracy of deep learning by adding imperceptible perturbations to the training samples, which can be formulated as a bi-level optimization problem. However, directly solving this optimization problem is intractable for deep neural networks. In this paper, we investigate unlearnable example attacks from a game-theoretic perspective, by formulating the attack as a nonzero sum Stackelberg game. First, the existence of game equilibria is proved under the normal setting and the adversarial training setting. It is shown that the game equilibrium gives the most powerful poison attack in that the victim has the lowest test accuracy among all networks within the same hypothesis space, when certain loss functions are used. Second, we propose a novel attack method, called the Game Unlearnable Example (GUE), which has three main gradients. (1) The poisons are obtained by directly solving the equilibrium of the Stackelberg game with a first-order algorithm. (2) We employ an autoencoder-like generative network model as the poison attacker. (3) A novel payoff function is introduced to evaluate the performance of the poison. Comprehensive experiments demonstrate that GUE can effectively poison the model in various scenarios. Furthermore, the GUE still works by using a relatively small percentage of the training data to train the generator, and the poison generator can generalize to unseen data well. Our implementation code can be found at https://github.com/hong-xian/gue.
翻訳日:2024-02-01 16:05:56 公開日:2024-01-31
# イメージセマンティクスと構文シーケンス学習に向けて

Towards Image Semantics and Syntax Sequence Learning ( http://arxiv.org/abs/2401.17515v1 )

ライセンス: Link先を確認
Chun Tao, Timur Ibrayev, Kaushik Roy(参考訳) 畳み込みニューラルネットワークと視覚トランスフォーマーは、特に画像分類において、機械知覚において優れた性能を達成している。 これらの画像分類器は、画像レベルのクラスラベルの予測に優れているが、オブジェクト内の欠落やシフト部分の判別には適さない。 その結果、オブジェクト構成に欠落または非表示の意味情報を含む破損したイメージを検出できない可能性がある。 逆に、人間の知覚はそのような腐敗を区別しやすい。 画像意味論」と「画像構文」からなる「画像文法」の概念を導入し、画像の一部やパッチの意味やそれらの部分の順序を表現し、有意義なオブジェクトを作成する。 視覚オブジェクト/シーンのクラスに対する画像文法を学ぶために,弱い教師付き二段階アプローチを提案する。 第1段階では、反復的なクラスタリングと機能改良に依存した深いクラスタリングフレームワークを使用して、パートセグメンテーションを作成します。 第2段階では、リカレントなbi-LSTMモジュールを組み込んで、セマンティックセグメンテーションパッチのシーケンスを処理し、画像構文をキャプチャする。 私たちのフレームワークはパッチセマンティクスを推論し、欠陥構文を検出するように訓練されています。 パッチ破損検出における文法学習モデルの性能をベンチマークする。 最後に,CelebおよびSUNRGBDデータセットにおけるフレームワークの機能を検証するとともに,多種多様な意味的・構文的腐敗シナリオにおいて,70~90%の文法検証精度を達成可能であることを示す。

Convolutional neural networks and vision transformers have achieved outstanding performance in machine perception, particularly for image classification. Although these image classifiers excel at predicting image-level class labels, they may not discriminate missing or shifted parts within an object. As a result, they may fail to detect corrupted images that involve missing or disarrayed semantic information in the object composition. On the contrary, human perception easily distinguishes such corruptions. To mitigate this gap, we introduce the concept of "image grammar", consisting of "image semantics" and "image syntax", to denote the semantics of parts or patches of an image and the order in which these parts are arranged to create a meaningful object. To learn the image grammar relative to a class of visual objects/scenes, we propose a weakly supervised two-stage approach. In the first stage, we use a deep clustering framework that relies on iterative clustering and feature refinement to produce part-semantic segmentation. In the second stage, we incorporate a recurrent bi-LSTM module to process a sequence of semantic segmentation patches to capture the image syntax. Our framework is trained to reason over patch semantics and detect faulty syntax. We benchmark the performance of several grammar learning models in detecting patch corruptions. Finally, we verify the capabilities of our framework in Celeb and SUNRGBD datasets and demonstrate that it can achieve a grammar validation accuracy of 70 to 90% in a wide variety of semantic and syntactical corruption scenarios.
翻訳日:2024-02-01 16:05:34 公開日:2024-01-31
# FEUDA: フラストレーションやすいプロンプトベースの教師なしドメイン適応

FEUDA: Frustratingly Easy Prompt Based Unsupervised Domain Adaptation ( http://arxiv.org/abs/2401.17514v1 )

ライセンス: Link先を確認
Rheeya Uppaal, Yixuan Li, Junjie Hu(参考訳) unsupervised domain adaptation(uda)メソッドの主要なスレッドは、ソースとターゲットの両方のドメインからのラベルなしデータを使用して、適応のためのドメイン不変表現を学習する。 しかし、これらの手法には一定の制限があり、継続した事前学習を通じて自己指導型学習を奨励している。 入力例をテンプレートで修正し、言語モデル(LM)に入力してラベル文字列を生成する、プロンプトベースの分類フレームワークでは、継続した事前トレーニングやドメイン不変表現の学習の必要性はまだ不明である。 本稿では,このUDAの新たなパラダイムを即時設定で検証するために,2つの異なる命令チューニングタスクを用いて,ラベル付きおよびラベル付きの両方で自己回帰的LMをトレーニングする,フラストレーションに簡単なUDA手法(FEUDA)を提案する。 特に、最初のタスクは、マスク言語モデリング(mlm)を介して両方のドメインのラベルなしテキストでlmを訓練し、もう一方は分類のためにソースラベルデータに対する教師付き命令チューニングを使用する。 我々は,24個の実世界のドメインペアに対して,強力なドメイン不変学習法に対する提案手法の有効性を示す広範な実験を行った。 本分析では,プロンプトベースUDAにおいて,マスキング言語モデリングがターゲットドメイン分類性能を向上させる理由を考察した。 MLMはドメインのセマンティック知識と背景知識の両方を学ぶのに役立ち、どちらも下流の分類に役立ちます。

A major thread of unsupervised domain adaptation (UDA) methods uses unlabeled data from both source and target domains to learn domain-invariant representations for adaptation. However, these methods showcase certain limitations, encouraging the use of self-supervised learning through continued pre-training. The necessity of continued pre-training or learning domain-invariant representations is still unclear in the prompt-based classification framework, where an input example is modified by a template and then fed into a language model (LM) to generate a label string. To examine this new paradigm of UDA in the prompt-based setup, we propose a frustratingly easy UDA method (FEUDA) that trains an autoregressive LM on both unlabeled and labeled examples using two different instruction-tuning tasks. Specifically, the first task trains the LM on unlabeled texts from both domains via masked language modeling (MLM), and the other uses supervised instruction-tuning on source-labeled data for classification. We conduct extensive experiments on 24 real-world domain pairs to show the effectiveness of our method over strong domain-invariant learning methods. Our analysis sheds light on why masked language modeling improves target-domain classification performance in prompt-based UDA. We discover that MLM helps the model learn both semantic and background knowledge of a domain, which are both beneficial for downstream classification.
翻訳日:2024-02-01 16:05:06 公開日:2024-01-31
# 局所ニューラルネットワークと有限要素入力データを用いたPNPイオンチャネル深層学習法

A PNP ion channel deep learning solver with local neural network and finite element input data ( http://arxiv.org/abs/2401.17513v1 )

ライセンス: Link先を確認
Hwi Lee, Zhen Chao, Harris Cobb, Yingjie Liu, Dexuan Xie(参考訳) 本稿では,PNPic Deep Learning solverと呼ばれる改良された1次元ポアソン・ナンスト・プランクイオンチャネル(PNPic)モデルについて述べる。 特に、新しい局所ニューラルネットワークスキームと効果的なpnpic有限要素ソルバを組み合わせる。 ニューラルネットワークスキームの入力データは、有限要素ソルバが迅速に生成できる粗いグリッド解の小さな局所パッチのみを含むため、PNPicディープラーニングソルバは、対応する従来のグローバルニューラルネットワークソルバよりもはるかに高速に訓練することができる。 適切に訓練された後、低コストの粗いグリッドソリューションよりもはるかに高い精度で予測されたpnpicソリューションを出力することができ、パラメータ、イオンチャネルサブリージョン、界面および境界値などの異なる摂動ケースを反映することができる。 これにより、PNPicディープラーニング解法は、PNPicモデルのファミリーに対して高い精度で数値解を生成することができる。 最初の研究では、pnpicモデルの1つのパラメータと2つのパラメータをそれぞれ摂動させることで2種類の数値実験を行い、またモデルのいくつかの摂動した界面位置をトレーニングサンプルとして使って実験を行った。 これらの実験により, PNPic 深層学習解法は高精度な PNPic 数値解を生成することができることが示された。

In this paper, a deep learning method for solving an improved one-dimensional Poisson-Nernst-Planck ion channel (PNPic) model, called the PNPic deep learning solver, is presented. In particular, it combines a novel local neural network scheme with an effective PNPic finite element solver. Since the input data of the neural network scheme only involves a small local patch of coarse grid solutions, which the finite element solver can quickly produce, the PNPic deep learning solver can be trained much faster than any corresponding conventional global neural network solvers. After properly trained, it can output a predicted PNPic solution in a much higher degree of accuracy than the low cost coarse grid solutions and can reflect different perturbation cases on the parameters, ion channel subregions, and interface and boundary values, etc. Consequently, the PNPic deep learning solver can generate a numerical solution with high accuracy for a family of PNPic models. As an initial study, two types of numerical tests were done by perturbing one and two parameters of the PNPic model, respectively, as well as the tests done by using a few perturbed interface positions of the model as training samples. These tests demonstrate that the PNPic deep learning solver can generate highly accurate PNPic numerical solutions.
翻訳日:2024-02-01 16:04:38 公開日:2024-01-31
# リスク予測モデルにおける言語学的不確実性

Linguistically Communicating Uncertainty in Patient-Facing Risk Prediction Models ( http://arxiv.org/abs/2401.17511v1 )

ライセンス: Link先を確認
Adarsa Sivaprasad and Ehud Reiter(参考訳) 本稿では,aiモデルの不確実性定量化に関連するユニークな課題を,医療における患者対応コンテキストに適用する。 モデル開発者やドメインエキスパートに適した従来のeXplainable Artificial Intelligence(XAI)メソッドとは異なり、自然言語でのコミュニケーションに関する追加の考慮が必要である。 リスク予測の文脈において,自然言語を用いたコミュニケーションモデルの性能,信頼性,推論,未知知識の課題を明らかにする。 本研究では,これらの課題に対処するための設計を提案し,環境内受精結果予測の具体的適用に焦点をあてる。

This paper addresses the unique challenges associated with uncertainty quantification in AI models when applied to patient-facing contexts within healthcare. Unlike traditional eXplainable Artificial Intelligence (XAI) methods tailored for model developers or domain experts, additional considerations of communicating in natural language, its presentation and evaluating understandability are necessary. We identify the challenges in communication model performance, confidence, reasoning and unknown knowns using natural language in the context of risk prediction. We propose a design aimed at addressing these challenges, focusing on the specific application of in-vitro fertilisation outcome prediction.
翻訳日:2024-02-01 16:04:14 公開日:2024-01-31
# 3次元拡散モデルに基づく[18F]F-FDG PET/CT画像からの頭頸部腫瘍分離

Head and Neck Tumor Segmentation from [18F]F-FDG PET/CT Images Based on 3D Diffusion Model ( http://arxiv.org/abs/2401.17593v1 )

ライセンス: Link先を確認
Yafei Dong and Kuang Gong(参考訳) 頭頸部癌(H&N)は世界で最も多いがんの1つであり,[18F]F-FDG PET/CTはH&N癌管理に広く用いられている。 近年,様々な画像生成タスクにおいて拡散モデルが顕著な性能を示した。 本研究では,3D PETおよびCTボリュームからH&N腫瘍の分画を正確に行うための3次元拡散モデルを提案する。 PET画像とCT画像の3次元特性を考慮した3次元拡散モデルを開発した。 逆過程において, モデルでは3次元unet構造を用い, pet, ct, ガウスノイズをネットワーク入力として結合して腫瘍マスクを生成する。 提案する拡散モデルの有効性を評価するため,hecktor challengeデータセットを用いた実験を行った。 U-NetとTransformer構造に基づく最先端技術が参照手法として採用された。 PETとCTの両方をネットワーク入力とし,さらに拡散モデルを2次元から3次元に拡張する効果を,様々な定量的指標と不確実性マップに基づいて検討した。 その結果,提案した3次元拡散モデルにより,他の手法と比較してより正確なセグメンテーション結果が得られた。 2次元の拡散モデルと比較すると,提案する3次元モデルの方が優れた結果を得た。 また,H&N腫瘍セグメンテーションのための単一モダリティデータのみを用いた二重モダリティPETおよびCTデータの有用性を強調した。

Head and neck (H&N) cancers are among the most prevalent types of cancer worldwide, and [18F]F-FDG PET/CT is widely used for H&N cancer management. Recently, the diffusion model has demonstrated remarkable performance in various image-generation tasks. In this work, we proposed a 3D diffusion model to accurately perform H&N tumor segmentation from 3D PET and CT volumes. The 3D diffusion model was developed considering the 3D nature of PET and CT images acquired. During the reverse process, the model utilized a 3D UNet structure and took the concatenation of PET, CT, and Gaussian noise volumes as the network input to generate the tumor mask. Experiments based on the HECKTOR challenge dataset were conducted to evaluate the effectiveness of the proposed diffusion model. Several state-of-the-art techniques based on U-Net and Transformer structures were adopted as the reference methods. Benefits of employing both PET and CT as the network input as well as further extending the diffusion model from 2D to 3D were investigated based on various quantitative metrics and the uncertainty maps generated. Results showed that the proposed 3D diffusion model could generate more accurate segmentation results compared with other methods. Compared to the diffusion model in 2D format, the proposed 3D model yielded superior results. Our experiments also highlighted the advantage of utilizing dual-modality PET and CT data over only single-modality data for H&N tumor segmentation.
翻訳日:2024-02-01 15:54:03 公開日:2024-01-31
# ディープラーニング時代のひずみ推定にタグ付きMRの登録は十分か?

Is Registering Raw Tagged-MR Enough for Strain Estimation in the Era of Deep Learning? ( http://arxiv.org/abs/2401.17571v1 )

ライセンス: Link先を確認
Zhangxing Bian, Ahmed Alshareef, Shuwen Wei, Junyu Chen, Yuli Wang, Jonghye Woo, Dzung L. Pham, Jiachen Zhuo, Aaron Carass, Jerry L. Prince(参考訳) タギング(tmri)を用いた磁気共鳴イメージングは、変形中の組織運動とひずみの定量化に長く用いられてきた。 しかし、タグフェージングとして知られる現象は、タグの可視性が徐々に低下し、後処理が複雑になることが多い。 本研究の最初の貢献は、$T_1$緩和と連続撮像におけるRFパルスの繰り返し適用との相互作用を考慮し、タグのフェージングをモデル化することである。 これは、tMRI後処理に関する以前の研究で見過ごされてきた要因である。 さらに, 動き推定のための深層学習ベース (DL) 登録フレームワークにおいて, 生のタグ付きMRIを利用する新たな傾向がみられた。 本研究では,画像類似性が生tmriのdl登録訓練に与える影響を評価し,解析する。 これはハーモニックフェーズベースのアプローチと比較されるが、これはタグのフェーディングに堅牢であると主張する伝統的なアプローチである。 シミュレーション画像と実ファントムスキャンの両方から得られた知見は、生のtMRIにおける様々な類似性損失の限界を明らかにし、画像強度が経時的に変化する登録タスクに注意を払っている。

Magnetic Resonance Imaging with tagging (tMRI) has long been utilized for quantifying tissue motion and strain during deformation. However, a phenomenon known as tag fading, a gradual decrease in tag visibility over time, often complicates post-processing. The first contribution of this study is to model tag fading by considering the interplay between $T_1$ relaxation and the repeated application of radio frequency (RF) pulses during serial imaging sequences. This is a factor that has been overlooked in prior research on tMRI post-processing. Further, we have observed an emerging trend of utilizing raw tagged MRI within a deep learning-based (DL) registration framework for motion estimation. In this work, we evaluate and analyze the impact of commonly used image similarity objectives in training DL registrations on raw tMRI. This is then compared with the Harmonic Phase-based approach, a traditional approach which is claimed to be robust to tag fading. Our findings, derived from both simulated images and an actual phantom scan, reveal the limitations of various similarity losses in raw tMRI and emphasize caution in registration tasks where image intensity changes over time.
翻訳日:2024-02-01 15:53:39 公開日:2024-01-31
# ニューラルネットワーク量子状態の2次最適化戦略

Second-order optimisation strategies for neural network quantum states ( http://arxiv.org/abs/2401.17550v1 )

ライセンス: Link先を確認
M. Drissi, J. W. T. Keeble, J. Rozal\'en Sarmiento, A. Rios(参考訳) 変分モンテカルロ法は近年、ニューラルネットワーク量子状態を用いることで重要な進歩を遂げている。 より洗練された ans\atze は、様々な量子多体問題に対処するために設計されてきたが、関連する最適化アルゴリズムの進歩は緩やかである。 本研究では,様々なシミュレーションで広く用いられているオプティマイザであるKronecker Factored Approximate Curvatureを再検討する。 私たちは、スケーリングとこのオプティマイザーの方向性の改善を提案し、パフォーマンスを無視できない追加コストで大幅に向上させることを見出します。 また,ゲーム理論の枠組みでモンテカルロ変分法を再構成し,決定幾何学に基づく新しいオプティマイザを提案する。 この新たなオプティマイザは, 連続システムの実用的テストケースにおいて, 安定性, 精度, 収束速度の面で, KFACの改善を常に上回っていることがわかった。 変分モンテカルロ以外にも、このアプローチの万能性は、決定幾何学が幅広い機械学習アルゴリズムを加速するための確かな基盤となることを示唆している。

The Variational Monte Carlo method has recently seen important advances through the use of neural network quantum states. While more and more sophisticated ans\"atze have been designed to tackle a wide variety of quantum many-body problems, modest progress has been made on the associated optimisation algorithms. In this work, we revisit the Kronecker Factored Approximate Curvature, an optimiser that has been used extensively in a variety of simulations. We suggest improvements on the scaling and the direction of this optimiser, and find that they substantially increase its performance at a negligible additional cost. We also reformulate the Variational Monte Carlo approach in a game theory framework, to propose a novel optimiser based on decision geometry. We find that, on a practical test case for continuous systems, this new optimiser consistently outperforms any of the KFAC improvements in terms of stability, accuracy and speed of convergence. Beyond Variational Monte Carlo, the versatility of this approach suggests that decision geometry could provide a solid foundation for accelerating a broad class of machine learning algorithms.
翻訳日:2024-02-01 15:53:19 公開日:2024-01-31
# 多変量時系列予測におけるチャネル依存性の再考:先行指標からの学習

Rethinking Channel Dependence for Multivariate Time Series Forecasting: Learning from Leading Indicators ( http://arxiv.org/abs/2401.17548v1 )

ライセンス: Link先を確認
Lifan Zhao, Yanyan Shen(参考訳) 近年,多変量時系列(MTS)予測において,チャネル非依存の手法が最先端の性能を達成した。 過度に適合するリスクを減らすにもかかわらず、これらの手法は正確な予測のためにチャネル依存を利用する機会を逃している。 変数間では局所的に定常的な鉛-ラグ関係が存在する,すなわち,短時間で先行指標を追従できる,という議論がある。 このようなチャネル依存の活用は、先行指標が遅延変動の予測困難さを低減できる先行情報を提供するため、有益である。 本稿では,まず,先導指標とその先導ステップを各時間ステップごとに効率的に推定し,その後,先導指標からの先行情報を活用することができるliftという新しい手法を提案する。 LIFTは任意の時系列予測メソッドとシームレスに協調できるプラグインとして機能する。 6つの実世界のデータセットに対する大規模な実験により、LIFTは平均予測性能を5.5%改善した。

Recently, channel-independent methods have achieved state-of-the-art performance in multivariate time series (MTS) forecasting. Despite reducing overfitting risks, these methods miss potential opportunities in utilizing channel dependence for accurate predictions. We argue that there exist locally stationary lead-lag relationships between variates, i.e., some lagged variates may follow the leading indicators within a short time period. Exploiting such channel dependence is beneficial since leading indicators offer advance information that can be used to reduce the forecasting difficulty of the lagged variates. In this paper, we propose a new method named LIFT that first efficiently estimates leading indicators and their leading steps at each time step and then judiciously allows the lagged variates to utilize the advance information from leading indicators. LIFT plays as a plugin that can be seamlessly collaborated with arbitrary time series forecasting methods. Extensive experiments on six real-world datasets demonstrate that LIFT improves the state-of-the-art methods by 5.5% in average forecasting performance.
翻訳日:2024-02-01 15:52:59 公開日:2024-01-31
# タスク指向拡散モデル圧縮

Task-Oriented Diffusion Model Compression ( http://arxiv.org/abs/2401.17547v1 )

ライセンス: Link先を確認
Geonung Kim, Beomsu Kim, Eunhyeok Park, Sunghyun Cho(参考訳) 近年の大規模テキスト・ツー・イメージ(T2I)拡散モデルの発展により,高画質な画像生成が可能となった。 これらのI2Iモデルによって達成された印象的な結果にもかかわらず、その実用性は、その大きなモデルサイズと反復的復調過程の計算負担によって妨げられる。 本稿では,これらのi2iモデルの圧縮ポテンシャルをタスク指向で検討し,モデルサイズと時間ステップ数の両方を削減する新しい手法を提案する。 広範な実験を通じて、重要な洞察を観察し、経験的知識を用いて、最小限の探索コストで最適に近い結果を目指す実用的なソリューションを開発します。 画像編集にはInstructPix2Pix,画像復元にはStableSRを適用し,本手法の有効性を検証した。 提案手法では, モデルフットプリントの39.2%, 56.4%, 81.4%, 68.7%の遅延をそれぞれInstructPix2PixとStableSRに削減した。

As recent advancements in large-scale Text-to-Image (T2I) diffusion models have yielded remarkable high-quality image generation, diverse downstream Image-to-Image (I2I) applications have emerged. Despite the impressive results achieved by these I2I models, their practical utility is hampered by their large model size and the computational burden of the iterative denoising process. In this paper, we explore the compression potential of these I2I models in a task-oriented manner and introduce a novel method for reducing both model size and the number of timesteps. Through extensive experiments, we observe key insights and use our empirical knowledge to develop practical solutions that aim for near-optimal results with minimal exploration costs. We validate the effectiveness of our method by applying it to InstructPix2Pix for image editing and StableSR for image restoration. Our approach achieves satisfactory output quality with 39.2% and 56.4% reduction in model footprint and 81.4% and 68.7% decrease in latency to InstructPix2Pix and StableSR, respectively.
翻訳日:2024-02-01 15:52:43 公開日:2024-01-31
# エッジコンピューティング装置の侵入検知における効果的な多段階訓練モデル

Effective Multi-Stage Training Model For Edge Computing Devices In Intrusion Detection ( http://arxiv.org/abs/2401.17546v1 )

ライセンス: Link先を確認
Thua Huynh Trong, Thanh Nguyen Hoang(参考訳) 侵入検知は、拡張的で永続的な相互接続環境において重要な課題となる。 悪意のあるコードが進歩し、高度な攻撃方法が急増するにつれて、様々な高度なディープラーニングに基づく検出手法が提案されている。 それでも、侵入検出モデルの複雑さと正確性は、エッジコンピューティングシステムに埋め込まれたようなリソース制約のあるデバイスにおいて、より多様なシステムカテゴリに適応できるようにさらなる拡張が必要である。 本研究は、3段階のトレーニングパラダイムを導入し,改良型プルーニング手法とモデル圧縮手法によって強化する。 目的はシステムの有効性を高め、侵入検知のための高いレベルの精度を維持することである。 UNSW-NB15データセットで実施された実証的な評価では、このソリューションはモデルの大きさを著しく減らし、類似の提案と同等の精度を保っている。

Intrusion detection poses a significant challenge within expansive and persistently interconnected environments. As malicious code continues to advance and sophisticated attack methodologies proliferate, various advanced deep learning-based detection approaches have been proposed. Nevertheless, the complexity and accuracy of intrusion detection models still need further enhancement to render them more adaptable to diverse system categories, particularly within resource-constrained devices, such as those embedded in edge computing systems. This research introduces a three-stage training paradigm, augmented by an enhanced pruning methodology and model compression techniques. The objective is to elevate the system's effectiveness, concurrently maintaining a high level of accuracy for intrusion detection. Empirical assessments conducted on the UNSW-NB15 dataset evince that this solution notably reduces the model's dimensions, while upholding accuracy levels equivalent to similar proposals.
翻訳日:2024-02-01 15:52:22 公開日:2024-01-31
# ソフトウェア欠陥予測のための3段階調整回帰予測(TSARF)

Three-Stage Adjusted Regression Forecasting (TSARF) for Software Defect Prediction ( http://arxiv.org/abs/2401.17545v1 )

ライセンス: Link先を確認
Shadow Pritchard, Bhaskar Mitra, Vidhyashree Nagaraju(参考訳) ソフトウェア信頼性成長モデル(SRGM)は、テスト中に収集された障害データを可能にする。 特に、非均質なポアソン過程(nhpp)sgmが最も一般的に用いられるモデルである。 ソフトウェア信頼性の成長モデルは重要であるが、複雑なソフトウェアシステムの効率的なモデリングはモデルの複雑さを増大させる。 モデル複雑性の増大は、モデルパラメータを識別し、モデルの一般化可能性を低減するために、堅牢で計算効率のよいアルゴリズムを特定することの課題である。 従来のソフトウェア信頼性成長モデルに関する既存の研究は、NHPPモデルが欠陥データを滑らかな連続曲線として特徴づけ、欠陥発見プロセスの変化を捉えていないことを示唆している。 したがって、モデルは理想的な条件下ではうまく適合するが、適応可能ではなく、適切な形状のデータにのみ適合する。 ニューラルネットワークやその他の機械学習手法は、より大きな効果[5]に応用されてきたが、特にテストの初期段階では大量の欠陥データのサンプルが不足しているため、制限されている。

Software reliability growth models (SRGM) enable failure data collected during testing. Specifically, nonhomogeneous Poisson process (NHPP) SRGM are the most commonly employed models. While software reliability growth models are important, efficient modeling of complex software systems increases the complexity of models. Increased model complexity presents a challenge in identifying robust and computationally efficient algorithms to identify model parameters and reduces the generalizability of the models. Existing studies on traditional software reliability growth models suggest that NHPP models characterize defect data as a smooth continuous curve and fail to capture changes in the defect discovery process. Therefore, the model fits well under ideal conditions, but it is not adaptable and will only fit appropriately shaped data. Neural networks and other machine learning methods have been applied to greater effect [5], however limited due to lack of large samples of defect data especially at earlier stages of testing.
翻訳日:2024-02-01 15:52:09 公開日:2024-01-31
# FPGA上でのディープラーニング高速化のためのトレーニング可能な固定点量子化

Trainable Fixed-Point Quantization for Deep Learning Acceleration on FPGAs ( http://arxiv.org/abs/2401.17544v1 )

ライセンス: Link先を確認
Dingyi Dai, Yichi Zhang, Jiahao Zhang, Zhanqiu Hu, Yaohui Cai, Qi Sun, Zhiru Zhang(参考訳) 量子化は、組み込みFPGAのようなリソース制約のあるデバイスにディープラーニングモデルをデプロイするための重要な技術である。 BatchNormやショートカットなどの他のレイヤは浮動小数点演算の方がFPGAの方が効率的だが、それまでの取り組みは主に行列乗算の定量化に重点を置いていた。 一般的なプラクティスは、トレーニング済みモデルをFPGAデプロイメントの固定点に微調整するが、精度は低下する可能性がある。 この研究は、モデルトレーニング中に二点位置を自動的に学習する新しいトレーニング可能な固定点量子化手法であるQFXを示す。 さらに, qfx において, dsp の使用を最小限に抑えるために, マルチプライアフリー量子化戦略を導入する。 QFX は PyTorch ベースのライブラリとして実装され,FPGA HLS でサポートされている固定点演算を,バックプロパゲーション時に異なる方法で効率的にエミュレートする。 最小限の労力で、QFXでトレーニングされたモデルはHLSを通じて容易にデプロイでき、ソフトウェアと同じ数値結果が得られる。 評価の結果、後トレーニングの量子化と比較して、qfxは、より少ないビットに量子化され、cifar-10とimagenetの両方のデータセットで高い精度を達成できることがわかった。 さらに,組込みFPGA(AMD Xilinx Ultra96 v2)用に設計された最先端のバイナライズニューラルネットワークアクセラレータを用いた乗算器フリー量子化の有効性を示す。 オープンソース形式でQFXをリリースする予定です。

Quantization is a crucial technique for deploying deep learning models on resource-constrained devices, such as embedded FPGAs. Prior efforts mostly focus on quantizing matrix multiplications, leaving other layers like BatchNorm or shortcuts in floating-point form, even though fixed-point arithmetic is more efficient on FPGAs. A common practice is to fine-tune a pre-trained model to fixed-point for FPGA deployment, but potentially degrading accuracy. This work presents QFX, a novel trainable fixed-point quantization approach that automatically learns the binary-point position during model training. Additionally, we introduce a multiplier-free quantization strategy within QFX to minimize DSP usage. QFX is implemented as a PyTorch-based library that efficiently emulates fixed-point arithmetic, supported by FPGA HLS, in a differentiable manner during backpropagation. With minimal effort, models trained with QFX can readily be deployed through HLS, producing the same numerical results as their software counterparts. Our evaluation shows that compared to post-training quantization, QFX can quantize models trained with element-wise layers quantized to fewer bits and achieve higher accuracy on both CIFAR-10 and ImageNet datasets. We further demonstrate the efficacy of multiplier-free quantization using a state-of-the-art binarized neural network accelerator designed for an embedded FPGA (AMD Xilinx Ultra96 v2). We plan to release QFX in open-source format.
翻訳日:2024-02-01 15:51:53 公開日:2024-01-31
# データ影響学習: 総合的な医療ベンチマーク

Data-Effective Learning: A Comprehensive Medical Benchmark ( http://arxiv.org/abs/2401.17542v1 )

ライセンス: Link先を確認
Wenxuan Yang, Weimin Tan, Yuqi Sun, Bo Yan(参考訳) データ効率のよい学習は、AIモデルをトレーニングするための最も影響力のある方法でデータを使用することを目的としている。 データ効率のよい学習は、AIトレーニングの加速、計算コストの削減、データストレージの保存において重要な役割を担っている。 しかし、基準の欠如と総合的なベンチマークのため、医学データ有効学習の研究は不十分である。 そこで本研究では,医療分野におけるデータ有効学習を評価するための総合ベンチマークを提案する。 このベンチマークには、31の医療センター(DataDEL)からの数百万のデータサンプル、比較のためのベースライン手法(MedDEL)、データ有効学習性能を客観的に測定する新たな評価指標(NormDEL)を含む。 広範な実験結果から,meddelのベースラインは,データの5%に留まらず,オリジナルの大規模データセットに匹敵するパフォーマンスを実現することができた。 このようなオープンデータ効率の学習ベンチマークの確立は、効率的なデータ利用を促進し、協調的なブレークスルーを促進し、コスト効率、スケーラブル、影響力のある医療ソリューションの開発を促進するため、医療ai研究コミュニティにとって極めて重要である。 このプロジェクトはhttps://github.com/shadow2469/Data-Effective-Learning-A-Comprehensive-Medical-Benchmark.gitでアクセスできる。

Data-effective learning aims to use data in the most impactful way to train AI models, which involves strategies that focus on data quality rather than quantity, ensuring the data used for training has high informational value. Data-effective learning plays a profound role in accelerating AI training, reducing computational costs, and saving data storage, which is very important as the volume of medical data in recent years has grown beyond many people's expectations. However, due to the lack of standards and comprehensive benchmark, research on medical data-effective learning is poorly studied. To address this gap, our paper introduces a comprehensive benchmark specifically for evaluating data-effective learning in the medical field. This benchmark includes a dataset with millions of data samples from 31 medical centers (DataDEL), a baseline method for comparison (MedDEL), and a new evaluation metric (NormDEL) to objectively measure data-effective learning performance. Our extensive experimental results show the baseline MedDEL can achieve performance comparable to the original large dataset with only 5% of the data. Establishing such an open data-effective learning benchmark is crucial for the medical AI research community because it facilitates efficient data use, promotes collaborative breakthroughs, and fosters the development of cost-effective, scalable, and impactful healthcare solutions. The project can be accessed at https://github.com/shadow2469/Data-Effective-Learning-A-Comprehensive-Medical-Benchmark.git.
翻訳日:2024-02-01 15:51:26 公開日:2024-01-31
# キャリブレーションレンズによる不変リスク最小化の変種理解に向けて

Towards Understanding Variants of Invariant Risk Minimization through the Lens of Calibration ( http://arxiv.org/abs/2401.17541v1 )

ライセンス: Link先を確認
Kotaro Yoshida, Hiroki Naganuma(参考訳) 機械学習モデルは伝統的に、トレーニングとテストデータは独立して同一に分散されていると仮定する。 しかし、現実世界のアプリケーションでは、テスト分布はしばしばトレーニングとは異なる。 この問題は分散一般化(out-of-distribution generalization)と呼ばれ、従来のモデルに挑戦している。 不変リスク最小化(irm: invariant risk minimization)は、異なる環境にまたがる不変機能を特定し、分散の堅牢性を高めることを目的としたソリューションである。 しかし、IRMの複雑さ、特に双レベル最適化は、様々な近似手法の開発に繋がった。 本研究では,これらの近似IRM手法について検討し,予測校正誤差(ECE)を指標として検討した。 モデル予測の信頼性を測定するECEは、モデルが環境不変の特徴を効果的に捉えているかどうかを示す指標となる。 分布シフトを伴うデータセットの比較分析を通じて,表現情報を凝縮する情報ボトルネックに基づくirmが,精度を相対的に保ちながらece改善のバランスをとることを検証した。 この発見は、正確さを損なうことなく堅牢性を維持するための、実現可能な道のりを示す。 それにもかかわらず、我々の実験は、精度を低下させるオーバーレギュライゼーションにも注意を払っています。 これは、精度とキャリブレーションの間の微妙な相互作用に対処するための単なる正確さを超えて、分散一般化メトリクスを評価するための体系的なアプローチの必要性を強調する。

Machine learning models traditionally assume that training and test data are independently and identically distributed. However, in real-world applications, the test distribution often differs from training. This problem, known as out-of-distribution generalization, challenges conventional models. Invariant Risk Minimization (IRM) emerges as a solution, aiming to identify features invariant across different environments to enhance out-of-distribution robustness. However, IRM's complexity, particularly its bi-level optimization, has led to the development of various approximate methods. Our study investigates these approximate IRM techniques, employing the Expected Calibration Error (ECE) as a key metric. ECE, which measures the reliability of model prediction, serves as an indicator of whether models effectively capture environment-invariant features. Through a comparative analysis of datasets with distributional shifts, we observe that Information Bottleneck-based IRM, which condenses representational information, achieves a balance in improving ECE while preserving accuracy relatively. This finding is pivotal, as it demonstrates a feasible path to maintaining robustness without compromising accuracy. Nonetheless, our experiments also caution against over-regularization, which can diminish accuracy. This underscores the necessity for a systematic approach in evaluating out-of-distribution generalization metrics, one that beyond mere accuracy to address the nuanced interplay between accuracy and calibration.
翻訳日:2024-02-01 15:51:00 公開日:2024-01-31
# アンサンブルを用いたスコアベースサンプリング手法の強化

Enhancing Score-Based Sampling Methods with Ensembles ( http://arxiv.org/abs/2401.17539v1 )

ライセンス: Link先を確認
Tobias Bischoff, Bryan Riel(参考訳) 本稿では,素粒子の集団動力学を利用して近似逆拡散ドリフトを計算するグラデーションフリー近似サンプリング手法を開発するために,スコアベースサンプリング法におけるアンサンブルを導入する。 本稿では,生成拡散モデルと既に導入されたf\"ollmer samplerとの関係を強調して,基礎となる方法論を紹介する。 我々は,マルチモーダルおよび非ガウス確率分布を含む低次元から中次元のサンプリング問題まで,様々な例によるアンサンブル戦略の有効性を実証し,NUTSのような従来の手法との比較を行った。 本研究は,勾配が不可能な状況において,複雑な確率分布をモデル化するためのアンサンブル戦略の可能性を明らかにする。 最後に,地球物理学におけるベイズ逆転問題の文脈における応用について述べる。

We introduce ensembles within score-based sampling methods to develop gradient-free approximate sampling techniques that leverage the collective dynamics of particle ensembles to compute approximate reverse diffusion drifts. We introduce the underlying methodology, emphasizing its relationship with generative diffusion models and the previously introduced F\"ollmer sampler. We demonstrate the efficacy of ensemble strategies through various examples, ranging from low- to medium-dimensionality sampling problems, including multi-modal and highly non-Gaussian probability distributions, and provide comparisons to traditional methods like NUTS. Our findings highlight the potential of ensemble strategies for modeling complex probability distributions in situations where gradients are unavailable. Finally, we showcase its application in the context of Bayesian inversion problems within the geophysical sciences.
翻訳日:2024-02-01 15:50:34 公開日:2024-01-31
# 絡み合いが存在する範囲では、測定障害と情報ゲインが制限される

To the extent entanglement exists, measurement disturbance and information gain are limited ( http://arxiv.org/abs/2401.17537v1 )

ライセンス: Link先を確認
Michael Steiner and Ronald Rendell(参考訳) 現代の量子論は、フォン・ノイマンによって形式化されたボルン確率仮定とシュリンガー方程式の2つの異なる過程に由来する。 フォン・ノイマンのプロセス1は、量子系が測定装置と相互作用した場合に適用される確率論的非ユニタリな還元を提供し、それ以外はシュル=オディンガーの方程式をポピュレート2で指定する。 1935年にschr\"odingerは、相互作用を記述するために彼の方程式を使うことは、絡み合った重ね合わせに存在する巨視的な物体に繋がることを示した。 ここでは, 絡み合いが測定物理と共存できるかどうかを考察する。 絡み合いについては,単一系の1次測定と二元系における2次測定の両方が考慮される。 E+D\le 1$は、$E$が絡み合いを定量化し、$D$が1つの測定値の測定乱れの尺度であることを示す。 バイパルタイト系の測定では、$E+G\le 1$ ここで$G$が測定の情報ゲインであることを示す。 絡み合いが存在する程度には、測定外乱や情報ゲインの量が制限される。

Modern quantum theory derives from two disparate processes: the Born probability postulate and Schr\"odinger's equation that were later formalized by von Neumann. Von Neumann's Process 1 postulate provides a probabilistic non-unitary reduction to be applied when a quantum system interacts with a measurement device and otherwise Schr\"odinger's equation is specified via Postulate 2. Schr\"odinger showed in 1935 that the use of his equation to describe interactions leads to macroscopic objects existing in an entangled superposition. The question of whether or not entanglement can co-exist with the physics of measurement is examined herein. Both first-order measurement on a single system and second-order measurement on a bipartite system are considered in regards to the entanglement. It is proven that $E+D\le 1$ holds where $E$ quantifies entanglement and for which $D$ is a measure of the measurement disturbance of a single measurement. For measurements on a bipartite system, it is shown that $E+G\le 1$ where $G$ is the information gain of the measurement. To the extent that entanglement exists, the amount of measurement disturbance and information gain are limited.
翻訳日:2024-02-01 15:50:21 公開日:2024-01-31
# PipeNet: 知識グラフによるセマンティックプルーニングによる質問応答

PipeNet: Question Answering with Semantic Pruning over Knowledge Graphs ( http://arxiv.org/abs/2401.17536v1 )

ライセンス: Link先を確認
Ying Su, Jipeng Zhang, Yangqiu Song, Tong Zhang(参考訳) 明示的な知識グラフ(KG)を組み込むことは、質問応答の恩恵をもたらすことはよく知られている。 既存のアプローチは通常、エンティティノードがクエリ(クエストと候補)に最初に接地されたグラウンドリング推論パイプラインに従っており、その後、マッチしたマルチホップサブグラフに対する推論モジュールの理由が答えの予測である。 パイプラインは巨大なkgsから必須情報を抽出する問題を軽減しているが、サブグラフの接地においてホップをスケールアップする場合、効率性は依然として未解決の課題である。 本稿では,KGを用いたグラフ推論の効率を向上させるために,サブグラフ内の意味的関連エンティティノードの探索を目標とする。 本研究では,ノイズの多いノードに対するグラウンドング・プルーニング推論パイプラインを提案し,計算コストとメモリ使用量を大幅に削減するとともに,適切な部分グラフ表現を得る。 詳細は、プルーニングモジュールが最初に、マッチしたスパン間の依存性距離に基づいてコンセプトノードをスコアし、スコアランクに従ってノードをプルーする。 刈り取られたサブグラフの評価を容易にするため,サブグラフデータに基づくグラフアテンションネットワーク(GAT)ベースのモジュールも提案する。 CommonsenseQAとOpenBookQAの実験結果から,本手法の有効性が示された。

It is well acknowledged that incorporating explicit knowledge graphs (KGs) can benefit question answering. Existing approaches typically follow a grounding-reasoning pipeline in which entity nodes are first grounded for the query (question and candidate answers), and then a reasoning module reasons over the matched multi-hop subgraph for answer prediction. Although the pipeline largely alleviates the issue of extracting essential information from giant KGs, efficiency is still an open challenge when scaling up hops in grounding the subgraphs. In this paper, we target at finding semantically related entity nodes in the subgraph to improve the efficiency of graph reasoning with KG. We propose a grounding-pruning-reasoning pipeline to prune noisy nodes, remarkably reducing the computation cost and memory usage while also obtaining decent subgraph representation. In detail, the pruning module first scores concept nodes based on the dependency distance between matched spans and then prunes the nodes according to score ranks. To facilitate the evaluation of pruned subgraphs, we also propose a graph attention network (GAT) based module to reason with the subgraph data. Experimental results on CommonsenseQA and OpenBookQA demonstrate the effectiveness of our method.
翻訳日:2024-02-01 15:50:00 公開日:2024-01-31
# 24時間自動安定繊維システムによる絞り光の測定

24-hour measurement of squeezed light using automated stable fiber system ( http://arxiv.org/abs/2401.17533v1 )

ライセンス: Link先を確認
Tomohiro Nakamura, Takefumi Nomura, Mamoru Endo, Atsushi Sakaguchi, He Ruofan, Takahiro Kashiwazaki, Takeshi Umeki, Kan Takase, Warit Asavanant, Jun-ichi Yoshikawa, Akira Furusawa(参考訳) 光量子コンピューティングのクラウドサービスを提供するために、光学系を何時間も安定させることは避けられない。 空間アライメントを必要としないファイバーベースシステムを構築するのが有利である。 しかし、繊維系システムは、代わりに繊維固有の不安定性を受ける。 例えば、環境温度の変化と外乱による位相ドリフトや、繊維成分の有限偏光消滅率による偏光変動がある。 そこで本研究では,24時間,繊維系による絞り光測定が成功したことを報告する。 そこで本研究では,繊維系のゆらぎを抑制する安定化機構と,システム全体を自動調整する統合制御器を導入する。 波長1545.3nmの励起光は2分ごとに測定され、30分ごとに自動アライメントが挿入される。 平均4.42dBのスクイーズレベルは、24時間で0.08dBという非常に小さな標準偏差で記録されている。

In order to provide a cloud service of optical quantum computing, it is inevitable to stabilize the optical system for many hours. It is advantageous to construct a fiber-based system, which does not require spatial alignment. However, fiber-based systems are instead subject to fiber-specific instabilities. For instance, there are phase drifts due to ambient temperature changes and external disturbances, and polarization fluctuations due to the finite polarization extinction ratio of fiber components. Here, we report the success of measuring squeezed light with a fiber system for 24 hours. To do this, we introduce stabilization mechanics to suppress fluctuations in the fiber system, and integrated controller to automatically align the entire system. The squeezed light at the wavelength of 1545.3 nm is measured every 2 minutes, where automated alignments are inserted every 30 minutes. The squeezing levels with the average of -4.42 dB are recorded with an extremely small standard deviation of 0.08 dB over 24 hours.
翻訳日:2024-02-01 15:49:37 公開日:2024-01-31
# 効率的な混合整数線形プログラミングのためのカット生成の停止学習

Learning to Stop Cut Generation for Efficient Mixed-Integer Linear Programming ( http://arxiv.org/abs/2401.17527v1 )

ライセンス: Link先を確認
Haotian Ling, Zhihai Wang, Jie Wang(参考訳) 混合整数線形プログラム (MILP) の解法において, 切断面 (カット) が重要な役割を担っている。 カットの鍵となる問題は、MILPの解法において重要なカット生成を停止するタイミングである。 しかし、現代のMILP解法の多くは、この問題に対処するためにハードコードなヒューリスティックを用いており、特定のアプリケーションからMILPのパターンを無視する傾向にある。 この課題に対処するために,カット生成停止問題を強化学習問題として定式化し,効果的な停止戦略を学ぶための新しいハイブリッドグラフ表現モデル(hygro)を提案する。 HYGROの魅力的な特徴は、MILPの動的特徴と静的特徴の両方を効果的に捉え、停止戦略の動的決定を可能にすることである。 我々の知る限りでは、HYGROはカット生成停止問題に対処する最初のデータ駆動手法である。 提案手法を現代の解法と統合することにより, HYGROはMILPの解法効率を競争ベースラインと比較して有意に向上し, 最大31%の改善が達成された。

Cutting planes (cuts) play an important role in solving mixed-integer linear programs (MILPs), as they significantly tighten the dual bounds and improve the solving performance. A key problem for cuts is when to stop cuts generation, which is important for the efficiency of solving MILPs. However, many modern MILP solvers employ hard-coded heuristics to tackle this problem, which tends to neglect underlying patterns among MILPs from certain applications. To address this challenge, we formulate the cuts generation stopping problem as a reinforcement learning problem and propose a novel hybrid graph representation model (HYGRO) to learn effective stopping strategies. An appealing feature of HYGRO is that it can effectively capture both the dynamic and static features of MILPs, enabling dynamic decision-making for the stopping strategies. To the best of our knowledge, HYGRO is the first data-driven method to tackle the cuts generation stopping problem. By integrating our approach with modern solvers, experiments demonstrate that HYGRO significantly improves the efficiency of solving MILPs compared to competitive baselines, achieving up to 31% improvement.
翻訳日:2024-02-01 15:49:23 公開日:2024-01-31
# 3次元形状生成のためのトポロジー認識潜在拡散

Topology-Aware Latent Diffusion for 3D Shape Generation ( http://arxiv.org/abs/2401.17603v1 )

ライセンス: Link先を確認
Jiangbei Hu, Ben Fei, Baixin Xu, Fei Hou, Weidong Yang, Shengfa Wang, Na Lei, Chen Qian, Ying He(参考訳) 我々は,潜伏拡散と持続的ホモロジーを組み合わせた新しい生成モデルを導入し,高多様性の3次元形状を創出し,そのトポロジ的特徴を特に強調する。 本手法では, 3次元形状を暗黙的場として表現し, 連続ホモロジーを用いてベッチ数や持続性図などの位相的特徴を抽出する。 形状生成プロセスは2つのステップからなる。 まず,変換器をベースとした自動符号化モジュールを用いて,各3次元形状の暗黙表現を潜在ベクトルの集合に埋め込む。 その後、拡散モデルを通して学習された潜在空間をナビゲートする。 拡散過程にトポロジ的特徴を戦略的に組み込むことで, 生成モジュールは, 異なるトポロジ的構造を持つより豊富な3次元形状を生成できる。 さらに、我々のフレームワークは柔軟性があり、スライスや部分的ポイントクラウドを含む様々な入力によって制約された生成タスクやスケッチをサポートする。 パーシステンスダイアグラムを変更することで、これらの入力モダリティから生成される形状のトポロジーを変更することができる。

We introduce a new generative model that combines latent diffusion with persistent homology to create 3D shapes with high diversity, with a special emphasis on their topological characteristics. Our method involves representing 3D shapes as implicit fields, then employing persistent homology to extract topological features, including Betti numbers and persistence diagrams. The shape generation process consists of two steps. Initially, we employ a transformer-based autoencoding module to embed the implicit representation of each 3D shape into a set of latent vectors. Subsequently, we navigate through the learned latent space via a diffusion model. By strategically incorporating topological features into the diffusion process, our generative module is able to produce a richer variety of 3D shapes with different topological structures. Furthermore, our framework is flexible, supporting generation tasks constrained by a variety of inputs, including sparse and partial point clouds, as well as sketches. By modifying the persistence diagrams, we can alter the topology of the shapes generated from these input modalities.
翻訳日:2024-02-01 15:41:54 公開日:2024-01-31
# LRAファインチューニングによる大規模言語モデルの構築

Assertion Detection Large Language Model In-context Learning LoRA Fine-tuning ( http://arxiv.org/abs/2401.17602v1 )

ライセンス: Link先を確認
Yuelyu Ji, Zeshui Yu and Yanshan Wang(参考訳) 本研究では,臨床自然言語処理(NLP)における重要なプロセスである臨床ノートから医療概念を抽出する際のアサーション検出の課題に対処することを目的とする。 臨床nlpにおけるアサーション検出は通常、臨床テキストにおける医学的概念のアサーションタイプ、すなわち確信(医学的概念が肯定的、否定的、可能、仮説的)、時間的(医学的概念が現在または過去の歴史のためである場合)、経験者(患者または家族に対して医学的概念が記述されている場合)を特定することを含む。 これらのアサーションタイプは、医療専門家にとって、非構造化臨床テキストから医療状況の文脈を迅速かつ明確に理解し、患者のケアの質と結果に直接影響を与えることが不可欠である。 伝統的な手法、特にルールベースのNLPシステムや機械学習やディープラーニングモデルでは広く使われているが、パターンを作成するために集中的な手作業が必要であり、一般的なアサーションのタイプを軽視する傾向があるため、文脈の完全な理解に繋がる。 この課題に対処するため,本研究では,多数の医療データに基づいて事前学習したLarge Language Models (LLMs) を用いたアサーション検出手法を提案する。 提案手法は,Tree of Thought (ToT), Chain of Thought (CoT), Self-Consistency (SC)などの先進的推論手法により拡張され,ローランド適応 (LoRA) ファインチューニングにより改良された。 最初にモデルをi2b2 2010アサーションデータセットで評価した。 マイクロ平均f-1は0.89で,前作に比べて0.11改善であった。 アプローチの一般化性をさらに評価するため,睡眠概念抽出に焦点を当てた局所的データセットに評価を拡張した。 提案手法は従来の手法よりも0.31高い0.74のF-1を達成する。

In this study, we aim to address the task of assertion detection when extracting medical concepts from clinical notes, a key process in clinical natural language processing (NLP). Assertion detection in clinical NLP usually involves identifying assertion types for medical concepts in the clinical text, namely certainty (whether the medical concept is positive, negated, possible, or hypothetical), temporality (whether the medical concept is for present or the past history), and experiencer (whether the medical concept is described for the patient or a family member). These assertion types are essential for healthcare professionals to quickly and clearly understand the context of medical conditions from unstructured clinical texts, directly influencing the quality and outcomes of patient care. Although widely used, traditional methods, particularly rule-based NLP systems and machine learning or deep learning models, demand intensive manual efforts to create patterns and tend to overlook less common assertion types, leading to an incomplete understanding of the context. To address this challenge, our research introduces a novel methodology that utilizes Large Language Models (LLMs) pre-trained on a vast array of medical data for assertion detection. We enhanced the current method with advanced reasoning techniques, including Tree of Thought (ToT), Chain of Thought (CoT), and Self-Consistency (SC), and refine it further with Low-Rank Adaptation (LoRA) fine-tuning. We first evaluated the model on the i2b2 2010 assertion dataset. Our method achieved a micro-averaged F-1 of 0.89, with 0.11 improvements over the previous works. To further assess the generalizability of our approach, we extended our evaluation to a local dataset that focused on sleep concept extraction. Our approach achieved an F-1 of 0.74, which is 0.31 higher than the previous method.
翻訳日:2024-02-01 15:41:13 公開日:2024-01-31
# キャプションが良い、カウントが悪い:地球観測データ上のGPT-4Vのベンチマーク

Good at captioning, bad at counting: Benchmarking GPT-4V on Earth observation data ( http://arxiv.org/abs/2401.17600v1 )

ライセンス: Link先を確認
Chenhui Zhang, Sherrie Wang(参考訳) VLM(Large Vision-Language Models)は、自然言語による視覚入力を含む複雑なタスクにおいて、印象的なパフォーマンスを示す。 しかし、地球観測(EO)データへの自然画像の転送能力は、主に衛星画像と空中画像がVLMのトレーニングデータであまり一般的でないため、まだ不明である。 本研究では,シーン理解,局所化,カウント,変化検出タスクの能力を評価することで,EOデータに有用なツールとなるためのVLMの進歩を評価するための総合的なベンチマークを提案する。 私たちのベンチマークには、都市モニタリング、災害救助、土地利用、保全といったシナリオが含まれています。 GPT-4Vのような最先端のVLMは、位置理解や画像キャプションといったオープンなタスクに強いパフォーマンスをもたらす広範な世界知識を持っているが、それらの空間的推論の貧弱さは、オブジェクトのローカライゼーションやカウントタスクに有用性を制限する。 私たちのベンチマークは、https://vleo.danielz.ch/とHugging Face at https://huggingface.co/collections/mit-ei/vleo-benchmark-datasets-65b789b0466545489cce0d70で公開されます。

Large Vision-Language Models (VLMs) have demonstrated impressive performance on complex tasks involving visual input with natural language instructions. However, it remains unclear to what extent capabilities on natural images transfer to Earth observation (EO) data, which are predominantly satellite and aerial images less common in VLM training data. In this work, we propose a comprehensive benchmark to gauge the progress of VLMs toward being useful tools for EO data by assessing their abilities on scene understanding, localization and counting, and change detection tasks. Motivated by real-world applications, our benchmark includes scenarios like urban monitoring, disaster relief, land use, and conservation. We discover that, although state-of-the-art VLMs like GPT-4V possess extensive world knowledge that leads to strong performance on open-ended tasks like location understanding and image captioning, their poor spatial reasoning limits usefulness on object localization and counting tasks. Our benchmark will be made publicly available at https://vleo.danielz.ch/ and on Hugging Face at https://huggingface.co/collections/mit-ei/vleo-benchmark-datasets-65b789b0466555489cce0d70 for easy model evaluation.
翻訳日:2024-02-01 15:40:14 公開日:2024-01-31
# グラフィック関数標準仕様検証器

A Graphics Function Standard Specification Validator ( http://arxiv.org/abs/2401.17599v1 )

ライセンス: Link先を確認
Steven D. Fraser and Peter P. Silvester(参考訳) 標準グラフィックス関数の自然言語ソフトウェア仕様に対して検証手法を提案し,実装した。 一貫性、完全性、データ要素と関数記述のあいまいさの欠如のためにチェックが行われる。 関数とデータ要素はリレーショナルデータベース表現で保持される。 適切なチェックはデータベース操作のシーケンスによって行われる。 リレーショナルデータベースマネージャINGRESは、提案手法のプロトタイプ実装をサポートするために使用された。 この方法論は、仕様で利用可能な情報からシナリオベースのプロトタイプの開発を支援する。 これにより、環境を指定せずに様々な関数シーケンスをチェックすることができる。 提案手法のプロトタイプ実装をグラフィクスカーネルシステム(GKS)ソフトウェアパッケージの仕様に適用することにより,本手法の実用性を示す。 データ要素の定義に関連するGKSのいくつかの矛盾が特定されている。

A validation methodology is proposed and implemented for natural language software specifications of standard graphics functions. Checks are made for consistency, completeness, and lack of ambiguity in data element and function descriptions. Functions and data elements are maintained in a relational database representation. The appropriate checks are performed by sequences of database operations. The relational database manager INGRES was used to support a prototype implementation of the proposed technique. The methodology supports the development of a scenario-based prototype from the information available in the specification. This permits various function sequences to be checked without implementation of the environment specified. The application of a prototype implementation of the proposed methodology to the specification of the Graphics Kernel System (GKS) software package demonstrates the practicability of the method. Several inconsistencies in GKS related to the definition of data elements have been identified.
翻訳日:2024-02-01 15:39:41 公開日:2024-01-31
# SPECTRUM:Long Dialogue Summarizationのための話者強化事前学習

SPECTRUM: Speaker-Enhanced Pre-Training for Long Dialogue Summarization ( http://arxiv.org/abs/2401.17597v1 )

ライセンス: Link先を確認
Sangwoo Cho, Kaiqiang Song, Chao Zhao, Xiaoyang Wang, Dong Yu(参考訳) マルチターン対話は、その長さとターンテイク会話の存在によって特徴づけられる。 伝統的な言語モデルは、しばしばそれらの対話の特徴を通常のテキストとして扱うことによって見落としている。 本稿では,多段対話の固有構造を生かした長文対話要約のための話者強調事前学習手法を提案する。 本研究では,実世界のシナリオ,映画やテレビ番組の書き起こし,および大規模言語モデルによって生成された対話を含む多様なデータセットをキュレートする。 次に、話者変化の検出を含む事前学習を行い、発話生成をマスクする。 細調整モデルによる実験結果から, 長い文脈の下流ベンチマークにおいて, ベースラインモデルを超え, 提案手法の有効性を強調した。 本研究は,下流データセットとの効果的なアライメントを確保するために,長さ分布の多様性と多様性を示す事前学習データセットのキュレーションの重要性を浮き彫りにする。

Multi-turn dialogues are characterized by their extended length and the presence of turn-taking conversations. Traditional language models often overlook the distinct features of these dialogues by treating them as regular text. In this paper, we propose a speaker-enhanced pre-training method for long dialogue summarization, which leverages the inherent structure of multiple-turn dialogues. To support our study, we curate a diverse dataset that includes transcripts from real-world scenarios, movie or TV show transcripts, and dialogues generated by a Large Language Model. We then perform a pre-training, which encompasses the detection of speaker changes, and masked utterance generation. Experimental results of fine-tuned models demonstrate that our model achieves state-of-the-art performance on downstream benchmarks with long context, surpassing baseline models and highlighting the effectiveness of our approach. Our findings highlight the importance of curating pre-training datasets that exhibit diversity and variations in length distribution to ensure effective alignment with downstream datasets.
翻訳日:2024-02-01 15:39:32 公開日:2024-01-31
# ソフトウェアパッケージ仕様の検証のためのインタラクティブな実証的アプローチ

An Interactive Empirical Approach to the Validation of Software Package Specifications ( http://arxiv.org/abs/2401.17596v1 )

ライセンス: Link先を確認
S.D. Fraser and P.P. Silvester(参考訳) 本研究の目的は,ソフトウェアパッケージ仕様を操作・検証するための実用システムの開発である。 開発した検証プロセスは一貫性チェックに基づいている。 さらに、シナリオによって、顧客は実装前に指定されたシステムをインタラクティブに体験することができる。 関数、データ、データ型が検証システムのフレームワークを構成しています。 Graphical Kernel System (GKS) の仕様は、対象とするソフトウェアパッケージ仕様の典型的な例である。

The objective of this research is the development of a practical system to manipulate and validate software package specifications. The validation process developed is based on consistency checks. Furthermore, by means of scenarios, the customer will be able to interactively experience the specified system prior to its implementation. Functions, data, and data types constitute the framework of our validation system. The specification of the Graphical Kernel System (GKS) is a typical example of the target software package specifications to be manipulated.
翻訳日:2024-02-01 15:39:14 公開日:2024-01-31
# 深層学習を用いた局所的特徴マッチング:サーベイ

Local Feature Matching Using Deep Learning: A Survey ( http://arxiv.org/abs/2401.17592v1 )

ライセンス: Link先を確認
Shibiao Xu, Shunpeng Chen, Rongtao Xu, Changwei Wang, Peng Lu, Li Guo(参考訳) 局所的特徴マッチングは、画像検索、3次元再構成、オブジェクト認識などの領域を包含するコンピュータビジョンの分野で幅広い応用を享受している。 しかしながら、視点や照明のバリエーションといった要因により、マッチングの正確さと堅牢性の向上に課題が残っている。 近年,深層学習モデルの導入により,局所的特徴マッチング手法の探究が盛んに行われている。 この取り組みの目的は,局所的な特徴マッチング手法の概要を明らかにすることである。 これらの方法は検出器の存在に基づいて2つのキーセグメントに分類される。 Detectorベースのカテゴリには、De Detect-then-Describe、Joint Detection and Description、Describe-then-Detectを含むモデルと、グラフベースのテクニックが含まれている。 対照的に、検出器フリーカテゴリは、cnnベース、トランスフォーマーベース、パッチベースメソッドを含む。 本研究は方法論分析を超えて,最先端手法の定量的比較を容易にするために,普及度の高いデータセットとメトリクスの評価を取り入れた。 本論文は,動画像認識,リモートセンシング画像登録,医用画像登録などの多様な領域における局所的特徴マッチングの実践的応用についても検討し,その多様性と意義について考察した。 最終的に、我々はこの領域で直面している現在の課題の概要を概説し、将来の研究方向性を示し、それによって、局所的な特徴マッチングとその相互接続ドメインに関わる研究者の参考となる。

Local feature matching enjoys wide-ranging applications in the realm of computer vision, encompassing domains such as image retrieval, 3D reconstruction, and object recognition. However, challenges persist in improving the accuracy and robustness of matching due to factors like viewpoint and lighting variations. In recent years, the introduction of deep learning models has sparked widespread exploration into local feature matching techniques. The objective of this endeavor is to furnish a comprehensive overview of local feature matching methods. These methods are categorized into two key segments based on the presence of detectors. The Detector-based category encompasses models inclusive of Detect-then-Describe, Joint Detection and Description, Describe-then-Detect, as well as Graph Based techniques. In contrast, the Detector-free category comprises CNN Based, Transformer Based, and Patch Based methods. Our study extends beyond methodological analysis, incorporating evaluations of prevalent datasets and metrics to facilitate a quantitative comparison of state-of-the-art techniques. The paper also explores the practical application of local feature matching in diverse domains such as Structure from Motion, Remote Sensing Image Registration, and Medical Image Registration, underscoring its versatility and significance across various fields. Ultimately, we endeavor to outline the current challenges faced in this domain and furnish future research directions, thereby serving as a reference for researchers involved in local feature matching and its interconnected domains.
翻訳日:2024-02-01 15:39:08 公開日:2024-01-31
# 会話の局所的・グローバル的文脈

Local and Global Contexts for Conversation ( http://arxiv.org/abs/2401.17588v1 )

ライセンス: Link先を確認
Zuoquan Lin and Xinyi Shen(参考訳) 会話の文脈はマルチターン対話に不可欠な対話履歴である。 接地会話における対話履歴の関連文脈から学ぶことは難しい問題である。 ローカルコンテキストは最も隣接しており、その後の応答に対してより敏感であり、グローバルコンテキストは隣り合う発話をはるかに超えた会話全体に関連している。 現在、会話チャレンジのための事前訓練されたトランスフォーマーモデルが、ローカルコンテキストとグローバルコンテキストの相関と関係を捉えている。 オープンドメインにおける汎用会話のためのローカルおよびグローバル会話モデル(lgcm)を提案する。 局所的グローバル階層的トランスフォーマーモデルであり、応答を生成するのに必要な関連するコンテキストを正確に識別し、同化することができる。 ローカルエンコーダを使用して、個々の発話レベルのローカルコンテキストを把握し、グローバルエンコーダを使用して対話レベルでの広義のコンテキストを理解する。 これらのローカルエンコーディングとグローバルエンコーディングのシームレスな融合は、会話の包括的理解を保証する。 一般的なデータセットの実験では、LGCMは既存の会話モデルよりも、大きなマージンを持つ自動メトリクスのパフォーマンスに優れていた。

The context in conversation is the dialog history crucial for multi-turn dialogue. Learning from the relevant contexts in dialog history for grounded conversation is a challenging problem. Local context is the most neighbor and more sensitive to the subsequent response, and global context is relevant to a whole conversation far beyond neighboring utterances. Currently, pretrained transformer models for conversation challenge capturing the correlation and connection between local and global contexts. We introduce a local and global conversation model (LGCM) for general-purpose conversation in open domain. It is a local-global hierarchical transformer model that excels at accurately discerning and assimilating the relevant contexts necessary for generating responses. It employs a local encoder to grasp the local context at the level of individual utterances and a global encoder to understand the broader context at the dialogue level. The seamless fusion of these locally and globally contextualized encodings ensures a comprehensive comprehension of the conversation. Experiments on popular datasets show that LGCM outperforms the existing conversation models on the performance of automatic metrics with significant margins.
翻訳日:2024-02-01 15:38:45 公開日:2024-01-31
# 非エルミート量子イジング鎖における磁気ブロッホ振動

Magnetic Bloch oscillations in a non-Hermitian quantum Ising chain ( http://arxiv.org/abs/2401.17586v1 )

ライセンス: Link先を確認
K. L. Zhang and Z. Song(参考訳) 量子イジング鎖における磁区壁のダイナミックスに及ぼす横磁場の影響について検討する。 虚場は、低層ワニエ・スターク・はしごを形成する際に、実際の横場と同じような役割を果たすことを示す。 しかし、2つの系における時間進化の解析的および数値計算により、対応するブロッホ振動は同じ初期状態に対して全く異なるパターンを示すことが示された。 これらの結果は、非ハーミティシティの量子スピン力学に対する非自明な効果を示す。

We investigate the impacts of an imaginary transverse field on the dynamics of magnetic domain walls in a quantum Ising chain. We show that an imaginary field plays a similar role as a real transverse field in forming a low-lying Wannier-Stark ladder. However, analytical and numerical calculations of the time evolutions in both two systems show that the corresponding Bloch oscillations exhibit totally different patterns for the same initial states. These findings reveal the nontrivial effect of non-Hermiticity on quantum spin dynamics.
翻訳日:2024-02-01 15:38:27 公開日:2024-01-31
# 伝播と落とし穴:反現実的課題による知識編集の推論に基づく評価

Propagation and Pitfalls: Reasoning-based Assessment of Knowledge Editing through Counterfactual Tasks ( http://arxiv.org/abs/2401.17585v1 )

ライセンス: Link先を確認
Wenyue Hua, Jiang Guo, Mingwen Dong, Henghui Zhu, Patrick Ng, Zhiguo Wang(参考訳) 知識編集の現在のアプローチは、相互接続された事実の更新を効果的に広めるために苦労している。 本研究では,これらのモデル内での知識の適切な伝達を妨げる障壁を探索し,正確な推論を行う。 我々の分析をサポートするため、我々はReCoE(Reasoning-based Counterfactual Editing dataset)という新しい推論ベースのベンチマークを導入しました。 入力拡張,微調整,位置・編集など,既存の知識編集技術の徹底的な分析を行う。 モデル編集手法はすべて,このデータセット上で,特に特定の推論スキームにおいて,特に低い性能を示すことがわかった。 本研究は,既存の知識編集手法が不十分である理由を推論の立場から解明し,事実毎の編集,事実記憶能力,世代間の一貫性に関する側面を明らかにした。 ベンチマークを一般公開する予定です。

Current approaches of knowledge editing struggle to effectively propagate updates to interconnected facts. In this work, we delve into the barriers that hinder the appropriate propagation of updated knowledge within these models for accurate reasoning. To support our analysis, we introduce a novel reasoning-based benchmark -- ReCoE (Reasoning-based Counterfactual Editing dataset) -- which covers six common reasoning schemes in real world. We conduct a thorough analysis of existing knowledge editing techniques, including input augmentation, finetuning, and locate-and-edit. We found that all model editing methods show notably low performance on this dataset, especially in certain reasoning schemes. Our analysis over the chain-of-thought generation of edited models further uncover key reasons behind the inadequacy of existing knowledge editing methods from a reasoning standpoint, involving aspects on fact-wise editing, fact recall ability, and coherence in generation. We will make our benchmark publicly available.
翻訳日:2024-02-01 15:38:18 公開日:2024-01-31
# アジャイルは安全: 衝突のない高速な移動を学ぶ

Agile But Safe: Learning Collision-Free High-Speed Legged Locomotion ( http://arxiv.org/abs/2401.17583v1 )

ライセンス: Link先を確認
Tairan He, Chong Zhang, Wenli Xiao, Guanqi He, Changliu Liu, Guanya Shi(参考訳) 散らかった環境をナビゲートするレッグロボットは、効率的なタスク実行のために共同でアジャイルでなければならない。 既存の研究は、安全を確保するために保守的なコントローラ(1.0 m/s)を開発するか、潜在的に致命的な衝突を考慮せずにアジリティに注力する。 本稿では,四足歩行ロボットにおけるアジャイルと衝突のない移動を可能にする学習ベースの制御フレームワークであるAgile But Safe(ABS)を紹介する。 ABSは障害の中でアジャイルモータースキルを実行するためのアジャイルポリシと、障害を防止するためのリカバリポリシと、高速かつ衝突のないナビゲーションを共同で実現する。 ABSのポリシースイッチは、学習された制御理論的リーチ・アビド値ネットワークによって制御され、リカバリポリシーを目的関数としてガイドし、ロボットをクローズドループで保護する。 トレーニングプロセスには、アジャイルポリシの学習、リーチ回避値ネットワーク、リカバリポリシ、エクセプション表現ネットワークがすべてシミュレーション中に含まれる。 これらの訓練されたモジュールは、オンボードセンシングと計算によって現実世界に直接デプロイすることができ、静的な障害物と動的障害の両方を持つ屋内および屋外の狭い空間において、高速で衝突のないナビゲーションに繋がる。

Legged robots navigating cluttered environments must be jointly agile for efficient task execution and safe to avoid collisions with obstacles or humans. Existing studies either develop conservative controllers (< 1.0 m/s) to ensure safety, or focus on agility without considering potentially fatal collisions. This paper introduces Agile But Safe (ABS), a learning-based control framework that enables agile and collision-free locomotion for quadrupedal robots. ABS involves an agile policy to execute agile motor skills amidst obstacles and a recovery policy to prevent failures, collaboratively achieving high-speed and collision-free navigation. The policy switch in ABS is governed by a learned control-theoretic reach-avoid value network, which also guides the recovery policy as an objective function, thereby safeguarding the robot in a closed loop. The training process involves the learning of the agile policy, the reach-avoid value network, the recovery policy, and an exteroception representation network, all in simulation. These trained modules can be directly deployed in the real world with onboard sensing and computation, leading to high-speed and collision-free navigation in confined indoor and outdoor spaces with both static and dynamic obstacles.
翻訳日:2024-02-01 15:38:02 公開日:2024-01-31
# コヒーシブサブグラフ認識を用いたグラフコントラスト学習

Graph Contrastive Learning with Cohesive Subgraph Awareness ( http://arxiv.org/abs/2401.17580v1 )

ライセンス: Link先を確認
Yucheng Wu, Leye Wang, Xiao Han, and Han-Jia Ye(参考訳) グラフコントラスト学習(gcl)は、社会的および生物医学的ネットワークを含む多様なグラフの表現を学ぶための最先端の戦略として登場した。 GCLは、一様ノードドロップのような確率グラフトポロジーの増大を利用して拡張グラフを生成する。 しかし、このような確率的拡張は、グラフの固有特性を著しく損ね、次の表現学習過程を劣化させる可能性がある。 グラフの強化と学習過程において,凝集性部分グラフの認識を取り入れることで,GCL性能を向上させる可能性が示唆された。 そこで我々はCTAugと呼ばれる新しい統合フレームワークを提案し,結合認識を様々なGCL機構にシームレスに統合する。 特に、CTAugは、トポロジー強化とグラフ学習強化の2つの特別なモジュールから構成されている。 前者のモジュールは凝集特性を注意深く保存する拡張グラフを生成し、後者のモジュールはグラフエンコーダのサブグラフパターンを識別する能力を強化する。 理論的解析によると、CTAugは既存のGCLメカニズムを厳密に改善できる。 実証実験により、CTAugがグラフ表現学習、特に高次グラフに対して最先端のパフォーマンスを達成できることが確認された。 コードはhttps://doi.org/10.5281/zenodo.10594093、またはhttps://github.com/wuyucheng2002/CTAugで入手できる。

Graph contrastive learning (GCL) has emerged as a state-of-the-art strategy for learning representations of diverse graphs including social and biomedical networks. GCL widely uses stochastic graph topology augmentation, such as uniform node dropping, to generate augmented graphs. However, such stochastic augmentations may severely damage the intrinsic properties of a graph and deteriorate the following representation learning process. We argue that incorporating an awareness of cohesive subgraphs during the graph augmentation and learning processes has the potential to enhance GCL performance. To this end, we propose a novel unified framework called CTAug, to seamlessly integrate cohesion awareness into various existing GCL mechanisms. In particular, CTAug comprises two specialized modules: topology augmentation enhancement and graph learning enhancement. The former module generates augmented graphs that carefully preserve cohesion properties, while the latter module bolsters the graph encoder's ability to discern subgraph patterns. Theoretical analysis shows that CTAug can strictly improve existing GCL mechanisms. Empirical experiments verify that CTAug can achieve state-of-the-art performance for graph representation learning, especially for graphs with high degrees. The code is available at https://doi.org/10.5281/zenodo.10594093, or https://github.com/wuyucheng2002/CTAug.
翻訳日:2024-02-01 15:37:36 公開日:2024-01-31
# Scavenging Hyena: 変換器を長い畳み込みモデルに蒸留する

Scavenging Hyena: Distilling Transformers into Long Convolution Models ( http://arxiv.org/abs/2401.17574v1 )

ライセンス: Link先を確認
Tokiniaina Raharison Ralambomihanta, Shahrad Mohammadzadeh, Mohammad Sami Nur Islam, Wassim Jabbour, Laurence Liang(参考訳) GPT-4のようなアーキテクチャに代表されるLLM(Large Language Models)の急速な進化は、自然言語処理のランドスケープを形変えた。 本稿では,LLM事前学習に伴う効率問題に対処するための先駆的アプローチを提案する。 提案手法は,効率的なハイエナ機構からの洞察を生かして,2次注意機構に固有の長期的文脈情報処理の課題に直面しつつ,従来の事前学習に代わる費用対効果を提供するトランスフォーマーモデルの注目ヘッドをハイエナに置き換える。 従来の圧縮法とは異なり, この手法は推論速度を向上させるだけでなく, 精度と効率の両面で事前学習を超越する。 LLMの進化の時代において、我々の研究は持続可能なAIソリューションの追求に貢献し、計算能力と環境への影響のバランスを図った。

The rapid evolution of Large Language Models (LLMs), epitomized by architectures like GPT-4, has reshaped the landscape of natural language processing. This paper introduces a pioneering approach to address the efficiency concerns associated with LLM pre-training, proposing the use of knowledge distillation for cross-architecture transfer. Leveraging insights from the efficient Hyena mechanism, our method replaces attention heads in transformer models by Hyena, offering a cost-effective alternative to traditional pre-training while confronting the challenge of processing long contextual information, inherent in quadratic attention mechanisms. Unlike conventional compression-focused methods, our technique not only enhances inference speed but also surpasses pre-training in terms of both accuracy and efficiency. In the era of evolving LLMs, our work contributes to the pursuit of sustainable AI solutions, striking a balance between computational power and environmental impact.
翻訳日:2024-02-01 15:37:14 公開日:2024-01-31
# 不安定外乱を有する半導体製造のためのテンソルプロセス制御とモニタリング

Tensor-based process control and monitoring for semiconductor manufacturing with unstable disturbances ( http://arxiv.org/abs/2401.17573v1 )

ライセンス: Link先を確認
Yanrong Li, Juan Du, Fugee Tsung, Wei Jiang(参考訳) 製造システムに内蔵されたセンサの開発と普及に伴い、製造プロセス中に複雑なデータが収集され、従来のプロセス制御手法に課題が生じる。 本稿では,半導体製造プロセスで収集される高次元画像ベースオーバーレイエラー(テンソル型モデル化)の複雑な構造に対する新しいプロセス制御とモニタリング手法を提案する。 提案手法は,制限された制御レシピを用いてオーバーレイ誤差を低減することを目的とする。 まず、高次元プロセスモデルを構築し、異なるテンソル・オン・ベクター回帰アルゴリズムを提案し、モデルのパラメータを推定し、次元性の呪いを軽減する。 そして、テンソルパラメータの推定に基づいて、理論上安定性が保証されるテンソルデータに対する指数重み付き移動平均(EWMA)コントローラを設計する。 低次元制御レシピが画像上のすべての高次元外乱を補償できないという事実を考慮すると、制御残差は監視され、制御不能な高次元外乱の大きなドリフトを防止する。 広範囲なシミュレーションと実ケーススタディにより,テンソル空間におけるパラメータ推定アルゴリズムとEWMAコントローラの性能を評価する。 既存の画像ベースフィードバックコントローラと比較して,特に乱れが安定していない場合に,本手法の優位性を検証する。

With the development and popularity of sensors installed in manufacturing systems, complex data are collected during manufacturing processes, which brings challenges for traditional process control methods. This paper proposes a novel process control and monitoring method for the complex structure of high-dimensional image-based overlay errors (modeled in tensor form), which are collected in semiconductor manufacturing processes. The proposed method aims to reduce overlay errors using limited control recipes. We first build a high-dimensional process model and propose different tensor-on-vector regression algorithms to estimate parameters in the model to alleviate the curse of dimensionality. Then, based on the estimate of tensor parameters, the exponentially weighted moving average (EWMA) controller for tensor data is designed whose stability is theoretically guaranteed. Considering the fact that low-dimensional control recipes cannot compensate for all high-dimensional disturbances on the image, control residuals are monitored to prevent significant drifts of uncontrollable high-dimensional disturbances. Through extensive simulations and real case studies, the performances of parameter estimation algorithms and the EWMA controller in tensor space are evaluated. Compared with existing image-based feedback controllers, the superiority of our method is verified especially when disturbances are not stable.
翻訳日:2024-02-01 15:36:55 公開日:2024-01-31
# 合成健康データにおけるプライマー

A primer on synthetic health data ( http://arxiv.org/abs/2401.17653v1 )

ライセンス: Link先を確認
Jennifer Anne Bartell, Sander Boisen Valentin, Anders Krogh, Henning Langberg, and Martin B{\o}gsted(参考訳) 深層生成モデルの最近の進歩は、現実的な合成健康データセットを作成する可能性を大きく広げた。 これらの合成データセットは、患者のアイデンティティやセンシティブな情報を開示することなく、センシティブな健康データセットに由来する特徴、パターン、および全体的な科学的結論を維持することを目的としている。 このように、合成データは、新しい予測モデル、先進的な健康itプラットフォーム、一般的なプロジェクトイデオレーションと仮説開発を含む様々なイニシアティブをサポートする安全なデータ共有を促進することができる。 しかし、実際のデータセットと比較して合成データセットの類似性と予測ユーティリティを一貫して評価する方法や、共有した場合のプライバシに対するリスクなど、多くの疑問や課題が残っている。 追加の規制やガバナンスの問題は解決されていない。 このプライマーでは、生成と評価方法とツール、配置の既存の例、規制と倫理のランドスケープ、アクセスとガバナンスの選択肢、さらなる発展の機会を含む、合成健康データの状態をマッピングします。

Recent advances in deep generative models have greatly expanded the potential to create realistic synthetic health datasets. These synthetic datasets aim to preserve the characteristics, patterns, and overall scientific conclusions derived from sensitive health datasets without disclosing patient identity or sensitive information. Thus, synthetic data can facilitate safe data sharing that supports a range of initiatives including the development of new predictive models, advanced health IT platforms, and general project ideation and hypothesis development. However, many questions and challenges remain, including how to consistently evaluate a synthetic dataset's similarity and predictive utility in comparison to the original real dataset and risk to privacy when shared. Additional regulatory and governance issues have not been widely addressed. In this primer, we map the state of synthetic health data, including generation and evaluation methods and tools, existing examples of deployment, the regulatory and ethical landscape, access and governance options, and opportunities for further development.
翻訳日:2024-02-01 15:29:57 公開日:2024-01-31
# ReSLLM: 大規模言語モデルはフェデレート検索のための強力なリソースセレクタである

ReSLLM: Large Language Models are Strong Resource Selectors for Federated Search ( http://arxiv.org/abs/2401.17645v1 )

ライセンス: Link先を確認
Shuai Wang, Shengyao Zhuang, Bevan Koopman, Guido Zuccon(参考訳) 複数の独立した検索エンジンの検索結果を統合するフェデレーション検索は、チャットボットのようなLLMベースのアプリケーションを強化するRetrieval-Augmented Generationパイプラインのコンテキストにおいて、ますます重要になる。 これらのシステムは、特定の(PubMedなど)から一般(Googleなど)まで、ユーザ発話の性質に基づいて、様々な検索エンジンにクエリを分散することが多い。 フェデレーション検索の重要な側面はリソースの選択である - クエリを発行する前に適切なリソースを選択して、高品質で迅速な応答を保証し、外部検索エンジンを呼び出すコストを含む。 しかし、現在のSOTAリソース選択手法は主に特徴に基づく学習手法に依存している。 これらの方法は、しばしば労働集約的で高価な各資源の訓練ラベルの作成を伴う。 対照的に、LPMはNLPおよびIRタスクを横断するゼロショット法として強い効果を示した。 フェデレートされた検索 LLM の文脈では、広範囲の事前定義されたラベルや特徴を必要とせずに、資源の関連性を評価することができると仮定する。 本稿では,ReSLLMを提案する。 我々のReSLLM法は、ゼロショット環境でのフェデレーション検索における資源の選択を促進するためにLLMを利用する。 さらに、教師なしの微調整プロトコルであるslat(synthetic label augmentation tuning)を考案し、既定のllmを用いてリソースから予めログしたクエリとスニペットの関連性を予測し、リソース選択に関してresllmを微調整するために使用する。 この文脈におけるllmの有効性に影響を及ぼす要因について,我々は経験的評価と分析を行った。 その結果、資源選択におけるReSLLMのメリットが示され、ゼロショット設定における競合効率だけでなく、SLATプロトコールを用いた微調整で大きく向上した。

Federated search, which involves integrating results from multiple independent search engines, will become increasingly pivotal in the context of Retrieval-Augmented Generation pipelines empowering LLM-based applications such as chatbots. These systems often distribute queries among various search engines, ranging from specialized (e.g., PubMed) to general (e.g., Google), based on the nature of user utterances. A critical aspect of federated search is resource selection - the selection of appropriate resources prior to issuing the query to ensure high-quality and rapid responses, and contain costs associated with calling the external search engines. However, current SOTA resource selection methodologies primarily rely on feature-based learning approaches. These methods often involve the labour intensive and expensive creation of training labels for each resource. In contrast, LLMs have exhibited strong effectiveness as zero-shot methods across NLP and IR tasks. We hypothesise that in the context of federated search LLMs can assess the relevance of resources without the need for extensive predefined labels or features. In this paper, we propose ReSLLM. Our ReSLLM method exploits LLMs to drive the selection of resources in federated search in a zero-shot setting. In addition, we devise an unsupervised fine tuning protocol, the Synthetic Label Augmentation Tuning (SLAT), where the relevance of previously logged queries and snippets from resources is predicted using an off-the-shelf LLM and then in turn used to fine-tune ReSLLM with respect to resource selection. Our empirical evaluation and analysis details the factors influencing the effectiveness of LLMs in this context. The results showcase the merits of ReSLLM for resource selection: not only competitive effectiveness in the zero-shot setting, but also obtaining large when fine-tuned using SLAT-protocol.
翻訳日:2024-02-01 15:29:41 公開日:2024-01-31
# 夜間光流に対する共通出現境界適応の探索

Exploring the Common Appearance-Boundary Adaptation for Nighttime Optical Flow ( http://arxiv.org/abs/2401.17642v1 )

ライセンス: Link先を確認
Hanyu Zhou, Yi Chang, Haoyue Liu, Wending Yan, Yuxing Duan, Zhiwei Shi, Luxin Yan(参考訳) 本研究では, 夜間光学的流れの微弱化と増幅雑音に悩まされる課題について検討する。 これらの劣化は、識別的な視覚特徴を弱め、不正な運動特徴マッチングを引き起こす。 既存の手法では、入力された視覚空間または出力された運動空間において、補助領域から夜間領域への知識伝達にドメイン適応を用いる。 しかし、この直接適応は、補助ドメインと夜間ドメインの間の特徴表現の固有の不均一性に起因する大きなドメインギャップが存在するため、効果がない。 この問題を克服するため,我々は,補助領域と夜間領域の機能アライメントを強化する中間ブリッジとして,共通相対空間を探索する。 本研究は,2つの補助昼時間領域とイベント領域を活用し,夜間光流に対する新しい共通適応フレームワークを提案する。 外観適応では,昼の補助画像と夜の画像を反射率調整された共通空間に埋め込むために,内在的な画像分解を用いる。 2つの反射マップの運動分布は非常によく似ており、昼から夜の領域に動きの外観知識を連続的に伝達する利点がある。 境界適応法では,時空画像と時空間勾配整列共通空間内の蓄積事象の運動相関式を理論的に導出する。 2つの時空間勾配写像の相関関係は大きな不一致を伴っており、対照的に境界知識を事象から夜間領域に移すことができる。 さらに、グローバルな動きと局所的な境界知識を夜間領域に共同で転送できるので、外観適応と境界適応は相補的である。

We investigate a challenging task of nighttime optical flow, which suffers from weakened texture and amplified noise. These degradations weaken discriminative visual features, thus causing invalid motion feature matching. Typically, existing methods employ domain adaptation to transfer knowledge from auxiliary domain to nighttime domain in either input visual space or output motion space. However, this direct adaptation is ineffective, since there exists a large domain gap due to the intrinsic heterogeneous nature of the feature representations between auxiliary and nighttime domains. To overcome this issue, we explore a common-latent space as the intermediate bridge to reinforce the feature alignment between auxiliary and nighttime domains. In this work, we exploit two auxiliary daytime and event domains, and propose a novel common appearance-boundary adaptation framework for nighttime optical flow. In appearance adaptation, we employ the intrinsic image decomposition to embed the auxiliary daytime image and the nighttime image into a reflectance-aligned common space. We discover that motion distributions of the two reflectance maps are very similar, benefiting us to consistently transfer motion appearance knowledge from daytime to nighttime domain. In boundary adaptation, we theoretically derive the motion correlation formula between nighttime image and accumulated events within a spatiotemporal gradient-aligned common space. We figure out that the correlation of the two spatiotemporal gradient maps shares significant discrepancy, benefitting us to contrastively transfer boundary knowledge from event to nighttime domain. Moreover, appearance adaptation and boundary adaptation are complementary to each other, since they could jointly transfer global motion and local boundary knowledge to the nighttime domain.
翻訳日:2024-02-01 15:29:10 公開日:2024-01-31
# 部分ポーリ分解法と後処理による行列の量子期待推定の促進に向けて

Towards enhancing quantum expectation estimation of matrices through partial Pauli decomposition techniques and post-processing ( http://arxiv.org/abs/2401.17640v1 )

ライセンス: Link先を確認
Dingjie Lu and Yangfan Li and Dax Enshan Koh and Zhao Wang and Jun Liu and Zhuangjian Liu(参考訳) 量子コンピュータ上での任意の$n$-qubit行列の期待値を$M \in \mathbb{C}^{2^n\times 2^n}$で推定する手法を提案する。 この処理に4^n$の異なる量子回路を用いたパウリ分解のような従来の手法とは対照的に、我々の手法は最低でも2^n$のユニークな回路を採用しており、帯域幅が限られている行列にはさらに少ない。 この方法は \textit{partial pauli decomposition} と呼ばれ、単量子ポーリ作用素のクロネッカー積として形成される可観測性と計算基底への直交射影を含んでいる。 このような可観測性の測定により、測定数の後処理により、$M$の2^n$の異なるエントリに関する情報を同時に収集することができる。 この量子資源の減少は、変分量子固有解法や量子近似最適化アルゴリズムのような予測推定に大きく依存する量子アルゴリズムを加速する能力を提供する、現在のノイズの多い中間量子時代において特に重要である。

We introduce an approach for estimating the expectation values of arbitrary $n$-qubit matrices $M \in \mathbb{C}^{2^n\times 2^n}$ on a quantum computer. In contrast to conventional methods like the Pauli decomposition that utilize $4^n$ distinct quantum circuits for this task, our technique employs at most $2^n$ unique circuits, with even fewer required for matrices with limited bandwidth. Termed the \textit{partial Pauli decomposition}, our method involves observables formed as the Kronecker product of a single-qubit Pauli operator and orthogonal projections onto the computational basis. By measuring each such observable, one can simultaneously glean information about $2^n$ distinct entries of $M$ through post-processing of the measurement counts. This reduction in quantum resources is especially crucial in the current noisy intermediate-scale quantum era, offering the potential to accelerate quantum algorithms that rely heavily on expectation estimation, such as the variational quantum eigensolver and the quantum approximate optimization algorithm.
翻訳日:2024-02-01 15:28:45 公開日:2024-01-31
# 大規模言語モデルにおけるOverKillのナビゲーション

Navigating the OverKill in Large Language Models ( http://arxiv.org/abs/2401.17633v1 )

ライセンス: Link先を確認
Chenyu Shi, Xiao Wang, Qiming Ge, Songyang Gao, Xianjun Yang, Tao Gui, Qi Zhang, Xuanjing Huang, Xun Zhao, Dahua Lin(参考訳) 大規模言語モデルは、有益かつ無害であるように細心の注意を払っている。 しかし、最近の研究は、モデルが良心的なクエリに答えることを拒否する可能性がある可能性を指摘している。 本稿では,モデルがどのように対処し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。 以上より,モデル内へのショートカットの存在が明らかとなり,"kill"のような有害な単語が過度に注目され,安全性の強調が過剰なスキルを悪化させる可能性が示唆された。 これらの知見に基づき、この現象を緩和するために、トレーニングフリーかつモデル非依存な戦略である自己一貫性復号(self-cd)を導入する。 まず,安全性を重視したシステムプロンプトに応答する際に,モデルの出力分布の違いを増幅することで,過度な注意を抽出した。 そして、コントラッシブデコーディングにより、モデルから過剰な注意を下書きすることで、最終的な次点予測を決定する。 実験結果から, 本手法は, 安全性にほとんど影響を与えず, 拒絶率を20\%低下させた。

Large language models are meticulously aligned to be both helpful and harmless. However, recent research points to a potential overkill which means models may refuse to answer benign queries. In this paper, we investigate the factors for overkill by exploring how models handle and determine the safety of queries. Our findings reveal the presence of shortcuts within models, leading to an over-attention of harmful words like 'kill' and prompts emphasizing safety will exacerbate overkill. Based on these insights, we introduce Self-Contrastive Decoding (Self-CD), a training-free and model-agnostic strategy, to alleviate this phenomenon. We first extract such over-attention by amplifying the difference in the model's output distributions when responding to system prompts that either include or omit an emphasis on safety. Then we determine the final next-token predictions by downplaying the over-attention from the model via contrastive decoding. Empirical results indicate that our method has achieved an average reduction of the refusal rate by 20\% while having almost no impact on safety.
翻訳日:2024-02-01 15:28:25 公開日:2024-01-31
# 自己監督音声と話者モデルは何を学ぶか クロスモデル層幅解析の新しい知見

What Do Self-Supervised Speech and Speaker Models Learn? New Findings From a Cross Model Layer-Wise Analysis ( http://arxiv.org/abs/2401.17632v1 )

ライセンス: Link先を確認
Takanori Ashihara, Marc Delcroix, Takafumi Moriya, Kohei Matsuura, Taichi Asami, Yusuke Ijima(参考訳) 自己教師付き学習(ssl)は有意義な音声表現の学習で注目を集めている。 wavlmのような音声sslモデルは、汎用表現を符号化するためにマスク予測トレーニングを用いる。 対照的に、DINOベースのモデルで実証された話者SSLモデルは、主に話者表現のための発話レベルの訓練目標を採用する。 これらのモデルがどのように情報を表現するかを理解することは、モデルの効率性と効率性を改善する上で不可欠である。 音声SSLの様々な分析とは異なり、どの情報話者SSLをキャプチャするか、その表現が音声SSLや他の完全に教師された話者モデルとどのように異なるかは限定的に調査されている。 本稿ではこれらの基本的な問題に対処する。 音声および話者SSLモデルにSUPERB評価課題を適用し,様々な音声特性を捉える能力について検討する。 また,どの層が各タスクに主に利用されているかを調べ,音声の表現方法の違いを識別する。 さらに、モデル内の層間および層間の類似度を測定するために直接比較を行う。 私たちの分析は 1)内容情報を表す能力は、拡張話者表現とは多少無関係である。 2)音声sslモデルの特定の層は、言語情報の取り込みに部分的に特化しており、 3)話者sslモデルは言語情報を無視する傾向があるが、より洗練された話者表現を示す。

Self-supervised learning (SSL) has attracted increased attention for learning meaningful speech representations. Speech SSL models, such as WavLM, employ masked prediction training to encode general-purpose representations. In contrast, speaker SSL models, exemplified by DINO-based models, adopt utterance-level training objectives primarily for speaker representation. Understanding how these models represent information is essential for refining model efficiency and effectiveness. Unlike the various analyses of speech SSL, there has been limited investigation into what information speaker SSL captures and how its representation differs from speech SSL or other fully-supervised speaker models. This paper addresses these fundamental questions. We explore the capacity to capture various speech properties by applying SUPERB evaluation probing tasks to speech and speaker SSL models. We also examine which layers are predominantly utilized for each task to identify differences in how speech is represented. Furthermore, we conduct direct comparisons to measure the similarities between layers within and across models. Our analysis unveils that 1) the capacity to represent content information is somewhat unrelated to enhanced speaker representation, 2) specific layers of speech SSL models would be partly specialized in capturing linguistic information, and 3) speaker SSL models tend to disregard linguistic information but exhibit more sophisticated speaker representation.
翻訳日:2024-02-01 15:28:07 公開日:2024-01-31
# 拡散モデルに基づく画像の空間・周波数認識復元法

Spatial-and-Frequency-aware Restoration method for Images based on Diffusion Models ( http://arxiv.org/abs/2401.17629v1 )

ライセンス: Link先を確認
Kyungsung Lee, Donggyu Lee, Myungjoo Kang(参考訳) 拡散モデルは画像復元(IR)のための有望なフレームワークとして最近登場しており、高品質な再構成と確立された手法との互換性のためである。 IRにおけるノイズの多い逆問題の解法は、画素単位でのデータ忠実性を考える。 本稿では,ガウス雑音を持つ赤外線の空間・周波数・周波数拡散モデルであるSaFaRIを提案する。 本モデルでは,空間領域と周波数領域の両方において画像の忠実性が保たれ,コンストラクション品質が向上する。 我々は, インペイント, ノイズ除去, スーパーレゾリューションなど, 様々な雑音の逆問題に対して, モデルの性能を包括的に評価する。 我々の徹底的な評価は、SaFaRIがImageNetデータセットとFFHQデータセットの両方で最先端のパフォーマンスを達成し、LPIPSとFIDメトリクスの点で既存のゼロショットIRメソッドよりも優れていることを示している。

Diffusion models have recently emerged as a promising framework for Image Restoration (IR), owing to their ability to produce high-quality reconstructions and their compatibility with established methods. Existing methods for solving noisy inverse problems in IR, considers the pixel-wise data-fidelity. In this paper, we propose SaFaRI, a spatial-and-frequency-aware diffusion model for IR with Gaussian noise. Our model encourages images to preserve data-fidelity in both the spatial and frequency domains, resulting in enhanced reconstruction quality. We comprehensively evaluate the performance of our model on a variety of noisy inverse problems, including inpainting, denoising, and super-resolution. Our thorough evaluation demonstrates that SaFaRI achieves state-of-the-art performance on both the ImageNet datasets and FFHQ datasets, outperforming existing zero-shot IR methods in terms of LPIPS and FID metrics.
翻訳日:2024-02-01 15:27:48 公開日:2024-01-31
# テストデータジェネレータ生成のための生成AI

Generative AI to Generate Test Data Generators ( http://arxiv.org/abs/2401.17626v1 )

ライセンス: Link先を確認
Benoit Baudry, Khashayar Etemadi, Sen Fang, Yogya Gamage, Yi Liu, Yuxin Liu, Martin Monperrus, Javier Ron, Andr\'e Silva, Deepika Tiwari(参考訳) 偽データの生成は、データフェイキングライブラリの数と重要性によって示されるように、現代のソフトウェアテストにおいて不可欠な次元である。 しかし、ファキングライブラリの開発者は、異なる自然言語やドメインで生成される幅広いデータに対応できない。 本稿では、異なるドメインでテストデータを生成するための生成AIの能力を評価する。 大言語モデル(LLM)の3種類のプロンプトを設計し、異なるレベルの可積分性でテストデータ生成タスクを実行する。 1)生の試験データ生成 2 有用な試験データを生成する特定の言語によるプログラムの合成、及び 3) 最先端のフェイカーライブラリを使用するプログラムの作成。 我々はLSMに11ドメインのテストデータを生成するよう促すことでアプローチを評価した。 その結果, LLMは, 3段階の可積分性で, 広範囲の領域で現実的なデータ生成を実現できることがわかった。

Generating fake data is an essential dimension of modern software testing, as demonstrated by the number and significance of data faking libraries. Yet, developers of faking libraries cannot keep up with the wide range of data to be generated for different natural languages and domains. In this paper, we assess the ability of generative AI for generating test data in different domains. We design three types of prompts for Large Language Models (LLMs), which perform test data generation tasks at different levels of integrability: 1) raw test data generation, 2) synthesizing programs in a specific language that generate useful test data, and 3) producing programs that use state-of-the-art faker libraries. We evaluate our approach by prompting LLMs to generate test data for 11 domains. The results show that LLMs can successfully generate realistic test data generators in a wide range of domains at all three levels of integrability.
翻訳日:2024-02-01 15:27:31 公開日:2024-01-31
# 大規模言語モデルに基づく知識編集の摂動

Neighboring Perturbations of Knowledge Editing on Large Language Models ( http://arxiv.org/abs/2401.17623v1 )

ライセンス: Link先を確認
Jun-Yu Ma, Jia-Chen Gu, Ningyu Zhang, Zhen-Hua Ling(参考訳) 例外的な能力にもかかわらず、大きな言語モデル(LLM)は、偽りや時代遅れの知識のために意図しないテキストを生成する傾向がある。 LLMの再訓練の資源集約性を考えると,知識編集の発展が顕著に進んでいる。 しかし、現在のアプローチや評価は、近隣の知識に対する編集の摂動をほとんど探さない。 本稿では, LLM に対する新たな知識の更新が, それらの中にカプセル化されている近隣の知識を混乱させるかどうかを考察する。 具体的には,質問に対する回答リストに新しい回答を付加すると,このリストの本来の正しい回答が破滅的に忘れてしまうか,不正確な回答が意図せず含められるかを見極める。 付加性の指標を導入し、新しい知識を付加する際の近隣の知識に対する摂動度を評価するために、PEAK(Perturbation Evaluation of Appending Knowledge)と呼ばれるベンチマークを構築した。 さらに,回答リストの整合性を維持することにより,近隣の摂動を軽減するために,appending via Preservation and Prevention (APP) と呼ばれるプラグアンドプレイフレームワークを提案する。 3つのLLM上でのAPP結合と4つの編集方法の有効性を示す実験を行った。

Despite their exceptional capabilities, large language models (LLMs) are prone to generating unintended text due to false or outdated knowledge. Given the resource-intensive nature of retraining LLMs, there has been a notable increase in the development of knowledge editing. However, current approaches and evaluations rarely explore the perturbation of editing on neighboring knowledge. This paper studies whether updating new knowledge to LLMs perturbs the neighboring knowledge encapsulated within them. Specifically, we seek to figure out whether appending a new answer into an answer list to a factual question leads to catastrophic forgetting of original correct answers in this list, as well as unintentional inclusion of incorrect answers. A metric of additivity is introduced and a benchmark dubbed as Perturbation Evaluation of Appending Knowledge (PEAK) is constructed to evaluate the degree of perturbation to neighboring knowledge when appending new knowledge. Besides, a plug-and-play framework termed Appending via Preservation and Prevention (APP) is proposed to mitigate the neighboring perturbation by maintaining the integrity of the answer list. Experiments demonstrate the effectiveness of APP coupling with four editing methods on three LLMs.
翻訳日:2024-02-01 15:27:20 公開日:2024-01-31
# 大規模言語モデルの時代におけるメッセージのコミット

Commit Messages in the Age of Large Language Models ( http://arxiv.org/abs/2401.17622v1 )

ライセンス: Link先を確認
Cristina V. Lopes, Vanessa I. Klotzman, Iris Ma, Iftekar Ahmed(参考訳) コミットメッセージは、バージョン管理システムに格納されたコードベースの変更の説明である。 コードベースの進化を開発者が理解するのに役立ちます。 しかし、コミットメッセージを書くことは、開発者の間で退屈で一貫性がない可能性がある。 この問題に対処するために、ルールベース、検索ベース、学習ベースのアプローチなど、さまざまな方法でコミットメッセージを自動生成しようと試みている。 大きな言語モデルの進歩は、コミットメッセージを生成する新しい可能性を提供する。 本研究では,コード変更に基づいてコミットメッセージを生成するOpenAIのChatGPTの性能を評価する。 chatgptで得られた結果と、特にコミットデータに基づいてトレーニングされた以前の自動コミットメッセージ生成手法を比較した。 我々のゴールは、大規模事前訓練された言語モデルが定量的かつ質的に許容できるコミットメッセージを生成できる範囲を評価することである。 その結果,ChatGPTは,従来のACMG(Automatic Commit Message Generation)メソッドを桁違いに上回り,一般的には,生成したメッセージは正確かつ高品質であることがわかった。 また、失敗した場合の洞察や分類も提供しています。

Commit messages are explanations of changes made to a codebase that are stored in version control systems. They help developers understand the codebase as it evolves. However, writing commit messages can be tedious and inconsistent among developers. To address this issue, researchers have tried using different methods to automatically generate commit messages, including rule-based, retrieval-based, and learning-based approaches. Advances in large language models offer new possibilities for generating commit messages. In this study, we evaluate the performance of OpenAI's ChatGPT for generating commit messages based on code changes. We compare the results obtained with ChatGPT to previous automatic commit message generation methods that have been trained specifically on commit data. Our goal is to assess the extent to which large pre-trained language models can generate commit messages that are both quantitatively and qualitatively acceptable. We found that ChatGPT was able to outperform previous Automatic Commit Message Generation (ACMG) methods by orders of magnitude, and that, generally, the messages it generates are both accurate and of high-quality. We also provide insights, and a categorization, for the cases where it fails.
翻訳日:2024-02-01 15:26:59 公開日:2024-01-31
# マルチビュー・マルチヒューマン・アソシエーションとトラッキングのための自己スーパービジョンのパワー

Unveiling the Power of Self-supervision for Multi-view Multi-human Association and Tracking ( http://arxiv.org/abs/2401.17617v1 )

ライセンス: Link先を確認
Wei Feng, Feifan Wang, Ruize Han, Zekun Qian and Song Wang(参考訳) マルチビュー・マルチヒューマン・アソシエーション・トラッキング(MvMHAT)は、複数対人映像監視において新たな重要な問題であり、各ビューにおける時間的時間的グループ追跡と、従来のMOTやマルチカメラMOTタスクとは異なる、異なるビューで同一人物を同時に特定することを目的としている。 このようにして、MvMHATの動画はより複雑なアノテーションを必要とし、自己学習のためのより多くの情報を含んでいる。 本研究では,自己教師付き学習型エンドツーエンドネットワークを用いてこの問題に取り組む。 具体的には, 反射率, 対称性, 推移率の3つの特性を考慮し, 空間時間的自己整合性理論の活用を提案する。 自然に保持する反射特性の他に,特徴学習と代入行列最適化の両面において,対称性と推移性の性質に基づく自己教師型学習損失を設計し,時間的・視点的に複数の人間を関連付ける。 さらに、MvMHATの研究を促進するために、異なるアルゴリズムのネットワークトレーニングとテストのための2つの大規模ベンチマークを構築した。 提案手法の有効性を検証するため,提案手法の大規模な評価実験を行った。 ベンチマークとコードを一般公開しました。

Multi-view multi-human association and tracking (MvMHAT), is a new but important problem for multi-person scene video surveillance, aiming to track a group of people over time in each view, as well as to identify the same person across different views at the same time, which is different from previous MOT and multi-camera MOT tasks only considering the over-time human tracking. This way, the videos for MvMHAT require more complex annotations while containing more information for self learning. In this work, we tackle this problem with a self-supervised learning aware end-to-end network. Specifically, we propose to take advantage of the spatial-temporal self-consistency rationale by considering three properties of reflexivity, symmetry and transitivity. Besides the reflexivity property that naturally holds, we design the self-supervised learning losses based on the properties of symmetry and transitivity, for both appearance feature learning and assignment matrix optimization, to associate the multiple humans over time and across views. Furthermore, to promote the research on MvMHAT, we build two new large-scale benchmarks for the network training and testing of different algorithms. Extensive experiments on the proposed benchmarks verify the effectiveness of our method. We have released the benchmark and code to the public.
翻訳日:2024-02-01 15:26:37 公開日:2024-01-31
# グラフ多相性学習による分子特性予測

Graph Multi-Similarity Learning for Molecular Property Prediction ( http://arxiv.org/abs/2401.17615v1 )

ライセンス: Link先を確認
Hao Xu, Zhengyang Zhou, Pengyu Hong(参考訳) 効果的な分子表現学習は分子特性予測に不可欠である。 コントラスト学習(Contrastive Learning)は、分子表現学習において、正対と負対の確立に頼っている。 しかし、この二項類似性分類は複雑な分子関係の性質を単純化し、分子間の相対類似性の度合いを見落とし、表現学習の有効性と一般性に挑戦する。 この課題に対応するために、我々はGraph Multi-Similarity Learning for Molecular Property Prediction (GraphMSL)フレームワークを提案する。 GraphMSLは、一般化された多相性計量を連続的な尺度に組み込み、自己相似性と相対的な類似性を捉える。 単調な多相性指標は様々な化学モーダル性から導出され、これらの指標を多モーダル形式に融合することでグラフMSLの有効性が著しく向上する。 さらに、融合関数の柔軟性は、異なる化学意味論を伝えるためにモデルの焦点を再構成することができる。 GraphMSLは、様々な下流タスクによる薬物発見評価と学習表現のポストホック分析に有効である。 その顕著な業績は、新しい薬物候補の探索に重要な可能性を示唆している。

Effective molecular representation learning is essential for molecular property prediction. Contrastive learning, a prominent self-supervised approach for molecular representation learning, relies on establishing positive and negative pairs. However, this binary similarity categorization oversimplifies the nature of complex molecular relationships and overlooks the degree of relative similarities among molecules, posing challenges to the effectiveness and generality of representation learning. In response to this challenge, we propose the Graph Multi-Similarity Learning for Molecular Property Prediction (GraphMSL) framework. GraphMSL incorporates a generalized multi-similarity metric in a continuous scale, capturing self-similarity and relative similarities. The unimodal multi-similarity metrics are derived from various chemical modalities, and the fusion of these metrics into a multimodal form significantly enhances the effectiveness of GraphMSL. In addition, the flexibility of fusion function can reshape the focus of the model to convey different chemical semantics. GraphMSL proves effective in drug discovery evaluations through various downstream tasks and post-hoc analysis of learnt representations. Its notable performance suggests significant potential for the exploration of new drug candidates.
翻訳日:2024-02-01 15:26:10 公開日:2024-01-31
# IGCN:マルチモーダルデータのための統合グラフ畳み込みネットワーク

IGCN: Integrative Graph Convolutional Networks for Multi-modal Data ( http://arxiv.org/abs/2401.17612v1 )

ライセンス: Link先を確認
Cagri Ozdemir, Mohammad Al Olaimat, Yashu Vashishath, Serdar Bozdag and Alzheimer's Disease Neuroimaging Initiative(参考訳) グラフニューラルネットワーク(GNN)の最近の進歩は、様々な種類のノードとエッジを含むマルチモーダルデータに対するグラフデータモデリングの大幅な増加につながっている。 近年,ネットワーク構造データに対する統合的予測法が開発されているが,これらの手法には制限がある。 マルチモーダルデータを含むノード分類タスクでは、あるデータモダリティが1つのクラスを予測する場合、他のクラスは異なるクラスの予測に優れる。 したがって、より優れた学習表現を得るためには、多モードデータの積分解析に高度な計算手法が必要である。 さらに、既存の統合ツールには、特定の予測の背後にある理論的根拠の包括的かつ凝集的な理解が欠けているため、モデル解釈可能性の向上には適さない。 これらの制約に対処し,マルチモーダルデータネットワークのための新しい統合型ニューラルネットワーク手法であるigcn(integrative graph convolutional networks)を導入する。 IGCNは複数のトポロジからノード埋め込みを学習し、ノード埋め込みに注意係数を割り当てることで、複数のノード埋め込みを重み付け形式に融合する。 提案するアテンションメカニズムは,特定のクラスを予測するために,各サンプルに対してより強調されるデータの種類を特定するのに役立つ。 したがって、IGCNは、異なるノード分類タスクにおいて、これまで知らなかった特徴を解き放つ可能性がある。 我々は、がんのサブタイプを予測するマルチオミクスデータセットやアルツハイマー病の進行を予測するマルチモーダル臨床データセットなど、さまざまなドメインのデータセットにiccnをベンチマークした。 実験の結果, IGCNは最先端法やベースライン法と同等以上の性能を示した。

Recent advances in Graph Neural Networks (GNN) have led to a considerable growth in graph data modeling for multi-modal data which contains various types of nodes and edges. Although some integrative prediction solutions have been developed recently for network-structured data, these methods have some restrictions. For a node classification task involving multi-modal data, certain data modalities may perform better when predicting one class, while others might excel in predicting a different class. Thus, to obtain a better learning representation, advanced computational methodologies are required for the integrative analysis of multi-modal data. Moreover, existing integrative tools lack a comprehensive and cohesive understanding of the rationale behind their specific predictions, making them unsuitable for enhancing model interpretability. Addressing these restrictions, we introduce a novel integrative neural network approach for multi-modal data networks, named Integrative Graph Convolutional Networks (IGCN). IGCN learns node embeddings from multiple topologies and fuses the multiple node embeddings into a weighted form by assigning attention coefficients to the node embeddings. Our proposed attention mechanism helps identify which types of data receive more emphasis for each sample to predict a certain class. Therefore, IGCN has the potential to unravel previously unknown characteristics within different node classification tasks. We benchmarked IGCN on several datasets from different domains, including a multi-omics dataset to predict cancer subtypes and a multi-modal clinical dataset to predict the progression of Alzheimer's disease. Experimental results show that IGCN outperforms or is on par with the state-of-the-art and baseline methods.
翻訳日:2024-02-01 15:25:50 公開日:2024-01-31
# lanegraph2seq:頂点エッジエンコーディングと接続強化による言語モデルによるレーントポロジー抽出

LaneGraph2Seq: Lane Topology Extraction with Language Model via Vertex-Edge Encoding and Connectivity Enhancement ( http://arxiv.org/abs/2401.17609v1 )

ライセンス: Link先を確認
Renyuan Peng, Xinyue Cai, Hang Xu, Jiachen Lu, Feng Wen, Wei Zhang, Li Zhang(参考訳) 道路構造を理解することは自動運転にとって不可欠である。 複雑な道路構造は、中心線曲線やDAG(Directed Acyclic Graph)を形成する接続を含むレーングラフを用いて描かれることが多い。 レーングラフの正確な抽出は、DAG内の頂点とエッジ情報を正確に推定することに依存する。 最近の研究はトランスフォーマーに基づく言語モデルの印象的なシーケンス予測能力を強調し、グラフデータをシーケンスとしてエンコードする際のグラフ表現の学習に有効である。 しかし、既存の研究は主に頂点を明示的にモデル化することに焦点を当てており、エッジ情報は単にネットワークに埋め込まれている。 したがって、これらのアプローチはレーングラフ抽出のタスクでは不足する。 これを解決するために、レーングラフ抽出の新しいアプローチであるLaneGraph2Seqを紹介する。 頂点エッジエンコーディングと接続強化を備えた言語モデルを活用する。 我々のシリアライズ戦略は、頂点中心の深度優先トラバーサルと簡潔なエッジベースパーティションシーケンスを含む。 さらに,レーン接続性を改善するために,分類器フリーガイダンスと核サンプリングを併用する。 提案手法を,有意なデータセット,nuScenes,Argoverse 2で検証し,一貫性と説得力のある結果を示した。 lanegraph2seqアプローチは,レーングラフ抽出における最先端技術と比較して優れた性能を示す。

Understanding road structures is crucial for autonomous driving. Intricate road structures are often depicted using lane graphs, which include centerline curves and connections forming a Directed Acyclic Graph (DAG). Accurate extraction of lane graphs relies on precisely estimating vertex and edge information within the DAG. Recent research highlights Transformer-based language models' impressive sequence prediction abilities, making them effective for learning graph representations when graph data are encoded as sequences. However, existing studies focus mainly on modeling vertices explicitly, leaving edge information simply embedded in the network. Consequently, these approaches fall short in the task of lane graph extraction. To address this, we introduce LaneGraph2Seq, a novel approach for lane graph extraction. It leverages a language model with vertex-edge encoding and connectivity enhancement. Our serialization strategy includes a vertex-centric depth-first traversal and a concise edge-based partition sequence. Additionally, we use classifier-free guidance combined with nucleus sampling to improve lane connectivity. We validate our method on prominent datasets, nuScenes and Argoverse 2, showcasing consistent and compelling results. Our LaneGraph2Seq approach demonstrates superior performance compared to state-of-the-art techniques in lane graph extraction.
翻訳日:2024-02-01 15:25:21 公開日:2024-01-31
# cued音声認識用マルチモーダルフュージョントランスの計算とパラメータ向上

Computation and Parameter Efficient Multi-Modal Fusion Transformer for Cued Speech Recognition ( http://arxiv.org/abs/2401.17604v1 )

ライセンス: Link先を確認
Lei Liu and Li Liu and Haizhou Li(参考訳) cued speech (cs) は、聴覚障害者が唇の読みといくつかの特定の手形を組み合わせて音声言語を視認する純粋視覚符号化手法である。 自動cs認識(acsr)は、聴覚障害者が効果的にコミュニケーションできるように、音声の視覚的な手がかりをテキストに書き起こそうとする。 CSの視覚情報はリップリーディングとハンドキューを含むため、それらの融合はACSRにおいて重要な役割を果たす。 しかし、従来の核融合法は、マルチモーダルcsデータの長いシーケンス入力に存在する大域的な依存関係を捉えるのに苦労している。 結果として、これらの方法は通常、融合に寄与する効果的なクロスモーダル関係を学ばない。 近年,マルチモーダル核融合における長いシーケンスに対するグローバル依存を捉えるための注意に基づくトランスフォーマーが普及しているが,既存のマルチモーダル核融合トランスフォーマーは認識精度の低下とacsrタスクの非効率な計算に苦しめられている。 これらの問題に対処するために,トークン利用率(TUR)を定式化して,マルチモーダルストリームから重要なトークンを選択する,新しいトークン・イパタンス・アウェア・アテンション機構(TIAA)を提案することにより,新しい計算手法とパラメータ効率のよいマルチモーダル融合トランスフォーマを開発する。 より正確には、tiaaはまず各モダリティのすべてのトークンに対するモダリティ固有の粒度の時間依存性をモデル化し、その後、異なるモダリティの重要なトークンに対するモダリティが共有する粒度の粗い時間依存性の効率的なクロスモーダル相互作用を学ぶ。 さらに、TIAAの特徴流を制御するために、軽量ゲート隠れプロジェクションが設計されている。 得られたモデルであるEcoCued Economical Cued Speech Fusion Transformer (EcoCued)は、既存のトランスフォーマーベースの融合法やACSR融合法と比較して、既存のCSデータセットの最先端のパフォーマンスを実現する。

Cued Speech (CS) is a pure visual coding method used by hearing-impaired people that combines lip reading with several specific hand shapes to make the spoken language visible. Automatic CS recognition (ACSR) seeks to transcribe visual cues of speech into text, which can help hearing-impaired people to communicate effectively. The visual information of CS contains lip reading and hand cueing, thus the fusion of them plays an important role in ACSR. However, most previous fusion methods struggle to capture the global dependency present in long sequence inputs of multi-modal CS data. As a result, these methods generally fail to learn the effective cross-modal relationships that contribute to the fusion. Recently, attention-based transformers have been a prevalent idea for capturing the global dependency over the long sequence in multi-modal fusion, but existing multi-modal fusion transformers suffer from both poor recognition accuracy and inefficient computation for the ACSR task. To address these problems, we develop a novel computation and parameter efficient multi-modal fusion transformer by proposing a novel Token-Importance-Aware Attention mechanism (TIAA), where a token utilization rate (TUR) is formulated to select the important tokens from the multi-modal streams. More precisely, TIAA firstly models the modality-specific fine-grained temporal dependencies over all tokens of each modality, and then learns the efficient cross-modal interaction for the modality-shared coarse-grained temporal dependencies over the important tokens of different modalities. Besides, a light-weight gated hidden projection is designed to control the feature flows of TIAA. The resulting model, named Economical Cued Speech Fusion Transformer (EcoCued), achieves state-of-the-art performance on all existing CS datasets, compared with existing transformer-based fusion methods and ACSR fusion methods.
翻訳日:2024-02-01 15:25:01 公開日:2024-01-31
# STEM学生評価のための低コストユニバーサルアクセスクラウドフレームワークを目指して

Towards a low-cost universal access cloud framework to assess STEM students ( http://arxiv.org/abs/2401.17701v1 )

ライセンス: Link先を確認
L.F.S Merchante, Carlos M. Vallez and Carrie Szczerbik(参考訳) 政府によるロックダウンは、従来の対面教育からハイブリッドあるいは完全なリモート学習モデルへの移行を学術機関に求めている。 この移行は、健全な教育の継続とオンラインデジタル大学サービスへの安全なアクセスを保証するという技術的課題に焦点を当てている。 しかし、重要な要件は評価プロセスにも適応することである。 このニーズに応えて,本論文の著者らは,厳格に制御された試験条件下で従来の人体監視型コンピュータ実験室を反映したコンピュータプログラミングコースにおいて,大学生のオンライン要約的評価に普遍的にアクセスするためのクラウド展開を調整し,実装した。 この展開は大学システムや多くの商用ツールとの統合が容易であった。 このクラウドデプロイメントは、特別な状況に対するソリューションであるだけでなく、オンラインの協調的なコーディング課題、実践的なラボセッション、形成的評価、学生が機器を使って接続するマスタークラスにも毎日適用することができる。 家庭からの接続は、身体障害者の教育へのアクセスを促進する。 また、生徒の適応した機器を評価プロセスに取り入れ、聴覚障害や視覚障害のある人の評価を簡素化する。 これらの利点と安全規則への明確なコミットメントに加えて、このソリューションはオンプレミスの同等のインストールよりも安価で柔軟であることが証明されている。

Government-imposed lockdowns have challenged academic institutions to transition from traditional face-to-face education into hybrid or fully remote learning models. This transition has focused on the technological challenge of guaranteeing the continuity of sound pedagogy and granting safe access to online digital university services. However, a key requisite involves adapting the evaluation process as well. In response to this need, the authors of this paper tailored and implemented a cloud deployment to provide universal access to online summative assessment of university students in a computer programming course that mirrored a traditional in-person monitored computer laboratory under strictly controlled exam conditions. This deployment proved easy to integrate with the university systems and many commercial proctoring tools. This cloud deployment is not only a solution for extraordinary situations; it can also be adapted daily for online collaborative coding assignments, practical lab sessions, formative assessments, and masterclasses where the students connect using their equipment. Connecting from home facilitates access to education for students with physical disabilities. It also allows participation with their students' own adapted equipment in the evaluation processes, simplifying assessment for those with hearing or visual impairments. In addition to these benefits and the evident commitment to the safety rules, this solution has proven cheaper and more flexible than on-premise equivalent installations.
翻訳日:2024-02-01 15:19:54 公開日:2024-01-31
# 機能的接続と機械学習を用いた縦断後tDCSの幹部機能分類

Classification of executive functioning performance post-longitudinal tDCS using functional connectivity and machine learning methods ( http://arxiv.org/abs/2401.17700v1 )

ライセンス: Link先を確認
Akash K Rao, Vishnu K Menon, Shashank Uttrani, Ayushman Dixit, Dipanshu Verma, Varun Dutt(参考訳) エグゼクティブ・ファンクション(executive functioning)は、人間がゴール指向の方法で行動を計画、整理、調整できる認知プロセスである。 経頭蓋直流刺激 (transcranial direct current stimulation, tdcs) の経時的介入後の行政機能の変化の理解と分類は文献で検討されていない。 本研究は,tdc後の業務機能評価を分類するために,機能接続と機械学習アルゴリズムを用いる。 50名の被験者を実験群とプラセボ群に分けた。 脳波データを収集し,1日目に実行機能タスクを行った。 実験グループは2日目から8日目までタスクトレーニング中にtDCSを受け、コントロールグループはシャムtDCSを受けた。 10日目、被験者は1日目に指定した課題を繰り返した。 eegデータから異なる機能的コネクティビティ指標を抽出し、最終的には異なる機械学習アルゴリズムを使用してエグゼクティブ機能パフォーマンスの分類に使用した。 その結果、部分的指向性コヒーレンスと多層パーセプトロン(再帰的特徴除去)の組み合わせにより、95.44%の高い分類精度が得られた。 本稿では,tdcs後の行政機能評価と改善を目的とした,リアルタイム神経フィードバックシステムの開発における結果の意義について考察する。

Executive functioning is a cognitive process that enables humans to plan, organize, and regulate their behavior in a goal-directed manner. Understanding and classifying the changes in executive functioning after longitudinal interventions (like transcranial direct current stimulation (tDCS)) has not been explored in the literature. This study employs functional connectivity and machine learning algorithms to classify executive functioning performance post-tDCS. Fifty subjects were divided into experimental and placebo control groups. EEG data was collected while subjects performed an executive functioning task on Day 1. The experimental group received tDCS during task training from Day 2 to Day 8, while the control group received sham tDCS. On Day 10, subjects repeated the tasks specified on Day 1. Different functional connectivity metrics were extracted from EEG data and eventually used for classifying executive functioning performance using different machine learning algorithms. Results revealed that a novel combination of partial directed coherence and multi-layer perceptron (along with recursive feature elimination) resulted in a high classification accuracy of 95.44%. We discuss the implications of our results in developing real-time neurofeedback systems for assessing and enhancing executive functioning performance post-tDCS administration.
翻訳日:2024-02-01 15:19:33 公開日:2024-01-31
# 物理デジタル顔検出の統一化

Unified Physical-Digital Face Attack Detection ( http://arxiv.org/abs/2401.17699v1 )

ライセンス: Link先を確認
Hao Fang, Ajian Liu, Haocheng Yuan, Junze Zheng, Dingheng Zeng, Yanhong Liu, Jiankang Deng, Sergio Escalera, Xiaoming Liu, Jun Wan, Zhen Lei(参考訳) 顔認識(FR)システムは物理的(印刷写真)とデジタル(ディープフェイク)攻撃に悩まされることがある。 しかし、以前の研究は両方の状況を同時に考慮することは滅多にない。 これにより、複数のモデルがデプロイされ、計算負荷が増大する。 統合モデルが欠如している主な理由は,(1)id一貫性を持つ物理攻撃とデジタル攻撃の両方を含むデータセットの欠如,(2)これら2つの攻撃のクラス内ばらつきが大きいため,両攻撃を同時に検出するためのコンパクトな機能空間の習得が困難である,という2つの要因による。 これらの問題に対処するために、UniAttackDataと呼ばれる統一物理デジタルアタックデータセットを収集します。 データセットは2つの物理的攻撃と12のデジタル攻撃の合計1,800ドルの参加から成り、合計で29,706本のビデオになる。 次に,視覚言語モデル(vlms)に基づく統一的攻撃検出フレームワーク,すなわち3つの主モジュールを含むユニアタック検出(uniattack detectionion)を提案する。教師・教師間プロンプト(tsp)モジュール,総合的な機能空間を捉えるために設計された統一知識マイニング(ukm)モジュール,サンプルレベルのセマンティクスを把握を目的としたサンプルレベルプロンプトインタラクション(slpi)モジュールである。 これら3つのモジュールは、堅牢な統一攻撃検出フレームワークをシームレスに形成する。 UniAttackDataおよび他の3つのデータセットに対する大規模な実験は、当社の顔攻撃検出に対するアプローチの優位性を実証している。

Face Recognition (FR) systems can suffer from physical (i.e., print photo) and digital (i.e., DeepFake) attacks. However, previous related work rarely considers both situations at the same time. This implies the deployment of multiple models and thus more computational burden. The main reasons for this lack of an integrated model are caused by two factors: (1) The lack of a dataset including both physical and digital attacks with ID consistency which means the same ID covers the real face and all attack types; (2) Given the large intra-class variance between these two attacks, it is difficult to learn a compact feature space to detect both attacks simultaneously. To address these issues, we collect a Unified physical-digital Attack dataset, called UniAttackData. The dataset consists of $1,800$ participations of 2 and 12 physical and digital attacks, respectively, resulting in a total of 29,706 videos. Then, we propose a Unified Attack Detection framework based on Vision-Language Models (VLMs), namely UniAttackDetection, which includes three main modules: the Teacher-Student Prompts (TSP) module, focused on acquiring unified and specific knowledge respectively; the Unified Knowledge Mining (UKM) module, designed to capture a comprehensive feature space; and the Sample-Level Prompt Interaction (SLPI) module, aimed at grasping sample-level semantics. These three modules seamlessly form a robust unified attack detection framework. Extensive experiments on UniAttackData and three other datasets demonstrate the superiority of our approach for unified face attack detection.
翻訳日:2024-02-01 15:19:13 公開日:2024-01-31
# 深部スペクトルクラスタリングによるデータキューブ分割

Datacube segmentation via Deep Spectral Clustering ( http://arxiv.org/abs/2401.17695v1 )

ライセンス: Link先を確認
Alessandro Bombini and Fernando Garc\'ia-Avello Bof\'ias and Caterina Bracci and Michele Ginolfi and Chiara Ruberto(参考訳) 拡張ビジョン技術は物理学においてユビキタスである。 しかし、そのような分析から蒸散するデータキューブは、データキューブを構成するスペクトルから関連する情報を識別することが本質的に困難であるため、解釈においてしばしば困難となる。 さらに、データキューブのスペクトルの巨大な次元性は、その統計的解釈において複雑なタスクを呈するが、しかしながら、この複雑さは、十分に定義された低次元埋め込み空間で実行されるデータキューブのスペクトルの(ディープ)クラスタリングを通して画像セグメンテーションを得ることが可能である。 本研究では,教師なしクラスタリング手法を符号化空間に適用する可能性,すなわち,datacubeピクセルのスペクトル特性に対して深いクラスタリングを行う可能性について検討する。 統計的次元の縮小は、訓練された(可変)オートエンコーダによって行われ、スペクトルを低次元の計量空間にマッピングし、クラスタリング処理は(理解可能な)反復的k平均クラスタリングアルゴリズムによって行われる。 本手法は, 画像芸術におけるX線蛍光(MA-XRF)合成データの集合と, シミュレーションされた天体物理観測のデータセットの2つの異なる物理的起源のユースケースに適用する。

Extended Vision techniques are ubiquitous in physics. However, the data cubes steaming from such analysis often pose a challenge in their interpretation, due to the intrinsic difficulty in discerning the relevant information from the spectra composing the data cube. Furthermore, the huge dimensionality of data cube spectra poses a complex task in its statistical interpretation; nevertheless, this complexity contains a massive amount of statistical information that can be exploited in an unsupervised manner to outline some essential properties of the case study at hand, e.g.~it is possible to obtain an image segmentation via (deep) clustering of data-cube's spectra, performed in a suitably defined low-dimensional embedding space. To tackle this topic, we explore the possibility of applying unsupervised clustering methods in encoded space, i.e. perform deep clustering on the spectral properties of datacube pixels. A statistical dimensional reduction is performed by an ad hoc trained (Variational) AutoEncoder, in charge of mapping spectra into lower dimensional metric spaces, while the clustering process is performed by a (learnable) iterative K-Means clustering algorithm. We apply this technique to two different use cases, of different physical origins: a set of Macro mapping X-Ray Fluorescence (MA-XRF) synthetic data on pictorial artworks, and a dataset of simulated astrophysical observations.
翻訳日:2024-02-01 15:18:44 公開日:2024-01-31
# 文脈外挿によるlmsにおける強先行問題の緩和

Mitigating the Problem of Strong Priors in LMs with Context Extrapolation ( http://arxiv.org/abs/2401.17692v1 )

ライセンス: Link先を確認
Raymond Douglas, Andis Draguns, Tom\'a\v{s} Gaven\v{c}iak(参考訳) 言語モデル(LM)は、データ処理から命令追従アシスタントの作成に至るまで、様々なアプリケーションにおいて重要なツールとなっている。 しかし、その利点にもかかわらず、lms は 'strong priors' という問題のような特殊な制約を持ち、モデルが以前の命令に関係なく入力の特定の局所的な部分に応じて典型的な継続を出力することを学習する。 例えば、プロンプトインジェクション攻撃は、明示的なディレクティブを無視するモデルを引き起こす可能性がある。 場合によっては、「逆スケーリング」という現象の例のように、より大きなモデルは同様のより小さなモデルよりもこれらの問題により影響を受けやすいことが示されている。 我々は、強優先問題の問題を緩和するための新しい手法を開発した:我々は、元の命令セットを取り、強優先問題にさらに影響を受けやすい元のプロンプトの弱化バージョンを生成し、その後、弱化したプロンプトから継続を外挿する。 これにより、モデルがどのように仮説的に強化された命令セットを継続するかを推測できる。 本手法は,データ生成プロセスのファミリを組み合わせた混合モデルとしてLMを概念化し,混合の望ましい要素を補強する。 私たちのアプローチは推論時に動作し、再トレーニングの必要性をなくします。 GPT-2, GPT-3, Llama 2, Mistralを含む11種類のモデルに適用し, 41/44。 44の組合せ全体を通して、完了したタスクの割合の中央値は40%である。

Language models (LMs) have become important tools in a variety of applications, from data processing to the creation of instruction-following assistants. But despite their advantages, LMs have certain idiosyncratic limitations such as the problem of `strong priors', where a model learns to output typical continuations in response to certain, usually local, portions of the input regardless of any earlier instructions. For example, prompt injection attacks can induce models to ignore explicit directives. In some cases, larger models have been shown to be more susceptible to these problems than similar smaller models, an example of the phenomenon of `inverse scaling'. We develop a new technique for mitigating the problem of strong priors: we take the original set of instructions, produce a weakened version of the original prompt that is even more susceptible to the strong priors problem, and then extrapolate the continuation away from the weakened prompt. This lets us infer how the model would continue a hypothetical strengthened set of instructions. Our technique conceptualises LMs as mixture models which combine a family of data generation processes, reinforcing the desired elements of the mixture. Our approach works at inference time, removing any need for retraining. We apply it to eleven models including GPT-2, GPT-3, Llama 2, and Mistral on four tasks, and find improvements in 41/44. Across all 44 combinations the median increase in proportion of tasks completed is 40%.
翻訳日:2024-02-01 15:18:17 公開日:2024-01-31
# EnCLAP: 自動オーディオキャプションのためのニューラルオーディオコーデックとオーディオテキストジョイント埋め込みを組み合わせる

EnCLAP: Combining Neural Audio Codec and Audio-Text Joint Embedding for Automated Audio Captioning ( http://arxiv.org/abs/2401.17690v1 )

ライセンス: Link先を確認
Jaeyeon Kim, Jaeyoon Jung, Jinjoo Lee, Sang Hoon Woo(参考訳) 本稿では,音声の自動字幕作成のための新しいフレームワークであるEnCLAPを提案する。 EnCLAPにはEnCodecとCLAPという2つの音響表現モデルと事前訓練された言語モデルBARTがある。 また,事前学習した言語モデルの音響的認識を改善するマスク付きコーデックモデリングという新たなトレーニング手法を導入する。 AudioCaps と Clotho の実験結果は,我々のモデルがベースラインモデルの性能を上回ることを示した。 ソースコードはhttps://github.com/jaeyeonkim99/EnCLAPで入手できる。 オンラインデモはhttps://huggingface.co/spaces/enclap-team/enclap で公開されている。

We propose EnCLAP, a novel framework for automated audio captioning. EnCLAP employs two acoustic representation models, EnCodec and CLAP, along with a pretrained language model, BART. We also introduce a new training objective called masked codec modeling that improves acoustic awareness of the pretrained language model. Experimental results on AudioCaps and Clotho demonstrate that our model surpasses the performance of baseline models. Source code will be available at https://github.com/jaeyeonkim99/EnCLAP . An online demo is available at https://huggingface.co/spaces/enclap-team/enclap .
翻訳日:2024-02-01 15:17:53 公開日:2024-01-31
# デダクティブビームサーチ:チェーンオブソート推論のためのデコード可能な推論

Deductive Beam Search: Decoding Deducible Rationale for Chain-of-Thought Reasoning ( http://arxiv.org/abs/2401.17686v1 )

ライセンス: Link先を確認
Tinghui Zhu, Kai Zhang, Jian Xie, Yu Su(参考訳) 近年の進歩は、大規模言語モデル(LLM)の推論能力を様々な手法、特にチェーン・オブ・シント(CoT)推論を通じて大幅に強化している。 しかし,従来の手法では,中間ステップでの推論誤りに対処できず,累積誤差が発生し,本論文では,ステップワイズビーム探索によるcotと推論推論をシームレスに統合した推論ビーム探索(dbs)を提案する。 提案手法は検証器をデプロイし,推論ステップとその前提の再現性を検証し,エラーの蓄積を軽減する。 さらに,モデルの検証能力を増幅するスケーラブルで無労力のデータ構築手法を提案する。 広範な実験により,算術,コモンセンス,シンボリックを含む3種類の推論ジャンルから得られた8つの推論データセットにおいて,様々なスケール(7b,13b,70b,chatgpt)のllmのベース性能が著しく向上することが示された。 さらに,DBSが様々なモデルスケールで多様かつ微妙な推論誤差と頑健さを検出できることを示す。

Recent advancements have significantly augmented the reasoning capabilities of Large Language Models (LLMs) through various methodologies, especially chain-of-thought (CoT) reasoning. However, previous methods fail to address reasoning errors in intermediate steps, leading to accumulative errors.In this paper, we propose Deductive Beam Search (DBS), which seamlessly integrates CoT and deductive reasoning with step-wise beam search for LLMs. Our approach deploys a verifier, verifying the deducibility of a reasoning step and its premises, thus alleviating the error accumulation. Furthermore, we introduce a scalable and labor-free data construction method to amplify our model's verification capabilities. Extensive experiments demonstrate that our approach significantly enhances the base performance of LLMs of various scales (7B, 13B, 70B, and ChatGPT) across 8 reasoning datasets from 3 diverse reasoning genres, including arithmetic, commonsense, and symbolic. Moreover, our analysis proves DBS's capability of detecting diverse and subtle reasoning errors and robustness on different model scales.
翻訳日:2024-02-01 15:17:45 公開日:2024-01-31
# 多様体上の点雲の勾配流としてのt-SNEの収束解析

Convergence analysis of t-SNE as a gradient flow for point cloud on a manifold ( http://arxiv.org/abs/2401.17675v1 )

ライセンス: Link先を確認
Seonghyeon Jeong, Hau-Tieng Wu(参考訳) t-SNEアルゴリズムの有界性に関する理論的基礎を示す。 t-SNE は、KL の発散を最小限に抑え、高次元空間の原点によく似た点の集合を同定することを目的として、KL の発散を目的関数として勾配降下反復を用いる。 サンプルデータセット上の弱収束仮定下でのパープレキシティや親和性などのt-sne特性について検討し,連続勾配流れ下でt-sneが生成する点の挙動について検討した。 t-SNE によって生成される点が有界であることを証明し、この洞察を利用して KL の発散の最小値の存在を確立する。

We present a theoretical foundation regarding the boundedness of the t-SNE algorithm. t-SNE employs gradient descent iteration with Kullback-Leibler (KL) divergence as the objective function, aiming to identify a set of points that closely resemble the original data points in a high-dimensional space, minimizing KL divergence. Investigating t-SNE properties such as perplexity and affinity under a weak convergence assumption on the sampled dataset, we examine the behavior of points generated by t-SNE under continuous gradient flow. Demonstrating that points generated by t-SNE remain bounded, we leverage this insight to establish the existence of a minimizer for KL divergence.
翻訳日:2024-02-01 15:17:20 公開日:2024-01-31
# 文脈的特徴抽出階層は大規模言語モデルと脳に収束する

Contextual Feature Extraction Hierarchies Converge in Large Language Models and the Brain ( http://arxiv.org/abs/2401.17671v1 )

ライセンス: Link先を確認
Gavin Mischler, Yinghao Aaron Li, Stephan Bickel, Ashesh D. Mehta and Nima Mesgarani(参考訳) 近年の人工知能の進歩は、大きな言語モデル(LLM)と人間のニューラル処理、特に言語理解における類似性への関心を喚起している。 従来の研究は、LSMと脳の表現に類似性を確立してきたが、この収束を引き起こす基礎となる計算原理は、特にLLMの進化の文脈において、解明され続けている。 本稿では,脳の言語処理機構と協調する要因を検討するため,類似のパラメータサイズを持つ高性能llmの多種多様な選択について検討した。 LLMがベンチマークタスクで高いパフォーマンスを達成すると、LLM埋め込みから神経応答を予測する際に、より高いパフォーマンスで測定されるほど、より脳に近いものになるだけでなく、それらの階層的特徴抽出経路は、より少ないレイヤを使用して同じエンコーディングを行う。 また,LLMの特徴抽出経路を互いに比較し,ハイパフォーマンスモデルが類似の階層的処理機構に収束する新たな方法を特定する。 最後に,モデル性能と脳の類似性を改善する上で,文脈情報の重要性を示す。 以上より,脳およびllmにおける言語処理の収束的側面を明らかにし,人間の認知処理とより密接に連携するモデルの開発に向けた新たな方向性を示す。

Recent advancements in artificial intelligence have sparked interest in the parallels between large language models (LLMs) and human neural processing, particularly in language comprehension. While prior research has established similarities in the representation of LLMs and the brain, the underlying computational principles that cause this convergence, especially in the context of evolving LLMs, remain elusive. Here, we examined a diverse selection of high-performance LLMs with similar parameter sizes to investigate the factors contributing to their alignment with the brain's language processing mechanisms. We find that as LLMs achieve higher performance on benchmark tasks, they not only become more brain-like as measured by higher performance when predicting neural responses from LLM embeddings, but also their hierarchical feature extraction pathways map more closely onto the brain's while using fewer layers to do the same encoding. We also compare the feature extraction pathways of the LLMs to each other and identify new ways in which high-performing models have converged toward similar hierarchical processing mechanisms. Finally, we show the importance of contextual information in improving model performance and brain similarity. Our findings reveal the converging aspects of language processing in the brain and LLMs and offer new directions for developing models that align more closely with human cognitive processing.
翻訳日:2024-02-01 15:17:06 公開日:2024-01-31
# イメージ・ナッシング:推論・コヒーレント・トレーニングフリー・マルチモーダル画像生成に向けて

Image Anything: Towards Reasoning-coherent and Training-free Multi-modal Image Generation ( http://arxiv.org/abs/2401.17664v1 )

ライセンス: Link先を確認
Yuanhuiyi Lyu, Xu Zheng, Lin Wang(参考訳) 人間の知覚と理解の多面的な性質は、私たちの身体が自然に感覚、つまりモダリティを組み合わせ、私たちの脳に美しい絵を作ることができることを示している。 例えば、キャタリーを見て、同時に猫の鳴き声を知覚すると、私たちの脳はキャタリーに猫の写真を作ることができます。 直感的には、生成型AIモデルは人間の万能性を保ち、モダリティの組み合わせから画像を効率よく協調的に生成することができる。 本稿では,人間の推論を模倣し,高品質な画像を生成する,新しいエンドツーエンドマルチモーダル生成モデルImgAnyを提案する。 本手法は, 画像, 点雲, 熱, 深度, イベントデータなど, 言語, 音声, 視覚の7つのモードの組み合わせを, 効率的かつ柔軟に行うための最初の試みである。 私たちのキーとなるアイデアは、人間レベルの認知プロセスにインスパイアされ、エンティティレベルと属性レベルの両方における複数の入力モダリティの統合と調和を、特定のチューニングなしに行います。 そこで,本手法は2つの新しい訓練不要技術分岐をもたらす。 1)エンティティフュージョンブランチは、入力と出力のコヒーレンスを保証する。 特別に構築したエンティティ知識グラフを利用したマルチモーダル表現からエンティティ特徴を抽出する。 2)属性の保存及び処理を行う属性融合ブランチ。 提案する属性知識グラフを用いて,多様な入力モダリティから異なる属性を効率的に融合する。 最後に、画像生成のための予め訓練された安定拡散モデルに対する条件入力として、エンティティと属性の特徴を適応的に融合する。 多様なモダリティの組み合わせによる広範囲な実験は、視覚コンテンツ作成の特別な能力を示している。

The multifaceted nature of human perception and comprehension indicates that, when we think, our body can naturally take any combination of senses, a.k.a., modalities and form a beautiful picture in our brain. For example, when we see a cattery and simultaneously perceive the cat's purring sound, our brain can construct a picture of a cat in the cattery. Intuitively, generative AI models should hold the versatility of humans and be capable of generating images from any combination of modalities efficiently and collaboratively. This paper presents ImgAny, a novel end-to-end multi-modal generative model that can mimic human reasoning and generate high-quality images. Our method serves as the first attempt in its capacity of efficiently and flexibly taking any combination of seven modalities, ranging from language, audio to vision modalities, including image, point cloud, thermal, depth, and event data. Our key idea is inspired by human-level cognitive processes and involves the integration and harmonization of multiple input modalities at both the entity and attribute levels without specific tuning across modalities. Accordingly, our method brings two novel training-free technical branches: 1) Entity Fusion Branch ensures the coherence between inputs and outputs. It extracts entity features from the multi-modal representations powered by our specially constructed entity knowledge graph; 2) Attribute Fusion Branch adeptly preserves and processes the attributes. It efficiently amalgamates distinct attributes from diverse input modalities via our proposed attribute knowledge graph. Lastly, the entity and attribute features are adaptively fused as the conditional inputs to the pre-trained Stable Diffusion model for image generation. Extensive experiments under diverse modality combinations demonstrate its exceptional capability for visual content creation.
翻訳日:2024-02-01 15:16:36 公開日:2024-01-31
# industry 4.0の実現に向けて:顧客ライフサイクル指向の方法論に基づくアプローチ

Towards the implementation of Industry 4.0: A methodology-based approach oriented to the customer life cycle ( http://arxiv.org/abs/2401.17661v1 )

ライセンス: Link先を確認
V\'ictor Julio Ram\'irez-Dur\'an, Idoia Berges, Arantza Illarramendi(参考訳) 世界中の多くの異なるイニシアチブが、機械支配的な製造からデジタル製造への転換を推進している。 したがって、産業4.0標準への転換を成功させるためには、製造業者は明確なロードマップを実装する必要がある。 しかし、中小企業は、産業4.0の実施において、多くの障壁や困難(経済、技術、文化等)に直面している。 中小企業が参考にできる製品・サプライチェーンライフサイクルの分野における業界4.0技術の導入については、いくつかの研究があるが、顧客ライフサイクルには当てはまらない。 したがって、これらの中小企業のソフトウェアエンジニアが顧客ライフサイクルの文脈に産業4.0技術を組み込むのに役立つ2つのコントリビューションを提示します。 第一の貢献は、これらのソフトウェアエンジニアが新しいソフトウェアサービスを作るのを助けるための方法論で、業界4.0と一致して、顧客と企業との対話方法や、顧客と対話しながら経験を変えることができる。 方法論では、一連の段階を段階に分けて記述し、その段階は活動から成り立っている。 新しいサービスの実装において、セマンティクス記述の組み込みと3d可視化に特に重点を置いている。 第2の貢献は、提案手法を用いて、実際の製造シナリオのために開発されたシステムであり、この種のシステムが顧客ライフサイクルの2つのフェーズ(ディスカバリ&ショップ、使用&サービス)で中小企業に提供できる可能性を観察できる。

Many different worldwide initiatives are promoting the transformation from machine dominant manufacturing to digital manufacturing. Thus, to achieve a successful transformation to Industry 4.0 standard, manufacturing enterprises are required to implement a clear roadmap. However, Small and Medium Manufacturing Enterprises (SMEs) encounter many barriers and difficulties (economical, technical, cultural, etc.) in the implementation of Industry 4.0. Although several works deal with the incorporation of Industry 4.0 technologies in the area of the product and supply chain life cycles, which SMEs could use as reference, this is not the case for the customer life cycle. Thus, we present two contributions that can help the software engineers of those SMEs to incorporate Industry 4.0 technologies in the context of the customer life cycle. The first contribution is a methodology that can help those software engineers in the task of creating new software services, aligned with Industry 4.0, that allow to change how customers interact with enterprises and the experiences they have while interacting with them. The methodology details a set of stages that are divided into phases which in turn are made up of activities. It places special emphasis on the incorporation of semantics descriptions and 3D visualization in the implementation of those new services. The second contribution is a system developed for a real manufacturing scenario, using the proposed methodology, which allows to observe the possibilities that this kind of systems can offer to SMEs in two phases of the customer life cycle: Discover & Shop, and Use & Service.
翻訳日:2024-02-01 15:15:50 公開日:2024-01-31
# 長文トランスフォーマにおける文書構造

Document Structure in Long Document Transformers ( http://arxiv.org/abs/2401.17658v1 )

ライセンス: Link先を確認
Jan Buchmann, Max Eichler, Jan-Micha Bodensohn, Ilia Kuznetsov, Iryna Gurevych(参考訳) 長い文書は、セクションヘッダや段落など、異なる関数の階層構造を持つ構造を示すことが多い。 文書構造の不明瞭さにもかかわらず、自然言語処理(NLP)におけるその役割はいまだに不透明である。 長文トランスフォーマーモデルは事前学習中に文書構造の内部表現を取得するか? 事前トレーニング後、構造情報はモデルとどのように通信し、ダウンストリームのパフォーマンスにどのように影響するか? そこで本研究では,長文書変換器の構造認識性を評価するための新しい探索タスクスイートを開発し,汎用的な構造注入法を提案し,QASPERとエビデンス推論に対する構造注入の効果を評価した。 LEDとLongT5の結果は、事前トレーニング中に文書構造が暗黙的に理解されることを示唆している。 NLPモデリングにおける文書構造の役割の研究を促進するため、我々はデータとコードを公開している。

Long documents often exhibit structure with hierarchically organized elements of different functions, such as section headers and paragraphs. Despite the omnipresence of document structure, its role in natural language processing (NLP) remains opaque. Do long-document Transformer models acquire an internal representation of document structure during pre-training? How can structural information be communicated to a model after pre-training, and how does it influence downstream performance? To answer these questions, we develop a novel suite of probing tasks to assess structure-awareness of long-document Transformers, propose general-purpose structure infusion methods, and evaluate the effects of structure infusion on QASPER and Evidence Inference, two challenging long-document NLP tasks. Results on LED and LongT5 suggest that they acquire implicit understanding of document structure during pre-training, which can be further enhanced by structure infusion, leading to improved end-task performance. To foster research on the role of document structure in NLP modeling, we make our data and code publicly available.
翻訳日:2024-02-01 15:15:02 公開日:2024-01-31
# エネルギーモデルにおける潜在空間から新しいブリッジタイプを生成する試み

An attempt to generate new bridge types from latent space of energy-based model ( http://arxiv.org/abs/2401.17657v1 )

ライセンス: Link先を確認
Hongjun Zhang(参考訳) ブリッジタイプの革新にエネルギーモデルを使う。 損失関数はゲーム理論によって説明され、論理は明確であり、公式は単純で明確である。 したがって、損失関数を説明するために最大推定値を用いることを避け、正規化分母を解くためにモンテカルロ法は不要である。 ブリッジ型人口がボルツマン分布に従うと仮定すると、エネルギー関数を表すニューラルネットワークが構築される。 エネルギー値の低い新しい試料を生成するためにランジュバンダイナミクス技術を使用し、エネルギーに基づくブリッジタイプの生成モデルを確立する。 3本のスパンビームブリッジ、アーチブリッジ、ケーブルスタイトブリッジ、サスペンションブリッジの対称構造画像データセット上の列車エネルギー関数により、実および偽のサンプルのエネルギー値を正確に算出する。 潜在空間からのサンプリング 勾配降下アルゴリズムを用いて、エネルギー関数はサンプリング点を低エネルギースコアのサンプルに変換し、データセットとは異なる新しいブリッジ型を生成する。 この試みにおける不安定で遅い訓練のため、新しいブリッジタイプを生成する可能性は稀であり、生成した画像のイメージ定義が低い。

Use energy-based model for bridge-type innovation. The loss function is explained by the game theory, the logic is clear and the formula is simple and clear. Thus avoid the use of maximum likelihood estimation to explain the loss function and eliminate the need for Monte Carlo methods to solve the normalized denominator. Assuming that the bridge-type population follows a Boltzmann distribution, a neural network is constructed to represent the energy function. Use Langevin dynamics technology to generate a new sample with low energy value, thus a generative model of bridge-type based on energy is established. Train energy function on symmetric structured image dataset of three span beam bridge, arch bridge, cable-stayed bridge, and suspension bridge to accurately calculate the energy values of real and fake samples. Sampling from latent space, using gradient descent algorithm, the energy function transforms the sampling points into low energy score samples, thereby generating new bridge types different from the dataset. Due to unstable and slow training in this attempt, the possibility of generating new bridge types is rare and the image definition of generated images is low.
翻訳日:2024-02-01 15:14:08 公開日:2024-01-31
# 単一核スピンにおけるクルックス変動定理の実験的検討

Experimental test of the Crooks fluctuation theorem in a single nuclear spin ( http://arxiv.org/abs/2401.17655v1 )

ライセンス: Link先を確認
Wei Cheng, Wenquan Liu, Zhibo Niu, Chang-Kui Duan, Xing Rong, and Jiangfeng Du(参考訳) 量子スピン系のクルックス変動定理を実験的に検証した。 この結果は,非平衡過程の異なる速度と様々な有効温度下でのクルックス変動定理が有効であることを示す。 量子系では仕事は観測不能であり、量子熱力学の定理のテストは困難である。 本研究では,ダイヤモンド中の単一核スピンの高忠実度単発読み出し法を開発し,クルックス揺らぎ定理の直接実験を可能にする2点作業測定プロトコルを実装した。 この結果はゆらぎに対する量子的洞察を与え,我々が開発した手法を他の量子熱力学定理の研究に活用する。

We experimentally test the Crooks fluctuation theorem in a quantum spin system. Our results show that the Crooks fluctuation theorem is valid for different speeds of the nonequilibrium processes and under various effective temperatures. Work is not an observable in quantum systems, which makes tests of quantum thermodynamic theorems challenging. In this work, we developed high-fidelity single-shot readouts of a single nuclear spin in diamond and implemented the two-point work measurement protocol, enabling a direct experimental test of the Crooks fluctuation theorem. Our results provide a quantum insight into fluctuations and the methods we developed can be utilized to study other quantum thermodynamic theorems.
翻訳日:2024-02-01 15:13:44 公開日:2024-01-31
# すべての存在はオープンセット認識に等しくなる

All Beings Are Equal in Open Set Recognition ( http://arxiv.org/abs/2401.17654v1 )

ライセンス: Link先を確認
Chaohua Li, Enhao Zhang, Chuanxing Geng, SongCan Chen(参考訳) オープンセット認識(OSR)において、有望な戦略は、潜在的オープンスペースを明示的にモデル化するために、K$+1$-thクラスを追加でK$+1$-thクラスとして与えられた擬似未知のデータを活用することである。 しかし、未知のクラスを区別せずに扱うことは、未知のクラスを分類非依存かつスケール非依存にするため、既知のクラスと比較して不平等である。 これは必然的に未知のクラスの固有の分布を乱すだけでなく、既知のクラスと未知のクラスの間のクラスとインスタンス間の不均衡を引き起こす。 理想的には、OSR問題はクラス空間全体を$K$+$\infty$としてモデル化すべきであるが、すべての未知を列挙することは現実的ではない。 osrの中核は既知のクラスのバウンダリを効果的にモデル化することなので、対象とする既知のクラスのバウンダリに近づいた未知にのみ焦点を合わせれば十分と思われる。 したがって、オープンクラスを無限から$K$に変換し、新しい概念であるTarget-Aware Universum (TAU) を導入し、Dual Contrastive Learning with Target-Aware Universum (DCTAU) を提案する。 詳細は、対象とする既知のクラスによって導かれるが、TAUは未知のクラスを以前の$$から$K$に自動的に拡張し、配布の中断と上記の不均衡問題を効果的に緩和する。 次に、新しいDual Contrastive (DC)損失を設計し、既知のものやTAUによらない全てのインスタンスを、それぞれの負と対照的に正とみなす。 実験結果は、DCTAUが新しい最先端を設定できることを示している。

In open-set recognition (OSR), a promising strategy is exploiting pseudo-unknown data outside given $K$ known classes as an additional $K$+$1$-th class to explicitly model potential open space. However, treating unknown classes without distinction is unequal for them relative to known classes due to the category-agnostic and scale-agnostic of the unknowns. This inevitably not only disrupts the inherent distributions of unknown classes but also incurs both class-wise and instance-wise imbalances between known and unknown classes. Ideally, the OSR problem should model the whole class space as $K$+$\infty$, but enumerating all unknowns is impractical. Since the core of OSR is to effectively model the boundaries of known classes, this means just focusing on the unknowns nearing the boundaries of targeted known classes seems sufficient. Thus, as a compromise, we convert the open classes from infinite to $K$, with a novel concept Target-Aware Universum (TAU) and propose a simple yet effective framework Dual Contrastive Learning with Target-Aware Universum (DCTAU). In details, guided by the targeted known classes, TAU automatically expands the unknown classes from the previous $1$ to $K$, effectively alleviating the distribution disruption and the imbalance issues mentioned above. Then, a novel Dual Contrastive (DC) loss is designed, where all instances irrespective of known or TAU are considered as positives to contrast with their respective negatives. Experimental results indicate DCTAU sets a new state-of-the-art.
翻訳日:2024-02-01 15:13:11 公開日:2024-01-31
# 継続的インテグレーションによるソフトウェアテストコースのゲーミフィケーション

Gamifying a Software Testing Course with Continuous Integration ( http://arxiv.org/abs/2401.17740v1 )

ライセンス: Link先を確認
Philipp Straubinger, Gordon Fraser(参考訳) テストはソフトウェア開発において重要な役割を担い、ソフトウェア工学の学生には適切なテスト教育を受けることが不可欠である。 しかし、学生がテストを書き、ソフトウェア開発中に自動テストを使う動機付けは難しい。 この問題に対処し、コードを書いているときのテストにおける学生の関与を高めるために、継続的インテグレーションをゲーミフィケーションすることで、学生により多くのテストを促すことを提案する。 このために私たちは、jenkinsの継続的インテグレーションプラットフォームにシームレスに統合され、ソースコードリポジトリへのコミットに基づいてゲーム要素を使用するツールであるgamekinsを使っています。 本稿では,Gamekinsのソフトウェアテスト科目への統合について紹介する。 我々は,学生のコードテストとGamekinsの使用方法の相関を観察するとともに,ゲーム化を伴わない前回の授業に比べて,結果の精度を大幅に向上させた。 このアプローチがテスト行動を改善する方法のさらなる指標として、学生はGamekinsでテストを書くことを楽しむことを報告した。

Testing plays a crucial role in software development, and it is essential for software engineering students to receive proper testing education. However, motivating students to write tests and use automated testing during software development can be challenging. To address this issue and enhance student engagement in testing when they write code, we propose to incentivize students to test more by gamifying continuous integration. For this we use Gamekins, a tool that is seamlessly integrated into the Jenkins continuous integration platform and uses game elements based on commits to the source code repository: Developers can earn points by completing test challenges and quests generated by Gamekins, compete with other developers or teams on a leaderboard, and receive achievements for their test-related accomplishments. In this paper, we present our integration of Gamekins into an undergraduate-level course on software testing. We observe a correlation between how students test their code and their use of Gamekins, as well as a significant improvement in the accuracy of their results compared to a previous iteration of the course without gamification. As a further indicator of how this approach improves testing behavior, the students reported enjoyment in writing tests with Gamekins.
翻訳日:2024-02-01 15:05:55 公開日:2024-01-31
# 随伴なしで学習するオペレーター

Operator learning without the adjoint ( http://arxiv.org/abs/2401.17739v1 )

ライセンス: Link先を確認
Nicolas Boull\'e, Diana Halikias, Samuel E. Otto, Alex Townsend(参考訳) 演算子学習の核心にはミステリーがある:非自己随伴演算子を、随伴演算子を探さずにデータから回収する方法? 現在の実用的なアプローチは、オペレーターのフォワードアクションによって生成されたデータのみを使用して、アジョイントにアクセスせずに、オペレーターを正確にリカバリできることを示唆している。 しかし、内面的には、随伴体の作用をサンプリングすることが不可欠である。 本稿では,随伴を問うことなく,フーリエ基底への射影を通じて非自己随伴無限次元コンパクト作用素の族を近似できることを証明し,この謎を部分的に説明する。 次に、楕円偏微分作用素のグリーン関数の回復に適用し、随伴のないサンプル複雑性境界を導出する。 既存の理論は、演算子学習におけるサンプル複雑性の低さを正当化しているが、理論と実践の間のギャップを縮めようとする最初の随伴フリー解析である。

There is a mystery at the heart of operator learning: how can one recover a non-self-adjoint operator from data without probing the adjoint? Current practical approaches suggest that one can accurately recover an operator while only using data generated by the forward action of the operator without access to the adjoint. However, naively, it seems essential to sample the action of the adjoint. In this paper, we partially explain this mystery by proving that without querying the adjoint, one can approximate a family of non-self-adjoint infinite-dimensional compact operators via projection onto a Fourier basis. We then apply the result to recovering Green's functions of elliptic partial differential operators and derive an adjoint-free sample complexity bound. While existing theory justifies low sample complexity in operator learning, ours is the first adjoint-free analysis that attempts to close the gap between theory and practice.
翻訳日:2024-02-01 15:05:36 公開日:2024-01-31
# 粗さ検出・分類のための調和型スマートウォッチマイクロフォンセンサ

Harnessing Smartwatch Microphone Sensors for Cough Detection and Classification ( http://arxiv.org/abs/2401.17738v1 )

ライセンス: Link先を確認
Pranay Jaiswal, Haroon R. Lone(参考訳) 本研究では,マイクロホンセンサを内蔵したスマートウォッチを用いたコークスのモニタリングと各種のコークス検出の可能性について検討した。 参加者32名を対象に調査を行い,9時間の音声データを制御した。 その後、このデータを構造化アプローチで処理し、223の正のcoughサンプルが得られた。 拡張手法によりデータセットをさらに改善し,特殊な1次元CNNモデルを用いた。 このモデルでは、非歩行時の98.49%、歩行中の98.2%の精度で、スマートウォッチが生地を検知できることを示している。 さらに,本研究では,クラスタリング技術を用いて,4種類の生地の同定に成功した。

This study investigates the potential of using smartwatches with built-in microphone sensors for monitoring coughs and detecting various cough types. We conducted a study involving 32 participants and collected 9 hours of audio data in a controlled manner. Afterward, we processed this data using a structured approach, resulting in 223 positive cough samples. We further improved the dataset through augmentation techniques and employed a specialized 1D CNN model. This model achieved an impressive accuracy rate of 98.49% while non-walking and 98.2% while walking, showing smartwatches can detect cough. Moreover, our research successfully identified four distinct types of coughs using clustering techniques.
翻訳日:2024-02-01 15:05:20 公開日:2024-01-31
# 解釈可能な因果効果推定のための階層的バイアス駆動成層

Hierarchical Bias-Driven Stratification for Interpretable Causal Effect Estimation ( http://arxiv.org/abs/2401.17737v1 )

ライセンス: Link先を確認
Lucile Ter-Minassian, Liran Szlak, Ehud Karavani, Chris Holmes and Yishai Shimoni(参考訳) 解釈可能性と透明性は、観察データからの因果効果モデルを政策決定に組み込むために不可欠である。 彼らは、そのようなモデルの正確性を評価するために、基底真理ラベルがないときにモデルに対する信頼を提供することができる。 現在までに、透明因果効果推定の試みは、解釈不可能なブラックボックスモデルにポストホック説明法を適用している。 本稿では,自然実験が局所的に発生するクラスタを識別する解釈可能なバランス手法であるBICauseTreeを提案する。 提案手法は, バランスを改善し, 配当バイアスを低減するために, 目的関数をカスタマイズした決定木上に構築する。 その結果、ポジティビティ違反を示すサブグループを検出し、それらを除外し、我々が推測し一般化できる対象人口の共変量ベースの定義を提供することができる。 合成および現実的なデータセットを用いて手法の性能を評価し、バイアス-解釈可能性トレードオフを探索し、既存の手法に匹敵することを示す。

Interpretability and transparency are essential for incorporating causal effect models from observational data into policy decision-making. They can provide trust for the model in the absence of ground truth labels to evaluate the accuracy of such models. To date, attempts at transparent causal effect estimation consist of applying post hoc explanation methods to black-box models, which are not interpretable. Here, we present BICauseTree: an interpretable balancing method that identifies clusters where natural experiments occur locally. Our approach builds on decision trees with a customized objective function to improve balancing and reduce treatment allocation bias. Consequently, it can additionally detect subgroups presenting positivity violations, exclude them, and provide a covariate-based definition of the target population we can infer from and generalize to. We evaluate the method's performance using synthetic and realistic datasets, explore its bias-interpretability tradeoff, and show that it is comparable with existing approaches.
翻訳日:2024-02-01 15:05:10 公開日:2024-01-31
# コンピュータビジョンデータセット品質向上のための人間-機械インタラクションの活用

Leveraging Human-Machine Interactions for Computer Vision Dataset Quality Enhancement ( http://arxiv.org/abs/2401.17736v1 )

ライセンス: Link先を確認
Esla Timothy Anzaku (1,2,3), Hyesoo Hong (1), Jin-Woo Park (1), Wonjun Yang (1), Kangmin Kim (1), JongBum Won (1), Deshika Vinoshani Kumari Herath (6), Arnout Van Messem (5) and Wesley De Neve (1,2,3)(参考訳) emph{ImageNet-1k}のようなシングルラベルのマルチクラス分類のための大規模データセットは、ディープラーニングやコンピュータビジョンの進歩に役立っている。 しかし、批判的かつしばしば検討される側面は、これらのデータセットの総合的な品質評価である。 本稿では,効率的なデータセット検証と品質向上のために,人間と機械の知能を融合する軽量でユーザフレンドリーでスケーラブルなフレームワークを提案する。 この新しいフレームワークを 'emph{Multilabelfy} と呼ぶ。 Central to Multilabelfyは、アノテータを再評価プロセスを通じて体系的にガイドする、適応可能なWebベースのプラットフォームである。 ImageNetV2データセットでMultilabelfyを使用することで、画像の約47.88.%が少なくとも2つのラベルを含んでおり、そのような影響のあるデータセットの厳密な評価の必要性が強調された。 さらに,画像毎の電位ラベル数とモデルトップ1の精度との間に負の相関がみられ,モデル評価と選択において重要な要因が示された。 当社のオープンソースフレームワークであるmultilabelfyは,マルチラベル比率を重視した,データセット拡張のための便利な軽量なソリューションを提供します。 本研究は,データセットの完全性に関する大きな課題に取り組み,モデルの性能評価に関する重要な洞察を提供する。 さらに、より堅牢なモデルと信頼できるデータ開発を生み出すために、人間の専門知識と機械能力を統合する利点を強調する。 multilabelfyのソースコードはhttps://github.com/esla/multilabelfyで入手できる。 キーワード{Computer Vision \and Dataset Quality Enhancement \and Dataset Validation \and Human-Computer Interaction \and Multi-label Annotation。 }

Large-scale datasets for single-label multi-class classification, such as \emph{ImageNet-1k}, have been instrumental in advancing deep learning and computer vision. However, a critical and often understudied aspect is the comprehensive quality assessment of these datasets, especially regarding potential multi-label annotation errors. In this paper, we introduce a lightweight, user-friendly, and scalable framework that synergizes human and machine intelligence for efficient dataset validation and quality enhancement. We term this novel framework \emph{Multilabelfy}. Central to Multilabelfy is an adaptable web-based platform that systematically guides annotators through the re-evaluation process, effectively leveraging human-machine interactions to enhance dataset quality. By using Multilabelfy on the ImageNetV2 dataset, we found that approximately $47.88\%$ of the images contained at least two labels, underscoring the need for more rigorous assessments of such influential datasets. Furthermore, our analysis showed a negative correlation between the number of potential labels per image and model top-1 accuracy, illuminating a crucial factor in model evaluation and selection. Our open-source framework, Multilabelfy, offers a convenient, lightweight solution for dataset enhancement, emphasizing multi-label proportions. This study tackles major challenges in dataset integrity and provides key insights into model performance evaluation. Moreover, it underscores the advantages of integrating human expertise with machine capabilities to produce more robust models and trustworthy data development. The source code for Multilabelfy will be available at https://github.com/esla/Multilabelfy. \keywords{Computer Vision \and Dataset Quality Enhancement \and Dataset Validation \and Human-Computer Interaction \and Multi-label Annotation.}
翻訳日:2024-02-01 15:04:54 公開日:2024-01-31
# 神経進化系における物理的可能性に向けて

Towards Physical Plausibility in Neuroevolution Systems ( http://arxiv.org/abs/2401.17733v1 )

ライセンス: Link先を確認
Gabriel Cort\^es, Nuno Louren\c{c}o, Penousal Machado(参考訳) 人工知能(AI)モデル、特にディープニューラルネットワーク(DNN)の利用が増加し、トレーニングと推論中の消費電力が増加し、環境問題を引き起こし、よりエネルギー効率のよいアルゴリズムやハードウェアソリューションの必要性が高まっている。 この研究は機械学習(ML)におけるエネルギー消費の増大、特に推論フェーズにおける問題に対処する。 電力使用量のわずかな削減でさえ、大きな省エネにつながる可能性があり、ユーザー、企業、環境に利益をもたらす。 提案手法は,ニューラルネットワークを用いたニューラルネットワークモデル(ANN)の精度を最大化し,消費電力を最小化する。 そのため、フィットネス機能では消費電力が考慮される。 そこで我々は,高効率なモジュールが選択される確率が高く,階層のモジュールを確率的に再導入する新たな突然変異戦略を提案する。 我々は,2つの異なるモデルを1つのトレーニングステップで訓練し,一方が他方よりも効率よく、他方が類似した精度を維持しながら推進する技術を紹介した。 その結果、予測性能を著しく低下させることなく、ANNモデルの消費電力を最大29.2%削減することを示した。

The increasing usage of Artificial Intelligence (AI) models, especially Deep Neural Networks (DNNs), is increasing the power consumption during training and inference, posing environmental concerns and driving the need for more energy-efficient algorithms and hardware solutions. This work addresses the growing energy consumption problem in Machine Learning (ML), particularly during the inference phase. Even a slight reduction in power usage can lead to significant energy savings, benefiting users, companies, and the environment. Our approach focuses on maximizing the accuracy of Artificial Neural Network (ANN) models using a neuroevolutionary framework whilst minimizing their power consumption. To do so, power consumption is considered in the fitness function. We introduce a new mutation strategy that stochastically reintroduces modules of layers, with power-efficient modules having a higher chance of being chosen. We introduce a novel technique that allows training two separate models in a single training step whilst promoting one of them to be more power efficient than the other while maintaining similar accuracy. The results demonstrate a reduction in power consumption of ANN models by up to 29.2% without a significant decrease in predictive performance.
翻訳日:2024-02-01 15:04:22 公開日:2024-01-31
# COMET:オンラインソースフリーユニバーサルドメイン適応のための対照的な平均教師

COMET: Contrastive Mean Teacher for Online Source-Free Universal Domain Adaptation ( http://arxiv.org/abs/2401.17728v1 )

ライセンス: Link先を確認
Pascal Schlachter, Bin Yang(参考訳) 現実世界のアプリケーションでは、トレーニングからテストデータへのドメインシフトがしばしば発生する。 この観察はテスト時間適応(TTA)の開発につながった。 ソースデータへのアクセスを必要とせずに、事前トレーニングされたソースモデルをテストデータに適用することを目指している。 したがって、既存の作品のほとんどはクローズドセットの仮定に限定され、すなわちソースとターゲット領域の間にカテゴリシフトはない。 現実的なオープンワールド設定では、カテゴリシフトがドメインシフトに加えて現れる可能性がある、と私たちは主張する。 つまり、個々のソースクラスはもはやターゲットドメインには表示されず、新しいクラスのサンプルはターゲットドメインの一部か、同時に両方になる可能性がある。 さらに、多くの現実世界のシナリオでは、テストデータは一度にアクセスできないが、即時の予測を要求するバッチのストリームとして順次到着する。 したがって、TTAはオンラインの方法で適用されなければならない。 我々の知る限り、これらの側面、すなわちオンラインのソースフリーユニバーサルドメイン適応(オンラインSF-UniDA)の組み合わせはまだ研究されていない。 本稿では,この新しいシナリオに合わせた対照平均教師(コメット)を提案する。 これは、既知のクラスのサンプルが別々のクラスタを構築し、新しいクラスのサンプルがそれらをうまく分離する機能空間を再構築するために対照的な損失を適用する。 これは、分類器出力が既知のクラスのサンプルに対して小さいエントロピーと、未知として容易に検出され拒否される新しいクラスのサンプルに対する大きなエントロピーを持つことを保証するエントロピー損失によって補完される。 信頼できる擬似ラベルで損失を与えるため、彼らは平均教師(MT)フレームワークに組み込まれる。 提案手法は,オンラインSF-UniDAの初期ベンチマークを設定するために,2つのデータセットとすべてのカテゴリシフトで評価する。 これによりCOMETは最先端のパフォーマンスを獲得し、さまざまなシナリオで一貫性と堅牢性を示す。

In real-world applications, there is often a domain shift from training to test data. This observation resulted in the development of test-time adaptation (TTA). It aims to adapt a pre-trained source model to the test data without requiring access to the source data. Thereby, most existing works are limited to the closed-set assumption, i.e. there is no category shift between source and target domain. We argue that in a realistic open-world setting a category shift can appear in addition to a domain shift. This means, individual source classes may not appear in the target domain anymore, samples of new classes may be part of the target domain or even both at the same time. Moreover, in many real-world scenarios the test data is not accessible all at once but arrives sequentially as a stream of batches demanding an immediate prediction. Hence, TTA must be applied in an online manner. To the best of our knowledge, the combination of these aspects, i.e. online source-free universal domain adaptation (online SF-UniDA), has not been studied yet. In this paper, we introduce a Contrastive Mean Teacher (COMET) tailored to this novel scenario. It applies a contrastive loss to rebuild a feature space where the samples of known classes build distinct clusters and the samples of new classes separate well from them. It is complemented by an entropy loss which ensures that the classifier output has a small entropy for samples of known classes and a large entropy for samples of new classes to be easily detected and rejected as unknown. To provide the losses with reliable pseudo labels, they are embedded into a mean teacher (MT) framework. We evaluate our method across two datasets and all category shifts to set an initial benchmark for online SF-UniDA. Thereby, COMET yields state-of-the-art performance and proves to be consistent and robust across a variety of different scenarios.
翻訳日:2024-02-01 15:04:04 公開日:2024-01-31
# 大規模アジャイルプロジェクトにおけるチームワークの品質とプロジェクトの成功の関係を理解するための課題

Challenges in Understanding the Relationship between Teamwork Quality and Project Success in Large-Scale Agile Projects ( http://arxiv.org/abs/2401.17725v1 )

ライセンス: Link先を確認
Torgeir Dings{\o}yr, Phillip Schneider, Gunnar Rye Bergersen, Yngve Lindsj{\o}rn(参考訳) 最近、大規模なアジャイル開発のためのいくつかの方法が提案されている。 アジャイルメソッドのアドバイスの多くは、チームワークに重点を置いています。 以前の研究では、従来のソフトウェア開発チームとアジャイルチームの両方において、チームワークの品質がプロジェクトの成功に影響を与えている。 さらに、以前の研究では、大規模なプロジェクトではチームワークの品質が小さなプロジェクトと異なる可能性があると示唆されている。 チームワークの品質とプロジェクトの成功との関係を、4つのプロジェクトで34チーム196人のプロジェクト参加者を対象に調査し、単一チームに関するこれまでの調査を再現した。 新しいデータは以前に確立された理論モデルに合わないため、いくつかの懸念が生じる。 チームワークの品質がプロジェクトの成功に与える影響は、プロジェクトによって異なる。 大規模アジャイル開発の成功を特徴付けるもの、チームワークの品質要因の“コンセプトドリフト”、チーム間の要因がチーム内要因よりもプロジェクトの成功に影響を及ぼす可能性があること、そして最後に、我々の研究設計が関連するすべてのレベルや機能を捉えていないことなど、考えられる理由について議論する。 大規模アジャイルソフトウェア開発における理論と実践をさらに前進させるための社内チームファクタに加えて、チーム間のインタラクションの質と頻度に関するさらなる研究を呼びかけて締めくくります。

A number of methods for large-scale agile development have recently been suggested. Much of the advice in agile methods focuses on teamwork. Prior research has established that teamwork quality influences project success both for traditional software development teams and agile teams. Further, prior studies have also suggested that teamwork quality may play out differently in large projects compared to small. We investigated the relationship between teamwork quality and project success with a survey of 196 project participants across 34 teams in four projects, replicating a previous study on single teams. The new data do not fit the previously established theoretical model, which raises several concerns. The observed effect of teamwork quality on project success operates differently across projects. We discuss possible reasons, which include disagreements on what characterises success in large-scale agile development, "concept drift" of teamwork quality factors, the possibility that interteam factors might have more influence on project success than intrateam factors, and finally, that our study design does not capture all relevant levels and functions. We conclude with a call for more studies on the quality and frequency of interaction between teams in addition to internal team factors to further advance theory and practice within large-scale agile software development.
翻訳日:2024-02-01 15:03:36 公開日:2024-01-31
# 量子力学の確率について

On probabilities in quantum mechanics ( http://arxiv.org/abs/2401.17717v1 )

ライセンス: Link先を確認
Inge S. Helland(参考訳) これは量子力学の解釈に関する議論、一方のandrei khrennikov と反対側の blake stacey と r\"udiger schack の議論に関連する特定の概念を明らかにする試みである。 この議論の中心は、量子確率の概念である。 私はまずQBist学派で確率の概念を取り上げ、量子確率を計算するためのBorn公式についての私の自身の議論を参照する。 その関係において、量子論の基礎と解釈への私のアプローチの結果をスケッチします。 最終的な発言をする前に、QB主義を代替解釈の可能性として論じます。

This is an attempt to clarify certain concepts related to a debate on the interpretation of quantum mechanics, a debate between Andrei Khrennikov on the one side and Blake Stacey and R\"udiger Schack on the other side. Central to this debate is the notion of quantum probabilities. I first take up the probability concept in the QBist school, and then refer to my own arguments for the Born formula for calculating quantum probabilities. In that connection I also sketch some consequences of my approach towards the foundation and interpretation of quantum theory. I discuss my general views on QBism as a possible alternative interpretation before I give some final remarks.
翻訳日:2024-02-01 15:03:14 公開日:2024-01-31
# 感情原因対抽出のための分解推論による大規模言語モデルの強化

Enhancing Large Language Model with Decomposed Reasoning for Emotion Cause Pair Extraction ( http://arxiv.org/abs/2401.17716v1 )

ライセンス: Link先を確認
Jialiang Wu, Yi Shen, Ziheng Zhang, Longjun Cai(参考訳) Emotion-Cause Pair extract (ECPE)は、感情とその原因を表す節対を文書で抽出する。 既存の手法は、セマンティックな特徴をキャプチャするよりも、既存のベンチマークデータセットにおける位置バイアスのような急激な相関を過小評価する傾向がある。 近年の成果から着想を得て,大規模言語モデル(LLM)を活用してECPEタスクに新たなトレーニングを加えることなく対処することを検討した。 強力な能力にもかかわらず、LLMは制御不能な出力に悩まされ、平凡な性能をもたらす。 そこで我々は,人間の認知過程を模倣するチェーン・オブ・シントを導入し,Decomposed Emotion-Cause Chain (DECC) フレームワークを提案する。 推論と論理的なプルーニングの組み合わせにより、DECCはECPEタスクに取り組むためのLCMをガイドする。 文脈内学習を取り入れたフレームワークをさらに強化する。 実験により, DECCの強度を最先端の微調整法と比較した。 最後に,異なるllmベース,再バランスデータセット,マルチペア抽出など様々なシナリオにおいて,各コンポーネントの有効性とロバスト性を分析した。

Emotion-Cause Pair Extraction (ECPE) involves extracting clause pairs representing emotions and their causes in a document. Existing methods tend to overfit spurious correlations, such as positional bias in existing benchmark datasets, rather than capturing semantic features. Inspired by recent work, we explore leveraging large language model (LLM) to address ECPE task without additional training. Despite strong capabilities, LLMs suffer from uncontrollable outputs, resulting in mediocre performance. To address this, we introduce chain-of-thought to mimic human cognitive process and propose the Decomposed Emotion-Cause Chain (DECC) framework. Combining inducing inference and logical pruning, DECC guides LLMs to tackle ECPE task. We further enhance the framework by incorporating in-context learning. Experiment results demonstrate the strength of DECC compared to state-of-the-art supervised fine-tuning methods. Finally, we analyze the effectiveness of each component and the robustness of the method in various scenarios, including different LLM bases, rebalanced datasets, and multi-pair extraction.
翻訳日:2024-02-01 15:03:04 公開日:2024-01-31
# YOLOv5を用いた昆虫の3次元プロッティングアルゴリズム

3D-Plotting Algorithm for Insects using YOLOv5 ( http://arxiv.org/abs/2401.17714v1 )

ライセンス: Link先を確認
Daisuke Mori, Hiroki Hayami, Yasufumi Fujimoto, Isao Goto(参考訳) 生態学研究において、時空間的位置データを正確に収集することは、昆虫や他の生物の行動や生態を理解するための基本的なタスクである。 近年、コンピュータビジョン技術の進歩は、手作業による観察を補助したり、置き換えたりできる成熟段階に達している。 本研究では, 実験環境において昆虫の挙動を自動で観察できるように, 簡便で安価な3次元の昆虫観察法を開発した。 本研究の主な成果は,安価カメラやその他の機器を用いた3次元監視アルゴリズムを作成し,奥行き誤差の調整アルゴリズムを設計し,従来の研究では実現されていなかったプロットアルゴリズムが定量的に正確であるかを検証することである。 昆虫の詳細な3d可視化を提供することで、プロットアルゴリズムは昆虫が環境の中でどのように相互作用するかをより効果的に理解するのに役立つ。

In ecological research, accurately collecting spatiotemporal position data is a fundamental task for understanding the behavior and ecology of insects and other organisms. In recent years, advancements in computer vision techniques have reached a stage of maturity where they can support, and in some cases, replace manual observation. In this study, a simple and inexpensive method for monitoring insects in three dimensions (3D) was developed so that their behavior could be observed automatically in experimental environments. The main achievements of this study have been to create a 3D monitoring algorithm using inexpensive cameras and other equipment to design an adjusting algorithm for depth error, and to validate how our plotting algorithm is quantitatively precise, all of which had not been realized in conventional studies. By offering detailed 3D visualizations of insects, the plotting algorithm aids researchers in more effectively comprehending how insects interact within their environments.
翻訳日:2024-02-01 15:02:46 公開日:2024-01-31
# eegに基づく機能的接続と機械学習による長時間tdcのマルチタスク性能予測

Prediction of multitasking performance post-longitudinal tDCS via EEG-based functional connectivity and machine learning methods ( http://arxiv.org/abs/2401.17711v1 )

ライセンス: Link先を確認
Akash K Rao, Shashank Uttrani, Vishnu K Menon, Darshil Shah, Arnav Bhavsar, Shubhajit Roy Chowdhury, Varun Dutt(参考訳) 認知能力の変化、特に縦断的介入後の予測と理解は、神経科学の基本的な目標である。 経頭蓋直流刺激(TDCS)のような縦断的脳刺激に基づく介入は、静止膜電位の短期的変化を誘発し、認知過程に影響を与える。 しかし, 介入後の認知能力の変化を予測する研究はほとんど行われていない。 本研究では,脳波に基づく機能的接続分析と機械学習アルゴリズムを用いて,複雑なマルチタスクタスクにおける認知能力の変化を予測することによって,文献におけるこのギャップに対処する。 40名の被験者を実験条件と活動的制御条件に分けた。 1日目、全ての被験者が32チャンネルの脳波を同時に取得するマルチタスクを実行した。 2日目から7日目にかけて,実験状態の被験者は2maアノダルtdcs刺激15分を課題訓練中に服用した。 活動制御状態の被験者は課題訓練中に15分間のシャム刺激を受けた。 10日目、すべての被験者が脳波取得で再びマルチタスクタスクを実行した。 1日目と10日目の脳波データから,ソースレベルの機能的接続指標,すなわち位相ラグ指数と指向伝達関数を抽出した。 認知能力の変化を予測するために、さまざまな機械学習モデルが採用された。 その結果、多層パーセプトロンと指向伝達関数は、クロスバリデーショントレーニングRMSEが5.11%、テストRMSEが4.97%であった。 TDCS介入後の動的・複雑なタスクにおける認知性能を正確に予測するリアルタイム認知状態評価器の開発における我々の結果の影響について論じる。

Predicting and understanding the changes in cognitive performance, especially after a longitudinal intervention, is a fundamental goal in neuroscience. Longitudinal brain stimulation-based interventions like transcranial direct current stimulation (tDCS) induce short-term changes in the resting membrane potential and influence cognitive processes. However, very little research has been conducted on predicting these changes in cognitive performance post-intervention. In this research, we intend to address this gap in the literature by employing different EEG-based functional connectivity analyses and machine learning algorithms to predict changes in cognitive performance in a complex multitasking task. Forty subjects were divided into experimental and active-control conditions. On Day 1, all subjects executed a multitasking task with simultaneous 32-channel EEG being acquired. From Day 2 to Day 7, subjects in the experimental condition undertook 15 minutes of 2mA anodal tDCS stimulation during task training. Subjects in the active-control condition undertook 15 minutes of sham stimulation during task training. On Day 10, all subjects again executed the multitasking task with EEG acquisition. Source-level functional connectivity metrics, namely phase lag index and directed transfer function, were extracted from the EEG data on Day 1 and Day 10. Various machine learning models were employed to predict changes in cognitive performance. Results revealed that the multi-layer perceptron and directed transfer function recorded a cross-validation training RMSE of 5.11% and a test RMSE of 4.97%. We discuss the implications of our results in developing real-time cognitive state assessors for accurately predicting cognitive performance in dynamic and complex tasks post-tDCS intervention
翻訳日:2024-02-01 15:02:31 公開日:2024-01-31
# 内装設計における美的嗜好予測:ファジィアプローチ

Aesthetic Preference Prediction in Interior Design: Fuzzy Approach ( http://arxiv.org/abs/2401.17710v1 )

ライセンス: Link先を確認
Ayana Adilova and Pakizar Shamoi(参考訳) インテリアデザインとは、ルック&フィールの空間を作ることです。 しかし、美的嗜好の主観的な性質は、インテリアデザインが視覚的にアピールするものを定義し、定量化する上で重要な課題である。 本稿では, インテリアデザインにおける審美的嗜好を定量化し, 予測するための新しい手法を提案する。 本研究ではファジィ論理と画像処理技術を組み合わせた。 ソーシャルメディアプラットフォームからインテリアデザインイメージのデータセットを収集し,色調和,明度,複雑性などの視覚的特性に着目した。 これらの特徴を重み付き平均を用いて総合的な美的スコアを計算する。 本手法は,全体的な美的嗜好の計算において,個々の色嗜好を考察する。 最初は、赤、茶色などの主要色のユーザー評価を集め、好みを理解します。 次に、画像中の上位5色のトップ5の画素数を使用して、カラースキームの好みを得る。 そして、ファジィ推論システムへの入力としてカラースキーム選好と美的スコアを渡し、全体選好スコアを算出する。 このスコアは、色選択と一般的な美的魅力を考慮して、ユーザが特定のインテリアデザインを好むことの包括的尺度である。 2AFC (Two-Alternative Forced Choice) 法を用いて評価を行い,0。 この研究は、特にデジタルメディアに大きく依存する世界で、デザイナーや専門家が人々のインテリアデザインの好みを理解し、満足するのに役立つ。

Interior design is all about creating spaces that look and feel good. However, the subjective nature of aesthetic preferences presents a significant challenge in defining and quantifying what makes an interior design visually appealing. The current paper addresses this gap by introducing a novel methodology for quantifying and predicting aesthetic preferences in interior design. Our study combines fuzzy logic with image processing techniques. We collected a dataset of interior design images from social media platforms, focusing on essential visual attributes such as color harmony, lightness, and complexity. We integrate these features using weighted average to compute a general aesthetic score. Our approach considers individual color preferences in calculating the overall aesthetic preference. We initially gather user ratings for primary colors like red, brown, and others to understand their preferences. Then, we use the pixel count of the top five dominant colors in the image to get the color scheme preference. The color scheme preference and the aesthetic score are then passed as inputs to the fuzzy inference system to calculate an overall preference score. This score represents a comprehensive measure of the user's preference for a particular interior design, considering their color choices and general aesthetic appeal. We used the 2AFC (Two-Alternative Forced Choice) method to validate our methodology, achieving a notable hit rate of 0.7. This study can help designers and professionals better understand and meet people's interior design preferences, especially in a world that relies heavily on digital media.
翻訳日:2024-02-01 15:02:04 公開日:2024-01-31
# 小児外傷, メンタルヘルスアンケート, 機械学習カスケードアンサンブルを用いたインド成人の自殺行動予測

Predicting suicidal behavior among Indian adults using childhood trauma, mental health questionnaires and machine learning cascade ensembles ( http://arxiv.org/abs/2401.17705v1 )

ライセンス: Link先を確認
Akash K Rao, Gunjan Y Trivedi, Riri G Trivedi, Anshika Bajpai, Gajraj Singh Chauhan, Vishnu K Menon, Kathirvel Soundappan, Hemalatha Ramani, Neha Pandya, Varun Dutt(参考訳) 若者の間では、自殺はインドの主要な死因であり、国民の自殺率は約16%である。 近年,様々な行動特性を用いて自殺行動を予測する機械学習アルゴリズムが登場している。 しかし、現在まで、インドの文脈における自殺行動を予測する機械学習アルゴリズムの有効性は研究されていない。 本研究では,子どものトラウマやメンタルヘルスパラメータ,その他の行動要因に基づいて自殺行動を予測するために,異なる機械学習アルゴリズムとアンサンブルを開発した。 データセットはインドのウェルネスセンターから391名から取得された。 小児の外傷, 心理的健康, その他のメンタルヘルスに関する情報は, 標準化されたアンケートによって収集された。 その結果, 支援ベクターマシン, 決定木, ランダムフォレストを用いたカスケードアンサンブル学習では, 小児外傷および精神保健アンケートのデータを用いて95.04%の精度で自殺行動の分類が可能であった。 この研究は、これらの機械学習アンサンブルを用いて自殺傾向のある個人を識別し、ターゲットのインターベンションを効率的に提供できる可能性を強調している。

Among young adults, suicide is India's leading cause of death, accounting for an alarming national suicide rate of around 16%. In recent years, machine learning algorithms have emerged to predict suicidal behavior using various behavioral traits. But to date, the efficacy of machine learning algorithms in predicting suicidal behavior in the Indian context has not been explored in literature. In this study, different machine learning algorithms and ensembles were developed to predict suicide behavior based on childhood trauma, different mental health parameters, and other behavioral factors. The dataset was acquired from 391 individuals from a wellness center in India. Information regarding their childhood trauma, psychological wellness, and other mental health issues was acquired through standardized questionnaires. Results revealed that cascade ensemble learning methods using a support vector machine, decision trees, and random forest were able to classify suicidal behavior with an accuracy of 95.04% using data from childhood trauma and mental health questionnaires. The study highlights the potential of using these machine learning ensembles to identify individuals with suicidal tendencies so that targeted interinterventions could be provided efficiently.
翻訳日:2024-02-01 15:01:37 公開日:2024-01-31
# WSC+:Tree-of-Expertsを使ったWinogradスキーマチャレンジの強化

WSC+: Enhancing The Winograd Schema Challenge Using Tree-of-Experts ( http://arxiv.org/abs/2401.17703v1 )

ライセンス: Link先を確認
Pardis Sadat Zahraei, Ali Emami(参考訳) Winograd Schema Challenge (WSC)は、マシン理解を評価するための重要なベンチマークである。 LLM(Large Language Models)はWSCの質問に答えるのに優れていますが、そのような質問を生成する能力はいまだ解明されていません。 本稿では,WSC インスタンスの生成を促進する新しいプロンプト手法である Tree-of-Experts (ToE) を提案する。 このアプローチを用いて、3,026 llm 生成文からなる新しいデータセット wsc+ を導入する。 特に、新しい'曖昧'と'不快'のカテゴリを取り入れてWSCフレームワークを拡張し、モデルの過信と偏見について深い洞察を提供する。 解析の結果,LLMは,他のモデルと比較した場合よりも,生成した質問に対して常に優れるとは限らないことが示唆された。 WSC+では、最高性能のLCMであるGPT-4が68.7%の精度を達成し、人間ベンチマークの95.1%を大きく下回っている。

The Winograd Schema Challenge (WSC) serves as a prominent benchmark for evaluating machine understanding. While Large Language Models (LLMs) excel at answering WSC questions, their ability to generate such questions remains less explored. In this work, we propose Tree-of-Experts (ToE), a novel prompting method which enhances the generation of WSC instances (50% valid cases vs. 10% in recent methods). Using this approach, we introduce WSC+, a novel dataset comprising 3,026 LLM-generated sentences. Notably, we extend the WSC framework by incorporating new 'ambiguous' and 'offensive' categories, providing a deeper insight into model overconfidence and bias. Our analysis reveals nuances in generation-evaluation consistency, suggesting that LLMs may not always outperform in evaluating their own generated questions when compared to those crafted by other models. On WSC+, GPT-4, the top-performing LLM, achieves an accuracy of 68.7%, significantly below the human benchmark of 95.1%.
翻訳日:2024-02-01 15:01:19 公開日:2024-01-31
# 3d生成の進歩:調査

Advances in 3D Generation: A Survey ( http://arxiv.org/abs/2401.17807v1 )

ライセンス: Link先を確認
Xiaoyu Li, Qi Zhang, Di Kang, Weihao Cheng, Yiming Gao, Jingbo Zhang, Zhihao Liang, Jing Liao, Yan-Pei Cao, Ying Shan(参考訳) 3Dモデルの生成はコンピュータグラフィックスのコアにあり、数十年の研究の焦点となっている。 高度な神経表現と生成モデルが出現し、3dコンテンツ生成の分野が急速に発展し、ますます高品質で多様な3dモデルが生み出されるようになった。 この分野の急速な成長は、最近のすべての発展を控えるのは難しい。 本研究では,3次元生成法の基本方法論を紹介し,3次元表現,生成法,データセット,対応するアプリケーションを含む構造化ロードマップを構築することを目的とする。 具体的には,3次元生成のバックボーンとして機能する3D表現を紹介する。 さらに, フィードフォワード生成, 最適化ベース生成, 手続き生成, 生成的新規ビュー合成など, アルゴリズムパラダイムの種類によって分類され, 急速に成長している生成法に関する文献の包括的概要を述べる。 最後に、利用可能なデータセット、アプリケーション、オープンチャレンジについて論じる。 この調査は、読者がこのエキサイティングなトピックを探求し、3Dコンテンツ生成分野のさらなる進歩を促進するのに役立つことを期待している。

Generating 3D models lies at the core of computer graphics and has been the focus of decades of research. With the emergence of advanced neural representations and generative models, the field of 3D content generation is developing rapidly, enabling the creation of increasingly high-quality and diverse 3D models. The rapid growth of this field makes it difficult to stay abreast of all recent developments. In this survey, we aim to introduce the fundamental methodologies of 3D generation methods and establish a structured roadmap, encompassing 3D representation, generation methods, datasets, and corresponding applications. Specifically, we introduce the 3D representations that serve as the backbone for 3D generation. Furthermore, we provide a comprehensive overview of the rapidly growing literature on generation methods, categorized by the type of algorithmic paradigms, including feedforward generation, optimization-based generation, procedural generation, and generative novel view synthesis. Lastly, we discuss available datasets, applications, and open challenges. We hope this survey will help readers explore this exciting topic and foster further advancements in the field of 3D content generation.
翻訳日:2024-02-01 14:54:37 公開日:2024-01-31
# コントラスト解析のための二重情報GAN

Double InfoGAN for Contrastive Analysis ( http://arxiv.org/abs/2401.17776v1 )

ライセンス: Link先を確認
Florence Carton, Robin Louiset, Pietro Gori(参考訳) 対比分析(ca)とは、対象領域の共通点と特徴点の発見を背景領域と比較するものである。 これは医療画像など多くの応用において大きな関心を集めている。 現在のSOTA法は、VAE(CA-VAE)に基づく潜在変数モデルである。 しかし、いずれも重要な制約を無視したり、基本的な前提を強制しない。 これは、特異な因子が共通のもの(あるいは逆数)と間違えられるような準最適解につながるかもしれない。 さらに、生成された画像はvaesの典型的品質がかなり悪く、解釈性や有用性が低下する。 本稿では、GANの高品質な合成とInfoGANの分離力を利用するCAのための最初のGANベースの手法であるDouble InfoGANを提案する。 簡易な合成例から複雑な医用画像まで4つの視覚データセットを用いた実験の結果,提案手法が潜伏分離と画質の点でsoma ca-vaesよりも優れていることがわかった。 データセットとコードはオンラインで入手できる。

Contrastive Analysis (CA) deals with the discovery of what is common and what is distinctive of a target domain compared to a background one. This is of great interest in many applications, such as medical imaging. Current state-of-the-art (SOTA) methods are latent variable models based on VAE (CA-VAEs). However, they all either ignore important constraints or they don't enforce fundamental assumptions. This may lead to sub-optimal solutions where distinctive factors are mistaken for common ones (or viceversa). Furthermore, the generated images have a rather poor quality, typical of VAEs, decreasing their interpretability and usefulness. Here, we propose Double InfoGAN, the first GAN based method for CA that leverages the high-quality synthesis of GAN and the separation power of InfoGAN. Experimental results on four visual datasets, from simple synthetic examples to complex medical images, show that the proposed method outperforms SOTA CA-VAEs in terms of latent separation and image quality. Datasets and code are available online.
翻訳日:2024-02-01 14:54:17 公開日:2024-01-31
# SNP-S3:様々なビデオテキストタスクのための共有ネットワーク事前学習と意味的強化

SNP-S3: Shared Network Pre-training and Significant Semantic Strengthening for Various Video-Text Tasks ( http://arxiv.org/abs/2401.17773v1 )

ライセンス: Link先を確認
Xingning Dong, Qingpei Guo, Tian Gan, Qing Wang, Jianlong Wu, Xiangyuan Ren, Yuan Cheng, Wei Chu(参考訳) 本稿では,様々なダウンストリームビデオテキストタスクを容易にするために,生データを直接事前学習することで,モーダルな動画表現を学習するためのフレームワークを提案する。 私たちの主な貢献は、事前トレーニングフレームワークとプロキシタスクにあります。 まず,2つの主流画素レベルの事前学習アーキテクチャ(限られたアプリケーションかそれ以下)の欠点を踏まえ,共有ネットワーク事前学習(SNP)を提案する。 1つの共有BERT型ネットワークを使用してテキストとクロスモーダル機能を同時に洗練することにより、SNPは軽量で、様々なダウンストリームアプリケーションをサポートすることができる。 第2に,文の理解において,人々が常に「重要な言葉」に注意を払っているという直感に基づいて,新しいマスキングとマッチングプロキシタスクを含む意味的力強化(S3)戦略を提案する。 3つのダウンストリームビデオテキストタスクと6つのデータセットで行った実験は、ピクセルレベルのビデオテキスト事前学習における新たな最先端の確立を実証すると同時に、事前学習効率と微調整性能のバランスを満足できるものにした。 コードベースはhttps://github.com/alipay/Ant-Multi-Modal-Framework/tree/main/prj/snps3_vtpで公開されている。

We present a framework for learning cross-modal video representations by directly pre-training on raw data to facilitate various downstream video-text tasks. Our main contributions lie in the pre-training framework and proxy tasks. First, based on the shortcomings of two mainstream pixel-level pre-training architectures (limited applications or less efficient), we propose Shared Network Pre-training (SNP). By employing one shared BERT-type network to refine textual and cross-modal features simultaneously, SNP is lightweight and could support various downstream applications. Second, based on the intuition that people always pay attention to several "significant words" when understanding a sentence, we propose the Significant Semantic Strengthening (S3) strategy, which includes a novel masking and matching proxy task to promote the pre-training performance. Experiments conducted on three downstream video-text tasks and six datasets demonstrate that, we establish a new state-of-the-art in pixel-level video-text pre-training; we also achieve a satisfactory balance between the pre-training efficiency and the fine-tuning performance. The codebase are available at https://github.com/alipay/Ant-Multi-Modal-Framework/tree/main/prj/snps3_vtp.
翻訳日:2024-02-01 14:54:00 公開日:2024-01-31
# きめ細かいゼロショット学習:進歩、挑戦、展望

Fine-Grained Zero-Shot Learning: Advances, Challenges, and Prospects ( http://arxiv.org/abs/2401.17766v1 )

ライセンス: Link先を確認
Jingcai Guo, Zhijie Rao, Song Guo, Jingren Zhou, Dacheng Tao(参考訳) 最近のゼロショット学習(ZSL)アプローチは、よく知られた領域バイアスを緩和し、視覚・セマンティックスマッピングの問題と一致しないために、きめ細かい分析、すなわち、きめ細かなZSLを統合している。 特に、このパラダイムは既存の密集した細粒度メソッドとは異なるため、独特で非自明な課題を提起することができる。 しかし、私たちの知る限りでは、このトピックの体系的な要約はいまだに欠けている。 本稿では,この領域の文献を豊かにし,今後の展開のための健全な基盤を提供するため,zslにおける粒度解析の最近の進歩を概観する。 具体的には,まず,各カテゴリーを徹底的に分析した既存の手法と手法の分類法を提案する。 次に、ベンチマークを要約し、公開利用可能なデータセット、モデル、実装、およびライブラリとしての詳細を取り上げる。 最後に、関連するアプリケーションをスケッチします。 さらに,重要な課題を議論し,今後の方向性を示唆する。

Recent zero-shot learning (ZSL) approaches have integrated fine-grained analysis, i.e., fine-grained ZSL, to mitigate the commonly known seen/unseen domain bias and misaligned visual-semantics mapping problems, and have made profound progress. Notably, this paradigm differs from existing close-set fine-grained methods and, therefore, can pose unique and nontrivial challenges. However, to the best of our knowledge, there remains a lack of systematic summaries of this topic. To enrich the literature of this domain and provide a sound basis for its future development, in this paper, we present a broad review of recent advances for fine-grained analysis in ZSL. Concretely, we first provide a taxonomy of existing methods and techniques with a thorough analysis of each category. Then, we summarize the benchmark, covering publicly available datasets, models, implementations, and some more details as a library. Last, we sketch out some related applications. In addition, we discuss vital challenges and suggest potential future directions.
翻訳日:2024-02-01 14:53:38 公開日:2024-01-31
# 混合整数最適化による期待最大化アルゴリズムの収束

Convergence of Expectation-Maximization Algorithm with Mixed-Integer Optimization ( http://arxiv.org/abs/2401.17763v1 )

ライセンス: Link先を確認
Geethu Joseph(参考訳) 期待最大化(EM)に基づくアルゴリズムの収束は、通常、未知のパラメータ(最適化変数)すべてに対して確率関数の連続性を必要とする。 この要件は、パラメータが離散変数と連続変数の両方を構成するときに満たされず、収束解析は非自明である。 本稿では、離散パラメータと連続パラメータの混合を推定する特定の種類のEMアルゴリズムの収束を保証する一連の条件を紹介する。 本研究では,混合整数非線形最適化問題を解く反復アルゴリズムの新しい解析手法を提案する。 具体的な例として、emベースのスパースベイズ学習アルゴリズムを[1]で収束させることを証明し、線形力学系の状態を、互いにスパース入力とバースト的欠落観測で推定する。 その結果,[1]のアルゴリズムは,連続最適化変数に対する最大許容コストの定常点の集合に収束することがわかった。

The convergence of expectation-maximization (EM)-based algorithms typically requires continuity of the likelihood function with respect to all the unknown parameters (optimization variables). The requirement is not met when parameters comprise both discrete and continuous variables, making the convergence analysis nontrivial. This paper introduces a set of conditions that ensure the convergence of a specific class of EM algorithms that estimate a mixture of discrete and continuous parameters. Our results offer a new analysis technique for iterative algorithms that solve mixed-integer non-linear optimization problems. As a concrete example, we prove the convergence of the EM-based sparse Bayesian learning algorithm in [1] that estimates the state of a linear dynamical system with jointly sparse inputs and bursty missing observations. Our results establish that the algorithm in [1] converges to the set of stationary points of the maximum likelihood cost with respect to the continuous optimization variables.
翻訳日:2024-02-01 14:53:20 公開日:2024-01-31
# 非線形共分散行列推定器を用いた正規化線形判別分析

Regularized Linear Discriminant Analysis Using a Nonlinear Covariance Matrix Estimator ( http://arxiv.org/abs/2401.17760v1 )

ライセンス: Link先を確認
Maaz Mahadi, Tarig Ballal, Muhammad Moinuddin, Tareq Y. Al-Naffouri, and Ubaid M. Al-Saggaf(参考訳) 線形判別分析(LDA)はデータ分類において広く用いられている手法である。 この手法は多くの分類問題において適切な性能を提供するが、データ共分散行列が不調な場合に効率が悪くなる。 これはしばしば、特徴空間の次元がトレーニングデータサイズよりも大きいか、あるいは同等であるときに発生する。 このような状況に対処するために,データ共分散行列の正規化線形推定器に基づく正規化lda(rlda)法が提案されている。 RLDA法の性能はよく研究されており、すでに最適正則化スキームが提案されている。 本稿では,非線形(NL)共分散行列推定器と一致する逆共分散行列の正半定根型推定器の性能について検討する。 推定器は線形推定法を用いて最適分類器のスコア関数を再構成し,最終的に提案したNL-RLDA分類器を導出する。 提案手法の誤分類率の漸近的・一貫した推定を二重漸近的状態とクラスに対する多変量ガウスモデルに仮定して導出する。 一次元グリッド探索と組み合わせた一貫した推定器を用いて、提案したNL-RLDA分類器に必要な正規化パラメータの値を設定する。 合成データと実データの両方に基づく性能評価は,提案手法の有効性を示す。 提案手法は複数のデータセット上で最先端の手法より優れている。 各種データセットにおける最先端手法と比較して,提案手法は優れた性能を示す。

Linear discriminant analysis (LDA) is a widely used technique for data classification. The method offers adequate performance in many classification problems, but it becomes inefficient when the data covariance matrix is ill-conditioned. This often occurs when the feature space's dimensionality is higher than or comparable to the training data size. Regularized LDA (RLDA) methods based on regularized linear estimators of the data covariance matrix have been proposed to cope with such a situation. The performance of RLDA methods is well studied, with optimal regularization schemes already proposed. In this paper, we investigate the capability of a positive semidefinite ridge-type estimator of the inverse covariance matrix that coincides with a nonlinear (NL) covariance matrix estimator. The estimator is derived by reformulating the score function of the optimal classifier utilizing linear estimation methods, which eventually results in the proposed NL-RLDA classifier. We derive asymptotic and consistent estimators of the proposed technique's misclassification rate under the assumptions of a double-asymptotic regime and multivariate Gaussian model for the classes. The consistent estimator, coupled with a one-dimensional grid search, is used to set the value of the regularization parameter required for the proposed NL-RLDA classifier. Performance evaluations based on both synthetic and real data demonstrate the effectiveness of the proposed classifier. The proposed technique outperforms state-of-art methods over multiple datasets. When compared to state-of-the-art methods across various datasets, the proposed technique exhibits superior performance.
翻訳日:2024-02-01 14:53:06 公開日:2024-01-31
# リモートセンシングとディープラーニングによるインフラストラクチャの迅速な損傷特性化のための階層化アプローチ

Tiered approach for rapid damage characterisation of infrastructure enabled by remote sensing and deep learning technologies ( http://arxiv.org/abs/2401.17759v1 )

ライセンス: Link先を確認
Nadiia Kopiika, Andreas Karavias, Pavlos Krassakis, Zehao Ye, Jelena Ninic, Nataliya Shakhovska, Nikolaos Koukouzas, Sotirios Argyroudis, Stergios-Aristoteles Mitoulis(参考訳) 橋などの重要なインフラは戦争や紛争の間、体系的に標的にされている。 これは、人や商品の接続と輸送を可能にするために重要なインフラが不可欠であり、したがって国家や国際防衛計画や経済成長の基盤となっているためである。 橋の大量破壊は、自然災害や人為的な災害の際にこれらの資産へのアクセシビリティが最小限または全くなく、急速な回復をもたらすのを防いでいる。 その結果、システムのレジリエンスは劇的に低下する。 この課題の解決策は、待機観察に技術を使用することである。 しかし、地域、資産、構造(構成要素)など、異なるスケールでの損傷を特徴づける方法が存在しないため、スケールでのアセスメントの間には体系的な相関がほとんどあるいは全くない。 我々は,この能力ギャップを埋めるための3レベル階層化手法を提案し,汎用ディジタル技術によって実現される損傷特性化手法を実証する。 次に、この手法を17本の橋を含むウクライナのケーススタディに適用し、検証する。 マクロからマイクロまで、Sentinel-1 SAR画像、クラウドソース情報、高解像度画像から、損傷したインフラストラクチャのディープラーニングまで、大規模に展開する。 評価精度の向上が要求される場合, 画像の干渉コヒーレンス差と意味セグメンテーションを初めて配置し, 損傷特性の信頼性を地域レベルからインフラコンポーネントレベルに向上させた。 この統合手法により意思決定のスピードが向上し、レジリエンスが向上する。 キーワード: 重要なインフラストラクチャ、ダメージ特性化、標的攻撃、修復

Critical infrastructure such as bridges are systematically targeted during wars and conflicts. This is because critical infrastructure is vital for enabling connectivity and transportation of people and goods, and hence, underpinning the national and international defence planning and economic growth. Mass destruction of bridges, along with minimal or no accessibility to these assets during natural and anthropogenic disasters, prevents us from delivering rapid recovery. As a result, systemic resilience is drastically reduced. A solution to this challenge is to use technology for stand-off observations. Yet, no method exists to characterise damage at different scales, i.e. regional, asset, and structural (component), and more so there is little or no systematic correlation between assessments at scale. We propose an integrated three-level tiered approach to fill this capability gap, and we demonstrate the methods for damage characterisation enabled by fit-for-purpose digital technologies. Next, this method is applied and validated to a case study in Ukraine that includes 17 bridges. From macro to micro, we deploy technology at scale, from Sentinel-1 SAR images, crowdsourced information, and high-resolution images to deep learning for damaged infrastructure. For the first time, the interferometric coherence difference and semantic segmentation of images were deployed to improve the reliability of damage characterisations from regional to infrastructure component level, when enhanced assessment accuracy is required. This integrated method improves the speed of decision-making, and thus, enhances resilience. Keywords: critical infrastructure, damage characterisation, targeted attacks, restoration
翻訳日:2024-02-01 14:52:44 公開日:2024-01-31
# CauESC:感情支援会話のための因果意識モデル

CauESC: A Causal Aware Model for Emotional Support Conversation ( http://arxiv.org/abs/2401.17755v1 )

ライセンス: Link先を確認
Wei Chen, Hengxu Lin, Qun Zhang, Xiaojin Zhang, Xiang Bai, Xuanjing Huang, Zhongyu Wei(参考訳) Emotional Support Conversation は、支援的反応を通じて探究者の感情的苦痛を軽減することを目的としている。 既存のアプローチには2つの制限がある:(1)苦悩の感情原因を無視し、きめ細かな感情理解に重要である;(2)話者間の対話における感情のダイナミクスよりも、探究者の精神状態に焦点を当てている。 これらの問題に対処するため,我々は,まず苦悩の感情要因と,その原因によって引き起こされる感情効果を認識し,個別に言語グルーミングの戦略を理解し,それらを巧みに統合する新しいフレームワークCauESCを提案する。 ベンチマークデータセットにおける実験結果は,提案手法の有効性を示し,要因から効果への感情理解と独立統合戦略モデリングの利点を示す。

Emotional Support Conversation aims at reducing the seeker's emotional distress through supportive response. Existing approaches have two limitations: (1) They ignore the emotion causes of the distress, which is important for fine-grained emotion understanding; (2) They focus on the seeker's own mental state rather than the emotional dynamics during interaction between speakers. To address these issues, we propose a novel framework CauESC, which firstly recognizes the emotion causes of the distress, as well as the emotion effects triggered by the causes, and then understands each strategy of verbal grooming independently and integrates them skillfully. Experimental results on the benchmark dataset demonstrate the effectiveness of our approach and show the benefits of emotion understanding from cause to effect and independent-integrated strategy modeling.
翻訳日:2024-02-01 14:52:17 公開日:2024-01-31
# 体代数のねじれたテンソル積

Twisted tensor products of field algebras ( http://arxiv.org/abs/2401.17753v1 )

ライセンス: Link先を確認
Ezio Vasselli(参考訳) a を c*-代数、h をヒルベルト空間とし、c を h 上のカー代数とする。 我々は、A の C によるねじれたテンソル積を構築し、2 つの因子が必ずしも他方の相対可換であるとは限らない。 結果の C*-代数は、適切なヒルベルト A-双加群上に構築された一般化された CAR 代数と見なすことができる。 応用として、一般に自由ディラック場(C因子の上昇)が自由スカラー場(A因子が得られる)に相対的に局所でないような固定時間モデルのクラスを示す。 いくつかのモデルでは、2つの(局所ではない)場のゲージ不変結合が局所可観測ネットを形成する。

Let A be a C*-algebra, h a Hilbert space and C the CAR algebra over h. We construct a twisted tensor product of A by C such that the two factors are not necessarily one in the relative commutant of the other. The resulting C*-algebra may be regarded as a generalized CAR algebra constructed over a suitable Hilbert A-bimodule. As an application, we exhibit a class of fixed-time models where a free Dirac field (giving rise to the C factor) in general is not relatively local to a free scalar field (which yields the A factor). In some of the models, gauge-invariant combinations of the two (not relatively local) fields form a local observable net.
翻訳日:2024-02-01 14:52:03 公開日:2024-01-31
# PF-GNN: 微分可能な粒子フィルタリングに基づく普遍グラフ表現の近似

PF-GNN: Differentiable particle filtering based approximation of universal graph representations ( http://arxiv.org/abs/2401.17752v1 )

ライセンス: Link先を確認
Mohammed Haroon Dupty, Yanfei Dong, Wee Sun Lee(参考訳) メッセージパッシンググラフニューラルネットワーク(GNN)は、グラフ同型に対する1-WL色補正テストによって、表現力に制限があることが知られている。 他の表現力のあるモデルは計算コストが高いか、あるいはグラフから構造的特徴を抽出するために前処理が必要である。 本研究では,1-WLの停止時に非対称性を人工的に導入し,さらに色付けを洗練させる手法であるパーソナライズ・アンド・リファインメント(IR)のパラダイムに基づいて,学習過程を厳密な同型解法で導くことにより,GNNを普遍化することを提案する。 同型解法は、葉がグラフを独自に識別する色付けの探索木を生成する。 しかし、木は指数関数的に大きく成長し、学習の観点からは望ましくない手作りの刈り技術が必要である。 探索木の根から葉への複数の経路をサンプリングすることにより,確率的視点を採り,着色の探索木(組込み)を近似する。 識別表現をより詳しく知るために,逐次状態推定のための原理的アプローチである粒子フィルタ更新を用いて,サンプリングプロセスをガイドする。 アルゴリズムはエンドツーエンドで微分可能であり、任意のgnnをバックボーンとして適用でき、実行時の線形な増加だけでよりリッチなグラフ表現を学習できる。 実験により,本手法は実世界のデータセットだけでなく,同型検出のための合成ベンチマークにおいて,GNNモデルよりも一貫して優れていることが示された。

Message passing Graph Neural Networks (GNNs) are known to be limited in expressive power by the 1-WL color-refinement test for graph isomorphism. Other more expressive models either are computationally expensive or need preprocessing to extract structural features from the graph. In this work, we propose to make GNNs universal by guiding the learning process with exact isomorphism solver techniques which operate on the paradigm of Individualization and Refinement (IR), a method to artificially introduce asymmetry and further refine the coloring when 1-WL stops. Isomorphism solvers generate a search tree of colorings whose leaves uniquely identify the graph. However, the tree grows exponentially large and needs hand-crafted pruning techniques which are not desirable from a learning perspective. We take a probabilistic view and approximate the search tree of colorings (i.e. embeddings) by sampling multiple paths from root to leaves of the search tree. To learn more discriminative representations, we guide the sampling process with particle filter updates, a principled approach for sequential state estimation. Our algorithm is end-to-end differentiable, can be applied with any GNN as backbone and learns richer graph representations with only linear increase in runtime. Experimental evaluation shows that our approach consistently outperforms leading GNN models on both synthetic benchmarks for isomorphism detection as well as real-world datasets.
翻訳日:2024-02-01 14:51:54 公開日:2024-01-31
# SwarmBrain: 大規模言語モデルによるリアルタイム戦略ゲームStarCraft IIのエージェント

SwarmBrain: Embodied agent for real-time strategy game StarCraft II via large language models ( http://arxiv.org/abs/2401.17749v1 )

ライセンス: Link先を確認
Xiao Shao, Weifu Jiang, Fei Zuo, Mengqing Liu(参考訳) 大規模言語モデル(LLM)は、エージェントベース分野を歴史的に支配してきた従来の強化学習に基づく手法の性能を超越した、様々な探索的なタスクにおいて重要な成果を上げている。 本研究の目的は,StarCraft II ゲーム環境におけるリアルタイム戦略戦争タスクの実行における LLM の有効性を検討することである。 本稿では,StarCraft II ゲーム環境におけるリアルタイム戦略実装に LLM を利用した実装エージェントである SwarmBrain を紹介する。 SwarmBrainには2つの重要なコンポーネントがある。 1) 最先端のLCMを用いたオーバーミンド・インテリジェンス・マトリックスは,マクロレベルの戦略を高レベルの観点から編成するように設計されている。 このマトリックスは、Zergインテリジェンス脳の全体的意識をエミュレートし、資源の割り当て、拡張の指示、多角的攻撃の調整を目的とした戦略的フォレストを合成する。 2) オーバーマインド・インテリジェンス・マトリックスの計算された熟考に対応するアジャイルのswarm reflexnet。 LLM推論に固有のレイテンシのため、Swarm ReflexNetは条件対応のステートマシンフレームワークを採用しており、基本的なZergユニットの操作を迅速に行うことができる。 実験では、swarmbrainはコンピュータ制御されたテランの敵と対決してzergレースをコントロールしている。 実験の結果,SwarmBrainは経済的拡張,領土拡大,戦術的定式化を行う能力を有しており,SwarmBrainは異なる難易度に設定されたコンピュータプレイヤーに対して勝利を収めることができることが示された。

Large language models (LLMs) have recently garnered significant accomplishments in various exploratory tasks, even surpassing the performance of traditional reinforcement learning-based methods that have historically dominated the agent-based field. The purpose of this paper is to investigate the efficacy of LLMs in executing real-time strategy war tasks within the StarCraft II gaming environment. In this paper, we introduce SwarmBrain, an embodied agent leveraging LLM for real-time strategy implementation in the StarCraft II game environment. The SwarmBrain comprises two key components: 1) a Overmind Intelligence Matrix, powered by state-of-the-art LLMs, is designed to orchestrate macro-level strategies from a high-level perspective. This matrix emulates the overarching consciousness of the Zerg intelligence brain, synthesizing strategic foresight with the aim of allocating resources, directing expansion, and coordinating multi-pronged assaults. 2) a Swarm ReflexNet, which is agile counterpart to the calculated deliberation of the Overmind Intelligence Matrix. Due to the inherent latency in LLM reasoning, the Swarm ReflexNet employs a condition-response state machine framework, enabling expedited tactical responses for fundamental Zerg unit maneuvers. In the experimental setup, SwarmBrain is in control of the Zerg race in confrontation with an Computer-controlled Terran adversary. Experimental results show the capacity of SwarmBrain to conduct economic augmentation, territorial expansion, and tactical formulation, and it shows the SwarmBrain is capable of achieving victory against Computer players set at different difficulty levels.
翻訳日:2024-02-01 14:51:28 公開日:2024-01-31
# 多体量子カオスの制御:Bose-Hubbardシステム

Controlling Many-Body Quantum Chaos: Bose-Hubbard systems ( http://arxiv.org/abs/2401.17744v1 )

ライセンス: Link先を確認
Lukas Beringer, Mathias Steinhuber, Juan Diego Urbina, Klaus Richter, Steven Tomsovic(参考訳) この研究は、光学格子に閉じ込められた超低温ボゾンガスに対する多体量子カオスの量子制御応用を開発する。 古典的なカオスシステムにおける制御目的の初期条件の変化に対して指数的感度を利用する方法が長年知られている。 ターゲティングとして知られるテクニックでは、制御の障害ではなく、不安定がリソースとなる。 近年、この古典的ターゲティングは、必然的な量子状態の拡散に周期的に対抗するか、あるいは制御ハミルトニアンを導入することによって量子系に一般化され、両者とも、幅広い望ましい対象状態のいずれかに対して、特別なカオス軌道に沿って局所状態が導かれる。 厳密にユニタリダイナミクスのみが関与しており、すなわち、コヒーレントな量子ターゲティングを与える。 本稿では, カオス力学系におけるボース・ハッバード系に対する制御ハミルトニアンの導入について述べる。 適切に選択された不安定な平均場解は、正確な位相関係と占有状態を持つ状態に非常に高速に追従することができる。 本質的に、この手法は特別な状態にアクセスできる量子シミュレーション技術を生成する。 このプロトコルは化学ポテンシャルの時間依存的な制御に還元され、光学格子実験に応用される可能性が開ける。 量子多体傷のカスタム状態準備および安定化への明示的な応用は、1次元および2次元格子で示される(同様に3次元の応用も可能である)。

This work develops a quantum control application of many-body quantum chaos for ultracold bosonic gases trapped in optical lattices. It is long known how to harness exponential sensitivity to changes in initial conditions for control purposes in classically chaotic systems. In the technique known as targeting, instead of a hindrance to control, the instability becomes a resource. Recently, this classical targeting has been generalized to quantum systems either by periodically countering the inevitable quantum state spreading or by introducing a control Hamiltonian, where both enable localized states to be guided along special chaotic trajectories toward any of a broad variety of desired target states. Only strictly unitary dynamics are involved; i.e., it gives a coherent quantum targeting. In this paper, the introduction of a control Hamiltonian is applied to Bose-Hubbard systems in chaotic dynamical regimes. Properly selected unstable mean field solutions can be followed quite rapidly to states possessing precise phase relationships and occupancies. In essence, the method generates a quantum simulation technique that can access rather special states. The protocol reduces to a time-dependent control of the chemical potentials, opening up the possibility for application in optical lattice experiments. Explicit applications to custom state preparation and stabilization of quantum many-body scars are presented in one- and two-dimensional lattices (three-dimensional applications are similarly possible).
翻訳日:2024-02-01 14:50:59 公開日:2024-01-31
# アルゴリズム的ロバスト予測集約

Algorithmic Robust Forecast Aggregation ( http://arxiv.org/abs/2401.17743v1 )

ライセンス: Link先を確認
Yongkang Guo, Jason D. Hartline, Zhihuan Huang, Yuqing Kong, Anant Shah, Fang-Yi Yu(参考訳) 予測集約は、複数の予測器の予測を組み合わせて精度を向上させる。 しかし、予測者の情報構造に関する知識の欠如は最適な集計を妨げる。 情報構造のファミリーを考えると、頑健な予測アグリゲータは、全能的なアグリゲータに比べて最小限の最悪の後悔を伴うアグリゲータを見つけることを目的としている。 予測アグリゲーションに対する従来のアプローチは、ヒューリスティックな観測とパラメータチューニングに依存していた。 本稿では,ロバスト予測集約のためのアルゴリズムフレームワークを提案する。 本フレームワークは,可能な情報構造の有限族を持つ一般情報集約のための効率的な近似スキームを提供する。 aleli et al. (2018) が検討した2つのエージェントがバイナリ状態の独立なシグナルを受信する環境では、このフレームワークは、アグリゲータにリプシッツ条件を、あるいはエージェントのレポートに離散的な条件を課すことで、効率的な近似スキームを提供する。 数値実験により, Arieli et al. (2018) が検討した, ほぼ最適なアグリゲータを提供することにより, 本手法の有効性を実証した。

Forecast aggregation combines the predictions of multiple forecasters to improve accuracy. However, the lack of knowledge about forecasters' information structure hinders optimal aggregation. Given a family of information structures, robust forecast aggregation aims to find the aggregator with minimal worst-case regret compared to the omniscient aggregator. Previous approaches for robust forecast aggregation rely on heuristic observations and parameter tuning. We propose an algorithmic framework for robust forecast aggregation. Our framework provides efficient approximation schemes for general information aggregation with a finite family of possible information structures. In the setting considered by Arieli et al. (2018) where two agents receive independent signals conditioned on a binary state, our framework also provides efficient approximation schemes by imposing Lipschitz conditions on the aggregator or discrete conditions on agents' reports. Numerical experiments demonstrate the effectiveness of our method by providing a nearly optimal aggregator in the setting considered by Arieli et al. (2018).
翻訳日:2024-02-01 14:50:38 公開日:2024-01-31
# In-situ-tunable spin-spin interaction in a Penning trap with in-bore optomechanics

In-situ-tunable spin-spin interactions in a Penning trap with in-bore optomechanics ( http://arxiv.org/abs/2401.17742v1 )

ライセンス: Link先を確認
Joseph H. Pham, Julian Y. Z. Jee, Alexander Rischka, Michael J. Biercuk, Robert N. Wolf(参考訳) 量子シミュレーションの実験的な実装は、テスト中の量子システムの制御可能性と、通常外部制御場との相互作用によってもたらされる非一貫性のバランスをとらなければならない。 原子系における刺激された放出によって引き起こされるコヒーレンスに対するコヒーレント相互作用の強さの比率は、通常ハードウェアの制約によって決定され、異なる運用体制を探索するのに必要な柔軟性が制限される。 本稿では,ペニングトラップに閉じ込められた2次元イオン結晶のコヒーレントスピン運動とスピンスピン相互作用強度をその場でチューニングする光学力学系を提案する。 このシステムは、超電導磁石のボアの狭い空間にアクティブな光ポジショナーを導入することで、固定光電力に対するコヒーレントと非コヒーレント光間相互作用の比率を決定する鍵ハードウェアパラメータの調整を可能にする。 正確なクローズドループ圧電式位置決め器を用いて、イオン結晶上に発生するレーザービームの入射角を、最大$\theta_{\text{ODF}}\approx 28^\circ$までその場で調整することができる。 ドップラー限界以下で冷却されたイオン結晶の光双極子力を電磁誘導透過冷却に応用した誘導平均場スピン偏差の測定を用いてシステムを特徴付ける。 これらの実験は、理論的な予測と一致する$\theta_{\text{ODF}}$を変更することで、コヒーレントと非コヒーレント相互作用強度の比の約$\times2$の変化を示す。 我々は、システムの安定性を6000秒以上特徴づける。イオントラップ構造に光学系を厳格に取り付けることで、差動レーザーの動きを1時間あたり約2\times 10^{-3}$度まで減少させ、長いデュレーション実験を可能にする。 これらの技術開発は、将来の量子シミュレーションとセンシングアプリケーションに不可欠である。

Experimental implementations of quantum simulation must balance the controllability of the quantum system under test with decoherence typically introduced through interaction with external control fields. The ratio of coherent interaction strength to decoherence induced by stimulated emission in atomic systems is typically determined by hardware constraints, limiting the flexibility needed to explore different operating regimes. Here, we present an optomechanical system for in-situ tuning of the coherent spin-motion and spin-spin interaction strength in two-dimensional ion crystals confined in a Penning trap. The system introduces active optical positioners into the tightly constrained space of the bore of a superconducting magnet, allowing adjustability of the key hardware parameter which determines the ratio of coherent to incoherent light-matter interaction for fixed optical power. Using precision closed-loop piezo-actuated positioners, the system permits in-situ tuning of the angle-of-incidence of laser beams incident on the ion crystal up to $\theta_{\text{ODF}}\approx 28^\circ$. We characterize the system using measurements of the induced mean-field spin precession under the application of an optical dipole force in ion crystals cooled below the Doppler limit through electromagnetically induced transparency cooling. These experiments show approximately a $\times2$ variation in the ratio of the coherent to incoherent interaction strength with changing $\theta_{\text{ODF}}$, consistent with theoretical predictions. We characterize system stability over 6000 seconds; rigid mounting of optomechanics to the ion trap structure reduces differential laser movements to approximately $2\times 10^{-3}$ degrees per hour, enabling long-duration experiments. These technical developments will be crucial in future quantum simulations and sensing applications.
翻訳日:2024-02-01 14:50:22 公開日:2024-01-31
# haris:スマート駐車支援のための高度な自律移動ロボット

Haris: an Advanced Autonomous Mobile Robot for Smart Parking Assistance ( http://arxiv.org/abs/2401.17741v1 )

ライセンス: Link先を確認
Layth Hamad, Muhammad Asif Khan, Hamid Menouar, Fethi Filali, Amr Mohamed(参考訳) 本稿では,混雑した駐車場における車両位置をナンバープレート認識で追跡する自動移動ロボットシステムであるharisを提案する。 このシステムは、自動ナビゲーションと駐車エリアの正確なマッピングのために、同時位置決めとマッピング(SLAM)を採用しており、GPS依存の必要がなくなる。 さらに,オブジェクト検出のためのコンピュータビジョン技術と,ライセンスプレート番号と位置データとの読み出し・関連付けのための自動ライセンスプレート認識(alpr)を用いた高度な枠組みを用いる。 この情報はその後、バックエンドサービスと同期し、ユーザフレンドリーなモバイルアプリを通じてユーザにアクセスでき、車の位置を自由に提供し、駐車場内での渋滞を軽減する。 提案システムは,スポーツスタジアム等の混雑地において,短期的な大規模屋外駐車場の管理を改善する可能性を秘めている。 ロボットのデモはhttps://youtu.be/ZkTCM35fxa0? si=QjggJuN7M1o3oifx。

This paper presents Haris, an advanced autonomous mobile robot system for tracking the location of vehicles in crowded car parks using license plate recognition. The system employs simultaneous localization and mapping (SLAM) for autonomous navigation and precise mapping of the parking area, eliminating the need for GPS dependency. In addition, the system utilizes a sophisticated framework using computer vision techniques for object detection and automatic license plate recognition (ALPR) for reading and associating license plate numbers with location data. This information is subsequently synchronized with a back-end service and made accessible to users via a user-friendly mobile app, offering effortless vehicle location and alleviating congestion within the parking facility. The proposed system has the potential to improve the management of short-term large outdoor parking areas in crowded places such as sports stadiums. The demo of the robot can be found on https://youtu.be/ZkTCM35fxa0?si=QjggJuN7M1o3oifx.
翻訳日:2024-02-01 14:49:46 公開日:2024-01-31
# オブジェクト検出のローカライズエラーは人間のパフォーマンスと信頼に影響するか?

Do Object Detection Localization Errors Affect Human Performance and Trust? ( http://arxiv.org/abs/2401.17821v1 )

ライセンス: Link先を確認
Sven de Witte, Ombretta Strafforello, Jan van Gemert(参考訳) 境界ボックスはしばしば人間に自動的な物体検出結果を伝えるために使われ、様々なタスクで人を助ける。 境界ボックス位置推定誤差とヒューマンタスク性能の関係について検討した。 我々は,視覚多目的計数タスクにおけるオブザーバパフォーマンススタディを用いて,人間の信頼度と性能をそれぞれ異なるレベルの境界ボックス精度で測定する。 その結果, 位置推定誤差がシステムの精度や信頼性に有意な影響を与えないことが示唆された。 リコールと精度の誤差は、人間のパフォーマンスと信頼の両方に影響を及ぼし、F1スコアに基づくアルゴリズムの最適化は、人間とコンピュータのタスクにおいてより有益であることが示唆されている。 最後に,マルチオブジェクトカウントタスクのバウンディングボックスを中心点で改善し,パフォーマンスの向上と局所化不正確性へのレジリエンス向上を示した。

Bounding boxes are often used to communicate automatic object detection results to humans, aiding humans in a multitude of tasks. We investigate the relationship between bounding box localization errors and human task performance. We use observer performance studies on a visual multi-object counting task to measure both human trust and performance with different levels of bounding box accuracy. The results show that localization errors have no significant impact on human accuracy or trust in the system. Recall and precision errors impact both human performance and trust, suggesting that optimizing algorithms based on the F1 score is more beneficial in human-computer tasks. Lastly, the paper offers an improvement on bounding boxes in multi-object counting tasks with center dots, showing improved performance and better resilience to localization inaccuracy.
翻訳日:2024-02-01 14:41:44 公開日:2024-01-31
# 再生可能エネルギー生産時系列における臨界事象の検出

Detection of Critical Events in Renewable Energy Production Time Series ( http://arxiv.org/abs/2401.17814v1 )

ライセンス: Link先を確認
Laurens P. Stoop, Erik Duijm, Ad J. Feelders, Machteld van den Broek(参考訳) エネルギーシステムへのより再生可能エネルギー源の導入により、発電の変動性と天候依存性が増大する。 電力系統シミュレーションは、何十年にもわたって電力網の精度と信頼性を評価するのに使われてきたが、高い技術的詳細を持つ長いシミュレーション期間において計算が困難になることが多い。 この計算負担を軽減するため,これらの状況下での電力系統の性能を詳細にモデル化できる極端再生可能エネルギー発生の期間を見つけるために,異常検出アルゴリズムを用いて検討する。 具体的には,1950年から2019年までの歴史気候再分析である era5 から派生した発電時系列に最大発散間隔 (mdi) アルゴリズムを適用する。 これらの時系列にMDIアルゴリズムを適用し, 極低エネルギー・高エネルギー生産間隔を同定した。 間隔の異なるばらつき対策の外れ度を判定する。 交差エントロピー測度がより短く、強くピークとなる場合、不偏のクルバック・リーバーの発散はより長く持続的な間隔を検出する傾向がある。 これらの間隔は、ドメインの専門家によって電力網の潜在的なリスクと見なされ、MDIアルゴリズムがこれらの時系列における臨界事象を検出する能力を示している。 分析された時代については,気候変動に起因する可能性のある異常値の変動や延長傾向は見られなかった。 気候モデル出力にMDIを適用することで、電力系統モデリング者は、より広い範囲のシナリオで、現在の電力網と将来の電力網の精度とリスクの変化を調査できる。

The introduction of more renewable energy sources into the energy system increases the variability and weather dependence of electricity generation. Power system simulations are used to assess the adequacy and reliability of the electricity grid over decades, but often become computational intractable for such long simulation periods with high technical detail. To alleviate this computational burden, we investigate the use of outlier detection algorithms to find periods of extreme renewable energy generation which enables detailed modelling of the performance of power systems under these circumstances. Specifically, we apply the Maximum Divergent Intervals (MDI) algorithm to power generation time series that have been derived from ERA5 historical climate reanalysis covering the period from 1950 through 2019. By applying the MDI algorithm on these time series, we identified intervals of extreme low and high energy production. To determine the outlierness of an interval different divergence measures can be used. Where the cross-entropy measure results in shorter and strongly peaking outliers, the unbiased Kullback-Leibler divergence tends to detect longer and more persistent intervals. These intervals are regarded as potential risks for the electricity grid by domain experts, showcasing the capability of the MDI algorithm to detect critical events in these time series. For the historical period analysed, we found no trend in outlier intensity, or shift and lengthening of the outliers that could be attributed to climate change. By applying MDI on climate model output, power system modellers can investigate the adequacy and possible changes of risk for the current and future electricity grid under a wider range of scenarios.
翻訳日:2024-02-01 14:41:30 公開日:2024-01-31
# 決定論的コンピューティングパワーネットワーク:アーキテクチャ、技術、展望

Deterministic Computing Power Networking: Architecture, Technologies and Prospects ( http://arxiv.org/abs/2401.17812v1 )

ライセンス: Link先を確認
Qingmin Jia, Yujiao Hu, Xiaomao Zhou, Qianpiao Ma, Kai Guo, Huayu Zhang, Renchao Xie, Tao Huang, Yunjie Liu(参考訳) 計算集約的および遅延センシティブなタスクのような新しいインターネットサービスの開発により、従来の「最善の努力」ネットワーク伝送モードは大きな課題となっている。 ネットワークシステムは、サービスの安全かつ効率的な運用を保証するために、新しいアプリケーションに対して、エンドツーエンドの送信決定性および計算決定性を提供することを緊急に要求する。 コンピューティングとネットワークの収束に関する研究に基づき、決定論的コンピューティングパワーネットワーク(Det-CPN)と呼ばれる新しいネットワークパラダイムを提案する。 本稿では,コンピューティング・パワー・ネットワークの研究動向について紹介する。 そして、det-cpnの動機とシナリオを分析する。 次に、システムアーキテクチャ、技術能力、ワークフロー、およびdet-cpnの重要な技術を紹介する。 最後に、Det-CPNの課題と今後の動向を分析し、議論する。

With the development of new Internet services such as computation-intensive and delay-sensitive tasks, the traditional "Best Effort" network transmission mode has been greatly challenged. The network system is urgently required to provide end-to-end transmission determinacy and computing determinacy for new applications to ensure the safe and efficient operation of services. Based on the research of the convergence of computing and networking, a new network paradigm named deterministic computing power networking (Det-CPN) is proposed. In this article, we firstly introduce the research advance of computing power networking. And then the motivations and scenarios of Det-CPN are analyzed. Following that, we present the system architecture, technological capabilities, workflow as well as key technologies for Det-CPN. Finally, the challenges and future trends of Det-CPN are analyzed and discussed.
翻訳日:2024-02-01 14:41:05 公開日:2024-01-31
# SWEA:主語埋め込みによる大規模言語モデルにおけるファクチュアル知識の変化

SWEA: Changing Factual Knowledge in Large Language Models via Subject Word Embedding Altering ( http://arxiv.org/abs/2401.17809v1 )

ライセンス: Link先を確認
Xiaopeng Li, Shasha Li, Bin Ji, Shezheng Song, Xi Wang, Jun Ma, Jie Yu, Xiaodong Liu, Jing Wang and Weimin Zhang(参考訳) モデル編集は近年広く注目を集めている。 現在のモデル編集方法は、主にモデルパラメータの変更や既存のモデルに追加モジュールの追加を含む。 しかし、前者はLSMに不可逆的なダメージを与えるが、後者は追加の推論オーバーヘッドとファジィベクトルマッチングが常に信頼できるとは限らない。 これらの課題に対処するために,対象の表現を改良し,推論段階における知識の編集を目標とする,拡張可能な主題単語埋め込み変換(SWEA)フレームワークを提案する。 SWEAはモデル外部の正確なキーマッチングを使用し、信頼性の高い主語埋め込み変更を行うため、推論オーバーヘッドを増大させることなく、モデルのオリジナルの重みを保護する。 次に,まず編集対象に対して埋め込みベクトルを最適化し,次いで知識埋め込み次元(ked)を抑圧し,最終的な融合埋め込みを得る。 そこで我々は,LLMにおける事実知識を編集するためのSWEAOS法を提案する。 SWEAOSの最先端性能を,COUNTERFACTおよびzsREデータセット上で実証する。 編集知識におけるSWEAOSの推論能力を更に検証するため,より複雑なRIPPLEEDITSベンチマークを用いて評価を行った。 2つのサブデータセットの結果は、SWEAOSが最先端の推論能力を持っていることを示している。

Model editing has recently gained widespread attention. Current model editing methods primarily involve modifying model parameters or adding additional modules to the existing model. However, the former causes irreversible damage to LLMs, while the latter incurs additional inference overhead and fuzzy vector matching is not always reliable. To address these issues, we propose an expandable Subject Word Embedding Altering (SWEA) framework, which modifies the representation of subjects and achieve the goal of editing knowledge during the inference stage. SWEA uses precise key matching outside the model and performs reliable subject word embedding altering, thus protecting the original weights of the model without increasing inference overhead. We then propose optimizing then suppressing fusion method, which first optimizes the embedding vector for the editing target and then suppresses the Knowledge Embedding Dimension (KED) to obtain the final fused embedding. We thus propose SWEAOS method for editing factual knowledge in LLMs. We demonstrate the state-of-the-art performance of SWEAOS on the COUNTERFACT and zsRE datasets. To further validate the reasoning ability of SWEAOS in editing knowledge, we evaluate it on the more complex RIPPLEEDITS benchmark. The results on two subdatasets demonstrate that our SWEAOS possesses state-of-the-art reasoning ability.
翻訳日:2024-02-01 14:40:52 公開日:2024-01-31
# バイオスフィアAI

Biospheric AI ( http://arxiv.org/abs/2401.17805v1 )

ライセンス: Link先を確認
Marcin Korecki(参考訳) AI倫理と価値アライメントにおける支配的なパラダイムは、人道中心である。 これらの規律の焦点は、その洞察の深さと幅を制限する人間の価値に厳密に焦点を絞っている。 近年,感覚主義的な視点への展開が試みられている。 いずれの見通しも、生物圏の実際の複雑さを捉え、aiがそれを損なわないことを保証するのに十分ではないと論じている。 そこで我々は,エコセントリックな視点を前提とした新しいパラダイムである生物圏aiを提案する。 このようなAIを設計する際の仮説的方法について議論する。 さらに,生物圏の関心と整合する近代的なAIモデルの研究と応用の方向性を示す。 全体として、この研究は、AIとバイオスフィアの相互作用に焦点を当てた、包括的な研究プログラムへの第一歩を踏み出そうとしている。

The dominant paradigm in AI ethics and value alignment is highly anthropocentric. The focus of these disciplines is strictly on human values which limits the depth and breadth of their insights. Recently, attempts to expand to a sentientist perspective have been initiated. We argue that neither of these outlooks is sufficient to capture the actual complexity of the biosphere and ensure that AI does not damage it. Thus, we propose a new paradigm -- Biospheric AI that assumes an ecocentric perspective. We discuss hypothetical ways in which such an AI might be designed. Moreover, we give directions for research and application of the modern AI models that would be consistent with the biospheric interests. All in all, this work attempts to take first steps towards a comprehensive program of research that focuses on the interactions between AI and the biosphere.
翻訳日:2024-02-01 14:40:32 公開日:2024-01-31
# SimAda: パフォーマンスの低いシーンでセグメンテーションモデルに適応するためのシンプルな統一フレームワーク

SimAda: A Simple Unified Framework for Adapting Segment Anything Model in Underperformed Scenes ( http://arxiv.org/abs/2401.17803v1 )

ライセンス: Link先を確認
Yiran Song, Qianyu Zhou, Xuequan Lu, Zhiwen Shao, Lizhuang Ma(参考訳) segment anything model (sam) は、共通のビジョンシナリオにおいて優れた一般化能力を示してきたが、特殊なデータの理解を欠いている。 ダウンストリームタスクにsamを最適化する作業は数多く存在するが、これらのタスク固有のアプローチは、通常、他のダウンストリームタスクへの一般化を制限している。 本稿では,一般的な視覚モジュールがSAMの微調整に与える影響について検討し,下流タスク全体にわたって一般化できるようにする。 そこで我々はSimAdaと呼ばれる単純な統一フレームワークを提案し、SAMを未演奏シーンに適応させる。 具体的には、異なるメソッドの一般的なモジュールを基本設計要素に抽象化し、共有理論フレームワークに基づいて4つの変種を設計する。 SimAdaはシンプルだが効果的で、すべてのデータセット固有の設計を取り除き、一般的な最適化にのみ焦点を合わせ、SAMベースのモデルやTransformerベースのモデルにもSimAdaを適用することができる。 6つの下流タスクの9つのデータセットについて広範な実験を行った。 その結果、SimAdaはタスク固有の設計を必要とせず、複数のダウンストリームタスクにおけるSAMの性能を大幅に改善し、ほとんどのタスク上で最先端のパフォーマンスを実現することを示した。 コードは、https://github.com/zongzi13545329/SimAdaで入手できる。

Segment anything model (SAM) has demonstrated excellent generalization capabilities in common vision scenarios, yet lacking an understanding of specialized data. Although numerous works have focused on optimizing SAM for downstream tasks, these task-specific approaches usually limit the generalizability to other downstream tasks. In this paper, we aim to investigate the impact of the general vision modules on finetuning SAM and enable them to generalize across all downstream tasks. We propose a simple unified framework called SimAda for adapting SAM in underperformed scenes. Specifically, our framework abstracts the general modules of different methods into basic design elements, and we design four variants based on a shared theoretical framework. SimAda is simple yet effective, which removes all dataset-specific designs and focuses solely on general optimization, ensuring that SimAda can be applied to all SAM-based and even Transformer-based models. We conduct extensive experiments on nine datasets of six downstream tasks. The results demonstrate that SimAda significantly improves the performance of SAM on multiple downstream tasks and achieves state-of-the-art performance on most of them, without requiring task-specific designs. Code is available at: https://github.com/zongzi13545329/SimAda
翻訳日:2024-02-01 14:40:22 公開日:2024-01-31
# モーメントコントラスト学習を用いた蒸留強化時系列予測ネットワーク

Distillation Enhanced Time Series Forecasting Network with Momentum Contrastive Learning ( http://arxiv.org/abs/2401.17802v1 )

ライセンス: Link先を確認
Haozhi Gao, Qianqian Ren, Jinbao Li(参考訳) コントラスト表現学習は時系列解析において重要であり、データノイズや不完全性、および監視信号の空間性の問題を軽減する。 しかし,既存のコンストラッシブ学習フレームワークは通常,時系列データの複雑な性質を十分に活用できない時間内特徴に重点を置いている。 そこで本研究では,長周期時系列予測のための新しい蒸留拡張フレームワークであるDE-TSMCLを提案する。 具体的には、タイムスタンプをマスクして最適化サブシーケンスを得るかどうかを適応的に学習可能なデータ拡張機構を設計する。 そこで本研究では,モーメント更新を用いた対比学習タスクを提案し,時系列のサンプル間および時間内相関を探索し,ラベルなし時系列の構造特徴を学習する。 一方、より堅牢な表現を学習し、対照的な学習プロセスを促進するために教師付きタスクを設計する。 最後に,上記の2つのタスクを共同で最適化する。 複数のタスクからモデル損失を開発することで、下流予測タスクの効果的な表現を学習できる。 最先端技術と比較した大規模な実験は、最大改善率が27.3%に達するDE-TSMCLの有効性をよく示している。

Contrastive representation learning is crucial in time series analysis as it alleviates the issue of data noise and incompleteness as well as sparsity of supervision signal. However, existing constrastive learning frameworks usually focus on intral-temporal features, which fails to fully exploit the intricate nature of time series data. To address this issue, we propose DE-TSMCL, an innovative distillation enhanced framework for long sequence time series forecasting. Specifically, we design a learnable data augmentation mechanism which adaptively learns whether to mask a timestamp to obtain optimized sub-sequences. Then, we propose a contrastive learning task with momentum update to explore inter-sample and intra-temporal correlations of time series to learn the underlying structure feature on the unlabeled time series. Meanwhile, we design a supervised task to learn more robust representations and facilitate the contrastive learning process. Finally, we jointly optimize the above two tasks. By developing model loss from multiple tasks, we can learn effective representations for downstream forecasting task. Extensive experiments, in comparison with state-of-the-arts, well demonstrate the effectiveness of DE-TSMCL, where the maximum improvement can reach to 27.3%.
翻訳日:2024-02-01 14:40:00 公開日:2024-01-31
# m2-raap : 適応型事前学習を効率良く効率的なゼロショットビデオテキスト検索に進めるマルチモーダルレシピ

M2-RAAP: A Multi-Modal Recipe for Advancing Adaptation-based Pre-training towards Effective and Efficient Zero-shot Video-text Retrieval ( http://arxiv.org/abs/2401.17797v1 )

ライセンス: Link先を確認
Xingning Dong, Zipeng Feng, Chunluan Zhou, Xuzheng Yu, Ming Yang, Qingpei Guo(参考訳) 本稿では,M2-RAAPと呼ばれる,効果的かつ効率的なゼロショットビデオテキスト検索のための適応型事前学習のためのマルチモーダルレシピを提案する。 CLIPのような一般的な画像テキストモデルでは、現在の適応ベースのビデオテキスト事前学習手法は、ノイズの多いデータコーパス、時間を要する事前学習、限られたパフォーマンス向上という3つの大きな問題に直面している。 この目的に向けて,ビデオテキスト事前学習における4つの重要なステップを含む総合的な研究を行う。 具体的には 1)データフィルタリング及び精錬 2)ビデオ入力型選択 3)時間的モデリング、及び 4)ビデオ機能強化。 次に、この実証研究をM2-RAAPレシピにまとめます。 1) 高品質なバイリンガルビデオテキストペア100万になるデータフィルタリングとテキスト書き直しパイプライン。 2)ビデオ入力をキーフレームで置き換え,事前学習を加速する, 3) 補助捕獲誘導(acg)戦略による映像機能の向上。 異なる言語からの2つの洗練されたビデオテキストデータセットに3つの画像テキスト基礎モデルを適用し,適応型事前学習におけるm2-raapのロバスト性と再現性を検証する。 その結果, M2-RAAPは, 4つの英語ゼロショット検索データセットと2つの中国語検索データセットに新たなSOTAを新たに確立し, 大幅なデータ削減 (-90%) と時間消費 (-95%) を達成できた。 これはhttps://github.com/alipay/Ant-Multi-Modal-Framework/tree/main/prj/M2_RAAPで利用可能になります。

We present a Multi-Modal Recipe for Advancing Adaptation-based Pre-training towards effective and efficient zero-shot video-text retrieval, dubbed M2-RAAP. Upon popular image-text models like CLIP, most current adaptation-based video-text pre-training methods are confronted by three major issues, i.e., noisy data corpus, time-consuming pre-training, and limited performance gain. Towards this end, we conduct a comprehensive study including four critical steps in video-text pre-training. Specifically, we investigate 1) data filtering and refinement, 2) video input type selection, 3) temporal modeling, and 4) video feature enhancement. We then summarize this empirical study into the M2-RAAP recipe, where our technical contributions lie in 1) the data filtering and text re-writing pipeline resulting in 1M high-quality bilingual video-text pairs, 2) the replacement of video inputs with key-frames to accelerate pre-training, and 3) the Auxiliary-Caption-Guided (ACG) strategy to enhance video features. We conduct extensive experiments by adapting three image-text foundation models on two refined video-text datasets from different languages, validating the robustness and reproducibility of M2-RAAP for adaptation-based pre-training. Results demonstrate that M2-RAAP yields superior performance with significantly reduced data (-90%) and time consumption (-95%), establishing a new SOTA on four English zero-shot retrieval datasets and two Chinese ones. We are preparing our refined bilingual data annotations and codebase, which will be available at https://github.com/alipay/Ant-Multi-Modal-Framework/tree/main/prj/M2_RAAP.
翻訳日:2024-02-01 14:39:41 公開日:2024-01-31
# 位置符号化のないグラフトランスフォーマ

Graph Transformers without Positional Encodings ( http://arxiv.org/abs/2401.17791v1 )

ライセンス: Link先を確認
Ayush Garg(参考訳) 近年,グラフ表現学習用トランスフォーマーが普及し,メッセージパッシンググラフニューラルネットワーク(MP-GNN)と組み合わせて,多種多様なデータセット上で最先端のパフォーマンスを実現している。 構造的あるいは位置的エンコーディング(PE)の形で、自然に構造に依存しないトランスフォーマーアーキテクチャにグラフインダクティブビアーゼを注入することが、これらの印象的な結果を達成する鍵となる。 しかし、そのようなエンコーディングの設計は難易度が高く、ラプラシア固有ベクトル、相対ランダムウォーク確率(RRWP)、空間エンコーディング、集中エンコーディング、エッジエンコーディングなど、様々な試みがなされている。 本研究では,注意機構自体にグラフ構造に関する情報が組み込まれているため,このようなエンコーディングは不要である可能性がある。 グラフのラプラシアンスペクトルを認識する新しいスペクトル認識機構を用いたEigenformerを導入し,複数の標準GNNベンチマークデータセット上でのSOTA MP-GNNアーキテクチャやグラフトランスフォーマーに匹敵する性能を実証的に示す。 私たちのアーキテクチャは、生来のグラフインダクティブバイアスのために、エポック数でトレーニングするよりもずっと高速であることが分かっています。

Recently, Transformers for graph representation learning have become increasingly popular, achieving state-of-the-art performance on a wide-variety of datasets, either alone or in combination with message-passing graph neural networks (MP-GNNs). Infusing graph inductive-biases in the innately structure-agnostic transformer architecture in the form of structural or positional encodings (PEs) is key to achieving these impressive results. However, designing such encodings is tricky and disparate attempts have been made to engineer such encodings including Laplacian eigenvectors, relative random-walk probabilities (RRWP), spatial encodings, centrality encodings, edge encodings etc. In this work, we argue that such encodings may not be required at all, provided the attention mechanism itself incorporates information about the graph structure. We introduce Eigenformer, which uses a novel spectrum-aware attention mechanism cognizant of the Laplacian spectrum of the graph, and empirically show that it achieves performance comparable to SOTA MP-GNN architectures and Graph Transformers on a number of standard GNN benchmark datasets, even surpassing the SOTA on some datasets. We also find that our architecture is much faster to train in terms of number of epochs, presumably due to the innate graph inductive biases.
翻訳日:2024-02-01 14:39:14 公開日:2024-01-31
# RADIN:予算編成

RADIN: Souping on a Budget ( http://arxiv.org/abs/2401.17790v1 )

ライセンス: Link先を確認
Thibaut Menes and Olivier Risser-Maroix(参考訳) SWA(Stochastic Weights Averaging)を拡張したモデルスープは、微調整されたモデルと異なるハイパーパラメータを組み合わせる。 しかし、それらの採用は、サブセット選択の問題による計算上の課題によって妨げられている。 本稿では,平均的なアンサンブルロジッツ演奏を用いて,スープ性能を近似してモデルスープの高速化を提案する。 理論的洞察は、任意の混合比において、アンサンブルロジットと重量平均スープの一致性を検証する。 当社のリソース調整スープ加工(radin)手順は,フレキシブルな評価予算を許容し,それまでの欲望アプローチ(imagenetでは最大4%)よりも低い予算で性能を高めつつ,リソースに適合した探索予算を調整可能にすることで際立っている。

Model Soups, extending Stochastic Weights Averaging (SWA), combine models fine-tuned with different hyperparameters. Yet, their adoption is hindered by computational challenges due to subset selection issues. In this paper, we propose to speed up model soups by approximating soups performance using averaged ensemble logits performances. Theoretical insights validate the congruence between ensemble logits and weight averaging soups across any mixing ratios. Our Resource ADjusted soups craftINg (RADIN) procedure stands out by allowing flexible evaluation budgets, enabling users to adjust his budget of exploration adapted to his resources while increasing performance at lower budget compared to previous greedy approach (up to 4% on ImageNet).
翻訳日:2024-02-01 14:38:49 公開日:2024-01-31
# フレキシブルニューラルイメージ圧縮のためのロバストオーバーフィット潜在剤

Robustly overfitting latents for flexible neural image compression ( http://arxiv.org/abs/2401.17789v1 )

ライセンス: Link先を確認
Yura Perugachi-Diaz, Arwin Gansekoele, Sandjai Bhulai(参考訳) ニューラル画像圧縮は大きな進歩を遂げた。 最先端モデルは変分オートエンコーダに基づいており、古典モデルよりも優れています。 ニューラル圧縮モデルは、画像をデコーダに効率的に送信できる量子化潜在表現に符号化することを学び、量子化潜在表現を再構成された画像に復号する。 これらのモデルは実際に成功したが、エンコーダとデコーダの容量が不完全な最適化と制限のため、準最適結果をもたらす。 最近の研究は、前訓練された神経画像圧縮モデルの潜在性を改善するために確率的ガムベル・アニーリング(sga)を使用する方法を示している。 SGA上に構築する3つの異なるメソッドを含むSGA+を導入することで、このアイデアを拡張します。 さらに,提案手法の詳細な解析を行い,性能改善の方法を示し,ハイパーパラメータ選択に対する感度が低いことを示す。 さらに,2クラスラウンドではなく,各メソッドを3クラスに拡張する方法を示す。 最後に,最適性能の手法による潜伏剤の精製によって,Tecnickデータセットの圧縮性能が向上し,速度歪み曲線に沿って部分的に移動させる方法を示す。

Neural image compression has made a great deal of progress. State-of-the-art models are based on variational autoencoders and are outperforming classical models. Neural compression models learn to encode an image into a quantized latent representation that can be efficiently sent to the decoder, which decodes the quantized latent into a reconstructed image. While these models have proven successful in practice, they lead to sub-optimal results due to imperfect optimization and limitations in the encoder and decoder capacity. Recent work shows how to use stochastic Gumbel annealing (SGA) to refine the latents of pre-trained neural image compression models. We extend this idea by introducing SGA+, which contains three different methods that build upon SGA. Further, we give a detailed analysis of our proposed methods, show how they improve performance, and show that they are less sensitive to hyperparameter choices. Besides, we show how each method can be extended to three- instead of two-class rounding. Finally, we show how refinement of the latents with our best-performing method improves the compression performance on the Tecnick dataset and how it can be deployed to partly move along the rate-distortion curve.
翻訳日:2024-02-01 14:38:36 公開日:2024-01-31
# SDRDPy:教師付き記述規則アルゴリズムで得られた知識をグラフィカルに視覚化するアプリケーション

SDRDPy: An application to graphically visualize the knowledge obtained with supervised descriptive rule algorithms ( http://arxiv.org/abs/2401.17783v1 )

ライセンス: Link先を確認
M.A. Padilla-Rascon, P. Gonzalez, C.J. Carmona(参考訳) SDRDPyは、専門家が教師付き記述型ルール発見アルゴリズムによって抽出された知識の直感的なグラフィックおよび表象表現を可能にするデスクトップアプリケーションである。 このアプリケーションは、アルゴリズムが実行されたツールにかかわらず、データセットの関連情報とルール、データ、および各ルールに関連する品質対策との関係を示すデータの分析を提供することができる。 すべての情報は、専門家分析と異なるフォーマットのレポートのエクスポートを容易にするために、ユーザフレンドリーなアプリケーションで提示されます。

SDRDPy is a desktop application that allows experts an intuitive graphic and tabular representation of the knowledge extracted by any supervised descriptive rule discovery algorithm. The application is able to provide an analysis of the data showing the relevant information of the data set and the relationship between the rules, data and the quality measures associated for each rule regardless of the tool where algorithm has been executed. All of the information is presented in a user-friendly application in order to facilitate expert analysis and also the exportation of reports in different formats.
翻訳日:2024-02-01 14:38:15 公開日:2024-01-31
# mm波ビーム管理のための視覚支援デジタル双生児作成

Vision-Assisted Digital Twin Creation for mmWave Beam Management ( http://arxiv.org/abs/2401.17781v1 )

ライセンス: Link先を確認
Maximilian Arnold, Bence Major, Fabio Valerio Massoli, Joseph B. Soriaga, Arash Behboodi(参考訳) 通信ネットワークの文脈において、デジタルツイン技術は、無線周波数(RF)伝搬環境とシステム動作を再現する手段を提供し、シミュレーションに基づいてデプロイされたシステムの性能を最適化する手段を提供する。 mmWaveシステムへのDigital Twin技術の応用における重要な課題の1つは、3D Digital Twinの精度に関するチャネルシミュレータの厳密な要件であり、実際のアプリケーションにおける技術の可能性を減らすことである。 本稿では,1台のカメラと位置情報にのみ依存する,実用的なDigital Twin生成パイプラインとチャネルシミュレータを提案する。 DeepSense6Gチャレンジの実際のデータセットを用いて、ビーム取得時の下流サブタスクにおいて、3D環境を明示的にモデル化しない手法と比較して、パフォーマンス上の利点を示す。

In the context of communication networks, digital twin technology provides a means to replicate the radio frequency (RF) propagation environment as well as the system behaviour, allowing for a way to optimize the performance of a deployed system based on simulations. One of the key challenges in the application of Digital Twin technology to mmWave systems is the prevalent channel simulators' stringent requirements on the accuracy of the 3D Digital Twin, reducing the feasibility of the technology in real applications. We propose a practical Digital Twin creation pipeline and a channel simulator, that relies only on a single mounted camera and position information. We demonstrate the performance benefits compared to methods that do not explicitly model the 3D environment, on downstream sub-tasks in beam acquisition, using the real-world dataset of the DeepSense6G challenge
翻訳日:2024-02-01 14:38:05 公開日:2024-01-31
# 一様PAC保証付き制約付きMDPに対するポリシーグラディエント原始双対アルゴリズム

A Policy Gradient Primal-Dual Algorithm for Constrained MDPs with Uniform PAC Guarantees ( http://arxiv.org/abs/2401.17780v1 )

ライセンス: Link先を確認
Toshinori Kitamura, Tadashi Kozuno, Masahiro Kato, Yuki Ichihara, Soichiro Nishimori, Akiyoshi Sannai, Sho Sonoda, Wataru Kumagai, Yutaka Matsuo(参考訳) 本研究では,オンライン制約付きマルコフ決定プロセス(cmdp)問題に対する予備的強化学習(rl)アルゴリズムについて検討し,制約を満たしながら帰納を最大化する最適方針を検討する。 広く実用化されているにもかかわらず、この問題に対する原始双対RLアルゴリズムに関する既存の理論的文献は、サブ線形後悔の保証のみを提供し、最適なポリシーへの収束を保証するのに失敗する。 本稿では,一様に近似した正当性(Uniform-PAC)を保証し,最適ポリシへの収束,サブ線形後悔,多項式サンプルの複雑さを目標精度で保証する新アルゴリズムを提案する。 これはオンラインCMDP問題に対する最初のUniform-PACアルゴリズムである。 理論的保証に加えて,既存のアルゴリズムは振動性能と制約違反を示すのに対し,我々のアルゴリズムは最適ポリシーに収束するという単純なCMDPを実証的に示す。

We study a primal-dual reinforcement learning (RL) algorithm for the online constrained Markov decision processes (CMDP) problem, wherein the agent explores an optimal policy that maximizes return while satisfying constraints. Despite its widespread practical use, the existing theoretical literature on primal-dual RL algorithms for this problem only provides sublinear regret guarantees and fails to ensure convergence to optimal policies. In this paper, we introduce a novel policy gradient primal-dual algorithm with uniform probably approximate correctness (Uniform-PAC) guarantees, simultaneously ensuring convergence to optimal policies, sublinear regret, and polynomial sample complexity for any target accuracy. Notably, this represents the first Uniform-PAC algorithm for the online CMDP problem. In addition to the theoretical guarantees, we empirically demonstrate in a simple CMDP that our algorithm converges to optimal policies, while an existing algorithm exhibits oscillatory performance and constraint violation.
翻訳日:2024-02-01 14:37:50 公開日:2024-01-31
# 知識の集中的なプロセスを理解する:石油・ガス産業のシナリオ

Making Sense of Knowledge Intensive Processes: an Oil & Gas Industry Scenario ( http://arxiv.org/abs/2401.17866v1 )

ライセンス: Link先を確認
Juliana Jansen Ferreira, Vin\'icius Segura, Ana Fucs, Rog\'erio de Paula(参考訳) センスメイキングは、人々が経験と意味を関連付ける、絶え間なく進行中のプロセスです。 これは、アブダクションとして知られる個々のプロセスや、人々が集団的な経験に意味を与えるグループプロセスにもなり得る。 集団の感覚形成は、経験について各人の誘拐プロセスに影響される。 すべてのコラボレーションプロセスは、結果を示すのにある程度のセンスメイキングが必要です。 知識集約的なプロセスでは、センスメイキングは中心的であり、ほとんどのタスクと関連している。 石油・ガス産業の知識集約プロセスで実施したフィールドワークの成果を報告する。 以上の結果から, 異なる知識を組み合わせることで, 感覚形成過程の結果(意思決定, さらなる議論の必要性など)を構成することができることが示唆された。 本稿では,協調的な意思決定プロセスの感覚形成の結果を構成するために組み合わせることのできる,知識タイプの初期セットを提案する。 また,人工知能を利用した感覚形成支援システムについても論じる。

Sensemaking is a constant and ongoing process by which people associate meaning to experiences. It can be an individual process, known as abduction, or a group process by which people give meaning to collective experiences. The sensemaking of a group is influenced by the abduction process of each person about the experience. Every collaborative process needs some level of sensemaking to show results. For a knowledge intensive process, sensemaking is central and related to most of its tasks. We present findings from a fieldwork executed in knowledge intensive process from the Oil and Gas industry. Our findings indicated that different types of knowledge can be combined to compose the result of a sensemaking process (e.g. decision, the need for more discussion, etc.). This paper presents an initial set of knowledge types that can be combined to compose the result of the sensemaking of a collaborative decision making process. We also discuss ideas for using systems powered by Artificial Intelligence to support sensemaking processes.
翻訳日:2024-02-01 14:30:20 公開日:2024-01-31
# 機械教育における離散入力による予測操作

Manipulating Predictions over Discrete Inputs in Machine Teaching ( http://arxiv.org/abs/2401.17865v1 )

ライセンス: Link先を確認
Xiaodong Wu, Yufei Han, Hayssam Dahrouj, Jianbing Ni, Zhenwen Liang, Xiangliang Zhang(参考訳) 機械教育はしばしば、モデル(「学生」と呼ばれる)が教師が与える特定の目標を達成するのを助けるために最適な(通常最小限の)データセットを作成する。 連続領域では豊富なが、離散領域における機械教育の有効性に関する研究は比較的限られている。 本稿では,個別領域における機械教育,特に学習データの効率的な変更による教師の目標に基づく生徒モデルの予測の操作に焦点をあてる。 この課題を組合せ最適化問題として定式化し,反復探索アルゴリズムを提案する。 本アルゴリズムは,教師が生徒のモデルを改善するために誤予測を修正しようとする場合や,特定のサンプルを対象のクラスに誤分類するために悪意ある操作を行う場合において,大きな数値的メリットを示す。 実験結果から,提案アルゴリズムは従来のベースラインを超越したモデル予測を効果的かつ効率的に操作できることがわかった。

Machine teaching often involves the creation of an optimal (typically minimal) dataset to help a model (referred to as the `student') achieve specific goals given by a teacher. While abundant in the continuous domain, the studies on the effectiveness of machine teaching in the discrete domain are relatively limited. This paper focuses on machine teaching in the discrete domain, specifically on manipulating student models' predictions based on the goals of teachers via changing the training data efficiently. We formulate this task as a combinatorial optimization problem and solve it by proposing an iterative searching algorithm. Our algorithm demonstrates significant numerical merit in the scenarios where a teacher attempts at correcting erroneous predictions to improve the student's models, or maliciously manipulating the model to misclassify some specific samples to the target class aligned with his personal profits. Experimental results show that our proposed algorithm can have superior performance in effectively and efficiently manipulating the predictions of the model, surpassing conventional baselines.
翻訳日:2024-02-01 14:30:06 公開日:2024-01-31
# 近接qa:空間近接解析のためのマルチモーダル大言語モデルのパワーを解き放つ

Proximity QA: Unleashing the Power of Multi-Modal Large Language Models for Spatial Proximity Analysis ( http://arxiv.org/abs/2401.17862v1 )

ライセンス: Link先を確認
Jianing Li, Xi Nan, Ming Lu, Li Du, Shanghang Zhang(参考訳) MLLM(Multi-modal large language model)は、大言語モデル(LLM)の特別な文脈内理解とマルチタスク学習能力によって、目覚しい視覚言語能力を示している。 視覚インストラクションチューニングの出現は、視覚言語理解におけるMLLMのパフォーマンスをさらに向上させた。 しかしながら、既存のMLLMは、画像中の \textit{what} オブジェクトを十分に認識しているが、これらのオブジェクトは、特に距離(シーン深度)軸に沿って、効果的に \textit{where} を識別する際の課題に直面している。 MLLMにおけるこの制限を克服するために,画像内のオブジェクト間の近接関係を推定できる新しいフレームワークである Proximity Question Answering (Proximity QA) を導入する。 第1フェーズはモデルに物体の相対的な深さを理解するよう導くことに焦点を当て、第2フェーズはモデルが物体の深さ知覚に基づいて物体間の近接関係を推測することをさらに奨励する。 また,物体の深度情報と近接関係を組み込んだVQAデータセットProximity-110Kを提案する。 深度知覚および近接解析における近接性QAの優れた能力を検証し、他の最先端MLLMよりも優れた性能を示すための広範な実験を行った。 コードとデータセットは \textcolor{magenta}{https://github.com/northsummer/proximityqa.git}でリリースされる。

Multi-modal large language models (MLLMs) have demonstrated remarkable vision-language capabilities, primarily due to the exceptional in-context understanding and multi-task learning strengths of large language models (LLMs). The advent of visual instruction tuning has further enhanced MLLMs' performance in vision-language understanding. However, while existing MLLMs adeptly recognize \textit{what} objects are in an image, they still face challenges in effectively discerning \textit{where} these objects are, particularly along the distance (scene depth) axis. To overcome this limitation in MLLMs, we introduce Proximity Question Answering (Proximity QA), a novel framework designed to enable MLLMs to infer the proximity relationship between objects in images. The framework operates in two phases: the first phase focuses on guiding the models to understand the relative depth of objects, and the second phase further encourages the models to infer the proximity relationships between objects based on their depth perceptions. We also propose a VQA dataset called Proximity-110K, containing additional instructions that incorporate depth information and the proximity relationships of objects. We have conducted extensive experiments to validate Proximity QA's superior ability in depth perception and proximity analysis, outperforming other state-of-the-art MLLMs. Code and dataset will be released at \textcolor{magenta}{https://github.com/NorthSummer/ProximityQA.git}.
翻訳日:2024-02-01 14:29:50 公開日:2024-01-31
# 言語モデルのジェスチャ理解による人間-AIインタラクションの強化

Probing Language Models' Gesture Understanding for Enhanced Human-AI Interaction ( http://arxiv.org/abs/2401.17858v1 )

ライセンス: Link先を確認
Philipp Wicke(参考訳) 大規模言語モデル(llm)の台頭は、単なるテキスト生成を超えた様々な分野に影響を与えてきた。 本提案は,LLMと非言語コミュニケーションの相互作用について,特にジェスチャーに着目して検討することを目的としている。 本提案では,テキストプロンプト内における明示的および暗黙的な非言語的手がかりの解読におけるLLMの習熟度と,これらのジェスチャーを様々な文脈要因に関連付ける能力について検討する。 本研究は,テキストプロンプトと詳細なジェスチャ記述を組み合わせ,多種多様な地域変動を包含する総合的なデータセットを構築するための,確立された心理言語学研究設計をテストすることを目的とする。 LLMのジェスチャー理解を評価するために、精神言語実験を再現するために人間の行動をシミュレートする能力を評価する実験が計画されている。 これらの実験は文化的次元を考慮し、llmで識別されたジェスチャーとデータセットの一致を計測し、モデルの非言語的な手がかり(例えばジェスチャー)の文脈解釈に光を当てる。

The rise of Large Language Models (LLMs) has affected various disciplines that got beyond mere text generation. Going beyond their textual nature, this project proposal aims to investigate the interaction between LLMs and non-verbal communication, specifically focusing on gestures. The proposal sets out a plan to examine the proficiency of LLMs in deciphering both explicit and implicit non-verbal cues within textual prompts and their ability to associate these gestures with various contextual factors. The research proposes to test established psycholinguistic study designs to construct a comprehensive dataset that pairs textual prompts with detailed gesture descriptions, encompassing diverse regional variations, and semantic labels. To assess LLMs' comprehension of gestures, experiments are planned, evaluating their ability to simulate human behaviour in order to replicate psycholinguistic experiments. These experiments consider cultural dimensions and measure the agreement between LLM-identified gestures and the dataset, shedding light on the models' contextual interpretation of non-verbal cues (e.g. gestures).
翻訳日:2024-02-01 14:29:24 公開日:2024-01-31
# 3次元ガウスのセマンティックなもの

Semantic Anything in 3D Gaussians ( http://arxiv.org/abs/2401.17857v1 )

ライセンス: Link先を確認
Xu Hu, Yuxi Wang, Lue Fan, Junsong Fan, Junran Peng, Zhen Lei, Qing Li, Zhaoxiang Zhang(参考訳) 3d gaussian splattingはneural radiance field(nerfs)の代替3d表現として登場し、高品質なレンダリング結果とリアルタイムレンダリング速度の恩恵を受けている。 3Dガウス表現は未解析であるため、まずこの領域内でオブジェクトセグメンテーションを実行する必要がある。 その後、シーン編集や衝突検出を行うことができ、仮想現実(vr)、拡張現実(ar)、ゲーム/映画制作など、多数のアプリケーションにとって不可欠であることが証明される。 本稿では,学習過程や学習パラメータを必要とせず,インタラクティブな手続きにより3次元ガウス型オブジェクトセグメンテーションを実現するための新しい手法を提案する。 提案手法は, 3次元ガウス群におけるセグメンテーションのSA-GSと呼ぶ。 単一入力ビューにおける一組のクリックポイントが与えられた場合、SA-GSはSAMを一般化し、提案したマルチビューマスク生成とビューワイズラベル割り当て手法により3次元一貫したセグメンテーションを実現する。 また,異なるビューからのラベルを割り当てるクロスビューラベル投票手法を提案する。 さらに、境界に位置する3次元ガウスの非無視空間サイズから生じる分割対象の境界粗さ問題に対処するために、SA-GSは単純だが効果的なガウス分解スキームを取り入れている。 大規模な実験により,SA-GSは高品質な3次元セグメンテーションを達成でき,シーン編集や衝突検出にも容易に適用できることがわかった。 コードはまもなくリリースされる予定だ。

3D Gaussian Splatting has emerged as an alternative 3D representation of Neural Radiance Fields (NeRFs), benefiting from its high-quality rendering results and real-time rendering speed. Considering the 3D Gaussian representation remains unparsed, it is necessary first to execute object segmentation within this domain. Subsequently, scene editing and collision detection can be performed, proving vital to a multitude of applications, such as virtual reality (VR), augmented reality (AR), game/movie production, etc. In this paper, we propose a novel approach to achieve object segmentation in 3D Gaussian via an interactive procedure without any training process and learned parameters. We refer to the proposed method as SA-GS, for Segment Anything in 3D Gaussians. Given a set of clicked points in a single input view, SA-GS can generalize SAM to achieve 3D consistent segmentation via the proposed multi-view mask generation and view-wise label assignment methods. We also propose a cross-view label-voting approach to assign labels from different views. In addition, in order to address the boundary roughness issue of segmented objects resulting from the non-negligible spatial sizes of 3D Gaussian located at the boundary, SA-GS incorporates the simple but effective Gaussian Decomposition scheme. Extensive experiments demonstrate that SA-GS achieves high-quality 3D segmentation results, which can also be easily applied for scene editing and collision detection tasks. Codes will be released soon.
翻訳日:2024-02-01 14:29:04 公開日:2024-01-31
# 指導誘導型シーンテキスト認識

Instruction-Guided Scene Text Recognition ( http://arxiv.org/abs/2401.17851v1 )

ライセンス: Link先を確認
Yongkun Du and Zhineng Chen and Yuchen Su and Caiyan Jia and Yu-Gang Jiang(参考訳) マルチモーダルモデルは最近、インストラクションガイドによるトレーニングによって、きめ細かいビジュアルコンテンツを理解する能力が引き起こされ、視覚タスクのパフォーマンスが向上している。 しかし、自然画像とテキスト画像のギャップのため、シーンテキスト認識(STR)には、現在の手法は簡単には適用できない。 本稿では、STRを命令学習問題として定式化する新しいパラダイムを紹介し、効果的なクロスモーダル学習を実現するための命令誘導シーンテキスト認識(IGTR)を提案する。 IGTR はまず,< Condition,question,answer> の多種多様な命令三つ子を生成し,ニュアンステキスト画像理解のためのガイダンスとして機能する。 次に,クロスモーダル機能融合モジュールとマルチタスク応答ヘッドを備えたアーキテクチャを考案し,質問に回答するために必要な指示と画像機能を効果的に融合する。 これらの設計に基づいてIGTRは文字属性を解釈することで正確なテキスト認識を容易にする。 英語と中国語のベンチマークの実験では、IGTRは既存のモデルよりもかなりのマージンで優れていた。 さらに、命令を調整することで、IGTRは様々な認識方式を可能にする。 ゼロショット予測(ゼロショット予測)では、文字認識を明示的にターゲットしていない命令に基づいてモデルをトレーニングし、既存のモデルではかつての課題であった、稀で形態的に類似した文字の認識を行う。

Multi-modal models have shown appealing performance in visual tasks recently, as instruction-guided training has evoked the ability to understand fine-grained visual content. However, current methods cannot be trivially applied to scene text recognition (STR) due to the gap between natural and text images. In this paper, we introduce a novel paradigm that formulates STR as an instruction learning problem, and propose instruction-guided scene text recognition (IGTR) to achieve effective cross-modal learning. IGTR first generates rich and diverse instruction triplets of <condition,question,answer>, serving as guidance for nuanced text image understanding. Then, we devise an architecture with dedicated cross-modal feature fusion module, and multi-task answer head to effectively fuse the required instruction and image features for answering questions. Built upon these designs, IGTR facilitates accurate text recognition by comprehending character attributes. Experiments on English and Chinese benchmarks show that IGTR outperforms existing models by significant margins. Furthermore, by adjusting the instructions, IGTR enables various recognition schemes. These include zero-shot prediction, where the model is trained based on instructions not explicitly targeting character recognition, and the recognition of rarely appearing and morphologically similar characters, which were previous challenges for existing models.
翻訳日:2024-02-01 14:28:36 公開日:2024-01-31
# 反復最適化ヒューリスティックスのための説明可能なベンチマーク

Explainable Benchmarking for Iterative Optimization Heuristics ( http://arxiv.org/abs/2401.17842v1 )

ライセンス: Link先を確認
Niki van Stein, Diederick Vermetten, Anna V. Kononova, Thomas B\"ack(参考訳) ヒューリスティックアルゴリズムのベンチマークは、どの条件下でどのアルゴリズムがうまく機能するかを理解するのに不可欠である。 ヒューリスティック最適化アルゴリズムに関する最近のほとんどの研究では、非常に限られたシナリオ、アルゴリズムの設定、ハイパーパラメータ設定が探索され、不完全でしばしばバイアスのある洞察と結果をもたらす。 本稿では、説明可能なベンチマークと呼ばれる新しいアプローチを提案する。 IOH-Xplainerソフトウェアフレームワークを導入し、様々な最適化アルゴリズムのパフォーマンスを分析し、理解し、異なるコンポーネントとハイパーパラメータの影響を理解する。 このフレームワークを2つのモジュール化最適化フレームワークのコンテキストで紹介する。 このフレームワークを通じて、さまざまなアルゴリズムコンポーネントと構成の影響を調べ、さまざまなシナリオにおけるパフォーマンスに関する洞察を提供する。 より透明で理解しやすい方法で反復最適化ヒューリスティックスの振る舞いと効率を評価・解釈し、より良いベンチマークとアルゴリズム設計を可能にする体系的な方法を提案する。

Benchmarking heuristic algorithms is vital to understand under which conditions and on what kind of problems certain algorithms perform well. In most current research into heuristic optimization algorithms, only a very limited number of scenarios, algorithm configurations and hyper-parameter settings are explored, leading to incomplete and often biased insights and results. This paper presents a novel approach we call explainable benchmarking. Introducing the IOH-Xplainer software framework, for analyzing and understanding the performance of various optimization algorithms and the impact of their different components and hyper-parameters. We showcase the framework in the context of two modular optimization frameworks. Through this framework, we examine the impact of different algorithmic components and configurations, offering insights into their performance across diverse scenarios. We provide a systematic method for evaluating and interpreting the behaviour and efficiency of iterative optimization heuristics in a more transparent and comprehensible manner, allowing for better benchmarking and algorithm design.
翻訳日:2024-02-01 14:28:15 公開日:2024-01-31
# グローバル・リアー:LLMの時間的・地理的特性

Global-Liar: Factuality of LLMs over Time and Geographic Regions ( http://arxiv.org/abs/2401.17839v1 )

ライセンス: Link先を確認
Shujaat Mirza, Bruno Coelho, Yuyuan Cui, Christina P\"opper, Damon McCoy(参考訳) 情報検索におけるAI駆動ソリューション、特にGPTシリーズのような大規模言語モデル(LLM)への依存度の増加は、事実と公平性、特にオンラインでの誤情報や偽情報の拡散の中で重要なニーズを浮き彫りにしている。 本研究は, GPT-3.5 や GPT-4 を含む広く採用されている GPT モデルの事実精度,安定性,バイアスを評価し,AI による情報伝達の信頼性と完全性に寄与する。 地理的および時間的表現の観点から一意にバランスしたデータセット「Global-Liar」を導入し,LLMバイアスのより微妙な評価を容易にする。 解析の結果,GPTモデルの新たなイテレーションが必ずしも性能向上に等しいとは限らないことがわかった。 注目すべきは、3月のgpt-4バージョンは、その後の6月リリースよりも事実の正確性が高いことだ。 さらに、偏りが観察され、グローバル・ノースがグローバル・サウスを越え、既存の情報的不平等を悪化させる可能性がある。 アフリカや中東のような地域は不利であり、事実の正確さははるかに低い。 時間とともにパフォーマンスの変動は、モデル更新がすべてのリージョンに等しく利益をもたらすことはないことを示唆している。 また,二元決定強制,モデル再実行,温度といった様々なllm設定設定がモデルの事実性に与える影響についても考察する。 バイナリ(true/false)の選択に制約されたモデルは、'unclear'オプションを許容するモデルに比べて事実性が低下する。 低温設定での単一推論は、様々な構成で多数決の信頼性に合致する。 得られた洞察は、文化的に多様で地理的に包括的なモデルトレーニングと評価の必要性を浮き彫りにした。 このアプローチは、技術におけるグローバルエクイティを達成するための鍵であり、AIのメリットを世界中に分散する。

The increasing reliance on AI-driven solutions, particularly Large Language Models (LLMs) like the GPT series, for information retrieval highlights the critical need for their factuality and fairness, especially amidst the rampant spread of misinformation and disinformation online. Our study evaluates the factual accuracy, stability, and biases in widely adopted GPT models, including GPT-3.5 and GPT-4, contributing to reliability and integrity of AI-mediated information dissemination. We introduce 'Global-Liar,' a dataset uniquely balanced in terms of geographic and temporal representation, facilitating a more nuanced evaluation of LLM biases. Our analysis reveals that newer iterations of GPT models do not always equate to improved performance. Notably, the GPT-4 version from March demonstrates higher factual accuracy than its subsequent June release. Furthermore, a concerning bias is observed, privileging statements from the Global North over the Global South, thus potentially exacerbating existing informational inequities. Regions such as Africa and the Middle East are at a disadvantage, with much lower factual accuracy. The performance fluctuations over time suggest that model updates may not consistently benefit all regions equally. Our study also offers insights into the impact of various LLM configuration settings, such as binary decision forcing, model re-runs and temperature, on model's factuality. Models constrained to binary (true/false) choices exhibit reduced factuality compared to those allowing an 'unclear' option. Single inference at a low temperature setting matches the reliability of majority voting across various configurations. The insights gained highlight the need for culturally diverse and geographically inclusive model training and evaluation. This approach is key to achieving global equity in technology, distributing AI benefits fairly worldwide.
翻訳日:2024-02-01 14:27:58 公開日:2024-01-31
# スキル・デマンド・サプライ・ジョイント予測のためのクロスビュー階層グラフ学習ハイパーネットワーク

A Cross-View Hierarchical Graph Learning Hypernetwork for Skill Demand-Supply Joint Prediction ( http://arxiv.org/abs/2401.17838v1 )

ライセンス: Link先を確認
Wenshuo Chao, Zhaopeng Qiu, Likang Wu, Zhuoning Guo, Zhi Zheng, Hengshu Zhu, Hao Liu(参考訳) テクノロジーと産業の急速に変化する状況は、ダイナミックなスキル要件につながり、従業員や雇用主が労働市場の競争優位性を維持するためにそのような変化を期待することが重要である。 この分野における既存の取り組みは、ドメインエキスパートの知識に依存するか、あるいは、単純な時系列予測問題としてスキルの進化に頼っている。 しかし、どちらのアプローチも、異なるスキル間の洗練された関係や、スキル要求と供給変動の相互関係を見落としている。 本稿では,共同スキル需要予測のためのクロスビュー階層型グラフ学習ハイパーネットワーク(chgh)フレームワークを提案する。 具体的にはCHGHはエンコーダ-デコーダネットワークである 一 技術需要と供給の相互接続をとらえるクロスビューグラフエンコーダ 二 クラスター的な観点からスキルの共進化をモデル化する階層グラフエンコーダ 三 歴史的需給ギャップを組み込むことにより、需要及び供給の変動を共同で予測する条件付きハイパーデコーダ 3つの実世界のデータセットに対する大規模な実験は、7つのベースラインと3つのモジュールの有効性と比較して提案されたフレームワークの優位性を示している。

The rapidly changing landscape of technology and industries leads to dynamic skill requirements, making it crucial for employees and employers to anticipate such shifts to maintain a competitive edge in the labor market. Existing efforts in this area either rely on domain-expert knowledge or regarding skill evolution as a simplified time series forecasting problem. However, both approaches overlook the sophisticated relationships among different skills and the inner-connection between skill demand and supply variations. In this paper, we propose a Cross-view Hierarchical Graph learning Hypernetwork (CHGH) framework for joint skill demand-supply prediction. Specifically, CHGH is an encoder-decoder network consisting of i) a cross-view graph encoder to capture the interconnection between skill demand and supply, ii) a hierarchical graph encoder to model the co-evolution of skills from a cluster-wise perspective, and iii) a conditional hyper-decoder to jointly predict demand and supply variations by incorporating historical demand-supply gaps. Extensive experiments on three real-world datasets demonstrate the superiority of the proposed framework compared to seven baselines and the effectiveness of the three modules.
翻訳日:2024-02-01 14:27:27 公開日:2024-01-31
# ミシェルソン干渉計を用いた量子光コヒーレンストモグラフィ用広帯域バイフォトン源

Broadband biphoton source for quantum optical coherence tomography based on a Michelson interferometer ( http://arxiv.org/abs/2401.17836v1 )

ライセンス: Link先を確認
Konstantin Katamadze, Anna Romanova, Denis Chupakhin, Alexander Pashchenko, Sergei Kulik(参考訳) 広帯域相関光子対(biphotons)は量子計測において有用であるが、現在の生成法は複雑な非線形構造を含むか、十分な帯域幅と輝度を欠いている。 本研究では, バルク非線形結晶に密集したポンプを用いて, 広いスペクトルの明るいコリニア双光子場を生成するための新しい手法を理論的に説明し, 実験的に実証する。 ソースの最も簡単な応用として,michelson interferometer-based quantum optical coherence tomography (qoct) を用いた。 ソースを利用すると、このQOCTスキームのレコード解像度と分散キャンセルのデモが可能になる。

Broadband correlated photon pairs (biphotons) are valuable in quantum metrology, but current generation methods either involve complex nonlinear structures or lack sufficient bandwidth and brightness. In this work, we theoretically describe and experimentally demonstrate a novel technique for generation of a bright collinear biphoton field with a broad spectrum, achieved by using a tightly focused pump in a bulk nonlinear crystal. As the most straightforward application of the source, we employ Michelson interferometer-based quantum optical coherence tomography (QOCT). Utilizing the source enables the demonstration of record resolution and dispersion cancellation for this QOCT scheme.
翻訳日:2024-02-01 14:27:10 公開日:2024-01-31
# シンプルな世界モデルによる未来予測

Predicting the Future with Simple World Models ( http://arxiv.org/abs/2401.17835v1 )

ライセンス: Link先を確認
Tankred Saanum, Peter Dayan, Eric Schulz(参考訳) 世界モデルは、コンパクトな潜在空間で潜在的に高次元のピクセル観測を表現でき、環境のダイナミクスをモデル化することができる。 しかし、これらのモデルによって推定される潜在力学は依然として非常に複雑である。 単純なモデルによる環境のダイナミクスの抽象化には,いくつかのメリットがある。 潜在力学が単純であれば、モデルはより新しい遷移に一般化し、環境状態の有用な潜在表現を見つけることができる。 我々は,世界モデルの潜在力学を単純化する正規化スキームを提案する。 我々のモデルであるParsimonious Latent Space Model (PLSM)は、潜在状態とそれらの間に生じるダイナミクスの間の相互情報を最小化する。 これにより、動的に状態不変となり、エージェントのアクションの効果がより予測可能となる。 plsmと3つの異なるモデルクラスを組み合わせることで i) 将来の潜在状態予測 二 ビデオの予測、及び 三 計画を立てる。 我々の正規化は下流タスクの精度、一般化、性能を改善する。

World models can represent potentially high-dimensional pixel observations in compact latent spaces, making it tractable to model the dynamics of the environment. However, the latent dynamics inferred by these models may still be highly complex. Abstracting the dynamics of the environment with simple models can have several benefits. If the latent dynamics are simple, the model may generalize better to novel transitions, and discover useful latent representations of environment states. We propose a regularization scheme that simplifies the world model's latent dynamics. Our model, the Parsimonious Latent Space Model (PLSM), minimizes the mutual information between latent states and the dynamics that arise between them. This makes the dynamics softly state-invariant, and the effects of the agent's actions more predictable. We combine the PLSM with three different model classes used for i) future latent state prediction, ii) video prediction, and iii) planning. We find that our regularization improves accuracy, generalization, and performance in downstream tasks.
翻訳日:2024-02-01 14:26:57 公開日:2024-01-31
# 局所-Global Weakly Supervised Semantic Segmentationのためのスウィントランスの活用

Leveraging Swin Transformer for Local-to-Global Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2401.17828v1 )

ライセンス: Link先を確認
Rozhan Ahmadi, Shohreh Kasaei(参考訳) 近年,画像レベルのラベルを用いたセマンティックセマンティックセグメンテーションがコンピュータビジョンの分野で注目されている。 既存の手法の多くは、クラスアクティベーションマップ(cams)から疑似ラベルを生成することによって教師付き学習を促進することに焦点を当て、これらのラベルにおける空間情報の欠如から生じる課題に対処している。 畳み込みニューラルネットワーク(CNN)の局所的なパターン検出のため、CAMはオブジェクトの最も差別的な部分のみを強調することが多く、前景のオブジェクトと背景を正確に区別することは困難である。 近年の研究では、視覚変換器(ViT)の機能はCNNよりもシーンレイアウトを捉えるのに効果的であることが示されている。 しかし、この分野では階層型 ViT の使用が広く研究されていない。 本研究は,「swtformer」の提案により,初期シードカメラの精度を高めるために,局所的およびグローバル的なビューを組み合わせることで,swinトランスフォーマーの利用を探求する。 SWTformer-V1は、パッチトークンのみを特徴として、クラス確率とCAMを生成する。 SWTformer-V2には、追加情報を抽出するマルチスケール機能融合機構が組み込まれており、背景認識機構を使用して、クロスオブジェクト識別を改善したより正確なローカライゼーションマップを生成する。 PascalVOC 2012データセットの実験に基づいて、SWTformer-V1は0.98%のmAPのローカライゼーション精度を実現し、最先端モデルを上回っている。 また、分類ネットワークに依存して初期位置マップを生成する場合、他の手法よりも平均0.82% mIoUで同等の性能が得られる。 SWTformer-V2はさらに、生成されたシードCAMの精度を5.32% mIoUで改善し、Swin変換器によって提供されるローカル・グローバルビューの有効性を証明した。

In recent years, weakly supervised semantic segmentation using image-level labels as supervision has received significant attention in the field of computer vision. Most existing methods have addressed the challenges arising from the lack of spatial information in these labels by focusing on facilitating supervised learning through the generation of pseudo-labels from class activation maps (CAMs). Due to the localized pattern detection of Convolutional Neural Networks (CNNs), CAMs often emphasize only the most discriminative parts of an object, making it challenging to accurately distinguish foreground objects from each other and the background. Recent studies have shown that Vision Transformer (ViT) features, due to their global view, are more effective in capturing the scene layout than CNNs. However, the use of hierarchical ViTs has not been extensively explored in this field. This work explores the use of Swin Transformer by proposing "SWTformer" to enhance the accuracy of the initial seed CAMs by bringing local and global views together. SWTformer-V1 generates class probabilities and CAMs using only the patch tokens as features. SWTformer-V2 incorporates a multi-scale feature fusion mechanism to extract additional information and utilizes a background-aware mechanism to generate more accurate localization maps with improved cross-object discrimination. Based on experiments on the PascalVOC 2012 dataset, SWTformer-V1 achieves a 0.98% mAP higher localization accuracy, outperforming state-of-the-art models. It also yields comparable performance by 0.82% mIoU on average higher than other methods in generating initial localization maps, depending only on the classification network. SWTformer-V2 further improves the accuracy of the generated seed CAMs by 5.32% mIoU, further proving the effectiveness of the local-to-global view provided by the Swin transformer.
翻訳日:2024-02-01 14:26:45 公開日:2024-01-31
# マラヤラムパラフレーズ生成のためのニューラルネットワーク翻訳

Neural Machine Translation for Malayalam Paraphrase Generation ( http://arxiv.org/abs/2401.17827v1 )

ライセンス: Link先を確認
Christeena Varghese, Sergey Koshelev, Ivan P. Yamshchikov(参考訳) 本研究は,英語のパラフラージングモデルと学習済みニューラルマシン翻訳モデル(nmt)モデルに利用可能なリソースを活用する,マラヤラムにおけるパラフラシー生成の4つの方法を検討する。 BLEU, METEOR, cosine similarity などの自動指標と人間のアノテーションを用いて, 結果のパラフレーズを評価する。 以上の結果から,マラヤラムは人的判断と一貫して一致しないため,自動評価が完全には適切でない可能性が示唆された。 この違いは、特に高度に凝集的な言語において、よりニュアンスなパラフレーズ評価アプローチの必要性を浮き彫りにする。

This study explores four methods of generating paraphrases in Malayalam, utilizing resources available for English paraphrasing and pre-trained Neural Machine Translation (NMT) models. We evaluate the resulting paraphrases using both automated metrics, such as BLEU, METEOR, and cosine similarity, as well as human annotation. Our findings suggest that automated evaluation measures may not be fully appropriate for Malayalam, as they do not consistently align with human judgment. This discrepancy underscores the need for more nuanced paraphrase evaluation approaches especially for highly agglutinative languages.
翻訳日:2024-02-01 14:26:11 公開日:2024-01-31
# 科学テキスト処理のための事前学習言語モデルの検討

A Survey of Pre-trained Language Models for Processing Scientific Text ( http://arxiv.org/abs/2401.17824v1 )

ライセンス: Link先を確認
Xanh Ho, Anh Khoa Duong Nguyen, An Tuan Dao, Junfeng Jiang, Yuki Chida, Kaito Sugimoto, Huy Quoc To, Florian Boudin and Akiko Aizawa(参考訳) 科学的なテキストを処理するための言語モデル(lms)の数は増えている。 科学的 LM (SciLMs) の急速な成長に伴うペース維持は、研究者にとって大きな課題となっている。 現在、SciLMに関する包括的な調査は行われておらず、この問題は未解決のままである。 新しいSciLMの連続的な流れを考えると、最先端とそれらの比較方法はほとんど不明である。 この作業は、そのギャップを埋め、SciLMの包括的なレビューを提供し、さまざまなドメイン、タスク、データセットにわたる効果の広範な分析と、今後の課題に関する議論を含む。

The number of Language Models (LMs) dedicated to processing scientific text is on the rise. Keeping pace with the rapid growth of scientific LMs (SciLMs) has become a daunting task for researchers. To date, no comprehensive surveys on SciLMs have been undertaken, leaving this issue unaddressed. Given the constant stream of new SciLMs, appraising the state-of-the-art and how they compare to each other remain largely unknown. This work fills that gap and provides a comprehensive review of SciLMs, including an extensive analysis of their effectiveness across different domains, tasks and datasets, and a discussion on the challenges that lie ahead.
翻訳日:2024-02-01 14:26:00 公開日:2024-01-31
# 最適輸送と粒子勾配降下を利用したプライバシー保護データリリース

Privacy-preserving data release leveraging optimal transport and particle gradient descent ( http://arxiv.org/abs/2401.17823v1 )

ライセンス: Link先を確認
Konstantin Donhauser and Javier Abad and Neha Hulkund and Fanny Yang(参考訳) 本稿では,医療や行政などの高度に敏感な領域において,保護された表層データセットの差分データ合成を行う新しい手法を提案する。 現在の最先端の手法は主に境界ベースのアプローチを使用しており、データセットは辺縁のプライベートな推定から生成される。 本稿では, 最適移動と粒子勾配降下のツールを活用した, 辺縁系プライベートデータ合成の新しい生成法であるprivpgdを提案する。 我々のアルゴリズムは、非常にスケーラブルで、追加のドメイン固有の制約を組み込む柔軟性を提供しながら、幅広いデータセット上の既存のメソッドよりも優れています。

We present a novel approach for differentially private data synthesis of protected tabular datasets, a relevant task in highly sensitive domains such as healthcare and government. Current state-of-the-art methods predominantly use marginal-based approaches, where a dataset is generated from private estimates of the marginals. In this paper, we introduce PrivPGD, a new generation method for marginal-based private data synthesis, leveraging tools from optimal transport and particle gradient descent. Our algorithm outperforms existing methods on a large range of datasets while being highly scalable and offering the flexibility to incorporate additional domain-specific constraints.
翻訳日:2024-02-01 14:25:49 公開日:2024-01-31
# より良い特徴を持つ音声分節と語彙学習の再検討

Revisiting speech segmentation and lexicon learning with better features ( http://arxiv.org/abs/2401.17902v1 )

ライセンス: Link先を確認
Herman Kamper, Benjamin van Niekerk(参考訳) 我々は,未学習音声を単語のようなセグメントに分割する自己教師方式を再検討する。 まず,ゼロリソースセグメンテーションを明示的なレキシコンを学習することなく行う2段階の持続時間ペナルティ付き動的プログラミング手法から始める。 第1の音響ユニット発見段階では、コントラスト予測符号を HuBERT に置き換える。 第2段階における単語セグメンテーションの後,HuBERT特徴量の平均化により各セグメントに音響単語を埋め込む。 これらの埋め込みはK平均を用いてクラスタ化され、レキシコンを得る。 その結果、zerospeechベンチマークで最先端のパフォーマンスを実現するレキシコンを備えた完全なセグメンテーションが実現した。

We revisit a self-supervised method that segments unlabelled speech into word-like segments. We start from the two-stage duration-penalised dynamic programming method that performs zero-resource segmentation without learning an explicit lexicon. In the first acoustic unit discovery stage, we replace contrastive predictive coding features with HuBERT. After word segmentation in the second stage, we get an acoustic word embedding for each segment by averaging HuBERT features. These embeddings are clustered using K-means to get a lexicon. The result is good full-coverage segmentation with a lexicon that achieves state-of-the-art performance on the ZeroSpeech benchmarks.
翻訳日:2024-02-01 14:18:30 公開日:2024-01-31
# 不均一データから分子特性を予測するマルチタスク法

Multitask methods for predicting molecular properties from heterogeneous data ( http://arxiv.org/abs/2401.17898v1 )

ライセンス: Link先を確認
Katharine Fisher, Michael Herbst, Youssef Marzouk(参考訳) データ生成は、分子特性を予測するために代理モデルを訓練する際のボトルネックである。 マルチタスクガウス過程の回帰は、高価なデータソースと安価なデータソースの両方を活用することで、この制限を克服することを実証する。 特に,結合クラスタ(CC)と密度関数理論(DFT)のデータから構築したトレーニングセットを検討する。 マルチタスクサロゲートは,データ生成コストを1桁以上削減することで,CCレベルの精度で予測可能であることを報告した。 なお,本手法では,関数の精度に人工的な階層を課すことなく,交換相関関数の不均一な混合によって生成されたDFTデータをトレーニングセットに含めることができる。 より一般的には、multitaskフレームワークは、$\Delta$-learningに基づく既存のカーネルアプローチと、異なるレベルの忠実さの完全な相違を含む、幅広いトレーニングセット構造に対応できるが、この2つのアプローチの正確性は似ていることを示している。 したがって、マルチタスク回帰は、既存のデータソースを機会的に活用することで、データ生成コストをさらに削減できるツールである。

Data generation remains a bottleneck in training surrogate models to predict molecular properties. We demonstrate that multitask Gaussian process regression overcomes this limitation by leveraging both expensive and cheap data sources. In particular, we consider training sets constructed from coupled-cluster (CC) and density function theory (DFT) data. We report that multitask surrogates can predict at CC level accuracy with a reduction to data generation cost by over an order of magnitude. Of note, our approach allows the training set to include DFT data generated by a heterogeneous mix of exchange-correlation functionals without imposing any artificial hierarchy on functional accuracy. More generally, the multitask framework can accommodate a wider range of training set structures -- including full disparity between the different levels of fidelity -- than existing kernel approaches based on $\Delta$-learning, though we show that the accuracy of the two approaches can be similar. Consequently, multitask regression can be a tool for reducing data generation costs even further by opportunistically exploiting existing data sources.
翻訳日:2024-02-01 14:18:14 公開日:2024-01-31
# ChatGPT Answersにおけるラベルモデルの適用により, 法文挿入性能が向上する

Employing Label Models on ChatGPT Answers Improves Legal Text Entailment Performance ( http://arxiv.org/abs/2401.17897v1 )

ライセンス: Link先を確認
Chau Nguyen and Le-Minh Nguyen(参考訳) 法的内容の包含の目的は、法的クエリの主張が、1つまたは複数の法的記事が提供する情報から論理的に従うかどうかを確認することである。 温度 = 0(ChatGPTの解答は決定論的)を設定してモデルを促すと、COLIEE 2022データセット上で70.64%の精度を達成し、以前のSOTAの67.89%を上回った。 一方、温度が0より大きい場合、chatgptの回答は決定論的ではなく、一貫性のない回答と変動する結果をもたらす。 本稿では,ChatGPTによる仮回答を統合ラベルに統合するために,ラベルモデル(弱い監視手法の基本コンポーネント)を活用することを提案する。 このようにして、ChatGPT暫定回答をラベルモデルにより統合可能なノイズ予測として扱う。 実験の結果、このアプローチは76.15%の精度を達成でき、以前の最先端ベンチマークと比べて8.26%の大幅な改善が得られた。 さらに、ChatGPTが誤った回答を生成する場合の分析を行い、次にエラーを分類し、将来の研究活動の潜在的な拡張を導く洞察を提供する。

The objective of legal text entailment is to ascertain whether the assertions in a legal query logically follow from the information provided in one or multiple legal articles. ChatGPT, a large language model, is robust in many natural language processing tasks, including legal text entailment: when we set the temperature = 0 (the ChatGPT answers are deterministic) and prompt the model, it achieves 70.64% accuracy on COLIEE 2022 dataset, which outperforms the previous SOTA of 67.89%. On the other hand, if the temperature is larger than zero, ChatGPT answers are not deterministic, leading to inconsistent answers and fluctuating results. We propose to leverage label models (a fundamental component of weak supervision techniques) to integrate the provisional answers by ChatGPT into consolidated labels. By that way, we treat ChatGPT provisional answers as noisy predictions which can be consolidated by label models. The experimental results demonstrate that this approach can attain an accuracy of 76.15%, marking a significant improvement of 8.26% over the prior state-of-the-art benchmark. Additionally, we perform an analysis of the instances where ChatGPT produces incorrect answers, then we classify the errors, offering insights that could guide potential enhancements for future research endeavors.
翻訳日:2024-02-01 14:17:31 公開日:2024-01-31
# 2つの隣接色素分子の量子絡み合いによる光合成特性

Photosynthetic properties assisted by the quantum entanglement in two adjacent pigment molecules ( http://arxiv.org/abs/2401.17896v1 )

ライセンス: Link先を確認
Lu-Xin Xu, Shun-Cai Zhao and Ling-Fang Li(参考訳) 絡み合いの量子力学は光合成光ハーベスティング錯体で広く明らかにされている。 これまでの研究と異なり,隣接する2つの色素分子の量子絡み合いによる励起子輸送と光合成の特性について検討した。これは,集団動態,j$-$V$特性,および光合成量子熱エンジン(QHE)モデルによる出力パワーによって測定される。 よりロバストな励起子輸送挙動を量子絡みのないものと比較し, 出力電流と電力で評価した光合成特性は, 異なる環境温度での量子絡み合いによって向上することが判明した。 これらの結果は、この量子生物学系に触発された人工光合成ナノ構造の可能性を示すかもしれない。

The quantum dynamics of entanglement is widely revealed in photosynthetic light-harvesting complexes. Different from the previous work, we explore the properties of exciton transport and photosynthesis assisted by the quantum entanglement in two adjacent pigment molecules, which are measured by the population dynamics behaviors, the $j$-$V$ characteristics and by the output power via a photosynthetic quantum heat engine (QHE) model. A more robust exciton transport dynamic behavior is compared with those without quantum entanglement, and the photosynthetic characteristics evaluated by the output current and power were proved to be enhanced by the quantum entanglement at different ambient temperatures. These results may point toward the possibility for artificial photosynthetic nanostructures inspired by this quantum biological systems.
翻訳日:2024-02-01 14:17:05 公開日:2024-01-31
# ReplaceAnything3D:テキストガイドによる合成ニューラルラジアンスフィールドによる3次元シーン編集

ReplaceAnything3D:Text-Guided 3D Scene Editing with Compositional Neural Radiance Fields ( http://arxiv.org/abs/2401.17895v1 )

ライセンス: Link先を確認
Edward Bartrum and Thu Nguyen-Phuoc and Chris Xie and Zhengqin Li and Numair Khan and Armen Avetisyan and Douglas Lanman and Lei Xiao(参考訳) ReplaceAnything3Dモデル(RAM3D)は,シーン内の特定のオブジェクトの置き換えを可能にする新しいテキスト誘導3Dシーン編集手法である。 シーンのマルチビュー画像、置換対象を記述したテキストプロンプト、新しいオブジェクトを記述したテキストプロンプトが与えられた場合、ease-and-replaceアプローチは、シーン内のオブジェクトを、複数の視点にわたる3d一貫性を維持しながら、新たに生成されたコンテンツに効果的に置き換えることができます。 ReplaceAnything3Dを様々なリアルな3Dシーンに適用し、その全体的完全性に影響を与えることなく、シーンの他の部分とよく統合された修正前景オブジェクトの結果を示す。

We introduce ReplaceAnything3D model (RAM3D), a novel text-guided 3D scene editing method that enables the replacement of specific objects within a scene. Given multi-view images of a scene, a text prompt describing the object to replace, and a text prompt describing the new object, our Erase-and-Replace approach can effectively swap objects in the scene with newly generated content while maintaining 3D consistency across multiple viewpoints. We demonstrate the versatility of ReplaceAnything3D by applying it to various realistic 3D scenes, showcasing results of modified foreground objects that are well-integrated with the rest of the scene without affecting its overall integrity.
翻訳日:2024-02-01 14:16:41 公開日:2024-01-31
# ベーテ積分量子系の周期軌道理論:$N$粒子ベリー・タボルトレース公式

Periodic orbit theory of Bethe-integrable quantum systems: an $N$-particle Berry-Tabor trace formula ( http://arxiv.org/abs/2401.17891v1 )

ライセンス: Link先を確認
Juan Diego Urbina, Michael Kelly, Klaus Richter(参考訳) 半古典理論の基本的な結果の1つは、量子力学系のスペクトルが、対応する古典極限の時間周期構造に関連する振幅間の大きな干渉からどのように出現するかを示すトレース公式の存在である。 ハミルトン可積分性の性質を示すならば、この接続は有名なベリー・タボルトレース公式によって与えられ、その上に構築される周期構造は位相空間における閉軌道をサポートするKAMトーラスである。 ここでは、この接続をベーテアンサッツの意味で積分性を示す量子多体系の領域に拡張する方法を示し、古典的極限は特異ポテンシャルの存在により厳密に定義できない。 形式的にはベリーとタブーの導出 [1, 2] に従うが、基礎となる古典構造を持たないベーテ方程式に適用すると、環上のボソンと相互作用するNの状態の密度に対する多粒子トレース式、リーブ・ライニガーモデルが得られる。 我々の半古典式は、$N$ = 2, 3, 4 粒子の量子力学的結果とよく一致している。 N = 2 の場合、この結果は混合境界条件を持つビリヤードの量子化と関係する。 我々の研究は、マイケル・ベリーが単粒子文脈で開拓した半古典的トレース公式を用いて、可積分多体系の重要なクラスを扱う道を開くものである。

One of the fundamental results of semiclassical theory is the existence of trace formulae showing how spectra of quantum mechanical systems emerge from massive interference among amplitudes related with time-periodic structures of the corresponding classical limit. If it displays the properties of Hamiltonian integrability, this connection is given by the celebrated Berry-Tabor trace formula, and the periodic structures it is built on are KAM tori supporting closed trajectories in phase space. Here we show how to extend this connection into the domain of quantum many-body systems displaying integrability in the sense of the Bethe ansatz, where a classical limit cannot be rigorously defined due to the presence of singular potentials. Formally following the original derivation of Berry and Tabor [1, 2], but applied to the Bethe equations without underlying classical structure, we obtain a many-particle trace formula for the density of states of N interacting bosons on a ring, the Lieb-Liniger model. Our semiclassical expressions are in excellent agreement with quantum mechanical results for $N$ = 2, 3 and 4 particles. For N = 2 we relate our results to the quantization of billiards with mixed boundary conditions. Our work paves the way towards the treatment of the important class of integrable many-body systems by means of semiclassical trace formulae pioneered by Michael Berry in the single-particle context.
翻訳日:2024-02-01 14:16:23 公開日:2024-01-31
# 友永ルッティンガー液体の正確な動力学と断熱性への近道

Exact Dynamics and Shortcuts to Adiabaticity in the Tomonaga-Luttinger Liquid ( http://arxiv.org/abs/2401.17884v1 )

ライセンス: Link先を確認
L\'eonce Dupays, Bal\'azs D\'ora and Adolfo del Campo(参考訳) 多体量子システムの制御は、量子技術の進歩に必要な極めて困難な課題である。 本稿では,共永ラッティンガー液体 (tll) によって記述されたギャップレス多体量子システム制御の進展を報告する。 そのために、$SU(1,1)$ dynamical symmetric group と Schr\odinger picture を用いて、相互作用クエンチによって誘導される TLL の正確な力学について検討する。 まず,本手法は,tllの非断熱残余エネルギーを相殺し,sine-gordonモデルの半古典的限界に実験的に実装可能な,断熱性への近道として有用であることを示す。 第2に、この枠組みを線形ランプやスムースプロトコルを含む有限時間における各種駆動スキームの解析に適用する。

Controlling many-body quantum systems is a highly challenging task required to advance quantum technologies. Here, we report progress in controlling gapless many-body quantum systems described by the Tomonaga-Luttinger liquid (TLL). To do so, we investigate the exact dynamics of the TLL induced by an interaction quench, making use of the $SU(1,1)$ dynamical symmetry group and the Schr\"odinger picture. First, we demonstrate that this approach is useful to perform a shortcut to adiabaticity, that cancels the final non-adiabatic residual energy of the driven TLL and is experimentally implementable in the semiclassical limit of the sine-Gordon model. Second, we apply this framework to analyze various driving schemes in finite time, including linear ramps and smooth protocols.
翻訳日:2024-02-01 14:16:01 公開日:2024-01-31
# Reimagining Reality: ビデオ塗装技術に関する総合的な調査

Reimagining Reality: A Comprehensive Survey of Video Inpainting Techniques ( http://arxiv.org/abs/2401.17883v1 )

ライセンス: Link先を確認
Shreyank N Gowda, Yash Thakre, Shashank Narayana Gowda, Xiaobo Jin(参考訳) 本稿では,コンピュータビジョンと人工知能の重要なサブセットである映像塗装技術の最近の進歩を包括的に分析する。 ビデオシーケンスの欠落や破損した部分を再生または埋めるプロセスとして、ビデオのインペイントは深層学習方法論の出現とともに大きく進化した。 既存の手法やその急速な発展にもかかわらず、風景は複雑であり、初心者と確立された研究者の両方にとって課題となっている。 本研究は, 主要な技術, その基盤となる理論, 有効利用を分解する。 さらに,視覚的品質と計算効率の両面を中心に,徹底的な比較研究を行っている。 視覚の質を評価するために人間中心のアプローチを採用し、様々な映像インペインティング技法の出力を評価するアノテータのパネルを用意した。 これは従来の定量的メトリクスを補完する微妙な質的理解を提供する。 同時に、私たちは計算の側面を精査し、標準化されたハードウェアのセットアップで推論時間とメモリ要求を比較します。 この分析は、品質と効率のバランスを基礎としている:リソースが制約される可能性のある実用的なアプリケーションに対する批判的考察である。 人間のバリデーションと計算資源の比較を統合することで、この調査は映像のインペイント技術の現状を明らかにするだけでなく、この活気ある発展途上の分野における将来の探索のコースも表している。

This paper offers a comprehensive analysis of recent advancements in video inpainting techniques, a critical subset of computer vision and artificial intelligence. As a process that restores or fills in missing or corrupted portions of video sequences with plausible content, video inpainting has evolved significantly with the advent of deep learning methodologies. Despite the plethora of existing methods and their swift development, the landscape remains complex, posing challenges to both novices and established researchers. Our study deconstructs major techniques, their underpinning theories, and their effective applications. Moreover, we conduct an exhaustive comparative study, centering on two often-overlooked dimensions: visual quality and computational efficiency. We adopt a human-centric approach to assess visual quality, enlisting a panel of annotators to evaluate the output of different video inpainting techniques. This provides a nuanced qualitative understanding that complements traditional quantitative metrics. Concurrently, we delve into the computational aspects, comparing inference times and memory demands across a standardized hardware setup. This analysis underscores the balance between quality and efficiency: a critical consideration for practical applications where resources may be constrained. By integrating human validation and computational resource comparison, this survey not only clarifies the present landscape of video inpainting techniques but also charts a course for future explorations in this vibrant and evolving field.
翻訳日:2024-02-01 14:15:44 公開日:2024-01-31
# ですから私はそう思います:大規模言語モデルにおける認識

I Think, Therefore I am: Awareness in Large Language Models ( http://arxiv.org/abs/2401.17882v1 )

ライセンス: Link先を確認
Yuan Li, Yue Huang, Yuli Lin, Siyuan Wu, Yao Wan and Lichao Sun(参考訳) 大規模言語モデル(llm)は、人間と同じような認識形態を示すか? 本稿では,LLMに対する意識の概念を紹介し,LLMが倫理的対応を確保しつつ,人間との相互作用を高める上で,認識は信頼の欠如の本質であると主張した。 我々はLLMにおける認識を、自分自身をAIモデルとして認識し、理解し、社会的知性を示す能力として定義する。 私たちは能力、使命、感情、視点という4つの認識の重要側面を特定します。 これらの次元でLSMを評価するために、特殊なデータセットであるAwareLLMデータセットを導入する。 以上の結果から,LSMには十分な認知能力は認められていないものの,十分な意識が得られていないことが明らかとなった。

Do large language models (LLMs) exhibit any forms of awareness similar to humans? In this paper, we introduce the concept of awareness to LLMs, arguing that awareness is an essential aspect of trustworthiness for LLMs to enhance their interaction with humans while ensuring ethical responses. We define awareness in LLMs as the ability to perceive and understand themselves as AI models and to exhibit social intelligence. We identify four key dimensions of awareness: capability, mission, emotion, and perspective. To assess LLMs on these dimensions, we introduce a specialized dataset, AwareLLM dataset. Our findings reveal that LLMs demonstrate a decent degree of awareness, though they still lack substantial capability awareness.
翻訳日:2024-02-01 14:15:20 公開日:2024-01-31
# PVLR:マルチラベル画像認識のためのプロンプト駆動型視覚言語表現学習

PVLR: Prompt-driven Visual-Linguistic Representation Learning for Multi-Label Image Recognition ( http://arxiv.org/abs/2401.17881v1 )

ライセンス: Link先を確認
Hao Tan, Zichang Tan, Jun Li, Jun Wan, Zhen Lei(参考訳) マルチラベル画像認識はコンピュータビジョンの基本課題である。 近年、視覚言語モデルがこの領域で顕著な進歩を遂げている。 しかし、従来の手法は言語モデル内の豊富な知識を効果的に活用できず、代わりにラベルセマンティクスを視覚的特徴に一方向的に組み込んだ。 本稿では,言語モダリティの能力をよりよく活用するための,プロンプト駆動型視覚言語表現学習(PVLR)フレームワークを提案する。 PVLRでは、まず、知識認識プロンプト(KAP)とコンテキスト認識プロンプト(CAP)を組み合わせた二重プロンプト戦略を導入する。 KAPは、固定的なプロンプトを使用して、すべてのラベルの固有のセマンティック知識と関係をキャプチャし、CAPは学習可能なプロンプトを使用してコンテキスト対応のラベルセマンティクスと関係をキャプチャする。 その後,KAP と CAP から得られた表現を相互に操作し,融合する Interaction and Fusion Module (IFM) を提案する。 従来の一方向融合とは対照的に,テキストと視覚的特徴の双方向相互作用を可能にするDMA(Dual-Modal Attention)を導入し,コンテクスト対応ラベル表現とセマンティック関連ビジュアル表現を生成し,類似性を計算し,すべてのラベルに対して最終的な予測を生成する。 MS-COCO、Pascal VOC 2007、NUS-WIDEを含む3つの一般的なデータセットに対する大規模な実験はPVLRの優位性を示している。

Multi-label image recognition is a fundamental task in computer vision. Recently, vision-language models have made notable advancements in this area. However, previous methods often failed to effectively leverage the rich knowledge within language models and instead incorporated label semantics into visual features in a unidirectional manner. In this paper, we propose a Prompt-driven Visual-Linguistic Representation Learning (PVLR) framework to better leverage the capabilities of the linguistic modality. In PVLR, we first introduce a dual-prompting strategy comprising Knowledge-Aware Prompting (KAP) and Context-Aware Prompting (CAP). KAP utilizes fixed prompts to capture the intrinsic semantic knowledge and relationships across all labels, while CAP employs learnable prompts to capture context-aware label semantics and relationships. Later, we propose an Interaction and Fusion Module (IFM) to interact and fuse the representations obtained from KAP and CAP. In contrast to the unidirectional fusion in previous works, we introduce a Dual-Modal Attention (DMA) that enables bidirectional interaction between textual and visual features, yielding context-aware label representations and semantic-related visual representations, which are subsequently used to calculate similarities and generate final predictions for all labels. Extensive experiments on three popular datasets including MS-COCO, Pascal VOC 2007, and NUS-WIDE demonstrate the superiority of PVLR.
翻訳日:2024-02-01 14:15:09 公開日:2024-01-31
# マルチuav支援通信における軌道設計と資源割り当てのためのグラフ注意型強化学習

Graph Attention-based Reinforcement Learning for Trajectory Design and Resource Assignment in Multi-UAV Assisted Communication ( http://arxiv.org/abs/2401.17880v1 )

ライセンス: Link先を確認
Zikai Feng, Di Wu, Mengxing Huang, Chau Yuen(参考訳) 複数の無人航空機(UAV)によるダウンリンク通信では、UAV基地局(UAV BS)が未知の環境で軌道設計と資源割り当てを実現することは困難である。 通信ネットワークにおけるUAV BS間の協調と競合はマルコフゲーム問題につながる。 マルチエージェント強化学習は上記の意思決定において重要な解決法である。 しかし、システムの不安定性や履歴データの低利用など、適用範囲が制限されるような多くの一般的な問題が存在する。 本稿では,マルチuav支援通信問題を解決するために,グラフアテンション多エージェント信頼領域(ga-matr)強化学習フレームワークを提案する。 グラフリカレントネットワークは、観測情報から有用な情報やパターンを抽出するために、通信ネットワークの複雑なトポロジーを処理および分析するために導入された。 注意機構は、伝達された情報に対する付加重み付けを提供するので、批評家ネットワークは、UAV BSの行動価値を正確に評価することができる。 これにより、より信頼性の高いフィードバック信号を提供し、アクタネットワークが戦略をより効果的に更新するのに役立つ。 アブレーションシミュレーションは,提案手法がベースラインの収束性を向上させることを示唆する。 UAV BSは最大累積報酬を達成するために最適な通信戦略を学ぶ。 さらに,単調収束を伴うマルチエージェント信頼領域法は,マルチUAV支援通信マルコフゲームに対して推定ナッシュ平衡を与える。

In the multiple unmanned aerial vehicle (UAV)- assisted downlink communication, it is challenging for UAV base stations (UAV BSs) to realize trajectory design and resource assignment in unknown environments. The cooperation and competition between UAV BSs in the communication network leads to a Markov game problem. Multi-agent reinforcement learning is a significant solution for the above decision-making. However, there are still many common issues, such as the instability of the system and low utilization of historical data, that limit its application. In this paper, a novel graph-attention multi-agent trust region (GA-MATR) reinforcement learning framework is proposed to solve the multi-UAV assisted communication problem. Graph recurrent network is introduced to process and analyze complex topology of the communication network, so as to extract useful information and patterns from observational information. The attention mechanism provides additional weighting for conveyed information, so that the critic network can accurately evaluate the value of behavior for UAV BSs. This provides more reliable feedback signals and helps the actor network update the strategy more effectively. Ablation simulations indicate that the proposed approach attains improved convergence over the baselines. UAV BSs learn the optimal communication strategies to achieve their maximum cumulative rewards. Additionally, multi-agent trust region method with monotonic convergence provides an estimated Nash equilibrium for the multi-UAV assisted communication Markov game.
翻訳日:2024-02-01 14:14:42 公開日:2024-01-31
# aeroblade:オートエンコーダ再構成誤差を用いた潜在拡散画像のトレーニングフリー検出

AEROBLADE: Training-Free Detection of Latent Diffusion Images Using Autoencoder Reconstruction Error ( http://arxiv.org/abs/2401.17879v1 )

ライセンス: Link先を確認
Jonas Ricker, Denis Lukovnikov, Asja Fischer(参考訳) 最近のtext-to-imageモデルでは、誰でも任意のコンテンツで偽りのリアルな画像を生成することができ、視覚不知の脅威が高まる。 計算コストの低い高解像度画像を生成するための重要なイネーブルは、潜在拡散モデル(LDM)の開発である。 従来の拡散モデルとは対照的に、LCMは高次元画像空間の代わりに、事前学習されたオートエンコーダ(AE)の低次元潜在空間で復調処理を行う。 その関連性にもかかわらず、LDMの法医学的分析はまだ初期段階にある。 本研究では,画像と潜時空間間の画像変換に使用されるAEという,LDMの固有成分を利用した新しい検出手法であるAEROBLADEを提案する。 生成した画像は実画像よりもaeにより高精度に再構成できるため,再構成誤差に基づく簡易な検出手法が可能となる。 最も重要なことは、この手法は実装が容易で、トレーニングは必要ありませんが、広範なトレーニングに依存する検出器のパフォーマンスにほぼ匹敵します。 AEROBLADEは安定拡散やミッドジャーニーを含む最先端のLCMに対して有効であることを示す。 検出以外にも,画像の質的解析が可能であり,塗装領域の同定に利用することができる。

With recent text-to-image models, anyone can generate deceptively realistic images with arbitrary contents, fueling the growing threat of visual disinformation. A key enabler for generating high-resolution images with low computational cost has been the development of latent diffusion models (LDMs). In contrast to conventional diffusion models, LDMs perform the denoising process in the low-dimensional latent space of a pre-trained autoencoder (AE) instead of the high-dimensional image space. Despite their relevance, the forensic analysis of LDMs is still in its infancy. In this work we propose AEROBLADE, a novel detection method which exploits an inherent component of LDMs: the AE used to transform images between image and latent space. We find that generated images can be more accurately reconstructed by the AE than real images, allowing for a simple detection approach based on the reconstruction error. Most importantly, our method is easy to implement and does not require any training, yet nearly matches the performance of detectors that rely on extensive training. We empirically demonstrate that AEROBLADE is effective against state-of-the-art LDMs including Stable Diffusion and Midjourney. Beyond detection, our approach allows for the qualitative analysis of images, which can be leveraged for identifying inpainted regions.
翻訳日:2024-02-01 14:14:20 公開日:2024-01-31
# VRを用いた手動物体追跡モデルの訓練のための光リアル合成データの生成

VR-based generation of photorealistic synthetic data for training hand-object tracking models ( http://arxiv.org/abs/2401.17874v1 )

ライセンス: Link先を確認
Chengyan Zhang, Rahul Chaudhari(参考訳) 3次元のハンドオブジェクトインタラクション(HOI)を正確に追跡するための教師付き学習モデルは、トレーニングのために大量のアノテートデータを必要とする。 さらに、非専門家が2D画像に3D基底真理(例えば6DoFオブジェクトポーズ)をラベル付けるのは直感的ではない。 これらの問題に対処するため,Blender ソフトウェアに基づく対話型合成データ生成装置 "blender-hoisynth" を提案する。 Blender-hoisynthは、視覚HOIトレーニングデータを生成し、自動的に注釈付けすることができる。 他の競合するアプローチは通常、人間の入力を伴わない合成HOIデータを生成する。 これはいくつかのシナリオで有用であるが、HOIアプリケーションは人間の意図の表現としてHOIを直接制御する必要がある。 blender-hoisynthでは、ユーザーは標準的なバーチャルリアリティーハードウェアを使ってバーチャルハンドでオブジェクトと対話することができる。 合成されたデータは、高度なフォトリアリズムによって特徴づけられ、視覚的に可視かつ物理的にリアルな映像を含み、物体をつかんで3Dで動き回っている。 私たちのデータ生成の有効性を示すために、よく知られたdexycbデータセットのトレーニングデータの大部分をhoisynthデータに置き換え、最先端のhoiリコンストラクションモデルをトレーニングします。 データ置換にもかかわらず,モデル性能の大幅な低下は認められていない。

Supervised learning models for precise tracking of hand-object interactions (HOI) in 3D require large amounts of annotated data for training. Moreover, it is not intuitive for non-experts to label 3D ground truth (e.g. 6DoF object pose) on 2D images. To address these issues, we present "blender-hoisynth", an interactive synthetic data generator based on the Blender software. Blender-hoisynth can scalably generate and automatically annotate visual HOI training data. Other competing approaches usually generate synthetic HOI data compeletely without human input. While this may be beneficial in some scenarios, HOI applications inherently necessitate direct control over the HOIs as an expression of human intent. With blender-hoisynth, it is possible for users to interact with objects via virtual hands using standard Virtual Reality hardware. The synthetically generated data are characterized by a high degree of photorealism and contain visually plausible and physically realistic videos of hands grasping objects and moving them around in 3D. To demonstrate the efficacy of our data generation, we replace large parts of the training data in the well-known DexYCB dataset with hoisynth data and train a state-of-the-art HOI reconstruction model with it. We show that there is no significant degradation in the model performance despite the data replacement.
翻訳日:2024-02-01 14:14:00 公開日:2024-01-31
# テレコネクテーション変換器を用いた高効率季節性気象予報

Efficient Subseasonal Weather Forecast using Teleconnection-informed Transformers ( http://arxiv.org/abs/2401.17870v1 )

ライセンス: Link先を確認
Shan Zhao, Zhitong Xiong, Xiao Xiang Zhu(参考訳) 農業、水資源管理、災害の早期警戒にとって重要な季節的予報は、大気のカオス性による課題に直面している。 機械学習(ML)の最近の進歩は、数値モデルに対する競争力のある予測スキルを達成することによって、天気予報に革命をもたらした。 しかし、そのような基礎モデルのトレーニングには何千日ものGPU日を必要とするため、炭素排出量が大きくなり、適用性が制限される。 さらに、MLモデルは、物理的整合性や気象学的意味に欠ける滑らかな結果を生成することで、画素単位の誤差スコアを騙す傾向にある。 上記の問題に対処するために,テレコネクション変換器を提案する。 我々のアーキテクチャは事前学習されたpanguモデルを利用して、適切な初期重み付けを達成し、テレコネクションインフォームされた時間モジュールを統合し、拡張された時間範囲での予測可能性を向上させる。 また,Panguモデルのパラメータの1.1%を調整することにより,2週間のリードタイムで4面および5つの上層大気変数の予測可能性を高める。 さらに, テレコネクションフィルタにより出力の空間的粒度が大幅に向上し, 物理的整合性が示唆された。 我々の研究は、将来の気象条件を駆動する上で、大気と海洋のテレコネクションの重要性を強調している。 さらに、研究者が既存の基盤モデルを多目的下流タスクで活用するための資源効率の高い経路を提供する。

Subseasonal forecasting, which is pivotal for agriculture, water resource management, and early warning of disasters, faces challenges due to the chaotic nature of the atmosphere. Recent advances in machine learning (ML) have revolutionized weather forecasting by achieving competitive predictive skills to numerical models. However, training such foundation models requires thousands of GPU days, which causes substantial carbon emissions and limits their broader applicability. Moreover, ML models tend to fool the pixel-wise error scores by producing smoothed results which lack physical consistency and meteorological meaning. To deal with the aforementioned problems, we propose a teleconnection-informed transformer. Our architecture leverages the pretrained Pangu model to achieve good initial weights and integrates a teleconnection-informed temporal module to improve predictability in an extended temporal range. Remarkably, by adjusting 1.1% of the Pangu model's parameters, our method enhances predictability on four surface and five upper-level atmospheric variables at a two-week lead time. Furthermore, the teleconnection-filtered features improve the spatial granularity of outputs significantly, indicating their potential physical consistency. Our research underscores the importance of atmospheric and oceanic teleconnections in driving future weather conditions. Besides, it presents a resource-efficient pathway for researchers to leverage existing foundation models on versatile downstream tasks.
翻訳日:2024-02-01 14:13:40 公開日:2024-01-31
# ConvolutionとLoRA: セグメンテーションモデルのためのパラメータ効率の良いファインタニング

Convolution Meets LoRA: Parameter Efficient Finetuning for Segment Anything Model ( http://arxiv.org/abs/2401.17868v1 )

ライセンス: Link先を確認
Zihan Zhong, Zhiqiang Tang, Tong He, Haoyang Fang, Chun Yuan(参考訳) Segment Anything Model (SAM) は画像セグメンテーションの基礎となるフレームワークである。 典型的なシナリオでは顕著なゼロショット一般化を示すが、医療画像やリモートセンシングといった専門分野に適用するとその利点は減少する。 この制限に対処するため,本論文では,パラメータ効率の良い微調整手法であるconv-loraを提案する。 超軽量な畳み込みパラメータをローランド適応(LoRA)に統合することにより、画像関連帰納バイアスをプレーンなViTエンコーダに注入し、SAMの局所的な前提をさらに強化することができる。 特に、Conv-LoRAはSAMの広範なセグメンテーション知識を保存しているだけでなく、SAMのフォアグラウンド・バックグラウンド・セグメンテーション事前訓練によって制約された高レベルのイメージセグメンテーションの学習能力を復活させる。 複数のドメインにまたがる様々なベンチマークの総合的な実験は、SAMを現実のセマンティックセグメンテーションタスクに適応する際のConv-LoRAの優位性を示している。

The Segment Anything Model (SAM) stands as a foundational framework for image segmentation. While it exhibits remarkable zero-shot generalization in typical scenarios, its advantage diminishes when applied to specialized domains like medical imagery and remote sensing. To address this limitation, this paper introduces Conv-LoRA, a simple yet effective parameter-efficient fine-tuning approach. By integrating ultra-lightweight convolutional parameters into Low-Rank Adaptation (LoRA), Conv-LoRA can inject image-related inductive biases into the plain ViT encoder, further reinforcing SAM's local prior assumption. Notably, Conv-LoRA not only preserves SAM's extensive segmentation knowledge but also revives its capacity of learning high-level image semantics, which is constrained by SAM's foreground-background segmentation pretraining. Comprehensive experimentation across diverse benchmarks spanning multiple domains underscores Conv-LoRA's superiority in adapting SAM to real-world semantic segmentation tasks.
翻訳日:2024-02-01 14:13:16 公開日:2024-01-31
# CONCORD: 構成可能なグラフコード表現のためのDSLを目指す

CONCORD: Towards a DSL for Configurable Graph Code Representation ( http://arxiv.org/abs/2401.17967v1 )

ライセンス: Link先を確認
Mootez Saad and Tushar Sharma(参考訳) ディープラーニングは、大規模なコードコーパスの隠れたパターンを明らかにするために広く使われている。 これを実現するには、ソースコードの関連する特徴と特徴をキャプチャするフォーマットの構築が不可欠である。 グラフに基づく表現は、構造情報や意味情報をモデル化する能力に注目を集めている。 しかし、既存のツールは異なるプログラミング言語にまたがるグラフ構築の柔軟性に欠けており、使用を制限している。 さらに、これらのツールの出力は相互運用性に欠けており、結果として過剰に大きなグラフが発生し、グラフベースのニューラルネットワークのトレーニングが遅くなり、スケーラビリティが低下する。 カスタマイズ可能なグラフ表現を構築するためのドメイン固有言語であるCONCORDを紹介する。 グラフのサイズ複雑性を減らすために、還元ヒューリスティックスを実装している。 まず、CONCORDは指定した設定に応じて自動的にコード表現を生成でき、次に、我々のヒューリスティックスはサイズを大幅に小さくして同等のパフォーマンスを達成できます。 CONCORDは研究者を助ける a)DLを含むさまざまなソフトウェアエンジニアリングタスクのために、カスタマイズ可能なグラフベースのコード表現を作成し、実験すること。 b) グラフ表現を生成するためのエンジニアリング作業の削減 c) GNNモデルのスケーラビリティの問題に対処し、 d) コード表現及び分析の標準化アプローチによる研究における実験の再現性の向上。

Deep learning is widely used to uncover hidden patterns in large code corpora. To achieve this, constructing a format that captures the relevant characteristics and features of source code is essential. Graph-based representations have gained attention for their ability to model structural and semantic information. However, existing tools lack flexibility in constructing graphs across different programming languages, limiting their use. Additionally, the output of these tools often lacks interoperability and results in excessively large graphs, making graph-based neural networks training slower and less scalable. We introduce CONCORD, a domain-specific language to build customizable graph representations. It implements reduction heuristics to reduce graphs' size complexity. We demonstrate its effectiveness in code smell detection as an illustrative use case and show that: first, CONCORD can produce code representations automatically per the specified configuration, and second, our heuristics can achieve comparable performance with significantly reduced size. CONCORD will help researchers a) create and experiment with customizable graph-based code representations for different software engineering tasks involving DL, b) reduce the engineering work to generate graph representations, c) address the issue of scalability in GNN models, and d) enhance the reproducibility of experiments in research through a standardized approach to code representation and analysis.
翻訳日:2024-02-01 14:06:39 公開日:2024-01-31
# ワッサーシュタイン距離における拡散モデルの一般確率流ODEの収束解析

Convergence Analysis for General Probability Flow ODEs of Diffusion Models in Wasserstein Distances ( http://arxiv.org/abs/2401.17958v1 )

ライセンス: Link先を確認
Xuefeng Gao, Lingjiong Zhu(参考訳) 確率フロー常微分方程式(ODE)を用いたスコアベース生成モデリングは、様々な応用において顕著な成功を収めた。 様々な高速ODEベースのサンプルが文献で提案され、実際に用いられているが、確率フローODEの収束特性に関する理論的理解は依然としてかなり限られている。 本稿では,2-wasserstein距離の確率流odeサンプリング器の一般クラスに対して,スコア推定精度を仮定して,非漸近収束解析を行う。 次に、様々な例を考察し、対応するODEベースのサンプルの反復複雑さに関する結果を確立する。

Score-based generative modeling with probability flow ordinary differential equations (ODEs) has achieved remarkable success in a variety of applications. While various fast ODE-based samplers have been proposed in the literature and employed in practice, the theoretical understandings about convergence properties of the probability flow ODE are still quite limited. In this paper, we provide the first non-asymptotic convergence analysis for a general class of probability flow ODE samplers in 2-Wasserstein distance, assuming accurate score estimates. We then consider various examples and establish results on the iteration complexity of the corresponding ODE-based samplers.
翻訳日:2024-02-01 14:06:21 公開日:2024-01-31
# エラートレラントE-Discoveryプロトコル

Error-Tolerant E-Discovery Protocols ( http://arxiv.org/abs/2401.17952v1 )

ライセンス: Link先を確認
Jinshuo Dong, Jason D. Hartline, Liren Shan, Aravindan Vijayaraghavan(参考訳) 我々は、電子発見(e-discovery)の文脈で、Dong, Hartline, Vijayaraghavan (2022) が導入したマルチパーティ分類問題を考察する。 要求者からの生産要求に基づいて、応答者は法的に特権を有するものを除き、要求に応答する文書を提供することを要求される。 私たちの目標は、応答する側がほぼすべての応答性のあるドキュメントを送信し、応答性のないドキュメントの開示を最小限に抑えるプロトコルを見つけることです。 我々は、インスタンスが線形分類器によって完全に分離されないような、困難な非実現可能設定でプロトコルを提供する。 提案プロトコルは,応答性のない文書の公開のみを伴いながら,ほぼすべての関連文書の発見に成功したことを実証的に実証する。 我々は,本プロトコルの単一次元設定における理論的解析と,本プロトコルが生み出した非応答開示が避けられない可能性があることを示唆するシミュレーションデータに関する他の実験でこれを補完する。

We consider the multi-party classification problem introduced by Dong, Hartline, and Vijayaraghavan (2022) in the context of electronic discovery (e-discovery). Based on a request for production from the requesting party, the responding party is required to provide documents that are responsive to the request except for those that are legally privileged. Our goal is to find a protocol that verifies that the responding party sends almost all responsive documents while minimizing the disclosure of non-responsive documents. We provide protocols in the challenging non-realizable setting, where the instance may not be perfectly separated by a linear classifier. We demonstrate empirically that our protocol successfully manages to find almost all relevant documents, while incurring only a small disclosure of non-responsive documents. We complement this with a theoretical analysis of our protocol in the single-dimensional setting, and other experiments on simulated data which suggest that the non-responsive disclosure incurred by our protocol may be unavoidable.
翻訳日:2024-02-01 14:06:11 公開日:2024-01-31
# hyperz$\cdot$z$\cdot$wオペレータは、フルコンテキストインタラクションのためにスローファストネットワークを接続する

HyperZ$\cdot$Z$\cdot$W Operator Connects Slow-Fast Networks for Full Context Interaction ( http://arxiv.org/abs/2401.17948v1 )

ライセンス: Link先を確認
Harvie Zhang(参考訳) セルフアテンション機構は、非常に少ない訓練可能なパラメータでドット製品ベースのアクティベーションによってプログラムされた、大きな暗黙の重み行列を利用して、長いシーケンスモデリングを可能にする。 本稿では,ネットワークの各層におけるコンテキストの完全な相互作用を実現するために,大きな暗黙のカーネルを用いて残差学習を破棄する可能性を検討する。 これを実現するために,遅いネットワークとして座標ベースの暗黙的mlpを導入し,他の高速畳み込みネットワークに対してハイパーカーネルを生成する。 高速動的符号化のための文脈変動重みを得るために、超カーネル(\mathcal{w}$)と隠れたアクティベーション(\mathcal{z}$)を単純な要素分割乗算で接続する$\mathrm{hyper}\mathcal{z{\cdot}z{\cdot}w}$演算子を提案し、コンテキスト依存の$\mathcal{w}$を用いて$\mathcal{z}$の畳み込みを行う。 この設計に基づいて,異なるサイズのハイパーカーネルを統合し,各レイヤの特徴抽出能力を向上させるマルチブランチ隠れ表現を生成する,新しいターミネータアーキテクチャを提案する。 さらに、結合されたチャネルを圧縮するためにボトルネック層が用いられ、価値ある情報だけが次のレイヤに伝播できる。 特に,本モデルは,いくつかの革新的なコンポーネントを取り入れ,低速ネットワーク更新のための局所フィードバックエラーの導入,安定なゼロ平均機能,より高速なトレーニング収束,モデルパラメータの削減など,優れた特性を示す。 ピクセルレベル1dおよび2d画像分類ベンチマークの広範な実験結果から,アーキテクチャの優れた性能を示す。

The self-attention mechanism utilizes large implicit weight matrices, programmed through dot product-based activations with very few trainable parameters, to enable long sequence modeling. In this paper, we investigate the possibility of discarding residual learning by employing large implicit kernels to achieve full context interaction at each layer of the network. To accomplish it, we introduce coordinate-based implicit MLPs as a slow network to generate hyper-kernels for another fast convolutional network. To get context-varying weights for fast dynamic encoding, we propose a $\mathrm{Hyper}\mathcal{Z{\cdot}Z{\cdot}W}$ operator that connects hyper-kernels ($\mathcal{W}$) and hidden activations ($\mathcal{Z}$) through simple elementwise multiplication, followed by convolution of $\mathcal{Z}$ using the context-dependent $\mathcal{W}$. Based on this design, we present a novel Terminator architecture that integrates hyper-kernels of different sizes to produce multi-branch hidden representations for enhancing the feature extraction capability of each layer. Additionally, a bottleneck layer is employed to compress the concatenated channels, allowing only valuable information to propagate to the subsequent layers. Notably, our model incorporates several innovative components and exhibits excellent properties, such as introducing local feedback error for updating the slow network, stable zero-mean features, faster training convergence, and fewer model parameters. Extensive experimental results on pixel-level 1D and 2D image classification benchmarks demonstrate the superior performance of our architecture.
翻訳日:2024-02-01 14:05:54 公開日:2024-01-31
# ガウスの絡み合い測度:グラフ状態の多元的絡み合いとボソニック場理論への応用

Gaussian Entanglement Measure: Applications to Multipartite Entanglement of Graph States and Bosonic Field Theory ( http://arxiv.org/abs/2401.17938v1 )

ライセンス: Link先を確認
Matteo Gori, Matthieu Sarkis, Alexandre Tkatchenko(参考訳) 複雑な量子系の理解を深めるためには,計算的に実現可能なマルチパーティ・エンタングルメント対策が必要である。 フービニ・スタディ計量に基づくエンタングルメント尺度は、Cocchiarellaと同僚によって最近導入され、計算の容易さ、深い幾何学的解釈、マルチパーティントエンタングルメントの適用性など、既存の方法に対するいくつかの利点を示している。 本稿では,多モードガウス状態に対する幾何学的絡み合いの一般化であるガウスエンタングルメント尺度(GEM)を,システム全体のフラグメントの純度に基づいて提示する。 我々の分析では、ビームスプリッタとスクイーズ変換を組み合わせた2モードガウス状態へのGEMの適用を含む。 さらに、各頂点がボゾンモードを表し、各辺が様々なグラフトポロジーの二次変換を表す3モードと4モードのグラフ状態についても検討する。 興味深いことに、異なる位相を持つグラフ状態に対する幾何学的絡み合い測度の比率は、自然に基礎となるグラフの連結に関連する性質を捉えている。 最後に、多くの自由度を持つ系に対する計算可能な多部交絡測度を提供することにより、時空の異なる領域間の標準双部交絡エントロピーアプローチを超えて、$\mathbb R_t\times S^1$ 上の自由ボソニック場理論に関する洞察を得るために、我々の定義が利用できることを示す。 この結果は、GEMが量子情報理論が定義されている空間の位相的性質を研究するために量子情報理論ツールを使用する方法の道を開いたことを示唆している。

Computationally feasible multipartite entanglement measures are needed to advance our understanding of complex quantum systems. An entanglement measure based on the Fubini-Study metric has been recently introduced by Cocchiarella and co-workers, showing several advantages over existing methods, including ease of computation, a deep geometrical interpretation, and applicability to multipartite entanglement. Here, we present the Gaussian Entanglement Measure (GEM), a generalization of geometric entanglement measure for multimode Gaussian states, based on the purity of fragments of the whole systems. Our analysis includes the application of GEM to a two-mode Gaussian state coupled through a combined beamsplitter and a squeezing transformation. Additionally, we explore 3-mode and 4-mode graph states, where each vertex represents a bosonic mode, and each edge represents a quadratic transformation for various graph topologies. Interestingly, the ratio of the geometric entanglement measures for graph states with different topologies naturally captures properties related to the connectivity of the underlying graphs. Finally, by providing a computable multipartite entanglement measure for systems with a large number of degrees of freedom, we show that our definition can be used to obtain insights into a free bosonic field theory on $\mathbb R_t\times S^1$, going beyond the standard bipartite entanglement entropy approach between different regions of spacetime. The results presented herein suggest how the GEM paves the way for using quantum information-theoretical tools to study the topological properties of the space on which a quantum field theory is defined.
翻訳日:2024-02-01 14:05:18 公開日:2024-01-31
# スピン軌道-角-モーメント結合による励起子-ポラリトン縮合における渦の安定性

Stability of vortices in exciton-polariton condensates with spin-orbital-angular-momentum coupling ( http://arxiv.org/abs/2401.17927v1 )

ライセンス: Link先を確認
Xin-Xin Yang, Wei Zhang, Zhen-Xia Niu(参考訳) 安定量子化渦の存在とダイナミクスは、量子多体物理学の重要な主題である。 スピン軌道-角-分子結合(SOAMC)は、原子ボース-アインシュタイン凝縮体(BEC)の渦を生成するために実験的に達成されている。 ここでは,SOAMCの概念を2成分ポラリトンBECに一般化し,有限サイズの円形ポンプ下での渦の発生と構成を解析する。 有限サイズの円ポンプによって誘導される渦格子の規則的な構成は、SOAMCの空間依存ラマンカップリングによって著しく歪む。 一方、ポラリトン雲の中心に位置するSOAMCによって誘導される渦は安定しており、固定されている。 ラマン結合が十分に強ければ、分極BECとSOAMCを分解して断片化する。

The existence and dynamics of stable quantized vortices is an important subject of quantum many-body physics. Spin-orbital-angular-momentum coupling (SOAMC), a special type of spin-orbit coupling, has been experimentally achieved to create vortices in atomic Bose-Einstein condensate (BEC). Here, we generalize the concept of SOAMC to a two-component polariton BEC and analyze the emergence and configuration of vortices under a finite-size circular pumping. We discover that the regular configuration of vortex lattices induced by a finite-size circular pump is significantly distorted by the spatially dependent Raman coupling of SOAMC. Meanwhile, a vortex induced by SOAMC located at the center of the polariton cloud remains stable and pinned in place. When the Raman coupling is sufficiently strong, the polariton BEC with SOAMC is torn apart to become fragmented.
翻訳日:2024-02-01 14:04:47 公開日:2024-01-31
# ディラック様構造の統計的アンサンブルに対する固有相関

Intrinsic correlations for statistical ensembles of Dirac-like structures ( http://arxiv.org/abs/2401.17926v1 )

ライセンス: Link先を確認
C.F. Silva, A.E. Bernardini(参考訳) 統計アンサンブルの拡張において,dirac bispinorの固有情報を磁場中の相関量子ビット(局所化)として評価するためのweyl-wigner形式について検討した。 収束外部場は3+1次元のディラック方程式のスピンパリティ量子ビット構造によって示唆される量子相関測度を量子化し、相対論的ランダウの混合状態に対する絡み合い量子化器の計算を単純化する。 これにより、最終的に混合されるディラック構造に対するエントロピー測度の観点から量子相関と古典相関を評価することができる。 私たちの結果は2倍です。 まず、相空間において混合ガウス状態の族を取得し、その固有相関構造を閉形式で計算する。 第二に、磁場中の低次元ディラック方程式の分割関数は複素積分法によって導出される。 解析的に連続したゼータ関数と温度変数上の多項式としての高温限界の観点から、低温状態を記述する。 低次元系との接続は、グラフェンの低エネルギー有効ハミルトニアンのスピン-パリティ量子ビットを谷-亜格子双スピナーにマッピングすることによってさらに引き起こされる。

The Weyl-Wigner formalism for evaluating the intrinsic information of Dirac bispinors as correlated qubits (localized) in a magnetic field is investigated in the extension to statistical ensembles. The confining external field quantizes the quantum correlation measures implied by the spin-parity qubit structure of the Dirac equation in 3+1 dimensions, which simplifies the computation of the entanglement quantifier for mixed states in relativistic Landau levels. This allows for the evaluation of quantum and classical correlations in terms of entropy measures for Dirac structures that are eventually mixed. Our results are twofold. First, a family of mixed Gaussian states is obtained in phase space, and its intrinsic correlation structure is computed in closed form. Second, the partition function for the low-dimensional Dirac equation in a magnetic field is derived through complex integration techniques. It describes the low-temperature regime in terms of analytically continued Zeta functions and the high temperature limit as a polynomial on the temperature variable. The connection with lower dimensional systems is further elicited by mapping the spin-parity qubits to valley-sublattice bispinors of the low-energy effective Hamiltonian of graphene.
翻訳日:2024-02-01 14:04:34 公開日:2024-01-31
# [行 1] と [行 2] と [行 3], Oh My! LLMを用いたリテラリー参照アノテーション

[Lions: 1] and [Tigers: 2] and [Bears: 3], Oh My! Literary Coreference Annotation with LLMs ( http://arxiv.org/abs/2401.17922v1 )

ライセンス: Link先を確認
Rebecca M. M. Hicke and David Mimno(参考訳) 参照アノテーションと解像度は、計算文学研究の重要な構成要素である。 しかし、以前はフィクションの高品質なシステムを構築することは困難であった。 校正には複雑な構造化された出力が必要であり、文学的テキストには微妙な推論と非常に多様な言語が含まれる。 新しい言語モデルベースのseq2seqシステムは、マークダウンのようなアノテーションで入力文のコピーを直接生成することで、これらの問題を解決する機会を提供する。 コア推論のためのトレーニング済みモデルの作成、評価、リリースに加えて、新しいモデルをトレーニングするためのワークフローも用意しています。

Coreference annotation and resolution is a vital component of computational literary studies. However, it has previously been difficult to build high quality systems for fiction. Coreference requires complicated structured outputs, and literary text involves subtle inferences and highly varied language. New language-model-based seq2seq systems present the opportunity to solve both these problems by learning to directly generate a copy of an input sentence with markdown-like annotations. We create, evaluate, and release several trained models for coreference, as well as a workflow for training new models.
翻訳日:2024-02-01 14:04:13 公開日:2024-01-31
# 量子リップルキャリー加算器とコンパレータ

Quantum Ripple-Carry Adders and Comparator ( http://arxiv.org/abs/2401.17921v1 )

ライセンス: Link先を確認
Maxime Remaud(参考訳) 加算は最も基本的な算術演算であり、多くのアルゴリズムの基本構成ブロックである。 物理的資源と時間の両方の観点から効率的な加算器を持つことは自然に重要である。 本稿では,ripple-carry戦略と新しいコンパレータを用いた新しい量子加算器を提案する。 特に、8n+O(1)の遅延は2つのnビット数を加算または比較するのに十分であり、加算に12n+O(1)の量子コストと10n+O(1)の遅延を持つ回路が存在することを示す。 クリフォード+Tゲート集合に注目しても、従来よりも少ないゲートを用いた回路が得られる。 全ての回路は少なくとも1つのアシラリー量子ビットを使用し、ガベージアウトプットは発生しない。

Addition is the most elementary arithmetic operation, and the basic building block of many algorithms. Having an efficient adder in terms of both physical resources and time is naturally essential. In this paper, we propose new quantum adders using the ripple-carry strategy as well as a new comparator. In particular, we show that a delay of 8n+O(1) is enough for adding or comparing two n-bit numbers and that there exists a circuit with a quantum cost of 12n+O(1) and a delay of 10n+O(1) for the addition. Even when focusing on the Clifford+T gate set, we obtain circuits using less gates than what was previously known. All our circuits use at most a single ancillary qubit and do not produce any garbage output.
翻訳日:2024-02-01 14:04:03 公開日:2024-01-31
# LOCOST:長期文書要約のための状態空間モデル

LOCOST: State-Space Models for Long Document Abstractive Summarization ( http://arxiv.org/abs/2401.17919v1 )

ライセンス: Link先を確認
Florian Le Bronnec, Song Duong, Mathieu Ravaut, Alexandre Allauzen, Nancy F. Chen, Vincent Guigue, Alberto Lumbreras, Laure Soulier, Patrick Gallinari(参考訳) 状態空間モデルは、長いシーケンスをエンコードし、長期的な依存関係をキャプチャするトランスフォーマーに代わる低複雑さである。 長いコンテキスト入力を持つ条件付きテキスト生成のための状態空間モデルに基づくエンコーダデコーダアーキテクチャであるLOCOSTを提案する。 計算複雑性が$O(L \log L)$の場合、このアーキテクチャは疎注意パターンに基づく最先端モデルよりもはるかに長いシーケンスを処理できる。 我々は,一連の長い文書要約タスクでモデルを評価する。 このモデルは、トレーニング中に最大50%のメモリを節約し、推論時に最大87%のメモリを節約しながら、同じサイズのトップパフォーマンスのスパーストランスフォーマに匹敵する93-96%のパフォーマンスレベルに達する。 さらにlocostは、推論時に600万トークンを超える入力テキストを効果的に処理し、フルブック要約で最新結果を設定し、長い入力処理のための新しい視点を開く。

State-space models are a low-complexity alternative to transformers for encoding long sequences and capturing long-term dependencies. We propose LOCOST: an encoder-decoder architecture based on state-space models for conditional text generation with long context inputs. With a computational complexity of $O(L \log L)$, this architecture can handle significantly longer sequences than state-of-the-art models that are based on sparse attention patterns. We evaluate our model on a series of long document abstractive summarization tasks. The model reaches a performance level that is 93-96% comparable to the top-performing sparse transformers of the same size while saving up to 50% memory during training and up to 87% during inference. Additionally, LOCOST effectively handles input texts exceeding 600K tokens at inference time, setting new state-of-the-art results on full-book summarization and opening new perspectives for long input processing.
翻訳日:2024-02-01 14:03:52 公開日:2024-01-31
# リモートセンシング画像におけるソースフリー領域適応オブジェクト検出

Source-free Domain Adaptive Object Detection in Remote Sensing Images ( http://arxiv.org/abs/2401.17916v1 )

ライセンス: Link先を確認
Weixing Liu, Jun Liu, Xin Su, Han Nie, Bin Luo(参考訳) 近年,unsupervised domain adaptive object detection (udaod) 法を用いて,リモートセンシング画像における領域ギャップの橋渡しを行っている。 しかし、UDAODメソッドは通常、ソースドメインデータがドメイン適応プロセス中にアクセス可能であると仮定します。 この設定は、rsデータのプライバシと送信の難しさのため、現実の世界ではしばしば非現実的です。 この課題に対処するために、我々は、ソース事前学習モデルのみを用いてターゲット領域適応を行うRS画像のための実用的なソースフリーオブジェクト検出(SFOD)設定を提案する。 本稿では、摂動領域の生成とアライメントという2つの部分からなるRS画像の新しいSFOD法を提案する。 提案するマルチレベル摂動は、色やスタイルバイアスに応じて画像レベルや特徴レベルでのドメイン可変特徴を摂動させることにより、摂動領域を単純かつ効率的な形で構成する。 提案するマルチレベルアライメントは,教師間ネットワークにおける摂動ドメインと対象ドメイン間の特徴とラベルの一貫性を算出し,疑似ラベルのノイズを軽減するために特徴プロトタイプの蒸留を導入する。 検出器は摂動領域とターゲット領域に一貫性を持たなければならないため、検出器はドメイン不変の特徴に集中せざるを得ない。 3つの合成-実実験と3つのクロスセンサー実験の広範な結果により、ソースドメインrs画像へのアクセスを必要としない方法の有効性が検証された。 さらに,コンピュータビジョンデータセットを用いた実験により,提案手法を他の分野にも拡張できることを示した。 コードはhttps://weixliu.github.io/。

Recent studies have used unsupervised domain adaptive object detection (UDAOD) methods to bridge the domain gap in remote sensing (RS) images. However, UDAOD methods typically assume that the source domain data can be accessed during the domain adaptation process. This setting is often impractical in the real world due to RS data privacy and transmission difficulty. To address this challenge, we propose a practical source-free object detection (SFOD) setting for RS images, which aims to perform target domain adaptation using only the source pre-trained model. We propose a new SFOD method for RS images consisting of two parts: perturbed domain generation and alignment. The proposed multilevel perturbation constructs the perturbed domain in a simple yet efficient form by perturbing the domain-variant features at the image level and feature level according to the color and style bias. The proposed multilevel alignment calculates feature and label consistency between the perturbed domain and the target domain across the teacher-student network, and introduces the distillation of feature prototype to mitigate the noise of pseudo-labels. By requiring the detector to be consistent in the perturbed domain and the target domain, the detector is forced to focus on domaininvariant features. Extensive results of three synthetic-to-real experiments and three cross-sensor experiments have validated the effectiveness of our method which does not require access to source domain RS images. Furthermore, experiments on computer vision datasets show that our method can be extended to other fields as well. Our code will be available at: https://weixliu.github.io/ .
翻訳日:2024-02-01 14:03:36 公開日:2024-01-31
# 深層強化学習を用いたマルチロボットソーシャルナビゲーションのための注意グラフ

Attention Graph for Multi-Robot Social Navigation with Deep Reinforcement Learning ( http://arxiv.org/abs/2401.17914v1 )

ライセンス: Link先を確認
Erwan Escudie and Laetitia Matignon and Jacques Saraydaryan(参考訳) 歩行者間のロボットナビゲーション戦略の学習はドメインベースのアプリケーションにとって不可欠である。 知覚と計画と予測を組み合わせることで,ロボットと歩行者のインタラクションをモデル化することが可能になります。 しかし、これらの作業はマルチロボットのシナリオを考慮しない。 本稿では,RLを用いたマルチエージェント型ナビゲーション戦略の学習手法であるMultiSocを提案する。 近年のマルチエージェントディープRLに触発された本手法では,エージェント間の相互作用をグラフベースで表現し,エンティティ(歩行者とエージェント)の位置と視野を組み合わせる。 各エージェントは2つのグラフニューラルネットワークとアテンションメカニズムを組み合わせたモデルを使用する。 まずエッジセレクタがスパースグラフを生成し、次に群衆コーディネータがノードに注意を払い、各エンティティが他のエンティティに与える影響を表すグラフを生成する。 これはモデルフリーのRLフレームワークに組み込まれ、マルチエージェントポリシーを学ぶ。 シミュレーションに対する我々のアプローチを評価し,様々な条件(エージェント数/歩行者数)で一連の実験を行った。 実験の結果,本手法はソーシャルナビゲーションよりも高速に学習し,複数の異種人との群集ナビゲーションに挑戦する上で,効率的なマルチエージェントの暗黙調整を可能にすることがわかった。 さらに、カスタマイズ可能なメタパラメータを組み込むことで、ナビゲーション戦略で考慮すべき近傍密度を調整できる。

Learning robot navigation strategies among pedestrian is crucial for domain based applications. Combining perception, planning and prediction allows us to model the interactions between robots and pedestrians, resulting in impressive outcomes especially with recent approaches based on deep reinforcement learning (RL). However, these works do not consider multi-robot scenarios. In this paper, we present MultiSoc, a new method for learning multi-agent socially aware navigation strategies using RL. Inspired by recent works on multi-agent deep RL, our method leverages graph-based representation of agent interactions, combining the positions and fields of view of entities (pedestrians and agents). Each agent uses a model based on two Graph Neural Network combined with attention mechanisms. First an edge-selector produces a sparse graph, then a crowd coordinator applies node attention to produce a graph representing the influence of each entity on the others. This is incorporated into a model-free RL framework to learn multi-agent policies. We evaluate our approach on simulation and provide a series of experiments in a set of various conditions (number of agents / pedestrians). Empirical results show that our method learns faster than social navigation deep RL mono-agent techniques, and enables efficient multi-agent implicit coordination in challenging crowd navigation with multiple heterogeneous humans. Furthermore, by incorporating customizable meta-parameters, we can adjust the neighborhood density to take into account in our navigation strategy.
翻訳日:2024-02-01 14:02:56 公開日:2024-01-31
# SNNLP:スパイキングニューラルネットワークを用いたエネルギー効率の良い自然言語処理

SNNLP: Energy-Efficient Natural Language Processing Using Spiking Neural Networks ( http://arxiv.org/abs/2401.17911v1 )

ライセンス: Link先を確認
R. Alexander Knipper, Kaniz Mishty, Mehdi Sadi, Shubhra Kanti Karmaker Santu(参考訳) スパイクニューラルネットワークが注目されるにつれて、コンピュータビジョンや信号処理以外の分野におけるこの計算パラダイムの応用に目を向ける。 ニューロモルフィックな環境では未熟な分野が自然言語処理(nlp)で、ほとんどの最先端ソリューションは依然としてリソース消費と電力消費の伝統的なディープラーニングアーキテクチャに大きく依存している。 したがって、より人脳的な操作モデルによる情報処理の利点により、低エネルギーの要求により、ニューロモルフィックなアーキテクチャのためのnlpモデルを設計することは魅力的である。 しかし、NLPをニューロモルフィックな設定に持ち込む際の最大の問題は、現在のSNNアーキテクチャと将来のSNNアーキテクチャの両方でシームレスに扱えるように、テキストをスパイクトレインに適切にエンコードすることである。 本稿では,テキストをスパイクとしてエンコードする様々な手法を比較し,下流nlpタスクにおける関連するsnnにおける各手法の性能,すなわち感情分析を評価する。 さらに,テキストをスパイクとして符号化する新たな手法を提案し,ベンチマークNLPタスクの約13倍の速度符号化手法であるPoissonの速度符号化性能を向上する。 その後、従来の深層ニューラルネットワークと比較して、感情分析タスクにおいてハードウェアに実装されたSNNのエネルギー効率を実証し、予測されるエネルギー性能トレードオフを発生させながら、トレーニング中に32倍、60倍以上のエネルギー効率の増加を観測した。

As spiking neural networks receive more attention, we look toward applications of this computing paradigm in fields other than computer vision and signal processing. One major field, underexplored in the neuromorphic setting, is Natural Language Processing (NLP), where most state-of-the-art solutions still heavily rely on resource-consuming and power-hungry traditional deep learning architectures. Therefore, it is compelling to design NLP models for neuromorphic architectures due to their low energy requirements, with the additional benefit of a more human-brain-like operating model for processing information. However, one of the biggest issues with bringing NLP to the neuromorphic setting is in properly encoding text into a spike train so that it can be seamlessly handled by both current and future SNN architectures. In this paper, we compare various methods of encoding text as spikes and assess each method's performance in an associated SNN on a downstream NLP task, namely, sentiment analysis. Furthermore, we go on to propose a new method of encoding text as spikes that outperforms a widely-used rate-coding technique, Poisson rate-coding, by around 13\% on our benchmark NLP tasks. Subsequently, we demonstrate the energy efficiency of SNNs implemented in hardware for the sentiment analysis task compared to traditional deep neural networks, observing an energy efficiency increase of more than 32x during inference and 60x during training while incurring the expected energy-performance tradeoff.
翻訳日:2024-02-01 14:02:31 公開日:2024-01-31
# マルチモーダル埋め込みブリジングを用いた制御可能なデンスキャピタ

Controllable Dense Captioner with Multimodal Embedding Bridging ( http://arxiv.org/abs/2401.17910v1 )

ライセンス: Link先を確認
Yuzhong Zhao, Yue Liu, Zonghao Guo, Weijia Wu, Chen Gong, Qixiang Ye, Fang Wan(参考訳) 本稿では,言語指導の導入により,利用者の字幕表現に対する意図を満足させる制御可能な字幕生成装置(controlcap)を提案する。 controlcapは、マルチモーダル組込み生成(meg)モジュールと双方向組込みブリッジング(beb)モジュールからなるマルチモーダル組込みブリッジングアーキテクチャとして定義される。 megモジュールは、詳細情報の埋め込みと文脈認識の埋め込みを組み合わせることでオブジェクト/領域を表現するが、言語指導として利用することで、特殊制御への適応性を制御できる。 BEBモジュールは、視覚領域から/または視覚領域へ機能を借用し、そのような機能を収集してテキスト記述を予測することで、言語指導と視覚埋め込みを一致させる。 Visual GenomeとVG-COCOデータセットの実験では、ControlCapはそれぞれ最先端のメソッドを1.5%と3.7%(mAP)で上回っている。 最後に重要なのは、リージョンカテゴリペアをリージョンテキストペアに変換する機能によって、ControlCapは、高密度キャプションのための強力なデータエンジンとして機能することができることだ。 コードはhttps://github.com/callsys/ControlCapで入手できる。

In this paper, we propose a controllable dense captioner (ControlCap), which accommodates user's intention to dense captioning by introducing linguistic guidance. ControlCap is defined as a multimodal embedding bridging architecture, which comprises multimodal embedding generation (MEG) module and bi-directional embedding bridging (BEB) module. While MEG module represents objects/regions by combining embeddings of detailed information with context-aware ones, it also endows ControlCap the adaptability to specialized controls by utilizing them as linguistic guidance. BEB module aligns the linguistic guidance with visual embeddings through borrowing/returning features from/to the visual domain and gathering such features to predict text descriptions. Experiments on Visual Genome and VG-COCO datasets show that ControlCap respectively outperforms the state-of-the-art methods by 1.5% and 3.7% (mAP). Last but not least, with the capability of converting region-category pairs to region-text pairs, ControlCap is able to act as a powerful data engine for dense captioning. Code is available at https://github.com/callsys/ControlCap.
翻訳日:2024-02-01 14:02:04 公開日:2024-01-31
# hi-sam: 階層型テキストセグメンテーションのためのsegment anythingモデル

Hi-SAM: Marrying Segment Anything Model for Hierarchical Text Segmentation ( http://arxiv.org/abs/2401.17904v1 )

ライセンス: Link先を確認
Maoyuan Ye, Jing Zhang, Juhua Liu, Chenyu Liu, Baocai Yin, Cong Liu, Bo Du, Dacheng Tao(参考訳) segment anything model(sam)は、大規模なデータセットで事前トレーニングされたdeep vision foundationモデルで、一般的なセグメンテーションの境界を破り、さまざまな下流アプリケーションを引き起こす。 本稿では,階層的テキストセグメンテーションにSAMを活用する統一モデルであるHi-SAMを紹介する。 Hi-SAMは、ストローク、ワード、テキストライン、段落を含む4つの階層のテキストセグメンテーションに優れ、レイアウト解析も実現している。 具体的には,SAMをパラメータ効率の良い微調整手法により,高品質なテキストストロークセグメンテーション(TSS)モデルに変換する。 このtssモデルを用いてテキストストロークラベルを半自動的な方法で反復的に生成し、hiertextデータセット内の4つのテキスト階層にまたがるラベルを統一する。 その後、これらの完全ラベルを用いて、カスタマイズされた階層マスクデコーダを備えたTSSアーキテクチャに基づいて、エンドツーエンドのトレーニング可能なHi-SAMをローンチする。 推論中、Hi-SAMは自動マスク生成(AMG)モードとプロンプト可能なセグメンテーションモードの両方を提供する。 amgモードでは、hi-samはテキストストロークの前景マスクを最初にセグメンテーションし、階層的なテキストマスク生成のための前景ポイントをサンプリングし、通過時のレイアウト解析を実現する。 プロンプト可能なモードについては、Hi-SAMはワンポイントクリックで単語、テキスト、段落のマスクを提供する。 実験の結果,テキストストロークセグメンテーションのためのテキストSegでは84.86% fgIOU,88.96% fgIOUであった。 さらに、HierTextで共同階層的検出とレイアウト分析を行う以前の専門家と比較して、Hi-SAMはテキストラインレベルで4.73%のPQと5.39%のF1、段落レベルのレイアウト分析で5.49%のPQと7.39%のF1、20倍のトレーニングエポックを必要とする。 コードはhttps://github.com/ymy-k/Hi-SAMで公開されている。

The Segment Anything Model (SAM), a profound vision foundation model pre-trained on a large-scale dataset, breaks the boundaries of general segmentation and sparks various downstream applications. This paper introduces Hi-SAM, a unified model leveraging SAM for hierarchical text segmentation. Hi-SAM excels in text segmentation across four hierarchies, including stroke, word, text-line, and paragraph, while realizing layout analysis as well. Specifically, we first turn SAM into a high-quality text stroke segmentation (TSS) model through a parameter-efficient fine-tuning approach. We use this TSS model to iteratively generate the text stroke labels in a semi-automatical manner, unifying labels across the four text hierarchies in the HierText dataset. Subsequently, with these complete labels, we launch the end-to-end trainable Hi-SAM based on the TSS architecture with a customized hierarchical mask decoder. During inference, Hi-SAM offers both automatic mask generation (AMG) mode and promptable segmentation mode. In terms of the AMG mode, Hi-SAM segments text stroke foreground masks initially, then samples foreground points for hierarchical text mask generation and achieves layout analysis in passing. As for the promptable mode, Hi-SAM provides word, text-line, and paragraph masks with a single point click. Experimental results show the state-of-the-art performance of our TSS model: 84.86% fgIOU on Total-Text and 88.96% fgIOU on TextSeg for text stroke segmentation. Moreover, compared to the previous specialist for joint hierarchical detection and layout analysis on HierText, Hi-SAM achieves significant improvements: 4.73% PQ and 5.39% F1 on the text-line level, 5.49% PQ and 7.39% F1 on the paragraph level layout analysis, requiring 20x fewer training epochs. The code is available at https://github.com/ymy-k/Hi-SAM.
翻訳日:2024-02-01 14:01:45 公開日:2024-01-31
# 因果コーディネート・コンカレント強化学習

Causal Coordinated Concurrent Reinforcement Learning ( http://arxiv.org/abs/2401.18012v1 )

ライセンス: Link先を確認
Tim Tse, Isaac Chan, Zhitang Chen(参考訳) 本研究では,並行強化学習(crl)環境下で,よりデータ効率良く,より優れた実行ポリシーを学習することを目的とした,データ共有と協調探索のための新しいアルゴリズムフレームワークを提案する。 すべてのエージェントが同一の環境下で振る舞うと仮定する他の作業とは対照的に、我々はこの制限を緩和し、代わりに各エージェントがグローバル構造を共有しながら個々のバリエーションを示す環境内で振舞う定式化を考える。 本アルゴリズムは,独立規制による個人差分制御モデルパラメータの抽出において,付加雑音モデル-混合モデル(ANM-MM)という形で因果推論アルゴリズムを利用する。 抽出したモデルパラメータの類似度に基づく新しいデータ共有方式を提案し, 自己回帰, 振り子, カートポールの振り上げタスクのセットにおいて, 優れた学習速度を示すとともに, スパース報酬設定下での共通エージェント間の多様な行動選択の有効性を示す。 我々の知る限りでは、CRLの非同一性環境を考える最初の研究であり、強化学習(RL)と因果推論を統合するための数少ない研究の1つである。

In this work, we propose a novel algorithmic framework for data sharing and coordinated exploration for the purpose of learning more data-efficient and better performing policies under a concurrent reinforcement learning (CRL) setting. In contrast to other work which make the assumption that all agents act under identical environments, we relax this restriction and instead consider the formulation where each agent acts within an environment which shares a global structure but also exhibits individual variations. Our algorithm leverages a causal inference algorithm in the form of Additive Noise Model - Mixture Model (ANM-MM) in extracting model parameters governing individual differentials via independence enforcement. We propose a new data sharing scheme based on a similarity measure of the extracted model parameters and demonstrate superior learning speeds on a set of autoregressive, pendulum and cart-pole swing-up tasks and finally, we show the effectiveness of diverse action selection between common agents under a sparse reward setting. To the best of our knowledge, this is the first work in considering non-identical environments in CRL and one of the few works which seek to integrate causal inference with reinforcement learning (RL).
翻訳日:2024-02-01 13:56:23 公開日:2024-01-31
# EEG-GPT:脳波分類と解釈のための大規模言語モデルの能力探索

EEG-GPT: Exploring Capabilities of Large Language Models for EEG Classification and Interpretation ( http://arxiv.org/abs/2401.18006v1 )

ライセンス: Link先を確認
Jonathan W. Kim and Ahmed Alaa and Danilo Bernardo(参考訳) 脳波(EEG)に適用される従来の機械学習(ML)アプローチでは、これはしばしば限定的な焦点であり、異なる時間スケール(ミリ秒の過渡的なスパイクから持続する発作まで)と空間スケール(局所的な高周波振動から世界的な睡眠活動まで)で発生する特定の脳活動の分離である。 このサイロ化アプローチは、マルチスケールの電気生理学的理解と分類能力を示す脳波MLモデルの開発を制限する。 さらに、典型的なML EEGアプローチはブラックボックスアプローチを使用し、臨床コンテキストにおける解釈可能性と信頼性を制限する。 そこで我々は,大言語モデル(LLM)の進歩を利用する脳波分類の一元化手法であるEEG-GPTを提案する。 eeg-gptは、トレーニングデータの2%しか利用しない少数の学習パラダイムにおいて、異常脳波から正常を分類する現在のディープラーニング手法に匹敵する優れた性能を達成している。 さらに、中間的推論ステップを提供し、その操作において複数のスケールにわたる専門的脳波ツールを調整し、透過的で解釈可能なステップバイステップの検証を提供し、臨床的文脈における信頼性を促進するという明確な利点を提供する。

In conventional machine learning (ML) approaches applied to electroencephalography (EEG), this is often a limited focus, isolating specific brain activities occurring across disparate temporal scales (from transient spikes in milliseconds to seizures lasting minutes) and spatial scales (from localized high-frequency oscillations to global sleep activity). This siloed approach limits the development EEG ML models that exhibit multi-scale electrophysiological understanding and classification capabilities. Moreover, typical ML EEG approaches utilize black-box approaches, limiting their interpretability and trustworthiness in clinical contexts. Thus, we propose EEG-GPT, a unifying approach to EEG classification that leverages advances in large language models (LLM). EEG-GPT achieves excellent performance comparable to current state-of-the-art deep learning methods in classifying normal from abnormal EEG in a few-shot learning paradigm utilizing only 2% of training data. Furthermore, it offers the distinct advantages of providing intermediate reasoning steps and coordinating specialist EEG tools across multiple scales in its operation, offering transparent and interpretable step-by-step verification, thereby promoting trustworthiness in clinical contexts.
翻訳日:2024-02-01 13:56:00 公開日:2024-01-31
# 量子影響と事象相対性

Quantum influences and event relativity ( http://arxiv.org/abs/2401.18005v1 )

ライセンス: Link先を確認
Nick Ormrod, Jonathan Barrett(参考訳) 我々は、拡張ウィグナーの友人シナリオからの洞察と量子因果モデルを組み合わせて量子論の新しい解釈を開発する。 関係量子力学や一貫した歴史からアイデアを合成するこの解釈では、事象は一連の系に対して相対的に得られ、因果構造によって抽出されるプロジェクターに対応する。 これらのアイデアを精密な数学的形式を用いて表現する。 この定式化を用いて、量子現象のモデル化とパラドックスの回避、異なるシナリオの分類と量子因果モデルの枠組みの拡張、量子状態に頼ることなくデコヒーレンスと創発的古典性にどのようにアプローチできるか、といった具体的な例と一般的な構成を示す。

We develop a new interpretation of quantum theory by combining insights from extended Wigner's friend scenarios and quantum causal modelling. In this interpretation, which synthesizes ideas from relational quantum mechanics and consistent histories, events obtain relative to a set of systems, and correspond to projectors that are picked out by causal structure. We articulate these ideas using a precise mathematical formalism. Using this formalism, we show through specific examples and general constructions how quantum phenomena can be modelled and paradoxes avoided; how different scenarios may be classified and the framework of quantum causal models extended; and how one can approach decoherence and emergent classicality without relying on quantum states.
翻訳日:2024-02-01 13:55:37 公開日:2024-01-31
# 質問応答システムのコンテキスト利用のためのデシラタ

Desiderata for the Context Use of Question Answering Systems ( http://arxiv.org/abs/2401.18001v1 )

ライセンス: Link先を確認
Sagi Shaier, Lawrence E Hunter, Katharina von der Wense(参考訳) 先行研究は、最先端のコンテキストベースの質問応答(QA)システムにおける一般的な問題、すなわち、後者がモデルのパラメトリック知識と矛盾する場合のコンテキストへの注意の欠如、ノイズに対するロバスト性、そしてその答えとの整合性の欠如などを明らかにした。 しかしながら、以前の作業のほとんどは、これらの問題の1つか2つを分離することに集中しているため、それら間のトレンドを見ることは困難である。 最初は、QAモデルのデシラタ(desiderata)のセットを概説して、このギャップを埋めることを目指しています。 次に,関連する分析と手法に関する論文を調査し,その分野の現状について概観する。 第2のパートでは,15のqaシステムを5つのデータセット上で,すべてのデシデラタに従って一度に評価する実験を行っています。 その結果,(1)無関係な文脈において,ノイズの影響を受けにくいシステムは,その答えと必ずしも一致しない,(2)騒音の影響を受けやすいほとんどのシステムは,パラメトリックな知識と矛盾する文脈で正しく答える傾向が高い,(3)矛盾する知識とノイズの組み合わせは,システム性能を最大96%低減できる,といった,多くの新しい傾向が得られた。 そのため、私たちのデシラタはこれらのモデルがどのように機能するかを理解し、改善のための潜在的な道筋を明らかにするのに役立ちます。

Prior work has uncovered a set of common problems in state-of-the-art context-based question answering (QA) systems: a lack of attention to the context when the latter conflicts with a model's parametric knowledge, little robustness to noise, and a lack of consistency with their answers. However, most prior work focus on one or two of those problems in isolation, which makes it difficult to see trends across them. We aim to close this gap, by first outlining a set of -- previously discussed as well as novel -- desiderata for QA models. We then survey relevant analysis and methods papers to provide an overview of the state of the field. The second part of our work presents experiments where we evaluate 15 QA systems on 5 datasets according to all desiderata at once. We find many novel trends, including (1) systems that are less susceptible to noise are not necessarily more consistent with their answers when given irrelevant context; (2) most systems that are more susceptible to noise are more likely to correctly answer according to a context that conflicts with their parametric knowledge; and (3) the combination of conflicting knowledge and noise can reduce system performance by up to 96%. As such, our desiderata help increase our understanding of how these models work and reveal potential avenues for improvements.
翻訳日:2024-02-01 13:55:21 公開日:2024-01-31
# マルチ線形演算子ネットワーク

Multilinear Operator Networks ( http://arxiv.org/abs/2401.17992v1 )

ライセンス: Link先を確認
Yixin Cheng, Grigorios G. Chrysos, Markos Georgopoulos, Volkan Cevher(参考訳) 画像認識におけるディープニューラルネットワークの顕著な能力にもかかわらず、アクティベーション関数への依存はほとんど未調査領域であり、まだ排除されていない。 一方、Polynomial Networksはアクティベーション関数を必要としないが、現代のアーキテクチャと同等に動作していないモデルのクラスである。 本研究では,このギャップを埋め,マルチ線形演算子のみに依存するMONetを提案する。 MONetのコア層は Mu-Layer と呼ばれ、入力トークンの要素の乗法的相互作用をキャプチャする。 MONetは入力要素の高次相互作用をキャプチャし、画像認識および科学計算ベンチマークにおけるアプローチの有効性を実証する。 提案モデルは,従来の多項式ネットワークよりも優れ,近代的アーキテクチャと同等に動作する。 我々はMONetが完全にマルチリニアな操作を使用するモデルについてさらなる研究を刺激できると考えている。

Despite the remarkable capabilities of deep neural networks in image recognition, the dependence on activation functions remains a largely unexplored area and has yet to be eliminated. On the other hand, Polynomial Networks is a class of models that does not require activation functions, but have yet to perform on par with modern architectures. In this work, we aim close this gap and propose MONet, which relies solely on multilinear operators. The core layer of MONet, called Mu-Layer, captures multiplicative interactions of the elements of the input token. MONet captures high-degree interactions of the input elements and we demonstrate the efficacy of our approach on a series of image recognition and scientific computing benchmarks. The proposed model outperforms prior polynomial networks and performs on par with modern architectures. We believe that MONet can inspire further research on models that use entirely multilinear operations.
翻訳日:2024-02-01 13:54:51 公開日:2024-01-31
# 保証事例に対するgpt-4ターボの打破機作成効果の評価

Evaluating the Effectiveness of GPT-4 Turbo in Creating Defeaters for Assurance Cases ( http://arxiv.org/abs/2401.17991v1 )

ライセンス: Link先を確認
Kimya Khakzad Shahandashti, Mithila Sivakumar, Mohammad Mahdi Mohajer, Alvine B. Belle, Song Wang, Timothy C. Lethbridge(参考訳) 保証ケース(acs)は、安全や安全といったシステムの非機能要件の正しい実装の検証をサポートする構造化された議論であり、システム障害を防止し、命の喪失を含む壊滅的な結果につながる可能性がある。 acsはdo-178cやiso 26262といった産業規格に従ってシステムの認証を促進する。 これらのACに反論する敗者を特定することは、ACの堅牢性と信頼性を向上させるために不可欠である。 このタスクを自動化するために,OpenAI が開発した高度な大規模言語モデル (LLM) である GPT-4 Turbo を応用した新しい手法を導入し,Electinative Argumentation (EA) 表記を用いて形式化された AC 内の敗者を特定する。 最初の評価は、このフレームワーク内での議論の理解と生成におけるモデルの習熟度を評価する。 その結果, GPT-4 TurboはEA表記に優れ, 様々な種類の敗北者を生成することができることがわかった。

Assurance cases (ACs) are structured arguments that support the verification of the correct implementation of systems' non-functional requirements, such as safety and security, thereby preventing system failures which could lead to catastrophic outcomes, including loss of lives. ACs facilitate the certification of systems in accordance with industrial standards, for example, DO-178C and ISO 26262. Identifying defeaters arguments that refute these ACs is essential for improving the robustness and confidence in ACs. To automate this task, we introduce a novel method that leverages the capabilities of GPT-4 Turbo, an advanced Large Language Model (LLM) developed by OpenAI, to identify defeaters within ACs formalized using the Eliminative Argumentation (EA) notation. Our initial evaluation gauges the model's proficiency in understanding and generating arguments within this framework. The findings indicate that GPT-4 Turbo excels in EA notation and is capable of generating various types of defeaters.
翻訳日:2024-02-01 13:54:40 公開日:2024-01-31
# 浮揚型センサーによるダークマター探索

Dark Matter Searches with Levitated Sensors ( http://arxiv.org/abs/2401.17990v1 )

ライセンス: Link先を確認
Eva Kilian, Markus Rademacher, Jonathan M. H. Gosling, Julian H. Iacoponi, Fiona Alder, Marko Toro\v{s}, Antonio Pontin, Chamkaur Ghag, Sougato Bose, Tania S. Monteiro and P.F. Barker(参考訳) 地球と宇宙で量子センサーを新しい物理学の探索に利用することへの関心に動機づけられ、ダークマターのシグネチャを観測するための大質量浮揚光機械システムの適合性に関する展望を提供する。 我々は、コヒーレント散乱光のスペクトル解析によるリコイル検出の保守的アプローチ、相関スペクトル密度による方向効果の増強、メソスコピック試験粒子の量子重ね合わせによる希少事象の測定の可能性について論じる。

Motivated by the current interest in employing quantum sensors on Earth and in space to conduct searches for new physics, we provide a perspective on the suitability of large-mass levitated optomechanical systems for observing dark matter signatures. We discuss conservative approaches of recoil detection through spectral analysis of coherently scattered light, enhancements of directional effects due to cross-correlation spectral densities, and the possibility of using quantum superpositions of mesoscopic test particles to measure rare events.
翻訳日:2024-02-01 13:54:21 公開日:2024-01-31
# 千の顔の低木-深層学習を用いた衛星画像からの個々のセグメンテーション

Shrub of a thousand faces: an individual segmentation from satellite images using deep learning ( http://arxiv.org/abs/2401.17985v1 )

ライセンス: Link先を確認
Rohaifa Khaldi, Siham Tabik, Sergio Puertas-Ruiz, Julio Pe\~nas de Giles, Jos\'e Antonio H\'odar Correa, Regino Zamora, Domingo Alcaraz Segura(参考訳) ユニペロスコミュニスのような長生きした低木の分布とサイズ構造をモニタリングすることで、高山および高緯度生態系に対する気候変動の長期的影響を推定することができる。 歴史的空中超高解像度画像は、低木の成長と分布を高精度に監視するレトロスペクティブツールを提供する。 現在、ディープラーニングモデルは、定義された形状のオブジェクトの輪郭を検出および記述するための印象的な結果を提供している。 しかし、junitperのような複雑な成長パターンを表現する自然オブジェクトを検出するためにこれらのモデルを適用することは依然として難しい課題である。 本研究では,シエラネバダ(スペイン)の樹冠より上のジュニペロス低木を個別に記述するために,リモートセンシングされたRGB画像とMask R-CNNベースのインスタンスセグメンテーションモデルを組み合わせた新しいアプローチを提案する。 本研究では,フォトインタプリタ(PI)とフィールドワーク(FW)データを用いて,モデルの開発と外部検証を行う新しいデータ構築設計を提案する。 また,提案手法は,Multiple Intersections over Ground Truth Area (MIoGTA) とよばれる新しい指標をベースとした低木形状評価アルゴリズムを提案する。 最後に, 開発したモデルを初めて展開し, ジュニペラス個体の壁対壁マップを作成した。 実験の結果,従来のフィールドサーベイ手法の限界を克服する上で,デュアルデータ構築手法の有効性が示された。 彼らはまた、データアノテーションの不確実性に対してよりレジリエンスを示す複雑な成長パターンを持つ種に対するインスタンスセグメンテーションモデルの評価におけるMIoGTA測定の堅牢性を強調した。 さらに, マスクr-cnnをresnet101-c4バックボーンで使用することにより, それぞれ87,87%, 76.86%のf1コアが得られることを示した。

Monitoring the distribution and size structure of long-living shrubs, such as Juniperus communis, can be used to estimate the long-term effects of climate change on high-mountain and high latitude ecosystems. Historical aerial very-high resolution imagery offers a retrospective tool to monitor shrub growth and distribution at high precision. Currently, deep learning models provide impressive results for detecting and delineating the contour of objects with defined shapes. However, adapting these models to detect natural objects that express complex growth patterns, such as junipers, is still a challenging task. This research presents a novel approach that leverages remotely sensed RGB imagery in conjunction with Mask R-CNN-based instance segmentation models to individually delineate Juniperus shrubs above the treeline in Sierra Nevada (Spain). In this study, we propose a new data construction design that consists in using photo interpreted (PI) and field work (FW) data to respectively develop and externally validate the model. We also propose a new shrub-tailored evaluation algorithm based on a new metric called Multiple Intersections over Ground Truth Area (MIoGTA) to assess and optimize the model shrub delineation performance. Finally, we deploy the developed model for the first time to generate a wall-to-wall map of Juniperus individuals. The experimental results demonstrate the efficiency of our dual data construction approach in overcoming the limitations associated with traditional field survey methods. They also highlight the robustness of MIoGTA metric in evaluating instance segmentation models on species with complex growth patterns showing more resilience against data annotation uncertainty. Furthermore, they show the effectiveness of employing Mask R-CNN with ResNet101-C4 backbone in delineating PI and FW shrubs, achieving an F1-score of 87,87% and 76.86%, respectively.
翻訳日:2024-02-01 13:54:10 公開日:2024-01-31
# 視覚検出モデルによる多モーダル大言語モデルの強化:実証的研究

Enhancing Multimodal Large Language Models with Vision Detection Models: An Empirical Study ( http://arxiv.org/abs/2401.17981v1 )

ライセンス: Link先を確認
Qirui Jiao, Daoyuan Chen, Yilun Huang, Yaliang Li, Ying Shen(参考訳) テキストと画像のモダリティの統合におけるMLLM(Multimodal Large Language Models)の印象的な機能にもかかわらず、詳細なビジュアル要素を正確に解釈することは困難である。 本稿では,SOTA(State-of-the-art Object Detection)と光文字認識モデルを用いたMLLMの高精細化に関する実証的研究を行った。 本研究では,検出情報の埋め込みによる注入,MLLMの本来の能力への影響,検出モデルの交換性について検討した。 我々は,LLaVA-1.5,DINO,PaddleOCRv2などのモデルを用いて系統的な実験を行い,MLLMの性能を向上するだけでなく,元の強みも維持することを示した。 その結果、MLLMは10ベンチマーク中9ベンチマークでSOTAモデルを上回っ、正規化平均スコアが最大12.99%向上し、マルチモーダル理解の顕著な進歩となった。 我々は,MLLMの細粒度多モーダル対話機能について,さらに探究するためのコードをリリースする。

Despite the impressive capabilities of Multimodal Large Language Models (MLLMs) in integrating text and image modalities, challenges remain in accurately interpreting detailed visual elements. This paper presents an empirical study on enhancing MLLMs with state-of-the-art (SOTA) object detection and Optical Character Recognition models to improve fine-grained image understanding and reduce hallucination in responses. Our research investigates the embedding-based infusion of detection information, the impact of such infusion on the MLLMs' original abilities, and the interchangeability of detection models. We conduct systematic experiments with models such as LLaVA-1.5, DINO, and PaddleOCRv2, revealing that our approach not only refines MLLMs' performance in specific visual tasks but also maintains their original strengths. The resulting enhanced MLLMs outperform SOTA models on 9 out of 10 benchmarks, achieving an improvement of up to 12.99% on the normalized average score, marking a notable advancement in multimodal understanding. We release our codes to facilitate further exploration into the fine-grained multimodal dialogue capabilities of MLLMs.
翻訳日:2024-02-01 13:53:33 公開日:2024-01-31
# 量子混合製剤の相違性を説明できないてんかんモデル

No epistemic model can explain anti-distinguishability of quantum mixed preparations ( http://arxiv.org/abs/2401.17980v1 )

ライセンス: Link先を確認
Sagnik Ray, Visweshwaran R, and Debashis Saha(参考訳) 一般的な量子準備の実証的予測を再現できるのかという根本的な問題に対処する。 これは、混合準備の対別可能性によって決定される量子オーバーラップと、これらの準備を記述するオンティック状態上の確率分布のエピステマオーバーラップを比較することを含む。 量子混合状態の集合は、認識的重なりがゼロで、対応する量子重なりが非ゼロであるときに「非固有状態」とみなされる。 最強の証明において、混合量子状態の集合は、エピステミックオーバーラップが消え、量子オーバーラップがその最大値1に達すると「完全に非エピステミック」となる。 注目すべきことに、3つの混合状態が重なり合う場合、次元 2 においても非エピステミック混合状態の集合が存在する。 さらに, 次元 3 と 4 の量子混合状態を示し, それぞれ 4 と 3 の重なりについて完全に非固有である。 また,2つの混合状態におけるてんかんと量子オーバーラップの平均比の一般上界を確立した。 この比は、特定の量子混合状態のペアに対して任意に小さいことが示され、非独立性を示す。 私たちの発見はすべて、準備と測定の実験で堅牢にテストできます。 さらに、非エピステミック混合状態の存在が$\psi-$epistemicモデルの反論につながる例を特定し、ここで得られたいくつかの例は実際にこのカテゴリに入ることに留意する。 興味深いことに、準備の文脈性の証明は、それぞれの混合状態が非極大なエピステミックであり、非エピステミックの弱いバージョンであり、そこでは、エピステミックの重なりが量子的重なりよりも小さいことが要求される。

We address the fundamental question of whether epistemic models can reproduce the empirical predictions of general quantum preparations. This involves comparing the quantum overlap determined by the anti-distinguishability of a set of mixed preparations with the epistemic overlap of the probability distribution over the ontic states describing these preparations. A set of quantum mixed states is deemed to be 'non-epistemic' when the epistemic overlap must be zero while the corresponding quantum overlap remains non-zero. In its strongest manifestation, a set of mixed quantum states is 'fully non-epistemic' if the epistemic overlap vanishes while the quantum overlap reaches its maximum value of one. Remarkably, we show that there exist sets of non-epistemic mixed states even in dimension 2, when the overlap between three mixed preparations is concerned. Moreover, we present quantum mixed states in dimensions 3 and 4 that are fully non-epistemic concerning the overlap between four and three preparations, respectively. We also establish a generic upper bound on the average ratio between the epistemic and quantum overlap for two mixed states. The ratio is shown to be arbitrarily small for certain pairs of quantum mixed states, signifying they are non-epistemic. All our findings are robustly testable in the prepare-and-measure experiments. In addition, we identify the instances where the existence of non-epistemic mixed states leads to the refutation of $\psi-$epistemic models and further note that some of the examples obtained here indeed fall into this category. Interestingly, any proof of preparation contextuality implies that the respective mixed states are non-maximally epistemic, a weaker version of non-epistemic where the epistemic overlap is required to be less than the quantum overlap.
翻訳日:2024-02-01 13:53:12 公開日:2024-01-31
# ジョブマーケットドメインにおけるエンティティリンク

Entity Linking in the Job Market Domain ( http://arxiv.org/abs/2401.17979v1 )

ライセンス: Link先を確認
Mike Zhang and Rob van der Goot and Barbara Plank(参考訳) 自然言語処理では、エンティティリンク(EL)はウィキペディアを中心にしているが、まだ求人市場領域では未熟である。 あいまいなスキルの言及は、現在の労働市場の要求を理解するのに役立ちます。 本研究では,この領域でELを初めて探求し,特に職業スキルとESCO分類の連携を目標にしている(le Vrang et al., 2014)。 それまでの努力は、粗い(完全な)文と対応するESCOスキルを結びつけていた。 この作業では、よりきめ細かいスパンレベルのスキルの言及をリンクします。 2つの高パフォーマンスニューラルelモデル,bi-encoder (wu et al., 2020) と自己回帰モデル (cao et al., 2021) を合成生成したメンションスキルペアデータセットにチューニングし,人間によるスキルリンクベンチマークで評価する。 以上の結果から,両モデルとも,スキルの暗黙的な言及を正しい分類基準にリンクできることがわかった。 BLINK は厳密な評価では GENRE より優れているが、 GENRE は緩やかな評価(accuracy@$k$)では GENRE の方が優れている。

In Natural Language Processing, entity linking (EL) has centered around Wikipedia, but yet remains underexplored for the job market domain. Disambiguating skill mentions can help us get insight into the current labor market demands. In this work, we are the first to explore EL in this domain, specifically targeting the linkage of occupational skills to the ESCO taxonomy (le Vrang et al., 2014). Previous efforts linked coarse-grained (full) sentences to a corresponding ESCO skill. In this work, we link more fine-grained span-level mentions of skills. We tune two high-performing neural EL models, a bi-encoder (Wu et al., 2020) and an autoregressive model (Cao et al., 2021), on a synthetically generated mention--skill pair dataset and evaluate them on a human-annotated skill-linking benchmark. Our findings reveal that both models are capable of linking implicit mentions of skills to their correct taxonomy counterparts. Empirically, BLINK outperforms GENRE in strict evaluation, but GENRE performs better in loose evaluation (accuracy@$k$).
翻訳日:2024-02-01 13:52:20 公開日:2024-01-31
# 深層強化学習によるマルチコア量子アーキテクチャの回路分割

Circuit Partitioning for Multi-Core Quantum Architectures with Deep Reinforcement Learning ( http://arxiv.org/abs/2401.17976v1 )

ライセンス: Link先を確認
Arnau Pastor, Pau Escofet, Sahar Ben Rached, Eduard Alarc\'on, Pere Barlet-Ros, and Sergi Abadal(参考訳) 量子コンピューティングは、量子力学のユニークな性質を活用することによって、古典的に難解な問題を解く大きな可能性を秘めている。 量子アーキテクチャのスケーラビリティは依然として大きな課題である。 スケーラビリティ問題を解決するため,マルチコア量子アーキテクチャが提案され,ハードウェアや通信,コンパイルなどの新たな課題が生まれている。 これらの課題の1つは、量子アルゴリズムを量子コンピュータの異なるコアに適合させることである。 本稿では,深層強化学習を用いた新しい回路分割手法を提案し,量子コンピューティングとグラフ分割の進展に寄与する。 この研究は、深層強化学習技術を量子回路マッピングに統合する最初のステップであり、そのような問題に対する新しい解決策のパラダイムへの扉を開く。

Quantum computing holds immense potential for solving classically intractable problems by leveraging the unique properties of quantum mechanics. The scalability of quantum architectures remains a significant challenge. Multi-core quantum architectures are proposed to solve the scalability problem, arising a new set of challenges in hardware, communications and compilation, among others. One of these challenges is to adapt a quantum algorithm to fit within the different cores of the quantum computer. This paper presents a novel approach for circuit partitioning using Deep Reinforcement Learning, contributing to the advancement of both quantum computing and graph partitioning. This work is the first step in integrating Deep Reinforcement Learning techniques into Quantum Circuit Mapping, opening the door to a new paradigm of solutions to such problems.
翻訳日:2024-02-01 13:51:45 公開日:2024-01-31
# 符号化理論によるニューラルネットワークの多意味性理解

Understanding polysemanticity in neural networks through coding theory ( http://arxiv.org/abs/2401.17975v1 )

ライセンス: Link先を確認
Simon C. Marshall and Jan H. Kirchner(参考訳) 相当な努力にもかかわらず、ニューラルネットワークの解釈性はいまだに難解な目標であり、これまでの研究では、ほとんどの単一ニューロンがネットワーク出力に与える影響を簡潔に説明できなかった。 この制限は、与えられたニューロンが複数の無関係なネットワーク状態に関与し、そのニューロンの解釈を複雑にする、多くのニューロンの多神論的性質に起因する。 本稿では,神経科学と情報理論で開発されたツールを用いて,ネットワーク解釈可能性に対する新しい実践的アプローチと,多意味性と符号密度に対する理論的洞察を提案する。 我々は、アクティベーションの共分散行列の固有スペクトルを検査することにより、ネットワークのコードの冗長性のレベルを推定する。 さらに,ネットワークがスムースあるいは非微分可能なコードを示すかどうかをランダムに投影することで,コードがどの程度解釈可能であるかを示す。 このフレームワークは多節性ニューロンの学習性能に対する利点を説明し、Elhageらによる最近の結果に見られる傾向を説明する。 ~(2022). 我々のアプローチは、ニューラルネットワークにおける解釈可能性の追求を前進させ、その基礎構造に対する洞察を与え、回路レベルの解釈可能性のための新しい方法を提案する。

Despite substantial efforts, neural network interpretability remains an elusive goal, with previous research failing to provide succinct explanations of most single neurons' impact on the network output. This limitation is due to the polysemantic nature of most neurons, whereby a given neuron is involved in multiple unrelated network states, complicating the interpretation of that neuron. In this paper, we apply tools developed in neuroscience and information theory to propose both a novel practical approach to network interpretability and theoretical insights into polysemanticity and the density of codes. We infer levels of redundancy in the network's code by inspecting the eigenspectrum of the activation's covariance matrix. Furthermore, we show how random projections can reveal whether a network exhibits a smooth or non-differentiable code and hence how interpretable the code is. This same framework explains the advantages of polysemantic neurons to learning performance and explains trends found in recent results by Elhage et al.~(2022). Our approach advances the pursuit of interpretability in neural networks, providing insights into their underlying structure and suggesting new avenues for circuit-level interpretability.
翻訳日:2024-02-01 13:51:24 公開日:2024-01-31
# GUMsley:12の英国のジェネラルの要約におけるエンティティサリエンスの評価

GUMsley: Evaluating Entity Salience in Summarization for 12 English Genres ( http://arxiv.org/abs/2401.17974v1 )

ライセンス: Link先を確認
Jessica Lin, Amir Zeldes(参考訳) NLPモデルは、文字列ではなくコヒーレントなエンティティという観点でドキュメントを理解する能力が増すにつれて、各ドキュメントに対して最も健全なエンティティを取得することは、それ自体が重要なエンドタスクであるだけでなく、情報検索(IR)や、制御可能な要約などの下流アプリケーションにも不可欠である。 本稿では,12種類の英語テキストに対して名前付きおよび非名前のサルエントエンティティを網羅する最初のエンティティ・サルエンスデータセットであるgumsleyを,エンティティタイプ,ウィキフィケーションリンク,完全なコリファレンス解決アノテーションと整合させて紹介し,評価する。 本稿では,人間の要約を用いて,より厳密なサリエンス定義を推進し,サリエンスに対するアノテータ間の合意を,ソースエンティティが言及されているかどうかに基づいて示す。 本評価は,SOTA要約モデルとゼロショットLCMを用いて,生成したサリアンエンティティの取得を促進させる性能の低下を示す。 また,複数のモデルアーキテクチャに有意なエンティティを予測・提供することで性能が向上し,既存の抽象要約におけるエンティティ幻覚問題を緩和することで,高品質な要約を導出できることを示した。

As NLP models become increasingly capable of understanding documents in terms of coherent entities rather than strings, obtaining the most salient entities for each document is not only an important end task in itself but also vital for Information Retrieval (IR) and other downstream applications such as controllable summarization. In this paper, we present and evaluate GUMsley, the first entity salience dataset covering all named and non-named salient entities for 12 genres of English text, aligned with entity types, Wikification links and full coreference resolution annotations. We promote a strict definition of salience using human summaries and demonstrate high inter-annotator agreement for salience based on whether a source entity is mentioned in the summary. Our evaluation shows poor performance by pre-trained SOTA summarization models and zero-shot LLM prompting in capturing salient entities in generated summaries. We also show that predicting or providing salient entities to several model architectures enhances performance and helps derive higher-quality summaries by alleviating the entity hallucination problem in existing abstractive summarization.
翻訳日:2024-02-01 13:50:29 公開日:2024-01-31
# MelNet:オブジェクト検出のためのリアルタイムディープラーニングアルゴリズム

MelNet: A Real-Time Deep Learning Algorithm for Object Detection ( http://arxiv.org/abs/2401.17972v1 )

ライセンス: Link先を確認
Yashar Azadvatan and Murat Kurt(参考訳) 本研究では,オブジェクト検出のための新しいディープラーニングアルゴリズムであるMelNetを紹介した。 MelNetは、オブジェクト検出にKITTIデータセットを使用したトレーニングを実施した。 300回のトレーニングの後、MelNetは平均精度0.732のmAPスコアを得た。 さらに、3つの代替モデル(YOLOv5、EfficientDet、Faster-RCNN-MobileNetv3)がKITTIデータセットでトレーニングされ、オブジェクト検出のためにMelNetと調整された。 その結果,特定事例における転帰学習の有効性が示唆された。 特に、著名なデータセット(ImageNet、COCO、Pascal VOCなど)でトレーニングされた既存のモデルの方が、優れた結果が得られる。 別の発見は、特定のシナリオに適した新しいモデルを作成し、特定のデータセットでそれをトレーニングする可能性を示している。 この調査は、KITTIデータセットでのみMelNetをトレーニングすることが150エポックの後にEfficientDetを上回ることを示している。 その結果、MelNetのパフォーマンスは他のトレーニング済みモデルと密接に一致している。

In this study, a novel deep learning algorithm for object detection, named MelNet, was introduced. MelNet underwent training utilizing the KITTI dataset for object detection. Following 300 training epochs, MelNet attained an mAP (mean average precision) score of 0.732. Additionally, three alternative models -YOLOv5, EfficientDet, and Faster-RCNN-MobileNetv3- were trained on the KITTI dataset and juxtaposed with MelNet for object detection. The outcomes underscore the efficacy of employing transfer learning in certain instances. Notably, preexisting models trained on prominent datasets (e.g., ImageNet, COCO, and Pascal VOC) yield superior results. Another finding underscores the viability of creating a new model tailored to a specific scenario and training it on a specific dataset. This investigation demonstrates that training MelNet exclusively on the KITTI dataset also surpasses EfficientDet after 150 epochs. Consequently, post-training, MelNet's performance closely aligns with that of other pre-trained models.
翻訳日:2024-02-01 13:49:53 公開日:2024-01-31
# 時間変化SIRD, 粒子群最適化, 深層学習のハイブリッドによるエピデミックモデリング

Epidemic Modeling using Hybrid of Time-varying SIRD, Particle Swarm Optimization, and Deep Learning ( http://arxiv.org/abs/2401.18047v1 )

ライセンス: Link先を確認
Naresh Kumar, Seba Susan(参考訳) 疫学モデルは、拡散パターンが静止している場合の流行をモデル化するのに最適である。 非定常パターンと伝染病の複数の波に対処するため,疫病モデル,粒子群最適化,深層学習を含むハイブリッドモデルを開発した。 モデルは主に、より良い予測のために3つの目標に対応します。 1. モデルパラメータの周期的推定 2. データフィッティングとパラメータ最適化による全側面の影響の組み入れ 3.モデルパラメータの深層学習による予測 本モデルでは, モデルパラメータの予測には通常の微分方程式系 (odes) を用い, モデルパラメータ最適化のための粒子群最適化 (pso) , モデルパラメータ予測のための stacked-lstm を用いた。 モデルパラメータの初期または1回の時間推定は、流行の多重波をモデル化できない。 そこで,モデルパラメータを定期的に(毎週)見積もる。 PSOを用いてモデルパラメータの最適値を特定する。 次に、最適化パラメータの積み重ねLSTMをトレーニングし、4週間のモデルパラメータの予測を行う。 さらに、LSTM予測パラメータをSIRDモデルに入力し、新型コロナウイルス感染者数を予測した。 本モデルは,米国,インド,英国という3つの国で高い影響を受けている。 提案したハイブリッドモデルは複数の波に対処でき、既存の3つのデータセットの手法よりも優れています。

Epidemiological models are best suitable to model an epidemic if the spread pattern is stationary. To deal with non-stationary patterns and multiple waves of an epidemic, we develop a hybrid model encompassing epidemic modeling, particle swarm optimization, and deep learning. The model mainly caters to three objectives for better prediction: 1. Periodic estimation of the model parameters. 2. Incorporating impact of all the aspects using data fitting and parameter optimization 3. Deep learning based prediction of the model parameters. In our model, we use a system of ordinary differential equations (ODEs) for Susceptible-Infected-Recovered-Dead (SIRD) epidemic modeling, Particle Swarm Optimization (PSO) for model parameter optimization, and stacked-LSTM for forecasting the model parameters. Initial or one time estimation of model parameters is not able to model multiple waves of an epidemic. So, we estimate the model parameters periodically (weekly). We use PSO to identify the optimum values of the model parameters. We next train the stacked-LSTM on the optimized parameters, and perform forecasting of the model parameters for upcoming four weeks. Further, we fed the LSTM forecasted parameters into the SIRD model to forecast the number of COVID-19 cases. We evaluate the model for highly affected three countries namely; the USA, India, and the UK. The proposed hybrid model is able to deal with multiple waves, and has outperformed existing methods on all the three datasets.
翻訳日:2024-02-01 13:44:12 公開日:2024-01-31
# 脳におけるマルチパス解析

Multipath parsing in the brain ( http://arxiv.org/abs/2401.18046v1 )

ライセンス: Link先を確認
Berta Franzluebbers, Donald Dunagan, Milo\v{s} Stanojevi\'c, Jan Buys, John T. Hale(参考訳) 人間は言葉ごとの文章を聴く順番で理解する。 この漸進性は、構文関係に関する一時的な曖昧さを解決することを伴う。 音声ブックを聴きながら機能的ニューロイメージングを行う人々の時系列データと、増分生成依存パーサからの予測を関連づけることで、人間がこれらの構文的曖昧さをどのように処理するかを検討する。 特に,単語毎の理解における遊びにおける構文解析の発達数に関する競合仮説を比較する:1対1。 この比較は、既存のfMRIデータセットに対してLLM適応符号化を用いて、最先端の依存性パーサから構文的仮定を評価することを含む。 英語と中国語のデータの両方で、マルチパス解析の証拠が見つかる。 このマルチパス効果に関連する脳領域には両側上側頭回がある。

Humans understand sentences word-by-word, in the order that they hear them. This incrementality entails resolving temporary ambiguities about syntactic relationships. We investigate how humans process these syntactic ambiguities by correlating predictions from incremental generative dependency parsers with timecourse data from people undergoing functional neuroimaging while listening to an audiobook. In particular, we compare competing hypotheses regarding the number of developing syntactic analyses in play during word-by-word comprehension: one vs more than one. This comparison involves evaluating syntactic surprisal from a state-of-the-art dependency parser with LLM-adapted encodings against an existing fMRI dataset. In both English and Chinese data, we find evidence for multipath parsing. Brain regions associated with this multipath effect include bilateral superior temporal gyrus.
翻訳日:2024-02-01 13:43:48 公開日:2024-01-31
# SpeechComposer: プロンプト構成による複数音声タスクの統合

SpeechComposer: Unifying Multiple Speech Tasks with Prompt Composition ( http://arxiv.org/abs/2401.18045v1 )

ライセンス: Link先を確認
Yihan Wu, Soumi Maiti, Yifan Peng, Wangyou Zhang, Chenda Li, Yuyue Wang, Xihua Wang, Shinji Watanabe, Ruihua Song(参考訳) 最近の言語モデルの進歩は、複数の音声関連タスクのパフォーマンスを大幅に向上させた。 既存の音声言語モデルは、タスク依存のプロンプトトークンを使用して、単一のモデルで様々な音声タスクを統一する。 しかし、この設計では、異なる音声タスク間の内在的な接続が省略され、各タスクのパフォーマンスが向上する可能性がある。 本研究では,一組のプロンプトトークンを構成することで共通の音声タスクを統一できる,新しいデコーダのみの音声言語モデルであるSpeechComposerを提案する。 音声合成、音声認識、音声言語モデリング、テキスト言語モデリングの4つの主要なタスク -speechcomposerは、音声変換や音声強調など、よく設計されたプロンプトトークンの構成を通じて、より多くの音声タスクに容易に拡張できる。 プロンプトトークンの統合により、異なる音声タスク間の知識共有をより構造化された方法で実現する。 実験結果から,提案手法は主タスクと複合タスクの両方の性能を向上し,共有したプロンプトトークンの有効性を示す。 驚くべきことに、統一デコーダのみのモデルは、単一のタスク用に設計されたエキスパートモデルであるベースラインと同等で、さらに優れたパフォーマンスを達成している。

Recent advancements in language models have significantly enhanced performance in multiple speech-related tasks. Existing speech language models typically utilize task-dependent prompt tokens to unify various speech tasks in a single model. However, this design omits the intrinsic connections between different speech tasks, which can potentially boost the performance of each task. In this work, we propose a novel decoder-only speech language model, SpeechComposer, that can unify common speech tasks by composing a fixed set of prompt tokens. Built upon four primary tasks -- speech synthesis, speech recognition, speech language modeling, and text language modeling -- SpeechComposer can easily extend to more speech tasks via compositions of well-designed prompt tokens, like voice conversion and speech enhancement. The unification of prompt tokens also makes it possible for knowledge sharing among different speech tasks in a more structured manner. Experimental results demonstrate that our proposed SpeechComposer can improve the performance of both primary tasks and composite tasks, showing the effectiveness of the shared prompt tokens. Remarkably, the unified decoder-only model achieves a comparable and even better performance than the baselines which are expert models designed for single tasks.
翻訳日:2024-02-01 13:43:39 公開日:2024-01-31
# 分数量子ホールエノンのスケーリング次元の観察

Observation of the scaling dimension of fractional quantum Hall anyons ( http://arxiv.org/abs/2401.18044v1 )

ライセンス: Link先を確認
A. Veillon, C. Piquard, P. Glidic, Y. Sato, A. Aassime, A. Cavanna, Y. Jin, U. Gennser, A. Anthore, and F. Pierre(参考訳) 分数量子ホール状態に現れる非伝統的な準粒子は、その外乱的性質をあいまいに観察するという課題を提示する。 準粒子の分数電荷は30年近く前から証明されているが、その正準量子統計学の最初の証拠は近年しか得られておらず、これまでのところ、準粒子の伝播ダイナミクスを決定するいわゆるスケーリング次元は解明されていない。 特に、トンネル状準粒子電流の非線形性はスケーリング次元を明らかにするべきであるが、この測定結果は理論と一致しない。 ここでは,熱音からショットノイズのクロスオーバーまでのスケーリング次元をあいまいに測定し,期待値との長い間待ち望んでいた一致を観測する。 高バイアスショットノイズレジームに着目した以前の電荷調査とは対照的に、測定は準粒子のスケーリング次元と電荷の両方を含む予測有限温度式に適合する。 複数の収縮と実験条件を繰り返す系統解析は、充填係数 1/3, 2/5, 2/3 で現れる分数準粒子の理論的なスケーリング次元に一貫して一致する。 これにより分数量子ホールアノンの中心的性質が確立され、エキゾチックな準粒子への強力で補完的な窓が示される。

Unconventional quasiparticles emerging in the fractional quantum Hall regime present the challenge of observing their exotic properties unambiguously. Although the fractional charge of quasiparticles has been demonstrated since nearly three decades, the first convincing evidence of their anyonic quantum statistics has only recently been obtained and, so far, the so-called scaling dimension that determines the quasiparticles propagation dynamics remains elusive. In particular, while the non-linearity of the tunneling quasiparticle current should reveal their scaling dimension, the measurements fail to match theory, arguably because this observable is not robust to non-universal complications. Here we achieve an unambiguous measurement of the scaling dimension from the thermal to shot noise cross-over, and observe a long-awaited agreement with expectations. Measurements are fitted to the predicted finite temperature expression involving both the quasiparticles scaling dimension and their charge, in contrast to previous charge investigations focusing on the high bias shot noise regime. A systematic analysis, repeated on multiple constrictions and experimental conditions, consistently matches the theoretical scaling dimensions for the fractional quasiparticles emerging at filling factors 1/3, 2/5 and 2/3. This establishes a central property of fractional quantum Hall anyons, and demonstrates a powerful and complementary window into exotic quasiparticles.
翻訳日:2024-02-01 13:43:18 公開日:2024-01-31
# エンドツーエンドマルチタスク対話システムの強化:訓練と適応性向上のための本質的動機強化学習アルゴリズムの検討

Enhancing End-to-End Multi-Task Dialogue Systems: A Study on Intrinsic Motivation Reinforcement Learning Algorithms for Improved Training and Adaptability ( http://arxiv.org/abs/2401.18040v1 )

ライセンス: Link先を確認
Navin Kamuni, Hardik Shah, Sathishkumar Chintala, Naveen Kunchakuri, Sujatha Alla Old Dominion(参考訳) エンドツーエンドのマルチタスク対話システムは、通常、対話パイプライン用の別々のモジュールで設計される。 これらの中、ポリシーモジュールはユーザの入力に応じて何をすべきかを決定するために不可欠である。 この方針は、エージェントが報奨信号の形でフィードバックを受ける環境を利用して強化学習アルゴリズムによって訓練される。 しかし、現在の対話システムは単純な報酬しか提供していない。 本研究の目的は,本研究の動機づけ強化学習アルゴリズムの検討である。 これにより、エージェントはトレーニングを迅速に加速し、内部のインセンティブシステムを教えることによって、行動の質を判断する能力を向上させることができる。 特に,ランダムネットワーク蒸留と好奇心駆動型強化学習の手法を応用し,発話間の意味的類似性を利用して,訪問頻度を測定し,探索を促進する。 不均質なデータセットであるMultiWOZの実験結果は、本質的なモチベーションに基づく議論システムは、外生的なインセンティブに依存する政策より優れていることを示している。 例えば,ユーザシステム対話間の意味的類似性を用いて訓練されたランダムネットワーク蒸留を採用することにより,驚くべき平均成功率は73%に達する。 これは、平均成功率60%のベースラインであるPPO(Proximal Policy Optimization)よりも大幅に改善されている。 さらに、予約率や完了率などのパフォーマンス指標は、ベースラインよりも10%上昇しています。 さらに、これらの本質的なインセンティブモデルは、より多くのドメインにおいてシステムのポリシーのレジリエンスを改善するのに役立つ。 これは、より広い範囲のドメインをカバーする設定にスケールアップするのに有用であることを意味する。

End-to-end multi-task dialogue systems are usually designed with separate modules for the dialogue pipeline. Among these, the policy module is essential for deciding what to do in response to user input. This policy is trained by reinforcement learning algorithms by taking advantage of an environment in which an agent receives feedback in the form of a reward signal. The current dialogue systems, however, only provide meagre and simplistic rewards. Investigating intrinsic motivation reinforcement learning algorithms is the goal of this study. Through this, the agent can quickly accelerate training and improve its capacity to judge the quality of its actions by teaching it an internal incentive system. In particular, we adapt techniques for random network distillation and curiosity-driven reinforcement learning to measure the frequency of state visits and encourage exploration by using semantic similarity between utterances. Experimental results on MultiWOZ, a heterogeneous dataset, show that intrinsic motivation-based debate systems outperform policies that depend on extrinsic incentives. By adopting random network distillation, for example, which is trained using semantic similarity between user-system dialogues, an astounding average success rate of 73% is achieved. This is a significant improvement over the baseline Proximal Policy Optimization (PPO), which has an average success rate of 60%. In addition, performance indicators such as booking rates and completion rates show a 10% rise over the baseline. Furthermore, these intrinsic incentive models help improve the system's policy's resilience in an increasing amount of domains. This implies that they could be useful in scaling up to settings that cover a wider range of domains.
翻訳日:2024-02-01 13:42:54 公開日:2024-01-31
# na\"ive bayes分類のための変数選択

Variable selection for Na\"ive Bayes classification ( http://arxiv.org/abs/2401.18039v1 )

ライセンス: Link先を確認
Rafael Blanquero, Emilio Carrizosa, Pepa Ram\'irez-Cobo, M. Remedios Sillero-Denamiel(参考訳) na\"ive bayesは多変量解析における分類の扱いやすく効率的な方法であることが証明されている。 しかし、特徴は通常相関しており、na\"ive bayesの条件付き独立性という仮定に違反し、その方法の性能が低下する可能性がある。 さらに、データセットには多数の特徴があり、結果の解釈を複雑にし、メソッドの実行を遅くする可能性がある。 本稿では,3つの特性を特徴とするNa\"ive Bayes分類器のスパース版を提案する。 第一に、共変量の相関構造を考慮することにより、疎度が達成される。 第2に、機能の選択をガイドするために、さまざまなパフォーマンス対策が使用できます。 第三に、より高い関心を持つグループのパフォーマンス制約を含めることができる。 提案手法は, 競争力のあるランニングタイムを実現するスマートサーチに導かれるが, 分類のパフォーマンス指標の柔軟性は統合されている。 提案したスパースNa\"ive Bayesは,よく参照された特徴選択手法と比較すると,バランスの取れたデータセットの精度,空間性,実行時間に関する競合的な結果が得られる。 不均衡(または異なる重要度)のクラスを持つデータセットの場合、異なるクラスの分類率の間のより良い妥協が達成される。

The Na\"ive Bayes has proven to be a tractable and efficient method for classification in multivariate analysis. However, features are usually correlated, a fact that violates the Na\"ive Bayes' assumption of conditional independence, and may deteriorate the method's performance. Moreover, datasets are often characterized by a large number of features, which may complicate the interpretation of the results as well as slow down the method's execution. In this paper we propose a sparse version of the Na\"ive Bayes classifier that is characterized by three properties. First, the sparsity is achieved taking into account the correlation structure of the covariates. Second, different performance measures can be used to guide the selection of features. Third, performance constraints on groups of higher interest can be included. Our proposal leads to a smart search, which yields competitive running times, whereas the flexibility in terms of performance measure for classification is integrated. Our findings show that, when compared against well-referenced feature selection approaches, the proposed sparse Na\"ive Bayes obtains competitive results regarding accuracy, sparsity and running times for balanced datasets. In the case of datasets with unbalanced (or with different importance) classes, a better compromise between classification rates for the different classes is achieved.
翻訳日:2024-02-01 13:42:32 公開日:2024-01-31
# 皮質折り畳みパターン検出のためのコントラスト学習の最適化

Optimizing contrastive learning for cortical folding pattern detection ( http://arxiv.org/abs/2401.18035v1 )

ライセンス: Link先を確認
Aymeric Gaudin (1), Louise Guillon (1), Clara Fischer (1), Arnaud Cachia (2), Denis Rivi\`ere (1), Jean-Fran\c{c}ois Mangin (1), Jo\"el Chavas (1) ((1) Neurospin, Gif-sur-Yvette, France, (2) LaPsyD\'e, Laboratoire A.Binet-Sorbonne, Paris, France)(参考訳) ヒト大脳皮質には、ジリとサルシと呼ばれる多くの隆起と溝がある。 主皮質の折りたたみには高い個人間整合性があるが, 折りたたみパターンの正確な形状や詳細を調べると, こうはならない。 この複雑さのため、皮質の折りたたみ変異を特徴づけ、被験者の行動特性や病理に関連付けることは、まだオープンな科学的問題である。 古典的なアプローチには、幾何学的距離に基づいて手動または半自動でいくつかの特定のパターンをラベル付けすることが含まれるが、最近の数万の被験者のMRI画像データセットが利用可能になったことで、現代のディープラーニング技術は特に魅力的になった。 ここでは,自己教師付きディープラーニングモデルを構築し,シンギュレート領域の折り畳みパターンを検出する。 我々は,ヒトコネクトームプロジェクト(1101科目)とUKBioBank(21070科目)の両方で,皮質骨格のトポロジに基づく拡張を施した対比自己教師モデル(SimCLR)を訓練する。 SimCLR用のバックボーンアーキテクチャ(畳み込みネットワーク、DenseNet、PointNet)について検討する。 評価とテストのために,統合失調症の特徴に関連したシンギュレート領域における「二重並列」折り畳みパターンの存在を手作業でラベル付けしたデータベース上で線形分類タスクを行う。 テストauc を 0.76 とする最良のモデルは、畳み込みネットワークで、6 層、10 次元潜込み空間、線形射影ヘッド、分岐傾斜拡張を用いたものである。 このような大規模なデータセット上の皮質骨格に対して、自己教師付きディープラーニングモデルが適用され、定量的に評価されたのはこれが初めてである。 他の脳領域に適用することで、他のバイオマーカーを検出するのです。

The human cerebral cortex has many bumps and grooves called gyri and sulci. Even though there is a high inter-individual consistency for the main cortical folds, this is not the case when we examine the exact shapes and details of the folding patterns. Because of this complexity, characterizing the cortical folding variability and relating them to subjects' behavioral characteristics or pathologies is still an open scientific problem. Classical approaches include labeling a few specific patterns, either manually or semi-automatically, based on geometric distances, but the recent availability of MRI image datasets of tens of thousands of subjects makes modern deep-learning techniques particularly attractive. Here, we build a self-supervised deep-learning model to detect folding patterns in the cingulate region. We train a contrastive self-supervised model (SimCLR) on both Human Connectome Project (1101 subjects) and UKBioBank (21070 subjects) datasets with topological-based augmentations on the cortical skeletons, which are topological objects that capture the shape of the folds. We explore several backbone architectures (convolutional network, DenseNet, and PointNet) for the SimCLR. For evaluation and testing, we perform a linear classification task on a database manually labeled for the presence of the "double-parallel" folding pattern in the cingulate region, which is related to schizophrenia characteristics. The best model, giving a test AUC of 0.76, is a convolutional network with 6 layers, a 10-dimensional latent space, a linear projection head, and using the branch-clipping augmentation. This is the first time that a self-supervised deep learning model has been applied to cortical skeletons on such a large dataset and quantitatively evaluated. We can now envisage the next step: applying it to other brain regions to detect other biomarkers.
翻訳日:2024-02-01 13:42:11 公開日:2024-01-31
# paramanu: 新たな効率のよい帰納的基礎言語モデルの一家系

Paramanu: A Family of Novel Efficient Indic Generative Foundation Language Models ( http://arxiv.org/abs/2401.18034v1 )

ライセンス: Link先を確認
Mitodru Niyogi and Arnab Bhattacharya(参考訳) 本稿では,インド語の新しい言語モデルであるgyan ai paramanu(アトム)について述べる。 10のインド語(アサム語、バングラ語、ヒンディー語、コンカニ語、マライリ語、マラティ語、オディア語、サンスクリット語、タミル語、テルグ語)の1つのgpuで、13.29mから367.5mまでのさまざまな大きさの5つのスクリプト(バングラ語、デヴァナガリ語、オディア語、タミル語、テルグ語)で事前学習されている。 モデルは非常に効率的で、小さく、速く、強力です。 我々はまた、目に見えない言語をトークン化できる効率的な最も高度なIndicトークンライザも開発した。 多言語mparamanuモデルにおける「多言語性の問題」を避けるため、同一のスクリプトを用いたタイポロジーグループ化により、同等のコーパスを事前学習した。 我々は,Bangla,Hindi,Sanskritの文法,コヒーレンス,クリエイティビティ,事実性指標に基づくオープンエンドテキスト生成のための事前学習されたモデルの人間による評価を行った。 GPT-3.5-Turbo (ChatGPT), Bloom 7B, LLaMa-2 7B, OPT 6.7B, GPT-J 6B, GPTNeo 1.3B, GPT2-XL大言語モデル (LLMs) は, 標準7B LLMの66倍から20倍に小さかった。 事前トレーニングされたモデルで推論を実行するには、CPUだけで十分であり、GPUは必要ない。 また,事前学習したバングラ,ヒンディー語,マラティ語,タミル語,テルグ語を,それぞれの言語で23k命令で指示調整した。 Indic言語で開発された最強で効率的な小型生成言語モデルである事前学習型および命令調整型モデルと、その様々な結果から、高い計算能力と謙虚なパラメータを伴わずに高品質な生成言語モデルが可能であるという結論が導かれる。 私たちはモデルをhttps://www.bharatgpts.comでリリースする予定です。

We present Gyan AI Paramanu ("atom"), a family of novel language models for Indian languages. It is a collection of auto-regressive monolingual, bilingual, and multilingual Indic language models pretrained from scratch on a single GPU for 10 Indian languages (Assamese, Bangla, Hindi, Konkani, Maithili, Marathi, Odia, Sanskrit, Tamil, Telugu) across 5 scripts (Bangla, Devanagari, Odia, Tamil, Telugu) of varying sizes ranging from 13.29M to 367.5M.The models are pretrained with a context size of 1024 on a single GPU. The models are very efficient, small, fast, and powerful. We have also developed an efficient most advanced Indic tokenizer that can even tokenize unseen languages. In order to avoid the "curse of multi-linguality" in our multilingual mParamanu model, we pretrained on comparable corpora by typological grouping using the same script. We performed human evaluation of our pretrained models for open end text generation on grammar, coherence, creativity, and factuality metrics for Bangla, Hindi, and Sanskrit. Our Bangla, Hindi, and Sanskrit models outperformed GPT-3.5-Turbo (ChatGPT), Bloom 7B, LLaMa-2 7B, OPT 6.7B, GPT-J 6B, GPTNeo 1.3B, GPT2-XL large language models (LLMs) by a large margin despite being smaller in size by 66 to 20 times compared to standard 7B LLMs. To run inference on our pretrained models, CPU is enough, and GPU is not needed. We also instruction-tuned our pretrained Bangla, Hindi, Marathi, Tamil, and Telugu models on 23k instructions in respective languages. Our pretrained and instruction-tuned models which are first of its kind, most powerful efficient small generative language models ever developed for Indic languages, and the various results lead to the conclusion that high quality generative language models are possible without high amount of compute power and humongous number of parameters. We plan to release our models at https://www.bharatgpts.com.
翻訳日:2024-02-01 13:41:39 公開日:2024-01-31
# drop: 身元確認とタスク固有の特徴を備えた人間のパースを分離する

DROP: Decouple Re-Identification and Human Parsing with Task-specific Features for Occluded Person Re-identification ( http://arxiv.org/abs/2401.18032v1 )

ライセンス: Link先を確認
Shuguang Dou, Xiangyang Jiang, Yuanpeng Tu, Junyao Gao, Zefan Qu, Qingsong Zhao, Cairong Zhao(参考訳) 本稿では,隠蔽者再識別(ReID)のためのDouple Re-identificatiOnとHuman Parsing(DROP)手法を提案する。 ReIDと人間の構文解析の同時学習にグローバルな特徴を用いる主流のアプローチと異なり、注意誘導のための意味情報に依存しているのに対し、DROPは、ReIDと人間の構文解析の特徴に対する明確な粒度の要求によって、前者の劣る性能が引き起こされると主張している。 reidは歩行者の部位間のインスタンス部分レベルの差異に焦点を当て、人間の解析は身体の内部構造を反映した意味的な空間的文脈に焦点を当てている。 これを解決するため、DROPはReIDとヒューマンパースの機能を切り離し、様々な解像度の特徴マップを組み合わせるために詳細保存アップサンプリングを提案する。 ヒト解析のためのパーシング固有の特徴を分離し、ヒト解析枝にヒトの位置情報のみを付加する。 ReIDブランチでは、インスタンスレベルの部分差を高めるために、部分認識のコンパクトさ損失が導入される。 実験の結果、DROPの有効性、特にOccluded-Dukeで76.8%のランク1の精度を達成し、2つの主要な方法を超えた。 コードベースはhttps://github.com/shuguang-52/DROPでアクセスできる。

The paper introduces the Decouple Re-identificatiOn and human Parsing (DROP) method for occluded person re-identification (ReID). Unlike mainstream approaches using global features for simultaneous multi-task learning of ReID and human parsing, or relying on semantic information for attention guidance, DROP argues that the inferior performance of the former is due to distinct granularity requirements for ReID and human parsing features. ReID focuses on instance part-level differences between pedestrian parts, while human parsing centers on semantic spatial context, reflecting the internal structure of the human body. To address this, DROP decouples features for ReID and human parsing, proposing detail-preserving upsampling to combine varying resolution feature maps. Parsing-specific features for human parsing are decoupled, and human position information is exclusively added to the human parsing branch. In the ReID branch, a part-aware compactness loss is introduced to enhance instance-level part differences. Experimental results highlight the efficacy of DROP, especially achieving a Rank-1 accuracy of 76.8% on Occluded-Duke, surpassing two mainstream methods. The codebase is accessible at https://github.com/shuguang-52/DROP.
翻訳日:2024-02-01 13:40:41 公開日:2024-01-31
# 動的言語の文脈知覚的抽象解釈

Context-Sensitive Abstract Interpretation of Dynamic Languages ( http://arxiv.org/abs/2401.18029v1 )

ライセンス: Link先を確認
Franciszek Piszcz(参考訳) Javaのような静的言語とPythonやJavaScriptのような動的言語の間には、IDEツールの品質に大きなギャップがあります。 これらの言語における現代的なフレームワークとライブラリは、最高のエルゴノミクスと可読性を達成するために、彼らの動的な能力を使います。 これは、現在の世代のIDEがフローとデータフローを制御できないようにする副作用であり、ナビゲーション、自動補完、リファクタリングを壊すことが多い。 本稿では,プログラムの動的メタプログラミングと実行時リフレクションを静的に解析することにより,動的言語と静的言語とのこのギャップを埋めるアルゴリズムを提案する。 我々は抽象解釈と呼ばれる手法を用いてプログラムを部分的に実行し、通常は実行時にのみ利用可能な情報を抽出する。 このアルゴリズムはJavaScriptのサブセットで書かれたプログラムを解析できるプロトタイプアナライザとして実装されている。

There is a vast gap in the quality of IDE tooling between static languages like Java and dynamic languages like Python or JavaScript. Modern frameworks and libraries in these languages heavily use their dynamic capabilities to achieve the best ergonomics and readability. This has a side effect of making the current generation of IDEs blind to control flow and data flow, which often breaks navigation, autocompletion and refactoring. In this thesis we propose an algorithm that can bridge this gap between tooling for dynamic and static languages by statically analyzing dynamic metaprogramming and runtime reflection in programs. We use a technique called abstract interpretation to partially execute programs and extract information that is usually only available at runtime. Our algorithm has been implemented in a prototype analyzer that can analyze programs written in a subset of JavaScript.
翻訳日:2024-02-01 13:40:15 公開日:2024-01-31
# LLMによる予測ガバナンス支援:AIの負の影響を予測するためのニュースメディアによる大規模言語モデルの評価と調整

Supporting Anticipatory Governance using LLMs: Evaluating and Aligning Large Language Models with the News Media to Anticipate the Negative Impacts of AI ( http://arxiv.org/abs/2401.18028v1 )

ライセンス: Link先を確認
Mowafak Allaham, Nicholas Diakopoulos(参考訳) 新興AI技術の負の影響を期待することは、特に開発の初期段階において課題である。 このような予測に対する未研究のアプローチは、このプロセスの強化とガイドにLLMを使うことである。 生成したテキストのバイアスを考慮に入れたLCMや評価指標の進歩にもかかわらず、これらのモデルが予測タスクでどの程度うまく機能するかは明らかでない。 具体的には、LLMを使用してAIへの影響を予測することで、これらのモデルが生成できる負の影響のカテゴリの品質と範囲に関する疑問が提起される。 本稿では,新興技術の規範的評価に富む多種多様なデータソースであるnews mediaを活用して,影響の分類法を比較基準として定式化する。 世界中の何百ものオンラインニュースドメインが発行する何千ものニュース記事の計算分析によって、AIの影響の10のカテゴリからなる分類法を開発する。 次に,このベースラインからのサンプルを用いて,命令ベース (GPT-4, Mistral-7B-Instruct) と微調整完了モデル (Mistral-7B, GPT-3) の両方を評価する。 メディアからの影響を微調整したMistral-7Bによる影響は,GPT-4のような大規模モデルによる影響と同等に定性的に比較される傾向にある。 さらに、これらのLCMは、ニュースメディアで特定されるネガティブな影響の分類を反映する影響を生じさせるが、教示ベースモデルが生み出す影響は、微調整モデルと比較して特定のカテゴリーのインパクトの生成にギャップがある。 本研究は, 衝撃を予測するために使用するLLMの潜在的なバイアスを強調し, 予測運動中の影響をよりよく反映するために, メディアに反映されるような様々な影響に, より小さなLLMを整合させることの利点を示す。

Anticipating the negative impacts of emerging AI technologies is a challenge, especially in the early stages of development. An understudied approach to such anticipation is the use of LLMs to enhance and guide this process. Despite advancements in LLMs and evaluation metrics to account for biases in generated text, it is unclear how well these models perform in anticipatory tasks. Specifically, the use of LLMs to anticipate AI impacts raises questions about the quality and range of categories of negative impacts these models are capable of generating. In this paper we leverage news media, a diverse data source that is rich with normative assessments of emerging technologies, to formulate a taxonomy of impacts to act as a baseline for comparing against. By computationally analyzing thousands of news articles published by hundreds of online news domains around the world, we develop a taxonomy consisting of ten categories of AI impacts. We then evaluate both instruction-based (GPT-4 and Mistral-7B-Instruct) and fine-tuned completion models (Mistral-7B and GPT-3) using a sample from this baseline. We find that the generated impacts using Mistral-7B, fine-tuned on impacts from the news media, tend to be qualitatively on par with impacts generated using a larger scale model such as GPT-4. Moreover, we find that these LLMs generate impacts that largely reflect the taxonomy of negative impacts identified in the news media, however the impacts produced by instruction-based models had gaps in the production of certain categories of impacts in comparison to fine-tuned models. This research highlights a potential bias in state-of-the-art LLMs when used for anticipating impacts and demonstrates the advantages of aligning smaller LLMs with a diverse range of impacts, such as those reflected in the news media, to better reflect such impacts during anticipatory exercises.
翻訳日:2024-02-01 13:40:01 公開日:2024-01-31
# コスト感受性制約ラッソ

A cost-sensitive constrained Lasso ( http://arxiv.org/abs/2401.18023v1 )

ライセンス: Link先を確認
Rafael Blanquero, Emilio Carrizosa, Pepa Ram\'irez-Cobo, M. Remedios Sillero-Denamiel(参考訳) Lassoはベンチマークデータ分析の手順となり、文献で多くの変種が提案されている。 lassoの定式化は、全体的な予測誤差を最適化するように述べられているが、特定の関心のある個人に対する精度予測を完全に制御することはできない。 本研究では,2次的性能制約をラッソの目的関数に追加する新しいバージョンのラッソを提案する。 その結果、非線形最適化問題により制約付きスパース回帰モデルが定義される。 コストに敏感なラッソは、多くの生体医学的文脈で標準的なように、異なるソースからデータが収集される異種サンプルに直接的な応用がある。 本稿では,新しい手法に関する理論的性質と経験的研究について考察する。 また、生物医学的・社会学的文脈における方法の2つの例を考察する。

The Lasso has become a benchmark data analysis procedure, and numerous variants have been proposed in the literature. Although the Lasso formulations are stated so that overall prediction error is optimized, no full control over the accuracy prediction on certain individuals of interest is allowed. In this work we propose a novel version of the Lasso in which quadratic performance constraints are added to Lasso-based objective functions, in such a way that threshold values are set to bound the prediction errors in the different groups of interest (not necessarily disjoint). As a result, a constrained sparse regression model is defined by a nonlinear optimization problem. This cost-sensitive constrained Lasso has a direct application in heterogeneous samples where data are collected from distinct sources, as it is standard in many biomedical contexts. Both theoretical properties and empirical studies concerning the new method are explored in this paper. In addition, two illustrations of the method on biomedical and sociological contexts are considered.
翻訳日:2024-02-01 13:39:26 公開日:2024-01-31
# Directed Representation Optimization を用いたプロンプト駆動 LLM セーフガード

Prompt-Driven LLM Safeguarding via Directed Representation Optimization ( http://arxiv.org/abs/2401.18018v1 )

ライセンス: Link先を確認
Chujie Zheng, Fan Yin, Hao Zhou, Fandong Meng, Jie Zhou, Kai-Wei Chang, Minlie Huang, Nanyun Peng(参考訳) モデル入力を安全プロンプトで予測することは、大きな言語モデル(LLM)が有害な意図を含むクエリに従わないようにする一般的な方法である。 しかし、安全プロンプトの動作メカニズムはまだ完全には理解されておらず、LCMの安全性向上のために自動的に最適化する可能性を妨げている。 本稿では, モデル表現の観点から, 安全プロンプトの影響について検討する。 モデル表現空間において、有害で有害なクエリは、大きく区別できるが、これは安全プロンプトによって顕著に強化されない。 代わりに、クエリの表現は、同じ方向に異なる安全プロンプトによって移動され、クエリが無害である場合でもモデルが拒否する(つまり、補助の提供を拒否する)傾向がある。 そこで本研究では,DRO(Directed Representation Optimization)と呼ばれる自動安全プロンプト最適化手法を提案する。 DROは安全性のプロンプトを継続的かつ訓練可能な埋め込みとして扱い、モデルの拒絶確率が増加する方向に沿って有害/有害なクエリの表現を移動させる。 そこで本研究では,DROは,汎用モデル性能を損なうことなく,人造安全プロンプトの保護性能を著しく向上し,強力なベースラインを向上することを示した。

Prepending model inputs with safety prompts is a common practice of safeguarding large language models (LLMs) from complying with queries that contain harmful intents. However, the working mechanisms of safety prompts have not yet been fully understood, which hinders the potential for automatically optimizing them for improved LLM safety. Motivated by this problem, we investigate the impact of safety prompts from the perspective of model representations. We find that in models' representation space, harmful and harmless queries can be largely distinguished, but this is not noticeably enhanced by safety prompts. Instead, the queries' representations are moved by different safety prompts in similar directions, where models become more prone to refusal (i.e., refusing to provide assistance) even when the queries are harmless. Inspired by these findings, we propose a method called DRO (Directed Representation Optimization) for automatic safety prompt optimization. DRO treats safety prompts as continuous, trainable embeddings and learns to move the representations of harmful/harmless queries along/opposite the direction in which the model's refusal probability increases. We demonstrate that DRO remarkably improves the safeguarding performance of human-crafted safety prompts and outperforms strong baselines, as evaluated on out-of-domain benchmarks, without compromising the general model capability.
翻訳日:2024-02-01 13:39:11 公開日:2024-01-31
# 不均一変換を用いたカーネル脱離対策による因果発見

Causal Discovery by Kernel Deviance Measures with Heterogeneous Transforms ( http://arxiv.org/abs/2401.18017v1 )

ライセンス: Link先を確認
Tim Tse, Zhitang Chen, Shengyu Zhu, Yue Liu(参考訳) 確率変数の集合における因果関係の発見は科学の基本的な目的であり、最近は実際の機械知能にとって不可欠な要素であるとも主張されている。 因果発見手法の1つの類型は、因果方向と反因果方向の間には固有の構造的対称性があり、因果方向の決定に利用することができるという主張に基づいている。 原因と効果の相違を捉えることは依然として困難であり、現在の最先端のアルゴリズムでは、カーネルのノルムを条件分布の平均埋め込みと比較することを提案している。 本研究では, RKHS 埋め込みに基づく手法は, 条件分布の高次構造変数を含む原因効果非対称性の主マーカーを捉えるには不十分である,と論じる。 本研究では,rkhs埋め込みの異種変換に基づく新しいスコア尺度を導入し,因果関係発見のための条件付密度の関連する高次モーメントを抽出する。 各仮説的原因影響方向のスコアを比較して推論を行う。 合成データセット、二次元合成データセット、実世界のベンチマークデータセットT\"ubingen cause-Effect Pairsでのテストと比較が、我々のアプローチを検証する。 また,本手法と従来の手法を忠実に比較するために,正規化パラメータに対する感度解析を行い,アルゴリズムの頑健性を示すために,超パラメータ値の変動実験を行った。

The discovery of causal relationships in a set of random variables is a fundamental objective of science and has also recently been argued as being an essential component towards real machine intelligence. One class of causal discovery techniques are founded based on the argument that there are inherent structural asymmetries between the causal and anti-causal direction which could be leveraged in determining the direction of causation. To go about capturing these discrepancies between cause and effect remains to be a challenge and many current state-of-the-art algorithms propose to compare the norms of the kernel mean embeddings of the conditional distributions. In this work, we argue that such approaches based on RKHS embeddings are insufficient in capturing principal markers of cause-effect asymmetry involving higher-order structural variabilities of the conditional distributions. We propose Kernel Intrinsic Invariance Measure with Heterogeneous Transform (KIIM-HT) which introduces a novel score measure based on heterogeneous transformation of RKHS embeddings to extract relevant higher-order moments of the conditional densities for causal discovery. Inference is made via comparing the score of each hypothetical cause-effect direction. Tests and comparisons on a synthetic dataset, a two-dimensional synthetic dataset and the real-world benchmark dataset T\"ubingen Cause-Effect Pairs verify our approach. In addition, we conduct a sensitivity analysis to the regularization parameter to faithfully compare previous work to our method and an experiment with trials on varied hyperparameter values to showcase the robustness of our algorithm.
翻訳日:2024-02-01 13:38:48 公開日:2024-01-31
# ボース・アインシュタイン凝縮体の自己組織密度波へのナノメカニカル誘起非平衡量子相転移

Nanomechanically-induced nonequilibrium quantum phase transition to a self-organized density wave of a Bose-Einstein condensate ( http://arxiv.org/abs/2401.18015v1 )

ライセンス: Link先を確認
Milan Radonji\'c, Leon Mixa, Axel Pelster, Michael Thorwart(参考訳) 外部準1次元箱電位に保持される超低温ボースガスの2つの内部状態に出力光が結合する共振器と光学的に相互作用する減衰ナノ膜振動モードからなるハイブリッド量子多体系における非平衡量子相転移(NQPT)について報告する。 小さな有効膜-原子カップリングでは、系は均一なボース-アインシュタイン凝縮(BEC)状態にあり、膜変位は生じない。 2つの内部原子状態間の遷移周波数により、一方または両方の内部状態が占有される。 原子-膜カップリングを増大させることで、この系は、かなり変位した膜定常および密度波状becプロファイルによって特徴づけられる対称性ブロッキング自己組織bec相に遷移する。 このNQPTは、ある遷移周波数の一定間隔で不連続かつ連続であり、その外部で純粋に不連続である。

We report on a nonequilibrium quantum phase transition (NQPT) in a hybrid quantum many-body system consisting of a vibrational mode of a damped nanomembrane interacting optomechanically with a cavity, whose output light couples to two internal states of an ultracold Bose gas held in an external quasi-one-dimensional box potential. For small effective membrane-atom couplings, the system is in a homogeneous Bose-Einstein condensate (BEC) steady state, with no membrane displacement. Depending on the transition frequency between the two internal atomic states, either one or both internal states are occupied. By increasing the atom-membrane couplings, the system transitions to a symmetry-broken self-organized BEC phase, which is characterized by a considerably displaced membrane steady-state and density wave-like BEC profiles. This NQPT can be both discontinuous and continuous for a certain interval of transition frequencies, and is purely discontinuous outside of it.
翻訳日:2024-02-01 13:38:22 公開日:2024-01-31
# 運動誘導:異なる運動推定器を用いた拡散に基づく画像編集

Motion Guidance: Diffusion-Based Image Editing with Differentiable Motion Estimators ( http://arxiv.org/abs/2401.18085v1 )

ライセンス: Link先を確認
Daniel Geng, Andrew Owens(参考訳) 拡散モデルはテキスト記述に基づく印象的な画像を生成することができ、これらのモデルの拡張によりユーザーは比較的粗いスケールで画像を編集できる。 しかし、拡散モデルを持つ画像中の物体のレイアウト、位置、ポーズ、形状を正確に編集する能力は依然として困難である。 そこで本研究では,画像中の各画素がどこに移動すべきかを示す,高密度で複雑な動き場をユーザが指定できるゼロショット方式であるモーションガイダンスを提案する。 動作誘導は、市販の光フローネットワークを介して拡散サンプリングプロセスを勾配で操ることで機能する。 具体的には、フローネットワークによって推定されるように、サンプルが所望の動きを持つように促し、また、ソースイメージと視覚的に類似する誘導損失をデザインする。 拡散モデルから同時にサンプリングし、ガイダンス損失の少ないサンプルを誘導することにより、モーション編集画像を得ることができる。 本手法は複雑な動作で動作し,実画像および生成画像の高品質な編集を実現する。

Diffusion models are capable of generating impressive images conditioned on text descriptions, and extensions of these models allow users to edit images at a relatively coarse scale. However, the ability to precisely edit the layout, position, pose, and shape of objects in images with diffusion models is still difficult. To this end, we propose motion guidance, a zero-shot technique that allows a user to specify dense, complex motion fields that indicate where each pixel in an image should move. Motion guidance works by steering the diffusion sampling process with the gradients through an off-the-shelf optical flow network. Specifically, we design a guidance loss that encourages the sample to have the desired motion, as estimated by a flow network, while also being visually similar to the source image. By simultaneously sampling from a diffusion model and guiding the sample to have low guidance loss, we can obtain a motion-edited image. We demonstrate that our technique works on complex motions and produces high quality edits of real and generated images.
翻訳日:2024-02-01 13:31:13 公開日:2024-01-31
# あらゆるものへのタッチ:統一されたマルチモーダル触覚表現を学ぶ

Binding Touch to Everything: Learning Unified Multimodal Tactile Representations ( http://arxiv.org/abs/2401.18084v1 )

ライセンス: Link先を確認
Fengyu Yang, Chao Feng, Ziyang Chen, Hyoungseob Park, Daniel Wang, Yiming Dou, Ziyao Zeng, Xien Chen, Rit Gangopadhyay, Andrew Owens, Alex Wong(参考訳) タッチと他のモダリティを関連付ける能力は、人間と計算システムにとって大きな意味を持つ。 しかし、高価なデータ収集プロセスと非標準センサ出力のため、タッチによるマルチモーダル学習は依然として困難である。 視覚,言語,音など複数のモードに接続した視覚ベースのタッチセンサのための統合触覚モデルUniTouchを紹介する。 我々は、既に様々なモダリティに関連付けられている事前訓練済みのイメージ埋め込みにUniTouch埋め込みを合わせることで、これを実現する。 さらに、学習可能なセンサ固有のトークンを提案し、モデルが不均一な触覚センサの集合から同時に学習できるようにする。 UniTouchは、ロボットの把握予測からタッチ画像質問応答まで、さまざまなタッチセンシングタスクをゼロショット設定で実行することができる。 私たちの知る限りでは、UniTouchはそのような機能を最初にデモしました。 プロジェクトページ: https://cfeng16.github.io/UniTouch/

The ability to associate touch with other modalities has huge implications for humans and computational systems. However, multimodal learning with touch remains challenging due to the expensive data collection process and non-standardized sensor outputs. We introduce UniTouch, a unified tactile model for vision-based touch sensors connected to multiple modalities, including vision, language, and sound. We achieve this by aligning our UniTouch embeddings to pretrained image embeddings already associated with a variety of other modalities. We further propose learnable sensor-specific tokens, allowing the model to learn from a set of heterogeneous tactile sensors, all at the same time. UniTouch is capable of conducting various touch sensing tasks in the zero-shot setting, from robot grasping prediction to touch image question answering. To the best of our knowledge, UniTouch is the first to demonstrate such capabilities. Project page: https://cfeng16.github.io/UniTouch/
翻訳日:2024-02-01 13:30:57 公開日:2024-01-31
# カメラローカライズのためのシーンランドマーク検出の改善

Improved Scene Landmark Detection for Camera Localization ( http://arxiv.org/abs/2401.18083v1 )

ライセンス: Link先を確認
Tien Do and Sudipta N. Sinha(参考訳) 検索,局所特徴マッチング,および3次元構造に基づくポーズ推定に基づくカメラのローカライゼーション手法は正確だが,高いストレージを必要とする。 シーンランドマーク検出(SLD)に基づく手法が近年提案されている。 畳み込みニューラルネットワーク(CNN)をトレーニングして、所定の、健全でシーン固有の3Dポイントやランドマークを検出し、関連する2D-3D対応からカメラのポーズを演算する。 SLDは既存の学習ベースの手法よりも優れているが、特に3D構造ベースの手法よりも正確ではない。 本稿では,トレーニング中のモデルキャパシティとノイズラベルの不足により,精度のギャップが生じたことを示す。 容量問題を緩和するために,ランドマークをサブグループに分割し,サブグループ毎に個別のネットワークをトレーニングすることを提案する。 より良いトレーニングラベルを生成するために,シーンランドマークの視認性を評価するために,密集した再構成手法を提案する。 最後に,メモリ効率を向上させるためのコンパクトアーキテクチャを提案する。 精度の面では、INDOOR-6データセット上のアート構造に基づく手法の状況と同等であるが、はるかに高速に動作し、より少ないストレージを使用する。 コードとモデルはhttps://github.com/microsoft/SceneLandmarkLocalizationで見ることができる。

Camera localization methods based on retrieval, local feature matching, and 3D structure-based pose estimation are accurate but require high storage, are slow, and are not privacy-preserving. A method based on scene landmark detection (SLD) was recently proposed to address these limitations. It involves training a convolutional neural network (CNN) to detect a few predetermined, salient, scene-specific 3D points or landmarks and computing camera pose from the associated 2D-3D correspondences. Although SLD outperformed existing learning-based approaches, it was notably less accurate than 3D structure-based methods. In this paper, we show that the accuracy gap was due to insufficient model capacity and noisy labels during training. To mitigate the capacity issue, we propose to split the landmarks into subgroups and train a separate network for each subgroup. To generate better training labels, we propose using dense reconstructions to estimate visibility of scene landmarks. Finally, we present a compact architecture to improve memory efficiency. Accuracy wise, our approach is on par with state of the art structure based methods on the INDOOR-6 dataset but runs significantly faster and uses less storage. Code and models can be found at https://github.com/microsoft/SceneLandmarkLocalization.
翻訳日:2024-02-01 13:30:41 公開日:2024-01-31
# ファイバキャビティ量子メモリにおける通信波長有極単一光子の蓄積

Storage of telecom wavelength heralded single photons in a fiber cavity quantum memory ( http://arxiv.org/abs/2401.18081v1 )

ライセンス: Link先を確認
K. A. G. Bonsma-Fisher, R. Tannous, D. Poitras, C. Hnatovsky, S. J. Mihailov, P. J. Bustard, D. G. England, and B. J. Sussman(参考訳) ファイバベースのキャビティ量子メモリにおけるヘラルド単一光子の蓄積と検索を実証する。 光子をキャビティとの共鳴に切り替える量子周波数変換を用いて、メモリから光子を保存、回収する。 帯域幅81\,GHzの通信Oバンドで生成される光子は、1/e$ライフタイム1.64$\mu$sまたは32.8キャビティラウンドトリップでメモリから取得される。 非古典的光子統計は70回の往復に留まっている。 0.5$\mu$s後の内部記憶効率は10.9$pm 0.5$%であり、メモリ空洞への60%の結合効率は6.0\pm0.3$%である。 これらの結果は、ファイバーベースの量子メモリの発展における重要な一歩であり、光子源多重化やファイバーベースの量子ネットワークへの応用を含む、テレコム波長で動作する高帯域メモリである。

We demonstrate the storage and retrieval of heralded single photons in a fiber-based cavity quantum memory. The photons are stored, and retrieved, from the memory using quantum frequency conversion which switches the photon into, and out of, resonance with the cavity. The photons, generated in the telecom O-band with a bandwidth of 81\,GHz, are retrieved from the memory with a $1/e$ lifetime of 1.64$\mu$s, or 32.8 cavity round trips. We show that non-classical photon statistics remain for 70 round trips. The internal memory efficiency after 0.5$\mu$s of storage is $10.9 \pm 0.5$%; a coupling efficiency of 60% into the memory cavity yields a total efficiency of $6.0\pm0.3$%. These results mark a crucial step forward in the development of fiber-based quantum memories, and high-bandwidth memories operating at telecom wavelengths, with applications to photon source multiplexing and fiber-based quantum networking.
翻訳日:2024-02-01 13:30:20 公開日:2024-01-31
# KVQuant:KVキャッシュ量子化による1000万コンテキストLLM推論を目指して

KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization ( http://arxiv.org/abs/2401.18079v1 )

ライセンス: Link先を確認
Coleman Hooper, Sehoon Kim, Hiva Mohammadzadeh, Michael W. Mahoney, Yakun Sophia Shao, Kurt Keutzer, Amir Gholami(参考訳) LLMは、大きなコンテキストウインドウを必要とするドキュメント分析や要約のようなアプリケーションでの利用が増加しており、これらの大きなコンテキストウインドウでは、KVキャッシュのアクティベーションが推論時のメモリ消費の主要な原因となっている。 量子化はkvキャッシュのアクティベーションを圧縮するための有望なアプローチであるが、既存のソリューションはサブ4ビットのような超低精度でアクティベーションを正確に表現できない。 本稿では、キャッシュされたKVアクティベーションを定量化する新しい手法を取り入れて、この問題に対処するKVQuantについて述べる。 i) チャネルごとの鍵量子化。ここでは、キーアクティベーションを量子化し、分布をよりよく一致させる寸法を調整する。 二 回転位置埋め込みの前のキーアクティベーションを定量化し、その量子化への影響を緩和する前回転鍵量子化 三 非均一KVキャッシュの量子化で、各層ごとの感度重み付き非均一なデータ型を導出し、その分布をよりよく表す。 (iv)ベクトル当たりの密度・分散量子化であって、各ベクトルに対して外れ値を分離し、量子化範囲の歪を最小化するもの (v)Q-Normでは、分散シフトを緩和するために量子化セントロイドを正規化し、2ビット量子化のさらなる利点を提供する。 提案手法をLLaMA, LLaMA-2, Mistralモデルに適用することにより, Wikitext-2およびC4の3ビット量子化による<0.1$パープレキシティ劣化を達成し, 既存手法より優れている。 提案手法は,A100-80GBのGPUで最大100万,8GPUで最大1000万のコンテキスト長を持つLLaMA-7Bモデルを実現する。

LLMs are seeing growing use for applications such as document analysis and summarization which require large context windows, and with these large context windows KV cache activations surface as the dominant contributor to memory consumption during inference. Quantization is a promising approach for compressing KV cache activations; however, existing solutions fail to represent activations accurately in ultra-low precisions, such as sub-4-bit. In this work, we present KVQuant, which addresses this problem by incorporating novel methods for quantizing cached KV activations, including: (i) Per-Channel Key Quantization, where we adjust the dimension along which we quantize the Key activations to better match the distribution; (ii) Pre-RoPE Key Quantization, where we quantize Key activations before the rotary positional embedding to mitigate its impact on quantization; (iii) Non-Uniform KV Cache Quantization, where we derive per-layer sensitivity-weighted non-uniform datatypes that better represent the distributions; (iv) Per-Vector Dense-and-Sparse Quantization, where we isolate outliers separately for each vector to minimize skews in quantization ranges; and (v) Q-Norm, where we normalize quantization centroids in order to mitigate distribution shift, providing additional benefits for 2-bit quantization. By applying our method to the LLaMA, LLaMA-2, and Mistral models, we achieve $<0.1$ perplexity degradation with 3-bit quantization on both Wikitext-2 and C4, outperforming existing approaches. Our method enables serving the LLaMA-7B model with a context length of up to 1 million on a single A100-80GB GPU and up to 10 million on an 8-GPU system.
翻訳日:2024-02-01 13:29:59 公開日:2024-01-31
# 決定論的情報源に向けて:ファイバーキャビティ量子メモリにおける光子生成

Toward deterministic sources: Photon generation in a fiber-cavity quantum memory ( http://arxiv.org/abs/2401.18077v1 )

ライセンス: Link先を確認
Philip J. Bustard and Ramy Tannous and Kent Bonsma-Fisher and Daniel Poitras and Cyril Hnatovsky and Stephen J. Mihailov and Duncan England and Benjamin J. Sussman(参考訳) ファイバキャビティ量子メモリ内で光子を生成し、その後、オンデマンドで読み出しを行う。 二色反射端面を有する複屈折繊維からなる繊維空洞において、自発的4波混合により信号光子を生成する。 パートナーヘラルド光子の検出は、蓄積された信号光子の生成を示す。 遅延後、副制御パルスによって駆動されるブラッグ散乱4波混合を用いた空洞内周波数変換により、信号光子はファイバーキャビティとの共振から切り替わる。 出力信号モードにおけるサブポアソン統計を、最初の読み出しビンにおいて$g^{(2)}_{AC}=0.54(1)$と$\approx$80%の読み出し周波数変換効率で測定する。 1/eのメモリ寿命は、$\approx$67、または1.68$\mu$sである。 交互のファイバーキャビティでは、ノイズ低減のための戦略を示し、1つのキャビティサイクルの後に$g^{(2)}_{ac}=0.068(10)$を測定する。

We demonstrate the generation of photons within a fiber-cavity quantum memory, followed by later on-demand readout. Signal photons are generated by spontaneous four-wave mixing in a fiber cavity comprising a birefringent fiber with dichroic reflective end facets. The detection of the partner herald photon indicates the creation of the stored signal photon. After a delay, the signal photon is switched out of resonance with the fiber cavity by intracavity frequency translation using Bragg scattering four-wave mixing, driven by ancillary control pulses. We measure sub-Poissonian statistics in the output signal mode, with $g^{(2)}_{AC}=0.54(1)$ in the first readout bin and a readout frequency translation efficiency of $\approx$80%. The 1/e memory lifetime is $\approx$67 cavity cycles, or 1.68$\mu$s. In an alternate fiber cavity, we show a strategy for noise reduction and measure $g^{(2)}_{AC}=0.068(10)$ after one cavity cycle.
翻訳日:2024-02-01 13:29:25 公開日:2024-01-31
# carff:3次元シーン予測のための条件付き自動エンコードラミアンスフィールド

CARFF: Conditional Auto-encoded Radiance Field for 3D Scene Forecasting ( http://arxiv.org/abs/2401.18075v1 )

ライセンス: Link先を確認
Jiezhi Yang, Khushi Desai, Charles Packer, Harshil Bhatia, Nicholas Rhinehart, Rowan McAllister, Joseph Gonzalez(参考訳) 3次元シーン予測のための条件付き自動エンコードラミアンスフィールド(carff: conditional auto-encoded radiance field for 3d scene forecasting)を提案する。 本手法は,確率的エンコーダを用いて3次元潜在シーン構成の分布に画像をマッピングし,時間経過とともに仮想シーンの進化を予測する。 私たちの潜在シーン表現条件は,3次元シーンモデルを表現するためのグローバルニューラルラミアンスフィールド(nerf)であり,説明可能な予測と簡単な下流アプリケーションを可能にする。 このアプローチは、環境状態とダイナミクスにおける不確実性の複雑なシナリオを考慮して、従来のニューラルネットワークのレンダリング作業を超えて拡張される。 我々はPose-Conditional-VAEとNeRFの2段階のトレーニングを用いて3D表現を学習する。 さらに,混合密度ネットワークを用いて,潜在シーン表現を部分可観測マルコフ決定プロセスとして自己回帰的に予測する。 視覚閉塞を伴う複雑なマルチエージェント自律運転シナリオにおいて,carffを用いて効率的な軌道計画と随伴計画を実現するcarla driving simulatorを用いて,本手法の有用性を実証する。

We propose CARFF: Conditional Auto-encoded Radiance Field for 3D Scene Forecasting, a method for predicting future 3D scenes given past observations, such as 2D ego-centric images. Our method maps an image to a distribution over plausible 3D latent scene configurations using a probabilistic encoder, and predicts the evolution of the hypothesized scenes through time. Our latent scene representation conditions a global Neural Radiance Field (NeRF) to represent a 3D scene model, which enables explainable predictions and straightforward downstream applications. This approach extends beyond previous neural rendering work by considering complex scenarios of uncertainty in environmental states and dynamics. We employ a two-stage training of Pose-Conditional-VAE and NeRF to learn 3D representations. Additionally, we auto-regressively predict latent scene representations as a partially observable Markov decision process, utilizing a mixture density network. We demonstrate the utility of our method in realistic scenarios using the CARLA driving simulator, where CARFF can be used to enable efficient trajectory and contingency planning in complex multi-agent autonomous driving scenarios involving visual occlusions.
翻訳日:2024-02-01 13:29:07 公開日:2024-01-31
# 情報完全量子計測のためのデュアルフレーム最適化

Dual frame optimization for informationally complete quantum measurements ( http://arxiv.org/abs/2401.18071v1 )

ライセンス: Link先を確認
Laurin E. Fischer, Timoth\'ee Dao, Ivano Tavernelli, Francesco Tacchino(参考訳) 古典的なシャドウのようなランダム化測定プロトコルは量子技術の強力なリソースを表しており、量子状態のキャラクタリゼーションやプロセストモグラフィーから機械学習やエラー軽減まで幅広い応用がある。 近年、古典的な影をPOVM効果の双対作用素に一般化する測定二重フレームの概念が文献で再浮上している。 このことは、しばしば確立された技術によって無視されるランダム化測定の処理後の段階において、さらなる自由度に注意を向けた。 本研究では,2重フレームを用いて,情報的に完全な測定サンプルから観測可能な推定器を構築する。 実験周波数に基づくパラメトリライズドフレームスーパーオペレータと最適化フリーデュアルフレームの新たなクラスを導入し,計算効率を維持しつつ,標準周波数よりも優れた性能を提供する。 驚くべきことに、これはほとんど量子コストや古典コストがかからず、デュアルフレーム最適化はランダム化測定ツールボックスに価値ある追加である。

Randomized measurement protocols such as classical shadows represent powerful resources for quantum technologies, with applications ranging from quantum state characterization and process tomography to machine learning and error mitigation. Recently, the notion of measurement dual frames, in which classical shadows are generalized to dual operators of POVM effects, resurfaced in the literature. This brought attention to additional degrees of freedom in the post-processing stage of randomized measurements that are often neglected by established techniques. In this work, we leverage dual frames to construct improved observable estimators from informationally complete measurement samples. We introduce novel classes of parametrized frame superoperators and optimization-free dual frames based on empirical frequencies, which offer advantages over their canonical counterparts while retaining computational efficiency. Remarkably, this comes at almost no quantum or classical cost, thus rendering dual frame optimization a valuable addition to the randomized measurement toolbox.
翻訳日:2024-02-01 13:28:47 公開日:2024-01-31
# 言語モデルは、人間の学習者と同じ問題解決における認知バイアスを示すか?

Do Language Models Exhibit the Same Cognitive Biases in Problem Solving as Human Learners? ( http://arxiv.org/abs/2401.18070v1 )

ライセンス: Link先を確認
Andreas Opedal, Alessandro Stolfo, Haruki Shirakami, Ying Jiao, Ryan Cotterell, Bernhard Sch\"olkopf, Abulhair Saparov, Mrinmaya Sachan(参考訳) 認知モデルとして大規模言語モデル(LLM)を採用することへの関心が高まっている。 このような目的のために、どの認知特性がllmによってよくモデル化され、どれがそうでないかを理解することが中心である。 本研究では, 算術語問題を解く際に, 子どもに知られている問題とllmのバイアスについて検討する。 学習科学文献を調査した結果,問題解決プロセスは,テキスト理解,ソリューション計画,ソリューション実行という3つの異なるステップに分けられることが示唆された。 このプロセスのどの部分が現在のLLMで忠実にモデル化できるかを理解するために、それぞれのテストを構築します。 問題の特徴をきめ細かな制御を可能にするニューロシンボリック法を用いて,これらのテスト毎に新たな単語問題を生成する。 llmは,命令のチューニングの有無に関わらず,問題解決過程のテキスト理解と解計画段階の両方において人間のようなバイアスを示すが,問題の算術式(解法実行)に依存する最終段階の間はそうではない。

There is increasing interest in employing large language models (LLMs) as cognitive models. For such purposes, it is central to understand which cognitive properties are well-modeled by LLMs, and which are not. In this work, we study the biases of LLMs in relation to those known in children when solving arithmetic word problems. Surveying the learning science literature, we posit that the problem-solving process can be split into three distinct steps: text comprehension, solution planning and solution execution. We construct tests for each one in order to understand which parts of this process can be faithfully modeled by current state-of-the-art LLMs. We generate a novel set of word problems for each of these tests, using a neuro-symbolic method that enables fine-grained control over the problem features. We find evidence that LLMs, with and without instruction-tuning, exhibit human-like biases in both the text-comprehension and the solution-planning steps of the solving process, but not during the final step which relies on the problem's arithmetic expressions (solution execution).
翻訳日:2024-02-01 13:28:30 公開日:2024-01-31
# RAPTOR: 木構造検索のための再帰的抽象処理

RAPTOR: Recursive Abstractive Processing for Tree-Organized Retrieval ( http://arxiv.org/abs/2401.18059v1 )

ライセンス: Link先を確認
Parth Sarthi, Salman Abdullah, Aditi Tuli, Shubh Khanna, Anna Goldie, Christopher D. Manning(参考訳) 検索可能な言語モデルは、世界の状況の変化に適応し、長い知識を取り入れることができる。 しかし、既存のほとんどの手法は、検索コーパスから短い連続的なチャンクのみを検索し、全体の文書コンテキストの全体的理解を制限する。 本稿では,テキストのチャンクを再帰的埋め込み,クラスタリング,要約するという新しいアプローチを導入し,底面から異なる要約レベルを持つ木を構築する。 推論時には、この木からラプターモデルを抽出し、さまざまな抽象レベルで長いドキュメントにまたがる情報を統合します。 制御された実験により、再帰的な要約による検索は、いくつかのタスクで従来の検索型lmsよりも大幅に改善されることが示された。 複雑で多段階の推論を含む質問応答タスクでは、例えば、RAPTOR検索とGPT-4を結合することにより、QuALITYベンチマークの最高の性能を20%精度で向上させることができる。

Retrieval-augmented language models can better adapt to changes in world state and incorporate long-tail knowledge. However, most existing methods retrieve only short contiguous chunks from a retrieval corpus, limiting holistic understanding of the overall document context. We introduce the novel approach of recursively embedding, clustering, and summarizing chunks of text, constructing a tree with differing levels of summarization from the bottom up. At inference time, our RAPTOR model retrieves from this tree, integrating information across lengthy documents at different levels of abstraction. Controlled experiments show that retrieval with recursive summaries offers significant improvements over traditional retrieval-augmented LMs on several tasks. On question-answering tasks that involve complex, multi-step reasoning, we show state-of-the-art results; for example, by coupling RAPTOR retrieval with the use of GPT-4, we can improve the best performance on the QuALITY benchmark by 20% in absolute accuracy.
翻訳日:2024-02-01 13:28:13 公開日:2024-01-31
# LongAlign: 大規模言語モデルの長いコンテキストアライメントのためのレシピ

LongAlign: A Recipe for Long Context Alignment of Large Language Models ( http://arxiv.org/abs/2401.18058v1 )

ライセンス: Link先を確認
Yushi Bai, Xin Lv, Jiajie Zhang, Yuze He, Ji Qi, Lei Hou, Jie Tang, Yuxiao Dong, Juanzi Li(参考訳) 長いコンテキストを効果的に扱うために大きな言語モデルを拡張するには、同じ長さの入力シーケンスを微調整する必要がある。 これに対処するため、長いコンテキストアライメントのための命令データ、トレーニング、評価のレシピであるLongAlignを紹介します。 まず,Self-Instructを用いて長い指示追従データセットを構築する。 データ多様性を保証するため、様々な長いコンテキストソースから幅広いタスクをカバーしている。 第2に,パッキングとソートによるバッチ戦略を採用し,長さ分布の異なるデータに対する教師あり微調整を高速化する。 さらに,パッキングトレーニング中に異なるシーケンスにまたがる損失に対する貢献のバランスをとるための損失重み付け手法を開発した。 第3に,10k-100kのクエリに対して命令追従能力を評価するためのLongBench-Chatベンチマークを提案する。 実験によると、LongAlignはLLMの既存のレシピを最大30倍の性能で上回り、同時に短い汎用的なタスクを扱う能力も維持している。 コード、データ、ロングアラインモデルはhttps://github.com/THUDM/LongAlign.comでオープンソース化されている。

Extending large language models to effectively handle long contexts requires instruction fine-tuning on input sequences of similar length. To address this, we present LongAlign -- a recipe of the instruction data, training, and evaluation for long context alignment. First, we construct a long instruction-following dataset using Self-Instruct. To ensure the data diversity, it covers a broad range of tasks from various long context sources. Second, we adopt the packing and sorted batching strategies to speed up supervised fine-tuning on data with varied length distributions. Additionally, we develop a loss weighting method to balance the contribution to the loss across different sequences during packing training. Third, we introduce the LongBench-Chat benchmark for evaluating instruction-following capabilities on queries of 10k-100k in length. Experiments show that LongAlign outperforms existing recipes for LLMs in long context tasks by up to 30\%, while also maintaining their proficiency in handling short, generic tasks. The code, data, and long-aligned models are open-sourced at https://github.com/THUDM/LongAlign.
翻訳日:2024-02-01 13:27:55 公開日:2024-01-31
# 時系列分類における教師付きコントラスト学習

Rank Supervised Contrastive Learning for Time Series Classification ( http://arxiv.org/abs/2401.18057v1 )

ライセンス: Link先を確認
Qianying Ren, Dongsheng Luo, Dongjin Song(参考訳) 近年,時系列データを分類し,有望な性能を示すためのコントラスト学習手法が開発されている。 一般的なパラダイムは、類似したデータポイントを特徴空間に密接にマッピングし、異質なデータポイントをより遠くに押すことによって、エンコーダがロバストで判別的な表現を得られるように、適切な拡張と実現可能なポジティブなサンプルを構築することである。 有効性にもかかわらず、特にラベル付きサンプルが限られている場合には、正のサンプルの細かな相対的類似性(ランクなど)はほとんど無視される。 この目的のために、時系列分類を行うためにRankSCL(Rank Supervised Contrastive Learning)を提示する。 従来のコントラスト学習フレームワークとは異なり、ranksclは埋め込み空間で対象とする方法で生データを拡張し、特定のフィルタリングルールを採用し、より有益でネガティブなサンプルペアを選択する。 さらに、異なるレベルの正のサンプルに対して異なる重みを割り当て、エンコーダが同一クラスのきめ細かい情報を抽出し、異なるクラス間の明確な境界を生成できるように、新しいランク損失が開発された。 128のUCRデータセットと30のUEAデータセットに関する大まかに実証的な研究は、提案されたRangSCLが既存のベースライン手法と比較して最先端のパフォーマンスを達成できることを実証している。

Recently, various contrastive learning techniques have been developed to categorize time series data and exhibit promising performance. A general paradigm is to utilize appropriate augmentations and construct feasible positive samples such that the encoder can yield robust and discriminative representations by mapping similar data points closer together in the feature space while pushing dissimilar data points farther apart. Despite its efficacy, the fine-grained relative similarity (e.g., rank) information of positive samples is largely ignored, especially when labeled samples are limited. To this end, we present Rank Supervised Contrastive Learning (RankSCL) to perform time series classification. Different from conventional contrastive learning frameworks, RankSCL augments raw data in a targeted way in the embedding space and adopts certain filtering rules to select more informative positive and negative pairs of samples. Moreover, a novel rank loss is developed to assign different weights for different levels of positive samples, enable the encoder to extract the fine-grained information of the same class, and produce a clear boundary among different classes. Thoroughly empirical studies on 128 UCR datasets and 30 UEA datasets demonstrate that the proposed RankSCL can achieve state-of-the-art performance compared to existing baseline methods.
翻訳日:2024-02-01 13:27:37 公開日:2024-01-31
# 集積フォトニクスQCCDデバイスにおけるマルチゾーンイオン量子ビット制御

Multi-zone trapped-ion qubit control in an integrated photonics QCCD device ( http://arxiv.org/abs/2401.18056v1 )

ライセンス: Link先を確認
Carmelo Mordini, Alfredo Ricci Vasquez, Yuto Motohashi, Mose M\"uller, Maciej Malinowski, Chi Zhang, Karan K. Mehta, Daniel Kienzler, Jonathan P. Home(参考訳) 大規模アーキテクチャでは、多重化操作と複数のトラップサイトに対するコヒーレント制御がトラップイオンプロセッサの基本要件である。 本稿では,より多数のゾーンに拡張可能なフォトニックコンポーネントを組み込んだ表面電極トラップを用いて,これらのビルディングブロックを実演する。 375$\mu$mで分離し、パルス間の200$\mu$sで一方のゾーンからもう一方のゾーンへイオンを輸送するラムゼー系列を実装した。 輸送中の低運動励起を実現するために, イオンへの集積光を照射する誘電体表面の効果を測定し, 緩和する手法を開発した。 また,低光クロストーク領域における2つのイオンの同時制御を実証し,これを用いて2つの部位間の場雑音の相関化を行う。 本研究は, 集積型フォトニックイオントラップシステムにおける最初のトランスポートおよびコヒーレントマルチゾーン操作を示し, トラップ型qccdアーキテクチャのさらなるスケーリングの基礎を築いた。

Multiplexed operations and extended coherent control over multiple trapping sites are fundamental requirements for a trapped-ion processor in a large scale architecture. Here we demonstrate these building blocks using a surface electrode trap with integrated photonic components which are scalable to larger numbers of zones. We implement a Ramsey sequence using the integrated light in two zones, separated by 375 $\mu$m, performing transport of the ion from one zone to the other in 200 $\mu$s between pulses. In order to achieve low motional excitation during transport we developed techniques to measure and mitigate the effect of the exposed dielectric surfaces used to deliver the integrated light to the ion. We also demonstrate simultaneous control of two ions in separate zones with low optical crosstalk, and use this to perform simultaneous spectroscopy to correlate field noise between the two sites. Our work demonstrates the first transport and coherent multi-zone operations in integrated photonic ion trap systems, forming the basis for further scaling in the trapped-ion QCCD architecture.
翻訳日:2024-02-01 13:27:12 公開日:2024-01-31
# スケルトンベース行動認識のための連続グラフ学習のベンチマーク感度

Benchmarking Sensitivity of Continual Graph Learning for Skeleton-Based Action Recognition ( http://arxiv.org/abs/2401.18054v1 )

ライセンス: Link先を確認
Wei Wei, Tom De Schepper, Kevin Mets(参考訳) 継続的学習(Continuous Learning, CL)は、さまざまなタスクに対して知識を継続的に蓄積するマシンラーニングモデルを構築するための研究分野である。 これまでの研究では、事前学習されたグラフニューラルネットワーク(gnn)が微調整後の負の転送(huなど、2020年)につながる可能性があることが示されている。 そこで我々は,連続グラフ学習(CGL)におけるGNNの研究に注力する。 本稿では、時空間グラフのための最初の連続グラフ学習ベンチマークを提案し、この新しい設定でよく知られたCGL手法のベンチマークに使用する。 このベンチマークは骨格に基づく行動認識のためのN-UCLAとNTU-RGB+Dデータセットに基づいている。 標準性能指標のベンチマーク以外にも,各クラス/タスクのパフォーマンスに対する学習順序の影響や,様々な幅と深さでバックボーンGNNを用いたCGLメソッドのアーキテクチャ感度など,CGLメソッドのクラスおよびタスク順の感度について検討する。 タスク順ロバストなメソッドはクラス順に敏感であり、clのアーキテクチャの感度に関する以前の経験的観察と矛盾する結果を観察できることを明らかにする。

Continual learning (CL) is the research field that aims to build machine learning models that can accumulate knowledge continuously over different tasks without retraining from scratch. Previous studies have shown that pre-training graph neural networks (GNN) may lead to negative transfer (Hu et al., 2020) after fine-tuning, a setting which is closely related to CL. Thus, we focus on studying GNN in the continual graph learning (CGL) setting. We propose the first continual graph learning benchmark for spatio-temporal graphs and use it to benchmark well-known CGL methods in this novel setting. The benchmark is based on the N-UCLA and NTU-RGB+D datasets for skeleton-based action recognition. Beyond benchmarking for standard performance metrics, we study the class and task-order sensitivity of CGL methods, i.e., the impact of learning order on each class/task's performance, and the architectural sensitivity of CGL methods with backbone GNN at various widths and depths. We reveal that task-order robust methods can still be class-order sensitive and observe results that contradict previous empirical observations on architectural sensitivity in CL.
翻訳日:2024-02-01 13:26:56 公開日:2024-01-31
# 古典的影を超えた情報過完全測定データの古典的最適化による観測可能推定の強化

Enhanced observable estimation through classical optimization of informationally over-complete measurement data -- beyond classical shadows ( http://arxiv.org/abs/2401.18049v1 )

ライセンス: Link先を確認
Joonas Malmi, Keijo Korhonen, Daniel Cavalcanti, Guillermo Garc\'ia-P\'erez(参考訳) 近年では、特に古典的な影の文脈において、情報の完全な測定が注目されている。 ヒルベルト空間における線型作用素の空間の次元を超える可能性のある結果数を持つ情報的超完備な測定の場合、測定結果の解釈に用いられる双対 povm 演算子は一意に定義されていない。 本研究では,観測対象のよりシャープで偏りのない推定値を生成するために,測定後の双対演算子を最適化する手法を提案する。 本稿では,古典的影が正規双対に依存する場合,指数関数的に大きな測定オーバーヘッドが発生する場合において,この手法がゼロ分散推定を実現する方法について論じる。 また、ランダム化パウリ測定を用いて量子シミュレーションの文脈で解析を行い、複数の観測可能な推定における正準双対に対する統計的誤差を著しく低減できることを示す。

In recent years, informationally complete measurements have attracted considerable attention, especially in the context of classical shadows. In the particular case of informationally over-complete measurements, for which the number of possible outcomes exceeds the dimension of the space of linear operators in Hilbert space, the dual POVM operators used to interpret the measurement outcomes are not uniquely defined. In this work, we propose a method to optimize the dual operators after the measurements have been carried out in order to produce sharper, unbiased estimations of observables of interest. We discuss how this procedure can produce zero-variance estimations in cases where the classical shadows formalism, which relies on so-called canonical duals, incurs exponentially large measurement overheads. We also analyze the algorithm in the context of quantum simulation with randomized Pauli measurements, and show that it can significantly reduce statistical errors with respect to canonical duals on multiple observable estimations.
翻訳日:2024-02-01 13:26:34 公開日:2024-01-31
# 合成画像検索のためのデュアルリレーションアライメント

Dual Relation Alignment for Composed Image Retrieval ( http://arxiv.org/abs/2309.02169v3 )

ライセンス: Link先を確認
Xintong Jiang, Yaxiong Wang, Yujiao Wu, Meng Wang, Xueming Qian(参考訳) 合成画像検索は、参照画像を用いた対象画像の検索と、クエリとしての補完テキストの検索を伴うタスクであり、クロスモーダルモデリングの進歩により、大幅に進歩している。 1つのアライメント関係のみを持つ一般的な画像テキスト検索問題、すなわち画像テキストとは異なり、合成画像検索において2種類の関係が存在することを議論する。 明示的な関係は、既存の方法によって一般的に利用される参照画像と補完的なテキストターゲット画像に関連する。 この直感的関係に加えて、我々の実践中の観察では、対象画像と参照画像の関係を研究することにより、補完的なテキストを推測できることから、参照画像とターゲット画像の補完テキストという、暗黙的かつ重要な関係が明らかになった。 既存の手法は、暗黙の関係を見下ろしながら、ネットワークを学習するために明示的な関係を活用することに重点を置いている。 この弱点に対応するために,三重項間の相関関係を完全に活用するために,明示的関係と暗黙的関係を統合した合成画像検索のための新しい枠組みを提案する。 具体的には、まず、基準画像と対象画像とを融合させる視覚合成器を設計し、その結果得られた表現は、(1)補完テキストと意味的アライメントの対応、(2)明示的な関係モデリングを促進するために補完テキストの補償という2つの役割を担い、暗黙的な関係をアライメント学習に組み込む。 提案手法は,CIRRとFashionIQの2つの一般的なデータセットに対して,広範な実験により評価する。 その結果,合成画像検索性能が大幅に向上する上で,二重相関学習の有効性が確認できた。

Composed image retrieval, a task involving the search for a target image using a reference image and a complementary text as the query, has witnessed significant advancements owing to the progress made in cross-modal modeling. Unlike the general image-text retrieval problem with only one alignment relation, i.e., image-text, we argue for the existence of two types of relations in composed image retrieval. The explicit relation pertains to the reference image & complementary text-target image, which is commonly exploited by existing methods. Besides this intuitive relation, the observations during our practice have uncovered another implicit yet crucial relation, i.e., reference image & target image-complementary text, since we found that the complementary text can be inferred by studying the relation between the target image and the reference image. Regrettably, existing methods largely focus on leveraging the explicit relation to learn their networks, while overlooking the implicit relation. In response to this weakness, We propose a new framework for composed image retrieval, termed dual relation alignment, which integrates both explicit and implicit relations to fully exploit the correlations among the triplets. Specifically, we design a vision compositor to fuse reference image and target image at first, then the resulted representation will serve two roles: (1) counterpart for semantic alignment with the complementary text and (2) compensation for the complementary text to boost the explicit relation modeling, thereby implant the implicit relation into the alignment learning. Our method is evaluated on two popular datasets, CIRR and FashionIQ, through extensive experiments. The results confirm the effectiveness of our dual-relation learning in substantially enhancing composed image retrieval performance.
翻訳日:2024-02-01 11:40:19 公開日:2024-01-31
# 遅延ディリクレ変分オートエンコーダを用いたハイパースペクトルレンズアンミキシング

Hyperspectral Pixel Unmixing with Latent Dirichlet Variational Autoencoder ( http://arxiv.org/abs/2203.01327v5 )

ライセンス: Link先を確認
Kiran Mantripragada and Faisal Z. Qureshi(参考訳) ハイパースペクトル画素 {\it unmixing} の手法を提案する。 提案手法は,(1) 量の分布をディリクレ分布として符号化し,(2) のスペクトルを多変量正規分布として表現できると仮定する。 この方法は、ディリクレボトルネック層が存在量をモデル化する変分オートエンコーダ設定において、存在量推定とエンドメンバー抽出の問題を解決し、デコーダがエンドメンバー抽出を行う。 提案手法は,1つ以上の参加者の線形結合である画素を含む合成データに対してのみモデルを訓練するトランスファーラーニングパラダイムを利用することができる。 この場合、アメリカ地質調査所のスペクトルライブラリーからエンドメンバー(spectra)を検索する。 このように訓練されたモデルは、その後、合成データを生成するために使用されるエンドメンバーのサブセットを含む「実データ」のピクセルアンミックスを実行するために使うことができる。 このモデルは、いくつかのベンチマーク(Cuprite、Urban Hydice、Samson)で最先端の結果を得る。 また,ハイパースペクトル画素アンミックス法の研究に使用できる新しい合成データセットontech-hsi-syn-21を提案する。 提案するモデルの転送学習能力を,CuupriteとOnTech-HSI-Syn-21データセットで示す。 要約すると, 農業, 林業, 鉱物学, 材料分析, 医療など, 様々な分野の画素を解き放つために, 提案手法を適用することができる。 さらに,「現実」データに存在するエンドメンバーを用いて生成した合成データに基づいてモデルをトレーニングするトランスファー学習パラダイムを活用することで,学習のためのラベル付きデータの必要性を緩和する。

We present a method for hyperspectral pixel {\it unmixing}. The proposed method assumes that (1) {\it abundances} can be encoded as Dirichlet distributions and (2) spectra of {\it endmembers} can be represented as multivariate Normal distributions. The method solves the problem of abundance estimation and endmember extraction within a variational autoencoder setting where a Dirichlet bottleneck layer models the abundances, and the decoder performs endmember extraction. The proposed method can also leverage transfer learning paradigm, where the model is only trained on synthetic data containing pixels that are linear combinations of one or more endmembers of interest. In this case, we retrieve endmembers (spectra) from the United States Geological Survey Spectral Library. The model thus trained can be subsequently used to perform pixel unmixing on "real data" that contains a subset of the endmembers used to generated the synthetic data. The model achieves state-of-the-art results on several benchmarks: Cuprite, Urban Hydice and Samson. We also present new synthetic dataset, OnTech-HSI-Syn-21, that can be used to study hyperspectral pixel unmixing methods. We showcase the transfer learning capabilities of the proposed model on Cuprite and OnTech-HSI-Syn-21 datasets. In summary, the proposed method can be applied for pixel unmixing a variety of domains, including agriculture, forestry, mineralogy, analysis of materials, healthcare, etc. Additionally, the proposed method eschews the need for labelled data for training by leveraging the transfer learning paradigm, where the model is trained on synthetic data generated using the endmembers present in the "real" data.
翻訳日:2024-02-01 11:39:48 公開日:2024-01-31
# 長尾物体検出における回帰バイアスの補正

Rectify the Regression Bias in Long-Tailed Object Detection ( http://arxiv.org/abs/2401.15885v2 )

ライセンス: Link先を確認
Ke Zhu, Minghao Fu, Jie Shao, Tianyu Liu, Jianxin Wu(参考訳) ロングテールオブジェクト検出は、非常に不均衡なクラス分散のため、大きな課題に直面している。 近年の手法は, 回帰枝の微妙な影響を無視しつつ, 分類バイアスとその損失関数設計に重点を置いている。 本稿では,回帰バイアスが存在し,検出精度に悪影響を及ぼすことを示す。 既存手法では回帰バイアスに対処できないが,本論文では,レアクラスのクラス固有の回帰ヘッドが主な原因であると仮定する。 その結果,クラス非依存のブランチの追加,クラスタリングヘッド,マージヘッドの3種類が提案されている。 提案手法は, 従来のロングテール検出法, 特にレアクラスおよびコモンクラスに対して, 一貫性と大幅な改善をもたらす。 提案手法は,異なるバックボーンとアーキテクチャを持つ大語彙LVISデータセットの最先端性能を実現する。 より難しい評価指標、比較的バランスの取れたデータセット、マスクブランチをうまく一般化する。 これは、長い尾を持つ物体検出における回帰バイアスの修正を明らかにするための最初の試みである。

Long-tailed object detection faces great challenges because of its extremely imbalanced class distribution. Recent methods mainly focus on the classification bias and its loss function design, while ignoring the subtle influence of the regression branch. This paper shows that the regression bias exists and does adversely and seriously impact the detection accuracy. While existing methods fail to handle the regression bias, the class-specific regression head for rare classes is hypothesized to be the main cause of it in this paper. As a result, three kinds of viable solutions to cater for the rare categories are proposed, including adding a class-agnostic branch, clustering heads and merging heads. The proposed methods brings in consistent and significant improvements over existing long-tailed detection methods, especially in rare and common classes. The proposed method achieves state-of-the-art performance in the large vocabulary LVIS dataset with different backbones and architectures. It generalizes well to more difficult evaluation metrics, relatively balanced datasets, and the mask branch. This is the first attempt to reveal and explore rectifying of the regression bias in long-tailed object detection.
翻訳日:2024-02-01 11:36:52 公開日:2024-01-31
# バイチュアン2-sum:対話要約のための指導細かなバイチュアン2-7bモデル

Baichuan2-Sum: Instruction Finetune Baichuan2-7B Model for Dialogue Summarization ( http://arxiv.org/abs/2401.15496v2 )

ライセンス: Link先を確認
Jianfei Xiao, Yancan Chen, Yimin Ou, Hanyi Yu, Yiyong Xiao(参考訳) Llama、Baichuan、Bloomモデルのような大規模言語モデル(LLM)は、多くの自然言語タスクにおいて命令を微調整する優れた能力を示している。 それでも、対話における異なる役割の要約を意図した対話要約タスクでは、最先端の手法のほとんどは小さなモデル(例えばバートやバート)で実行される。 既存の方法は、グローバルな局所集中度スコアをモデルに追加するなど、小さなモデルにタスク指定の最適化を追加しようとする。 本稿では,役割指向のダイアグルージュ要約のための命令微調整モデルBaichuan2-Sumを提案する。 異なる役割に対して異なる指示を設定することで、モデルは対話対話から学び、期待される要約を出力することができる。 さらに, NEFTune 法を用いてトレーニング中に適切な雑音を付加し, 結果を改善する。 実験により,提案モデルがCSDSとSAMSUMの2つの公開対話要約データセットに対して,新たな最先端結果が得られることを示した。 我々は,対話要約タスクの今後の研究を容易にするため,モデルおよび関連コードをリリースする。

Large language models (LLMs) like Llama, Baichuan and Bloom models show remarkable ability with instruction fine-tuning in many natural language tasks. Nevertheless, for the dialogue summarization task, which aims to generate summaries for different roles in dialogue, most of the state-of-the-art methods conduct on small models (e.g Bart and Bert). Existing methods try to add task specified optimization on small models like adding global-local centrality score to models. In this paper, we propose an instruction fine-tuning model: Baichuan2-Sum, for role-oriented diaglouge summarization. By setting different instructions for different roles, the model can learn from the dialogue interactions and output the expected summaries. Furthermore, we applied NEFTune technique to add suitable noise during training to improve the results. The experiments demonstrate that the proposed model achieves the new state-of-the-art results on two public dialogue summarization datasets: CSDS and SAMSUM. We release our model and related codes to facilitate future studies on dialogue summarization task.
翻訳日:2024-02-01 11:35:50 公開日:2024-01-31
# 風速超解像と検証:拡散モデルによるERA5からCERRAへ

Wind speed super-resolution and validation: from ERA5 to CERRA via diffusion models ( http://arxiv.org/abs/2401.15469v2 )

ライセンス: Link先を確認
Fabio Merizzi, Andrea Asperti, Stefano Colamonaco(参考訳) Copernicus Regional Reanalysis for Europe(CERRA)は、欧州領域における高解像度な地域分析データセットである。 近年では、予測や気候変動研究から再生可能エネルギーの予測、資源管理、大気汚染リスク評価、希少事象の予測など、様々な気候関連タスクにおいて重要な有用性を示している。 残念ながら、CERRAの可用性は、必要な外部データを取得することの制約と、その生成に固有の計算要求により、現在よりも2年遅れている。 そこで本研究では,CERRAダウンスケーリングをデータ駆動方式で近似するために拡散モデルを用いた新しい手法を提案する。 CERRAの境界条件を提供する低分解能ERA5データセットを利用することで、我々はこれを超分解能タスクとしてアプローチする。 イタリア周辺の風速に着目して,既存のCERRAデータに基づいてトレーニングを行った結果,有望な結果を示し,オリジナルのCERRAデータを忠実に反映した。 その場観測による検証は、模型の地上測定の近似精度をさらに確認する。

The Copernicus Regional Reanalysis for Europe, CERRA, is a high-resolution regional reanalysis dataset for the European domain. In recent years it has shown significant utility across various climate-related tasks, ranging from forecasting and climate change research to renewable energy prediction, resource management, air quality risk assessment, and the forecasting of rare events, among others. Unfortunately, the availability of CERRA is lagging two years behind the current date, due to constraints in acquiring the requisite external data and the intensive computational demands inherent in its generation. As a solution, this paper introduces a novel method using diffusion models to approximate CERRA downscaling in a data-driven manner, without additional informations. By leveraging the lower resolution ERA5 dataset, which provides boundary conditions for CERRA, we approach this as a super-resolution task. Focusing on wind speed around Italy, our model, trained on existing CERRA data, shows promising results, closely mirroring original CERRA data. Validation with in-situ observations further confirms the model's accuracy in approximating ground measurements.
翻訳日:2024-02-01 11:35:32 公開日:2024-01-31
# DiffuserLite: リアルタイム拡散計画に向けて

DiffuserLite: Towards Real-time Diffusion Planning ( http://arxiv.org/abs/2401.15443v3 )

ライセンス: Link先を確認
Zibin Dong, Jianye Hao, Yifu Yuan, Fei Ni, Yitian Wang, Pengyi Li and Yan Zheng(参考訳) 拡散計画は様々な分野において効果的な意思決定パラダイムとして認識されている。 長距離軌道の高品質条件生成能力は、有望な研究方向となる。 しかし,既存の拡散計画手法では,反復サンプリングコストがかかるため,意思決定頻度が低くなっている。 この問題に対処するために、高速で軽量な拡散計画フレームワークであるDiffuserLiteを紹介します。 DiffuserLiteは計画改善プロセス(PRP)を用いて粗粒度軌道を生成し、冗長な情報のモデリングを大幅に削減し、意思決定頻度を顕著に向上させる。 我々の実験結果は、DiffuserLiteが以前のフレームワークと比較してランタイムコストの0.88\%しか必要とせず、平均決定周波数が122$Hzに達し、D4RLベンチマークで最先端のパフォーマンスに達することを示した。 さらに、我々のクリーンなDiffuserLiteフレームワークは、他の拡散計画アルゴリズムにおける決定頻度を高めるフレキシブルなプラグインとして機能し、将来の作業のための構造設計リファレンスを提供する。 詳細と可視化はプロジェクトのwebサイト(https://diffuserlite.github.io/)で確認できる。

Diffusion planning has been recognized as an effective decision-making paradigm in various domains. The high-quality conditional generation capability of long-horizon trajectories makes it a promising research direction. However, existing diffusion planning methods suffer from low decision-making frequencies because of the expensive iterative sampling cost. To address this issue, we introduce DiffuserLite, a fast and lightweight diffusion planning framework. DiffuserLite employs a planning refinement process (PRP) to generate coarse-to-fine-grained trajectories, significantly reducing the modeling of redundant information and leading to notable increases in decision-making frequency. Our experimental results demonstrate that DiffuserLite needs only $0.88\%$ of the runtime cost compared to previous frameworks, achieves an average decision-making frequency of $122$Hz, and reaches state-of-the-art performance on D4RL benchmarks. In addition, our clean DiffuserLite framework can serve as a flexible plugin to enhance decision frequency in other diffusion planning algorithms, providing a structural design reference for future works. More details and visualizations are available at [project website](https://diffuserlite.github.io/).
翻訳日:2024-02-01 11:35:14 公開日:2024-01-31
# RAGに基づくイスラム教理解のための質問応答システムの提案:MufassirQAS LLM

A RAG-based Question Answering System Proposal for Understanding Islam: MufassirQAS LLM ( http://arxiv.org/abs/2401.15378v3 )

ライセンス: Link先を確認
Ahmet Yusuf Alan, Enis Karaarslan, \"Omer Aydin(参考訳) 宗教の教義と教えの複雑さと深さの存在として、宗教の学習と理解に課題がある。 質問応答システムとしてのチャットボットは、これらの課題を解決するのに役立つ。 LLMチャットボットはNLP技術を用いてトピック間の接続を確立し、複雑な質問に正確に応答する。 これらの能力は、チャットボットに答える質問として宗教啓蒙に使用するのに最適である。 しかし、LSMは幻覚として知られる偽情報を生成する傾向がある。 チャットボットの反応には、個人的な宗教的信念を侮辱するコンテンツ、信仰間の対立、論争やセンシティブなトピックが含まれる。 ヘイトスピーチを宣伝したり、特定のグループやその信念を非難したりすることなく、そのような事件を避ける必要がある。 本研究は,LLMの精度と透明性を高めるために,ベクトルデータベースに基づくRetrieval Augmented Generation(RAG)アプローチを用いる。 質問応答システムは「MufassirQAS」と呼ばれる。 トルコのコンテキストを含むいくつかのオープンアクセスブックを備えたベクトルデータベースを作成しました。 これらはトルコ語訳であり、イスラム教の解釈である。 我々は,システムプロンプトの作成と,有害,攻撃的,あるいは無礼な反応を防止するための指示の提供に取り組んできた。 また, MufassirQAS と ChatGPT も検討した。 私たちはシステムの性能が良くなった。 研究と強化はまだ進行中である。 結果と今後の成果が示される。

There exist challenges in learning and understanding religions as the presence of complexity and depth of religious doctrines and teachings. Chatbots as question-answering systems can help in solving these challenges. LLM chatbots use NLP techniques to establish connections between topics and accurately respond to complex questions. These capabilities make it perfect to be used in enlightenment on religion as a question answering chatbot. However, LLMs also have a tendency to generate false information, known as hallucination. The responses of the chatbots can include content that insults personal religious beliefs, interfaith conflicts, and controversial or sensitive topics. It needs to avoid such cases without promoting hate speech or offending certain groups of people or their beliefs. This study uses a vector database-based Retrieval Augmented Generation (RAG) approach to enhance the accuracy and transparency of LLMs. Our question-answering system is called as "MufassirQAS". We created a vector database with several open-access books that include Turkish context. These are Turkish translations, and interpretations on Islam. We worked on creating system prompts with care, ensuring they provide instructions that prevent harmful, offensive, or disrespectful responses. We also tested the MufassirQAS and ChatGPT with sensitive questions. We got better performance with our system. Study and enhancements are still in progress. Results and future works are given.
翻訳日:2024-02-01 11:34:53 公開日:2024-01-31
# 球面上の散乱データフィッティングのための積分演算子アプローチ

Integral Operator Approaches for Scattered Data Fitting on Spheres ( http://arxiv.org/abs/2401.15294v2 )

ライセンス: Link先を確認
Shao-Bo Lin(参考訳) 本稿では,球面上の分散データ適合問題に焦点をあてる。 本稿では,Tikhonov正規化,Landaweber反復,スペクトルカットオフ,反復化Tikhonovを含む,重み付きスペクトルフィルタアルゴリズムの近似性能について検討する。 そこで本研究では,分散データフィッティングのコミュニティにおいて,広く使用されているサンプリング不等式アプローチとノルムセット手法の拡張として,積分演算子アプローチを開発する。 演算子差と二次規則の等価性を提供し、重み付きスペクトルフィルタアルゴリズムの最適ソボレフ型誤差推定を導出することに成功した。 我々の導出誤差推定は、文献におけるチホノフ正則化の飽和現象、既存の誤差解析のためのネイティブ・スペース・バリエ、および異なる埋め込み空間に適応する。 また,重み付きスペクトルフィルタアルゴリズムを装備することで計算負荷を低減し,最適近似誤差境界を提案する。

This paper focuses on scattered data fitting problems on spheres. We study the approximation performance of a class of weighted spectral filter algorithms, including Tikhonov regularization, Landaweber iteration, spectral cut-off, and iterated Tikhonov, in fitting noisy data with possibly unbounded random noise. For the analysis, we develop an integral operator approach that can be regarded as an extension of the widely used sampling inequality approach and norming set method in the community of scattered data fitting. After providing an equivalence between the operator differences and quadrature rules, we succeed in deriving optimal Sobolev-type error estimates of weighted spectral filter algorithms. Our derived error estimates do not suffer from the saturation phenomenon for Tikhonov regularization in the literature, native-space-barrier for existing error analysis and adapts to different embedding spaces. We also propose a divide-and-conquer scheme to equip weighted spectral filter algorithms to reduce their computational burden and present the optimal approximation error bounds.
翻訳日:2024-02-01 11:34:08 公開日:2024-01-31
# 任意線形変換による適応ブロックスパース正規化

Adaptive Block Sparse Regularization under Arbitrary Linear Transform ( http://arxiv.org/abs/2401.15292v2 )

ライセンス: Link先を確認
Takanobu Furuhashi, Hidekata Hontani, Tatsuya Yokota(参考訳) 未知ブロック構造を持つ任意の線形変換下でのブロックスパーシティの凸信号再構成法を提案する。 提案手法は,既存のLOP-$\ell_2$/$\ell_1$の一般化であり,LOP-$\ell_2$/$\ell_1$とは異なり,非可逆変換の下でブロック間隔で信号を再構成することができる。 我々の研究はブロックスパース正規化の範囲を広げ、様々な信号処理領域にまたがるより汎用的で強力なアプリケーションを可能にする。 提案手法を解くための反復アルゴリズムを導出し,その最適解への収束条件を提供する。 提案手法の有効性を示す数値実験を行った。

We propose a convex signal reconstruction method for block sparsity under arbitrary linear transform with unknown block structure. The proposed method is a generalization of the existing method LOP-$\ell_2$/$\ell_1$ and can reconstruct signals with block sparsity under non-invertible transforms, unlike LOP-$\ell_2$/$\ell_1$. Our work broadens the scope of block sparse regularization, enabling more versatile and powerful applications across various signal processing domains. We derive an iterative algorithm for solving proposed method and provide conditions for its convergence to the optimal solution. Numerical experiments demonstrate the effectiveness of the proposed method.
翻訳日:2024-02-01 11:33:48 公開日:2024-01-31
# 蒸留方程式による小言語モデルの数学的推論の改善

Improving Small Language Models' Mathematical Reasoning via Equation-of-Thought Distillation ( http://arxiv.org/abs/2401.11864v3 )

ライセンス: Link先を確認
Xunyu Zhu, Jian Li, Yong Liu, Can Ma, Weiping Wang(参考訳) 本研究は,高度な大規模言語モデル (LLM) の民主化という課題に対処し,それらの数学的推論能力を,性能を損なうことなくサブビリオンパラメータ (SLM) に圧縮する。 EoTD(Equation-of-Thought Distillation, EoTD)は, 理論過程を方程式ベース表現にカプセル化し, 微調整SLMのためのEoTDデータセットを構築する手法である。 さらに,SLMの推論性能を高めるために,ETD(Ensemble Thoughts Distillation)フレームワークを提案する。 これには、Chain-of-Thought(CoT)、Program-of-Thought(PoT)、Equation-of-Thought(EoT)など、複数の思考プロセスによる推論データセットの作成と、それを微調整に使用することが含まれる。 実験により,EoTDはSLMの推理能力を大幅に向上し,ETDはこれらのモデルが最先端の推理性能を達成できることを示した。

This work addresses the challenge of democratizing advanced Large Language Models (LLMs) by compressing their mathematical reasoning capabilities into sub-billion parameter Small Language Models (SLMs) without compromising performance. We introduce Equation-of-Thought Distillation (EoTD), a novel technique that encapsulates the reasoning process into equation-based representations to construct an EoTD dataset for fine-tuning SLMs. Additionally, we propose the Ensemble Thoughts Distillation (ETD) framework to enhance the reasoning performance of SLMs. This involves creating a reasoning dataset with multiple thought processes, including Chain-of-Thought (CoT), Program-of-Thought (PoT), and Equation-of-Thought (EoT), and using it for fine-tuning. Our experimental findings demonstrate that EoTD significantly boosts the reasoning abilities of SLMs, while ETD enables these models to achieve state-of-the-art reasoning performance.
翻訳日:2024-02-01 11:33:36 公開日:2024-01-31
# HAAQI-Net: 補聴器の非侵襲的神経音楽品質評価モデル

HAAQI-Net: A non-intrusive neural music quality assessment model for hearing aids ( http://arxiv.org/abs/2401.01145v3 )

ライセンス: Link先を確認
Dyah A. M. G. Wisnu, Epri W. Pratiwi, Stefano Rini, Ryandhimas E. Zezario, Hsin-Min Wang, Yu Tsao(参考訳) 本稿では、補聴器利用者に適した音楽品質評価のための非侵襲的深層学習モデルであるHAAQI-Netを紹介する。 Hearing Aid Audio Quality Index (HAAQI)のような従来の手法とは対照的に、HAAQI-Netは二方向長短期記憶(BLSTM)に注意を払っている。 評価された音楽サンプルと聴覚損失パターンを入力として、予測されたHAAQIスコアを生成する。 このモデルは、音響特徴抽出のために、BEAT(Audio Transformer)から事前訓練された双方向エンコーダ表現を採用する。 HAAQI-Netは、予測されたスコアと地上の真実と比較すると、LCCの0.9368、SRCCの0.9486、平均正方形誤差(MSE)の0.0064を達成している。 ハイパフォーマンスは62.52秒(HAAQI)から2.54秒(HAAQI-Net)に短縮され、補聴器使用者の効率的な音楽品質評価モデルとして機能する。

This paper introduces HAAQI-Net, a non-intrusive deep learning model for music quality assessment tailored to hearing aid users. In contrast to traditional methods like the Hearing Aid Audio Quality Index (HAAQI), HAAQI-Net utilizes a Bidirectional Long Short-Term Memory (BLSTM) with attention. It takes an assessed music sample and a hearing loss pattern as input, generating a predicted HAAQI score. The model employs the pre-trained Bidirectional Encoder representation from Audio Transformers (BEATs) for acoustic feature extraction. Comparing predicted scores with ground truth, HAAQI-Net achieves a Longitudinal Concordance Correlation (LCC) of 0.9368, Spearman's Rank Correlation Coefficient (SRCC) of 0.9486, and Mean Squared Error (MSE) of 0.0064. Notably, this high performance comes with a substantial reduction in inference time: from 62.52 seconds (by HAAQI) to 2.54 seconds (by HAAQI-Net), serving as an efficient music quality assessment model for hearing aid users.
翻訳日:2024-02-01 11:33:14 公開日:2024-01-31
# 数発アウトオブ・ディストリビューション検出に向けて

Towards Few-shot Out-of-Distribution Detection ( http://arxiv.org/abs/2311.12076v3 )

ライセンス: Link先を確認
Jiuqing Dong, Yongbin Gao, Heng Zhou, Jun Cen, Yifan Yao, Sook Yoon, Park Dong Sun(参考訳) アウト・オブ・ディストリビューション(OOD)検出は、オープンワールドのインテリジェントシステムの信頼性を確保するために重要である。 既存のOOD検出法では顕著な進歩があったが,本研究では,トレーニングサンプルの不足下での顕著な性能低下を確認した。 この文脈では,このギャップに対処するために慎重に構築された,新たな少数ショットood検出ベンチマークを導入する。 我々の経験的分析は,数発のOOD検出タスクにおける完全微調整や線形探触子を含む従来の手法よりも,視覚的プロンプトチューニングや視覚的アダプタチューニングといったパラメータ効率の良い細調整(PEFT)戦略が優れていることを示す。 そこで,ood検出に欠かせない事前学習モデルから重要な情報を認識する手法として,ドメイン固有および一般知識融合(dsgf)を提案する。 このアプローチはさまざまな微調整フレームワークと互換性があるように設計されている。 実験の結果,DSGFの統合により,フル微調整,視覚的適応チューニング,視覚的プロンプトチューニングなど,様々な手法や微調整手法による数発のOOD検出機能が大幅に向上することがわかった。 コードはリリースされます。

Out-of-distribution (OOD) detection is critical for ensuring the reliability of open-world intelligent systems. Despite the notable advancements in existing OOD detection methodologies, our study identifies a significant performance drop under the scarcity of training samples. In this context, we introduce a novel few-shot OOD detection benchmark, carefully constructed to address this gap. Our empirical analysis reveals the superiority of ParameterEfficient Fine-Tuning (PEFT) strategies, such as visual prompt tuning and visual adapter tuning, over conventional techniques, including fully fine-tuning and linear probing tuning in the few-shot OOD detection task. Recognizing some crucial information from the pre-trained model, which is pivotal for OOD detection, may be lost during the fine-tuning process, we propose a method termed DomainSpecific and General Knowledge Fusion (DSGF). This approach is designed to be compatible with diverse fine-tuning frameworks. Our experiments show that the integration of DSGF significantly enhances the few-shot OOD detection capabilities across various methods and fine-tuning methodologies, including fully fine-tuning, visual adapter tuning, and visual prompt tuning. The code will be released.
翻訳日:2024-02-01 11:32:53 公開日:2024-01-31
# 多項式アクティベーションを持つグラフニューラルネットワークの表現性に制限がある

Graph Neural Networks with polynomial activations have limited expressivity ( http://arxiv.org/abs/2310.13139v5 )

ライセンス: Link先を確認
Sammy Khalife(参考訳) グラフニューラルネットワーク(GNN)の表現性は、第一次論理の適切な断片によって完全に特徴付けられる。 すなわち、ラベル付きグラフ上で解釈された2つの変分論理(GC2)の任意のクエリは、クエリの深さにのみ依存する大きさのGNNを用いて表現することができる。 barcelo & al., 2020, grohe, 2021] で指摘されているように、この記述は活性化関数の族であり、選択された活性化関数によってgnnによって表現できる論理の階層のポッシビビリティを残している。 本稿では,gc2クエリが多項式アクティベーション関数を持つgnnで表現できないことを証明して,このような階層構造が存在することを示す。 これは多項式と一般的な非多項式の活性化(Rectified Linear Units など)の分離を意味し、[Grohe, 21] で定式化された開問題に答える。

The expressivity of Graph Neural Networks (GNNs) can be entirely characterized by appropriate fragments of the first order logic. Namely, any query of the two variable fragment of graded modal logic (GC2) interpreted over labeled graphs can be expressed using a GNN whose size depends only on the depth of the query. As pointed out by [Barcelo & Al., 2020, Grohe, 2021], this description holds for a family of activation functions, leaving the possibibility for a hierarchy of logics expressible by GNNs depending on the chosen activation function. In this article, we show that such hierarchy indeed exists by proving that GC2 queries cannot be expressed by GNNs with polynomial activation functions. This implies a separation between polynomial and popular non polynomial activations (such as Rectified Linear Units) and answers an open question formulated by [Grohe, 21].
翻訳日:2024-02-01 11:32:31 公開日:2024-01-31
# maple: 大きな言語モデルを埋め込んだモバイルアプリの予測

MAPLE: Mobile App Prediction Leveraging Large Language Model Embeddings ( http://arxiv.org/abs/2309.08648v3 )

ライセンス: Link先を確認
Yonchanok Khaokaew, Hao Xue, Flora D. Salim(参考訳) 近年,アプリのレコメンデーションやユーザ行動分析,モバイルリソース管理といった分野において,モバイルアプリの利用予測がますます重要になっている。 しかし、既存のモデルでは、コンテキストデータの異質な性質とユーザーのコールドスタート問題に苦労している。 本研究では,Large Language Models (LLMs) を採用した新しい予測モデルである Mobile App Prediction Leveraging Large Language Model Embeddings (MAPLE) を紹介する。 MAPLEはLLMの力を利用してコンテキストデータを処理し、その中の複雑な関係を効果的に識別する。 さらに,冷戦開始問題に対処するためにインストールされたアプリの類似性について検討し,履歴データに制限のある新規ユーザに対しても,ユーザの好みや習慣のモデリングを容易にする。 本研究は,MAPLEをアプリケーション利用予測の新しい,強力な,実践的なアプローチとして提示し,既存のモデルが直面する問題の解決に大きく貢献する。 MAPLEは総合的で効果的なソリューションであり、より正確でパーソナライズされたアプリ利用予測のための新しいベンチマークを設定する。 2つの実世界のデータセットのテストでは、MAPLEは標準およびコールドスタートシナリオの両方で、現代のモデルを上回っている。 これらの結果は、mapleの正確なアプリ利用予測能力とコールドスタート問題に対するレジリエンスを検証する。 この性能の向上は、複雑な時間的パターンを捕捉し、文脈情報を活用するモデルの能力に起因している。 その結果、mapleはパーソナライズされたモバイルアプリの利用予測とユーザエクスペリエンスを著しく改善することができる。

In recent years, predicting mobile app usage has become increasingly important for areas like app recommendation, user behaviour analysis, and mobile resource management. Existing models, however, struggle with the heterogeneous nature of contextual data and the user cold start problem. This study introduces a novel prediction model, Mobile App Prediction Leveraging Large Language Model Embeddings (MAPLE), which employs Large Language Models (LLMs) and installed app similarity to overcome these challenges. MAPLE utilises the power of LLMs to process contextual data and discern intricate relationships within it effectively. Additionally, we explore the use of installed app similarity to address the cold start problem, facilitating the modelling of user preferences and habits, even for new users with limited historical data. In essence, our research presents MAPLE as a novel, potent, and practical approach to app usage prediction, making significant strides in resolving issues faced by existing models. MAPLE stands out as a comprehensive and effective solution, setting a new benchmark for more precise and personalised app usage predictions. In tests on two real-world datasets, MAPLE surpasses contemporary models in both standard and cold start scenarios. These outcomes validate MAPLE's capacity for precise app usage predictions and its resilience against the cold start problem. This enhanced performance stems from the model's proficiency in capturing complex temporal patterns and leveraging contextual information. As a result, MAPLE can potentially improve personalised mobile app usage predictions and user experiences markedly.
翻訳日:2024-02-01 11:32:14 公開日:2024-01-31
# resfields: 時空間信号のための残留神経場

ResFields: Residual Neural Fields for Spatiotemporal Signals ( http://arxiv.org/abs/2309.03160v4 )

ライセンス: Link先を確認
Marko Mihajlovic, Sergey Prokudin, Marc Pollefeys, Siyu Tang(参考訳) 高周波信号を表すために訓練されたニューラルネットワークのカテゴリであるニューラルフィールドは、シングルマルチ層パーセプトロン(MLP)を介して、符号付き距離(SDF)や放射場(NeRF)といった複雑な3Dデータをモデリングする際の顕著なパフォーマンスから、近年大きな注目を集めている。 しかし、MLPによる信号表現のパワーと単純さにもかかわらず、これらの手法は、MLPの容量が限られているため、大規模で複雑な時間信号のモデリングにおいて、依然として課題に直面している。 本稿では,時間的残留層をニューラルネットワークに組み込むことにより,この制限に対処するための効果的な手法を提案する。 複雑な時間信号を効果的に表現するために設計された新しいネットワークのクラスである。 本稿では,ResFieldの特性を包括的に解析し,学習可能なパラメータの数を減らし,一般化能力を向上する行列分解法を提案する。 重要な点は,既存のmlpベースのニューラルフィールドとシームレスに統合し,2次元映像近似,時間的sdfによる動的形状モデリング,動的nerf再構成など,様々な課題にまたがる結果を一貫して改善することである。 最後に,軽量キャプチャシステムのrgbdカメラから動的3dシーンを撮影することの有効性を示すことで,resfieldsの実用性を示す。

Neural fields, a category of neural networks trained to represent high-frequency signals, have gained significant attention in recent years due to their impressive performance in modeling complex 3D data, such as signed distance (SDFs) or radiance fields (NeRFs), via a single multi-layer perceptron (MLP). However, despite the power and simplicity of representing signals with an MLP, these methods still face challenges when modeling large and complex temporal signals due to the limited capacity of MLPs. In this paper, we propose an effective approach to address this limitation by incorporating temporal residual layers into neural fields, dubbed ResFields. It is a novel class of networks specifically designed to effectively represent complex temporal signals. We conduct a comprehensive analysis of the properties of ResFields and propose a matrix factorization technique to reduce the number of trainable parameters and enhance generalization capabilities. Importantly, our formulation seamlessly integrates with existing MLP-based neural fields and consistently improves results across various challenging tasks: 2D video approximation, dynamic shape modeling via temporal SDFs, and dynamic NeRF reconstruction. Lastly, we demonstrate the practical utility of ResFields by showcasing its effectiveness in capturing dynamic 3D scenes from sparse RGBD cameras of a lightweight capture system.
翻訳日:2024-02-01 11:31:48 公開日:2024-01-31
# GazeGPT: スマートアイウェアのための注視コンテキストAIによる人間の能力向上

GazeGPT: Augmenting Human Capabilities using Gaze-contingent Contextual AI for Smart Eyewear ( http://arxiv.org/abs/2401.17217v2 )

ライセンス: Link先を確認
Robert Konrad, Nitish Padmanaban, J. Gabriel Buckmaster, Kevin C. Boyle, Gordon Wetzstein(参考訳) マルチモーダル大言語モデル(LMM)は、世界の知識と問題解決能力に優れる。 世界向けカメラとコンテキストAIを使うことで、新興のスマートアクセサリーは人間とLMM間のシームレスなインターフェースを提供することを目指している。 しかし、これらのウェアラブルコンピューティングシステムは、ユーザの注意を理解できない。 本稿では,文脈AIのための新しいユーザインタラクションパラダイムとしてGazeGPTを紹介する。 GazeGPTは視線追跡を利用して、LMMがユーザーが注意を払っている世界のカメラビューのどのオブジェクトかを理解するのを助ける。 広汎なユーザ評価を用いて、この視線一致機構は代替手段よりも高速で精度の高いポインティング機構であり、犬種分類タスクにおける精度を大幅に向上することで人間の能力を増強し、コンテキストAIの頭部や身体駆動の選択メカニズムよりも常に自然と位置づけられていることを示す。 さらに、将来のAI駆動のパーソナルアシスタントの一部として、GazeGPTがユーザにとって重要な価値を持つ可能性があることを示唆する、さまざまなアプリケーションシナリオをプロトタイプします。

Multimodal large language models (LMMs) excel in world knowledge and problem-solving abilities. Through the use of a world-facing camera and contextual AI, emerging smart accessories aim to provide a seamless interface between humans and LMMs. Yet, these wearable computing systems lack an understanding of the user's attention. We introduce GazeGPT as a new user interaction paradigm for contextual AI. GazeGPT uses eye tracking to help the LMM understand which object in the world-facing camera view a user is paying attention to. Using extensive user evaluations, we show that this gaze-contingent mechanism is a faster and more accurate pointing mechanism than alternatives; that it augments human capabilities by significantly improving their accuracy in a dog-breed classification task; and that it is consistently ranked as more natural than head- or body-driven selection mechanisms for contextual AI. Moreover, we prototype a variety of application scenarios that suggest GazeGPT could be of significant value to users as part of future AI-driven personal assistants.
翻訳日:2024-02-01 11:24:42 公開日:2024-01-31
# BlockFusion:潜伏三面体外挿による拡張可能な3次元シーン生成

BlockFusion: Expandable 3D Scene Generation using Latent Tri-plane Extrapolation ( http://arxiv.org/abs/2401.17053v2 )

ライセンス: Link先を確認
Zhennan Wu, Yang Li, Han Yan, Taizhang Shang, Weixuan Sun, Senbo Wang, Ruikai Cui, Weizhe Liu, Hiroyuki Sato, Hongdong Li, and Pan Ji(参考訳) 本稿では,3次元シーンを単位ブロックとして生成する拡散モデルであるBlockFusionについて述べる。 BlockFusionは、完全な3Dシーンメッシュからランダムにトリミングされた3Dブロックのデータセットを使用してトレーニングされる。 ブロックごとのフィッティングにより、全てのトレーニングブロックは、幾何学的特徴を含む三面体と、符号付き距離値を復号する多層パーセプトロン(MLP)のハイブリッドニューラルネットワークに変換される。 変分オートエンコーダを用いて、三平面を潜在三平面空間に圧縮し、その上で消音拡散処理を行う。 潜在表現に適用された拡散は、高品質で多様な3dシーン生成を可能にする。 シーンを生成中に拡大するには、現在のシーンと重なり合うために空のブロックを追加し、新しいブロックを投入するために既存の潜在トリプレーンを外挿するだけでよい。 補間は、重なり合う三面体の特徴サンプルをデノナイジングイテレーション中に生成プロセスに条件付けすることで行われる。 潜在三面外挿は、既存のシーンと調和して融合する意味論的および幾何学的に意味のある遷移を生み出す。 シーン要素の配置と配置を制御するために2次元レイアウトコンディショニング機構を使用する。 実験結果から,BlockFusionは屋内および屋外の両方のシナリオにおいて,前例のない高品質な形状の多様で幾何学的に整合性があり,非有界な大型3Dシーンを生成できることが示唆された。

We present BlockFusion, a diffusion-based model that generates 3D scenes as unit blocks and seamlessly incorporates new blocks to extend the scene. BlockFusion is trained using datasets of 3D blocks that are randomly cropped from complete 3D scene meshes. Through per-block fitting, all training blocks are converted into the hybrid neural fields: with a tri-plane containing the geometry features, followed by a Multi-layer Perceptron (MLP) for decoding the signed distance values. A variational auto-encoder is employed to compress the tri-planes into the latent tri-plane space, on which the denoising diffusion process is performed. Diffusion applied to the latent representations allows for high-quality and diverse 3D scene generation. To expand a scene during generation, one needs only to append empty blocks to overlap with the current scene and extrapolate existing latent tri-planes to populate new blocks. The extrapolation is done by conditioning the generation process with the feature samples from the overlapping tri-planes during the denoising iterations. Latent tri-plane extrapolation produces semantically and geometrically meaningful transitions that harmoniously blend with the existing scene. A 2D layout conditioning mechanism is used to control the placement and arrangement of scene elements. Experimental results indicate that BlockFusion is capable of generating diverse, geometrically consistent and unbounded large 3D scenes with unprecedented high-quality shapes in both indoor and outdoor scenarios.
翻訳日:2024-02-01 11:24:23 公開日:2024-01-31
# 開発支援の費用対効果配分のための因果機械学習

Causal Machine Learning for Cost-Effective Allocation of Development Aid ( http://arxiv.org/abs/2401.16986v2 )

ライセンス: Link先を確認
Milan Kuzmanovic, Dennis Frauen, Tobias Hatt, Stefan Feuerriegel(参考訳) 国連の持続可能な開発目標(sdgs)は「誰も背後にいない」ことでより良い未来の青写真を提供し、2030年までには貧しい国は膨大な開発援助を必要としている。 そこで本稿では, 補助金の異種処理効果を予測し, 効果的な援助配分を知らせるための因果的機械学習フレームワークを開発した。 具体的には、3つのコンポーネントで構成されています。 一 処理選択バイアスに対処しつつ、表現学習を用いて高次元国の特徴を埋め込むバランスオートエンコーダ 二 小さなサンプルサイズの設定に対処するため、各種援助ボリュームの対実結果を算出する反実生成装置 (iii)不均質な処理-応答曲線の予測に用いられる推論モデル。 我々は,105か国でHIV/AIDSを終了するための公式な開発支援データを用いて,この枠組みの有効性を実証した。 そこで本研究では, 半合成データを用いた不均一処理応答曲線の計算に成功していることを示す。 そして、実世界のHIVデータを用いて、我々のフレームワークを実証する。 我々のフレームワークは、より効果的なエイズアロケーションのための大きな機会を示しており、現在のアロケーションプラクティスと比較して、新しいhiv感染の総数を最大3.3%(約50,000例)削減できることを示唆している。

The Sustainable Development Goals (SDGs) of the United Nations provide a blueprint of a better future by 'leaving no one behind', and, to achieve the SDGs by 2030, poor countries require immense volumes of development aid. In this paper, we develop a causal machine learning framework for predicting heterogeneous treatment effects of aid disbursements to inform effective aid allocation. Specifically, our framework comprises three components: (i) a balancing autoencoder that uses representation learning to embed high-dimensional country characteristics while addressing treatment selection bias; (ii) a counterfactual generator to compute counterfactual outcomes for varying aid volumes to address small sample-size settings; and (iii) an inference model that is used to predict heterogeneous treatment-response curves. We demonstrate the effectiveness of our framework using data with official development aid earmarked to end HIV/AIDS in 105 countries, amounting to more than USD 5.2 billion. For this, we first show that our framework successfully computes heterogeneous treatment-response curves using semi-synthetic data. Then, we demonstrate our framework using real-world HIV data. Our framework points to large opportunities for a more effective aid allocation, suggesting that the total number of new HIV infections could be reduced by up to 3.3% (~50,000 cases) compared to the current allocation practice.
翻訳日:2024-02-01 11:23:58 公開日:2024-01-31
# 広線形マッチングフィルタ:複素数値CNNの解釈可能性へのリンチピン

Widely Linear Matched Filter: A Lynchpin towards the Interpretability of Complex-valued CNNs ( http://arxiv.org/abs/2401.16729v2 )

ライセンス: Link先を確認
Qingchen Wang, Zhe Li, Zdenka Babic, Wei Deng, Ljubi\v{s}a Stankovi\'c, Danilo P. Mandic(参考訳) 実数値畳み込みニューラルネットワーク (CNN) {Stankovic_Mandic_2023CNN} の解釈可能性に関する最近の研究により、マッチングされたフィルタを通してデータの特徴を見つけるタスクと直接的かつ物理的に意味のあるリンクが明らかになった。 しかし、このパラダイムを適用して複素値付きCNNの解釈可能性を照らし出すと、悲惨な障害にぶつかる: 整合フィルタの一般クラスへの拡張(ここでは、広く線形整合フィルタ(WLMF)と呼ぶ)は、文献でのみ暗黙的に行われている。 この目的のために、複素数値CNNの動作の解釈可能性を確立するために、汎用的なWLMFパラダイムを導入し、そのソリューションを提供し、その性能解析を行う。 厳密化のために、wlmf解はノイズの確率密度を仮定することなく導出される。 WLMFの標準線形対数(SLMF)に対する理論的優位性は、出力信号対雑音比(SNR)の観点で提供される。 さらに、WLMFのSNRゲインに対する下界は、この境界に達する条件とともに導出される。 このことは、複素数値CNNにおける畳み込み-アクティベーション-プール連鎖をマッチングフィルタリングのレンズを通して再検討し、WLMFが物理的解釈可能性を提供し、一般的な複素数値CNNの説明可能性を高める可能性を明らかにするのに役立つ。 シミュレーションは理論結果と数値結果の一致を実証する。

A recent study on the interpretability of real-valued convolutional neural networks (CNNs) {Stankovic_Mandic_2023CNN} has revealed a direct and physically meaningful link with the task of finding features in data through matched filters. However, applying this paradigm to illuminate the interpretability of complex-valued CNNs meets a formidable obstacle: the extension of matched filtering to a general class of noncircular complex-valued data, referred to here as the widely linear matched filter (WLMF), has been only implicit in the literature. To this end, to establish the interpretability of the operation of complex-valued CNNs, we introduce a general WLMF paradigm, provide its solution and undertake analysis of its performance. For rigor, our WLMF solution is derived without imposing any assumption on the probability density of noise. The theoretical advantages of the WLMF over its standard strictly linear counterpart (SLMF) are provided in terms of their output signal-to-noise-ratios (SNRs), with WLMF consistently exhibiting enhanced SNR. Moreover, the lower bound on the SNR gain of WLMF is derived, together with condition to attain this bound. This serves to revisit the convolution-activation-pooling chain in complex-valued CNNs through the lens of matched filtering, which reveals the potential of WLMFs to provide physical interpretability and enhance explainability of general complex-valued CNNs. Simulations demonstrate the agreement between the theoretical and numerical results.
翻訳日:2024-02-01 11:23:34 公開日:2024-01-31
# Chen-Fliessシリーズによるニューラルオードのラダマッハ複雑性

Rademacher Complexity of Neural ODEs via Chen-Fliess Series ( http://arxiv.org/abs/2401.16655v2 )

ライセンス: Link先を確認
Joshua Hanson, Maxim Raginsky(参考訳) 本稿では, 非線形ODEに対するChen-Fliess級数展開を用いて, 連続深度ニューラルODEモデルを単一層無限幅ネットとしてフレーム化する方法を示す。このネットでは, 制御入力のシグネチャから出力"重み"を取り出し, 無限次元パスをテンソルの列として表現するツールであるテンソルの列から, 制御入力の繰り返し積分を構成する。 特徴」は、制御されたODEモデルのベクトル場に関して出力関数のリー微分を反復化したものである。 この研究の主な結果は、初期条件とスカラー出力をある終点でマッピングするodeモデルのラデマッハ複雑性のコンパクト表現を導出するためにこのフレームワークを適用することである。 その結果、単層アーキテクチャで得られる素直な分析を利用する。 いくつかの特定のシステムのバウンダリをインスタンス化し、潜在的なフォローアップ作業について議論する。

We show how continuous-depth neural ODE models can be framed as single-layer, infinite-width nets using the Chen--Fliess series expansion for nonlinear ODEs. In this net, the output "weights" are taken from the signature of the control input -- a tool used to represent infinite-dimensional paths as a sequence of tensors -- which comprises iterated integrals of the control input over a simplex. The "features" are taken to be iterated Lie derivatives of the output function with respect to the vector fields in the controlled ODE model. The main result of this work applies this framework to derive compact expressions for the Rademacher complexity of ODE models that map an initial condition to a scalar output at some terminal time. The result leverages the straightforward analysis afforded by single-layer architectures. We conclude with some examples instantiating the bound for some specific systems and discuss potential follow-up work.
翻訳日:2024-02-01 11:23:05 公開日:2024-01-31
# ヒューマンインストラクションによる高品質画像復元

High-Quality Image Restoration Following Human Instructions ( http://arxiv.org/abs/2401.16468v2 )

ライセンス: Link先を確認
Marcos V. Conde, Gregor Geigle, Radu Timofte(参考訳) 画像復元は、劣化した観察から高品質のクリーンな画像を復元する基本的な問題である。 オールインワン画像復元モデルは, 劣化特異的情報を用いて, 様々な種類の画像や劣化レベルの画像の復元を効果的に行うことができる。 本稿では,画像復元モデルの指導に人間による指示を用いる最初の手法を提案する。 自然言語プロンプトが与えられれば,複数の劣化タイプを考慮した高品質画像の復元が可能となる。 本手法は,画像のデノイジング,デラリング,デブラリング,デハジング,(低光度)画像エンハンスメントなどの復元作業において,最新の結果を得る。 InstructIRは以前のオールインワンの復元方法よりも+1dBを改善する。 さらに,本データセットは,テキスト誘導画像の復元と改善に関する新たな研究のベンチマークである。 私たちのコード、データセット、モデルは、https://github.com/mv-lab/InstructIRで利用可能です。

Image restoration is a fundamental problem that involves recovering a high-quality clean image from its degraded observation. All-In-One image restoration models can effectively restore images from various types and levels of degradation using degradation-specific information as prompts to guide the restoration model. In this work, we present the first approach that uses human-written instructions to guide the image restoration model. Given natural language prompts, our model can recover high-quality images from their degraded counterparts, considering multiple degradation types. Our method, InstructIR, achieves state-of-the-art results on several restoration tasks including image denoising, deraining, deblurring, dehazing, and (low-light) image enhancement. InstructIR improves +1dB over previous all-in-one restoration methods. Moreover, our dataset and results represent a novel benchmark for new research on text-guided image restoration and enhancement. Our code, datasets and models are available at: https://github.com/mv-lab/InstructIR
翻訳日:2024-02-01 11:22:47 公開日:2024-01-31
# Endo-4DGS : 4D Gaussian Splatting を用いた内視鏡的単眼画像再構成

Endo-4DGS: Endoscopic Monocular Scene Reconstruction with 4D Gaussian Splatting ( http://arxiv.org/abs/2401.16416v2 )

ライセンス: Link先を確認
Yiming Huang and Beilei Cui and Long Bai and Ziqi Guo and Mengya Xu and Hongliang Ren(参考訳) ロボットによる最小侵襲手術の分野では、動的シーン再構成は下流の作業を大幅に強化し、手術結果を改善することができる。 ニューラル・ラジアンス・フィールド(NeRF)をベースとした手法は、最近、シーンを再構成する異常な能力で有名になった。 それでもこれらの手法は、遅い推論、長い訓練、そしてかなりの計算要求によって妨げられている。 さらに、ステレオカメラに関連する高いコストと物流上の課題のためにしばしば実現不可能となるステレオ深度推定に依存するものもある。 また,現在,変形可能なシーンの単眼的再現性は不十分である。 これらの障害を克服するために,4次元ガウススプラッティング(GS)を利用して地上の真理深度データを必要としない,革新的でリアルタイムな動的再構成手法であるEndo-4DGSを提案する。 時間成分を組み込んで3次元GSを拡張し、軽量のMLPを利用して時相ガウス変形を捉える。 これにより,動的手術シーンの再現が容易になる。 また,Depth-Anythingを統合して,モノクラービューから擬似深度マップを生成し,深度誘導再構成プロセスを強化する。 このアプローチは2つの手術用データセットで検証され、リアルタイムで効果的にレンダリングし、効率的に計算し、驚くべき精度で再構築することができる。 これらの結果は、外科的補助を改善するためのEndo-4DGSの大きな可能性を示している。

In the realm of robot-assisted minimally invasive surgery, dynamic scene reconstruction can significantly enhance downstream tasks and improve surgical outcomes. Neural Radiance Fields (NeRF)-based methods have recently risen to prominence for their exceptional ability to reconstruct scenes. Nonetheless, these methods are hampered by slow inference, prolonged training, and substantial computational demands. Additionally, some rely on stereo depth estimation, which is often infeasible due to the high costs and logistical challenges associated with stereo cameras. Moreover, the monocular reconstruction quality for deformable scenes is currently inadequate. To overcome these obstacles, we present Endo-4DGS, an innovative, real-time endoscopic dynamic reconstruction approach that utilizes 4D Gaussian Splatting (GS) and requires no ground truth depth data. This method extends 3D GS by incorporating a temporal component and leverages a lightweight MLP to capture temporal Gaussian deformations. This effectively facilitates the reconstruction of dynamic surgical scenes with variable conditions. We also integrate Depth-Anything to generate pseudo-depth maps from monocular views, enhancing the depth-guided reconstruction process. Our approach has been validated on two surgical datasets, where it can effectively render in real-time, compute efficiently, and reconstruct with remarkable accuracy. These results underline the vast potential of Endo-4DGS to improve surgical assistance.
翻訳日:2024-02-01 11:22:30 公開日:2024-01-31
# ViLexNorm:ベトナムのソーシャルメディアテキストのための語彙正規化コーパス

ViLexNorm: A Lexical Normalization Corpus for Vietnamese Social Media Text ( http://arxiv.org/abs/2401.16403v2 )

ライセンス: Link先を確認
Thanh-Nhi Nguyen, Thanh-Phong Le, Kiet Van Nguyen(参考訳) 語彙正規化(英語: Lexical normalization)は、自然言語処理(NLP)の基本課題であり、単語を標準形式に変換することである。 このプロセスは、下流の様々なNLPタスクに大きな恩恵をもたらすことが証明されている。 本研究ではベトナムの語彙正規化タスクのために開発された最初のコーパスであるベトナム語彙正規化(ViLexNorm)を紹介する。 このコーパスは、ベトナムで最も人気のあるソーシャルメディアプラットフォームに関する公式コメントから引用された、人間の注釈によって慎重に注釈付けされた1万件以上の文からなる。 コーパスの評価には多種多様な手法が用いられ, 最適性能のシステムは57.74%の誤差低減率 (ERR) 測定値 (van der Goot, 2019a) とLeft-As-Is (LAI) 基準値を用いて達成された。 ViLexNormでトレーニングされたモデルを用いることで、ベトナムの語彙正規化タスクが他のNLPタスクに与える影響を実証することができる。 私たちのコーパスは研究目的でのみ公開されている。

Lexical normalization, a fundamental task in Natural Language Processing (NLP), involves the transformation of words into their canonical forms. This process has been proven to benefit various downstream NLP tasks greatly. In this work, we introduce Vietnamese Lexical Normalization (ViLexNorm), the first-ever corpus developed for the Vietnamese lexical normalization task. The corpus comprises over 10,000 pairs of sentences meticulously annotated by human annotators, sourced from public comments on Vietnam's most popular social media platforms. Various methods were used to evaluate our corpus, and the best-performing system achieved a result of 57.74% using the Error Reduction Rate (ERR) metric (van der Goot, 2019a) with the Leave-As-Is (LAI) baseline. For extrinsic evaluation, employing the model trained on ViLexNorm demonstrates the positive impact of the Vietnamese lexical normalization task on other NLP tasks. Our corpus is publicly available exclusively for research purposes.
翻訳日:2024-02-01 11:22:09 公開日:2024-01-31
# A.I. ありとあらゆる場所において

A.I. In All The Wrong Places ( http://arxiv.org/abs/2401.16268v2 )

ライセンス: Link先を確認
Marc B\"ohlen, Ruolin Chen, Xiaoxu Dong, Srikar Gopaladinne, Hemanth Gorla, Divya Kandukuri, Sean Mansfield(参考訳) このテキストは、2世代の生成型人工知能(a.i.)システムが学際的、大学レベルのa.i.のアートとデザインの実践コースに組み込まれた2年間のテスト期間を通じて得られた経験を記述している。 このテキストは、コースの結果を使って、トラップと限界を考慮しながら、アートとデザインにおける生成システムの新たな機会を反映している。

This text describes experiences gained across a two-year test period during which two generations of Generative Artificial Intelligence (A.I.) systems were incorporated into an interdisciplinary, university level course on A.I. for art and design practices. The text uses the results from the courses to reflect on new opportunities for generative systems in art and design, while considering traps and limits.
翻訳日:2024-02-01 11:21:50 公開日:2024-01-31
# ジェンダーステレオタイプを拡大する多言語テキスト・画像生成技術

Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You ( http://arxiv.org/abs/2401.16092v2 )

ライセンス: Link先を確認
Felix Friedrich, Katharina H\"ammerl, Patrick Schramowski, Jindrich Libovicky, Kristian Kersting, Alexander Fraser(参考訳) テキスト対画像生成モデルは最近、画像品質、柔軟性、テキストアライメントに驚くべき結果をもたらしており、その結果、急成長中のアプリケーションで採用されている。 多言語能力の向上により、より大きなコミュニティはこの種の技術にアクセスできるようになった。 しかし、ここで示すように、多言語モデルは単言語モデルと同様に(性)バイアスに悩まされる。 さらに、これらのモデルが言語間で同様の結果をもたらすという自然な期待もあるが、これはそうではなく、言語間で重要な違いがある。 そこで本稿では,ジェンダーバイアスのない多言語モデルの研究を促進するためのベンチマークMAGBIGを提案する。 多言語T2IモデルがMAGBIGと性別バイアスを増大させるかどうかを検討する。 この目的のために、我々は、ある職業または特性(形容詞を用いて)の人物の肖像画像をリクエストする多言語プロンプトを用いる。 我々の結果は、各性別が等しく生成されるべきという規範的な仮定から逸脱するだけでなく、言語間で大きな違いがあることを示している。 さらに,これらのバイアスに対する対策として,間接的,中立的な定式化を用いた迅速なエンジニアリング戦略について検討する。 残念ながら、それらは限られた範囲でしか役に立たず、テキストから画像へのアライメントが悪くなります。 その結果、この研究は画像生成装置における言語間の多様な表現に関するさらなる研究を要求する。

Text-to-image generation models have recently achieved astonishing results in image quality, flexibility, and text alignment and are consequently employed in a fast-growing number of applications. Through improvements in multilingual abilities, a larger community now has access to this kind of technology. Yet, as we will show, multilingual models suffer similarly from (gender) biases as monolingual models. Furthermore, the natural expectation is that these models will provide similar results across languages, but this is not the case and there are important differences between languages. Thus, we propose a novel benchmark MAGBIG intending to foster research in multilingual models without gender bias. We investigate whether multilingual T2I models magnify gender bias with MAGBIG. To this end, we use multilingual prompts requesting portrait images of persons of a certain occupation or trait (using adjectives). Our results show not only that models deviate from the normative assumption that each gender should be equally likely to be generated, but that there are also big differences across languages. Furthermore, we investigate prompt engineering strategies, i.e. the use of indirect, neutral formulations, as a possible remedy for these biases. Unfortunately, they help only to a limited extent and result in worse text-to-image alignment. Consequently, this work calls for more research into diverse representations across languages in image generators.
翻訳日:2024-02-01 11:21:43 公開日:2024-01-31
# ダイヤモンド磁力計搭載道路について

On the Road with a Diamond Magnetometer ( http://arxiv.org/abs/2401.16090v2 )

ライセンス: Link先を確認
S. M. Graham, A. J. Newman, C. J. Stephen, A. M. Edmonds, D. J. Twitchen, M. L. Markham, G. W. Morley(参考訳) ダイヤモンド中の窒素空孔中心はベクトル磁気学に利用できる。 本研究では携帯型ベクトルダイヤモンド磁気センサを提案する。 そのベクトル能力とフィードバック制御とロバスト構造を組み合わせることで、移動プラットフォーム上での動作を可能にする。 トロリー上に配置されている間、部屋の磁気マッピングが示され、磁気センサは、GPS座標でタグ付けされたx, y, z軸の測定磁場シフトを伴う移動バンでも作動することが示される。 これらの磁場測定はフラックスゲート磁力計と同時測定と一致している。

Nitrogen vacancy centres in diamond can be used for vector magnetometry. In this work we present a portable vector diamond magnetometer. Its vector capability, combined with feedback control and robust structure enables operation on moving platforms. While placed on a trolley, magnetic mapping of a room is demonstrated and the magnetometer is also shown to be operational in a moving van with the measured magnetic field shifts for the x, y, and z axes being tagged with GPS coordinates. These magnetic field measurements are in agreement with measurements taken simultaneously with a fluxgate magnetometer.
翻訳日:2024-02-01 11:21:21 公開日:2024-01-31
# motion-i2v : 明示的な動きモデリングによる映像から映像への一貫性と制御性

Motion-I2V: Consistent and Controllable Image-to-Video Generation with Explicit Motion Modeling ( http://arxiv.org/abs/2401.15977v2 )

ライセンス: Link先を確認
Xiaoyu Shi, Zhaoyang Huang, Fu-Yun Wang, Weikang Bian, Dasong Li, Yi Zhang, Manyuan Zhang, Ka Chun Cheung, Simon See, Hongwei Qin, Jifeng Dai, Hongsheng Li(参考訳) motion-i2vは,一貫性と制御性を備えた映像対ビデオ生成(i2v)のための新しいフレームワークである。 複雑な画像間マッピングを直接学習する従来の手法とは対照的に、Motion-I2VはI2Vを明示的なモーションモデリングで2段階に分解する。 第1段階では、参照画像の画素の軌跡を推定することに焦点を当てた拡散に基づく動き場予測器を提案する。 第2段階では,ビデオ潜伏拡散モデルにおける制限された1次元の時間的注意力を高めるために,時間的注意動作を提案する。 本モジュールは、第1段階からの予測軌道の誘導により、参照画像の特徴を合成フレームに効果的に伝達することができる。 既存の手法と比較して、Motion-I2Vは大きな動きや視点の変化があっても、より一貫したビデオを生成することができる。 スパース軌道制御ネットを第1段に訓練することにより、motion-i2vは、スパース軌道と領域アノテーションにより、ユーザの動き軌跡や動き領域を正確に制御できる。 これにより、テキスト命令のみに依存するよりも、I2Vプロセスの制御性が向上する。 さらに、Motion-I2Vの第2ステージは、ゼロショットビデオからビデオへの翻訳もサポートしている。 定性的かつ定量的な比較は、一貫した制御可能な画像-映像生成における従来のアプローチよりもMotion-I2Vの利点を示している。 プロジェクトページはhttps://xiaoyushi97.github.io/Motion-I2V/でご覧ください。

We introduce Motion-I2V, a novel framework for consistent and controllable image-to-video generation (I2V). In contrast to previous methods that directly learn the complicated image-to-video mapping, Motion-I2V factorizes I2V into two stages with explicit motion modeling. For the first stage, we propose a diffusion-based motion field predictor, which focuses on deducing the trajectories of the reference image's pixels. For the second stage, we propose motion-augmented temporal attention to enhance the limited 1-D temporal attention in video latent diffusion models. This module can effectively propagate reference image's feature to synthesized frames with the guidance of predicted trajectories from the first stage. Compared with existing methods, Motion-I2V can generate more consistent videos even at the presence of large motion and viewpoint variation. By training a sparse trajectory ControlNet for the first stage, Motion-I2V can support users to precisely control motion trajectories and motion regions with sparse trajectory and region annotations. This offers more controllability of the I2V process than solely relying on textual instructions. Additionally, Motion-I2V's second stage naturally supports zero-shot video-to-video translation. Both qualitative and quantitative comparisons demonstrate the advantages of Motion-I2V over prior approaches in consistent and controllable image-to-video generation. Please see our project page at https://xiaoyushi97.github.io/Motion-I2V/.
翻訳日:2024-02-01 11:21:12 公開日:2024-01-31
# HEQuant:通信効率の良いプライベート推論のための同型暗号化と量子化の結婚

HEQuant: Marrying Homomorphic Encryption and Quantization for Communication-Efficient Private Inference ( http://arxiv.org/abs/2401.15970v2 )

ライセンス: Link先を確認
Tianshi Xu, Meng Li, Runsheng Wang(参考訳) 準同型暗号化(he)によるセキュアな2者計算は、正式なセキュリティ保証によってデータのプライバシを保護するが、通信オーバーヘッドが高い。 以前の研究、例えばcheetah、ironなどでは、異なるニューラルネットワーク(nn)操作のための効率的なheベースのプロトコルを提案しているが、nn操作では固定点37ビットを高い精度で仮定し、量子化エラーに対するnnのネイティブロバスト性を無視している。 本稿では,HEベースのプロトコルに対して,低精度量子化を意識した最適化を実現するHEQuantを提案する。 我々は、量子化のナイーブな組み合わせの利点を観察し、ビット精度が下がればすぐに飽和する。 そこで、通信効率をさらに高めるために、転送データの数と精度を同時に低減するために、効率のよいパッキングアルゴリズムと量子化認識ティリングアルゴリズムを含む一連の最適化を提案する。 CrypTFlow2、Cheetah、Ironなどといった先進的なHEベースのプロトコルと比較して、HEQuantは3.5\sim 23.4\times$通信の削減と3.0\sim 9.3\times$レイテンシの削減を実現している。 一方、senet、snlなどの先行技術であるネットワーク最適化フレームワークと比較すると、hequantは3.1\sim 3.6\times$通信削減を実現している。

Secure two-party computation with homomorphic encryption (HE) protects data privacy with a formal security guarantee but suffers from high communication overhead. While previous works, e.g., Cheetah, Iron, etc, have proposed efficient HE-based protocols for different neural network (NN) operations, they still assume high precision, e.g., fixed point 37 bit, for the NN operations and ignore NNs' native robustness against quantization error. In this paper, we propose HEQuant, which features low-precision-quantization-aware optimization for the HE-based protocols. We observe the benefit of a naive combination of quantization and HE quickly saturates as bit precision goes down. Hence, to further improve communication efficiency, we propose a series of optimizations, including an intra-coefficient packing algorithm and a quantization-aware tiling algorithm, to simultaneously reduce the number and precision of the transferred data. Compared with prior-art HE-based protocols, e.g., CrypTFlow2, Cheetah, Iron, etc, HEQuant achieves $3.5\sim 23.4\times$ communication reduction and $3.0\sim 9.3\times$ latency reduction. Meanwhile, when compared with prior-art network optimization frameworks, e.g., SENet, SNL, etc, HEQuant also achieves $3.1\sim 3.6\times$ communication reduction.
翻訳日:2024-02-01 11:20:49 公開日:2024-01-31
# 大規模言語モデルを用いた知識認識コード生成

Knowledge-Aware Code Generation with Large Language Models ( http://arxiv.org/abs/2401.15940v2 )

ライセンス: Link先を確認
Tao Huang, Zhihong Sun, Zhi Jin, Ge Li, Chen Lyu(参考訳) 大規模言語モデル(llm)は、基本的なプログラミング問題でうまく機能する。 しかし、多種多様なアルゴリズムとデータ構造スキル、特に競合レベルの問題を使用する複雑なタスクを扱う際には、問題が発生する。 特にChatGPTは、トレーニング前の段階で遭遇した問題に対して熟練した性能を示すが、この性能は、新しい問題に直面したときに低下する。 その結果,不慣れな問題に対するllmの能力向上が重要な研究課題となっている。 LLMの問題解決プロセスは、人間のプログラマのアプローチをある程度反映している。 新しいプログラミングタスクに直面すると、人間のプログラマは、以前取得したアルゴリズムやデータ構造に関する知識とタスク計画とコード記述に従事します。 このような知識を習得したにもかかわらず、LSMは特定の新しい問題に直面したときに効果的にそれを適用するのに苦労している。 この問題に対処するため、我々はChatGPTがこれまで遭遇していなかったプログラミング問題の一部を含む新しいデータセット、CodeFを構築した。 さらに,Pythonプログラミングコンテスト問題に適した知識ライブラリを開発し,Knowledge-Aware Code Generation(KareCoder)の概念を導入した。 KareCoderは、ライブラリからのプロンプトと知識をLLMのコード生成推論プロセス、特にPass@1メトリクスに統合することで、モデルの理解と問題解決能力を強化する。 CodeF と APPS のデータセットをテストすると、KareCoder は LLM によって説明されていない新しい問題に対処する際、優れた性能を示した。 ChatGPTが直接生成したコードとは対照的に、KareCoderはCodeF post2021-9データセットのPass@1メトリックで23.3%の相対的な改善を達成した。 加えて、LLMがこれまで遭遇した問題に対処する場合、他の手法と比較してよく機能する。

Large Language Models (LLMs) perform well on basic programming problems. However, they encounter challenges when dealing with complex tasks involving the use of diverse algorithmic and data structure skills, particularly programming competition-level problems. Notably, ChatGPT exhibits proficient performance on problems it has encountered during its pre-training phase, but this performance deteriorates when faced with novel problems. Consequently, enhancing the ability of LLMs to address unfamiliar problems has emerged as a pivotal research focus. The problem-solving process of LLMs mirrors human programmers' approach to a certain extent. When confronted with new programming tasks, human programmers engage in task planning and code writing with the previously acquired knowledge about algorithms and data structures. Despite having learned such knowledge, LLMs struggle to effectively apply it when faced with specific new problems. To address this issue, we constructed a novel dataset, CodeF, which contains a portion of programming problems that ChatGPT has not previously encountered. Furthermore, we developed a Knowledge Library tailored for Python programming contest problems and introduced the concept of Knowledge-Aware Code Generation (KareCoder). KareCoder bolsters the models' understanding and problem-solving capabilities by integrating prompt and knowledge from the library into the LLMs' code generation reasoning process, especially on Pass@1 metrics. Upon testing on the CodeF and APPS datasets, KareCoder demonstrated outstanding performance in handling novel problems previously unencountered by LLMs. In contrast with the code directly generated by ChatGPT, KareCoder achieved a relative improvement of 23.3% on the Pass@1 metric on the CodeF post2021-9 dataset. Additionally, it performs well compared to other methods when dealing with problems that LLMs have previously encountered.
翻訳日:2024-02-01 11:20:22 公開日:2024-01-31
# 入射連続表現を用いた潮流データの任意スケールダウンスケーリング

Arbitrary-Scale Downscaling of Tidal Current Data Using Implicit Continuous Representation ( http://arxiv.org/abs/2401.15893v2 )

ライセンス: Link先を確認
Dongheon Lee, Seungmyong Jeong, Youngmin Ro(参考訳) 数値モデルは、再生可能エネルギーの生産と沿岸エンジニアリングに不可欠な潮流を含む地球科学的現象を理解するために長い間使われてきた。 しかし、計算コストは様々な解像度のデータの生成を妨げる。 代替として、ディープラーニングベースのダウンスケーリング手法は、推論速度の高速化により、牽引力を高めている。 しかし、そのほとんどは推論の固定スケールに限られており、対象地学データの重要な特徴を見落としている。 本稿では,不均一性や局所依存性といった画像と相違する特徴に対処する,潮流データのための新しいダウンスケーリングフレームワークを提案する。 さらに,このフレームワークは,連続表現モデルを用いて任意のスケール出力を生成することができる。 提案手法は, フロー速度予測をベースラインモデルと比較して93.21% (MSE) と63.85% (MAE) に改善し, FLOPの33.2%削減を実現した。

Numerical models have long been used to understand geoscientific phenomena, including tidal currents, crucial for renewable energy production and coastal engineering. However, their computational cost hinders generating data of varying resolutions. As an alternative, deep learning-based downscaling methods have gained traction due to their faster inference speeds. But most of them are limited to only inference fixed scale and overlook important characteristics of target geoscientific data. In this paper, we propose a novel downscaling framework for tidal current data, addressing its unique characteristics, which are dissimilar to images: heterogeneity and local dependency. Moreover, our framework can generate any arbitrary-scale output utilizing a continuous representation model. Our proposed framework demonstrates significantly improved flow velocity predictions by 93.21% (MSE) and 63.85% (MAE) compared to the Baseline model while achieving a remarkable 33.2% reduction in FLOPs.
翻訳日:2024-02-01 11:19:56 公開日:2024-01-31