このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20231214となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 行列支配:NP-Complete問題を解決するための集団の知恵と遺伝的アルゴリズムメタヒューリスティックの収束
Matrix Domination: Convergence of a Genetic Algorithm Metaheuristic with the Wisdom of Crowds to Solve the NP-Complete Problem ( http://arxiv.org/abs/2403.17939v1 ) ライセンス: Link先を確認 | Shane Storm Strachan, | (参考訳) 本研究では,NP-Complete行列支配問題(以下TMDP)に対処するために,群集の知恵に富んだ遺伝的アルゴリズムのメタヒューリスティックの適用について検討する。
マトリックス支配は、ドミネーターと呼ばれる細胞のサブセットを正確にマトリックスに配置し、残りの細胞を支配することを目的としている。
本研究は, 遺伝的アルゴリズムの探索的性質と, 群集の知恵を融合して, 計算複雑性を考慮した最適解を求めるとともに, 適応性評価関数と遺伝的アルゴリズムの確率的性質に対処する制約関数を主とする評価性能を求める。
そこで我々は,群集の知恵を取り入れた遺伝的アルゴリズムによるMDPへの新たなアプローチを提案し,選択過程における集団的意思決定を強調するとともに,行列置換の概念と最適解の発見との関連性を探究する。
結果は, ドミネータ数と行列内の戦略配置とのトレードオフを最適化し, 整合性および完全行列支配を効率よく確保し, 効率的な解を生成するためのこの収束の可能性を示す。
This research explores the application of a genetic algorithm metaheuristic enriched by the wisdom of crowds in order to address the NP-Complete matrix domination problem (henceforth: TMDP) which is itself a constraint on related problems applied in graphs. Matrix domination involves accurately placing a subset of cells, referred to as dominators, within a matrix with the goal of their dominating the remainder of the cells. This research integrates the exploratory nature of a genetic algorithm with the wisdom of crowds to find more optimal solutions with user-defined parameters to work within computational complexity considerations and gauge performance mainly with a fitness evaluation function and a constraining function to combat the stochastic nature of genetic algorithms. With this, I propose a novel approach to MDP with a genetic algorithm that incorporates the wisdom of crowds, emphasizing collective decision-making in the selection process, and by exploring concepts of matrix permutations and their relevance in finding optimal solutions. Results demonstrate the potential of this convergence to generate efficient solutions, optimizing the trade-off between the number of dominators and their strategic placements within the matrices while efficiently ensuring consistent and complete matrix domination. | 翻訳日:2024-04-01 02:34:48 公開日:2023-12-14 |
# ソフトウェア定義VANETのための積み重ねアンサンブル学習IDSモデル
A stacked ensemble learning IDS model for Software-defined VANET ( http://arxiv.org/abs/2312.04956v3 ) ライセンス: Link先を確認 | Shakil Ibne Ahsan, Phil Legg, S M Iftekharul Alam, | (参考訳) 侵入検知システム(IDS)は、外部ネットワークのセキュリティイベントを検出し、緩和するために広く利用されている。
VANET(Vehicle ad-hoc Networks)は特にコネクテッド・オートモービルズ(CAV)の開発で進化している。
したがって、新興技術において従来のIDSアプローチをどのように活用できるかを評価することが不可欠である。
この問題に対処するため,本研究では,複数の機械学習アルゴリズムを組み合わせることで,単一のアルゴリズム手法よりも効果的に脅威を検出することを目的とした,集積型アンサンブル学習手法を提案する。
CICIDS2017とVeReMiベンチマークデータセットを使用して、我々のアプローチのパフォーマンスを既存の機械学習手法と比較し、脅威を特定するのがより正確であることを確かめる。
また,ハイパーパラメータ最適化と特徴選択を取り入れて,性能をさらに向上する。
以上の結果から,累積アンサンブル学習はIDSの有効性を高める上で有望な手法であることが示唆された。
Intrusion Detection Systems (IDS) are widely employed to detect and mitigate external network security events. VANETs (Vehicle ad-hoc Networks) are evolving, especially with the development of Connected Autonomous Vehicles (CAVs). So, it is crucial to assess how traditional IDS approaches can be utilised for emerging technologies. To address this concern, our work presents a stacked ensemble learning approach for IDS, which combines multiple machine learning algorithms to detect threats more effectively than single algorithm methods. Using the CICIDS2017 and the VeReMi benchmark data sets, we compare the performance of our approach with existing machine learning methods and find that it is more accurate at identifying threats. Our method also incorporates hyperparameter optimization and feature selection to improve its performance further. Overall, our results suggest that stacked ensemble learning is a promising technique for enhancing the effectiveness of IDS. | 翻訳日:2024-03-18 12:46:22 公開日:2023-12-14 |
# 接続車両と自律車両の微細アクセス制御によるエンドツーエンドセキュリティの確保
Ensuring End-to-End Security with Fine-grained Access Control for Connected and Autonomous Vehicles ( http://arxiv.org/abs/2312.07898v2 ) ライセンス: Link先を確認 | Donghyun Yu, Sungho Lee, Ruei-Hau Hsu, Jemin Lee, | (参考訳) 先進的なV2Xアプリケーションがコネクテッド・アンド・オートマチック・ビークル(CAV)に出現するにつれて、車内端末と外部ノード間のデータ通信が増加し、車内端末に対するエンドツーエンド(E2E)のセキュリティが対処すべき緊急問題となる。
しかし、既存のセキュリティソリューションでは複雑なキー管理と高リソース消費を必要とするため、アクセス制御のきめ細かいE2Eセキュリティは、リソース制約のエンドデバイスにとって難しい問題である。
そこで本稿では,新たな属性ベース暗号(ABE)方式に基づく,E2Eセキュリティのための実用的でセキュアな車両通信プロトコルを提案する。
提案方式では,暗号処理のためのアウトソース計算が提供され,属性数に関係なく復号処理の計算コストは一定に小さく抑えられている。
ポリシープライバシは、提案されたABEによって、プライバシに敏感なV2Xアプリケーションをサポートするように保証され、アウトソースされた署名のための既存のIDベースの署名が新たに再構築される。
提案手法は, 秘密性, メッセージ認証, 同一性, リンク性, トレーサビリティ, 再構成可能なアウトソース計算を実現し, 性能評価を通じて, プロトコルの実用可能性を示す。
As advanced V2X applications emerge in the connected and autonomous vehicle (CAV), the data communications between in-vehicle end-devices and outside nodes increase, which make the end-to-end (E2E) security to in-vehicle end-devices as the urgent issue to be handled. However, the E2E security with fine-grained access control still remains as a challenging issue for resource-constrained end-devices since the existing security solutions require complicated key management and high resource consumption. Therefore, we propose a practical and secure vehicular communication protocol for the E2E security based on a new attribute-based encryption (ABE) scheme. In our scheme, the outsourced computation is provided for encryption, and the computation cost for decryption constantly remains small, regardless of the number of attributes. The policy privacy can be ensured by the proposed ABE to support privacy-sensitive V2X applications, and the existing identity-based signature for outsourced signing is newly reconstructed. Our scheme achieves the confidentiality, message authentication, identity anonymity, unlinkability, traceability, and reconfigurable outsourced computation, and we also show the practical feasibility of our protocol via the performance evaluation. | 翻訳日:2024-03-18 12:26:52 公開日:2023-12-14 |
# グリッドのガード:偽データ注入攻撃に対する自動住宅需要応答におけるレジリエンスを高める
Guarding the Grid: Enhancing Resilience in Automated Residential Demand Response Against False Data Injection Attacks ( http://arxiv.org/abs/2312.08646v1 ) ライセンス: Link先を確認 | Thusitha Dayaratne, Carsten Rudolph, Ariel Liebman, Mahsa Salehi, | (参考訳) ユーティリティ企業は、自動デバイススケジューリングによる住宅需要応答(DR)プログラムの有効性を高めるために、住宅需要の柔軟性とスマート/IoTデバイスの普及をますます活用している。
しかし、これらのシステムにおける分散アーキテクチャの採用は、偽データ注入攻撃(FDIA)の危険性を露呈し、敵は偽データ注入によって意思決定プロセスを操作できる。
こうした分散システムやデータに対して限られた制御ユーティリティ企業が持っていることを考えると、FDIAに対する住宅DRスキームのレジリエンスを高めるための信頼性の高い実装の必要性が最重要である。
本研究では、DR最適化、異常検出、攻撃の影響軽減戦略を組み合わせた総合的なフレームワークを構築し、レジリエントで自動化されたデバイススケジューリングシステムを構築する。
FDIAに対する我々のフレームワークの堅牢性を検証するため、実世界のデータセットを用いて評価を行い、住宅DRシステムの安全性を強調した。
Utility companies are increasingly leveraging residential demand flexibility and the proliferation of smart/IoT devices to enhance the effectiveness of residential demand response (DR) programs through automated device scheduling. However, the adoption of distributed architectures in these systems exposes them to the risk of false data injection attacks (FDIAs), where adversaries can manipulate decision-making processes by injecting false data. Given the limited control utility companies have over these distributed systems and data, the need for reliable implementations to enhance the resilience of residential DR schemes against FDIAs is paramount. In this work, we present a comprehensive framework that combines DR optimisation, anomaly detection, and strategies for mitigating the impacts of attacks to create a resilient and automated device scheduling system. To validate the robustness of our framework against FDIAs, we performed an evaluation using real-world data sets, highlighting its effectiveness in securing residential DR systems. | 翻訳日:2024-03-18 12:17:07 公開日:2023-12-14 |
# 拘束されたリライディング・パーティによる検証
Attestation with Constrained Relying Party ( http://arxiv.org/abs/2312.08903v1 ) ライセンス: Link先を確認 | Mariam Moustafa, Arto Niemi, Philip Ginzboorg, Jan-Erik Ekberg, | (参考訳) プライバシに敏感なセンサーの読み取りを受信したり、セーフティクリティカルなアクチュエータを操作するために、妥協されたデバイスを許可することは、重大なリスクを負う。
通常、このようなリスクは、リモート認証でデバイスのセキュリティ状態を検証することで軽減されるが、現在のリモート認証プロトコルは、認証の受益者である依存当事者が小さなセンサーやアクチュエータのような制約のあるデバイスである場合に適さない。
これらのデバイスは、そのようなプロトコルが必要とする公開鍵暗号を操作するためのパワーとメモリが欠如しており、セキュリティ状態を評価したいコントローラなど、物理的に近接しているデバイスとしか通信できない可能性がある。
本稿では,対称鍵暗号と単一通信チャネルに制限された関係者を頼りにするための遠隔プラットフォーム検証プロトコルを提案する。
必要な暗号やメッセージ処理を含む当社のプロトコルは,コードサイズ6KBで実装可能であり,ProVerifツールによるモデルチェックによるセキュリティ検証が可能であることを示す。
Allowing a compromised device to receive privacy-sensitive sensor readings, or to operate a safety-critical actuator, carries significant risk. Usually, such risks are mitigated by validating the device's security state with remote attestation, but current remote attestation protocols are not suitable when the beneficiary of attestation, the relying party, is a constrained device such as a small sensor or actuator. These devices typically lack the power and memory to operate public-key cryptography needed by such protocols, and may only be able to communicate with devices in their physical proximity, such as with the controller whose security state they wish to evaluate. In this paper, we present a remote platform attestation protocol suitable for relying parties that are limited to symmetric-key cryptography and a single communication channel. We show that our protocol, including the needed cryptography and message processing, can be implemented with a code size of 6 KB and validate its security via model checking with the ProVerif tool. | 翻訳日:2024-03-18 12:17:07 公開日:2023-12-14 |
# Intel SGXによるWebAssemblyの総合信頼ランタイム
A Comprehensive Trusted Runtime for WebAssembly with Intel SGX ( http://arxiv.org/abs/2312.09087v1 ) ライセンス: Link先を確認 | Jämes Ménétrey, Marcelo Pasin, Pascal Felber, Valerio Schiavoni, Giovanni Mazzeo, Arne Hollum, Darshan Vaydia, | (参考訳) 現実のシナリオでは、信頼された実行環境(TEE)は、インフラストラクチャプロバイダの信頼を欠いたアプリケーションや、リモート処理のためにデータをアウトソースしたデータ所有者を頻繁にホストします。
WebAssemblyコンパイルされたアプリケーションをTEE内で実行するための信頼性の高いランタイムであるTwineを紹介し、双方向のサンドボックスを確立します。
TwineはWebAssembly(Wasm)のメモリ安全性の保証を活用し、TEEの複雑さを抽象化し、レガシーおよび言語に依存しないアプリケーションの実行を促進する。
標準のWebAssemblyシステムインターフェース(WASI)を拡張し、I/OにフォーカスしたコントロールされたOSサービスを提供する。
さらに、組み込みのTEEメカニズムを通じて、Twineは、アプリケーションに供給されるランタイムとOSサービスの整合性を保証するために、テスト機能を提供する。
汎用ベンチマークと実世界のアプリケーションを用いてその性能を評価し,最先端のソリューションと比較した。
フィンテック企業であるCredoraのケーススタディによると、Twineは、0.7倍のスローダウンから、ネイティブランタイムと比較して1.17倍のスピードアップまで、適切なパフォーマンストレードオフで本番環境にデプロイ可能である。
最後に,ライブラリの最適化による性能向上を確認し,最大4.1倍の高速化を実現する。
Twineはオープンソースで、元のWasmランタイムであるWAMRにアップストリームされている。
In real-world scenarios, trusted execution environments (TEEs) frequently host applications that lack the trust of the infrastructure provider, as well as data owners who have specifically outsourced their data for remote processing. We present Twine, a trusted runtime for running WebAssembly-compiled applications within TEEs, establishing a two-way sandbox. Twine leverages memory safety guarantees of WebAssembly (Wasm) and abstracts the complexity of TEEs, empowering the execution of legacy and language-agnostic applications. It extends the standard WebAssembly system interface (WASI), providing controlled OS services, focusing on I/O. Additionally, through built-in TEE mechanisms, Twine delivers attestation capabilities to ensure the integrity of the runtime and the OS services supplied to the application. We evaluate its performance using general-purpose benchmarks and real-world applications, showing it compares on par with state-of-the-art solutions. A case study involving fintech company Credora reveals that Twine can be deployed in production with reasonable performance trade-offs, ranging from a 0.7x slowdown to a 1.17x speedup compared to native run time. Finally, we identify performance improvement through library optimisation, showcasing one such adjustment that leads up to 4.1x speedup. Twine is open-source and has been upstreamed into the original Wasm runtime, WAMR. | 翻訳日:2024-03-18 12:17:07 公開日:2023-12-14 |
# MRL-PoS:ブロックチェーンのための吸気合意アルゴリズムの証明に基づくマルチエージェント強化学習
MRL-PoS: A Multi-agent Reinforcement Learning based Proof of Stake Consensus Algorithm for Blockchain ( http://arxiv.org/abs/2312.09123v1 ) ライセンス: Link先を確認 | Tariqul Islam, Faisal Haque Bappy, Tarannum Shaila Zaman, Md Sajidul Islam Sajid, Mir Mehedi Ahsan Pritom, | (参考訳) ブロックチェーンネットワークの中核は、コンセンサスアルゴリズムである。
Proof-of-Workをはじめ、PoS(Proof-of-Stake)、PoA(Proof-of-Authority)、PBFT(Practical Byzantine Fault Tolerance)といったコンセンサスアルゴリズムの様々なバージョンがある。
これらのアルゴリズムはそれぞれ、トランザクションの効率的で信頼性の高い処理を保証するために、さまざまな側面に焦点を当てています。
ブロックチェーンは中央の権威がなく、ネットワークは多様なユーザで構成される分散的な方法で運用されている。
このオープン性は、悪意のあるノードがネットワークをさまざまな方法で破壊する可能性を生んでいる。
したがって、これらの悪意のあるノードを常に監視、識別、削除するためのメカニズムをブロックチェーンネットワークに組み込むことが重要です。
しかしながら、すべての悪意のあるノードを特定するのに、すべてに適合するメカニズムは存在しない。
したがって、ブロックチェーンネットワークの動的適応性は、セキュリティと信頼性を常に維持するために重要である。
本稿では,マルチエージェント強化学習に基づくProof-of-StakeコンセンサスアルゴリズムであるMRL-PoSを紹介する。
MRL-PoSは、すべてのユーザの振る舞いを動的に調整するために強化学習を採用している。
悪意のあるノードを排除し、正直なノードにインセンティブを与える、報酬と罰則の仕組みが組み込まれている。
さらにMRL-PoSは、エージェントを継続的に訓練することで、新しい悪意ある戦術を学習し、反応する能力を持っている。
The core of a blockchain network is its consensus algorithm. Starting with the Proof-of-Work, there have been various versions of consensus algorithms, such as Proof-of-Stake (PoS), Proof-of-Authority (PoA), and Practical Byzantine Fault Tolerance (PBFT). Each of these algorithms focuses on different aspects to ensure efficient and reliable processing of transactions. Blockchain operates in a decentralized manner where there is no central authority and the network is composed of diverse users. This openness creates the potential for malicious nodes to disrupt the network in various ways. Therefore, it is crucial to embed a mechanism within the blockchain network to constantly monitor, identify, and eliminate these malicious nodes. However, there is no one-size-fits-all mechanism to identify all malicious nodes. Hence, the dynamic adaptability of the blockchain network is important to maintain security and reliability at all times. This paper introduces MRL-PoS, a Proof-of-Stake consensus algorithm based on multi-agent reinforcement learning. MRL-PoS employs reinforcement learning for dynamically adjusting to the behavior of all users. It incorporates a system of rewards and penalties to eliminate malicious nodes and incentivize honest ones. Additionally, MRL-PoS has the capability to learn and respond to new malicious tactics by continually training its agents. | 翻訳日:2024-03-18 12:17:07 公開日:2023-12-14 |
# Puppy: 公開検証可能な透かしプロトコル
Puppy: A Publicly Verifiable Watermarking Protocol ( http://arxiv.org/abs/2312.09125v1 ) ライセンス: Link先を確認 | Devriş İşler, Seoyeon Hwang, Yoshimichi Nakatsuka, Nikolaos Laoutaris, Gene Tsudik, | (参考訳) 本稿では,任意の対称な透かしを公に検証可能なものに変換するための,初めて正式に定義されたフレームワークであるPuppyを提案する。
Puppyは、信頼できる第三者の助けを借りて、誰でも何回でも透かしを検証できる。
我々は,Puppyのセキュリティを理想/実世界のシミュレーションパラダイムを用いて正式に定義し,(1)信頼された実行環境(TEE)を利用するPuppy-TEEと(2)二要素計算(2PC)に依存するPuppy-2PCという,実用的で安全な2つのインスタンスを構築した。
次に、4つの現行対称透かし方式を公開検証方式に変換し、Puppy-TEE と Puppy-2PC を用いて広範な実験を行う。
評価の結果、Puppy-TEEはオーバーヘッドをいくらか発生させるが、その総レイテンシは4つの透かしスキームのうち3分の3ミリ秒であることがわかった。
Puppy-2PCのオーバーヘッドは(数秒の順序で)高いが、TEEが欠如している設定や、TEEに関する強い信頼前提を避ける必要がある設定には有効である。
私たちはさらに、そのスケーラビリティとレジリエンスを高めるためにソリューションを最適化し、メモ化によるサービスアタックを否定します。
In this paper, we propose Puppy, the first formally defined framework for converting any symmetric watermarking into a publicly verifiable one. Puppy allows anyone to verify a watermark any number of times with the help of an untrusted third party, without requiring owner presence during detection. We formally define and prove security of Puppy using the ideal/real-world simulation paradigm and construct two practical and secure instances: (1) Puppy-TEE that uses Trusted Execution Environments (TEEs), and (2) Puppy-2PC that relies on two-party computation (2PC) based on garbled circuits. We then convert four current symmetric watermarking schemes into publicly verifiable ones and run extensive experiments using Puppy-TEE and Puppy-2PC. Evaluation results show that, while Puppy-TEE incurs some overhead, its total latency is on the order of milliseconds for three out of four watermarking schemes. Although the overhead of Puppy-2PC is higher (on the order of seconds), it is viable for settings that lack a TEE or where strong trust assumptions about a TEE need to be avoided. We further optimize the solution to increase its scalability and resilience to denial of service attacks via memoization. | 翻訳日:2024-03-18 12:17:07 公開日:2023-12-14 |
# OSTINATO:攻撃活動類似性検出によるクロスホスト攻撃相関
OSTINATO: Cross-host Attack Correlation Through Attack Activity Similarity Detection ( http://arxiv.org/abs/2312.09321v1 ) ライセンス: Link先を確認 | Sutanu Kumar Ghosh, Kiavash Satvat, Rigel Gjomemo, V. N. Venkatakrishnan, | (参考訳) 企業に対する現代の攻撃は、しばしば企業ネットワーク内で複数のターゲットを持つ。
これらのネットワークの規模が大きくなり、ステルス攻撃がますます増えているため、複数のホストにまたがる攻撃活動は、脅威追尾作業の間、非常に相関が難しい。
本稿では,複数のホスト間での効率的なクロスホスト攻撃相関法を提案する。
従来の手法とは異なり, 横移動検出技術やホストレベルの修正は不要である。
その代わりに、我々のアプローチは攻撃者が侵入するすべてのホストに対していくつかの戦略的な目標を持つという観察に依存しており、その目的を達成するための技術はごくわずかである。
このアプローチの背後にある中心的な考え方は、異なるホスト上の(OSに依存しない)アクティビティを比較し、同様の戦術、テクニック、手順の使用を示すホストを関連付けることです。
我々は、Ostinatoと呼ばれるツールにアプローチを実装し、DARPA主導のレッドチームによる500のホストにわたるエンゲージメントや、別のマルチホスト攻撃シナリオを含む脅威ハンティングシナリオでそれを評価しました。
オシナトは21の侵入ホストの発見に成功し、攻撃活動の何日かにわたる活動において、基礎となるホストベースの検出システムが見落としていた。
さらに、Ostinatoは、基盤となる検知システムから発生する警報を90%以上削減し、脅威警報疲労問題を軽減した。
Modern attacks against enterprises often have multiple targets inside the enterprise network. Due to the large size of these networks and increasingly stealthy attacks, attacker activities spanning multiple hosts are extremely difficult to correlate during a threat-hunting effort. In this paper, we present a method for an efficient cross-host attack correlation across multiple hosts. Unlike previous works, our approach does not require lateral movement detection techniques or host-level modifications. Instead, our approach relies on an observation that attackers have a few strategic mission objectives on every host that they infiltrate, and there exist only a handful of techniques for achieving those objectives. The central idea behind our approach involves comparing (OS agnostic) activities on different hosts and correlating the hosts that display the use of similar tactics, techniques, and procedures. We implement our approach in a tool called Ostinato and successfully evaluate it in threat hunting scenarios involving DARPA-led red team engagements spanning 500 hosts and in another multi-host attack scenario. Ostinato successfully detected 21 additional compromised hosts, which the underlying host-based detection system overlooked in activities spanning multiple days of the attack campaign. Additionally, Ostinato successfully reduced alarms generated from the underlying detection system by more than 90%, thus helping to mitigate the threat alert fatigue problem | 翻訳日:2024-03-18 12:17:07 公開日:2023-12-14 |
# DECLASSIFLOW: 投機的実行セキュリティ対策(フルバージョン)を緩和する非投機的知識モデリングのための静的解析
DECLASSIFLOW: A Static Analysis for Modeling Non-Speculative Knowledge to Relax Speculative Execution Security Measures (Full Version) ( http://arxiv.org/abs/2312.09336v1 ) ライセンス: Link先を確認 | Rutvik Choudhary, Alan Wang, Zirui Neil Zhao, Adam Morrison, Christopher W. Fletcher, | (参考訳) 投機的実行攻撃は、暗号コードのようなセキュリティに敏感なソフトウェアにおいて、マイクロアーキテクチャのサイドチャネルを防ぐための標準手法である、定数時間プログラミングのセキュリティを損なう。
したがって、定時コードは、メモリやプロセッサレジスタに格納された秘密データの漏洩を防ぐために、投機的実行攻撃に対する防御を展開しなければならない。
残念ながら、投機的負荷硬化(SLH)のような現代の防衛は、非常に高い性能でこの強力なセキュリティ保証を満足するしかありません。
本稿では,静的プログラム解析・保護フレームワークであるDECLASSIFLOWを提案する。
DECLASSIFLOWは"攻撃者知識"をモデル化する -- コードの非投機的実行によって本質的に送信される(あるいは暗黙的に非分類される)データで、すでに非投機的リークが保証されているプログラムのポイントから、そのようなデータに対する保護を静的に除去する。
全体として、DECLASSIFLOWは、非投機的実行中に漏れないデータが投機的実行中に漏れることはなく、SLHのような保守的保護よりもオーバーヘッドが低いことを保証している。
Speculative execution attacks undermine the security of constant-time programming, the standard technique used to prevent microarchitectural side channels in security-sensitive software such as cryptographic code. Constant-time code must therefore also deploy a defense against speculative execution attacks to prevent leakage of secret data stored in memory or the processor registers. Unfortunately, contemporary defenses, such as speculative load hardening (SLH), can only satisfy this strong security guarantee at a very high performance cost. This paper proposes DECLASSIFLOW, a static program analysis and protection framework to efficiently protect constant-time code from speculative leakage. DECLASSIFLOW models "attacker knowledge" -- data which is inherently transmitted (or, implicitly declassified) by the code's non-speculative execution -- and statically removes protection on such data from points in the program where it is already guaranteed to leak non-speculatively. Overall, DECLASSIFLOW ensures that data which never leaks during the non-speculative execution does not leak during speculative execution, but with lower overhead than conservative protections like SLH. | 翻訳日:2024-03-18 12:17:07 公開日:2023-12-14 |
# 水平ヨーロッパNEUROPULSプロジェクトにおけるセキュリティレイヤとその関連サービス
Security layers and related services within the Horizon Europe NEUROPULS project ( http://arxiv.org/abs/2312.09383v1 ) ライセンス: Link先を確認 | Fabio Pavanello, Cedric Marchand, Paul Jimenez, Xavier Letartre, Ricardo Chaves, Niccolò Marastoni, Alberto Lovato, Mariano Ceccato, George Papadimitriou, Vasileios Karakostas, Dimitris Gizopoulos, Roberta Bardini, Tzamn Melendez Carmona, Stefano Di Carlo, Alessandro Savino, Laurence Lerch, Ulrich Ruhrmair, Sergio Vinagrero Gutierrez, Giorgio Di Natale, Elena Ioana Vatajelu, | (参考訳) 現代のセキュリティの状況において、フォトニクスの組み入れは、セキュリティプリミティブのレジリエンスと有効性を高める可能性のスペクトルを解き放ち、変革的な力として現れてきた。
この統合は単なる技術的拡張以上のものであり、低消費電力システムの主要な特性を持つセキュリティプリミティブを提供する革新的なアプローチへのパラダイムシフトを表している。
これはセキュリティフレームワークの堅牢性を高めるだけでなく、デジタル時代の進化する課題に適応する新しい戦略の道を開いた。
本稿では,Horizon Europe NEUROPULSプロジェクトで開発され,モデル化され,評価されるセキュリティレイヤとその関連サービスについて論じる。
これらのレイヤは、統合フォトニクス技術を使用して、物理的非拘束機能(PUF)に基づいたセキュリティプリミティブのための新しい実装を利用する。
彼らの目標は、エッジコンピューティングアプリケーションのためのニューロモルフィックフォトニックアクセラレーターのセキュアな動作をサポートする一連のサービスを提供することである。
In the contemporary security landscape, the incorporation of photonics has emerged as a transformative force, unlocking a spectrum of possibilities to enhance the resilience and effectiveness of security primitives. This integration represents more than a mere technological augmentation; it signifies a paradigm shift towards innovative approaches capable of delivering security primitives with key properties for low-power systems. This not only augments the robustness of security frameworks, but also paves the way for novel strategies that adapt to the evolving challenges of the digital age. This paper discusses the security layers and related services that will be developed, modeled, and evaluated within the Horizon Europe NEUROPULS project. These layers will exploit novel implementations for security primitives based on physical unclonable functions (PUFs) using integrated photonics technology. Their objective is to provide a series of services to support the secure operation of a neuromorphic photonic accelerator for edge computing applications. | 翻訳日:2024-03-18 12:07:24 公開日:2023-12-14 |
# transduce: 文字列変換のための変換文法の学習 Transduce: learning transduction grammars for string transformation ( http://arxiv.org/abs/2401.09426v1 ) ライセンス: Link先を確認 | Francis Frydman, Philippe Mangion | (参考訳) 入力出力の例から文字列変換プログラムを合成することは様々な手法を用いており、これらは基本演算子の制限された集合からなる帰納バイアスに基づいている。
抽象的変換文法の構成とその一般化を基礎とした新しいアルゴリズムであるtransduceが提案されている。
そこで本研究では,トランスデュースが帰納的バイアスを伴わずに1つか2つの正の例から位置変換を効率的に学習できることを実験的に実証する。 The synthesis of string transformation programs from input-output examples utilizes various techniques, all based on an inductive bias that comprises a restricted set of basic operators to be combined. A new algorithm, Transduce, is proposed, which is founded on the construction of abstract transduction grammars and their generalization. We experimentally demonstrate that Transduce can learn positional transformations efficiently from one or two positive examples without inductive bias, achieving a success rate higher than the current state of the art. | 翻訳日:2024-01-22 09:41:43 公開日:2023-12-14 |
# ベイズ情報ゲインを用いたてんかん感情の覚醒電位のモデル化:自由エネルギー変動による問い合わせサイクル Modeling arousal potential of epistemic emotions using Bayesian information gain: Inquiry cycle driven by free energy fluctuations ( http://arxiv.org/abs/2401.00007v1 ) ライセンス: Link先を確認 | Hideyoshi Yanagisawa, Shimon Honda | (参考訳) 好奇心や興味などの情緒的な感情は、調査プロセスを促進する。
本研究は,自由エネルギー最小化の原理によって生じる2種類の情報ゲイン(kullback-leibler divergence(kld)を,認識の自由エネルギー削減を表すベイジアン後段から前段へ,ベイジアン前段更新によって期待される情報ゲインを表すベイジアンサプライズ(bs)を用いて,好奇心や興味といった認識感情の新たな定式化を提案する。
KLD と BS はガウス生成モデルを適用することで、バーリンの覚醒ポテンシャル関数(英語版)(Wundt curve)と同様に、驚き(最小化自由エネルギーと予測誤差)の上下凸関数を形成することがわかった。
我々は,BSとKLDの交互最大化が,ゆらぎを伴う最適覚醒レベルに近づく理想的な探索サイクルとなり,好奇心と興味が循環過程を促進すると考えられる。
我々は,情報ゲイン関数のピークに対する予測不確実性(事前分散)と観測不確実性(類似分散)の影響を,最適サプライズとして網羅的に分析した。
以上の結果から,より広い範囲の探究を通じて,予測の不確実性,すなわち開放的態度,観察的不確実性,すなわち注意を伴う正確な観察を期待できる可能性が示唆された。
提案する数学的枠組みは、脳の自由エネルギー原理と覚醒ポテンシャル理論を統合し、wundt曲線を情報ゲイン関数として説明し、認識論的感情によって駆動される理想的な探索過程を提案する。 Epistemic emotions, such as curiosity and interest, drive the inquiry process. This study proposes a novel formulation of epistemic emotions such as curiosity and interest using two types of information gain generated by the principle of free energy minimization: Kullback-Leibler divergence(KLD) from Bayesian posterior to prior, which represents free energy reduction in recognition, and Bayesian surprise (BS), which represents the expected information gain by Bayesian prior update. By applying a Gaussian generative model with an additional uniform likelihood, we found that KLD and BS form an upward-convex function of surprise (minimized free energy and prediction error), similar to Berlyne's arousal potential functions, or the Wundt curve. We consider that the alternate maximization of BS and KLD generates an ideal inquiry cycle to approach the optimal arousal level with fluctuations in surprise, and that curiosity and interest drive to facilitate the cyclic process. We exhaustively analyzed the effects of prediction uncertainty (prior variance) and observation uncertainty (likelihood variance) on the peaks of the information gain function as optimal surprises. The results show that greater prediction uncertainty, meaning an open-minded attitude, and less observational uncertainty, meaning precise observation with attention, are expected to provide greater information gains through a greater range of exploration. The proposed mathematical framework unifies the free energy principle of the brain and the arousal potential theory to explain the Wundt curve as an information gain function and suggests an ideal inquiry process driven by epistemic emotions. | 翻訳日:2024-01-15 12:24:53 公開日:2023-12-14 |
# スパイクニューラルネットワークにおける長周期学習 Learning Long Sequences in Spiking Neural Networks ( http://arxiv.org/abs/2401.00955v1 ) ライセンス: Link先を確認 | Matei Ioan Stan (The University of Manchester) and Oliver Rhodes (The University of Manchester) | (参考訳) スパイキングニューラルネットワーク(SNN)は、エネルギー効率の高い計算を可能にするために脳からインスピレーションを得ている。
トランスフォーマーの出現以来、snsは、リカレントニューラルネットワーク(recurrent neural networks, rnns)の制限を継承し、非微分可能なバイナリスパイクアクティベーションによるトレーニングの課題として、現代的なシーケンシャルなタスクにおけるニューラルネットワークとの競合に苦しんだ。
しかし、トランスフォーマーの効率的な代替案に対する最近の関心は、状態空間モデル (SSMs) と呼ばれる最先端の繰り返しアーキテクチャの出現をもたらした。
この研究は、長距離シーケンスモデリングのための最先端SSMとSNNの交差を初めて体系的に調査する。
その結果、ssmベースのsnは、確立された長距離シーケンスモデリングベンチマークの全てのタスクにおいてトランスフォーマーを上回ることができることが示唆された。
また、ssmベースのsnは、逐次画像分類のパラメータの少ない現在のsnsを上回ることも示されている。
最後に、SNNにおけるバイナリアクティベーションの役割を仮定しながら、SNNの精度を向上させる新しい機能混合層を導入する。
この作業は、大きな言語モデルのような強力なssmベースのアーキテクチャを、エネルギー効率のよい長距離シーケンスモデリングのためのニューロモルフィックハードウェアに展開する道を開く。 Spiking neural networks (SNNs) take inspiration from the brain to enable energy-efficient computations. Since the advent of Transformers, SNNs have struggled to compete with artificial networks on modern sequential tasks, as they inherit limitations from recurrent neural networks (RNNs), with the added challenge of training with non-differentiable binary spiking activations. However, a recent renewed interest in efficient alternatives to Transformers has given rise to state-of-the-art recurrent architectures named state space models (SSMs). This work systematically investigates, for the first time, the intersection of state-of-the-art SSMs with SNNs for long-range sequence modelling. Results suggest that SSM-based SNNs can outperform the Transformer on all tasks of a well-established long-range sequence modelling benchmark. It is also shown that SSM-based SNNs can outperform current state-of-the-art SNNs with fewer parameters on sequential image classification. Finally, a novel feature mixing layer is introduced, improving SNN accuracy while challenging assumptions about the role of binary activations in SNNs. This work paves the way for deploying powerful SSM-based architectures, such as large language models, to neuromorphic hardware for energy-efficient long-range sequence modelling. | 翻訳日:2024-01-15 12:18:45 公開日:2023-12-14 |
# コミックスタイルのビジュアルナラティブのためのカスタマイズ可能なジェネレータ A Customizable Generator for Comic-Style Visual Narrative ( http://arxiv.org/abs/2401.02863v1 ) ライセンス: Link先を確認 | Yi-Chun Chen, Arnav Jhala | (参考訳) 本稿では,漫画の原理を,理論を融合して漫画コンテンツを作成するシステム層に伝達する,漫画作者のイディオムを取り入れた理論に着想を得たビジュアル・ナラティブ・ジェネレータを提案する。
ジェネレータは、パネル構成、オブジェクト位置、パネル遷移、物語要素から階層間のシーケンシャルな意思決定を通じてコミックを生成する。
それぞれの層の決定は物語の目標に基づいており、媒体の各層イディオムに従う。
コーンの物語文法は物語全体の弧を与える。
3番目の規則に触発された写真組成物は、パネル組成物を提供するために使用される。
McCloudの提案するパネル遷移は、シーン、キャラクタ、時間的変化のフォーカスシフトに基づいて、トランジション層にエンコードされる。
最後に、アクションバーブオントロジーを用いたアクション動詞の分析に基づいて、共通のオーバーレイシンボル(例えば、宣言)を追加する。
様々な設定で生成された漫画の多様性を実例で示す。
ジェネレータと関連するモジュールは、ビジュアルナラティブのオーサリングや、ビジュアルナラティブ理解の計算モデルの研究に有用なシステムとなるかもしれない。 We present a theory-inspired visual narrative generator that incorporates comic-authoring idioms, which transfers the conceptual principles of comics into system layers that integrate the theories to create comic content. The generator creates comics through sequential decision-making across layers from panel composition, object positions, panel transitions, and narrative elements. Each layer's decisions are based on narrative goals and follow the respective layer idioms of the medium. Cohn's narrative grammar provides the overall story arc. Photographic compositions inspired by the rule of thirds is used to provide panel compositions. McCloud's proposed panel transitions based on focus shifts between scene, character, and temporal changes are encoded in the transition layer. Finally, common overlay symbols (such as the exclamation) are added based on analyzing action verbs using an action-verb ontology. We demonstrate the variety of generated comics through various settings with example outputs. The generator and associated modules could be a useful system for visual narrative authoring and for further research into computational models of visual narrative understanding. | 翻訳日:2024-01-15 09:44:21 公開日:2023-12-14 |
# テキスト中の深部異常検出 Deep Anomaly Detection in Text ( http://arxiv.org/abs/2401.02971v1 ) ライセンス: Link先を確認 | Andrei Manolache | (参考訳) 近年では、スタック型オートエンコーダ、変分オートエンコーダ、生成型逆ネットワークといった手法が最先端技術を大幅に改善し、深い異常検出手法が普及している。
他の手法では、ニューラルネットワークを用いて適切なカーネル関数を学習することで、古典的なモデル(例えばワンクラスサポートベクトルマシン)の強化に依存している。
自己スーパービジョンによる表現学習の最近の発展は、異常検出の文脈において非常に有益であることが証明されている。
コンピュータビジョンの分野における自己教師付き学習を用いた異常検出の進歩に触発され,テキストコーパスに適したプリテキストタスクを活用し,異常検出手法の開発を目指す。
このアプローチは、半教師付きおよび教師なしの異常検出のための2つのデータセットである20NewsgroupsとAG Newsの最先端を大いに改善し、自然言語処理分野における自己教師付き異常検出の可能性を示す。 Deep anomaly detection methods have become increasingly popular in recent years, with methods like Stacked Autoencoders, Variational Autoencoders, and Generative Adversarial Networks greatly improving the state-of-the-art. Other methods rely on augmenting classical models (such as the One-Class Support Vector Machine), by learning an appropriate kernel function using Neural Networks. Recent developments in representation learning by self-supervision are proving to be very beneficial in the context of anomaly detection. Inspired by the advancements in anomaly detection using self-supervised learning in the field of computer vision, this thesis aims to develop a method for detecting anomalies by exploiting pretext tasks tailored for text corpora. This approach greatly improves the state-of-the-art on two datasets, 20Newsgroups, and AG News, for both semi-supervised and unsupervised anomaly detection, thus proving the potential for self-supervised anomaly detectors in the field of natural language processing. | 翻訳日:2024-01-15 09:30:48 公開日:2023-12-14 |
# 日常環境におけるウェアラブルおよびモバイル技術を用いたコンテキストアウェアストレスモニタリング Context-Aware Stress Monitoring using Wearable and Mobile Technologies in Everyday Settings ( http://arxiv.org/abs/2401.05367v1 ) ライセンス: Link先を確認 | Seyed Amir Hossein Aqajari, Sina Labbaf, Phuc Hoang Tran, Brenda Nguyen, Milad Asgari Mehrabadi, Marco Levorato, Nikil Dutt, Amir M. Rahmani | (参考訳) ストレスの日々のモニタリングは、最適な身体と精神の健康を維持する重要な要素である。
生理的信号と文脈情報は最近、ストレスの高まりを検知するための有望な指標として現れている。
それにもかかわらず、生理的・文脈的なデータを用いて日常のストレスレベルを予測し、参加者からストレスラベルを収集するリアルタイムモニタリングシステムの開発は、大きな課題である。
本稿では,日常環境における生理的・文脈的データを利用して,日常的なストレスレベルを客観的に追跡するモニタリングシステムを提案する。
さらに,ストレス検出のための機械学習モデル構築に必要なエコロジーモーメントアセスメント(EMA)コレクションを最適化するために,スマートラベル手法を統合した。
課題に対処するために,三層インターネットベースのシステムアーキテクチャを提案する。
クロスバリデーション手法を用いてストレスモデルの性能を正確に推定した。
ppgと文脈データの両方を用いたランダムフォレスト分類器を用いて,f1-scoreの70\%を達成した。
PPGデータのみを使用するのに対し、最も高いF1スコアは56\%であり、PPGデータと文脈データの両方をストレス検出タスクに組み込むことの重要性を強調している。 Daily monitoring of stress is a critical component of maintaining optimal physical and mental health. Physiological signals and contextual information have recently emerged as promising indicators for detecting instances of heightened stress. Nonetheless, developing a real-time monitoring system that utilizes both physiological and contextual data to anticipate stress levels in everyday settings while also gathering stress labels from participants represents a significant challenge. We present a monitoring system that objectively tracks daily stress levels by utilizing both physiological and contextual data in a daily-life environment. Additionally, we have integrated a smart labeling approach to optimize the ecological momentary assessment (EMA) collection, which is required for building machine learning models for stress detection. We propose a three-tier Internet-of-Things-based system architecture to address the challenges. We utilized a cross-validation technique to accurately estimate the performance of our stress models. We achieved the F1-score of 70\% with a Random Forest classifier using both PPG and contextual data, which is considered an acceptable score in models built for everyday settings. Whereas using PPG data alone, the highest F1-score achieved is approximately 56\%, emphasizing the significance of incorporating both PPG and contextual data in stress detection tasks. | 翻訳日:2024-01-15 08:57:45 公開日:2023-12-14 |
# ウェアラブルによるハプティックアラートによるリスク予測のためのオンライン行動認識 Online Action Recognition for Human Risk Prediction with Anticipated Haptic Alert via Wearables ( http://arxiv.org/abs/2401.05365v1 ) ライセンス: Link先を確認 | Cheng Guo (1 and 2), Lorenzo Rapetti (1), Kourosh Darvish (3), Riccardo Grieco (1), Francesco Draicchio (4), Daniele Pucci (1 and 2) ((1) Istituto Italiano di Tecnologia, (2) University of Manchester, (3) University of Toronto, (4) INAIL) | (参考訳) 本稿では,作業中のバイオメカニカルリスクの早期評価と防止を可能にするために,オンライン人間状態推定,行動認識,行動予測を組み合わせたフレームワークを提案する。
このフレームワークはNIOSHインデックスを利用してオンラインリスク評価を行い、リアルタイムアプリケーションに適合する。
特に、人間の状態は、ウェアラブルセンサーデータから逆運動学/力学アルゴリズムによって検索される。
人間の行動認識と動作予測は、LSTMベースのガイドミキサー・オブ・エキスパートアーキテクチャを実装することで達成される。
認識された動作では、単一のリフト活動が一連の連続運動に分割され、修正NIOSHリフティング方程式がリスク評価に適用できる。
さらに、予測された動きは将来のリスクを予測できる。
ウェアラブルシステムに組み込まれた触覚アクチュエータは、潜在的なリスクを警告し、アクティブな予防装置として機能する。
提案フレームワークの性能は実際の昇降タスクの実行によって検証されるが, 被験者はifeelウェアラブルシステムを備えている。 This paper proposes a framework that combines online human state estimation, action recognition and motion prediction to enable early assessment and prevention of worker biomechanical risk during lifting tasks. The framework leverages the NIOSH index to perform online risk assessment, thus fitting real-time applications. In particular, the human state is retrieved via inverse kinematics/dynamics algorithms from wearable sensor data. Human action recognition and motion prediction are achieved by implementing an LSTM-based Guided Mixture of Experts architecture, which is trained offline and inferred online. With the recognized actions, a single lifting activity is divided into a series of continuous movements and the Revised NIOSH Lifting Equation can be applied for risk assessment. Moreover, the predicted motions enable anticipation of future risks. A haptic actuator, embedded in the wearable system, can alert the subject of potential risk, acting as an active prevention device. The performance of the proposed framework is validated by executing real lifting tasks, while the subject is equipped with the iFeel wearable system. | 翻訳日:2024-01-15 08:57:25 公開日:2023-12-14 |
# プロセス理論としてのコンストラクタ理論 Constructor Theory as Process Theory ( http://arxiv.org/abs/2401.05364v1 ) ライセンス: Link先を確認 | Stefano Gogioso (Hashberg Ltd), Vincent Wang-Ma\'scianica (Quantinuum Ltd), Muhammad Hamza Waseem (Quantinuum Ltd), Carlo Maria Scandolo (University of Calgary), Bob Coecke (Quantinuum Ltd) | (参考訳) コンストラクタ理論(英: constructor theory)は、物理過程によって抽象的な「タスク」を実装する(im)可能性の観点から、具体的な物理学理論を特徴づけようとするメタ理論的アプローチである。
一方、プロセス理論は、上記のプロセスの構成構造の観点から類似のキャラクタリゼーション目標を追求し、具体的には(対称モノイド)圏論のレンズを通して提示される。
本稿では,プロセス理論におけるコンストラクタ理論の基本概念を定式化する方法について述べる。
具体的には、集合の圏の対称モノイド構造と抽象的なタスクが存在する関係と、そのタスクを具体的プロセスで実装できる物理学からの対称モノイドの圏との間の関手的相互作用を利用する。
これを通じて, コンストラクタ理論がプロセス理論文学のより広範な体系とどのように関係するかという疑問に答え, フィールド間の将来の協調作業への効果を提供する。 Constructor theory is a meta-theoretic approach that seeks to characterise concrete theories of physics in terms of the (im)possibility to implement certain abstract "tasks" by means of physical processes. Process theory, on the other hand, pursues analogous characterisation goals in terms of the compositional structure of said processes, concretely presented through the lens of (symmetric monoidal) category theory. In this work, we show how to formulate fundamental notions of constructor theory within the canvas of process theory. Specifically, we exploit the functorial interplay between the symmetric monoidal structure of the category of sets and relations, where the abstract tasks live, and that of symmetric monoidal categories from physics, where concrete processes can be found to implement said tasks. Through this, we answer the question of how constructor theory relates to the broader body of process-theoretic literature, and provide the impetus for future collaborative work between the fields. | 翻訳日:2024-01-15 08:57:08 公開日:2023-12-14 |
# 符号付き確率のカテゴリを用いたオーバードローイングUrn Overdrawing Urns using Categories of Signed Probabilities ( http://arxiv.org/abs/2312.12453v1 ) ライセンス: Link先を確認 | Bart Jacobs (iHub, Radboud University Nijmegen), Dario Stein (iHub, Radboud University Nijmegen) | (参考訳) 確率論の基本的な実験は、異なる色の複数の球で満たされたウンスから置き換えることなく描いている。
明らかに、内部にあるものよりも多くのボールを引き出すことは物理的に不可能である。
本稿では,負の確率で符号付き分布を許すと,オーバードローイングが数学的に意味を持つことを示す。
慣れ親しんだハイパー幾何学("draw-and-delete")分布の新しい(保守的な)拡張を導入し、オーバードリューを含む任意のサイズのドローを可能にする。
基礎となる理論は、コンピュータグラフィックスにおいて顕著な役割を果たすベルンシュタイン多項式の双対基底関数を利用する。
負の確率は分類確率の枠組みで体系的に扱われ、マルチセットやモナドのようなデータ構造の中心的な役割が強調される。 A basic experiment in probability theory is drawing without replacement from an urn filled with multiple balls of different colours. Clearly, it is physically impossible to overdraw, that is, to draw more balls from the urn than it contains. This paper demonstrates that overdrawing does make sense mathematically, once we allow signed distributions with negative probabilities. A new (conservative) extension of the familiar hypergeometric ('draw-and-delete') distribution is introduced that allows draws of arbitrary sizes, including overdraws. The underlying theory makes use of the dual basis functions of the Bernstein polynomials, which play a prominent role in computer graphics. Negative probabilities are treated systematically in the framework of categorical probability and the central role of datastructures such as multisets and monads is emphasised. | 翻訳日:2023-12-31 03:46:30 公開日:2023-12-14 |
# 境界カオス:スペクトル形式因子 Boundary Chaos: Spectral Form Factor ( http://arxiv.org/abs/2312.12452v1 ) ライセンス: Link先を確認 | Felix Fritzsch and Toma\v{z} Prosen | (参考訳) ランダム行列スペクトル相関は量子カオスの定義的な特徴である。
ここでは,このような相関関係を,スペクトル形状因子とそのゆらぎの観点から,システムの境界に相互作用が限定されるカオス多体量子力学の最小モデルを用いて検討する。
我々は、ランダム境界相互作用の異なるクラスに対して、大きな局所ヒルベルト空間次元 $q$ の極限において、後者を正確に計算し、確率行列論と一致することを見出し、おそらく非零 thouless 時間の後である。
後者の効果は、整数時間とシステムサイズが共鳴条件を満たすとき、スペクトル形成因子の劇的な拡張によるものである。
半古典的(大きな$q$)の結果と小さな局所ヒルベルト空間次元(q=2,3$)の数値を比較し、半古典的体系のように質的に類似した特徴を観察する。 Random matrix spectral correlations is a defining feature of quantum chaos. Here, we study such correlations in a minimal model of chaotic many-body quantum dynamics where interactions are confined to the system's boundary, dubbed \textit{boundary chaos}, in terms of the spectral form factor and its fluctuations. We exactly calculate the latter in the limit of large local Hilbert space dimension $q$ for different classes of random boundary interactions and find it to coincide with random matrix theory, possibly after a non-zero Thouless time. The latter effect is due to a drastic enhancement of the spectral form factor, when integer time and system size fulfill a resonance condition. We compare our semiclassical (large $q$) results with numerics at small local Hilbert space dimension ($q=2,3$) and observe qualitatively similar features as in the semiclassical regime. | 翻訳日:2023-12-31 03:46:15 公開日:2023-12-14 |
# 将来のジオテクニクスワークフロー:大規模言語モデルによる問題解決の加速 Future-proofing geotechnics workflows: accelerating problem-solving with large language models ( http://arxiv.org/abs/2312.12411v1 ) ライセンス: Link先を確認 | Stephen Wu, Yu Otake, Daijiro Mizutani, Chang Liu, Kotaro Asano, Nana Sato, Hidetoshi Baba, Yusuke Fukunaga, Yosuke Higo, Akiyoshi Kamura, Shinnosuke Kodama, Masataka Metoki, Tomoka Nakamura, Yuto Nakazato, Taiga Saito, Akihiro Shioi, Masahiro Takenobu, Keigo Tsukioka, and Ryo Yoshikawa | (参考訳) ChatGPTのような大規模言語モデル(LLM)をジオエンジニアリングのワークフローに統合することは、規律が問題解決と意思決定にどのようにアプローチするかを変革する大きな可能性を秘めている。
本稿は,東京で開催されたハンズオンワークショップにおいて,LLMの地球工学への革新的応用について考察する。
このイベントは、学術、産業、政府セクターの学生、研究者、専門家を含む20人の多様な参加者を集めて、特定の地球工学的課題に対処するためのLLMの実践的利用を調査した。
このワークショップは、4つの異なる実用的地球工学問題の解の作成を図示的な例として促進し、学術論文の開発に結実した。
本稿は,LLMが地学工学の実践を変革する可能性について論じ,基礎的なデータ解析から複雑でマルチモーダルな問題解決まで幅広いタスクを扱う能力を強調した。
また、LSMの実装における課題、特に専門的なタスクにおける高精度で正確性を実現し、専門家の監視の必要性を浮き彫りにしている。
この結果から,LLMが地球工学における効率性,データ処理,意思決定に有効であることが示唆され,この分野におけるより統合されたデータ駆動アプローチへのパラダイムシフトが示唆された。
この研究は、特定の工学領域におけるLLMの可能性を示すだけでなく、人間の専門知識と人工知能のシナジーが問題解決の境界を再定義する学際的な研究や実践において、より広範な応用の先例となる。 The integration of Large Language Models (LLMs) like ChatGPT into the workflows of geotechnical engineering has a high potential to transform how the discipline approaches problem-solving and decision-making. This paper delves into the innovative application of LLMs in geotechnical engineering, as explored in a hands-on workshop held in Tokyo, Japan. The event brought together a diverse group of 20 participants, including students, researchers, and professionals from academia, industry, and government sectors, to investigate practical uses of LLMs in addressing specific geotechnical challenges. The workshop facilitated the creation of solutions for four different practical geotechnical problems as illustrative examples, culminating in the development of an academic paper. The paper discusses the potential of LLMs to transform geotechnical engineering practices, highlighting their proficiency in handling a range of tasks from basic data analysis to complex, multimodal problem-solving. It also addresses the challenges in implementing LLMs, particularly in achieving high precision and accuracy in specialized tasks, and underscores the need for expert oversight. The findings demonstrate LLMs' effectiveness in enhancing efficiency, data processing, and decision-making in geotechnical engineering, suggesting a paradigm shift towards more integrated, data-driven approaches in this field. This study not only showcases the potential of LLMs in a specific engineering domain, but also sets a precedent for their broader application in interdisciplinary research and practice, where the synergy of human expertise and artificial intelligence redefines the boundaries of problem-solving. | 翻訳日:2023-12-31 03:45:35 公開日:2023-12-14 |
# twitter cashtagsへの暗号通貨の不正侵入: 分類ソリューション The irruption of cryptocurrencies into Twitter cashtags: a classifying solution ( http://arxiv.org/abs/2312.11531v1 ) ライセンス: Link先を確認 | Ana Fern\'andez Vilas and Rebeca D\'iaz Redondo and Ant\'on Lorenzo Garc\'ia | (参考訳) 金融市場の知識を発掘し発見する上でのtwitterの優れたセンシング特性に関するコンセンサスがあり、株式の売買や保有、さらには株式操作の検知に関しても関連するフィーダーと見なされている。
twitterのハッシュタグはトピック関連のコンテンツを集約することができるが、財務情報のための特定のメカニズムも存在する。
しかし、暗号通貨の暴落は、キャッシュタグに基づくポストの集約を著しく低下させた。
残念ながら、Twitterのユーザーは暗号通貨や株式市場の企業を参照するために、同名のティッカーを使うかもしれない。
本研究は、競合するキャッシュタグを識別する自動分類器を提案し、企業や暗号通貨に言及したツイートの特徴を分析して、それらのコンテナツイートを識別する。
本稿では,LSE(London Stock Exchange)における暗号通貨と企業チッカーの干渉,特にFTSE-100とAIM-100の市場指標を実験的に分析する。
ヒューリスティックベースと教師付き分類器が提案され、twitterの利用状況の変化に自己適応する能力を含むその利点と欠点が議論された。
この実験は、コライディングやホモニムのキャッシュタグが存在する場合、すなわち会社のティッカーや暗号通貨を指す同じ$の頭字語が存在するとき、収集データに大きな歪みがあることを確認する。
その結果、暗号通貨や企業のティッカーを含む投稿の特徴は、訓練データから最も分離した分類器として、つぶやき(正名キャッシュタグ)と独立モデルの正確な分類をサポートし、パフォーマンスを維持しながら(異なる株式市場において)適用可能性を高めることができる。 There is a consensus about the good sensing characteristics of Twitter to mine and uncover knowledge in financial markets, being considered a relevant feeder for taking decisions about buying or holding stock shares and even for detecting stock manipulation. Although Twitter hashtags allow to aggregate topic-related content, a specific mechanism for financial information also exists: Cashtag. However, the irruption of cryptocurrencies has resulted in a significant degradation on the cashtag-based aggregation of posts. Unfortunately, Twitter' users may use homonym tickers to refer to cryptocurrencies and to companies in stock markets, which means that filtering by cashtag may result on both posts referring to stock companies and cryptocurrencies. This research proposes automated classifiers to distinguish conflicting cashtags and, so, their container tweets by analyzing the distinctive features of tweets referring to stock companies and cryptocurrencies. As experiment, this paper analyses the interference between cryptocurrencies and company tickers in the London Stock Exchange (LSE), specifically, companies in the main and alternative market indices FTSE-100 and AIM-100. Heuristic-based as well as supervised classifiers are proposed and their advantages and drawbacks, including their ability to self-adapt to Twitter usage changes, are discussed. The experiment confirms a significant distortion in collected data when colliding or homonym cashtags exist, i.e., the same \$ acronym to refer to company tickers and cryptocurrencies. According to our results, the distinctive features of posts including cryptocurrencies or company tickers support accurate classification of colliding tweets (homonym cashtags) and Independent Models, as the most detached classifiers from training data, have the potential to be trans-applicability (in different stock markets) while retaining performance. | 翻訳日:2023-12-31 03:45:07 公開日:2023-12-14 |
# 金融イベントに対するTwitterの透過性:不規則を検知するモデルに向けた実験 Twitter Permeability to financial events: an experiment towards a model for sensing irregularities ( http://arxiv.org/abs/2312.11530v1 ) ライセンス: Link先を確認 | Ana Fern\'andez Vilas, Rebeca P. D\'iaz Redondo, Keeley Crockett, Majdi Owda, Lewis Evans | (参考訳) 複雑な金融市場の情報メディアとしてのtwitterの優れたセンシングとノベルティの特徴については、一般的なコンセンサスがある。
本稿では,金融市場における関連するイベントに対するtwittersphereの透過性,twitterユーザとその習慣について検討する。
分析によると、ソーシャルメディアは金融特化イベントに浸透し、金融市場やイベント不正行為に関する決定を下すための関連するフィードとしてTwitterを確立している。
しかし、コントリビューションの証明、信頼性と品質のレベル、さらにはその背景にある目的や意図さえも、Twitterが意思決定の単一ソースとして使用されている場合、慎重に検討する必要がある。
本研究の目的は,金融市場の不規則性をリアルタイムに監視するためのアーキテクチャを展開することであり,その1つとしてtwitterの透過性と透過性に関する一連の実験を行った。
正確には、2017年1月27日の特定の金融行動を含むイベントに関するTwitterのデータが収集されている。{~ } ロンドン証券取引所(LSE)のメインマーケットに上場している2つの企業であるTesco PLCとBooker Groupの合併に関する発表は、イギリスのLeading Food Businessを創設する。
この実験は、twitterの金融市場への浸透性を特徴付ける5つの重要な研究課題に答えようとするものだ。
実験の結果, 合併を考慮すれば, 財務的な事象が, 情報量, 内容, 感情, 地理的根拠など, あらゆる特徴に明らかな障害を引き起こしたことが明らかとなった。
分析によると、twitterは特定の金融フォーラムではないが、金融イベントには通用する。 There is a general consensus of the good sensing and novelty characteristics of Twitter as an information media for the complex financial market. This paper investigates the permeability of Twittersphere, the total universe of Twitter users and their habits, towards relevant events in the financial market. Analysis shows that a general purpose social media is permeable to financial-specific events and establishes Twitter as a relevant feeder for taking decisions regarding the financial market and event fraudulent activities in that market. However, the provenance of contributions, their different levels of credibility and quality and even the purpose or intention behind them should to be considered and carefully contemplated if Twitter is used as a single source for decision taking. With the overall aim of this research, to deploy an architecture for real-time monitoring of irregularities in the financial market, this paper conducts a series of experiments on the level of permeability and the permeable features of Twitter in the event of one of these irregularities. To be precise, Twitter data is collected concerning an event comprising of a specific financial action on the 27th January 2017:{~ }the announcement about the merge of two companies Tesco PLC and Booker Group PLC, listed in the main market of the London Stock Exchange (LSE), to create the UK's Leading Food Business. The experiment attempts to answer five key research questions which aim to characterize the features of Twitter permeability to the financial market. The experimental results confirm that a far-impacting financial event, such as the merger considered, caused apparent disturbances in all the features considered, that is, information volume, content and sentiment as well as geographical provenance. Analysis shows that despite, Twitter not being a specific financial forum, it is permeable to financial events. | 翻訳日:2023-12-31 03:44:36 公開日:2023-12-14 |
# 反復的局所展開による効率的かつスケーラブルなグラフ生成 Efficient and Scalable Graph Generation through Iterative Local Expansion ( http://arxiv.org/abs/2312.11529v1 ) ライセンス: Link先を確認 | Andreas Bergmeister, Karolis Martinkus, Nathana\"el Perraudin, Roger Wattenhofer | (参考訳) グラフ生成モデルの分野では、広範な研究が行われている。
しかし、既存の方法の多くは、全ノード対にわたるジョイント分布全体の表現と、グローバルグラフとローカルグラフ構造の両方を同時にキャプチャする複雑さのため、大きなグラフに苦しむ。
これらの問題を克服するために,単一ノードを対象グラフに段階的に拡張してグラフを生成する手法を提案する。
各ステップにおいて、ノードとエッジは拡散を減らし、まずグローバル構造を構築し、次に局所的な詳細を精査することで局所的に追加される。
局所生成は、全てのノード対に対する結合分布全体のモデリングを回避し、マルチスケール生成による高い表現性を維持しながら、ノード数に対するサブクワッドラティックランタイムによる実質的な計算的節約を達成する。
提案手法は,5000ノード以上のグラフへのスケーリングを成功させながら,確立されたベンチマークデータセットで最先端のパフォーマンスを実現することを実証する。
また,本手法はトレーニング分布外のグラフへの外挿に成功し,既存の手法よりもはるかに優れた一般化能力を示す。 In the realm of generative models for graphs, extensive research has been conducted. However, most existing methods struggle with large graphs due to the complexity of representing the entire joint distribution across all node pairs and capturing both global and local graph structures simultaneously. To overcome these issues, we introduce a method that generates a graph by progressively expanding a single node to a target graph. In each step, nodes and edges are added in a localized manner through denoising diffusion, building first the global structure, and then refining the local details. The local generation avoids modeling the entire joint distribution over all node pairs, achieving substantial computational savings with subquadratic runtime relative to node count while maintaining high expressivity through multiscale generation. Our experiments show that our model achieves state-of-the-art performance on well-established benchmark datasets while successfully scaling to graphs with at least 5000 nodes. Our method is also the first to successfully extrapolate to graphs outside of the training distribution, showcasing a much better generalization capability over existing methods. | 翻訳日:2023-12-31 03:44:07 公開日:2023-12-14 |
# 制約環境下でのマリオアドベンチャーの最適化 Optimizing Mario Adventures in a Constrained Environment ( http://arxiv.org/abs/2312.14963v1 ) ライセンス: Link先を確認 | Sanyam Jain | (参考訳) このプロジェクトでは,遺伝的アルゴリズム(MarioGA)とニューロエボリューション(MarioNE)という2つのアプローチで制御を行うスーパーマリオブラザーズ(SMB)環境を最適化する新しい手法を提案し,比較する。
これらのテクニックを使ってSMBをプレイすることを学ぶだけでなく、コインのコレクションやフィニッシュレベルの制約でそれを最適化します。
まず,SMBエージェントを定式化し,収集したコインの合計値(逆)を最大化し,移動距離(逆)を最大化し,両アルゴリズムのレベルを高速化する(時間的ペナルティ)。
次に,その表現法,クロスオーバー法,突然変異演算子形式化法,選択法,マリオガループ法,その他のパラメータを含むマリオガとその評価関数(適合度基準)について検討した。
第3に、ランダムウェイトを持つANNの集団が生成されるSMBにMarioNEを適用し、これらのネットワークがマリオのアクションを制御する。
第4に、SMBは、指定された時間内にタスクを完了させ、その制限内で再生(死)し、収集されたコインの合計値の最大化を図りながら、最大許容動作内でアクションや移動を行う。
これにより、SMBレベルを効率的に仕上げることができる。
最後に、フィットネスプロットのプロット、世界1の異なるレベルを仕上げる能力、トレーニングされたモデルのドメイン適応(トランスファー学習)による5倍の比較分析を提供する。 This project proposes and compares a new way to optimise Super Mario Bros. (SMB) environment where the control is in hand of two approaches, namely, Genetic Algorithm (MarioGA) and NeuroEvolution (MarioNE). Not only we learn playing SMB using these techniques, but also optimise it with constrains of collection of coins and finishing levels. Firstly, we formalise the SMB agent to maximize the total value of collected coins (reward) and maximising the total distance traveled (reward) in order to finish the level faster (time penalty) for both the algorithms. Secondly, we study MarioGA and its evaluation function (fitness criteria) including its representation methods, crossover used, mutation operator formalism, selection method used, MarioGA loop, and few other parameters. Thirdly, MarioNE is applied on SMB where a population of ANNs with random weights is generated, and these networks control Marios actions in the game. Fourth, SMB is further constrained to complete the task within the specified time, rebirths (deaths) within the limit, and performs actions or moves within the maximum allowed moves, while seeking to maximize the total coin value collected. This ensures an efficient way of finishing SMB levels. Finally, we provide a fivefold comparative analysis by plotting fitness plots, ability to finish different levels of world 1, and domain adaptation (transfer learning) of the trained models. | 翻訳日:2023-12-31 03:12:17 公開日:2023-12-14 |
# 計算機実験における高精度補間・外挿のためのデータ適応次元解析 Data-Adaptive Dimensional Analysis for Accurate Interpolation and Extrapolation in Computer Experiments ( http://arxiv.org/abs/2312.10100v1 ) ライセンス: Link先を確認 | G. Alexi Rodriguez-Arelis, William J. Welch | (参考訳) 次元分析(DA)は、科学や工学のシステムをモデル化する際に、長さや質量などの基本的な物理的次元に注意を払う。
バッキンガムのPi定理(英: Buckingham's Pi theorem)は、次元を持たない変数の限られた数で科学的に意味のあるモデルを特徴づける定理である。
しかし、この手法は比較的最近になって統計学者によって実験の設計と分析、特にコンピュータ実験に利用されている。
基本的な考え方は、元の入出力変数から派生した新しい次元のない量の観点からモデルを構築することである。
科学的に有効な定式化は、原理的に予測精度を向上させる可能性があるが、DAの実装は決して単純ではない。
理論の条件を満たす可能なモデルの組合せ数が存在する。
有効導出変数を見つけるための実証的なアプローチを述べるとともに,予測精度の向上について述べる。
統計モデルに対するDAの無次元量は通常、その絶対等級を使うよりも元の変数と比較するので、DAは訓練データにおける実験範囲の選択に依存しない。
したがって、トレーニングデータから実質的に外挿しても、持続的な精度向上を示すことができる。 Dimensional analysis (DA) pays attention to fundamental physical dimensions such as length and mass when modelling scientific and engineering systems. It goes back at least a century to Buckingham's Pi theorem, which characterizes a scientifically meaningful model in terms of a limited number of dimensionless variables. The methodology has only been exploited relatively recently by statisticians for design and analysis of experiments, however, and computer experiments in particular. The basic idea is to build models in terms of new dimensionless quantities derived from the original input and output variables. A scientifically valid formulation has the potential for improved prediction accuracy in principle, but the implementation of DA is far from straightforward. There can be a combinatorial number of possible models satisfying the conditions of the theory. Empirical approaches for finding effective derived variables will be described, and improvements in prediction accuracy will be demonstrated. As DA's dimensionless quantities for a statistical model typically compare the original variables rather than use their absolute magnitudes, DA is less dependent on the choice of experimental ranges in the training data. Hence, we are also able to illustrate sustained accuracy gains even when extrapolating substantially outside the training data. | 翻訳日:2023-12-19 18:50:51 公開日:2023-12-14 |
# ADA-YOLO:正確な画像検出・診断のためのYOLOv8とAdaptive Headの動的融合 ADA-YOLO: Dynamic Fusion of YOLOv8 and Adaptive Heads for Precise Image Detection and Diagnosis ( http://arxiv.org/abs/2312.10099v1 ) ライセンス: Link先を確認 | Shun Liu, Jianan Zhang, Ruocheng Song, Teik Toe Teoh | (参考訳) 特に血液細胞の検出と認識が診断および治療決定に不可欠である血液学分野において、物体の検出と局在は生体画像解析にとって重要な課題である。
注意に基づく手法は様々な領域でオブジェクト検出の著しい進歩を示しているが、医療用オブジェクト検出への応用は、医療用画像データセットによって引き起こされるユニークな課題のために制限されている。
そこで本研究では,注目に基づく機構をYOLOv8アーキテクチャと統合した,軽量かつ効果的な医療オブジェクト検出手法であるADA-YOLOを提案する。
提案手法は, \textit{adaptive head} モジュールによるコンピュータビジョンタスクの動的特徴ローカライズと並列回帰を利用する。
血液細胞数検出(BCCD)データセットを用いてADA-YOLOの有効性を評価する実験を行った。
その結果, ADA-YOLOは, YOLOv8の3倍以上の空間を用いて, BCCDデータセットのmAP(平均精度)において, YOLOv8モデルよりも優れていた。
これは提案手法が有効であることを示している。
さらに,提案手法の軽量性は,モバイルデバイスやエッジコンピューティングシステムなどの資源制約のある環境への展開に適している。
最終的に血液学の分野で診断と治療の結果が改善する可能性がある。 Object detection and localization are crucial tasks for biomedical image analysis, particularly in the field of hematology where the detection and recognition of blood cells are essential for diagnosis and treatment decisions. While attention-based methods have shown significant progress in object detection in various domains, their application in medical object detection has been limited due to the unique challenges posed by medical imaging datasets. To address this issue, we propose ADA-YOLO, a light-weight yet effective method for medical object detection that integrates attention-based mechanisms with the YOLOv8 architecture. Our proposed method leverages the dynamic feature localisation and parallel regression for computer vision tasks through \textit{adaptive head} module. Empirical experiments were conducted on the Blood Cell Count and Detection (BCCD) dataset to evaluate the effectiveness of ADA-YOLO. The results showed that ADA-YOLO outperforms the YOLOv8 model in mAP (mean average precision) on the BCCD dataset by using more than 3 times less space than YOLOv8. This indicates that our proposed method is effective. Moreover, the light-weight nature of our proposed method makes it suitable for deployment in resource-constrained environments such as mobile devices or edge computing systems. which could ultimately lead to improved diagnosis and treatment outcomes in the field of hematology. | 翻訳日:2023-12-19 18:50:32 公開日:2023-12-14 |
# 算術に基づく数字単語の分解 ---アンパック戦略を与える算術条件 Arithmetics-Based Decomposition of Numeral Words -- Arithmetic Conditions give the Unpacking Strategy ( http://arxiv.org/abs/2312.10097v1 ) ライセンス: Link先を確認 | Isidor Konrad Maier, Matthias Wolff | (参考訳) 本稿では,Hurford's Packing Strategyを復号する新しい数値分解器を提案する。
Packing Strategyは、再帰によってより小さな数語から数語が形成される方法のモデルである。
分解器は単に十進数をチェックするだけでなく、ベース20または他のベースまたは異なるベースの組み合わせで形成される数字に対しても機能する。
私たちが使用する仮定はすべて、hurfordのパッキング戦略によって正当化されます。
分解器は数字を読みます。
サブ数値が見つかると、算術条件をチェックし、サブ数値をアンパックするかどうかを判断する。
目標は、類似の数字に置き換えられるような数字を解き放つことです。
例えば「20,7,200,6」では、「20,7」と「200,6」を解き放ち、それぞれが1から999までの任意の数字に置き換えられる。
我々の最もよく用いられる条件は次の通りである: S が数値 N の置換可能部分数であれば、2*value(S) < value(N) である。
我々は254の異なる自然言語で数値システム上で分解器をテストした。
また,分解器に基づく強化学習アルゴリズムを開発した。
アルゴリズムのコードと結果の両方がgithubで公開されている。 In this paper we present a novel numeral decomposer that is designed to revert Hurford's Packing Strategy. The Packing Strategy is a model on how numeral words are formed out of smaller numeral words by recursion. The decomposer does not simply check decimal digits but it also works for numerals formed on base 20 or any other base or even combinations of different bases. All assumptions that we use are justified with Hurford's Packing Strategy. The decomposer reads through the numeral. When it finds a sub-numeral, it checks arithmetic conditions to decide whether or not to unpack the sub-numeral. The goal is to unpack those numerals that can sensibly be substituted by similar numerals. E.g., in 'twenty-seven thousand and two hundred and six' it should unpack 'twenty-seven' and 'two hundred and six', as those could each be sensibly replaced by any numeral from 1 to 999. Our most used condition is: If S is a substitutable sub-numeral of a numeral N, then 2*value(S) < value(N). We have tested the decomposer on numeral systems in 254 different natural languages. We also developed a reinforcement learning algorithm based on the decomposer. Both algorithms' code and the results are open source on GitHub. | 翻訳日:2023-12-19 18:50:09 公開日:2023-12-14 |
# オープン政府データプログラムとプライバシー問題:文献レビュー Open Government Data Programs and Information Privacy Concerns: A Literature Review ( http://arxiv.org/abs/2312.10096v1 ) ライセンス: Link先を確認 | Mehdi Barati | (参考訳) 本研究は,オープン・ガバメント・データ(OGD)プログラムのプライバシに関する文献を概説し,技術的,手続き的,法的な対策を提案する。
査読された論文は、Web of Science、Digital ACM Library、IEEE Explore Digital Library、Science Directなど、主要な文献データベースから識別され分析された。
ogd利害関係者の視点から個人の情報プライバシーの懸念を特定すること、あるいは懸念やリスクを軽減するためのソリューションを提供することに重点が置かれている。
一般のプライバシー問題やオープンデータのプライバシー問題、あるいはオープンサイエンスのプライバシー問題について議論し、焦点を当てた論文は除外された。
3つの研究の流れが特定されました
1)プライバシー問題及びOGD価値提案とのバランスを探る。
2)プライバシー上の懸念を緩和するための解決策の提案
3)OGDプログラムのリスクベースのフレームワークを異なる政府レベルで開発する。
発見は、公正な情報慣行、再識別リスク、OGD価値提案との矛盾、スマートシティデータプラクティスが文学における重要なプライバシー上の懸念であることを示している。
提案されたソリューションには、プライバシーの懸念を軽減する技術的、法的、手続き的措置が含まれる。
調査結果に基づいて,実践的意義と今後の研究方向性を示唆する。 This study presents a narrative review of the literature on privacy concerns of Open Government Data (OGD) programs and identifies suggested technical, procedural, and legal remedies. Peer-reviewed articles were identified and analysed from major bibliographic databases, including Web of Science, Digital ACM Library, IEEE Explore Digital Library and Science Direct. Included articles focus on identifying individual information privacy concerns from the viewpoint of OGD stakeholders or providing solutions for mitigating concerns and risks. Papers that discussed and focused on general privacy issues or privacy concerns of open data in general or open science privacy concerns were excluded. Three streams of research were identified: 1) exploring privacy concerns and balance with OGD value propositions, 2) proposing solutions for mitigating privacy concerns, and 3) developing risk-based frameworks for the OGD program at different governmental levels. Findings suggest that contradictions with Fair Information Practices, reidentification risks, conflicts with OGD value propositions, and smart city data practices are significant privacy concerns in the literature. Proposed solutions include technical, legal, and procedural measures to mitigate privacy concerns. Building on the findings, practical implications and suggested future research directions are provided. | 翻訳日:2023-12-19 18:49:50 公開日:2023-12-14 |
# 若者のカジュアルなソーシャルメディア利用がオンラインおよびオフラインの政治参加に及ぼす影響 Casual Social Media Use among the Youth: Effects on Online and Offline Political Participation ( http://arxiv.org/abs/2312.10095v1 ) ライセンス: Link先を確認 | Mehdi Barati | (参考訳) 背景: これまでの研究によると、若者のソーシャルメディア利用はオンラインとオフラインの政治参加と相関している。
また、若者へのオンラインの政治参加がオフラインの政治参加を増加させるかどうかについては、議論が混ざり合っている。
方法: 本研究は, 若者のソーシャルメディア利用, オンライン, オフライン政治参加に関する因果推論を行うために, OLS の3つのモデル, 双方向固定効果, 計器的可変アプローチを用いた。
結果: カジュアルなソーシャルメディアの利用がオンラインの政治参加に与える影響,オフラインの政治参加や投票行動に与える影響や無視できる影響は認められていない。
固定効果と機器変数モデルの結果は、若年者におけるオンラインとオフラインの政治参加の間の弾力性の強い証拠となる。
オンラインの政治参加率は平均1%増加し、オフラインの政治活動指数は0.12%上昇した。 Background: Previous studies suggest that social media use among the youth is correlated with online and offline political participation. There is also a mixed and inconclusive debate on whether more online political participation in the youth increases their offline political participation. Methods: This study uses three models of OLS, two-way fixed effects, and an instrumental variable approach to make causal inferences about social media use, online, and offline political participation of the youth. Findings: The analyses provide evidence of a large effect of casual social media use on online political participation, and no effect or negligible effect on offline political participation and voting behavior. The results from fixed effects and instrumental variable models provide strong evidence of elasticity between online and offline political participation in young individuals. On average, a one percent increase in online political participation increases the offline political activity index by 0.12 percent. | 翻訳日:2023-12-19 18:49:31 公開日:2023-12-14 |
# ランク付けにおける評価項目比較説明 Evaluative Item-Contrastive Explanations in Rankings ( http://arxiv.org/abs/2312.10094v1 ) ライセンス: Link先を確認 | Alessandro Castelnovo, Riccardo Crupi, Nicol\`o Mombelli, Gabriele Nanino, Daniele Regoli | (参考訳) 自動意思決定の進歩における人工知能の顕著な成功は、学界と産業の両方において明らかである。
多くのアプリケーションにおいて、ランキングシステムは様々なドメインにおいて重要な役割を担っている。
本稿では、特にランキング問題に対処するのに適した、説明可能なAIの特定の形式、すなわち対照的な説明の適用を提唱する。
このアプローチは、潜在的ランキングに影響を与える肯定的側面と否定的側面の両方を理論的に評価する評価AI方法論と組み合わせることで特に強力である。
そこで本研究では,ランキングシステム用に調整された評価項目間関係説明を導入し,公開データを用いた実験を通して,その応用と特徴を説明する。 The remarkable success of Artificial Intelligence in advancing automated decision-making is evident both in academia and industry. Within the plethora of applications, ranking systems hold significant importance in various domains. This paper advocates for the application of a specific form of Explainable AI -- namely, contrastive explanations -- as particularly well-suited for addressing ranking problems. This approach is especially potent when combined with an Evaluative AI methodology, which conscientiously evaluates both positive and negative aspects influencing a potential ranking. Therefore, the present work introduces Evaluative Item-Contrastive Explanations tailored for ranking systems and illustrates its application and characteristics through an experiment conducted on publicly available data. | 翻訳日:2023-12-19 18:49:15 公開日:2023-12-14 |
# ドイツにおける「記録の結びつき」に就て Verbesserung des Record Linkage f\"ur die Gesundheitsforschung in Deutschland ( http://arxiv.org/abs/2312.10093v1 ) ライセンス: Link先を確認 | Timm Intemann, Knut Kaulke, Dennis-Kenji Kipker, Vanessa Lettieri, Christoph Stallmann, Carsten O. Schmidt, Lars Geidel, Martin Bialke, Christopher Hampf, Dana Stahl, Martin Lablans, Florens Rohde, Martin Franke, Klaus Kraywinkel, Joachim Kieschke, Sebastian Bartholom\"aus, Anatol-Fiete N\"aher, Galina Tremper, Mohamed Lambarki, Stefanie March, Fabian Prasser, Anna Christine Haber, Johannes Drepper, Irene Schl\"under, Toralf Kirsten, Iris Pigeot, Ulrich Sax, Benedikt Buchner, Wolfgang Ahrens, Sebastian C. Semler | (参考訳) レコードリンクとは、複数のソースからのデータリンクを意味する。
このアプローチは、限られた変数のために単一のデータソースで対処できない科学的質問の回答を可能にする。
健康研究におけるlinked dataの可能性は、予防、治療、人口健康政策を強化することができるため、非常に大きい。
健康データの感度のため、潜在的な誤用を防ぐための厳格な法的要件がある。
しかし、これらの要件は研究のための健康データの使用を制限するため、予防とケアの革新を妨げる。
また、ドイツの包括的なレコードリンクは、ユニークな個人識別子や相互運用可能なソリューションがないため、しばしば困難である。
むしろ、データ保護の必要性は、医療強化を目的とした研究の重要性に重きを置き、例えば、データ保護担当者は、たとえそれが必須でなくても、個々の研究参加者のインフォームドコンセントを要求する可能性がある。
さらに、法律の枠組みは様々な場面で異なる解釈をすることができる。
技術的な課題と法的課題の両方を考慮すれば、ドイツの医療研究における記録的連鎖は、他のヨーロッパ諸国の基準に遅れをとっている。
レコード結合を成功させるためには、実装前に必要に応じてケース固有のソリューションを開発し、テストし、修正する必要がある。
本稿では,欧州一般データ保護規則に準拠した各種データリンク手法の限界と可能性について論じる。
さらに、ドイツの健康データ記録をリンクするより研究フレンドリーなアプローチを実現するための要件についても説明している。
また、議員への推薦も行う。
本研究の目的は、ドイツにおける健康研究の記録リンクを改善することである。 Record linkage means linking data from multiple sources. This approach enables the answering of scientific questions that cannot be addressed using single data sources due to limited variables. The potential of linked data for health research is enormous, as it can enhance prevention, treatment, and population health policies. Due the sensitivity of health data, there are strict legal requirements to prevent potential misuse. However, these requirements also limit the use of health data for research, thereby hindering innovations in prevention and care. Also, comprehensive Record linkage in Germany is often challenging due to lacking unique personal identifiers or interoperable solutions. Rather, the need to protect data is often weighed against the importance of research aiming at healthcare enhancements: for instance, data protection officers may demand the informed consent of individual study participants for data linkage, even when this is not mandatory. Furthermore, legal frameworks may be interpreted differently on varying occasions. Given both, technical and legal challenges, record linkage for health research in Germany falls behind the standards of other European countries. To ensure successful record linkage, case-specific solutions must be developed, tested, and modified as necessary before implementation. This paper discusses limitations and possibilities of various data linkage approaches tailored to different use cases in compliance with the European General Data Protection Regulation. It further describes requirements for achieving a more research-friendly approach to linking health data records in Germany. Additionally, it provides recommendations to legislators. The objective of this work is to improve record linkage for health research in Germany. | 翻訳日:2023-12-19 18:49:04 公開日:2023-12-14 |
# 機械学習を用いた大学生の幸福感の振り返り Introspecting the Happiness amongst University Students using Machine Learning ( http://arxiv.org/abs/2312.10092v1 ) ライセンス: Link先を確認 | Sakshi Ranjan, Pooja Priyadarshini, Subhankar Mishra | (参考訳) 幸福は、ポジティブな心理的結果に基づいて、特定の集団の直感的な構成を強調する。
認知能力の基礎であり、近年は大学生の幸福を探求することが研究者の本質となっている。
本研究では,大学生の幸福感とその面を統計分布チャートを用いて分析し,研究課題を考案した。
さらに,世界幸福データセットと大学生のトレーニングとテストのためのデータセットに回帰分析,機械学習,クラスタリングアルゴリズムを適用した。
哲学は最も幸福な部署であり、社会学は最も悲しい部署であり、幸福の平均スコアは2.8と2.44である。
パーソン相関係数 (pearson coefficient of correlation) は0.74であった。
幸福度は5.2で, モデル適合性は51%であった。
列車とテストの誤差は それぞれ0.52と0.47です
p値5%の信頼区間(CI)は、キャンパス環境(CE)と大学評価(UR)では最低であり、エクセルアクティビティ(ECA)とワークバランス(WB)では最大であった(それぞれ0.184と0.228)。
Clustering を用いた RF では高い精度(89%) と F スコア(0.98) と最小誤差 (17.91%) が得られた。 Happiness underlines the intuitive constructs of a specified population based on positive psychological outcomes. It is the cornerstone of the cognitive skills and exploring university student's happiness has been the essence of the researchers lately. In this study, we have analyzed the university student's happiness and its facets using statistical distribution charts; designing research questions. Furthermore, regression analysis, machine learning, and clustering algorithms were applied on the world happiness dataset and university student's dataset for training and testing respectively. Philosophy was the happiest department while Sociology the saddest; average happiness score being 2.8 and 2.44 respectively. Pearson coefficient of correlation was 0.74 for Health. Predicted happiness score was 5.2 and the goodness of model fit was 51%. train and test error being 0.52, 0.47 respectively. On a Confidence Interval(CI) of 5% p-value was least for Campus Environment(CE) and University Reputation(UR) and maximum for Extra-curricular Activities(ECA) and Work Balance(WB) (i.e. 0.184 and 0.228 respectively). RF with Clustering got the highest accuracy(89%) and F score(0.98) and the least error(17.91%), hence turned out to be best for our study | 翻訳日:2023-12-19 18:48:42 公開日:2023-12-14 |
# 厄介なカーネル -- 幻覚、無料ランチなし、逆問題における精度-安定性トレードオフについて The troublesome kernel -- On hallucinations, no free lunches and the accuracy-stability trade-off in inverse problems ( http://arxiv.org/abs/2001.01258v3 ) ライセンス: Link先を確認 | Nina M. Gottschling, Vegard Antun, Anders C. Hansen and Ben Adcock | (参考訳) 人工知能(AI)にインスパイアされた手法は、困難な問題に対するブレークスルーパフォーマンスを通じて、計算科学と工学を根本的に変え始めている。
しかし,このような手法の信頼性や信頼性が大きな関心事となっている。
画像の逆問題において,本論文では,手法が幻覚,すなわち虚偽だが現実的に見えるアーティファクト,不安定性,すなわちデータの摂動に対する感受性,予測不能な一般化,すなわち画像に対する優れた性能と他の画像に対する著しい劣化に苦しむという実証的証拠が増加している。
本稿ではこれらの現象の理論的基礎を示す。
aiに触発された技術だけでなく、このような効果が任意のレコンストラクション法でどのように発生し、いつ起こるかを記述する数学的枠組みを与える。
いくつかの結果は 'no free lunch' theorems の形を取っている。
具体的には
(i)一つの画像上で過度に表現する手法は、ある画像から別の画像へ詳細を誤って転送し、幻覚を生じさせることができる。
二以上の画像にオーバーパフォーマンスする手法は幻覚や不安定になることがある。
三 精度安定トレードオフの最適化は概ね困難である。
(四 幻覚及び不安定は、まれな出来事ではなく、標準訓練により奨励することができる。)
(v) ある問題に対して最適な再構成マップを構築することは不可能かもしれない。
我々の結果は、この効果が非自明な場合、フォワード演算子のカーネルにさかのぼるが、フォワード演算子の条件が悪い場合にも拡張される。
これらの知見に基づいて,画像の逆問題に対するロバストで信頼性の高いaiインスパイアされた手法を開発するための新しい方法の研究を促進することを目的としている。 Methods inspired by Artificial Intelligence (AI) are starting to fundamentally change computational science and engineering through breakthrough performances on challenging problems. However, reliability and trustworthiness of such techniques is becoming a major concern. In inverse problems in imaging, the focus of this paper, there is increasing empirical evidence that methods may suffer from hallucinations, i.e., false, but realistic-looking artifacts; instability, i.e., sensitivity to perturbations in the data; and unpredictable generalization, i.e., excellent performance on some images, but significant deterioration on others. This paper presents a theoretical foundation for these phenomena. We give a mathematical framework describing how and when such effects arise in arbitrary reconstruction methods, not just AI-inspired techniques. Several of our results take the form of `no free lunch' theorems. Specifically, we show that (i) methods that overperform on a single image can wrongly transfer details from one image to another, creating a hallucination, (ii) methods that overperform on two or more images can hallucinate or be unstable, (iii) optimizing the accuracy-stability trade-off is generally difficult, (iv) hallucinations and instabilities, if they occur, are not rare events, and may be encouraged by standard training, (v) it may be impossible to construct optimal reconstruction maps for certain problems. Our results trace these effects to the kernel of the forward operator whenever it is nontrivial, but also extend to the case when the forward operator is ill-conditioned. Based on these insights, our work aims to spur research into new ways to develop robust and reliable AI-inspired methods for inverse problems in imaging. | 翻訳日:2023-12-18 20:04:27 公開日:2023-12-14 |
# 偏微分方程式に対する物理エンハンスディープサーロゲート Physics-enhanced deep surrogates for partial differential equations ( http://arxiv.org/abs/2111.05841v4 ) ライセンス: Link先を確認 | Rapha\"el Pestourie, Youssef Mroueh, Chris Rackauckas, Payel Das, Steven G. Johnson | (参考訳) 多くの物理学と工学の応用は、資源集約型高忠実度数値解法で伝統的に計算される部分微分方程式(PDE)特性評価を要求する。
データ駆動サロゲートモデルは効率的な代替手段を提供するが、トレーニングのかなりのコストが伴う。
新興のアプリケーションは、大規模に研究しながら、精度とコストのトレードオフを改善したsurrogatesの恩恵を受けるだろう。
本稿では,複雑な物理系のための高速サーロゲートモデルを開発するための"peds" (physics-enhanced deep-surrogate) アプローチを提案する。
具体的には,高価な高忠実度数値解法器の出力をグローバルにマッチさせるために,エンドツーエンドに訓練された,低忠実度で説明可能な物理シミュレータとニューラルネットワーク生成器の組み合わせを提案する。
3つの典型的なテストケース、拡散、反応拡散、電磁散乱モデルの実験により、PEDSサロゲートは、限られたデータを持つフィードフォワードニューラルネットワークのアンサンブル(「アプロックス10^3$」)よりも3$\times$の精度で、目標誤差を達成するために少なくとも100倍のトレーニングデータを必要とすることが示されている。
実験により、PEDSは、複雑なシステムをモデル化し、精度、速度、データ効率、およびプロセスへの物理的な洞察を提供する、多数の単純化された物理モデルのギャップを埋める一般的なデータ駆動戦略を提供することが明らかになった。 Many physics and engineering applications demand Partial Differential Equations (PDE) property evaluations that are traditionally computed with resource-intensive high-fidelity numerical solvers. Data-driven surrogate models provide an efficient alternative but come with a significant cost of training. Emerging applications would benefit from surrogates with an improved accuracy-cost tradeoff, while studied at scale. Here we present a "physics-enhanced deep-surrogate" ("PEDS") approach towards developing fast surrogate models for complex physical systems, which is described by PDEs. Specifically, a combination of a low-fidelity, explainable physics simulator and a neural network generator is proposed, which is trained end-to-end to globally match the output of an expensive high-fidelity numerical solver. Experiments on three exemplar testcases, diffusion, reaction-diffusion, and electromagnetic scattering models, show that a PEDS surrogate can be up to 3$\times$ more accurate than an ensemble of feedforward neural networks with limited data ($\approx 10^3$ training points), and reduces the training data need by at least a factor of 100 to achieve a target error of 5%. Experiments reveal that PEDS provides a general, data-driven strategy to bridge the gap between a vast array of simplified physical models with corresponding brute-force numerical solvers modeling complex systems, offering accuracy, speed, data efficiency, as well as physical insights into the process. | 翻訳日:2023-12-18 19:55:19 公開日:2023-12-14 |
# コントラスト表現学習のための正規化最適輸送によるハード負サンプリング Hard Negative Sampling via Regularized Optimal Transport for Contrastive Representation Learning ( http://arxiv.org/abs/2111.03169v3 ) ライセンス: Link先を確認 | Ruijie Jiang, Prakash Ishwar, Shuchin Aeron | (参考訳) 本研究では,教師なしコントラスト表現学習のためのハード負サンプリング分布の設計問題について検討する。
本稿では,全ての結合(正と負のサンプル間の結合分布)に対する最大(Worst-case)のコントラスト学習損失を最小限に抑える表現を求める新しいmin-maxフレームワークの提案と解析を行い,結果のmin-max最適表現が退化することを証明する。
これは結合にさらなる正規化制約を組み込むための最初の理論的正当化を与える。
最適輸送(ot)理論のレンズを通してmin-max問題を再解釈し、正則輸送カップリングを用いて負の例の硬度を制御する。
実験により, 設計した負分布から生成した負試料は, ベースライン負分布から生成した試料よりもアンカーに類似することを示した。
また, エントロピー正則化は, 近年の最先端の負サンプリング設計と類似したパラメータ形式の負サンプリング分布を示し, 複数のデータセットで同様の性能を示した。
提案手法は,OTとの接続を解明し,正方形ユークリッドコストを用いて学習した表現と比較して,負の分布を設計し,下流タスクにおける学習表現の性能を向上させるための新たな基盤コストを提案する。 We study the problem of designing hard negative sampling distributions for unsupervised contrastive representation learning. We propose and analyze a novel min-max framework that seeks a representation which minimizes the maximum (worst-case) generalized contrastive learning loss over all couplings (joint distributions between positive and negative samples subject to marginal constraints) and prove that the resulting min-max optimum representation will be degenerate. This provides the first theoretical justification for incorporating additional regularization constraints on the couplings. We re-interpret the min-max problem through the lens of Optimal Transport (OT) theory and utilize regularized transport couplings to control the degree of hardness of negative examples. Through experiments we demonstrate that the negative samples generated from our designed negative distribution are more similar to the anchor than those generated from the baseline negative distribution. We also demonstrate that entropic regularization yields negative sampling distributions with parametric form similar to that in a recent state-of-the-art negative sampling design and has similar performance in multiple datasets. Utilizing the uncovered connection with OT, we propose a new ground cost for designing the negative distribution and show improved performance of the learned representation on downstream tasks compared to the representation learned when using squared Euclidean cost. | 翻訳日:2023-12-18 19:54:47 公開日:2023-12-14 |
# 機械学習による干渉ネットワークのグローバル最適エネルギー効率へのアプローチ Approaching Globally Optimal Energy Efficiency in Interference Networks via Machine Learning ( http://arxiv.org/abs/2212.12329v2 ) ライセンス: Link先を確認 | Bile Peng, Karl-Ludwig Besser, Ramprasad Raghunath, Eduard A. Jorswieck | (参考訳) 本稿では,マルチセル無線ネットワークにおけるエネルギー効率(ee)を最適化する機械学習手法を提案する。
この最適化問題は非凸であり、その大域的な最適化は見つからない。
文献では、単純だが最適でないアプローチや、複雑でスケーラビリティの低い最適手法が提案されている。
対照的に,グローバル最適化にアプローチする機械学習フレームワークを提案する。
ニューラルネットワーク(NN)トレーニングは適度な時間を要するが、トレーニングされたモデルによるアプリケーションは非常に低い計算複雑性を必要とする。
特に,非凸最適化問題を解くために,確率的作用に基づく新しい目的関数を導入する。
さらに,多セルネットワーク最適化問題に対して,順列同変のNNアーキテクチャを設計する。
EE計算におけるチャネルの役割に応じてチャネルを分類する。
このようにして、私たちはドメイン知識をNN設計にエンコードし、機械学習のブラックボックスに光を放ちます。
学習とテストの結果,提案手法は,分岐・境界アルゴリズムが求める大域的最適値に近いeeを実現することがわかった。
したがって,提案手法は計算複雑性と性能のバランスをとる。 This work presents a machine learning approach to optimize the energy efficiency (EE) in a multi-cell wireless network. This optimization problem is non-convex and its global optimum is difficult to find. In the literature, either simple but suboptimal approaches or optimal methods with high complexity and poor scalability are proposed. In contrast, we propose a machine learning framework to approach the global optimum. While the neural network (NN) training takes moderate time, application with the trained model requires very low computational complexity. In particular, we introduce a novel objective function based on stochastic actions to solve the non-convex optimization problem. Besides, we design a dedicated NN architecture for the multi-cell network optimization problems that is permutation-equivariant. It classifies channels according to their roles in the EE computation. In this way, we encode our domain knowledge into the NN design and shed light into the black box of machine learning. Training and testing results show that the proposed method without supervision and with reasonable computational effort achieves an EE close to the global optimum found by the branch-and-bound algorithm. Hence, the proposed approach balances between computational complexity and performance. | 翻訳日:2023-12-18 19:44:50 公開日:2023-12-14 |
# geotmi:位置割り込みによる観測容易な幾何学による量子化学特性の予測 GeoTMI:Predicting quantum chemical property with easy-to-obtain geometry via positional denoising ( http://arxiv.org/abs/2304.03724v3 ) ライセンス: Link先を確認 | Hyeonsu Kim, Jeheon Woo, Seonghwan Kim, Seokhyun Moon, Jun Hyeong Kim, Woo Youn Kim | (参考訳) 量子化学特性はジオメトリに依存するため、3次元幾何情報を用いたグラフニューラルネットワーク(gnns)は多くのタスクで高い予測精度を達成している。
しかし、それらはしばしば高レベルの量子力学計算から得られる3次元測度を必要とし、実際は不可能であり、実世界の問題に適用可能である。
そこで本稿では, 簡易な測地(低レベルの計算から得られた測地など, 正確な測地が破損したバージョン) を用いて, 特性を正確に予測する手法であるGeoTMIを提案する。
我々の出発点は、正しい幾何学が対象プロパティの最良の記述であるという考えであった。
したがって、GeoTMIは、正しい情報と腐敗したジオメトリとプロパティの3変数間の相互情報を最大化することを目的としている。
GeoTMIはまた、破損した入力を明示的に更新し、GNN層を通過するときに正しい幾何学にアプローチし、より効果的な復調に寄与する。
分子特性, 化学反応特性, 不均一触媒系における緩和エネルギーの3つの予測課題に対して, 3次元GNNを用いて提案手法の性能を検討した。
その結果,GeoTMIの有効性とロバスト性を示した。 As quantum chemical properties have a dependence on their geometries, graph neural networks (GNNs) using 3D geometric information have achieved high prediction accuracy in many tasks. However, they often require 3D geometries obtained from high-level quantum mechanical calculations, which are practically infeasible, limiting their applicability to real-world problems. To tackle this, we propose a new training framework, GeoTMI, that employs denoising process to predict properties accurately using easy-to-obtain geometries (corrupted versions of correct geometries, such as those obtained from low-level calculations). Our starting point was the idea that the correct geometry is the best description of the target property. Hence, to incorporate information of the correct, GeoTMI aims to maximize mutual information between three variables: the correct and the corrupted geometries and the property. GeoTMI also explicitly updates the corrupted input to approach the correct geometry as it passes through the GNN layers, contributing to more effective denoising. We investigated the performance of the proposed method using 3D GNNs for three prediction tasks: molecular properties, a chemical reaction property, and relaxed energy in a heterogeneous catalytic system. Our results showed consistent improvements in accuracy across various tasks, demonstrating the effectiveness and robustness of GeoTMI. | 翻訳日:2023-12-18 19:31:21 公開日:2023-12-14 |
# 非線形メタラーニングは速い速度を保証できる Nonlinear Meta-Learning Can Guarantee Faster Rates ( http://arxiv.org/abs/2307.10870v2 ) ライセンス: Link先を確認 | Dimitri Meunier, Zhu Li, Arthur Gretton, Samory Kpotufe | (参考訳) 近年のemph{meta-learning}に関する多くの理論的研究は、類似した表象構造を目的タスクから簡易化するための保証を達成することを目的としている。
重要なのは、理論の主要な目的は、共通表現の学習において、収束率が、タスク数(およびタスク当たりのサンプル数)とともに、\emph{may scale with the number $n$ of tasks} の程度を理解することである。
この設定の最初のステップは、タスク間の共有表現とタスク固有の回帰関数の両方が線形であるときにこの特性を示す。
この線形設定は、例えば平均的な引数を通じてタスクを集約する利点をすぐに明らかにする。
しかし実際には、表現はしばしば非常に非線形であり、線形の場合のように容易に評価できない各タスクに非自明なバイアスを導入する。
本研究では,非線形表現を用いたメタラーニングの理論的保証を導出する。
特に、共有非線形性写像を無限次元 RKHS に仮定すると、タスク固有回帰関数の滑らかさを利用する注意的な正則化により、さらなるバイアスを緩和できることが示される。 Many recent theoretical works on \emph{meta-learning} aim to achieve guarantees in leveraging similar representational structures from related tasks towards simplifying a target task. Importantly, the main aim in theory works on the subject is to understand the extent to which convergence rates -- in learning a common representation -- \emph{may scale with the number $N$ of tasks} (as well as the number of samples per task). First steps in this setting demonstrate this property when both the shared representation amongst tasks, and task-specific regression functions, are linear. This linear setting readily reveals the benefits of aggregating tasks, e.g., via averaging arguments. In practice, however, the representation is often highly nonlinear, introducing nontrivial biases in each task that cannot easily be averaged out as in the linear case. In the present work, we derive theoretical guarantees for meta-learning with nonlinear representations. In particular, assuming the shared nonlinearity maps to an infinite-dimensional RKHS, we show that additional biases can be mitigated with careful regularization that leverages the smoothness of task-specific regression functions, | 翻訳日:2023-12-18 19:24:08 公開日:2023-12-14 |
# 低温プラズマモデリングとシミュレーションのための機械学習 Machine learning for advancing low-temperature plasma modeling and simulation ( http://arxiv.org/abs/2307.00131v2 ) ライセンス: Link先を確認 | Jan Trieschmann, Luca Vialetto, Tobias Gergs | (参考訳) 機械学習は多くの科学分野に大きな影響を与えた。
また、低温プラズマモデリングとシミュレーションの分野では、過去数年間で大きな関心を集めている。
その応用は一般に慎重に評価されるべきであるが、プラズマモデリングとシミュレーションの多くの側面は、機械学習とデータ駆動モデリングの分野における最近の発展から大きな恩恵を受けている。
本調査では,2つの目的にアプローチする。
(a)低温プラズマモデリングとシミュレーションへのアプローチに焦点をあてた現状を概観する。
プラズマ物理,プラズマ化学,プラズマ-表面相互作用,プラズマプロセス制御に調査を分割することで,文献から関連する事例を広く議論することを目的とする。
b)プラズマ科学と技術における潜在的な進歩の展望を提供する。
特に、他の科学分野からの適応によって実現される可能性のある進歩について詳しく述べる。
我々は、未知の未知だけでなく、未知の未知の未知も、データに隠れたパターンをスポットライトするデータ駆動手法の固有の正当性から発見できると主張している。 Machine learning has had an enormous impact in many scientific disciplines. Also in the field of low-temperature plasma modeling and simulation it has attracted significant interest within the past years. Whereas its application should be carefully assessed in general, many aspects of plasma modeling and simulation have benefited substantially from recent developments within the field of machine learning and data-driven modeling. In this survey, we approach two main objectives: (a) We review the state-of-the-art focusing on approaches to low-temperature plasma modeling and simulation. By dividing our survey into plasma physics, plasma chemistry, plasma-surface interactions, and plasma process control, we aim to extensively discuss relevant examples from literature. (b) We provide a perspective of potential advances to plasma science and technology. We specifically elaborate on advances possibly enabled by adaptation from other scientific disciplines. We argue that not only the known unknowns, but also unknown unknowns may be discovered due to the inherent propensity of data-driven methods to spotlight hidden patterns in data. | 翻訳日:2023-12-18 19:22:03 公開日:2023-12-14 |
# 自己教師付き機械学習を用いた宇宙論におけるデータ圧縮と推論 Data Compression and Inference in Cosmology with Self-Supervised Machine Learning ( http://arxiv.org/abs/2308.09751v2 ) ライセンス: Link先を確認 | Aizhan Akhmetzhanova, Siddharth Mishra-Sharma, Cora Dvorkin | (参考訳) 現在および今後の宇宙調査からの大量のデータが流入することは、情報の損失を最小限に抑えて効率的にデータを要約できる圧縮スキームを必要とする。
シミュレーションに基づく拡張を用いた大規模データセットの代表的な要約を構築するために,自己教師型機械学習のパラダイムを新しい方法で活用する手法を提案する。
本手法を流体力学的宇宙シミュレーションに展開することにより, 高精度かつ正確なパラメータ推定を含む, 下流の様々なタスクに使用できる, 高度な情報的要約を実現できることを示す。
本研究では,このパラダイムを用いて,バリオン物理学の影響など,所定の系統的効果に敏感な要約表現を構築する方法を示す。
この結果から,自己教師型機械学習技術は宇宙データの圧縮と解析に有望な新しいアプローチを提供することが示された。 The influx of massive amounts of data from current and upcoming cosmological surveys necessitates compression schemes that can efficiently summarize the data with minimal loss of information. We introduce a method that leverages the paradigm of self-supervised machine learning in a novel manner to construct representative summaries of massive datasets using simulation-based augmentations. Deploying the method on hydrodynamical cosmological simulations, we show that it can deliver highly informative summaries, which can be used for a variety of downstream tasks, including precise and accurate parameter inference. We demonstrate how this paradigm can be used to construct summary representations that are insensitive to prescribed systematic effects, such as the influence of baryonic physics. Our results indicate that self-supervised machine learning techniques offer a promising new approach for compression of cosmological data as well its analysis. | 翻訳日:2023-12-18 19:10:12 公開日:2023-12-14 |
# 光増倍管の空間量子効率測定のための走査装置 A scanning device for spatial quantum efficiency measurements of photomultipliers tubes ( http://arxiv.org/abs/2308.00866v2 ) ライセンス: Link先を確認 | P. Migliozzi, C.M. Mollo, A. Simonelli | (参考訳) 本稿では,光増倍管(1~10インチ)の量子効率(qe)を測定するために,2次元運動ステージ,広スペクトルキセノンランプ,ビームスプリッタシステム,および2つの校正光ダイオードを用いた量子効率測定装置を提案する。
文献に示されている既存の設定に対する測定手順における技術改良の有効性を実証する。
2Dステージで覆われた大きな領域は、直径最大10インチのPMTの量子効率を研究することができる。
得られた結果は、250nmから1100nmの範囲と光キャット表面に沿って量子効率と波長を特徴付ける高い精度と精度を示す。
セットアップは、テスト中の光センサから出力される出力電流と同期して光強度を監視する。
これにより測定の精度と再現性が保証される。
モータ付ステージは、活動領域に対する光源の正確な位置決めを可能にする。
キセノンランプの発光スペクトルは、ダイナミックスと波長スパンの観点から広い範囲の照明を提供する。 This paper presents a quantum efficiency measurement setup based on a 2D motorized stage, a wide spectrum xenon lamp, a beam splitter system, and two calibrated photo-diodes for measuring the quantum efficiency (QE) of photomultiplier tubes (1 to 10 inches). We will demonstrate the effectiveness of technical refinements on the measurements procedures over some existing setups already shown in literature. The large area covered by the 2D stages permit to study the quantum efficiency of PMTs with diameter up to ten inches. The results obtained will show the high precision and accuracy in characterizing the quantum efficiency versus wavelength over the range of 250 nm to 1100 nm and along the photo-catode surface. The setup monitors the light intensity synchronously with the output current yield from photosensors under test. This ensures the accuracy and repeatability of the measurements. The motorized stage allows precise positioning of the light source with respect to the active area. The emission spectrum of the xenon lamp provides a broad range of illumination in terms of dynamics and wavelength span. | 翻訳日:2023-12-18 19:08:12 公開日:2023-12-14 |
# オンライン凸最適化によるオンラインサブモジュラー最大化 Online Submodular Maximization via Online Convex Optimization ( http://arxiv.org/abs/2309.04339v3 ) ライセンス: Link先を確認 | Tareq Si-Salem, G\"ozde \"Ozcan, Iasonas Nikolaou, Evimaria Terzi, Stratis Ioannidis | (参考訳) 一般マトロイド制約下でのモノトン部分モジュラー最大化をオンライン環境で検討する。
重み付けされたしきい値ポテンシャル関数のオンライン最適化は,オンライン凸最適化(OCO)に還元されることを示す。
これは、このクラスの関数が凹凸緩和(concave relaxation)を許容するためであり、結果として、OCOポリシーと適切な丸めのスキームが組み合わさって、組合せ設定におけるサブ線形後悔を達成できる。
我々は,オンライン学習問題において,動的後悔,盗賊,楽観的な学習設定など,多くの異なるバージョンに縮小が及んでいることを示す。 We study monotone submodular maximization under general matroid constraints in the online setting. We prove that online optimization of a large class of submodular functions, namely, weighted threshold potential functions, reduces to online convex optimization (OCO). This is precisely because functions in this class admit a concave relaxation; as a result, OCO policies, coupled with an appropriate rounding scheme, can be used to achieve sublinear regret in the combinatorial setting. We show that our reduction extends to many different versions of the online learning problem, including the dynamic regret, bandit, and optimistic-learning settings. | 翻訳日:2023-12-18 18:58:18 公開日:2023-12-14 |
# 実局所振動子を用いた連続可変量子鍵分布場試験 Continuous-variable quantum key distribution field-test with true local oscillator ( http://arxiv.org/abs/2309.03959v2 ) ライセンス: Link先を確認 | Brian P. Williams, Bing Qi, Muneer Alshowkan, Philip G. Evans, and Nicholas A. Peters | (参考訳) 共振器(LO)を用いた連続可変量子鍵分布(CV-QKD)は、LOの伝送に伴うサイドチャネル攻撃の可能性を排除するとともに、クロスパルス汚染を低減するために提案されている。
ここでは,オークリッジ国立研究所で「オフザシェルフ」コンポーネントを用いた真のLOCV-QKDの実装を行い,光ファイバーネットワークを用いたQKD実験を行った。
位相基準と量子信号は時間多重化され、波長分割は1つの光ネットワークファイバー上で「共存」する古典的な通信と多重化される。
これはCV-QKDが、実際の状況で適用するための重要なステップである、デプロイされたファイバネットワーク上で、レシーバベースの真のLOを使用した最初のデモである。 Continuous-variable quantum key distribution (CV-QKD) using a true local (located at the receiver) oscillator (LO) has been proposed to remove any possibility of side-channel attacks associated with transmission of the LO as well as reduce the cross-pulse contamination. Here we report an implementation of true LO CV-QKD using "off-the-shelf" components and conduct QKD experiments using the fiber optical network at Oak Ridge National Laboratory. A phase reference and quantum signal are time multiplexed and then wavelength division multiplexed with the classical communications which "coexist" with each other on a single optical network fiber. This is the first demonstration of CV-QKD with a receiver-based true LO over a deployed fiber network, a crucial step for its application in real-world situations. | 翻訳日:2023-12-18 18:57:16 公開日:2023-12-14 |
# 大規模言語モデルのための知識編集:調査 Knowledge Editing for Large Language Models: A Survey ( http://arxiv.org/abs/2310.16218v3 ) ライセンス: Link先を確認 | Song Wang, Yaochen Zhu, Haochen Liu, Zaiyi Zheng, Chen Chen, Jundong Li | (参考訳) 大規模言語モデル(LLM)は、その膨大な知識と推論能力に基づいてテキストを理解し、分析し、生成する顕著な能力のために、最近、学術的および産業的景観を変革した。
それにもかかわらず、llmsの大きな欠点は、前例のない量のパラメータによる事前トレーニングの計算コストである。
事前訓練されたモデルに新しい知識を頻繁に導入する必要がある場合、デメリットは悪化する。
したがって、事前訓練されたLLMを更新するための効率的かつ効率的な技術を開発することが不可欠である。
従来の手法は、事前訓練されたllmにおける新しい知識を直接微調整によってエンコードする。
しかし, 自己学習型LLMは計算集約的であり, モデル更新によらず, 価値ある事前学習知識を劣化させるリスクがある。
近年,知識に基づくモデル編集(KME)が注目され,他の無関係な知識に悪影響を及ぼすことなく,特定の知識を組み込むためにLLMを正確に修正することを目指している。
本調査では,KME分野の最近の進歩を包括的かつ詳細に概観することを目的としている。
まず、異なるKME戦略を包含するKMEの一般的な定式化を導入する。
その後,本手法の革新的分類法として,既存のKME戦略を考察し,各カテゴリの手法の重要点,利点,限界を分析した上で,新たな知識の事前学習 LLM への導入方法に基づくKME手法の革新的分類法を提案する。
さらに、KMEの代表的な指標、データセット、応用を紹介する。
最後に,KMEの実践性と課題の残りについて詳細な分析を行い,今後の発展に向けた今後の研究の方向性を提案する。 Large language models (LLMs) have recently transformed both the academic and industrial landscapes due to their remarkable capacity to understand, analyze, and generate texts based on their vast knowledge and reasoning ability. Nevertheless, one major drawback of LLMs is their substantial computational cost for pre-training due to their unprecedented amounts of parameters. The disadvantage is exacerbated when new knowledge frequently needs to be introduced into the pre-trained model. Therefore, it is imperative to develop effective and efficient techniques to update pre-trained LLMs. Traditional methods encode new knowledge in pre-trained LLMs through direct fine-tuning. However, naively re-training LLMs can be computationally intensive and risks degenerating valuable pre-trained knowledge irrelevant to the update in the model. Recently, Knowledge-based Model Editing (KME) has attracted increasing attention, which aims to precisely modify the LLMs to incorporate specific knowledge, without negatively influencing other irrelevant knowledge. In this survey, we aim to provide a comprehensive and in-depth overview of recent advances in the field of KME. We first introduce a general formulation of KME to encompass different KME strategies. Afterward, we provide an innovative taxonomy of KME techniques based on how the new knowledge is introduced into pre-trained LLMs, and investigate existing KME strategies while analyzing key insights, advantages, and limitations of methods from each category. Moreover, representative metrics, datasets, and applications of KME are introduced accordingly. Finally, we provide an in-depth analysis regarding the practicality and remaining challenges of KME and suggest promising research directions for further advancement in this field. | 翻訳日:2023-12-18 18:50:39 公開日:2023-12-14 |
# 偽ニュースがすべて書かれたわけではない: 誤解を招くビデオ見出しのデータセットと分析 Not all Fake News is Written: A Dataset and Analysis of Misleading Video Headlines ( http://arxiv.org/abs/2310.13859v2 ) ライセンス: Link先を確認 | Yoo Yeon Sung and Jordan Boyd-Graber and Naeemul Hassan | (参考訳) ポーラリゼーションとインプレッションのマーケットプレースが、オンラインのナビゲーション情報をユーザにとって困難にするために共謀し、誤ったテキストや誤解を招くテキストを検出するための多大な努力をしてきたが、マルチモーダルデータセットは、かなり注目を集めていない。
既存のリソースを補完するために、ビデオからなるデータセットであるマルチモーダルビデオミスリーディングヘッドライン(VMH)と、その見出しがビデオの内容を表すものであるとアノテータが信じているかどうかを示す。
このデータセットを収集しアノテートした後、マルチモーダルベースラインを分析し、誤解を招く見出しを検出する。
アノテーションプロセスはまた、アノテーションが動画を誤解を招くものとして見ている理由にも焦点を当てており、アノテーションの背景と動画の内容の相互作用をよりよく理解することができる。 Polarization and the marketplace for impressions have conspired to make navigating information online difficult for users, and while there has been a significant effort to detect false or misleading text, multimodal datasets have received considerably less attention. To complement existing resources, we present multimodal Video Misleading Headline (VMH), a dataset that consists of videos and whether annotators believe the headline is representative of the video's contents. After collecting and annotating this dataset, we analyze multimodal baselines for detecting misleading headlines. Our annotation process also focuses on why annotators view a video as misleading, allowing us to better understand the interplay of annotators' background and the content of the videos. | 翻訳日:2023-12-18 18:48:21 公開日:2023-12-14 |
# スマートエージェントに基づくモデリング:コンピュータシミュレーションにおける大規模言語モデルの利用について Smart Agent-Based Modeling: On the Use of Large Language Models in Computer Simulations ( http://arxiv.org/abs/2311.06330v4 ) ライセンス: Link先を確認 | Zengqing Wu, Run Peng, Xu Han, Shuyuan Zheng, Yixin Zhang, Chuan Xiao | (参考訳) コンピュータシミュレーションは、様々な分野にわたる複雑なシステムを探索するための堅牢なツールセットを提供する。
この領域における特に影響力のあるアプローチはエージェントベースモデリング(abm)であり、個々のエージェントの相互作用を利用して複雑なシステムダイナミクスをエミュレートする。
ABMの強みはボトムアップ手法にあり、システムの個々のコンポーネントの振る舞いをモデル化することによって創発現象を照らす。
しかし、abmには独自の課題があり、特に自然言語の指示や数学的方程式や規則における常識のモデル化に苦慮している。
本稿では,GPT のような大規模言語モデル (LLM) を ABM に組み込むことにより,これらの境界を超越する手法を提案する。
この融合によって、新しいフレームワークであるスマートエージェントベースモデリング(SABM)が生まれた。
スマートエージェントの概念 - その知性、適応性、計算能力によって特徴づけられるエンティティ - に基づいて、私たちはLLMエージェントを使用して、ニュアンスとリアリズムを増大させた現実のシナリオをシミュレートする方向を探る。
本稿では,SABM技術の現状を解明し,SABMの可能性と方法論を紹介するとともに,SABM方法論を実証し,実世界のシステムモデリングにおけるその有効性を検証した3つのケーススタディ(https://github.com/Roihn/SABMで公開されているソースコード)を紹介する。
さらに、私たちはsabmの将来に関するいくつかの側面にビジョンを向け、その応用のより広い地平線を予測しました。
この取り組みを通じて、コンピュータシミュレーションの境界を再定義し、複雑なシステムのより深い理解を可能にしたいと考えています。 Computer simulations offer a robust toolset for exploring complex systems across various disciplines. A particularly impactful approach within this realm is Agent-Based Modeling (ABM), which harnesses the interactions of individual agents to emulate intricate system dynamics. ABM's strength lies in its bottom-up methodology, illuminating emergent phenomena by modeling the behaviors of individual components of a system. Yet, ABM has its own set of challenges, notably its struggle with modeling natural language instructions and common sense in mathematical equations or rules. This paper seeks to transcend these boundaries by integrating Large Language Models (LLMs) like GPT into ABM. This amalgamation gives birth to a novel framework, Smart Agent-Based Modeling (SABM). Building upon the concept of smart agents -- entities characterized by their intelligence, adaptability, and computation ability -- we explore in the direction of utilizing LLM-powered agents to simulate real-world scenarios with increased nuance and realism. In this comprehensive exploration, we elucidate the state of the art of ABM, introduce SABM's potential and methodology, and present three case studies (source codes available at https://github.com/Roihn/SABM), demonstrating the SABM methodology and validating its effectiveness in modeling real-world systems. Furthermore, we cast a vision towards several aspects of the future of SABM, anticipating a broader horizon for its applications. Through this endeavor, we aspire to redefine the boundaries of computer simulations, enabling a more profound understanding of complex systems. | 翻訳日:2023-12-18 18:35:42 公開日:2023-12-14 |
# 事前訓練された言語モデルを新しい言語に効果的に適応する Efficiently Adapting Pretrained Language Models To New Languages ( http://arxiv.org/abs/2311.05741v2 ) ライセンス: Link先を確認 | Zoltan Csaki, Pian Pawakapan, Urmish Thakker, Qiantong Xu | (参考訳) 最近の大規模言語モデル(LLM)は、これらのモデルのトレーニングデータが通常、英語や他の高リソース言語に支配されているため、低リソース言語に準最適性能を示す。
さらに、高品質なトレーニングデータがないため、低リソース言語、特にスクラッチからモデルをトレーニングすることは困難である。
事前訓練されたLLMへの適応は、新しい言語のデータの必要性を減らし、言語間転送機能も提供する。
しかし、新しい言語に鼻で適応すると破滅的な忘れ込みとトークン化の効率が低下する。
本研究では,既存のLLMをこれらの問題に対処することなく,新しい言語に効率的に適応する方法を検討する。
特に、ターゲット言語から新しいトークンを追加してトークン化の符号化効率を向上し、データ混合のレシピを調べ、忘れを軽減します。
英語のLLMをハンガリー語とタイ語に適応させる実験により、我々のレシピはターゲット言語上のオープンソースモデルよりもパフォーマンスが向上し、英語での回帰は最小限に抑えられることを示した。 Recent large language models (LLM) exhibit sub-optimal performance on low-resource languages, as the training data of these models is usually dominated by English and other high-resource languages. Furthermore, it is challenging to train models for low-resource languages, especially from scratch, due to a lack of high quality training data. Adapting pretrained LLMs reduces the need for data in the new language while also providing cross lingual transfer capabilities. However, naively adapting to new languages leads to catastrophic forgetting and poor tokenizer efficiency. In this work, we study how to efficiently adapt any existing pretrained LLM to a new language without running into these issues. In particular, we improve the encoding efficiency of the tokenizer by adding new tokens from the target language and study the data mixing recipe to mitigate forgetting. Our experiments on adapting an English LLM to Hungarian and Thai show that our recipe can reach better performance than open source models on the target language, with minimal regressions on English. | 翻訳日:2023-12-18 18:35:15 公開日:2023-12-14 |
# 証明可能な保証による非線形多目的強化学習 Nonlinear Multi-objective Reinforcement Learning with Provable Guarantees ( http://arxiv.org/abs/2311.02544v2 ) ライセンス: Link先を確認 | Nianli Peng and Brandon Fain | (参考訳) RA-E3 (Reward-Aware Explicit Explore or Exploit) は単目的または多目的のマルコフ決定過程(MDP)を解くための証明可能な保証を持つアルゴリズムで、累積報酬よりも非線形関数の期待値を最大化する。
これにより,多目的強化学習のための公平性を考慮した福祉最適化や,非線形フォン・ノイマン・モーゲンステルンユーティリティ関数を用いたリスク対応強化学習を単一目的設定でモデル化することができる。
RA-E3は、スカラー報酬と線形選好でMDPを解決する古典的なE3アルゴリズムを拡張している。
まず、与えられた環境のモデルにほぼ最適である非定常ポリシーを計算する、価値反復の報酬認識バージョンを示す。
このサブプロデューサは、時間と現在の累積報酬を明示的に考慮した非線形最適化のためのベルマン最適化の拡張形式に基づいている。
次に、この最適化手順を、環境のモデルを同時に学習しなければならない大きなアルゴリズムで使う方法について述べる。
このアルゴリズムは、MDPのサイズ、所望の近似、非線形関数の滑らかさに多項式的に依存し、指数関数的に目的数に依存する、ほぼ最適なポリシーを時間内に学習する。 We describe RA-E3 (Reward-Aware Explicit Explore or Exploit), an algorithm with provable guarantees for solving a single or multi-objective Markov Decision Process (MDP) where we want to maximize the expected value of a nonlinear function over accumulated rewards. This allows us to model fairness-aware welfare optimization for multi-objective reinforcement learning as well as risk-aware reinforcement learning with nonlinear Von Neumann-Morgenstern utility functions in the single objective setting. RA-E3 extends the classic E3 algorithm that solves MDPs with scalar rewards and linear preferences. We first state a distinct reward-aware version of value iteration that calculates a non-stationary policy that is approximately optimal for a given model of the environment. This sub-procedure is based on an extended form of Bellman optimality for nonlinear optimization that explicitly considers time and current accumulated reward. We then describe how to use this optimization procedure in a larger algorithm that must simultaneously learn a model of the environment. The algorithm learns an approximately optimal policy in time that depends polynomially on the MDP size, desired approximation, and smoothness of the nonlinear function, and exponentially on the number of objectives. | 翻訳日:2023-12-18 18:33:58 公開日:2023-12-14 |
# 魔法のロバスト性を効率的に定量化するハンドブック Handbook for Efficiently Quantifying Robustness of Magic ( http://arxiv.org/abs/2311.01362v2 ) ライセンス: Link先を確認 | Hiroki Hamaguchi and Kou Hamada and Nobuyuki Yoshioka | (参考訳) 非安定化性(nonstabilizerness、マジック)は、普遍的な量子計算を行うために必要な量子資源である。
特に魔法のロバスト性(RoM)は、非クリフォード演算に対する与えられた量子状態の有用性の程度を特徴づける。
RoMの数学的形式は簡潔な方法で与えられるが、極端に多くの純粋な安定化状態を含むため、実際にRoMを決定することは極めて困難である。
本稿では,RoMの計算に有効な新しいアルゴリズムを提案する。
重要な技術は、純粋な安定化状態間の重なりの計算において顕著な特徴を達成するサブルーチンである。
i) 各安定化器毎の時間複雑性を指数関数的に減少させる。
(ii)空間の複雑さは超指数的に減少する。
このサブルーチンに基づいて、ラップトップ上で最大$n=7$ qubitsの任意の状態に対してRoMを計算するアルゴリズムを提案する。
副生成物として、提案したサブルーチンは安定化器の忠実度を最大$n=8$ qubitsまでシミュレートすることができる。
さらに,解離の置換対称性などの対象量子状態の構造に対する事前知識を利用する新しいアルゴリズムを提案し,魔術状態のコピーと部分的に解離した量子状態の数値的な結果を示す。
一連のアルゴリズムは、RoMの計算をスケールアップするための包括的「ハンドブック」を構成しており、提案手法が他の量子リソースの計算にも適用可能であることを想定する。 The nonstabilizerness, or magic, is an essential quantum resource to perform universal quantum computation. Robustness of magic (RoM) in particular characterizes the degree of usefulness of a given quantum state for non-Clifford operation. While the mathematical formalism of RoM can be given in a concise manner, it is extremely challenging to determine the RoM in practice, since it involves superexponentially many pure stabilizer states. In this work, we present efficient novel algorithms to compute the RoM. The crucial technique is a subroutine that achieves the remarkable features in calculation of overlaps between pure stabilizer states: (i) the time complexity per each stabilizer is reduced exponentially, (ii) the space complexity is reduced superexponentially. Based on this subroutine, we present algorithms to compute the RoM for arbitrary states up to $n=7$ qubits on a laptop, while brute-force methods require a memory size of 86 TiB. As a byproduct, the proposed subroutine allows us to simulate the stabilizer fidelity up to $n=8$ qubits, for which naive methods require memory size of 86 PiB so that any state-of-the-art classical computer cannot execute the computation. We further propose novel algorithms that utilize the preknowledge on the structure of target quantum state such as the permutation symmetry of disentanglement, and numerically demonstrate our state-of-the-art results for copies of magic states and partially disentangled quantum states. The series of algorithms constitute a comprehensive ``handbook'' to scale up the computation of the RoM, and we envision that the proposed technique applies to the computation of other quantum resource measures as well. | 翻訳日:2023-12-18 18:33:37 公開日:2023-12-14 |
# 変分量子アルゴリズムによるフェルミ・ハバードモデルの熱平衡の探索 Exploring thermal equilibria of the Fermi-Hubbard model with variational quantum algorithms ( http://arxiv.org/abs/2312.09292v1 ) ライセンス: Link先を確認 | Jack Y. Araz, Michael Spannowsky and Matthew Wingate | (参考訳) 本研究は, 変分量子アルゴリズムを用いた化学ポテンシャルを持つフェルミ・ハッバードモデルの熱的性質を, 凝縮物質系の高温における格子内粒子挙動の解明に不可欠である。
従来の計算手法は、特に化学ポテンシャルの管理において困難に遭遇し、ハミルトニアンアプローチの探求を促した。
量子アルゴリズムの約束にもかかわらず、その効果は拡張された想像上の時間発展列をシミュレートする際のコヒーレンス制限によって阻害される。
このような制約を克服するため、この研究はフェルミ・ハバード模型の熱的性質を調べるために変分量子アルゴリズムの最適化に焦点を当てている。
物理にインスパイアされた回路設計は、コヒーレンスの制約を緩和し、高温の材料をより包括的な探査を容易にする。
本研究では,フェルミ・ハバードモデルの温度特性をシミュレーションする上で,量子デバイスにおける誤差源やバレンプラトーに遭遇する限界を認識しながら,変分アルゴリズムの可能性を示す。 This study investigates the thermal properties of the repulsive Fermi-Hubbard model with chemical potential using variational quantum algorithms, crucial in comprehending particle behaviour within lattices at high temperatures in condensed matter systems. Conventional computational methods encounter challenges, especially in managing chemical potential, prompting exploration into Hamiltonian approaches. Despite the promise of quantum algorithms, their efficacy is hampered by coherence limitations when simulating extended imaginary time evolution sequences. To overcome such constraints, this research focuses on optimising variational quantum algorithms to probe the thermal properties of the Fermi-Hubbard model. Physics-inspired circuit designs are tailored to alleviate coherence constraints, facilitating a more comprehensive exploration of materials at elevated temperatures. Our study demonstrates the potential of variational algorithms in simulating the thermal properties of the Fermi-Hubbard model while acknowledging limitations stemming from error sources in quantum devices and encountering barren plateaus. | 翻訳日:2023-12-18 18:14:48 公開日:2023-12-14 |
# 固体単一光子源:新しい量子材料への最近の進歩 Solid-state single-photon sources: recent advances for novel quantum materials ( http://arxiv.org/abs/2312.09280v1 ) ライセンス: Link先を確認 | Martin Esmann, Stephen C. Wein, Carlos Ant\'on-Solanas | (参考訳) 本稿では,量子フォトニクス応用のための創発的量子材料の現状について述べる。
我々は,遷移金属ジアルコゲナイド単分子膜の単一エミッタ,六方晶窒化ホウ素の欠陥,ペロブスカイト中のコロイド量子ドットの3つの特定の固体プラットフォームに焦点を当てた。
これらのプラットフォームは、ユニークな技術的アクセシビリティを共有しており、テストベッド量子アプリケーションの迅速な実装を可能にしています。
レビューは、固体における関連する単一光子源の現在の最先端の概要から始まり、その過程で最も重要な性能基準と実験的キャラクタリゼーション技術を紹介する。
次に、より確立された(まだ複雑な)プラットフォームに対する3つの新しい素材の各々の進捗をベンチマークし、パフォーマンス、材料固有の利点、量子アプリケーションへの展望を強調する。
このレビューは、このテクノロジーに関連するすべての必要な概念と実験を含む、固体における創発的単一光子源の高速ペース分野における最新の開発に関するスナップショットを提供する。 In this review, we describe the current landscape of emergent quantum materials for quantum photonic applications. We focus on three specific solid-state platforms: single emitters in monolayers of transition metal dichalcogenides, defects in hexagonal boron nitride, and colloidal quantum dots in perovskites. These platforms share a unique technological accessibility, enabling the rapid implementation of testbed quantum applications, all while being on the verge of becoming technologically mature enough for a first generation of real-world quantum applications. The review begins with a comprehensive overview of the current state-of-the-art for relevant single-photon sources in the solid-state, introducing the most important performance criteria and experimental characterization techniques along the way. We then benchmark progress for each of the three novel materials against more established (yet complex) platforms, highlighting performance, material-specific advantages, and giving an outlook on quantum applications. This review will thus provide the reader with a snapshot on latest developments in the fast-paced field of emergent single-photon sources in the solid-state, including all the required concepts and experiments relevant to this technology. | 翻訳日:2023-12-18 18:14:31 公開日:2023-12-14 |
# 原子間化合物CrSBrのナノスケール磁性と磁性相転移 Nanoscale magnetism and magnetic phase transitions in atomically thin CrSBr ( http://arxiv.org/abs/2312.09279v1 ) ライセンス: Link先を確認 | M\"arta A. Tschudin, David A. Broadway, Patrick Reiser, Carolin Schrader, Evan J. Telford, Boris Gross, Jordan Cox, Adrien E. E. Dubois, Daniel G. Chica, Ricardo Rama-Eiroa, Elton J. G. Santos, Martino Poggio, Michael E. Ziebel, Cory R. Dean, Xavier Roy, Patrick Maletinsky | (参考訳) 2017年に初めて観測されたヴァンデルワールス(vdw)磁石は、重要な基礎的かつ応用的な注目を集めている。
しかし、その低秩序な温度、T_c$、大気条件への感受性、クリーンな大面積試料の調製の困難さは、さらなる進行に大きな制限を与えている。
極めて安定な高T_c$vdWマグネットCrSBrはこれらの重要な欠点を克服する可能性があるが、そのナノスケール特性と豊富な磁性相図は未だ理解されていない。
本研究では,単スピン磁気測定を用いて,crsbrの飽和磁化,磁気異方性定数,磁気相転移を直接磁気イメージングにより定量的に評価する。
電離磁気相を示し,ミクロン長スケールの欠陥を欠き,単層限界下での優れた空気安定性を示す。
生成する反強磁性(AFM)から強磁性(FM)相壁への直接イメージングにより、二層CrSBrのスピンフリップ遷移に対処し、CrSBrの秩序温度付近で磁気特性を解明する。
我々の研究は、CrSBrのエキゾチック電子および磁性相の工学と、この高期待のvdW磁石に基づく新しいナノ磁気デバイスの実現を可能にする。 Since their first observation in 2017, atomically thin van der Waals (vdW) magnets have attracted significant fundamental, and application-driven attention. However, their low ordering temperatures, $T_c$, sensitivity to atmospheric conditions and difficulties in preparing clean large-area samples still present major limitations to further progress. The remarkably stable high-$T_c$ vdW magnet CrSBr has the potential to overcome these key shortcomings, but its nanoscale properties and rich magnetic phase diagram remain poorly understood. Here we use single spin magnetometry to quantitatively characterise saturation magnetization, magnetic anisotropy constants, and magnetic phase transitions in few-layer CrSBr by direct magnetic imaging. We show pristine magnetic phases, devoid of defects on micron length-scales, and demonstrate remarkable air-stability down the monolayer limit. We address the spin-flip transition in bilayer CrSBr by direct imaging of the emerging antiferromagnetic (AFM) to ferromagnetic (FM) phase wall and elucidate the magnetic properties of CrSBr around its ordering temperature. Our work will enable the engineering of exotic electronic and magnetic phases in CrSBr and the realisation of novel nanomagnetic devices based on this highly promising vdW magnet. | 翻訳日:2023-12-18 18:14:09 公開日:2023-12-14 |
# スピン境界相関:量子理論内外における回転箱 Spin-bounded correlations: rotation boxes within and beyond quantum theory ( http://arxiv.org/abs/2312.09278v1 ) ライセンス: Link先を確認 | Albert Aloy, Thomas D. Galley, Caroline L. Jones, Stefan L. Ludescher, Markus P. Mueller | (参考訳) 任意の物理理論において、検出器クリック確率は固定軸まわりの空間回転にどのように反応するか?
ここでは、この問題を「回転箱」という観点から詳細に数学的解析し、これはよく知られた非局所箱の概念に類似する。
量子論はスピン 0, 1/2, 1 の最も一般的な回転相関を持つことを証明しているが、スピン 3/2 の超量子資源が同じスピンの全ての量子資源を上回るようなメトロロジーゲームを記述する。
スピン-1相関の厳密な凸キャラクタリゼーション、スピン3/2以上のtsirelson型不等式、一般スピンj相関が量子集合に対する効率的な外部sdp近似を提供するという証明を含む、これらの相関に関する多くの基本的な結果を証明する。
さらに、理論に依存しない半デバイス独立なランダム性生成器、局所対称性の項における量子(2,2,2)-ベル相関の正確な特徴づけ、および多部構成のベル証人の導出など、この形式主義の豊富な応用を示唆する初期の結果をレビューし、統合する。
我々の結果は、空間が量子理論の構造をいかに制限するかという根本的な問題、半デバイス非依存の量子情報と時空物理学の間の橋を築き、絡み合いの目撃者、スペクトル、軌道論といったトピックと興味深い関係を示す。 How can detector click probabilities respond to spatial rotations around a fixed axis, in any possible physical theory? Here, we give a thorough mathematical analysis of this question in terms of "rotation boxes", which are analogous to the well-known notion of non-local boxes. We prove that quantum theory admits the most general rotational correlations for spins 0, 1/2, and 1, but we describe a metrological game where beyond-quantum resources of spin 3/2 outperform all quantum resources of the same spin. We prove a multitude of fundamental results about these correlations, including an exact convex characterization of the spin-1 correlations, a Tsirelson-type inequality for spins 3/2 and higher, and a proof that the general spin-J correlations provide an efficient outer SDP approximation to the quantum set. Furthermore, we review and consolidate earlier results that hint at a wealth of applications of this formalism: a theory-agnostic semi-device-independent randomness generator, an exact characterization of the quantum (2,2,2)-Bell correlations in terms of local symmetries, and the derivation of multipartite Bell witnesses. Our results illuminate the foundational question of how space constrains the structure of quantum theory, they build a bridge between semi-device-independent quantum information and spacetime physics, and they demonstrate interesting relations to topics such as entanglement witnesses, spectrahedra, and orbitopes. | 翻訳日:2023-12-18 18:13:44 公開日:2023-12-14 |
# 群ベースクラスター状態における非可逆対称性保護位相秩序 Non-invertible symmetry-protected topological order in a group-based cluster state ( http://arxiv.org/abs/2312.09272v1 ) ライセンス: Link先を確認 | Christopher Fechisin, Nathanan Tantivasadakarn, Victor V. Albert | (参考訳) 量子凝縮体系における超群対称性への関心は高まっているが、これらの対称性を明示的に認識する微視的格子モデルは比較的少なく、多くの現象はまだ微視的レベルでは研究されていない。
基底状態が $g\times \text{rep}(g)$-symmetric state: the $g \textit{ cluster state}$ in $[\href{http://doi.org/10.1088/1367-2630/17/2/023029}{\text{brell, new journal of physics }\textbf{17}\text{, 023029 (2015)}}]$ である群ベースのパウリ作用素からなる一次元安定化器ハミルトニアンを導入する。
この状態は、$G\times \text{Rep}(G)$対称性によって保護される対称性保護位相(SPT)相にあり、双対性引数によって対称積状態と異なることを示す。
SPTオーダのいくつかのシグネチャ,すなわち保護エッジモード,文字列順序パラメータ,トポロジカル応答を同定する。
我々は、クラスター状態が測定に基づく量子計算の普遍的な資源としてどのように使われるかについて議論し、その場合、$g$ がアーベル群の半直積である場合を明確に扱う。 Despite growing interest in beyond-group symmetries in quantum condensed matter systems, there are relatively few microscopic lattice models explicitly realizing these symmetries, and many phenomena have yet to be studied at the microscopic level. We introduce a one-dimensional stabilizer Hamiltonian composed of group-based Pauli operators whose ground state is a $G\times \text{Rep}(G)$-symmetric state: the $G \textit{ cluster state}$ introduced in $[\href{http://doi.org/10.1088/1367-2630/17/2/023029}{\text{Brell, New Journal of Physics }\textbf{17}\text{, 023029 (2015)}}]$. We show that this state lies in a symmetry-protected topological (SPT) phase protected by $G\times \text{Rep}(G)$ symmetry, distinct from the symmetric product state by a duality argument. We identify several signatures of SPT order, namely protected edge modes, string order parameters, and topological response. We discuss how $G$ cluster states may be used as a universal resource for measurement-based quantum computation, explicitly working out the case where $G$ is a semidirect product of abelian groups. | 翻訳日:2023-12-18 18:13:17 公開日:2023-12-14 |
# 2レベル量子システムと物理空間の接続の確立に向けて Towards establishing a connection between two-level quantum systems and physical spaces ( http://arxiv.org/abs/2312.09270v1 ) ライセンス: Link先を確認 | V. G. Valle, L. L. Brugger, B. F. Rizzuti and Cristhiano Duarte | (参考訳) この研究は、ヒルベルト空間における(状態として)対応する2レベル量子システムの作成と操作的関係を明確にすることを目的としている。
これは時代遅れに聞こえるかもしれないが、私たちはこのつながりには常識以上のものがあることを示している。
これら2つの分離された領域(実際の実験室と状態空間)を橋渡しするために、私たちはパラダイム的な数学的対象であるホップフィブレーションに依存している。
この接続が簡単な光学装置で実際にどのように機能するかを説明する。
この光学装置はまた、球体を覆うために2つのチャートを使う必要があることを反映している。
別の言い方をすれば、実験的な実現は滑らかな多様体に見える球面の双次元性を反映している。 This work seeks to make explicit the operational connection between the preparation of two-level quantum systems with their corresponding description (as states) in a Hilbert space. This may sound outdated, but we show there is more to this connection than common sense may lead us to believe. To bridge these two separated realms -- the actual laboratory and the space of states -- we rely on a paradigmatic mathematical object: the Hopf fibration. We illustrate how this connection works in practice with a simple optical setup. Remarkably, this optical setup also reflects the necessity of using two charts to cover a sphere. Put another way, our experimental realization reflects the bi-dimensionality of a sphere seen as a smooth manifold. | 翻訳日:2023-12-18 18:12:42 公開日:2023-12-14 |
# 音声認識と知識蒸留を用いた環境音の効率的な音声検出 Efficient speech detection in environmental audio using acoustic recognition and knowledge distillation ( http://arxiv.org/abs/2312.09269v1 ) ライセンス: Link先を確認 | Drew Priebe, Burooj Ghani, Dan Stowell | (参考訳) 土地利用の変化や地球温暖化といった要因によって引き起こされている生物多様性危機は、効果的な生態モニタリング方法の必要性を強調している。
生体多様性の音響モニタリングは重要なモニタリングツールとなっている。
サウンドスケープモニタリングプロジェクトにおける人間の声の検出は、人間の妨害の分析とプライバシーフィルタリングの両方に有用である。
近年のディープラーニングの大きな進歩にもかかわらず、コンパクトデバイスに大規模ニューラルネットワークを展開することは、メモリとレイテンシの制約のために課題となる。
本手法は, バイオ音響学における効率的で軽量な学生モデルの設計に, 知識蒸留技術を活用することに焦点を当てている。
特に,mobilenetv3-small-piモデルを用いて,小型かつ効果的な学生用アーキテクチャを構築し,エコ音響モニタリングにおけるよく評価された音声検出アーキテクチャであるecovad teacherモデルと比較した。
比較分析では、MobileNetV3-Small-Pi派生学生モデルの様々な構成を調べ、最適性能を同定した。
さらに, 異なる蒸留法を徹底的に評価し, モデル選択の最も効果的な方法を確認した。
その結果,EcoVAD教師モデルに匹敵する性能を示し,実時間環境モニタリングにおける計算障壁を克服するための有望なアプローチが示唆された。 The ongoing biodiversity crisis, driven by factors such as land-use change and global warming, emphasizes the need for effective ecological monitoring methods. Acoustic monitoring of biodiversity has emerged as an important monitoring tool. Detecting human voices in soundscape monitoring projects is useful both for analysing human disturbance and for privacy filtering. Despite significant strides in deep learning in recent years, the deployment of large neural networks on compact devices poses challenges due to memory and latency constraints. Our approach focuses on leveraging knowledge distillation techniques to design efficient, lightweight student models for speech detection in bioacoustics. In particular, we employed the MobileNetV3-Small-Pi model to create compact yet effective student architectures to compare against the larger EcoVAD teacher model, a well-regarded voice detection architecture in eco-acoustic monitoring. The comparative analysis included examining various configurations of the MobileNetV3-Small-Pi derived student models to identify optimal performance. Additionally, a thorough evaluation of different distillation techniques was conducted to ascertain the most effective method for model selection. Our findings revealed that the distilled models exhibited comparable performance to the EcoVAD teacher model, indicating a promising approach to overcoming computational barriers for real-time ecological monitoring. | 翻訳日:2023-12-18 18:12:32 公開日:2023-12-14 |
# ニューラルトランスフォーマによるブラジルポルトガル語音声の音響モデル Acoustic models of Brazilian Portuguese Speech based on Neural Transformers ( http://arxiv.org/abs/2312.09265v1 ) ライセンス: Link先を確認 | Marcelo Matheus Gauy and Marcelo Finger | (参考訳) かなりの量のラベルのないデータに基づいて訓練された音響モデルは、下流タスクを解くのに有用な自己教師付き学習された音声表現から構成される。
本研究では,トランスフォーマーニューラルネットワークを用いてブラジルのポルトガル語音声の音響モデルを構築する。
このモデルは、事前訓練技術を組み合わせて、800ドル以上のブラジルポルトガル語音声で事前訓練された。
ブラジルポルトガル語話者の呼吸不全検出のために収集されたラベル付きデータセットを用いて, トレーニング済みトランスフォーマーニューラルネットワークを, 呼吸不全検出, 性別認識, 年齢分類の順に微調整した。
これらのタスクにおけるプリトレーニングトランスの性能と,前回のプリトレーニングを行わないトランスの性能を比較した。
特に呼吸不全検出の性能は, これまでに報告された最良の結果を得ることができ, 音声・生体マーカーアプローチの有望なツールとして, この種の音響モデルを示している。
さらに、性別認識のパフォーマンスは、英語の芸術モデルの状態に匹敵する。 An acoustic model, trained on a significant amount of unlabeled data, consists of a self-supervised learned speech representation useful for solving downstream tasks, perhaps after a fine-tuning of the model in the respective downstream task. In this work, we build an acoustic model of Brazilian Portuguese Speech through a Transformer neural network. This model was pretrained on more than $800$ hours of Brazilian Portuguese Speech, using a combination of pretraining techniques. Using a labeled dataset collected for the detection of respiratory insufficiency in Brazilian Portuguese speakers, we fine-tune the pretrained Transformer neural network on the following tasks: respiratory insufficiency detection, gender recognition and age group classification. We compare the performance of pretrained Transformers on these tasks with that of Transformers without previous pretraining, noting a significant improvement. In particular, the performance of respiratory insufficiency detection obtains the best reported results so far, indicating this kind of acoustic model as a promising tool for speech-as-biomarker approach. Moreover, the performance of gender recognition is comparable to the state of the art models in English. | 翻訳日:2023-12-18 18:12:11 公開日:2023-12-14 |
# 統一視覚処理のためのランダム抵抗型メモリ深部極端学習装置 Random resistive memory-based deep extreme point learning machine for unified visual processing ( http://arxiv.org/abs/2312.09262v1 ) ライセンス: Link先を確認 | Shaocong Wang, Yizhao Gao, Yi Li, Woyu Zhang, Yifei Yu, Bo Wang, Ning Lin, Hegan Chen, Yue Zhang, Yang Jiang, Dingchen Wang, Jia Chen, Peng Dai, Hao Jiang, Peng Lin, Xumeng Zhang, Xiaojuan Qi, Xiaoxin Xu, Hayden So, Zhongrui Wang, Dashan Shang, Qi Liu, Kwang-Ting Cheng, Ming Liu | (参考訳) 3D LiDAR、ニューロモルフィックDVSセンサー、従来のフレームカメラを含む視覚センサーは、ますますエッジサイドのインテリジェントマシンに統合されている。
エッジインテリジェントマシン上での集中型多感覚データ分析の実現は、統合されたデータ表現、前例のないハードウェアエネルギー効率、迅速なモデルトレーニングを必要とする拡張現実や仮想現実、無人航空機など、数多くの新興エッジアプリケーションにとって不可欠である。
しかし、マルチ感覚データは本質的に異質であり、エッジ側インテリジェントマシンのシステム開発にかなりの複雑さをもたらす。
さらに、従来のデジタルハードウェアの性能は、フォン・ノイマンのボトルネックとして知られる物理的に分離された処理とメモリユニットと、ムーアの法則の減速に寄与するトランジスタスケーリングの物理的限界によって制限される。
これらの制限は、サイズがますます増大するモデルの退屈なトレーニングによってさらに強化される。
本稿では, ハードウェアとソフトウェアを併用した, ランダム抵抗型メモリベース深部極端学習マシン(DEPLM)を提案する。
様々なデータモダリティと2つの異なる学習タスクにまたがるシステムの汎用性を示す。
従来のデジタルハードウェアシステムと比較すると, 従来のシステムと比較して, エネルギー効率が大幅に向上し, 訓練コストが削減される。
私たちのランダム抵抗メモリベースのディープラーニングマシンは、さまざまなデータモダリティやタスクにわたって、エネルギー効率とトレーニングフレンドリーなエッジaiへの道を開くかもしれません。 Visual sensors, including 3D LiDAR, neuromorphic DVS sensors, and conventional frame cameras, are increasingly integrated into edge-side intelligent machines. Realizing intensive multi-sensory data analysis directly on edge intelligent machines is crucial for numerous emerging edge applications, such as augmented and virtual reality and unmanned aerial vehicles, which necessitates unified data representation, unprecedented hardware energy efficiency and rapid model training. However, multi-sensory data are intrinsically heterogeneous, causing significant complexity in the system development for edge-side intelligent machines. In addition, the performance of conventional digital hardware is limited by the physically separated processing and memory units, known as the von Neumann bottleneck, and the physical limit of transistor scaling, which contributes to the slowdown of Moore's law. These limitations are further intensified by the tedious training of models with ever-increasing sizes. We propose a novel hardware-software co-design, random resistive memory-based deep extreme point learning machine (DEPLM), that offers efficient unified point set analysis. We show the system's versatility across various data modalities and two different learning tasks. Compared to a conventional digital hardware-based system, our co-design system achieves huge energy efficiency improvements and training cost reduction when compared to conventional systems. Our random resistive memory-based deep extreme point learning machine may pave the way for energy-efficient and training-friendly edge AI across various data modalities and tasks. | 翻訳日:2023-12-18 18:11:51 公開日:2023-12-14 |
# テーブルシフトを用いたタブラルデータのベンチマーク分布シフト Benchmarking Distribution Shift in Tabular Data with TableShift ( http://arxiv.org/abs/2312.07577v2 ) ライセンス: Link先を確認 | Josh Gardner, Zoran Popovic, Ludwig Schmidt | (参考訳) 分散シフトに対するロバスト性は、研究対象から現実世界への展開への移行に伴って、テキストや画像モデルに対する関心が高まっている。
しかし、表型データの普及や、テキストや画像と比較して表型データに使用するモデルの違いにもかかわらず、表型機械学習タスクの分散シフトのための高品質なベンチマークはいまだに欠落している。
その結果,分布シフトに対する表モデルのロバスト性はよく分かっていない。
この問題に対処するため,表データの分散シフトベンチマークであるTableShiftを導入する。
TableShiftには15のバイナリ分類タスクがあり、それぞれに関連するシフトがあり、さまざまなデータソース、予測ターゲット、分散シフトが含まれている。
このベンチマークは、ファイナンス、教育、公共政策、医療、市民参加を含むドメインをカバーしており、TableShift API経由でわずか数行のPythonコードでアクセスできる。
ベンチマークタスクにおける頑健な学習法とドメイン一般化法とともに、最先端の表型データモデルを比較した大規模な研究を行う。
本研究は,(1)分布内(ID)と分布外(OOD)の精度の線形傾向,(2)ドメインの堅牢性はシフトギャップを低減できるが,IDの精度の低減は可能であること,(3)シフトギャップ(IDとOODのパフォーマンスの差)とラベル分布のシフトとの強い関係を示す。
ベンチマークデータ、pythonパッケージ、モデル実装、およびtableshiftに関するさらなる情報は、https://github.com/mlfoundations/tableshiftおよびhttps://tableshift.orgで入手できる。 Robustness to distribution shift has become a growing concern for text and image models as they transition from research subjects to deployment in the real world. However, high-quality benchmarks for distribution shift in tabular machine learning tasks are still lacking despite the widespread real-world use of tabular data and differences in the models used for tabular data in comparison to text and images. As a consequence, the robustness of tabular models to distribution shift is poorly understood. To address this issue, we introduce TableShift, a distribution shift benchmark for tabular data. TableShift contains 15 binary classification tasks in total, each with an associated shift, and includes a diverse set of data sources, prediction targets, and distribution shifts. The benchmark covers domains including finance, education, public policy, healthcare, and civic participation, and is accessible using only a few lines of Python code via the TableShift API. We conduct a large-scale study comparing several state-of-the-art tabular data models alongside robust learning and domain generalization methods on the benchmark tasks. Our study demonstrates (1) a linear trend between in-distribution (ID) and out-of-distribution (OOD) accuracy; (2) domain robustness methods can reduce shift gaps but at the cost of reduced ID accuracy; (3) a strong relationship between shift gap (difference between ID and OOD performance) and shifts in the label distribution. The benchmark data, Python package, model implementations, and more information about TableShift are available at https://github.com/mlfoundations/tableshift and https://tableshift.org . | 翻訳日:2023-12-18 18:10:57 公開日:2023-12-14 |
# PaperQA: 科学的研究のための検索強化生成エージェント PaperQA: Retrieval-Augmented Generative Agent for Scientific Research ( http://arxiv.org/abs/2312.07559v2 ) ライセンス: Link先を確認 | Jakub L\'ala, Odhran O'Donoghue, Aleksandar Shtedritski, Sam Cox, Samuel G. Rodriques, Andrew D. White | (参考訳) 大規模言語モデル(llm)は、言語タスクをまたがってうまく一般化するが、幻覚や解釈不能に苦しむため、根拠を欠くことなくその正確性を評価することは困難である。
Retrieval-Augmented Generation (RAG)モデルは幻覚を減らし、どのように回答が生成されるかを示すために提案されている。
このようなモデルを科学文献に適用することで、科学知識の大規模かつ体系的な処理が可能になる。
本稿では科学文献に関する質問に答えるためのRAGエージェントPaperQAを紹介する。
PaperQAは、全文の科学論文を通じて情報検索を行い、ソースやパスの関連性を評価し、RAGを使用して回答を提供するエージェントである。
このエージェントを質問応答モデルとして見てみると、現在の科学QAベンチマークにおいて、既存のLLMおよびLLMエージェントの性能を上回ることが分かる。
科学文献研究の領域に近づこうとする試みとして,全文科学論文の情報検索と合成を必要とする,より複雑なベンチマークであるlitqaも紹介する。
最後に、LitQAのヒト研究者によるPaperQAのマッチを実演する。 Large Language Models (LLMs) generalize well across language tasks, but suffer from hallucinations and uninterpretability, making it difficult to assess their accuracy without ground-truth. Retrieval-Augmented Generation (RAG) models have been proposed to reduce hallucinations and provide provenance for how an answer was generated. Applying such models to the scientific literature may enable large-scale, systematic processing of scientific knowledge. We present PaperQA, a RAG agent for answering questions over the scientific literature. PaperQA is an agent that performs information retrieval across full-text scientific articles, assesses the relevance of sources and passages, and uses RAG to provide answers. Viewing this agent as a question answering model, we find it exceeds performance of existing LLMs and LLM agents on current science QA benchmarks. To push the field closer to how humans perform research on scientific literature, we also introduce LitQA, a more complex benchmark that requires retrieval and synthesis of information from full-text scientific papers across the literature. Finally, we demonstrate PaperQA's matches expert human researchers on LitQA. | 翻訳日:2023-12-18 18:10:31 公開日:2023-12-14 |
# AIコントロール:意図的な転倒にもかかわらず安全性を改善する AI Control: Improving Safety Despite Intentional Subversion ( http://arxiv.org/abs/2312.06942v2 ) ライセンス: Link先を確認 | Ryan Greenblatt, Buck Shlegeris, Kshitij Sachan, Fabien Roger | (参考訳) 大きな言語モデル(LLM)がより強力になり、より自律的にデプロイされるようになるにつれ、有害な結果を引き起こすのを防ぐことがますます重要になります。
研究者は、モデルを使用して他のモデルのアウトプットをレビューしたり、微妙な障害モードを表面化するための赤チーム技術など、この目的のために様々な安全技術を調査している。
しかし、研究者は、モデル自体が意図的にそれを覆そうとしている場合、そのような手法が安全を保っているかどうかを評価していない。
本稿では,意図的な転倒に対して堅牢な安全技術(プロトコール)のパイプラインを開発し,評価する。
我々は、強力だが信頼できないモデル(GPT-4)へのアクセス、信頼性の低いモデル(GPT-3.5)へのアクセス、高品質な信頼性のある労働力を提供する人間請負業者のアクセス制限など、一連のプログラミング問題の解決を望むシナリオについて検討する。
バックドアを含むソリューションを決して提出しないプロトコルについて検討し、ここではテストケースで捕捉されない論理的エラーとして運用する。
我々は、様々なプロトコルを調査し、信頼できないモデルがそれらを抑止するために使用できる戦略に対してそれぞれをテストする。
1つのプロトコルはtrusted editingと呼ばれるものです。
このプロトコルはまず GPT-4 にコードを書き、次に GPT-3.5 にコードの不審さを評価するよう要求する。
コードが疑わしいしきい値以下であれば、それを提出する。
そうでなければ、GPT-3.5は、不審と思われる部分を削除するためにソリューションを編集し、その後、編集されたコードを提出する。
もう一つのプロトコルは信頼できない監視である。
このプロトコルは GPT-4 にコードを書き、次に GPT-4 の別のインスタンスにコードがバックドアされているかどうかを尋ねる。
これらのプロトコルは、単純なベースラインで大幅に改善される。 As large language models (LLMs) become more powerful and are deployed more autonomously, it will be increasingly important to prevent them from causing harmful outcomes. Researchers have investigated a variety of safety techniques for this purpose, e.g. using models to review the outputs of other models, or red-teaming techniques to surface subtle failure modes. However, researchers have not evaluated whether such techniques still ensure safety if the model is itself intentionally trying to subvert them. In this paper, we develop and evaluate pipelines of safety techniques ("protocols") that are robust to intentional subversion. We investigate a scenario in which we want to solve a sequence of programming problems, using access to a powerful but untrusted model (in our case, GPT-4), access to a less powerful trusted model (in our case, GPT-3.5), and limited access to human contractors who provide high-quality trusted labor. We investigate protocols that aim to never submit solutions containing backdoors, which we operationalize here as logical errors that are not caught by test cases. We investigate a range of protocols and test each against strategies that the untrusted model could use to subvert them. One protocol is what we call trusted editing. This protocol first asks GPT-4 to write code, and then asks GPT-3.5 to rate the suspiciousness of that code. If the code is below some suspiciousness threshold, it is submitted. Otherwise, GPT-3.5 edits the solution to remove parts that seem suspicious and then submits the edited code. Another protocol is untrusted monitoring. This protocol asks GPT-4 to write code, and then asks another instance of GPT-4 whether the code is backdoored, using various techniques to prevent the GPT-4 instances from colluding. These protocols improve substantially on simple baselines. | 翻訳日:2023-12-18 18:09:39 公開日:2023-12-14 |
# PBES:PCAによる連続学習のための模範サンプリングアルゴリズム PBES: PCA Based Exemplar Sampling Algorithm for Continual Learning ( http://arxiv.org/abs/2312.09352v1 ) ライセンス: Link先を確認 | Sahil Nokhwal and Nirman Kumar | (参考訳) 本稿では、主成分分析(PCA)と中央値サンプリングに基づく新しい模範選択手法と、クラス増分学習の設定におけるニューラルネットワークトレーニング方式を提案する。
このアプローチはデータの異常値による落とし穴を回避し、さまざまなインクリメンタルな機械学習モデルの実装と使用が容易である。
また、サンプリングアルゴリズムとして独立して用いられる。
我々は最先端の手法と比較して性能が向上する。 We propose a novel exemplar selection approach based on Principal Component Analysis (PCA) and median sampling, and a neural network training regime in the setting of class-incremental learning. This approach avoids the pitfalls due to outliers in the data and is both simple to implement and use across various incremental machine learning models. It also has independent usage as a sampling algorithm. We achieve better performance compared to state-of-the-art methods. | 翻訳日:2023-12-18 18:01:43 公開日:2023-12-14 |
# 誘電体ナノ構造と結合した多層原子の励起スペクトル Excitation spectrum of a multilevel atom coupled with a dielectric nanostructure ( http://arxiv.org/abs/2312.09346v1 ) ライセンス: Link先を確認 | N.A. Moroz, L.V. Gerasimov, A.D. Manukhova, D.V. Kupriyanov | (参考訳) 誘電体ナノ構造近傍に局在する単一電子原子の励起スペクトルの微視的計算法を開発した。
原子はもともと、その閉光遷移におけるゼーマン準位の任意の縮退構造を持ち、励起スペクトルが任意の形状のメソスコピックな小さな誘電体試料と放射結合によってどのように変化するかに従う。
誘電体媒体は、基準原子の遷移周波数付近で同じ誘電誘電率のv$型原子の密集したアンサンブルによってモデル化される。
我々の数値シミュレーションは、特定の構成の強い結合を予測し、単一の光子と原子のレベルで量子インターフェースと量子情報処理に期待できる選択肢を提案する。
特に、フォトニック結晶導波路を介して伝播する原子と光の間の強い共鳴相互作用は、数個の原子からなる小さな原子配列と信号光を結合するシナリオを現実的に正当化する。
可能性として、このようなシステムで期待される方向の1次元共鳴散乱は、量子レジスタに統合された遠方の原子を絡み合わせることで量子バスを提供することができる。 We develop a microscopic calculation scheme for the excitation spectrum of a single-electron atom localized near a dielectric nanostructure. The atom originally has an arbitrary degenerate structure of its Zeeman sublevels on its closed optical transition and we follow how the excitation spectrum would be modified by its radiative coupling with a mesoscopicaly small dielectric sample of arbitrary shape. The dielectric medium is modeled by a dense ensemble of $V$-type atoms having the same dielectric permittivity near the transition frequency of the reference atom. Our numerical simulations predict strong coupling for some specific configurations and then suggest promising options for quantum interface and quantum information processing at the level of single photons and atoms. In particular, the strong resonance interaction between atom(s) and light, propagating through a photonic crystal waveguide, justifies as realistic the scenario of a signal light coupling with a small atomic array consisting of a few atoms. As a potential implication, the directional one-dimensional resonance scattering, expected in such systems, could provide a quantum bus by entangling distant atoms integrated into a quantum register. | 翻訳日:2023-12-18 18:01:36 公開日:2023-12-14 |
# 光電検出のための待ち時間分布 Wait-time Distributions for Photoelectric Detection of Light ( http://arxiv.org/abs/2312.09339v1 ) ライセンス: Link先を確認 | Luis Felipe Morales Bultron, Reeta Vyas, and Surendra Singh | (参考訳) 静止光を照射した検出器におけるn$th光検出の時間分布について検討した。
任意の瞬間に開始される無条件測定と、光検出によって開始される条件測定の両方を考慮する。
単純な解析式は、いくつかの古典的および量子的な光源に対して提示され、それらによって生成された光子配列を定量化し比較するために使用される。
これらの分布は光子計数実験で測定することができ、所定の統計値で光子配列を特徴づけ、生成するのに有用である。
非ユニット検出効率の影響についても論じ、その挙動を説明するために曲線を示す。 Wait-time distributions for the $n$th photo-detection at a detector illuminated by a stationary light beam are studied. Both unconditional measurements, initiated at an arbitrary instant, and conditional measurements, initiated upon a photo-detection, are considered. Simple analytic expressions are presented for several classical and quantum sources of light and are used to quantify and compare photon sequences generated by them. These distributions can be measured in photon counting experiments and are useful in characterizing and generating photon sequences with prescribed statistics. Effects of non-unit detection efficiency are also discussed, and curves are presented to illustrate the behavior. | 翻訳日:2023-12-18 18:01:18 公開日:2023-12-14 |
# 迅速行動:人間の好みから多目的報酬をパーソナライズする Promptable Behaviors: Personalizing Multi-Objective Rewards from Human Preferences ( http://arxiv.org/abs/2312.09337v1 ) ライセンス: Link先を確認 | Minyoung Hwang, Luca Weihs, Chanwoo Park, Kimin Lee, Aniruddha Kembhavi, Kiana Ehsani | (参考訳) 多様な人間の好みに合わせてロボットの行動をカスタマイズすることは、具体化aiの分野において未熟な課題である。
本稿では,複雑な環境において,ロボットエージェントの効率的なパーソナライゼーションを促進する新しい枠組みであるprompable behaviorsを提案する。
我々は多目的強化学習を用いて、幅広い嗜好に適応可能な単一のポリシーを訓練する。
提案手法は,(1)人間実験,(2)軌道比較に対する選好フィードバック,(3)言語指示の3種類のインタラクションを用いて,人間の嗜好を推定する手法を提案する。
ProcTHOR と RoboTHOR のナビゲーションタスクのパーソナライズ化において提案手法を評価し,様々なシナリオにおいて人的嗜好を満たすためにエージェントの行動を促す能力を示す。
プロジェクトページ: https://promptable-behaviors.github.io Customizing robotic behaviors to be aligned with diverse human preferences is an underexplored challenge in the field of embodied AI. In this paper, we present Promptable Behaviors, a novel framework that facilitates efficient personalization of robotic agents to diverse human preferences in complex environments. We use multi-objective reinforcement learning to train a single policy adaptable to a broad spectrum of preferences. We introduce three distinct methods to infer human preferences by leveraging different types of interactions: (1) human demonstrations, (2) preference feedback on trajectory comparisons, and (3) language instructions. We evaluate the proposed method in personalized object-goal navigation and flee navigation tasks in ProcTHOR and RoboTHOR, demonstrating the ability to prompt agent behaviors to satisfy human preferences in various scenarios. Project page: https://promptable-behaviors.github.io | 翻訳日:2023-12-18 18:01:09 公開日:2023-12-14 |
# ArchiGuesser - AIアートアーキテクチャ教育ゲーム ArchiGuesser -- AI Art Architecture Educational Game ( http://arxiv.org/abs/2312.09334v1 ) ライセンス: Link先を確認 | Joern Ploennigs and Markus Berger and Eva Carnein | (参考訳) 教育における生成AIの利用は議論の余地のあるトピックである。
現在の技術は、簡単な入力プロンプトに基づいて、テキスト、音声、画像から教育コンテンツを作成することができる。
これにより、知識を要約し、コミュニケーションを改善し、異なるタイプの学習者に迅速に適応することで生産性を向上させることができる。
さらに、生成aiは、ユーザの入力に応答し、高品質のクリエイティブ素材を動的に生成することで、学習自体をより楽しくするという約束を守ります。
本稿では,大規模言語モデルから画像生成,コンピュータビジョンに至るまで,さまざまなAI技術を組み合わせた多感覚学習ゲームArchiGuesserについて述べる。 The use of generative AI in education is a controversial topic. Current technology offers the potential to create educational content from text, speech, to images based on simple input prompts. This can enhance productivity by summarizing knowledge and improving communication, quickly adjusting to different types of learners. Moreover, generative AI holds the promise of making the learning itself more fun, by responding to user inputs and dynamically generating high-quality creative material. In this paper we present the multisensory educational game ArchiGuesser that combines various AI technologies from large language models, image generation, to computer vision to serve a single purpose: Teaching students in a playful way the diversity of our architectural history and how generative AI works. | 翻訳日:2023-12-18 18:00:53 公開日:2023-12-14 |
# コンテキストバンディットに対する階層的最近傍アプローチ A Hierarchical Nearest Neighbour Approach to Contextual Bandits ( http://arxiv.org/abs/2312.09332v1 ) ライセンス: Link先を確認 | Stephen Pasteris, Chris Hicks, Vasilios Mavroudis | (参考訳) 本稿では,距離空間における逆文脈バンディット問題を考える。
本稿は,「盗賊のフィードバックを伴う最初期の隣人」がこの問題に対処するが,コンパレータ政策の決定境界付近で多くの状況が生じると,大きな後悔に悩まされる。
本稿では,後悔の項を計算する際に,任意の文脈を保持できるアルゴリズムを設計することにより,この問題を根絶する。
このアルゴリズムは"ニーアレスト近傍のバンディットフィードバック"に基づいており,計算効率の極端さを継承している。 In this paper we consider the adversarial contextual bandit problem in metric spaces. The paper "Nearest neighbour with bandit feedback" tackled this problem but when there are many contexts near the decision boundary of the comparator policy it suffers from a high regret. In this paper we eradicate this problem, designing an algorithm in which we can hold out any set of contexts when computing our regret term. Our algorithm builds on that of "Nearest neighbour with bandit feedback" and hence inherits its extreme computational efficiency. | 翻訳日:2023-12-18 18:00:40 公開日:2023-12-14 |
# ロドリゲスの公式の作用素形式を用いて微分方程式のない波動関数を計算する Employing an operator form of the Rodrigues formula to calculate wavefunctions without differential equations ( http://arxiv.org/abs/2312.09327v1 ) ライセンス: Link先を確認 | Joseph R. Noonan, Maaz ur Rehman Shah, Luogen Xu, and James. K. Freericks | (参考訳) シュロディンガーの因子分解法は、位置や運動量空間の波動関数を決定することなくエネルギー固有状態を決定する方法を示す。
エネルギー固有状態を波動関数に変換する戦略は、位置や運動量空間におけるエルミート多項式のロドリゲス公式を用いて一次元単純調和振動子としてよく知られている。
本研究では,この手法を表現に依存しない方法で一般化し,因子分解法によって解くことができる量子力学における他の問題の波動関数を求める方法を示す。
3つの問題を詳しく調べます
(i)1次元単純調和振動子
(ii)3次元等方性高調波発振器、及び
(iii)三次元クーロン問題。
このアプローチは、量子力学の大学院クラスまたは大学院クラスで使用できる。 The factorization method of Schrodinger shows us how to determine the energy eigenstates without needing to determine the wavefunctions in position or momentum space. A strategy to convert the energy eigenstates to wavefunctions is well known for the one-dimensional simple harmonic oscillator by employing the Rodrigues formula for the Hermite polynomials in position or momentum space. In this work, we illustrate how to generalize this approach in a representation-independent fashion to find the wavefunctions of other problems in quantum mechanics that can be solved by the factorization method. We examine three problems in detail: (i) the one-dimensional simple harmonic oscillator; (ii) the three-dimensional isotropic harmonic oscillator; and (iii) the three-dimensional Coulomb problem. This approach can be used in either undergraduate or graduate classes in quantum mechanics. | 翻訳日:2023-12-18 18:00:27 公開日:2023-12-14 |
# 分布型潜在変数モデルと能動認知テストへの応用 Distributional Latent Variable Models with an Application in Active Cognitive Testing ( http://arxiv.org/abs/2312.09316v1 ) ライセンス: Link先を確認 | Robert Kasumba, Dom CP Marticorena, Anja Pahor, Geetha Ramani, Imani Goffney, Susanne M Jaeggi, Aaron Seitz, Jacob R Gardner, Dennis L Barbour | (参考訳) 認知モデリングは一般的に、注意力や作業記憶、その他の潜伏変数を推定するために、様々なテストのバッテリーを完了するよう参加者に求めることに依存する。
多くの場合、これらのテストは高度に変動する観測モデルをもたらす。
ほぼユビキタスなアプローチは、各被験者に与えられた各テストの結果にまたがる分布をもたらす、各テストに対する多くの観察を繰り返すことである。
本稿では,複数の相関変数を同時に学習するための潜在変数モデリングの利用について検討する。
各被験者の観測データが再構成される単純なベクトルではなく、多くの異なる分布からの一連の観測であるような設定に潜時変数モデル(LVM)を拡張します。
集団間で共同でトレーニングされた潜在空間に個人のテストバッテリ結果を埋め込むことで,1人の参加者に対するテストと複数の参加者間の相関を活用できる。
次に、このモデルを利用してより効率的な認知テストバッテリを動作させる能動的学習フレームワークを提案する。
テスト項目の少ない項目レベルの予測を行う上で,従来の手法と同等に動作することを示すことによって,我々のアプローチを検証する。 Cognitive modeling commonly relies on asking participants to complete a battery of varied tests in order to estimate attention, working memory, and other latent variables. In many cases, these tests result in highly variable observation models. A near-ubiquitous approach is to repeat many observations for each test, resulting in a distribution over the outcomes from each test given to each subject. In this paper, we explore the usage of latent variable modeling to enable learning across many correlated variables simultaneously. We extend latent variable models (LVMs) to the setting where observed data for each subject are a series of observations from many different distributions, rather than simple vectors to be reconstructed. By embedding test battery results for individuals in a latent space that is trained jointly across a population, we are able to leverage correlations both between tests for a single participant and between multiple participants. We then propose an active learning framework that leverages this model to conduct more efficient cognitive test batteries. We validate our approach by demonstrating with real-time data acquisition that it performs comparably to conventional methods in making item-level predictions with fewer test items. | 翻訳日:2023-12-18 18:00:15 公開日:2023-12-14 |
# LatentEditor: 3Dシーンのテキスト駆動ローカル編集 LatentEditor: Text Driven Local Editing of 3D Scenes ( http://arxiv.org/abs/2312.09313v1 ) ライセンス: Link先を確認 | Umar Khalid, Hasan Iqbal, Nazmul Karim, Jing Hua, Chen Chen | (参考訳) ニューラルネットワークは、画像合成とシーン再構成において大きな進歩を遂げてきたが、それらを編集することは、多視点入力から幾何やテクスチャ情報を暗黙的にエンコードするため、非常に難しい課題となる。
本稿では,テキストプロンプトを用いたニューラルネットワークの精密かつ局所的な編集をユーザに提供する,革新的なフレームワークである‘textsc{LatentEditor} を紹介する。
拡散モデルを活用することで、現実のシーンを潜在空間に埋め込むことで、従来の方法に比べて高速で適応性の高いNeRFバックボーンが得られる。
編集精度を向上させるため,非関連領域を保存しながら局所修正のためのガイドとして機能する潜伏空間の2次元マスクを計算するデルタスコアを導入する。
InstructPix2Pix (IP2P) のパワーを利用して, 遅延空間におけるIP2P条件と非条件雑音の差を識別する。
2Dマスクに調整された被写体は、トレーニングセットで反復的に更新され、3Dローカル編集が達成される。
提案手法は,既存の3D編集モデルに比べて高速な編集速度と出力品質を実現し,テキスト命令と高品質な3Dシーン編集とのギャップを埋める。
LLFF,IN2N,NeRFStudio,NeRF-Artの4つのベンチマーク3Dデータセットに対するアプローチの優位性を示す。 While neural fields have made significant strides in view synthesis and scene reconstruction, editing them poses a formidable challenge due to their implicit encoding of geometry and texture information from multi-view inputs. In this paper, we introduce \textsc{LatentEditor}, an innovative framework designed to empower users with the ability to perform precise and locally controlled editing of neural fields using text prompts. Leveraging denoising diffusion models, we successfully embed real-world scenes into the latent space, resulting in a faster and more adaptable NeRF backbone for editing compared to traditional methods. To enhance editing precision, we introduce a delta score to calculate the 2D mask in the latent space that serves as a guide for local modifications while preserving irrelevant regions. Our novel pixel-level scoring approach harnesses the power of InstructPix2Pix (IP2P) to discern the disparity between IP2P conditional and unconditional noise predictions in the latent space. The edited latents conditioned on the 2D masks are then iteratively updated in the training set to achieve 3D local editing. Our approach achieves faster editing speeds and superior output quality compared to existing 3D editing models, bridging the gap between textual instructions and high-quality 3D scene editing in latent space. We show the superiority of our approach on four benchmark 3D datasets, LLFF, IN2N, NeRFStudio and NeRF-Art. | 翻訳日:2023-12-18 17:59:54 公開日:2023-12-14 |
# 契約書 どこの美術品だ?
SharePoint Oddityとしてのコントラクト管理 O Contract, Where Art Thou? Contract Management as a SharePoint Oddity ( http://arxiv.org/abs/2312.09312v1 ) ライセンス: Link先を確認 | Sasha Vtyurina, Adam Roegiest | (参考訳) 多くの合法的な運用チームにとって、彼らの組織が交渉中や実行済みの契約や合意の管理は、包括的で時間のかかる作業である。
この結果、契約ライフサイクル管理(CLM)のための特別なツールが、この10年で需要が着実に増加しています。
このようなツールへの移行は、それ自体は厳しいコストのかかるプロセスであり、そのため、既存のストレージソリューションを補強する論理的なステップである。
本稿では,Microsoft SharePoint を契約管理に利用する際の裁判と混乱について,26件の半構造化インタビューの分析を行った。
約束はあるが、成功するために必要となるものの多くは、それを実施するために権限を持つ人たちに簡単に手に入ることよりも、もっと技術的な技術を必要としている。 For many legal operations teams, the management of the contracts and agreements that their organization are negotiating or have been executed is an encompassing and time-consuming task. This has resulted in specialized tools for Contract Lifecycle Management (CLM) have grown steadily in demand over the last decade. Transitioning to such tools can itself be an arduous and costly process and so a logical step would be to augment existing storage solutions. In this paper, we present the analysis of 26 semi-structured interviews with legal operations professionals about their trials and tribulations with using Microsoft SharePoint for contract management. We find that while there is promise, too much of what is needed to be successful requires more technical prowess than might be easily available to those empowered to put it in place. | 翻訳日:2023-12-18 17:59:28 公開日:2023-12-14 |
# 神経時間反転一般化リッカティ方程式 Neural Time-Reversed Generalized Riccati Equation ( http://arxiv.org/abs/2312.09310v1 ) ライセンス: Link先を確認 | Alessandro Betti, Michele Casoni, Marco Gori, Simone Marullo, Stefano Melacci, Matteo Tiezzi | (参考訳) 最適制御は、変数が力学系を操縦する最適化問題に対処し、その結果が目的関数に寄与する。
これらの問題を解決するための古典的なアプローチは、動的プログラミングとポントリャーギン最大原理である。
両方のアプローチにおいて、ハミルトン方程式は、コストテートとして知られる補助変数を通して最適性の解釈を提供する。
しかし、ハミルトン方程式は時間領域全体にわたる前向きアルゴリズムに依存しているため、ほとんど使われない。
本稿では,前向きに作業することを目的とした,新しいニューラルベースによる最適制御手法を提案する。
ニューラルネットワークは状態力学の実装だけでなく、コスト変数の推定にも使われる。
後者のネットワークのパラメータは、時間反転一般化されたRiccati方程式と呼ばれる新しい局所ポリシーを用いて各時間ステップで決定される。
この方針は、状態ダイナミクスを安定化させる線形二次問題(lq)で議論された結果に触発されている。
我々は, 最適制御ケーススタディからの実験結果について考察することで, この予想を支持する。 Optimal control deals with optimization problems in which variables steer a dynamical system, and its outcome contributes to the objective function. Two classical approaches to solving these problems are Dynamic Programming and the Pontryagin Maximum Principle. In both approaches, Hamiltonian equations offer an interpretation of optimality through auxiliary variables known as costates. However, Hamiltonian equations are rarely used due to their reliance on forward-backward algorithms across the entire temporal domain. This paper introduces a novel neural-based approach to optimal control, with the aim of working forward-in-time. Neural networks are employed not only for implementing state dynamics but also for estimating costate variables. The parameters of the latter network are determined at each time step using a newly introduced local policy referred to as the time-reversed generalized Riccati equation. This policy is inspired by a result discussed in the Linear Quadratic (LQ) problem, which we conjecture stabilizes state dynamics. We support this conjecture by discussing experimental results from a range of optimal control case studies. | 翻訳日:2023-12-18 17:59:18 公開日:2023-12-14 |
# 高品質3d生成のための安定スコア蒸留 Stable Score Distillation for High-Quality 3D Generation ( http://arxiv.org/abs/2312.09305v1 ) ライセンス: Link先を確認 | Boshi Tang, Jianan Wang, Zhiyong Wu, Lei Zhang | (参考訳) SDS(Score Distillation Sampling)は条件付き3Dコンテンツ生成において顕著な性能を示した。
しかし、SDSの定式化に関する包括的な理解はいまだに欠如しており、3D世代の発展を妨げる。
本稿では,モード展開,モード探索,分散還元という3つの機能成分の組み合わせとしてSDSを解釈し,それぞれの特性を解析する。
本研究は,SDSが導入した分散緩和項が準最適であることを示すとともに,過度なスムーズ性や彩度といった課題が,監督用語の内在的欠如に起因することを示した。
さらに,大規模分類自由誘導(CFG)尺度を3次元世代に導入することにも光を当てた。
本研究では,高品質な3d生成のための各用語を戦略的に編成する,安定スコア蒸留(ssd)という簡便で効果的な手法を提案する。
比較的難易度の高い低CFG条件下においても, 過密度や過飽和度といった問題に対処することなく, 高忠実度3Dコンテンツを生成できることを実証し, 提案手法の有効性を検証した。 Score Distillation Sampling (SDS) has exhibited remarkable performance in conditional 3D content generation. However, a comprehensive understanding of the SDS formulation is still lacking, hindering the development of 3D generation. In this work, we present an interpretation of SDS as a combination of three functional components: mode-disengaging, mode-seeking and variance-reducing terms, and analyze the properties of each. We show that problems such as over-smoothness and color-saturation result from the intrinsic deficiency of the supervision terms and reveal that the variance-reducing term introduced by SDS is sub-optimal. Additionally, we shed light on the adoption of large Classifier-Free Guidance (CFG) scale for 3D generation. Based on the analysis, we propose a simple yet effective approach named Stable Score Distillation (SSD) which strategically orchestrates each term for high-quality 3D generation. Extensive experiments validate the efficacy of our approach, demonstrating its ability to generate high-fidelity 3D content without succumbing to issues such as over-smoothness and over-saturation, even under low CFG conditions with the most challenging NeRF representation. | 翻訳日:2023-12-18 17:59:04 公開日:2023-12-14 |
# ラベル数の多い多ラベルテキスト分類における信頼度の評価 Well-calibrated Confidence Measures for Multi-label Text Classification with a Large Number of Labels ( http://arxiv.org/abs/2312.09304v1 ) ライセンス: Link先を確認 | Lysimachos Maltoudoglou, Andreas Paisios, Ladislav Lenc, Ji\v{r}\'i Mart\'inek, Pavel Kr\'al, Harris Papadopoulos | (参考訳) 複数ラベルテキスト分類のためのインダクティブ・コンフォーマル・予測(ICP)に関するこれまでの研究を拡張し、多数のユニークなラベルを扱う場合のラベル・パワーセット(LP)ICPの計算非効率性に対処するための新しいアプローチを提案する。
2つの英語と1つのチェコ語データセットに対して、原語と提案した効率的なLP-ICPを用いた実験結果を示す。
具体的には、LP-ICPを3つの深層ニューラルネットワーク(ANN)分類器に適用し、文脈的(bert)に基づくものと文脈的(word2vec)な単語埋め込みに基づくものである。
LP-ICP設定では、対応するp値と予測セットが決定されるラベルセットに非整合スコアを割り当てる。
提案手法は, p-値が指定された値以下のラベルセットのかなりの数を考慮することにより, LPの計算負担の増大に対処する。
これにより、標準CP保証を完全に尊重しながら、アプローチの計算複雑性が劇的に減少する。
実験の結果,コンテキスト化型分類器は非コンテキスト化型を上回っており,すべてのデータセットに対して最先端の性能が得られることがわかった。
基礎となる分類器の優れた性能は、ICPの精度を損なうことなく、ICPの利点、すなわち予測セットにカプセル化された信頼情報によって達成される。
可能なラベルセットの集合は1e+16$以上の組合せを含むにもかかわらず、結果として得られる予測セットが実用的に有用であることを示す。
さらに、得られた予測セットの経験的誤差率は、出力が適切に調整されていることを確認する。 We extend our previous work on Inductive Conformal Prediction (ICP) for multi-label text classification and present a novel approach for addressing the computational inefficiency of the Label Powerset (LP) ICP, arrising when dealing with a high number of unique labels. We present experimental results using the original and the proposed efficient LP-ICP on two English and one Czech language data-sets. Specifically, we apply the LP-ICP on three deep Artificial Neural Network (ANN) classifiers of two types: one based on contextualised (bert) and two on non-contextualised (word2vec) word-embeddings. In the LP-ICP setting we assign nonconformity scores to label-sets from which the corresponding p-values and prediction-sets are determined. Our approach deals with the increased computational burden of LP by eliminating from consideration a significant number of label-sets that will surely have p-values below the specified significance level. This reduces dramatically the computational complexity of the approach while fully respecting the standard CP guarantees. Our experimental results show that the contextualised-based classifier surpasses the non-contextualised-based ones and obtains state-of-the-art performance for all data-sets examined. The good performance of the underlying classifiers is carried on to their ICP counterparts without any significant accuracy loss, but with the added benefits of ICP, i.e. the confidence information encapsulated in the prediction sets. We experimentally demonstrate that the resulting prediction sets can be tight enough to be practically useful even though the set of all possible label-sets contains more than $1e+16$ combinations. Additionally, the empirical error rates of the obtained prediction-sets confirm that our outputs are well-calibrated. | 翻訳日:2023-12-18 17:58:43 公開日:2023-12-14 |
# 大規模言語モデルにおける自己評価による選択生成の改善 Self-Evaluation Improves Selective Generation in Large Language Models ( http://arxiv.org/abs/2312.09300v1 ) ライセンス: Link先を確認 | Jie Ren, Yao Zhao, Tu Vu, Peter J. Liu, Balaji Lakshminarayanan | (参考訳) 大きな言語モデル(LLM)の安全なデプロイは、生成されたコンテンツを評価する信頼性の高い方法の恩恵を受けることができる。
パープレキシティなどの可能性ベースの指標は広く採用されているが、近年の研究では、LLMが生成品質の信頼性指標として与えるシーケンスレベルの確率推定の限界が示されている。
逆に、LLMはトークンレベルで強力なキャリブレーションを示しており、特に複数の質問で正しい答えを選択する場合や、真/偽の文を評価する場合である。
本研究では,オープンエンド生成タスクをトークンレベルの予測タスクに再構成し,トークンレベルでのLCMの優れたキャリブレーションを活用する。
我々は、llmに、モデルの不確実性を明示的に表現するための ``none of the above''' オプションを含むオプションで、多方向比較またはポイントワイズ評価のアプローチを用いて、その答えを自己評価するように指示する。
本稿では,自己評価に基づく評価手法をベンチマークし,TrathfulQA と TL;DR を用いて選択生成の性能評価を行う。
PaLM-2 と GPT-3 を用いた実験により,自己評価に基づくスコアは精度を向上するだけでなく,生成したコンテンツの全体的な品質と相関することを示した。 Safe deployment of large language models (LLMs) may benefit from a reliable method for assessing their generated content to determine when to abstain or to selectively generate. While likelihood-based metrics such as perplexity are widely employed, recent research has demonstrated the limitations of using sequence-level probability estimates given by LLMs as reliable indicators of generation quality. Conversely, LLMs have demonstrated strong calibration at the token level, particularly when it comes to choosing correct answers in multiple-choice questions or evaluating true/false statements. In this work, we reformulate open-ended generation tasks into token-level prediction tasks, and leverage LLMs' superior calibration at the token level. We instruct an LLM to self-evaluate its answers, employing either a multi-way comparison or a point-wise evaluation approach, with the option to include a ``None of the above'' option to express the model's uncertainty explicitly. We benchmark a range of scoring methods based on self-evaluation and evaluate their performance in selective generation using TruthfulQA and TL;DR. Through experiments with PaLM-2 and GPT-3, we demonstrate that self-evaluation based scores not only improve accuracy, but also correlate better with the overall quality of generated content. | 翻訳日:2023-12-18 17:58:13 公開日:2023-12-14 |
# 重量サブクローニング:大型予行変圧器を用いた変圧器の直接初期化 Weight subcloning: direct initialization of transformers using larger pretrained ones ( http://arxiv.org/abs/2312.09299v1 ) ライセンス: Link先を確認 | Mohammad Samragh, Mehrdad Farajtabar, Sachin Mehta, Raviteja Vemulapalli, Fartash Faghri, Devang Naik, Oncel Tuzel, Mohammad Rastegari | (参考訳) ターゲットタスクのためにスクラッチから大きなトランスフォーマーモデルをトレーニングするには、大量のデータが必要であり、計算的に要求される。
トランスファーラーニングの通常の実践は、同じサイズの事前訓練モデルと仕様の重み付けでモデルを初期化し、収束とトレーニング速度を高めることで、この課題を克服する。
しかし、必要サイズの事前学習されたモデルがない場合はどうだろう?
本稿では,事前学習モデルの知識をより小さな変種に伝達する,単純かつ効果的な手法を提案する。
重みサブクローニング(weight subcloning)と呼ばれるアプローチは、より大型の事前訓練モデルから重みを初期化することで、スケールダウントランスフォーマーのトレーニングを迅速化する。
ウェイトサブクローニングは、事前訓練されたモデルで等価な初期化スケールダウンモデルを得るための操作を含む。
まず,ニューロンの重要度ランキングを導入し,事前学習したモデルにおける層毎の埋め込み次元を減少させる。
そして、スケールダウンネットワークの層数に一致するように、トランスモデルからブロックを除去する。
その結果、トレーニングの準備が整ったネットワークとなり、ランダム初期化に比べてトレーニング速度が大幅に向上する。
例えば、画像分類および次のトークン予測用に設計された言語モデルにおいて、視覚トランスフォーマーのトレーニングを4倍高速化する。 Training large transformer models from scratch for a target task requires lots of data and is computationally demanding. The usual practice of transfer learning overcomes this challenge by initializing the model with weights of a pretrained model of the same size and specification to increase the convergence and training speed. However, what if no pretrained model of the required size is available? In this paper, we introduce a simple yet effective technique to transfer the knowledge of a pretrained model to smaller variants. Our approach called weight subcloning expedites the training of scaled-down transformers by initializing their weights from larger pretrained models. Weight subcloning involves an operation on the pretrained model to obtain the equivalent initialized scaled-down model. It consists of two key steps: first, we introduce neuron importance ranking to decrease the embedding dimension per layer in the pretrained model. Then, we remove blocks from the transformer model to match the number of layers in the scaled-down network. The result is a network ready to undergo training, which gains significant improvements in training speed compared to random initialization. For instance, we achieve 4x faster training for vision transformers in image classification and language models designed for next token prediction. | 翻訳日:2023-12-18 17:57:50 公開日:2023-12-14 |
# Weak-to-Strong Generalization:Weak Supervisionによる強力な能力の排除 Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak Supervision ( http://arxiv.org/abs/2312.09390v1 ) ライセンス: Link先を確認 | Collin Burns, Pavel Izmailov, Jan Hendrik Kirchner, Bowen Baker, Leo Gao, Leopold Aschenbrenner, Yining Chen, Adrien Ecoffet, Manas Joglekar, Jan Leike, Ilya Sutskever, Jeff Wu | (参考訳) 人間のフィードバックからの強化学習(rlhf)のようなアライメント手法は、モデル行動を監視する人間の能力に依存しており、例えば、モデルが忠実に命令に従うか、安全な出力を生成するかを評価する。
しかし、未来のスーパーヒューマンモデルは、人間が確実に評価することが難しい複雑な方法で振る舞う。
弱いモデルの監督は、より強力なモデルの完全な能力を引き出すことができるか?
我々は、自然言語処理(NLP)、チェス、報酬モデリングタスクにおいて、GPT-4ファミリーで事前訓練された言語モデルを用いてこれをテストする。
我々は,弱いモデルによって生成されたラベルに対して,強い事前学習されたモデルを自然に微調整すると,弱いスーパーバイザよりも一貫してパフォーマンスが向上することを見出した。
しかし、我々は、単純な微調整だけで強力なモデルの完全な能力を取り戻すには程遠いので、RLHFのような技術は、それ以上の作業を行わずに超人的なモデルに不十分にスケールできることを示唆している。
例えば、GPT-2レベルのスーパーバイザと補助的な信頼損失でGPT-4を微調整すると、NLPタスクにおけるGPT-3.5レベルのパフォーマンスを回復できる。
この結果から,現在,超人的モデルの整合性に関する基本的な課題について,実証的な進展が可能であることが示唆された。 Widely used alignment techniques, such as reinforcement learning from human feedback (RLHF), rely on the ability of humans to supervise model behavior - for example, to evaluate whether a model faithfully followed instructions or generated safe outputs. However, future superhuman models will behave in complex ways too difficult for humans to reliably evaluate; humans will only be able to weakly supervise superhuman models. We study an analogy to this problem: can weak model supervision elicit the full capabilities of a much stronger model? We test this using a range of pretrained language models in the GPT-4 family on natural language processing (NLP), chess, and reward modeling tasks. We find that when we naively finetune strong pretrained models on labels generated by a weak model, they consistently perform better than their weak supervisors, a phenomenon we call weak-to-strong generalization. However, we are still far from recovering the full capabilities of strong models with naive finetuning alone, suggesting that techniques like RLHF may scale poorly to superhuman models without further work. We find that simple methods can often significantly improve weak-to-strong generalization: for example, when finetuning GPT-4 with a GPT-2-level supervisor and an auxiliary confidence loss, we can recover close to GPT-3.5-level performance on NLP tasks. Our results suggest that it is feasible to make empirical progress today on a fundamental challenge of aligning superhuman models. | 翻訳日:2023-12-18 17:52:26 公開日:2023-12-14 |
# グルーバーのアルゴリズムにおける新しい量子カウンタを用いた支配集合問題の解法 Utilizing Novel Quantum Counters for Grover's Algorithm to Solve the Dominating Set Problem ( http://arxiv.org/abs/2312.09388v1 ) ライセンス: Link先を確認 | Jehn-Ruey Jiang and Qiao-Yi Lin | (参考訳) グロバーのアルゴリズムは、量子コンピュータ上で動作するよく知られた非構造量子探索アルゴリズムである。
これはoracleを構成し、n個の未ソートデータから特定のデータを見つけるためにoracle o($\sqrt n$) を呼び出します。
これは、oracle o(n) を呼び出しなければならない従来の非構造化データシーケンシャル検索アルゴリズムと比較して、2倍のスピードアップを示している。
現在我々は、量子コンピュータが限られたキュービット数、短いデコヒーレンス時間、低いゲート忠実度を持つノイズの多い中間スケール量子(NISQ)時代にいる。
したがって、3つの良い性質を持つ量子成分を設計することが望ましい。
(i)少人数のキュービット。
(ii)より短い量子深度、そして
(iii)少ないゲート。
本稿では,上述の3つの良い性質を持つ新しい量子カウンタを用いてグロバーのアルゴリズムのオラクルを構築し,支配集合問題(dsp)を効率的に解く。
与えられたグラフ G=(V, E) に対して、支配集合(DS) D は頂点集合 V の部分集合であり、すべての頂点が D 内にあるか、あるいは D 内に隣接する頂点を持つ。
DSPを解くアルゴリズムには多くの応用がある。
例えば、kルータがコンピュータネットワーク内のすべてのコンピュータを接続するのに十分かどうかをチェックできる。
DSPはNP完全問題であり、最悪の場合、DSPを多項式時間で解くために古典的なアルゴリズムは存在しないことを示す。
したがって、Groverのアルゴリズムのような量子アルゴリズムを用いて量子コンピュータの強力な計算能力を利用してDSPを解くことは、非常に有望である。
我々はIBM Quantum Labサービスを通じてGroverのアルゴリズムの量子回路全体を新しい量子カウンタを用いて実行し、回路がDSPを効率的に正しく解けることを検証する。 Grover's algorithm is a well-known unstructured quantum search algorithm run on quantum computers. It constructs an oracle and calls the oracle O($\sqrt N$) times to locate specific data out of N unsorted data. This represents a quadratic speedup compared to the classical unstructured data sequential search algorithm, which requires to call the oracle O(N) times. We are currently in the noisy intermediate-scale quantum (NISQ) era in which quantum computers have a limited number of qubits, short decoherence time, and low gate fidelity. It is thus desirable to design quantum components with three good properties: (i) a reduced number of qubits, (ii) shorter quantum depth, and (iii) fewer gates. This paper utilizes novel quantum counters with the above-mentioned three good properties to construct the oracle of Grover's algorithm to efficiently solve the dominating set problem (DSP), as defined below. For a given graph G=(V, E), a dominating set (DS) D is a subset of the vertex set V, such that every vertex is in D or has an adjacent vertex in D. The DSP is to decide for a given graph G and an integer k whether there exists a DS with size k. Algorithms solving the DSP have many applications. For example, they can be applied to check whether k routers suffice to connect all computers in a computer network. The DSP is an NP-complete problem, indicating that no classical algorithm exists to solve the DSP with polynomial time complexity in the worst case. Therefore, using quantum algorithms, such as Grover's algorithm, to exploit the potent computational capabilities of quantum computers to solve the DSP is highly promising. We execute the whole quantum circuit of Grover's algorithm using novel quantum counters through the IBM Quantum Lab service to validate that the circuit can solve the DSP efficiently and correctly. | 翻訳日:2023-12-18 17:51:31 公開日:2023-12-14 |
# 3次元CINE MRIと教師なしニューラルネットワークによる左心房変位・ひずみの高分解能マップ High-Resolution Maps of Left Atrial Displacements and Strains Estimated with 3D CINE MRI and Unsupervised Neural Networks ( http://arxiv.org/abs/2312.09387v1 ) ライセンス: Link先を確認 | Christoforos Galazis, Samuel Shepperd, Emma Brouwer, Sandro Queir\'os, Ebraham Alskaf, Mustafa Anjari, Amedeo Chiribiri, Jack Lee, Anil A. Bharath, Marta Varela | (参考訳) 左心房(la)の機能解析は心の健康評価や心房細動などの疾患の理解に重要である。
Cine MRIは、LA運動と変形の詳細な3D特徴付けに理想的であるが、適切な取得と解析ツールが欠如している。
本稿では,高分解能3DシネMRIから局所的なLA変形を自動的かつ確実に特徴付けるために,超越型ニューラルネットワークであるtextit{Aladdin} を用いて左心房変位と変形の解析を行う。
このツールには、オンラインのマイナショットセグメンテーションネットワーク(aladdin-s)、オンラインの教師なし画像登録ネットワーク(aladdin-r)、laに合わせた歪計算パイプラインが含まれる。
健常者10名と心血管疾患(CVD)8名の画像から, LA変位ベクトル場(DVF)の大きさとLA主要ひずみ値の地図を作成する。
さらに、健康なボランティアのデータを用いて、これらのバイオマーカーのアトラスを作成する。
アラジンは、心臓周期を横切るla壁を正確に追跡し、その運動と変形を特徴付けることができる。
CVD患者に対するDVFの規模は、それぞれ2.85 pm 1.59~mm$と0.09 pm 0.05$対1.96 pm 0.74~mm$と0.03 pm 0.04$である。
これらの測定値の時間経過も2つのグループで異なり、健康なコホートではより活発な収縮相が観察される。
最後にla atlasを利用することで、局所組織異常を示す可能性のある集団分布からの地域的偏差を識別できる。
提案するla変形バイオマーカーの定量化ツールは, 重要な臨床応用が期待できる。
ソースコード、匿名化画像、生成されたマップ、atlasは、https://github.com/cgalaz01/aladdin_cmr_la。 The functional analysis of the left atrium (LA) is important for evaluating cardiac health and understanding diseases like atrial fibrillation. Cine MRI is ideally placed for the detailed 3D characterisation of LA motion and deformation, but it is lacking appropriate acquisition and analysis tools. In this paper, we present Analysis for Left Atrial Displacements and Deformations using unsupervIsed neural Networks, \textit{Aladdin}, to automatically and reliably characterise regional LA deformations from high-resolution 3D Cine MRI. The tool includes: an online few-shot segmentation network (Aladdin-S), an online unsupervised image registration network (Aladdin-R), and a strain calculations pipeline tailored to the LA. We create maps of LA Displacement Vector Field (DVF) magnitude and LA principal strain values from images of 10 healthy volunteers and 8 patients with cardiovascular disease (CVD). We additionally create an atlas of these biomarkers using the data from the healthy volunteers. Aladdin is able to accurately track the LA wall across the cardiac cycle and characterize its motion and deformation. The overall DVF magnitude and principal strain values are significantly higher in the healthy group vs CVD patients: $2.85 \pm 1.59~mm$ and $0.09 \pm 0.05$ vs $1.96 \pm 0.74~mm$ and $0.03 \pm 0.04$, respectively. The time course of these metrics is also different in the two groups, with a more marked active contraction phase observed in the healthy cohort. Finally, utilizing the LA atlas allows us to identify regional deviations from the population distribution that may indicate focal tissue abnormalities. The proposed tool for the quantification of novel regional LA deformation biomarkers should have important clinical applications. The source code, anonymized images, generated maps and atlas are publicly available: https://github.com/cgalaz01/aladdin_cmr_la. | 翻訳日:2023-12-18 17:50:20 公開日:2023-12-14 |
# エピデミック・スプレッドのモデル化と予測:ガウス的プロセス回帰アプローチ Modeling and Predicting Epidemic Spread: A Gaussian Process Regression Approach ( http://arxiv.org/abs/2312.09384v1 ) ライセンス: Link先を確認 | Baike She, Lei Xin, Philip E. Par\'e, Matthew Hale | (参考訳) 流行拡大のモデル化と予測は、緩和のための政策立案を支援するために不可欠である。
そこで本研究では,流行をモデル化し予測するためのガウス過程回帰に基づく新しい手法を提案し,分散と高い確率誤差境界を通じて予測信頼度を定量化する。
Gaussian Process Regressionは、小さなデータセットを使用し、不確実なバウンダリを提供するのに優れており、これら2つの特性は、限られたデータで拡散するプロセスのモデリングと予測に重要である。
しかし、流行の舞台でガウス過程の回帰を用いる場合、形式的不確実性境界の導出が不足し、緩和努力の導出に有用性が制限される。
そこで本研究では,流行データによる予測への影響を定量化する予測のばらつきに着目する新しい手法を開発した。
さらに, 予測値に縛られる高い確率誤差を開発し, 流行の広がり, 感染データ, 予測水平線の長さが, この誤差にどのように影響するかを定量化する。
また,予測地平線の長さに基づいて誤差が一定のしきい値以下であることを示す。
この枠組みを説明するために、イギリスからの現実世界の感染データを用いて、ガウス過程の回帰を利用して新型コロナウイルスのモデル化と予測を行う。 Modeling and prediction of epidemic spread are critical to assist in policy-making for mitigation. Therefore, we present a new method based on Gaussian Process Regression to model and predict epidemics, and it quantifies prediction confidence through variance and high probability error bounds. Gaussian Process Regression excels in using small datasets and providing uncertainty bounds, and both of these properties are critical in modeling and predicting epidemic spreading processes with limited data. However, the derivation of formal uncertainty bounds remains lacking when using Gaussian Process Regression in the setting of epidemics, which limits its usefulness in guiding mitigation efforts. Therefore, in this work, we develop a novel bound on the variance of the prediction that quantifies the impact of the epidemic data on the predictions we make. Further, we develop a high probability error bound on the prediction, and we quantify how the epidemic spread, the infection data, and the length of the prediction horizon all affect this error bound. We also show that the error stays below a certain threshold based on the length of the prediction horizon. To illustrate this framework, we leverage Gaussian Process Regression to model and predict COVID-19 using real-world infection data from the United Kingdom. | 翻訳日:2023-12-18 17:49:44 公開日:2023-12-14 |
# 大規模量子ネットワークのための真空ビームガイド Vacuum Beam Guide for Large-Scale Quantum Networks ( http://arxiv.org/abs/2312.09372v1 ) ライセンス: Link先を確認 | Yuexun Huang, Francisco Salces--Carcoba, Rana X Adhikari, Amir H. Safavi-Naeini, Liang Jiang | (参考訳) 真空ビームガイド(vbg)は、長距離量子通信における既存のファイバーや衛星技術の限界を克服するための、量子チャネルの全く異なるソリューションを提供する。
VBGは、レンズの配列を1km間隔で配置することで、幅広い光波長に対して超高透過性を提供します。
現実的なパラメータでは、VBGは減衰率の点で3桁の精度で最高の繊維を上回ります。
その結果、vbgは、最先端の量子衛星通信レートよりも桁違いに高い10^{13}$ qubit/sec以上の量子チャネル容量を持つ数千km以上の長距離量子通信を可能にする。
驚くべきことに、量子リピータを使わずに、vbgは地上ベース、低損失、高帯域幅の量子チャネルを提供し、コンピューティング、通信、センシングのための新しい分散量子情報アプリケーションを可能にする。 The vacuum beam guide (VBG) presents a completely different solution for quantum channels to overcome the limitations of existing fiber and satellite technologies for long-distance quantum communication. With an array of aligned lenses spaced kilometers apart, the VBG offers ultra-high transparency over a wide range of optical wavelengths. With realistic parameters, the VBG can outperform the best fiber by three orders of magnitude in terms of attenuation rate. Consequently, the VBG can enable long-range quantum communication over thousands of kilometers with quantum channel capacity beyond $10^{13}$ qubit/sec, orders of magnitude higher than the state-of-the-art quantum satellite communication rate. Remarkably, without relying on quantum repeaters, the VBG can provide a ground-based, low-loss, high-bandwidth quantum channel that enables novel distributed quantum information applications for computing, communication, and sensing. | 翻訳日:2023-12-18 17:49:22 公開日:2023-12-14 |
# dataset: オープンソースソフトウェアにおけるコピーベースの再利用 Dataset: Copy-based Reuse in Open Source Software ( http://arxiv.org/abs/2312.09370v1 ) ライセンス: Link先を確認 | Mahmoud Jahanshahi, Audris Mockus | (参考訳) オープンソースソフトウェアでは、プロジェクトで利用可能なソースコードやその他のリソースは、しばしば許容されるライセンス制限の対象の誰でも閲覧または再利用することができる。
パッケージマネージャによる依存性ベースの再利用に関するいくつかの研究とは対照的に、OSS全体のコピーベースの再利用に関する研究は存在しない。
このデータセットは、OSS全体の再利用をほぼすべてのOSSでキャプチャするコピーアクティビティデータを提供することで、OSS全体のコピーベースの再利用の研究を促進する。
そこで我々は、World of Codeのインフラを利用する効率的なアルゴリズム、ほぼすべてのオープンソースリポジトリのキュレーションと相互参照によるコレクションを開発することで、コピーベースの再利用を検出するアプローチを開発した。
このデータによって、このような再利用を支援し、関連するリスクを最小限に抑える、将来の研究とツール開発が可能になります。 In Open Source Software, the source code and any other resources available in a project can be viewed or reused by anyone subject to often permissive licensing restrictions. In contrast to some studies of dependency-based reuse supported via package managers, no studies of OSS-wide copy-based reuse exist. This dataset seeks to encourage the studies of OSS-wide copy-based reuse by providing copying activity data that captures whole-file reuse in nearly all OSS. To accomplish that, we develop approaches to detect copy-based reuse by developing an efficient algorithm that exploits World of Code infrastructure: a curated and cross referenced collection of nearly all open source repositories. We expect this data to enable future research and tool development that support such reuse and minimize associated risks. | 翻訳日:2023-12-18 17:49:09 公開日:2023-12-14 |
# 音声のみのASRモデルの音響視覚微調整 Audio-visual fine-tuning of audio-only ASR models ( http://arxiv.org/abs/2312.09369v1 ) ライセンス: Link先を確認 | Avner May, Dmitriy Serdyuk, Ankit Parag Shah, Otavio Braga, Olivier Siohan | (参考訳) 音声・視覚自動音声認識(av-asr)モデルは、雑音下での単語誤り率を低減するのに非常に有効であるが、大量のav訓練データを必要とする。
近年,音声認識による自己教師付き学習(SSL)手法が開発され,書き起こされたAVデータへの依存度が低減されている。
本研究では,これらの高価なAV-SSLメソッドを,シンプルで高速な \textit{audio-only} SSL メソッドに置き換えて,AV による微調整を行う。
提案手法は,RS3-TEDベンチマークタスク(0.5%絶対WER)において,最先端(SOTA)のAV-SSL手法と競合する一方で,劇的にシンプルで効率が良く(12~30倍高速,事前訓練)であることを示す。
さらに,SOTA音声のみのASRモデルをAVモデルに変換するために,このアプローチを拡張した。
これにより、事前トレーニング中にavデータを使用しなくても、sata av-ssl結果と一致します。 Audio-visual automatic speech recognition (AV-ASR) models are very effective at reducing word error rates on noisy speech, but require large amounts of transcribed AV training data. Recently, audio-visual self-supervised learning (SSL) approaches have been developed to reduce this dependence on transcribed AV data, but these methods are quite complex and computationally expensive. In this work, we propose replacing these expensive AV-SSL methods with a simple and fast \textit{audio-only} SSL method, and then performing AV supervised fine-tuning. We show that this approach is competitive with state-of-the-art (SOTA) AV-SSL methods on the LRS3-TED benchmark task (within 0.5% absolute WER), while being dramatically simpler and more efficient (12-30x faster to pre-train). Furthermore, we show we can extend this approach to convert a SOTA audio-only ASR model into an AV model. By doing so, we match SOTA AV-SSL results, even though no AV data was used during pre-training. | 翻訳日:2023-12-18 17:48:55 公開日:2023-12-14 |
# マルチグラニュラリティクロスモーダルコントラスト学習を用いたテキスト誘導型顔認識 Text-Guided Face Recognition using Multi-Granularity Cross-Modal Contrastive Learning ( http://arxiv.org/abs/2312.09367v1 ) ライセンス: Link先を確認 | Md Mahedi Hasan, Shoaib Meraj Sami, and Nasser Nasrabadi | (参考訳) 最先端の顔認識(FR)モデルは、画像の品質が低くノイズで劣化する監視シナリオにおいて、顔画像を扱う場合、大きなパフォーマンス低下を経験することが多い。
フレックル、傷跡、性別、民族といった顔の特徴を活用することは、このようなシナリオにおけるFRのパフォーマンスを改善する上で非常に有益である。
本稿では,テキスト誘導顔認識(TGFR)を導入し,自然言語記述の形で顔属性を統合することの影響を分析する。
ループに意味情報を加えることで、他のソフトバイオメトリックスと比較してfrアルゴリズムの画像理解能力を大幅に改善できると仮定した。
しかし、マルチモーダル空間への識別的関節埋め込みの学習は、不整合な画像テキスト表現のセマンティックなギャップと、顔の曖昧さと不整合なテキスト記述から生じる複雑さにより、かなりの課題を生んでいる。
これらの課題に対処するために,複数の粒度にまたがるクロスモーダルなコントラスト損失を組み込んだFCAM(face-caption alignment module)を導入し,その局所的特徴とグローバル的特徴の相互情報を最大化する。
FCAMでは, 顔とテキストの両特徴を改良し, 一致した特徴と識別的特徴を学習する。
また, 細粒度相互作用と粗粒度関連をクロスモーダル特徴間で適用できるFCFMを設計した。
3つのフェースキャプションデータセットで実施された広範な実験を通じて、提案されたTGFRは、特に低画質の画像において、既存のFRモデルよりも顕著な改善を示し、他の関連するメソッドやベンチマークを上回っている。 State-of-the-art face recognition (FR) models often experience a significant performance drop when dealing with facial images in surveillance scenarios where images are in low quality and often corrupted with noise. Leveraging facial characteristics, such as freckles, scars, gender, and ethnicity, becomes highly beneficial in improving FR performance in such scenarios. In this paper, we introduce text-guided face recognition (TGFR) to analyze the impact of integrating facial attributes in the form of natural language descriptions. We hypothesize that adding semantic information into the loop can significantly improve the image understanding capability of an FR algorithm compared to other soft biometrics. However, learning a discriminative joint embedding within the multimodal space poses a considerable challenge due to the semantic gap in the unaligned image-text representations, along with the complexities arising from ambiguous and incoherent textual descriptions of the face. To address these challenges, we introduce a face-caption alignment module (FCAM), which incorporates cross-modal contrastive losses across multiple granularities to maximize the mutual information between local and global features of the face-caption pair. Within FCAM, we refine both facial and textual features for learning aligned and discriminative features. We also design a face-caption fusion module (FCFM) that applies fine-grained interactions and coarse-grained associations among cross-modal features. Through extensive experiments conducted on three face-caption datasets, proposed TGFR demonstrates remarkable improvements, particularly on low-quality images, over existing FR models and outperforms other related methods and benchmarks. | 翻訳日:2023-12-18 17:48:33 公開日:2023-12-14 |
# アラビア語のミニ気候gpt : 気候変動と持続可能性 Arabic Mini-ClimateGPT : A Climate Change and Sustainability Tailored Arabic LLM ( http://arxiv.org/abs/2312.09366v1 ) ライセンス: Link先を確認 | Sahal Shaji Mullappilly, Abdelrahman Shaker, Omkar Thawakar, Hisham Cholakkal, Rao Muhammad Anwer, Salman Khan, Fahad Shahbaz Khan | (参考訳) 気候変動は、私たちが社会として直面する最も重要な課題の1つです。
気候変動の広範な影響を意識し、政策立案者を教育することは、持続可能な未来に向けた重要なステップである。
最近、ChatGPTやBardのようなLarge Language Models (LLMs)は、様々なNLPタスクにおいて優れた会話能力を示し、優れています。
これらのモデルはオープンソースだが、Stanford Alpaca や Vicuna といった最近の代替のオープンソース LLM は有望な結果を示している。
しかし、これらのオープンソースモデルは、気候関連のドメイン固有情報に特化してはおらず、アラビア語など他の言語で意味のある応答を生成するのに苦労している。
この目的のために,オープンソースのLCM上に構築された軽量のアラビアミニクリメートGPTを提案し,気候変動と持続可能性に関する500k以上の指示をアラビアデータセットClima500-Instructで学習した。
さらに,本モデルでは,推論中にベクトル埋め込みに基づく検索機構を利用する。
気候関連クエリの定量的および質的評価により,提案モデルの有効性を検証した。
本モデルは,ChatGPTによる評価において,88.3%の症例において,ベースラインLLMを上回った。
さらに、人間の専門家による評価では、複数の人気のあるオープンソースモデルよりも81.6%の反応が好まれている。
当社のオープンソースデモ、コードベース、モデルは、https://github.com/mbzuai-oryx/climategpt.comから入手できます。 Climate change is one of the most significant challenges we face together as a society. Creating awareness and educating policy makers the wide-ranging impact of climate change is an essential step towards a sustainable future. Recently, Large Language Models (LLMs) like ChatGPT and Bard have shown impressive conversational abilities and excel in a wide variety of NLP tasks. While these models are close-source, recently alternative open-source LLMs such as Stanford Alpaca and Vicuna have shown promising results. However, these open-source models are not specifically tailored for climate related domain specific information and also struggle to generate meaningful responses in other languages such as, Arabic. To this end, we propose a light-weight Arabic Mini-ClimateGPT that is built on an open-source LLM and is specifically fine-tuned on a conversational-style instruction tuning curated Arabic dataset Clima500-Instruct with over 500k instructions about climate change and sustainability. Further, our model also utilizes a vector embedding based retrieval mechanism during inference. We validate our proposed model through quantitative and qualitative evaluations on climate-related queries. Our model surpasses the baseline LLM in 88.3% of cases during ChatGPT-based evaluation. Furthermore, our human expert evaluation reveals an 81.6% preference for our model's responses over multiple popular open-source models. Our open-source demos, code-base and models are available here https://github.com/mbzuai-oryx/ClimateGPT. | 翻訳日:2023-12-18 17:48:04 公開日:2023-12-14 |
# RTRA:継続的学習における正規化に基づく迅速な学習 RTRA: Rapid Training of Regularization-based Approaches in Continual Learning ( http://arxiv.org/abs/2312.09361v1 ) ライセンス: Link先を確認 | Sahil Nokhwal and Nirman Kumar | (参考訳) 破滅的忘れ(CF)は継続学習(CL)において重要な課題である。
CFを緩和するための正規化に基づくアプローチでは、重要なトレーニングパラメータの変更は、適切な損失関数を用いてその後のタスクで罰せられる。
本稿では、損失関数最適化にNatural Gradientを用いて、広く使われている弾性重み統合(EWC)正規化スキームの修正であるRTRAを提案する。
本手法は,テストデータ性能を犠牲にすることなく,正規化に基づく手法の訓練を改善する。
提案するrtraアプローチをifood251データセットを用いてewcと比較する。
我々はRTRAが最先端のアプローチに対して明確な優位性を持っていることを示す。 Catastrophic forgetting(CF) is a significant challenge in continual learning (CL). In regularization-based approaches to mitigate CF, modifications to important training parameters are penalized in subsequent tasks using an appropriate loss function. We propose the RTRA, a modification to the widely used Elastic Weight Consolidation (EWC) regularization scheme, using the Natural Gradient for loss function optimization. Our approach improves the training of regularization-based methods without sacrificing test-data performance. We compare the proposed RTRA approach against EWC using the iFood251 dataset. We show that RTRA has a clear edge over the state-of-the-art approaches. | 翻訳日:2023-12-18 17:47:37 公開日:2023-12-14 |
# 静止状態fMRIを用いた青島オンセットゾーンローカライゼーションにおけるAIとAIの知識の相乗効果 The Expert Knowledge combined with AI outperforms AI Alone in Seizure Onset Zone Localization using resting state fMRI ( http://arxiv.org/abs/2312.09360v1 ) ライセンス: Link先を確認 | Payal Kamboj, Ayan Banerjee, Varina L. Boerwinkle and Sandeep K.S. Gupta | (参考訳) 難治性てんかん (re) 患者に対して,安静時機能mri (rs-fmri) コネクトミクスと深層学習 (dl) 技術を併用したsez識別における専門家指導の統合が, dl単独を用いた場合と比較して, sozデライン化を促進するかを検討した。
rs-fmriは,その後ic-eegを施行し,発作コントロール手術(n=25)を施行した小児52例から得られた。
休眠状態機能コネクトミクスデータは, 測定ノイズ, 典型的な休眠状態ネットワーク接続, sozの2つの専門家てんかん学者によって, 従来独立に分類されていた。
SOZを識別するために、機能的コネクトロミクスデータに基づいて専門知識統合ディープネットワークを訓練した。
DLと統合された専門知識は、SOZの局在精度84.8&F1スコア、正の予測値と感度の調和平均91.7%を示した。
逆に、DLのみのモデルでは50%未満の精度が得られた(F1スコア63%)。
灰白質,白質,血管領域の活性は,SOZの特徴を同定した最も差別的な専門家であると考えられている。
機能的コネクトロミクスのエキスパート知識の統合は、REにおけるSOZのローカライズにおけるDLの性能を高めるだけでなく、SOZにおける一般的なコアクティベーションパターンの潜在的に有用な説明へと導くことができる。
外科的結果と術前のr-fMRIによる研究は、SOZの同定において最も有能な知識を得ることができる。 We evaluated whether integration of expert guidance on seizure onset zone (SOZ) identification from resting state functional MRI (rs-fMRI) connectomics combined with deep learning (DL) techniques enhances the SOZ delineation in patients with refractory epilepsy (RE), compared to utilizing DL alone. Rs-fMRI were collected from 52 children with RE who had subsequently undergone ic-EEG and then, if indicated, surgery for seizure control (n = 25). The resting state functional connectomics data were previously independently classified by two expert epileptologists, as indicative of measurement noise, typical resting state network connectivity, or SOZ. An expert knowledge integrated deep network was trained on functional connectomics data to identify SOZ. Expert knowledge integrated with DL showed a SOZ localization accuracy of 84.8& and F1 score, harmonic mean of positive predictive value and sensitivity, of 91.7%. Conversely, a DL only model yielded an accuracy of less than 50% (F1 score 63%). Activations that initiate in gray matter, extend through white matter and end in vascular regions are seen as the most discriminative expert identified SOZ characteristics. Integration of expert knowledge of functional connectomics can not only enhance the performance of DL in localizing SOZ in RE, but also lead toward potentially useful explanations of prevalent co-activation patterns in SOZ. RE with surgical outcomes and pre-operative rs-fMRI studies can yield expert knowledge most salient for SOZ identification. | 翻訳日:2023-12-18 17:47:29 公開日:2023-12-14 |
# ソーシャルメディアにおける子ども・親・誤情報 Children, Parents, and Misinformation on Social Media ( http://arxiv.org/abs/2312.09359v1 ) ライセンス: Link先を確認 | Filipo Sharevski and Jennifer Vander Loop | (参考訳) 子供たちは両親と同じ能力でソーシャルメディアで誤情報に遭遇します。
両親とは異なり、子どもは認知能力と感情的な規制がまだ成熟しており、オンライン上での誤情報や虚偽の影響を受けやすいため、非常に脆弱な人口である。
しかし、子どもの誤情報の体験や、その誤情報を子どもの発達に与える親の考えについてはほとんど知られていない。
これらの質問に答えるために,両親の質的調査(n=87)と,両親と子供の半構造化面接(n=12)を組み合わせた。
子どもは通常、ソーシャルメディアでディープフェイクや政治状況のミーム、有名人やインフルエンサーの噂に遭遇する。
子どもたちは、Googleで検索したり、親に尋ねる前に、ソーシャルメディアのビデオや投稿が真実かどうかを「Siriに尋ねる」ことを明らかにした。
親は、子どもが誤報に感銘を受けることに不満を表明し、その負担は、子供たちがソーシャルメディアで偽りをナビゲートするための批判的な思考スキルを開発するのを助けることにあると述べた。
ここでは、大多数の親が学校がこれらのスキルとメディアリテラシーを子供たちに教えるべきであると感じた。
親子双方の誤報は家族関係、特に政治観の異なる祖父母との関係に影響を及ぼす。 Children encounter misinformation on social media in a similar capacity as their parents. Unlike their parents, children are an exceptionally vulnerable population because their cognitive abilities and emotional regulation are still maturing, rendering them more susceptible to misinformation and falsehoods online. Yet, little is known about children's experience with misinformation as well as what their parents think of the misinformation's effect on child development. To answer these questions, we combined a qualitative survey of parents (n=87) with semi-structured interviews of both parents and children (n=12). We found that children usually encounter deep fakes, memes with political context, or celebrity/influencer rumors on social media. Children revealed they "ask Siri" whether a social media video or post is true or not before they search on Google or ask their parents about it. Parents expressed discontent that their children are impressionable to misinformation, stating that the burden falls on them to help their children develop critical thinking skills for navigating falsehoods on social media. Here, the majority of parents felt that schools should also teach these skills as well as media literacy to their children. Misinformation, according to both parents and children affects the family relationships especially with grandparents with different political views than theirs. | 翻訳日:2023-12-18 17:46:50 公開日:2023-12-14 |
# DSS: クラス増分学習における知識保存のための多種多様なサンプル選択法 DSS: A Diverse Sample Selection Method to Preserve Knowledge in Class-Incremental Learning ( http://arxiv.org/abs/2312.09357v1 ) ライセンス: Link先を確認 | Sahil Nokhwal and Nirman Kumar | (参考訳) リハーサルベースのテクニックは、インクリメンタルラーニング(IL)における破滅的忘れ(CF)を軽減するために一般的に用いられる。
この目的のために選択された模範者の質が重要であり、ほとんどの方法は選択された模範者の適切な多様性を保証しない。
本稿では,クラスインクリメンタル・ラーニング(cil)設定における入力データストリームからのサンプルの多種多様な選択手法"dss"を提案する。
我々の手法は最先端の手法より優れており、理解と実装がずっと簡単である。 Rehearsal-based techniques are commonly used to mitigate catastrophic forgetting (CF) in Incremental learning (IL). The quality of the exemplars selected is important for this purpose and most methods do not ensure the appropriate diversity of the selected exemplars. We propose a new technique "DSS" -- Diverse Selection of Samples from the input data stream in the Class-incremental learning (CIL) setup under both disjoint and fuzzy task boundary scenarios. Our method outperforms state-of-the-art methods and is much simpler to understand and implement. | 翻訳日:2023-12-18 17:46:28 公開日:2023-12-14 |
# iOn-Profiler:強化学習による知的オンライン多目的VNFプロファイリング iOn-Profiler: intelligent Online multi-objective VNF Profiling with Reinforcement Learning ( http://arxiv.org/abs/2312.09355v1 ) ライセンス: Link先を確認 | Xenofon Vasilakos and Shadi Moazzeni and Anderson Bravalheri and Pratchaya Jaisudthi and Reza Nejabati and Dimitra Simeonidou | (参考訳) VNF(Virtualized Network Functions)の可能性を活用するには、リソース消費とパフォーマンスの関係を明確に理解する必要がある。
現在の最先端技術では、機械学習(ML)モデル、特に特定のネットワーク環境とVNFタイプに対して、単一目的の最適化ターゲットを想定した監視学習(SL)モデルを活用しようとしている。
異なるアプローチをとると、適応強化学習(rl)を用いたマルチリソース型割り当てとパフォーマンス目標を最適化する新しいvnfプロファイラが作成される。
提案手法は,マルチリソース型消費を最小化し,VNF出力率を既存の単目的ソリューションと比較して最適化しながら,キーパフォーマンス指標(KPI)の目標を満たすことができる。
仮想CPU, メモリ, ネットワークリンク容量の3つのリソースタイプを対象に, 39個の研究シナリオ(VNFあたり13個)を対象とした実世界の3種類のVNFタイプによる実験評価を行い, RLモデルとSLモデルのベンチマークによる資源割り当て予測の精度とそれに対応するプロファイリング決定を検証した。
また,多目的最適化の必要性,VNFタイプごとの個別化試験,iOn-Profilerの自律的オンライン学習アプローチなどの適応可能なオンラインプロファイル学習など,様々なリソースがVNFタイプ毎に様々な方法でパフォーマンスに影響を与えることを明らかにする。 Leveraging the potential of Virtualised Network Functions (VNFs) requires a clear understanding of the link between resource consumption and performance. The current state of the art tries to do that by utilising Machine Learning (ML) and specifically Supervised Learning (SL) models for given network environments and VNF types assuming single-objective optimisation targets. Taking a different approach poses a novel VNF profiler optimising multi-resource type allocation and performance objectives using adapted Reinforcement Learning (RL). Our approach can meet Key Performance Indicator (KPI) targets while minimising multi-resource type consumption and optimising the VNF output rate compared to existing single-objective solutions. Our experimental evaluation with three real-world VNF types over a total of 39 study scenarios (13 per VNF), for three resource types (virtual CPU, memory, and network link capacity), verifies the accuracy of resource allocation predictions and corresponding successful profiling decisions via a benchmark comparison between our RL model and SL models. We also conduct a complementary exhaustive search-space study revealing that different resources impact performance in varying ways per VNF type, implying the necessity of multi-objective optimisation, individualised examination per VNF type, and adaptable online profile learning, such as with the autonomous online learning approach of iOn-Profiler. | 翻訳日:2023-12-18 17:46:21 公開日:2023-12-14 |
# 高齢者のソーシャルメディアにおける誤情報体験 Older Adults' Experiences with Misinformation on Social Media ( http://arxiv.org/abs/2312.09354v1 ) ライセンス: Link先を確認 | Filipo Sharevski and Jennifer Vander Loop | (参考訳) 高齢者は日常的にソーシャルメディアで誤情報に遭遇するが、その経験についてはほとんど知識がない。
本研究では,質的調査(n=119)と詳細なインタビュー(n=21)を組み合わせることで,米国の高齢者がソーシャルメディアの誤情報を概念化し,認識し,文脈化する方法を検討した。
過去のソーシャルメディアの誤報は投票結果に影響を与えていたため、特に投票意図の観点から研究にアプローチすることに興味があった。
投票する参加者の62%が誤情報の拡散の背後にマニピュレーション的な政治的目的があったのに対し、共和党員の5%は誤情報の政治的反対の目的があると信じていた。
投票の意図にかかわらず、ほとんどの参加者はソースヒューリスティックと事実チェックを組み合わせて、ソーシャルメディア上の誤った情報から真実を識別した。
誤情報の最も大きな懸念は、客観的な証拠に基づく推論ではなく、個人的価値観や感情に影響された偏りのある推論へとつながることだ。
民主党に投票しようとする参加者の74%は、偽情報が将来過激主義のエスカレーションを引き起こすと懸念しているが、共和党に投票しようとする者は未決定であり、偽情報が民主主義機関、特に公衆衛生と自由で公正な選挙の文脈において、さらに信用を損なうのではないかと懸念していた。
インタビューの中で、共和党の投票を意図した参加者の63%が、共和党または保守的な声がしばしば誤った情報を話すことを十分に認識し、認識していたことが分かりました。 Older adults habitually encounter misinformation on social media, but there is little knowledge about their experiences with it. In this study, we combined a qualitative survey (n=119) with in-depth interviews (n=21) to investigate how older adults in America conceptualize, discern, and contextualize social media misinformation. As misinformation on social media in the past was driven towards influencing voting outcomes, we were particularly interested to approach our study from a voting intention perspective. We found that 62% of the participants intending to vote Democrat saw a manipulative political purpose behind the spread of misinformation while only 5% of those intending to vote Republican believed misinformation has a political dissent purpose. Regardless of the voting intentions, most participants relied on source heuristics combined with fact-checking to discern truth from misinformation on social media. The biggest concern about the misinformation, among all the participants, was that it increasingly leads to biased reasoning influenced by personal values and feelings instead of reasoning based on objective evidence. The participants intending to vote Democrat were in 74% of the cases concerned that misinformation will cause escalation of extremism in the future, while those intending to vote Republican, were undecided, or planned to abstain were concerned that misinformation will further erode the trust in democratic institutions, specifically in the context of public health and free and fair elections. During our interviews, we found that 63% of the participants who intended to vote Republican, were fully aware and acknowledged that Republican or conservative voices often time speak misinformation, even though they are closely aligned to their political ideology. | 翻訳日:2023-12-18 17:45:54 公開日:2023-12-14 |
# 深部生成モデルを用いた高次元自由エネルギー表面の非バイアス強調サンプリング Unbiasing Enhanced Sampling on a High-dimensional Free Energy Surface with Deep Generative Model ( http://arxiv.org/abs/2312.09404v1 ) ライセンス: Link先を確認 | Yikai Liu, Tushar K. Ghosh, Ming Chen | (参考訳) 共形アンサンブルをサンプリングするための強力なツールとして,集合変数(CV)を用いたバイアス強化サンプリング法がある。
高内在次元のため、複雑な系のコンフォメーションアンサンブルを効率的に生成するには、高次元自由エネルギー表面上でのサンプリングの強化が必要である。
温度加速分子動力学(TAMD)のような手法はシミュレーションにおいて多くのCVを適用できるが、シミュレーションの偏りをなくすには高次元CV確率分布の正確なモデリングが必要である。
本稿では,複雑なデータランドスケープにまたがる密度推定に優れる深層学習法であるスコアベース拡散モデルに基づく非バイアス化手法を提案する。
TAMDシミュレーションにおいて,スコアベース拡散アンバイアス法をテストする。
その結果、この非バイアスアプローチは従来の非バイアス法を著しく上回っており、多くのcvsが通常の範囲よりも高いシミュレーションのために正確な非バイアスコンフォメーションアンサンブルを生成することができる。 Biased enhanced sampling methods utilizing collective variables (CVs) are powerful tools for sampling conformational ensembles. Due to high intrinsic dimensions, efficiently generating conformational ensembles for complex systems requires enhanced sampling on high-dimensional free energy surfaces. While methods like temperature-accelerated molecular dynamics (TAMD) can adopt many CVs in a simulation, unbiasing the simulation requires accurate modeling of a high-dimensional CV probability distribution, which is challenging for traditional density estimation techniques. Here we propose an unbiasing method based on the score-based diffusion model, a deep generative learning method that excels in density estimation across complex data landscapes. We test the score-based diffusion unbiasing method on TAMD simulations. The results demonstrate that this unbiasing approach significantly outperforms traditional unbiasing methods, and can generate accurate unbiased conformational ensembles for simulations with a number of CVs higher than usual ranges. | 翻訳日:2023-12-18 17:37:09 公開日:2023-12-14 |
# 速度・状態摩擦の物理モデルによる深層学習 Physics-Informed Deep Learning of Rate-and-State Fault Friction ( http://arxiv.org/abs/2312.09403v1 ) ライセンス: Link先を確認 | Cody Rucker and Brittany A. Erickson | (参考訳) 地震の核生成と伝播の直接観測は少ないが、今後10年は、モデリングに組み込む必要がある間接的な表面観測が前例のない増加をみせるだろう。
機械学習(ML)は大規模なデータの存在に優れ、地震学において活発に成長している分野である。
しかし、全てのML手法が厳密な物理学を取り入れているわけではなく、純粋にデータ駆動モデルは観測バイアスや外挿による物理的に非現実的な結果を予測することができる。
私たちの研究は、最近出現した物理学的インフォームドニューラルネットワーク(pinn)に焦点を合わせ、モデル結果が厳密な物理的制約を満たすようにデータをシームレスに統合します。
本研究では, 地震危険度評価に直接的な意味を持つ固体地球における運動の物理によって制約される非線形断層摩擦パラメータの直接反転と, 前方問題の両方に対するマルチネットワークPINNを開発する。
本稿では1次元および2次元のストライク・スリップ断層に対する速度・状態摩擦を考慮した計算PINNフレームワークを提案する。
初期および境界条件は、PINNが訓練されたデータを定義する。
PINNは、低エラーに対する支配方程式の解を近似することができるが、我々の主な関心は、トレーニングループ中に摩擦パラメータを推測するネットワークの能力にある。
故障時のパラメータ反転のネットワークは,結合した材料変位のネットワークよりもはるかに優れた性能を示すことが判明した。
追加のトレーニングイテレーションとモデルチューニングは、この相違を解消し、地震断層に関する前方および逆問題の両方を解決する頑健な代理モデルを可能にする。 Direct observations of earthquake nucleation and propagation are few and yet the next decade will likely see an unprecedented increase in indirect, surface observations that must be integrated into modeling efforts. Machine learning (ML) excels in the presence of large data and is an actively growing field in seismology. However, not all ML methods incorporate rigorous physics, and purely data-driven models can predict physically unrealistic outcomes due to observational bias or extrapolation. Our work focuses on the recently emergent Physics-Informed Neural Network (PINN), which seamlessly integrates data while ensuring that model outcomes satisfy rigorous physical constraints. In this work we develop a multi-network PINN for both the forward problem as well as for direct inversion of nonlinear fault friction parameters, constrained by the physics of motion in the solid Earth, which have direct implications for assessing seismic hazard. We present the computational PINN framework for strike-slip faults in 1D and 2D subject to rate-and-state friction. Initial and boundary conditions define the data on which the PINN is trained. While the PINN is capable of approximating the solution to the governing equations to low-errors, our primary interest lies in the network's capacity to infer friction parameters during the training loop. We find that the network for the parameter inversion at the fault performs much better than the network for material displacements to which it is coupled. Additional training iterations and model tuning resolves this discrepancy, enabling a robust surrogate model for solving both forward and inverse problems relevant to seismic faulting. | 翻訳日:2023-12-18 17:36:51 公開日:2023-12-14 |
# CERN for AGI - 自律シミュレーションに基づく人工知能テストとアライメントのための理論的フレームワーク CERN for AGI: A Theoretical Framework for Autonomous Simulation-Based Artificial Intelligence Testing and Alignment ( http://arxiv.org/abs/2312.09402v1 ) ライセンス: Link先を確認 | Ljubisa Bojic, Matteo Cinelli, Dubravko Culibrk, Boris Delibasic | (参考訳) 本稿では,人工知能(AGI)とLLMの多分野的アプローチの可能性について検討する。
LLMの急速な開発と適用により、これらのモデルの倫理的整合性、制御可能性、予測可能性といった課題が重要な研究トピックとなっている。
本研究では,実世界環境を再現する仮想現実フレームワークにおける,革新的なシミュレーションベースのマルチエージェントシステムについて検討する。
このフレームワークには、複雑な社会構造と相互作用をシミュレートし、agiを検証および最適化する自動化された「デジタル市民」が住んでいる。
社会学、社会心理学、計算機科学、物理学、生物学、経済学の分野からの様々な理論の応用は、より人間らしく社会的に責任を持つAGIの可能性を示している。
このようなデジタル環境の目的は、高度なAIエージェントが対話し、独立した意思決定を行い、現実的なシナリオを模倣する動的なプラットフォームを提供することである。
LLMが運営するこのデジタルシティの俳優は、高い自治度を示す主要なエージェントとして機能している。
このアプローチは大きな可能性を示しているが、顕著な課題と制限があり、最も顕著に、現実の社会的ダイナミクスの予測不可能な性質である。
この研究は、将来の研究のために社会的、倫理的、理論的次元の統合を強調し、AGIの開発と改良に貢献する。 This paper explores the potential of a multidisciplinary approach to testing and aligning artificial general intelligence (AGI) and LLMs. Due to the rapid development and wide application of LLMs, challenges such as ethical alignment, controllability, and predictability of these models have become important research topics. This study investigates an innovative simulation-based multi-agent system within a virtual reality framework that replicates the real-world environment. The framework is populated by automated 'digital citizens,' simulating complex social structures and interactions to examine and optimize AGI. Application of various theories from the fields of sociology, social psychology, computer science, physics, biology, and economics demonstrates the possibility of a more human-aligned and socially responsible AGI. The purpose of such a digital environment is to provide a dynamic platform where advanced AI agents can interact and make independent decisions, thereby mimicking realistic scenarios. The actors in this digital city, operated by the LLMs, serve as the primary agents, exhibiting high degrees of autonomy. While this approach shows immense potential, there are notable challenges and limitations, most significantly the unpredictable nature of real-world social dynamics. This research endeavors to contribute to the development and refinement of AGI, emphasizing the integration of social, ethical, and theoretical dimensions for future research. | 翻訳日:2023-12-18 17:36:25 公開日:2023-12-14 |
# 異種チップレット上のマルチモデル推論のための層間スケジューリング空間探索 Inter-Layer Scheduling Space Exploration for Multi-model Inference on Heterogeneous Chiplets ( http://arxiv.org/abs/2312.09401v1 ) ライセンス: Link先を確認 | Mohanad Odema, Hyoukjun Kwon, Mohammad Abdullah Al Faruque | (参考訳) 大規模言語モデルのような重モデルによる最近のマルチモデルワークロードの計算需要の増加に対処するため、異種チップレットベースのマルチチップモジュール(MCM)ベースのアクセラレータをデプロイすることを提案する。
複素不均一性およびキプルト間パイプライン化を包括的に検討するヘテロジニアスMCM加速器のための高度なスケジューリングフレームワークを開発した。
GPT-2 と ResNet-50 の 4-chiplet システム上でのフレームワークを用いた実験により,出力定常データフローを最適化したモノリシック加速器と比較して,スループットとエネルギー効率は 2.2 倍に向上した。 To address increasing compute demand from recent multi-model workloads with heavy models like large language models, we propose to deploy heterogeneous chiplet-based multi-chip module (MCM)-based accelerators. We develop an advanced scheduling framework for heterogeneous MCM accelerators that comprehensively consider complex heterogeneity and inter-chiplet pipelining. Our experiments using our framework on GPT-2 and ResNet-50 models on a 4-chiplet system have shown upto 2.2x and 1.9x increase in throughput and energy efficiency, compared to a monolithic accelerator with an optimized output-stationary dataflow. | 翻訳日:2023-12-18 17:36:04 公開日:2023-12-14 |
# 捕捉イオン量子ビットとquditのパッシブ動的デカップリング Passive dynamical decoupling of trapped ion qubits and qudits ( http://arxiv.org/abs/2312.09399v1 ) ライセンス: Link先を確認 | R. Tyler Sutherland and Stephen D. Erickson | (参考訳) 本研究では, 局所量子化場を近似的に回転させる集積回路を用いて, 捕捉したイオンの高感度サブレベルを磁場ノイズから動的に分離する手法を提案する。
これらの集積回路は、任意の外部(制御または雑音)の有効偏光の受動的調整を可能にする。
この場の分極に対してイオンの量子化方向を回転させることで、全ての超微細部分準位の線形ゼーマン感度を反転させる「パッシブ」ダイナミックデカップリング(pdd)を行うことができる。
これは単にキュービット部分空間ではなく、イオン全体を動的に分離する。
基本的に、pdd はシステム内の全ての量子数 $m_{f}$ に対する遷移 $m_{f}\rightarrow -m_{f}$ を 1 つの操作で駆動するが、これは qudit の次元が一定のオーバーヘッドを持つ qudit に適用される。
パルス・連続型PDDの動作方法を示し、各手法の外部磁場に対する感度と、ダイアバチシティや制御誤差に対する感度を評価した。
最後に, 量子化軸の正弦波振動を結晶の運動モードに調整することで, 磁場ノイズに敏感なレーザフリー2量子ゲートを実現できることを示す。 We propose a method to dynamically decouple every magnetically sensitive hyperfine sublevel of a trapped ion from magnetic field noise, simultaneously, using integrated circuits to adiabatically rotate its local quantization field. These integrated circuits allow passive adjustment of the effective polarization of any external (control or noise) field. By rotating the ion's quantization direction relative to this field's polarization, we can perform `passive' dynamical decoupling (PDD), inverting the linear Zeeman sensitivity of every hyperfine sublevel. This dynamically decouples the entire ion, rather than just a qubit subspace. Fundamentally, PDD drives the transition $m_{F}\rightarrow -m_{F}$ for every magnetic quantum number $m_{F}$ in the system--with only one operation--indicating it applies to qudits with constant overhead in the dimensionality of the qudit. We show how to perform pulsed and continuous PDD, weighing each technique's insensitivity to external magnetic fields versus their sensitivity to diabaticity and control errors. Finally, we show that we can tune the sinusoidal oscillation of the quantization axis to a motional mode of the crystal in order to perform a laser-free two qubit gate that is insensitive to magnetic field noise. | 翻訳日:2023-12-18 17:35:51 公開日:2023-12-14 |
# 再生可能な神経資産 Relightable Neural Assets ( http://arxiv.org/abs/2312.09398v1 ) ライセンス: Link先を確認 | Krishna Mullia, Fujun Luan, Xin Sun, Milo\v{s} Ha\v{s}an | (参考訳) 繊維(毛髪を含む)、複雑な層状材料シェーダー、または微細散乱形状からなる高忠実な3dアセットは、ハイエンドのリアルレンダリングアプリケーションで広く使われている。
このようなモデルのレンダリングは、重いシェーダと長い散乱パスのために計算コストがかかる。
さらに、シェーディングと散乱モデルの実装は自明ではなく、3dコンテンツオーサリングソフトウェア(必ずしも複雑である必要はない)だけでなく、下流のすべてのレンダリングソリューションでも行わなければならない。
例えば、複雑な3Dアセットに対するWebとモバイルのビューアは望ましいが、オーサリングアプリケーションによって許されるシェーディングの複雑さを完全にサポートできないことが多い。
私たちの目標は、既存のレンダラへの完全なリフレアビリティと完全な統合をサポートする複雑なシェーディングを備えた、3dアセットのためのニューラル表現を設計することです。
我々は,線の最初の交点と底面の幾何学との終端対端のシェーディングソリューションを提供する。
すべてのシェーディングと散乱は前もって計算され、ニューラルアセットに含まれる。複数の散乱経路をトレースする必要はなく、単一のニューラルアーキテクチャを超えて、アセットをレンダリングするために複雑なシェーディングモデルを実装する必要もない。
MLPデコーダと機能グリッドを組み合わせる。
シェーディングは特徴ベクトルを問合せし、次に最後の反射率値を生成するMPP評価を行う。
本手法は,クローズアップビューにおいてもモンテカルロ推定値に近い高忠実性シェーディングを提供する。
当社のニューラルアセットは実用的なレンダラーで使用することができ、大幅なスピードアップとレンダラー実装の簡素化が期待できます。 High-fidelity 3D assets with materials composed of fibers (including hair), complex layered material shaders, or fine scattering geometry are ubiquitous in high-end realistic rendering applications. Rendering such models is computationally expensive due to heavy shaders and long scattering paths. Moreover, implementing the shading and scattering models is non-trivial and has to be done not only in the 3D content authoring software (which is necessarily complex), but also in all downstream rendering solutions. For example, web and mobile viewers for complex 3D assets are desirable, but frequently cannot support the full shading complexity allowed by the authoring application. Our goal is to design a neural representation for 3D assets with complex shading that supports full relightability and full integration into existing renderers. We provide an end-to-end shading solution at the first intersection of a ray with the underlying geometry. All shading and scattering is precomputed and included in the neural asset; no multiple scattering paths need to be traced, and no complex shading models need to be implemented to render our assets, beyond a single neural architecture. We combine an MLP decoder with a feature grid. Shading consists of querying a feature vector, followed by an MLP evaluation producing the final reflectance value. Our method provides high-fidelity shading, close to the ground-truth Monte Carlo estimate even at close-up views. We believe our neural assets could be used in practical renderers, providing significant speed-ups and simplifying renderer implementations. | 翻訳日:2023-12-18 17:35:27 公開日:2023-12-14 |
# 自動運転のための大規模言語モデル:実世界実験 Large Language Models for Autonomous Driving: Real-World Experiments ( http://arxiv.org/abs/2312.09397v1 ) ライセンス: Link先を確認 | Can Cui, Zichong Yang, Yupeng Zhou, Yunsheng Ma, Juanwu Lu and Ziran Wang | (参考訳) 自動運転システムは、部分的に自動化された車両がすでに市場に出回っており、‘driverless’機能を備えた完全な自動化時代が近づきつつある今日の技術的状況で、ますます人気が高まっている。
しかし、人間の指示を正確に理解し、特に運転手の代わりに乗客のみを乗せた自動運転車では、高いレベルのパーソナライゼーションを達成することは、自律運転システムの開発において難しい課題である。
本稿では,Large Language Model (LLM) ベースのフレームワークであるTalk-to-Drive (Talk2Drive) を導入し,人間からの音声コマンドを処理し,コンテキスト情報を用いて自律運転決定を行い,安全性,効率,快適性に対するパーソナライズされた好みを満たす。
まず、Talk2Driveのための音声認識モジュールを開発し、人間からの音声入力をテキスト命令に解釈し、推論のためにLLMに送信する。
次に、電気制御ユニット(ECU)の適切なコマンドを生成し、コードの実行において100倍の成功率を達成する。
実世界実験の結果,我々のフレームワークは,多様なドライバの乗っ取り率を最大90.1%削減できることがわかった。
われわれの知る限りでは、Talk2DriveはLLMベースのシステムを現実の自動運転環境に導入した最初の例だ。 Autonomous driving systems are increasingly popular in today's technological landscape, where vehicles with partial automation have already been widely available on the market, and the full automation era with ``driverless'' capabilities is near the horizon. However, accurately understanding humans' commands, particularly for autonomous vehicles that have only passengers instead of drivers, and achieving a high level of personalization remain challenging tasks in the development of autonomous driving systems. In this paper, we introduce a Large Language Model (LLM)-based framework Talk-to-Drive (Talk2Drive) to process verbal commands from humans and make autonomous driving decisions with contextual information, satisfying their personalized preferences for safety, efficiency, and comfort. First, a speech recognition module is developed for Talk2Drive to interpret verbal inputs from humans to textual instructions, which are then sent to LLMs for reasoning. Then, appropriate commands for the Electrical Control Unit (ECU) are generated, achieving a 100\% success rate in executing codes. Real-world experiments show that our framework can substantially reduce the takeover rate for a diverse range of drivers by up to 90.1\%. To the best of our knowledge, Talk2Drive marks the first instance of employing an LLM-based system in a real-world autonomous driving environment. | 翻訳日:2023-12-18 17:35:02 公開日:2023-12-14 |
# 量子ファンデーションによる素粒子理論の解明 Quantum Foundations as a Guide for Refining Particle Theories ( http://arxiv.org/abs/2312.09396v1 ) ライセンス: Link先を確認 | Gerard t Hooft | (参考訳) 相互作用するボゾン素粒子を記述するすべての量子場理論は、ゼロ階摂動展開が非相互作用調和振動子を記述する特徴を共有する。
これは論文で説明されている。
次に、相互作用の導入は、量子論と比較できる古典理論につながるが、その展開をどこかで終わらせる場合のみであることを示す。
量子効果(Quantum effect)は、古典変数のいくつかが従来の記述を許容するために急速変動しすぎてエネルギー固有モードの観点でのみ記述されるため、標準の古典変数と可換でない場合に発生する。
摂動展開は古典理論に必須ではなく、古典理論が量子論よりも正確に定義される理由である。
膨張パラメータは、微細構造定数のような自然の基本的な定数を含むので、古典モデルにおける研究は、これらの定数の起源に関する新たな手がかりにつながる可能性がある。 All quantum field theories that describe interacting bosonic elementary particles, share the feature that the zeroth order perturbation expansion describes non-interacting harmonic oscillators. This is explained in the paper. We then indicate that introducing interactions still leads to classical theories that can be compared with the quantum theories, but only if we terminate the expansion somewhere. `Quantum effects' typically occur when some of the classical variables fluctuate too rapidly to allow a conventional description, so that these are described exclusively in terms of their energy eigen modes; these do not commute with the standard classical variables. Perturbation expansions are not fundamentally required in classical theories, and this is why classical theories are more precisely defined than the quantum theories. Since the expansion parameters involve the fundamental constants of nature, such as the finestructure constant, we suggest that research in these classical models may lead to new clues concerning the origin of these constants. | 翻訳日:2023-12-18 17:34:38 公開日:2023-12-14 |
# 情報整合性研究倫理に研究者の安全を取り入れる Towards Incorporating Researcher Safety into Information Integrity Research Ethics ( http://arxiv.org/abs/2312.09395v1 ) ライセンス: Link先を確認 | Joseph S. Schafer, Kate Starbird | (参考訳) 従来の研究倫理は主に、参加者が権利の侵害を避けたり、参加者を危害にさらすために、安全、公正、倫理的に扱われることに重点を置いてきた。
CSCWにおける情報完全性の研究は、主にこれらの問題に焦点を当てており、インターネット研究倫理の焦点は主に参加者データの保護の増加に焦点を当てている。
しかし、インターネット研究の分野は情報整合性や問題情報といった文脈に重点を置いているため、他の倫理的枠組みや主題についてより明確な考察が求められる。
本研究は, 研究者の保護をより明確に検討し, 認識すべきであり, 参加者や幅広い社会に対して, より標準的な倫理的考察とともに検討すべきである。 Traditional research ethics has mainly and rightly been focused on making sure that participants are treated safely, justly, and ethically, to avoid the violation of their rights or putting participants in harm's way. Information integrity research within CSCW has also correspondingly mainly focused on these issues, and the focus of internet research ethics has primarily focused on increasing protections of participant data. However, as branches of internet research focus on more fraught contexts such as information integrity and problematic information, more explicit consideration of other ethical frames and subjects is warranted. In this workshop paper, we argue that researcher protections should be more explicitly considered and acknowledged in these studies, and should be considered alongside more standard ethical considerations for participants and for broader society. | 翻訳日:2023-12-18 17:34:23 公開日:2023-12-14 |
# RNN訓練における時空間BPTTの有効活用 Exploiting Symmetric Temporally Sparse BPTT for Efficient RNN Training ( http://arxiv.org/abs/2312.09391v1 ) ライセンス: Link先を確認 | Xi Chen, Chang Gao, Zuowen Wang, Longbiao Cheng, Sheng Zhou, Shih-Chii Liu, Tobi Delbruck | (参考訳) リカレントニューラルネットワーク(RNN)は、時間的シーケンスタスクに有用である。
しかし、rnnのトレーニングには、多くの算術演算とメモリアクセスをサポートするハードウェアを必要とする密行列の乗算が伴う。
エッジにRNNのオンライントレーニングを実装することにより、ハードウェアへの効率的なデプロイのための最適化アルゴリズムを実現する。
スパイキングニューロンモデルにインスパイアされたDelta RNNは、2つの時間経過で活性化が変化したニューロンから隠れた状態の更新をスキップすることで、推論中に時間的間隔を利用する。
この研究はデルタRNNのトレーニングアルゴリズムを記述し、後方伝播フェーズにおける時間的間隔を利用してエッジでのトレーニングの計算要求を削減する。
トレーニング中の前方及び後方伝播の対称計算グラフにより、不活性化ニューロンの勾配計算を省略することができる。
その結果,Fluent Speech Commandsデータセット上で,56kパラメータのDelta LSTMをトレーニングするための行列演算の$\sim$80%の削減効果が認められた。
トレーニングアルゴリズムのために設計されたハードウェアアクセラレータの論理シミュレーションは、アクティベーション間隔範囲50%〜90%の行列計算で2~10倍の高速化を示す。
さらに,提案するdelta rnnトレーニングは,コンピューティングリソースが限られたエッジデバイス上でのオンラインインクリメンタル学習に有用であることを示す。 Recurrent Neural Networks (RNNs) are useful in temporal sequence tasks. However, training RNNs involves dense matrix multiplications which require hardware that can support a large number of arithmetic operations and memory accesses. Implementing online training of RNNs on the edge calls for optimized algorithms for an efficient deployment on hardware. Inspired by the spiking neuron model, the Delta RNN exploits temporal sparsity during inference by skipping over the update of hidden states from those inactivated neurons whose change of activation across two timesteps is below a defined threshold. This work describes a training algorithm for Delta RNNs that exploits temporal sparsity in the backward propagation phase to reduce computational requirements for training on the edge. Due to the symmetric computation graphs of forward and backward propagation during training, the gradient computation of inactivated neurons can be skipped. Results show a reduction of $\sim$80% in matrix operations for training a 56k parameter Delta LSTM on the Fluent Speech Commands dataset with negligible accuracy loss. Logic simulations of a hardware accelerator designed for the training algorithm show 2-10X speedup in matrix computations for an activation sparsity range of 50%-90%. Additionally, we show that the proposed Delta RNN training will be useful for online incremental learning on edge devices with limited computing resources. | 翻訳日:2023-12-18 17:34:09 公開日:2023-12-14 |
# 物質科学のための量子中心型スーパーコンピュータ : 課題と今後の展望 Quantum-centric Supercomputing for Materials Science: A Perspective on Challenges and Future Directions ( http://arxiv.org/abs/2312.09733v1 ) ライセンス: Link先を確認 | Yuri Alexeev, Maximilian Amsler, Paul Baity, Marco Antonio Barroca, Sanzio Bassini, Torey Battelle, Daan Camps, David Casanova, Young jai Choi, Frederic T. Chong, Charles Chung, Chris Codella, Antonio D. Corcoles, James Cruise, Alberto Di Meglio, Jonathan Dubois, Ivan Duran, Thomas Eckl, Sophia Economou, Stephan Eidenbenz, Bruce Elmegreen, Clyde Fare, Ismael Faro, Cristina Sanz Fern\'andez, Rodrigo Neumann Barros Ferreira, Keisuke Fuji, Bryce Fuller, Laura Gagliardi, Giulia Galli, Jennifer R. Glick, Isacco Gobbi, Pranav Gokhale, Salvador de la Puente Gonzalez, Johannes Greiner, Bill Gropp, Michele Grossi, Emmanuel Gull, Burns Healy, Benchen Huang, Travis S. Humble, Nobuyasu Ito, Artur F. Izmaylov, Ali Javadi-Abhari, Douglas Jennewein, Shantenu Jha, Liang Jiang, Barbara Jones, Wibe Albert de Jong, Petar Jurcevic, William Kirby, Stefan Kister, Masahiro Kitagawa, Joel Klassen, Katherine Klymko, Kwangwon Koh, Masaaki Kondo, Doga Murat Kurkcuoglu, Krzysztof Kurowski, Teodoro Laino, Ryan Landfield, Matt Leininger, Vicente Leyton-Ortega, Ang Li, Meifeng Lin, Junyu Liu, Nicolas Lorente, Andre Luckow, Simon Martiel, Francisco Martin-Fernandez, Margaret Martonosi, Claire Marvinney, Arcesio Castaneda Medina, Dirk Merten, Antonio Mezzacapo, Kristel Michielsen, Abhishek Mitra, Tushar Mittal, Kyungsun Moon, Joel Moore, Mario Motta, Young-Hye Na, Yunseong Nam, Prineha Narang, Yu-ya Ohnishi, Daniele Ottaviani, Matthew Otten, Scott Pakin, Vincent R. Pascuzzi, Ed Penault, Tomasz Piontek, Jed Pitera, Patrick Rall, Gokul Subramanian Ravi, Niall Robertson, Matteo Rossi, Piotr Rydlichowski, Hoon Ryu, Georgy Samsonidze, Mitsuhisa Sato, Nishant Saurabh, Vidushi Sharma, Kunal Sharma, Soyoung Shin, George Slessman, Mathias Steiner, Iskandar Sitdikov, In-Saeng Suh, Eric Switzer, Wei Tang, Joel Thompson, Synge Todo, Minh Tran, Dimitar Trenev, Christian Trott, Huan-Hsin Tseng, Esin Tureci, David Garc\'ia Valinas, Sofia Vallecorsa, Christopher Wever, Konrad Wojciechowski, Xiaodi Wu, Shinjae Yoo, Nobuyuki Yoshioka, Victor Wen-zhe Yu, Seiji Yunoki, Sergiy Zhuk, Dmitry Zubarev | (参考訳) 計算モデルは、新しい材料の設計、評価、発見に不可欠なツールである。
材料科学におけるハードな計算タスクは、既存の高性能スーパーコンピューティングセンターの限界を拡張し、シミュレーション、分析、データリソースの多くを消費する。
一方で量子コンピューティングは、材料科学に必要な多くの計算タスクを加速する可能性を持つ新興技術である。
そのためには、量子技術は、近似結果の検証、難題の同定、量子中心のスーパーコンピュータにおけるシナジーなど、従来の高性能コンピューティングと相互作用する必要がある。
本稿では,量子中心型スーパーコンピュータが材料科学における重要な計算問題,代表的なユースケースを解決するために直面する課題,そして提案する新たな方向性について考察する。 Computational models are an essential tool for the design, characterization, and discovery of novel materials. Hard computational tasks in materials science stretch the limits of existing high-performance supercomputing centers, consuming much of their simulation, analysis, and data resources. Quantum computing, on the other hand, is an emerging technology with the potential to accelerate many of the computational tasks needed for materials science. In order to do that, the quantum technology must interact with conventional high-performance computing in several ways: approximate results validation, identification of hard problems, and synergies in quantum-centric supercomputing. In this paper, we provide a perspective on how quantum-centric supercomputing can help address critical computational problems in materials science, the challenges to face in order to solve representative use cases, and new suggested directions. | 翻訳日:2023-12-18 16:06:20 公開日:2023-12-14 |
# 条件付き生成逆数ネットワークを用いた2次元全吸収分光 Two-dimensional total absorption spectroscopy with conditional generative adversarial networks ( http://arxiv.org/abs/2206.11792v3 ) ライセンス: Link先を確認 | Cade Dembski, Michelle P. Kuchera, Sean Liddick, Raghu Ramanujan, Artemis Spyrou | (参考訳) 実験スペクトルから大量の$\gamma$-ray検出器の応答を除去するために、機械学習技術の利用を検討する。
分割された$\gamma$-ray total absorption spectrometers (tas) により、個々の$\gamma$-ray energy (e$_\gamma$) と全励起エネルギー (e$_x$) を同時に測定することができる。
TAS検出器データの解析は、E$_x$とE$_\gamma$の量とが相関しているという事実により複雑であり、E$_x$とE$_\gamma$の応答関数を独立に展開する技術は正確ではない。
本研究では,条件付き生成逆数ネットワーク(cGAN)を用いて,TAS検出器における$E_{x}$と$E_{\gamma}$データを同時に展開する。
具体的には,近年の深層学習の進歩に基づく生成モデリング手法である「texttt{Pix2Pix} cGAN」を用いて,画像から画像への変換問題として「rawmatrix~行列展開」を扱う。
本研究は, 1-$\gamma$ および double-$\gamma$ 崩壊カスケードのシミュレーションおよび実験行列に関する結果である。
シミュレーションテストケースの93%以上において, 検出器分解能限界内でのキャラクタリゼーション能力を示す。 We explore the use of machine learning techniques to remove the response of large volume $\gamma$-ray detectors from experimental spectra. Segmented $\gamma$-ray total absorption spectrometers (TAS) allow for the simultaneous measurement of individual $\gamma$-ray energy (E$_\gamma$) and total excitation energy (E$_x$). Analysis of TAS detector data is complicated by the fact that the E$_x$ and E$_\gamma$ quantities are correlated, and therefore, techniques that simply unfold using E$_x$ and E$_\gamma$ response functions independently are not as accurate. In this work, we investigate the use of conditional generative adversarial networks (cGANs) to simultaneously unfold $E_{x}$ and $E_{\gamma}$ data in TAS detectors. Specifically, we employ a \texttt{Pix2Pix} cGAN, a generative modeling technique based on recent advances in deep learning, to treat \rawmatrix~ matrix unfolding as an image-to-image translation problem. We present results for simulated and experimental matrices of single-$\gamma$ and double-$\gamma$ decay cascades. Our model demonstrates characterization capabilities within detector resolution limits for upwards of 93% of simulated test cases. | 翻訳日:2023-12-16 05:44:13 公開日:2023-12-14 |
# beyond grounding: モダリティを越えてきめ細かいイベント階層を抽出する Beyond Grounding: Extracting Fine-Grained Event Hierarchies Across Modalities ( http://arxiv.org/abs/2206.07207v2 ) ライセンス: Link先を確認 | Hammad A. Ayyubi, Christopher Thomas, Lovish Chum, Rahul Lokesh, Long Chen, Yulei Niu, Xudong Lin, Xuande Feng, Jaywon Koo, Sounak Ray and Shih-Fu Chang | (参考訳) イベントは、重要な世界における出来事を記述します。
当然、マルチメディアコンテンツで言及されている出来事とそれらの関連性を理解することは、世界を理解する重要な方法となっている。
既存の文献は、テキストとビジュアル(ビデオ)ドメイン間のイベントが(グラウンド化によって)同一であるかどうかを推測することができる。
しかし、接地は、多くの意味レベルで言及されるのと同じ出来事のために存在する複雑な相互関係を捉えることに失敗する。
例えば、図1では、「戦争」の抽象的な出来事は、サブイベントの「タンクス」と飛行機の「ショット」(テキスト)を通して下位の意味レベルで現れ、これらの出来事の間に階層的でマルチモーダルな関係をもたらす。
本稿では,複数モーダル(ビデオとテキスト)データからイベント階層を抽出し,同じイベントが異なる意味レベルで異なるモダリティでどのように現れるかを把握するタスクを提案する。
これはイベントの構造を明らかにし、それらを理解する上で重要である。
このタスクの研究を支援するために,マルチモーダル階層イベント(MultiHiEve)データセットを紹介する。
従来のビデオ言語データセットとは異なり、MultiHiEveはニュースビデオとアーティクルのペアで構成されており、イベント階層に富んでいる。
テストベンチマークを構築するためにデータセットの一部に密に注釈を付けます。
本稿では,最先端のユニモーダルベースラインとマルチモーダルベースラインの限界を示す。
さらに,MultiHiEve の未注釈ビデオ列ペアのみを利用する弱教師付きモデルにより,これらの制限に対処する。
提案手法の徹底的な評価を行い,本課題における性能向上と今後の研究の機会を明らかにする。 Events describe happenings in our world that are of importance. Naturally, understanding events mentioned in multimedia content and how they are related forms an important way of comprehending our world. Existing literature can infer if events across textual and visual (video) domains are identical (via grounding) and thus, on the same semantic level. However, grounding fails to capture the intricate cross-event relations that exist due to the same events being referred to on many semantic levels. For example, in Figure 1, the abstract event of "war" manifests at a lower semantic level through subevents "tanks firing" (in video) and airplane "shot" (in text), leading to a hierarchical, multimodal relationship between the events. In this paper, we propose the task of extracting event hierarchies from multimodal (video and text) data to capture how the same event manifests itself in different modalities at different semantic levels. This reveals the structure of events and is critical to understanding them. To support research on this task, we introduce the Multimodal Hierarchical Events (MultiHiEve) dataset. Unlike prior video-language datasets, MultiHiEve is composed of news video-article pairs, which makes it rich in event hierarchies. We densely annotate a part of the dataset to construct the test benchmark. We show the limitations of state-of-the-art unimodal and multimodal baselines on this task. Further, we address these limitations via a new weakly supervised model, leveraging only unannotated video-article pairs from MultiHiEve. We perform a thorough evaluation of our proposed method which demonstrates improved performance on this task and highlight opportunities for future research. | 翻訳日:2023-12-16 05:43:26 公開日:2023-12-14 |
# 逐次学習課題における記憶の影響 The impact of memory on learning sequence-to-sequence tasks ( http://arxiv.org/abs/2205.14683v2 ) ライセンス: Link先を確認 | Alireza Seif, Sarah A.M. Loos, Gennaro Tucci, \'Edgar Rold\'an, Sebastian Goldt | (参考訳) 自然言語処理におけるニューラルネットワークの最近の成功は、seq2seq(learning sequence-to-sequence)タスクに新たな注目を集めている。
ニューラルネットワークの可解モデルを用いて分類と回帰タスクを研究する豊富な文献があるが、seq2seqタスクはこの観点からはまだ研究されていない。
本稿では,ssou(stochastic switching-ornstein-uhlenbeck)モデルを用いて,シーケンス内のメモリ量や非マルコフ性に対する明示的な制御を提供するという利点を持つseq2seqタスクのための単純なモデルを提案する。
シーケンス中のメモリ量を定量化するために,非マルコビアン性の尺度を導入する。
このタスクで訓練された最小の自己回帰学習モデルに対して、SSOUプロセスの定常状態の異なる位相に対応する2つの学習体制を同定する。
これらの位相は、シーケンス統計を管理する2つの異なる時間スケール間の相互作用から生じる。
さらに,ARモデルの統合ウィンドウの増大が常に性能を向上する一方で,リターンが低下する一方,入力シーケンスの非マルコビアン性は向上または低下する可能性があることを観察した。
最後に,繰り返しおよび畳み込みニューラルネットワークを用いて実験を行い,我々の観測がより複雑なニューラルネットワークアーキテクチャに引き継がれることを示す。 The recent success of neural networks in natural language processing has drawn renewed attention to learning sequence-to-sequence (seq2seq) tasks. While there exists a rich literature that studies classification and regression tasks using solvable models of neural networks, seq2seq tasks have not yet been studied from this perspective. Here, we propose a simple model for a seq2seq task that has the advantage of providing explicit control over the degree of memory, or non-Markovianity, in the sequences -- the stochastic switching-Ornstein-Uhlenbeck (SSOU) model. We introduce a measure of non-Markovianity to quantify the amount of memory in the sequences. For a minimal auto-regressive (AR) learning model trained on this task, we identify two learning regimes corresponding to distinct phases in the stationary state of the SSOU process. These phases emerge from the interplay between two different time scales that govern the sequence statistics. Moreover, we observe that while increasing the integration window of the AR model always improves performance, albeit with diminishing returns, increasing the non-Markovianity of the input sequences can improve or degrade its performance. Finally, we perform experiments with recurrent and convolutional neural networks that show that our observations carry over to more complicated neural network architectures. | 翻訳日:2023-12-16 05:42:58 公開日:2023-12-14 |
# 事前訓練された深部階層的vaesによる多彩な超解像 Diverse super-resolution with pretrained deep hiererarchical VAEs ( http://arxiv.org/abs/2205.10347v3 ) ライセンス: Link先を確認 | Jean Prost, Antoine Houdard, Andr\'es Almansa and Nicolas Papadakis | (参考訳) 画像超解像問題に対する多種多様な解を生成する問題について検討する。
確率論的観点からは、高解像度画像上での事前分布の定義を必要とする逆問題の後部分布からサンプリングすることでこれを実現できる。
本研究では,事前訓練された階層型変分オートエンコーダ(HVAE)を前者として使用することを提案する。
我々は,事前学習したhvaeの潜在空間に低解像度画像を符号化するために,軽量確率エンコーダを訓練する。
推論では,低解像度エンコーダと事前学習した生成モデルを組み合わせて画像の超解像を行う。
本手法は,条件付き正規化フロー手法の計算効率と拡散に基づく手法のサンプル品質との間に有利なトレードオフをもたらすことを,超解像の課題として示す。 We investigate the problem of producing diverse solutions to an image super-resolution problem. From a probabilistic perspective, this can be done by sampling from the posterior distribution of an inverse problem, which requires the definition of a prior distribution on the high-resolution images. In this work, we propose to use a pretrained hierarchical variational autoencoder (HVAE) as a prior. We train a lightweight stochastic encoder to encode low-resolution images in the latent space of a pretrained HVAE. At inference, we combine the low-resolution encoder and the pretrained generative model to super-resolve an image. We demonstrate on the task of face super-resolution that our method provides an advantageous trade-off between the computational efficiency of conditional normalizing flows techniques and the sample quality of diffusion based methods. | 翻訳日:2023-12-16 05:42:31 公開日:2023-12-14 |
# 局所的タイトプログラムの検証 Verification of Locally Tight Programs ( http://arxiv.org/abs/2204.10789v2 ) ライセンス: Link先を確認 | Jorge Fandinno, Vladimir Lifschitz, Nathan Temple | (参考訳) プログラム補完は論理プログラムの言語から一階理論の言語への翻訳である。
その本来の定義は整数演算、入力を受け付け、出力述語と補助述語を区別するプログラムにまで拡張されている。
タイトなプログラムでは、完備の一般化は、解集合プログラミングの基盤である安定なモデル意味論と一致することが知られている。
この定理の厳密性条件は、制限の少ない「局所的厳密性」要件に置き換えることができることを示す。
この事実から、証明アシスタント anthem-p2p は局所的タイトなプログラム間の等価性を検証できると結論付ける。
論理プログラミングの理論と実践における出版の考察 Program completion is a translation from the language of logic programs into the language of first-order theories. Its original definition has been extended to programs that include integer arithmetic, accept input, and distinguish between output predicates and auxiliary predicates. For tight programs, that generalization of completion is known to match the stable model semantics, which is the basis of answer set programming. We show that the tightness condition in this theorem can be replaced by a less restrictive "local tightness" requirement. From this fact we conclude that the proof assistant anthem-p2p can be used to verify equivalence between locally tight programs. Under consideration for publication in Theory and Practice of Logic Programming | 翻訳日:2023-12-16 05:41:56 公開日:2023-12-14 |
# 機械意識と人工超知能の認知的アーキテクチャ:作業記憶の反復的更新によって思考が構造化される A Cognitive Architecture for Machine Consciousness and Artificial Superintelligence: Thought Is Structured by the Iterative Updating of Working Memory ( http://arxiv.org/abs/2203.17255v6 ) ライセンス: Link先を確認 | Jared Edward Reser | (参考訳) 本稿では,人間の思考過程をコンピュータ内でシミュレートするための分析フレームワークを提供する。
注意と記憶がどのように構造化され、更新され、思考の流れに連想的な付加物を探すために利用されるかを記述する。
哺乳類のワーキングメモリシステムのダイナミックスを複製することに焦点を当てており、持続的発射(秒の順序に関する情報を保存する)とシナプス増強(数分から数時間の情報を保存する)という2種類の持続的な活動が特徴である。
この記事は40以上の原図を用いて、これらのワーキングメモリストアの反復的な更新が、振る舞い、認知、意識に対する機能的構造をどのように提供しているかを体系的に示す。
aiの実装では、これら2つのメモリストアは連続的に更新され、反復的に更新される必要がある。
したがって、ワーキングメモリの概念は時間とともに徐々に進化していく。
これにより、各状態は前の状態の修正イテレーションとなり、連続した状態はそれらに含まれる情報に対して重複し、ブレンドされる。
状態間の遷移は、持続的な活動が階層ネットワーク全体に活性化エネルギーを広げ、グローバルワークスペースに追加される最も適切な表現のために長期記憶を探索するときに起こる。
その結果、解または目標に向かって進むことができる結合的に連結された中間状態の連鎖となる。
反復的な更新は、情報処理戦略、ワーキングメモリのモデル、意識の理論、人工知能の設計とプログラミングのためのアルゴリズムとして概念化されている。 This article provides an analytical framework for how to simulate human-like thought processes within a computer. It describes how attention and memory should be structured, updated, and utilized to search for associative additions to the stream of thought. The focus is on replicating the dynamics of the mammalian working memory system, which features two forms of persistent activity: sustained firing (preserving information on the order of seconds) and synaptic potentiation (preserving information from minutes to hours). The article uses a series of over 40 original figures to systematically demonstrate how the iterative updating of these working memory stores provides functional structure to behavior, cognition, and consciousness. In an AI implementation, these two memory stores should be updated continuously and in an iterative fashion, meaning each state should preserve a proportion of the coactive representations from the state before it. Thus, the set of concepts in working memory will evolve gradually and incrementally over time. This makes each state a revised iteration of the preceding state and causes successive states to overlap and blend with respect to the information they contain. Transitions between states happen as persistent activity spreads activation energy throughout the hierarchical network searching long-term memory for the most appropriate representation to be added to the global workspace. The result is a chain of associatively linked intermediate states capable of advancing toward a solution or goal. Iterative updating is conceptualized here as an information processing strategy, a model of working memory, a theory of consciousness, and an algorithm for designing and programming artificial general intelligence. | 翻訳日:2023-12-16 05:41:14 公開日:2023-12-14 |
# 粒子の特異ポテンシャルの中心への落下:古典解対量子完全解 Fall of a Particle to the Center of a Singular Potential: Classical vs. Quantum Exact Solutions ( http://arxiv.org/abs/2202.12615v4 ) ライセンス: Link先を確認 | Michael I. Tribelsky | (参考訳) 古典的および量子的ケースにおける非正則化特異ポテンシャルの中心への粒子の落下を記述する厳密な解を求め、比較する。
従来のschr\"{o}dinger方程式の助けを借りて量子問題を調べる。
秋の間、波動関数の空間局在領域は1つのゼロ次元点に収縮する。
秋のポテンシャルに対して、ハミルトニアンは非エルミートである。
そのため、波動関数ノルムは時間に依存する。
これは、平均値計算の連続性方程式と規則のこの場合の拡張を要求する。
驚くべきことに、量子と古典の解は大きな類似点を示す。
特に、どちらも粒子エネルギーが0に等しい点で自己相似である。
量子および古典的な自己相似解の特徴的な空間スケールは同じ時間的依存に従う。
これらの自己相似解は、粒子の有限エネルギーの降下を記述するより広い解のクラスへの引力であることを示す議論を示す。 Exact solutions describing a fall of a particle to the center of a non-regularized singular potential in classical and quantum cases are obtained and compared. We inspect the quantum problem with the help of the conventional Schr\"{o}dinger's equation. During the fall, the wave function spatial localization area contracts into a single zero-dimensional point. For the fall-admitting potentials, the Hamiltonian is non-Hermitian. Because of that, the wave function norm occurs time-dependent. It demands an extension to this case of the continuity equation and rules for mean value calculations. Surprisingly, the quantum and classical solutions exhibit striking similarities. In particular, both are self-similar at the particle energy equals zero. The characteristic spatial scales of the quantum and classical self-similar solutions obey the same temporal dependence. We present arguments indicating that these self-similar solutions are attractors to a broader class of solutions, describing the fall at finite energy of the particle. | 翻訳日:2023-12-16 05:40:48 公開日:2023-12-14 |
# 運動量空間における到着作用素の時間 Time of arrival operator in the momentum space ( http://arxiv.org/abs/2202.10393v4 ) ライセンス: Link先を確認 | A.M. Schlichtinger, A. Jadczyk | (参考訳) ある種の外部場が存在する場合、よく定義された自己随伴時間作用素が存在し、ハミルトニアンとの標準正準可換関係を満たすことが示されている。
例えば、非相対論的および相対論的ハミルトン多様体を持つ一様電場や重力場がある。
これらの作用素の物理的解釈は運動量空間に到着する時間の観点から提案される。 It is shown that in presence of certain external fields a well defined self-adjoint time operator exists, satisfying the standard canonical commutation relations with the Hamiltonian. Examples include uniform electric and gravitational fields with nonrelativistic and relativistic Hamiltonians. The physical intepretation of these operators is proposed in terms of time of arrival in the momentum space. | 翻訳日:2023-12-16 05:40:36 公開日:2023-12-14 |
# Amicable Aid: 画像の摂動による分類性能の向上 Amicable Aid: Perturbing Images to Improve Classification Performance ( http://arxiv.org/abs/2112.04720v4 ) ライセンス: Link先を確認 | Juyeop Kim, Jun-Ho Choi, Soobeom Jang, Jong-Seok Lee | (参考訳) 深部画像分類モデルに対する画像の敵対的摂動は,実際には深刻なセキュリティ上の懸念を生じさせるが,本稿では,画像摂動の概念が分類性能に寄与する新たなパラダイムを提案する。
摂動の反対探索方向を取ることで、高い分類信頼を得るように画像を変更することができ、誤分類画像であっても正しく分類できることを示す。
これは、画像が人間の目で認識できないような大量の摂動でも達成できる。
友好的援助のメカニズムは、基礎となる自然画像多様体の観点から説明される。
さらに,複数の画像に対して固定摂動を適用でき,その分類結果を改善する。
このような摂動を見いだすことは困難であるが、修正データを用いた訓練により、画像多様体に可能な限り垂直な決定境界を作ることは、普遍的な共役摂動がより容易に見つかるモデルを得るのに有効であることを示す。 While adversarial perturbation of images to attack deep image classification models pose serious security concerns in practice, this paper suggests a novel paradigm where the concept of image perturbation can benefit classification performance, which we call amicable aid. We show that by taking the opposite search direction of perturbation, an image can be modified to yield higher classification confidence and even a misclassified image can be made correctly classified. This can be also achieved with a large amount of perturbation by which the image is made unrecognizable by human eyes. The mechanism of the amicable aid is explained in the viewpoint of the underlying natural image manifold. Furthermore, we investigate the universal amicable aid, i.e., a fixed perturbation can be applied to multiple images to improve their classification results. While it is challenging to find such perturbations, we show that making the decision boundary as perpendicular to the image manifold as possible via training with modified data is effective to obtain a model for which universal amicable perturbations are more easily found. | 翻訳日:2023-12-16 05:40:30 公開日:2023-12-14 |
# LGD-GCN: ローカルおよびグローバルな分散グラフ畳み込みネットワーク LGD-GCN: Local and Global Disentangled Graph Convolutional Networks ( http://arxiv.org/abs/2104.11893v3 ) ライセンス: Link先を確認 | Jingwei Guo, Kaizhu Huang, Xinping Yi, Rui Zhang | (参考訳) disentangled graph convolutional network(disengcn)は、実世界のグラフで発生する潜在要因を解消するためのフレームワークである。
しかし、ローカルな範囲(すなわちノードとその1ホップの隣人)からの情報の密接化に依存しており、多くの場合、ローカルな情報は不均一で不完全であり、DisenGCNの補間力やモデル性能を妨げている。
この論文はより軽いバージョンの \href{https://jingweio.github.io/assets/pdf/tnnls22.pdf}{"learning disentangled graph convolutional networks local and global"である。
デジタルオブジェクト識別子 \url{https://doi.org/10.1109/tnnls.2022.3 195336}
そこで我々は,ローカル・グローバル・ディスアングル・グラフ畳み込みネットワーク(LGD-GCN)を導入し,グラフ・ディスアンタングルのためのローカル・グローバル両方の情報を取得する。
LGD-GCNは、因子対応の潜伏連続空間を導出する統計混合モデルを実行し、その後、明らかにされた空間から異なる構造を合成する。
このようにして、グローバルファクタ固有の情報は、これらの構築された構造に沿って渡されるメッセージを通じて効率的かつ選択的にエンコードされ、ファクタ内一貫性が強化される。
また, 潜在空間モデルを用いて, 因子間多様性を促進するための新しい多様性促進手法を提案する。
合成および実世界のデータセットに対するLGD-GCNの評価は、既存の競合モデルよりも優れた解釈可能性とノード分類の性能の向上を示している。
コードは \url{https://github.com/jingweio/lgd-gcn} で入手できる。 Disentangled Graph Convolutional Network (DisenGCN) is an encouraging framework to disentangle the latent factors arising in a real-world graph. However, it relies on disentangling information heavily from a local range (i.e., a node and its 1-hop neighbors), while the local information in many cases can be uneven and incomplete, hindering the interpretabiliy power and model performance of DisenGCN. In this paper\footnote{This paper is a lighter version of \href{https://jingweio.github.io/assets/pdf/tnnls22.pdf}{"Learning Disentangled Graph Convolutional Networks Locally and Globally"} where the results and analysis have been reworked substantially. Digital Object Identifier \url{https://doi.org/10.1109/TNNLS.2022.3195336}.}, we introduce a novel Local and Global Disentangled Graph Convolutional Network (LGD-GCN) to capture both local and global information for graph disentanglement. LGD-GCN performs a statistical mixture modeling to derive a factor-aware latent continuous space, and then constructs different structures w.r.t. different factors from the revealed space. In this way, the global factor-specific information can be efficiently and selectively encoded via a message passing along these built structures, strengthening the intra-factor consistency. We also propose a novel diversity promoting regularizer employed with the latent space modeling, to encourage inter-factor diversity. Evaluations of the proposed LGD-GCN on the synthetic and real-world datasets show a better interpretability and improved performance in node classification over the existing competitive models. Code is available at \url{https://github.com/jingweio/LGD-GCN}. | 翻訳日:2023-12-16 05:39:59 公開日:2023-12-14 |
# AmbiFC: 証拠のある曖昧な主張 AmbiFC: Fact-Checking Ambiguous Claims with Evidence ( http://arxiv.org/abs/2104.00640v4 ) ライセンス: Link先を確認 | Max Glockner, Ieva Stali\=unait\.e, James Thorne, Gisela Vallejo, Andreas Vlachos, Iryna Gurevych | (参考訳) 自動ファクトチェックシステムは、証拠に対する主張を検証し、その正確性を予測する。
現実世界のシナリオでは、回収された証拠は明らかに主張を支持したり否定したりせず、矛盾するが有効な解釈をもたらす。
既存のファクトチェックデータセットは、モデルが開発したモデルが各クレームに対して単一の正確性ラベルを予測していると仮定する。
この問題に対処するために,実世界の情報ニーズから10kクレームを抽出したファクトチェックデータセットであるAmbiFCを紹介する。
ウィキペディアの5kページから50k節の詳細なエビデンスアノテーションが含まれている。
我々は,ambifcの主張と証拠を比較する際,曖昧さから生じる不一致を分析し,アノテータの不一致と不特定化や確率的推論などの言語現象との強い相関を観察した。
我々は,このあいまいさをソフトラベルで予測するモデルを開発し,文レベルのエビデンス選択と妥当性予測のためにラベル分布を学習するパイプラインが最高の性能をもたらすことを発見した。
我々はAmbiFCの異なるサブセットで訓練されたモデルを比較し、あいまいなインスタンスで訓練されたモデルが識別された言語現象に直面すると、より良い性能を示すことを示す。 Automated fact-checking systems verify claims against evidence to predict their veracity. In real-world scenarios, the retrieved evidence may not unambiguously support or refute the claim and yield conflicting but valid interpretations. Existing fact-checking datasets assume that the models developed with them predict a single veracity label for each claim, thus discouraging the handling of such ambiguity. To address this issue we present AmbiFC, a fact-checking dataset with 10k claims derived from real-world information needs. It contains fine-grained evidence annotations of 50k passages from 5k Wikipedia pages. We analyze the disagreements arising from ambiguity when comparing claims against evidence in AmbiFC, observing a strong correlation of annotator disagreement with linguistic phenomena such as underspecification and probabilistic reasoning. We develop models for predicting veracity handling this ambiguity via soft labels and find that a pipeline that learns the label distribution for sentence-level evidence selection and veracity prediction yields the best performance. We compare models trained on different subsets of AmbiFC and show that models trained on the ambiguous instances perform better when faced with the identified linguistic phenomena. | 翻訳日:2023-12-16 05:39:26 公開日:2023-12-14 |
# ViTPose++: ジェネリックボディポーズ推定のための視覚変換器 ViTPose++: Vision Transformer for Generic Body Pose Estimation ( http://arxiv.org/abs/2212.04246v3 ) ライセンス: Link先を確認 | Yufei Xu, Jing Zhang, Qiming Zhang, Dacheng Tao | (参考訳) 本稿では,モデル構造の単純さ,モデルサイズにおける拡張性,トレーニングパラダイムの柔軟性,モデル間の知識の伝達性など,様々な側面から身体ポーズ推定のためのプレーンビジョントランスフォーマの驚くほど優れた特性を,vitposeと呼ばれる単純なベースラインモデルを用いて示す。
具体的には、VTPoseは、特徴をエンコードするエンコーダと、ボディーキーポイントをトップダウンまたはボトムアップの方法でデコードする軽量デコーダとして、平らで非階層的な視覚変換器を使用している。
スケーラブルなモデルキャパシティとvision transformerの高並列性を利用して、スループットとパフォーマンスのために新しいparetoフロントを設定することで、約20mから1bのパラメータにスケールアップできる。
さらに、ViTPoseは注意タイプ、入力解像度、事前学習および微調整戦略に関して非常に柔軟である。
この柔軟性に基づき,多種多様なボディポーズ推定タスク,すなわち,タスク非依存およびタスク特化フィードフォワードネットワークをトランスフォーマーに導入することにより,不均一なボディキーポイントカテゴリを扱う新しいViTPose+モデルを提案する。
また,大規模なViTPoseモデルの知識を,簡単な知識トークンで簡単に小さなものに伝達できることを実証的に実証した。
実験結果から, トップダウンおよびボトムアップの両設定において, 課題であるMS COCO Human Keypoint Detectionベンチマークにおいて, 提案するViTPoseモデルよりも優れていた。
さらに,人間のキーポイント検出のためのMS COCO, AI Challenger, OCHuman, MPII, 全身キーポイント検出のためのCOCO-Wholebody, 動物のキーポイント検出のためのAP-10K, APT-36Kなど,一連のボディポーズ推定タスクを同時に行う。 In this paper, we show the surprisingly good properties of plain vision transformers for body pose estimation from various aspects, namely simplicity in model structure, scalability in model size, flexibility in training paradigm, and transferability of knowledge between models, through a simple baseline model dubbed ViTPose. Specifically, ViTPose employs the plain and non-hierarchical vision transformer as an encoder to encode features and a lightweight decoder to decode body keypoints in either a top-down or a bottom-up manner. It can be scaled up from about 20M to 1B parameters by taking advantage of the scalable model capacity and high parallelism of the vision transformer, setting a new Pareto front for throughput and performance. Besides, ViTPose is very flexible regarding the attention type, input resolution, and pre-training and fine-tuning strategy. Based on the flexibility, a novel ViTPose+ model is proposed to deal with heterogeneous body keypoint categories in different types of body pose estimation tasks via knowledge factorization, i.e., adopting task-agnostic and task-specific feed-forward networks in the transformer. We also empirically demonstrate that the knowledge of large ViTPose models can be easily transferred to small ones via a simple knowledge token. Experimental results show that our ViTPose model outperforms representative methods on the challenging MS COCO Human Keypoint Detection benchmark at both top-down and bottom-up settings. Furthermore, our ViTPose+ model achieves state-of-the-art performance simultaneously on a series of body pose estimation tasks, including MS COCO, AI Challenger, OCHuman, MPII for human keypoint detection, COCO-Wholebody for whole-body keypoint detection, as well as AP-10K and APT-36K for animal keypoint detection, without sacrificing inference speed. | 翻訳日:2023-12-16 05:32:30 公開日:2023-12-14 |
# トラクタニューラルネットワークにおけるベクトル記号有限状態機械 Vector Symbolic Finite State Machines in Attractor Neural Networks ( http://arxiv.org/abs/2212.01196v2 ) ライセンス: Link先を確認 | Madison Cotteret, Hugh Greatorex, Martin Ziegler, Elisabetta Chicca | (参考訳) ホップフィールドアトラクタネットワークは、ヒトの記憶の堅牢な分散モデルであるが、入力に応じて状態依存アトラクタ遷移に影響を及ぼす一般的なメカニズムを欠いている。
本稿では,アトラクタネットワークが任意の有限状態機械(fsm)を実装し,状態と刺激を高次元ランダムベクトルで表現し,すべての状態遷移をアトラクタネットワークのダイナミクスによって成立させる構成則を提案する。
数値シミュレーションにより、モデルの容量は、実装可能なfsmの最大サイズで、高密度双極子状態ベクトルのアトラクタネットワークのサイズで線形であり、スパース二元状態ベクトルの約2乗であることが示された。
モデルが不正確でノイズの多い重み付けに頑健であることを示し、高密度だが信頼性の低いデバイスによる実装の候補となる。
任意のFSMをエミュレートできるアトラクタネットワークを付与することにより、生物学的ニューラルネットワークにおいてFSMが分散計算プリミティブとして存在することを示す。 Hopfield attractor networks are robust distributed models of human memory, but lack a general mechanism for effecting state-dependent attractor transitions in response to input. We propose construction rules such that an attractor network may implement an arbitrary finite state machine (FSM), where states and stimuli are represented by high-dimensional random vectors, and all state transitions are enacted by the attractor network's dynamics. Numerical simulations show the capacity of the model, in terms of the maximum size of implementable FSM, to be linear in the size of the attractor network for dense bipolar state vectors, and approximately quadratic for sparse binary state vectors. We show that the model is robust to imprecise and noisy weights, and so a prime candidate for implementation with high-density but unreliable devices. By endowing attractor networks with the ability to emulate arbitrary FSMs, we propose a plausible path by which FSMs could exist as a distributed computational primitive in biological neural networks. | 翻訳日:2023-12-16 05:31:29 公開日:2023-12-14 |
# 深層強化学習による孤立型オンライン仮想ネットワーク埋め込み An Isolation-Aware Online Virtual Network Embedding via Deep Reinforcement Learning ( http://arxiv.org/abs/2211.14158v3 ) ライセンス: Link先を確認 | Ali Gohar, Chunming Rong, Sanghwan Lee | (参考訳) 仮想化技術は、現代的なictインフラストラクチャの基礎であり、サービスプロバイダが幅広いスマートシティアプリケーションをサポートする専用の仮想ネットワーク(vns)を作成することができる。
これらのVNは大量のデータを継続的に生成し、厳格な信頼性とセキュリティ要件を必要とする。
しかし、仮想化ネットワーク環境では、複数のVNが同一の物理インフラ上で共存し、適切に分離されていない場合、互いに干渉したり、相互に不正アクセスを与えたりすることができる。
前者は性能低下を引き起こすが、後者はVNのセキュリティを損なう。
特定のvnが分離要件に違反した場合、インフラストラクチャプロバイダのサービス保証は大幅に複雑になる。
本稿では,VNを物理インフラに割り当てる仮想ネットワーク埋め込み(VNE)における分離手法を提案する。
分離レベルの単純な抽象概念を定義して,分離要件のバリエーションを捉え,リソースと分離制約の最適化問題として分離対応vneを定式化する。
リソースとアイソレーションの制約を考慮し,既存の3つの最先端アルゴリズムであるNodeRank, Global Resource Capacity (GRC), Mote-Carlo Tree Search (MCTS)と比較した,DRL(Deep reinforcement Learning)ベースのVNEアルゴリズムであるISO-DRL_VNEを提案する。
評価の結果,iso-drl_vneアルゴリズムは,受入率,長期平均収益率,長期平均収益対コスト比において,6%,13%,15%の差を示した。 Virtualization technologies are the foundation of modern ICT infrastructure, enabling service providers to create dedicated virtual networks (VNs) that can support a wide range of smart city applications. These VNs continuously generate massive amounts of data, necessitating stringent reliability and security requirements. In virtualized network environments, however, multiple VNs may coexist on the same physical infrastructure and, if not properly isolated, may interfere with or provide unauthorized access to one another. The former causes performance degradation, while the latter compromises the security of VNs. Service assurance for infrastructure providers becomes significantly more complicated when a specific VN violates the isolation requirement. In an effort to address the isolation issue, this paper proposes isolation during virtual network embedding (VNE), the procedure of allocating VNs onto physical infrastructure. We define a simple abstracted concept of isolation levels to capture the variations in isolation requirements and then formulate isolation-aware VNE as an optimization problem with resource and isolation constraints. A deep reinforcement learning (DRL)-based VNE algorithm ISO-DRL_VNE, is proposed that considers resource and isolation constraints and is compared to the existing three state-of-the-art algorithms: NodeRank, Global Resource Capacity (GRC), and Mote-Carlo Tree Search (MCTS). Evaluation results show that the ISO-DRL_VNE algorithm outperforms others in acceptance ratio, long-term average revenue, and long-term average revenue-to-cost ratio by 6%, 13%, and 15%. | 翻訳日:2023-12-16 05:31:09 公開日:2023-12-14 |
# 物理インフォームドニューラルネットワークによるパスロス予測 Physics-informed neural networks for pathloss prediction ( http://arxiv.org/abs/2211.12986v2 ) ライセンス: Link先を確認 | Steffen Limmer, Alberto Martinez Alba, Nicola Michailow | (参考訳) 本稿では,パスロス予測のための物理インフォームド機械学習手法を提案する。
これは同時にトレーニングフェーズを含めることで達成される。
一 空間損失場と空間損失場の物理的依存関係
(ii)フィールド内のパスロス値を測定した。
提案する学習問題の解法が,少数のニューラルネットワーク層とパラメータを用いて一般化と予測品質を向上させることを示した。
後者は、ローカライゼーションのような下流タスクに好適な、高速な推論時間をもたらす。
さらに、物理情報を用いた定式化により、少量のトレーニングデータによるトレーニングと予測が可能となり、幅広い実用的なパスロス予測シナリオにアピールすることができる。 This paper introduces a physics-informed machine learning approach for pathloss prediction. This is achieved by including in the training phase simultaneously (i) physical dependencies between spatial loss field and (ii) measured pathloss values in the field. It is shown that the solution to a proposed learning problem improves generalization and prediction quality with a small number of neural network layers and parameters. The latter leads to fast inference times which are favorable for downstream tasks such as localization. Moreover, the physics-informed formulation allows training and prediction with a small amount of training data which makes it appealing for a wide range of practical pathloss prediction scenarios. | 翻訳日:2023-12-16 05:30:42 公開日:2023-12-14 |
# 分散最適化と学習のレジリエンスに及ぼす冗長性の影響 Impact of Redundancy on Resilience in Distributed Optimization and Learning ( http://arxiv.org/abs/2211.08622v2 ) ライセンス: Link先を確認 | Shuo Liu, Nirupam Gupta, Nitin H. Vaidya | (参考訳) 本稿では,サーバアーキテクチャにおけるレジリエントな分散最適化と確率学習の問題について考察する。
システムはサーバと複数のエージェントから構成され、各エージェントは独自のローカルコスト関数を持つ。
エージェントはサーバと連携して、ローカルコスト関数の集約の最小値を求める。
確率学習の文脈において、エージェントの局所的なコストは、エージェントのデータ上で計算された損失関数である。
本報告では, エージェントのいくつかがビザンチンの欠陥であり, エージェントのいくつかが遅い(ストラグラーとも呼ばれる)システムでこの問題を考察する。
本研究では,上記の問題に対する「近似」解を求めることができる条件について検討する。
特に、$(f, r; \epsilon)$-レジリエンスの概念を導入して、真の解が最大$f$ビザンチン欠陥エージェントの存在下でどのように近似しているかを特徴付け、最大$r$遅いエージェント(またはストラグラー) -- 小さな$\epsilon$はより良い近似を表す。
また、エージェントのコスト関数の冗長性を特徴付けるために、$(f, r; \epsilon)$-redundancyという尺度も導入する。
より大きな冗長性は、総コスト最小化の問題を解決する際により良い近似を可能にする。
本報告では、局所コスト関数が十分冗長であることを考えると、$(f, r; \mathcal{O}(\epsilon))$-レジリエンスが実際に達成可能であることを(理論的にも経験的にも)構築的に示す。 This report considers the problem of resilient distributed optimization and stochastic learning in a server-based architecture. The system comprises a server and multiple agents, where each agent has its own local cost function. The agents collaborate with the server to find a minimum of the aggregate of the local cost functions. In the context of stochastic learning, the local cost of an agent is the loss function computed over the data at that agent. In this report, we consider this problem in a system wherein some of the agents may be Byzantine faulty and some of the agents may be slow (also called stragglers). In this setting, we investigate the conditions under which it is possible to obtain an "approximate" solution to the above problem. In particular, we introduce the notion of $(f, r; \epsilon)$-resilience to characterize how well the true solution is approximated in the presence of up to $f$ Byzantine faulty agents, and up to $r$ slow agents (or stragglers) -- smaller $\epsilon$ represents a better approximation. We also introduce a measure named $(f, r; \epsilon)$-redundancy to characterize the redundancy in the cost functions of the agents. Greater redundancy allows for a better approximation when solving the problem of aggregate cost minimization. In this report, we constructively show (both theoretically and empirically) that $(f, r; \mathcal{O}(\epsilon))$-resilience can indeed be achieved in practice, given that the local cost functions are sufficiently redundant. | 翻訳日:2023-12-16 05:30:35 公開日:2023-12-14 |
# 言語モデルを用いた制御可能な引用文生成 Controllable Citation Sentence Generation with Language Models ( http://arxiv.org/abs/2211.07066v2 ) ライセンス: Link先を確認 | Nianlong Gu, Richard H.R. Hahnloser | (参考訳) 引用生成は、原稿の文脈で選択された論文を参照する引用文を生成することを目的とする。
しかし、厳格な引用生成プロセスは、著者が特定の属性を制御したいという欲求と相反する。
1) 引用意図,例えば,背景情報の導入又は結果の比較等
2) 引用テキストに表示されるべきキーワード。
そこで本稿では,引用生成時のこれらの制御可能性向上のために,原稿コンテキスト,参照論文のコンテキスト,および所望の制御属性を構造化テンプレートに統合し,次世代の予測を通じて言語モデル(LM)を微調整する手法を提案する。
次に,提案する制御可能性指標の高いスコアに有利なlmを直接最適化するために近位政策最適化を利用する。
提案したワークフローは、引用属性の提案と条件付き引用生成を1つのLMに調和して組み合わせ、より良いユーザ制御を実現する。 Citation generation aims to generate a citation sentence that refers to a chosen paper in the context of a manuscript. However, a rigid citation generation process is at odds with an author's desire to control specific attributes, such as 1) the citation intent, e.g., either introducing background information or comparing results, and 2) keywords that should appear in the citation text. To provide these degrees of controllability during citation generation, we propose to integrate the manuscript context, the context of the referenced paper, and the desired control attributes into a structured template and use it to fine-tune a language model (LM) via next-token prediction. We then utilize Proximal Policy Optimization to directly optimize the LM in favor of a high score of our proposed controllability metric. The proposed workflow harmoniously combines citation attribute suggestion and conditional citation generation into one LM, allowing for better user control. | 翻訳日:2023-12-16 05:30:04 公開日:2023-12-14 |
# グラフ型模倣学習による置換フローショップスケジューリングの最適化 Learning to Optimize Permutation Flow Shop Scheduling via Graph-based Imitation Learning ( http://arxiv.org/abs/2210.17178v2 ) ライセンス: Link先を確認 | Longkang Li, Siyuan Liang, Zihao Zhu, Chris Ding, Hongyuan Zha, Baoyuan Wu | (参考訳) ジョブの最適な置換を見つけることを目的としたpfss(permutation flow shop scheduling)は、製造システムで広く使われている。
大規模PFSS問題を解く際、ヒューリスティックスのような従来の最適化アルゴリズムは解の精度と計算効率の両方の要求を満たすことはほとんどできず、近年は学習ベースの手法が注目されている。
いくつかの研究は、訓練中に収束の遅い問題に悩まされ、まだ解に関して十分な正確性を持っていない強化学習法によって問題を解決しようとする。
そこで我々は,より安定的かつ正確に収束を加速するエキスパート駆動模倣学習(expert-driven imitation learning)によるモデル学習を提案する。
さらに,入力ジョブのより優れた特徴表現を抽出するために,グラフ構造をエンコーダとして組み込む。
広範な実験により,提案モデルが有意な推進力を得て,最大1000ジョブの大規模問題において優れた一般化性を示すことが明らかとなった。
最新の強化学習法と比較して,モデルのネットワークパラメータは37\%に減少し,エキスパートソリューションに対するモデルの解ギャップは平均で6.8\%から1.3\%に低下した。
コードは以下の通り。 \url{https://github.com/longkangli/PFSS-IL}。 The permutation flow shop scheduling (PFSS), aiming at finding the optimal permutation of jobs, is widely used in manufacturing systems. When solving large-scale PFSS problems, traditional optimization algorithms such as heuristics could hardly meet the demands of both solution accuracy and computational efficiency, thus learning-based methods have recently garnered more attention. Some work attempts to solve the problems by reinforcement learning methods, which suffer from slow convergence issues during training and are still not accurate enough regarding the solutions. To that end, we propose to train the model via expert-driven imitation learning, which accelerates convergence more stably and accurately. Moreover, in order to extract better feature representations of input jobs, we incorporate the graph structure as the encoder. The extensive experiments reveal that our proposed model obtains significant promotion and presents excellent generalizability in large-scale problems with up to 1000 jobs. Compared to the state-of-the-art reinforcement learning method, our model's network parameters are reduced to only 37\% of theirs, and the solution gap of our model towards the expert solutions decreases from 6.8\% to 1.3\% on average. The code is available at: \url{https://github.com/longkangli/PFSS-IL}. | 翻訳日:2023-12-16 05:29:32 公開日:2023-12-14 |
# 視覚変換器の曲面表現空間 Curved Representation Space of Vision Transformers ( http://arxiv.org/abs/2210.05742v2 ) ライセンス: Link先を確認 | Juyeop Kim and Junha Park and Songkuk Kim and Jong-Seok Lee | (参考訳) ViTやSwinのような自己注意型ニューラルネットワーク(別名トランスフォーマー)は、従来の畳み込みニューラルネットワーク(CNN)の代替として登場した。
しかしながら、新しいアーキテクチャの動作に対する私たちの理解はまだ限られています。
本稿では,トランスフォーマーがCNNよりも汚職に対する堅牢性が高いが,過度に信頼されていない現象に着目した。
これは、信頼によって堅牢性が増加するという直観に反する。
入力データが小さい領域内で直線的に移動するとき、ペナルティメート層の出力がどのように表現空間内を移動するかを実証的に検討することで、この矛盾を解消する。
特に、以下に示す。
1) CNNは入力運動と出力運動の間にかなり線形関係を示すが, 変換器はデータに対して非線形関係を示す。
これらのデータに対して、トランスフォーマーの出力は、入力が線形に動くにつれて曲線軌道に移動する。
2) 曲線領域にデータが配置されている場合, 出力が直線ではなく曲線軌道に沿って決定境界に移動するため, 変換器の堅牢性が高いため, 決定領域から外すことは困難である。
3) データが湾曲した領域から飛び出すようにわずかに修正されると、その動きは線形となり、出力は直接決定境界となる。
言い換えれば、データの近くに決定境界が存在するが、曲線表現空間のためだけに見つけることは困難である。
これはトランスフォーマーの信頼性の低い予測を説明する。
また,線形摂動に対する非線形応答を誘導する注意操作の数学的特性について検討する。
最後に、トランスフォーマーの曲面表現空間に何をもたらすか、トレーニング中の曲線性がどのように進化するかについて、さらなる知見を共有します。 Neural networks with self-attention (a.k.a. Transformers) like ViT and Swin have emerged as a better alternative to traditional convolutional neural networks (CNNs). However, our understanding of how the new architecture works is still limited. In this paper, we focus on the phenomenon that Transformers show higher robustness against corruptions than CNNs, while not being overconfident. This is contrary to the intuition that robustness increases with confidence. We resolve this contradiction by empirically investigating how the output of the penultimate layer moves in the representation space as the input data moves linearly within a small area. In particular, we show the following. (1) While CNNs exhibit fairly linear relationship between the input and output movements, Transformers show nonlinear relationship for some data. For those data, the output of Transformers moves in a curved trajectory as the input moves linearly. (2) When a data is located in a curved region, it is hard to move it out of the decision region since the output moves along a curved trajectory instead of a straight line to the decision boundary, resulting in high robustness of Transformers. (3) If a data is slightly modified to jump out of the curved region, the movements afterwards become linear and the output goes to the decision boundary directly. In other words, there does exist a decision boundary near the data, which is hard to find only because of the curved representation space. This explains the underconfident prediction of Transformers. Also, we examine mathematical properties of the attention operation that induce nonlinear response to linear perturbation. Finally, we share our additional findings, regarding what contributes to the curved representation space of Transformers, and how the curvedness evolves during training. | 翻訳日:2023-12-16 05:29:08 公開日:2023-12-14 |
# 量子暗号における一方向性 One-Wayness in Quantum Cryptography ( http://arxiv.org/abs/2210.03394v2 ) ライセンス: Link先を確認 | Tomoyuki Morimae, Takashi Yamakawa | (参考訳) 片道関数の存在は、古典暗号における最も基本的な仮定の1つである。
一方、量子世界では、一方の関数が存在しない場合でも、いくつかの暗号プリミティブが存在するという証拠がある。
したがって、量子暗号において、次の重要なオープン問題が存在する:量子暗号において、最も基本的な要素は何か?
この方向において、Brakerski、Canetti、QianはEFIペアという概念を最近定義し、これは統計的に区別できるが計算的に区別できない効率的な生成可能な状態のペアであり、コミットメント、暗黙の転送、一般のマルチパーティ計算を含むいくつかの暗号プリミティブと等価であることを示した。
しかしながら、彼らの研究は決定型プリミティブに焦点を当てており、量子マネーやデジタルシグネチャのような検索型プリミティブをカバーしていない。
本稿では,一方向関数の量子アナログである一方向状態発生器(OWSG)の特性について検討する。
まず、OWSGの定義を再検討し、混合出力状態を許容して一般化する。
次に以下の結果を示す。
1) OWSG の弱いバージョン、弱いバージョンを定義し、OWSG と同値であることを示す。
(2) 量子デジタル署名はowsgsと等価である。
(3)秘密鍵量子マネースキーム(純貨幣状態)は、OWSGを暗示する。
(4)量子擬似ワンタイムパッド方式は、OWSGとEFIのペアの両方を意味する。
(5) 秘かに検証可能で統計的に可逆な OWSG と呼ばれる OWSG の非比較可能変種を導入し,それらが EFI 対と等価であることを示す。 The existence of one-way functions is one of the most fundamental assumptions in classical cryptography. In the quantum world, on the other hand, there are evidences that some cryptographic primitives can exist even if one-way functions do not exist. We therefore have the following important open problem in quantum cryptography: What is the most fundamental element in quantum cryptography? In this direction, Brakerski, Canetti, and Qian recently defined a notion called EFI pairs, which are pairs of efficiently generatable states that are statistically distinguishable but computationally indistinguishable, and showed its equivalence with some cryptographic primitives including commitments, oblivious transfer, and general multi-party computations. However, their work focuses on decision-type primitives and does not cover search-type primitives like quantum money and digital signatures. In this paper, we study properties of one-way state generators (OWSGs), which are a quantum analogue of one-way functions. We first revisit the definition of OWSGs and generalize it by allowing mixed output states. Then we show the following results. (1) We define a weaker version of OWSGs, weak OWSGs, and show that they are equivalent to OWSGs. (2) Quantum digital signatures are equivalent to OWSGs. (3) Private-key quantum money schemes (with pure money states) imply OWSGs. (4) Quantum pseudo one-time pad schemes imply both OWSGs and EFI pairs. (5) We introduce an incomparable variant of OWSGs, which we call secretly-verifiable and statistically-invertible OWSGs, and show that they are equivalent to EFI pairs. | 翻訳日:2023-12-16 05:28:24 公開日:2023-12-14 |
# フェデレーション学習における勾配漏洩に対する敏感なサンプルの隠蔽 Concealing Sensitive Samples against Gradient Leakage in Federated Learning ( http://arxiv.org/abs/2209.05724v2 ) ライセンス: Link先を確認 | Jing Wu, Munawar Hayat, Mingyi Zhou, Mehrtash Harandi | (参考訳) Federated Learning(FL)は、クライアントが生のプライベートデータをサーバと共有する必要をなくし、ユーザのプライバシを高める分散学習パラダイムである。
このような成功にもかかわらず、最近の研究では、flの脆弱性がインバージョン攻撃のモデル化に現れ、敵が共有勾配情報を盗聴することでユーザーのプライベートデータを再構築する。
このような攻撃を成功させる重要な要因は、確率的最適化中にバッチ内のデータ毎の勾配が低いことであると仮定する。
これにより、敵が機密データを再構築するために悪用できる脆弱性が生じる。
この知見に基づいて,機密データの勾配を隠蔽したサンプルで隠蔽する,単純かつ効果的な防御戦略を提案する。
そこで本研究では,実際の感度データと視覚的に類似性を確保しつつ,勾配レベルでの感度データを模倣するために,隠蔽標本の合成を提案する。
従来の技術と比較すると,提案手法はFL性能を同時に維持しつつ,最強の保護を提供すると考えられる。 Federated Learning (FL) is a distributed learning paradigm that enhances users privacy by eliminating the need for clients to share raw, private data with the server. Despite the success, recent studies expose the vulnerability of FL to model inversion attacks, where adversaries reconstruct users private data via eavesdropping on the shared gradient information. We hypothesize that a key factor in the success of such attacks is the low entanglement among gradients per data within the batch during stochastic optimization. This creates a vulnerability that an adversary can exploit to reconstruct the sensitive data. Building upon this insight, we present a simple, yet effective defense strategy that obfuscates the gradients of the sensitive data with concealed samples. To achieve this, we propose synthesizing concealed samples to mimic the sensitive data at the gradient level while ensuring their visual dissimilarity from the actual sensitive data. Compared to the previous art, our empirical evaluations suggest that the proposed technique provides the strongest protection while simultaneously maintaining the FL performance. | 翻訳日:2023-12-16 05:27:56 公開日:2023-12-14 |
# エルミートおよび非エルミート界面の解析と設計に対する再正規化アプローチ Renormalization approach to the analysis and design of Hermitian and non-Hermitian interfaces ( http://arxiv.org/abs/2208.14626v2 ) ライセンス: Link先を確認 | Henning Schomerus | (参考訳) 従来のバルク境界原理に従うか否かにかかわらず、ハーミートおよび非エルミートモデルの幅広いクラスにおける界面状態の統一的な視点を提供する具体的で効率的な実空間再正規化手法について述べる。
出現する界面物理は、微小な界面パラメータのフローによって制御され、界面状態の性質はこの流れの固定点トポロジーと関連付けられる。
特に、界面状態の量子化条件は、収束の問題を不安定な不動点に同一に変換する。
重要なメリットとして、このアプローチは、具体的なモデルに直接適用でき、所定の対称性破壊エネルギーを持つ状態など、望ましい性質を持つ状態を誘導するインターフェースを設計するのに使うことができる。
一般論として, 円, 三角形, 四角形状の複合分散バンドの設計や, 二次元系の端面に付随するアークの設計など, 様々な場面でこれらの特徴を実証する。
さらに、このアプローチが非線形な設定にどのように移行するかを説明し、分散飽和利得と損失による位相モード選択のパラダイムモデルに対して、この拡張の効率性、実用性、一貫性を示す。 I describe a concrete and efficient real-space renormalization approach that provides a unifying perspective on interface states in a wide class of Hermitian and non-Hermitian models, irrespective of whether they obey a traditional bulk-boundary principle or not. The emerging interface physics are governed by a flow of microscopic interface parameters, and the properties of interface states become linked to the fixed-point topology of this flow. In particular, the quantization condition of interface states converts identically into the question of the convergence to unstable fixed points. As its key merit, the approach can be directly applied to concrete models and utilized to design interfaces that induce states with desired properties, such as states with a predetermined and possibly symmetry-breaking energy. I develop the approach in general, and then demonstrate these features in various settings, including for the design of circular, triangular and square-shaped complex dispersion bands and associated arcs at the edge of a two-dimensional system. Furthermore, I describe how this approach transfers to nonlinear settings, and demonstrate the efficiency, practicability and consistency of this extension for a paradigmatic model of topological mode selection by distributed saturable gain and loss. | 翻訳日:2023-12-16 05:27:40 公開日:2023-12-14 |
# 網膜光コヒーレンス断層画像からのメタデータ強調コントラスト学習 Metadata-enhanced contrastive learning from retinal optical coherence tomography images ( http://arxiv.org/abs/2208.02529v2 ) ライセンス: Link先を確認 | Robbie Holland, Oliver Leingang, Hrvoje Bogunovi\'c, Sophie Riedl, Lars Fritsche, Toby Prevost, Hendrik P. N. Scholl, Ursula Schmidt-Erfurth, Sobha Sivaprasad, Andrew J. Lotery, Daniel Rueckert and Martin J. Menten | (参考訳) 深層学習は、医療画像における疾患のスクリーニング、監視、評価を自動化する可能性がある。
対照的な学習による事前トレーニングにより、モデルは自然画像データセットから堅牢で一般化可能な特徴を抽出し、ラベル効率のよい下流画像解析を容易にする。
しかし、従来のコントラスト法を直接医療データセットに適用することは、ドメイン固有の2つの問題をもたらす。
第一に、効果的なコントラスト学習に不可欠であることを示すいくつかの画像変換は、自然画像から医用画像領域への変換を行わない。
第二に、従来の2つの画像が異なるという仮定は、同じ解剖学と病気を描写した医学データセットを体系的に誤解している。
これは、同じ患者が繰り返しコホートを撮像し、経時的に進行する疾患をモニターする縦型画像データセットで悪化する。
本稿では,従来のコントラストフレームワークを新しいメタデータ強化戦略で拡張することで,これらの課題に対処する。
本手法は,画像間のコントラスト関係の真の集合を近似するために広く利用可能な患者メタデータを用いる。
この目的のために、患者の身元、目の位置(左または右)、時系列情報に記録を用いる。
老化黄斑変性(amd)患者7,912例の170,427個の網膜oct画像を含む2つの大きな縦型データセットを用いた実験において,疾患進行の時間的ダイナミクスを事前訓練に組み込むためのメタデータの有用性について検討した。
我々のメタデータ強化アプローチは、AMDに関連する6つの画像レベル下流タスクのうち5つにおいて、標準コントラスト法と網膜画像基盤モデルの両方より優れている。
モジュール性のため,提案手法を迅速かつ費用対効果で検証し,コントラスト的な事前学習に利用可能なメタデータを組み込むことによる潜在的なメリットを確立することができる。 Deep learning has potential to automate screening, monitoring and grading of disease in medical images. Pretraining with contrastive learning enables models to extract robust and generalisable features from natural image datasets, facilitating label-efficient downstream image analysis. However, the direct application of conventional contrastive methods to medical datasets introduces two domain-specific issues. Firstly, several image transformations which have been shown to be crucial for effective contrastive learning do not translate from the natural image to the medical image domain. Secondly, the assumption made by conventional methods, that any two images are dissimilar, is systematically misleading in medical datasets depicting the same anatomy and disease. This is exacerbated in longitudinal image datasets that repeatedly image the same patient cohort to monitor their disease progression over time. In this paper we tackle these issues by extending conventional contrastive frameworks with a novel metadata-enhanced strategy. Our approach employs widely available patient metadata to approximate the true set of inter-image contrastive relationships. To this end we employ records for patient identity, eye position (i.e. left or right) and time series information. In experiments using two large longitudinal datasets containing 170,427 retinal OCT images of 7,912 patients with age-related macular degeneration (AMD), we evaluate the utility of using metadata to incorporate the temporal dynamics of disease progression into pretraining. Our metadata-enhanced approach outperforms both standard contrastive methods and a retinal image foundation model in five out of six image-level downstream tasks related to AMD. Due to its modularity, our method can be quickly and cost-effectively tested to establish the potential benefits of including available metadata in contrastive pretraining. | 翻訳日:2023-12-16 05:27:04 公開日:2023-12-14 |
# DCLP: カリキュラムコントラスト学習を用いたニューラルアーキテクチャ予測器 DCLP: Neural Architecture Predictor with Curriculum Contrastive Learning ( http://arxiv.org/abs/2302.13020v2 ) ライセンス: Link先を確認 | Shenghe Zheng, Hongzhi Wang, Tianyu Mu | (参考訳) ニューラル・アーキテクチャ・サーチ(nas)の評価プロセスにおいて、ニューラル・予測器は大きな可能性を秘めている。
しかし、現在の予測器ベースのアプローチでは、予測器のトレーニングがラベル付きトレーニングセットとしてかなりの数のトレーニングニューラルネットワークを必要とするという事実を見落としている。
したがって、NASの予測子を利用する際の重要な問題は、可能な限り少ないトレーニングニューラルネットワークを使用して高性能な予測子を訓練することである。
いくつかの手法は教師なし学習を通じてこの問題に対処しようとするが、しばしば不正確な予測をもたらす。
我々は、共通のグラフデータのために意図された教師なしタスクはニューラルネットワークにとって難しすぎるため、教師なしトレーニングはNASのパフォーマンスクラッシュの影響を受けやすいと主張している。
この問題に対処するために,ニューラル予測器(DCLP)のためのカリキュラム誘導コントラスト学習フレームワークを提案する。
本手法は,新しいカリキュラムをデザインし,コントラストトレーニング中のラベルなしトレーニングデータ分布の安定性を高めることで,コントラストタスクを単純化する。
具体的には、各データのコントラスト的難易度に応じてトレーニングデータをランク付けし、コントラスト的学習者に順番に入力するスケジューラを提案する。
このアプローチは、トレーニングデータ分散に集中し、コントラストトレーニングをより効率的にする。
提案手法を用いることで,教師なしデータを用いて特徴表現を漸進的に学習し,過度に可変なトレーニングデータ分布で発生する可能性のあるパフォーマンスクラッシュを回避する。
実験により,DCLPは既存の予測器と比較して高い精度と効率性を示し,検索戦略と組み合わせることで,様々な検索空間における優れたアーキテクチャを発見する可能性を示す。
私たちのコードは、https://github.com/Zhengsh123/DCLPで利用可能です。 Neural predictors have shown great potential in the evaluation process of neural architecture search (NAS). However, current predictor-based approaches overlook the fact that training a predictor necessitates a considerable number of trained neural networks as the labeled training set, which is costly to obtain. Therefore, the critical issue in utilizing predictors for NAS is to train a high-performance predictor using as few trained neural networks as possible. Although some methods attempt to address this problem through unsupervised learning, they often result in inaccurate predictions. We argue that the unsupervised tasks intended for the common graph data are too challenging for neural networks, causing unsupervised training to be susceptible to performance crashes in NAS. To address this issue, we propose a Curricumum-guided Contrastive Learning framework for neural Predictor (DCLP). Our method simplifies the contrastive task by designing a novel curriculum to enhance the stability of unlabeled training data distribution during contrastive training. Specifically, we propose a scheduler that ranks the training data according to the contrastive difficulty of each data and then inputs them to the contrastive learner in order. This approach concentrates the training data distribution and makes contrastive training more efficient. By using our method, the contrastive learner incrementally learns feature representations via unsupervised data on a smooth learning curve, avoiding performance crashes that may occur with excessively variable training data distributions. We experimentally demonstrate that DCLP has high accuracy and efficiency compared with existing predictors, and shows promising potential to discover superior architectures in various search spaces when combined with search strategies. Our code is available at: https://github.com/Zhengsh123/DCLP. | 翻訳日:2023-12-16 05:20:47 公開日:2023-12-14 |
# データ適応型シーケンシャルベイズ推論のための微分可能粒子フィルタの概要 An overview of differentiable particle filters for data-adaptive sequential Bayesian inference ( http://arxiv.org/abs/2302.09639v2 ) ライセンス: Link先を確認 | Xiongjie Chen, Yunpeng Li | (参考訳) 後方分布を重み付きサンプルで近似することにより、粒子フィルタ(PF)は非線形逐次状態推定問題を解くための効率的なメカニズムを提供する。
粒子フィルタの有効性は様々な応用で認識されているが、その性能は動的モデルと計測モデルの知識と効果的な提案分布の構築に依存している。
ニューラルネットを用いたパーティクルフィルタの構成要素の構築と勾配降下による最適化が新たなトレンドとなり、このようなデータ適応型パーティクルフィルタリングアプローチは、しばしば微分可能なパーティクルフィルタと呼ばれる。
ニューラルネットワークの表現性のため、微分可能な粒子フィルタは、視覚に基づくロボットのローカライズのような複雑な高次元タスクにおいて、逐次データに対する推論を行うための有望な計算ツールである。
本稿では, 微分型粒子フィルタの最近の進歩と応用について述べる。
本稿では, 動的モデル, 測定モデル, 提案分布, 最適化目標, 微分可能再サンプリング技術を含む, 微分可能粒子フィルタの主要成分に対する設計選択に特化する。 By approximating posterior distributions with weighted samples, particle filters (PFs) provide an efficient mechanism for solving non-linear sequential state estimation problems. While the effectiveness of particle filters has been recognised in various applications, their performance relies on the knowledge of dynamic models and measurement models, as well as the construction of effective proposal distributions. An emerging trend involves constructing components of particle filters using neural networks and optimising them by gradient descent, and such data-adaptive particle filtering approaches are often called differentiable particle filters. Due to the expressiveness of neural networks, differentiable particle filters are a promising computational tool for performing inference on sequential data in complex, high-dimensional tasks, such as vision-based robot localisation. In this paper, we review recent advances in differentiable particle filters and their applications. We place special emphasis on different design choices for key components of differentiable particle filters, including dynamic models, measurement models, proposal distributions, optimisation objectives, and differentiable resampling techniques. | 翻訳日:2023-12-16 05:20:18 公開日:2023-12-14 |
# 動的クラスタリングと軌道解析による挙動ドリフトの教師なし検出 Unsupervised Detection of Behavioural Drifts with Dynamic Clustering and Trajectory Analysis ( http://arxiv.org/abs/2302.06228v2 ) ライセンス: Link先を確認 | Bardh Prenkaj, Paola Velardi | (参考訳) 人間の行動のリアルタイムモニタリング、特にe-Healthアプリケーションでは、過去数十年にわたり活発な研究領域となっている。
IoTベースのセンシング環境の上に、異常の早期検出のための異常検出アルゴリズムが提案されている。
ドリフト異常と呼ばれる段階的な変化手順は、突然の一時的な変化(ポイント異常)よりも困難なシナリオを表しているため、文献にはあまり注目されていない。
本稿では,DynAmo という完全に教師なしのリアルタイムドリフト検出アルゴリズムを初めて提案する。
dynamoは、監視された振る舞いの全体的なトレンドをキャプチャする動的クラスタリングコンポーネントと、最も密集したクラスタ中心から特徴を抽出する軌道生成コンポーネントで構成されている。
最後に,スライディング参照窓と検出窓の発散テストのアンサンブルを適用し,行動系列のドリフト周期を検出する。 Real-time monitoring of human behaviours, especially in e-Health applications, has been an active area of research in the past decades. On top of IoT-based sensing environments, anomaly detection algorithms have been proposed for the early detection of abnormalities. Gradual change procedures, commonly referred to as drift anomalies, have received much less attention in the literature because they represent a much more challenging scenario than sudden temporary changes (point anomalies). In this paper, we propose, for the first time, a fully unsupervised real-time drift detection algorithm named DynAmo, which can identify drift periods as they are happening. DynAmo comprises a dynamic clustering component to capture the overall trends of monitored behaviours and a trajectory generation component, which extracts features from the densest cluster centroids. Finally, we apply an ensemble of divergence tests on sliding reference and detection windows to detect drift periods in the behavioural sequence. | 翻訳日:2023-12-16 05:20:00 公開日:2023-12-14 |
# 新しいノードと新しい関係型の両方のインダクティブリンク予測のための二重等価性 Double Equivariance for Inductive Link Prediction for Both New Nodes and New Relation Types ( http://arxiv.org/abs/2302.01313v7 ) ライセンス: Link先を確認 | Jianfei Gao, Yangze Zhou, Jincheng Zhou, Bruno Ribeiro | (参考訳) 知識グラフ(KGs)における帰納的リンク予測の課題は、一般に、新しいノードと新しい関係型の両方ではなく、単に新しいノードによるテスト予測に焦点を当てている。
本研究では,ノードの同一性とエッジ関係型の両方の置換に同値な二重置換同変表現の概念を正式に定義する。
次に、異なるKGドメイン上のプレトレインと新しいKGドメイン上のゼロショット予測リンク(全く新しいエンティティと新しいリレーショナルタイプ)を自己監督することができるかを示す。
また、同じタスクを実行するように設計された分布二重同変位置埋め込みの概念も導入する。
最後に、新しい実世界のベンチマークのセット上で、ベースラインに対して提案したモデルの有効性を実証的に示す。
より興味深いことに、より多くのkgドメインでの自己教師付き事前トレーニングは、我々のモデルのゼロショット能力を高め、未認識のkgドメイン上の新しいエンティティよりも新しい関係型を予測できることを示しています。 The task of inductive link prediction in knowledge graphs (KGs) generally focuses on test predictions with solely new nodes but not both new nodes and new relation types. In this work, we formally define the concept of double permutation-equivariant representations that are equivariant to permutations of both node identities and edge relation types. We then show how double-equivariant architectures are able to self-supervise pre-train on distinct KG domains and zero-shot predict links on a new KG domain (with completely new entities and new relation types). We also introduce the concept of distributionally double equivariant positional embeddings designed to perform the same task. Finally, we empirically demonstrate the capability of the proposed models against baselines on a set of novel real-world benchmarks. More interestingly, we show that self-supervised pre-training on more KG domains increases the zero-shot ability of our model to predict on new relation types over new entities on unseen KG domains. | 翻訳日:2023-12-16 05:19:44 公開日:2023-12-14 |
# QCM-SGM+:スコアベース生成モデルによる量子圧縮センシングの改良 QCM-SGM+: Improved Quantized Compressed Sensing With Score-Based Generative Models ( http://arxiv.org/abs/2302.00919v3 ) ライセンス: Link先を確認 | Xiangming Meng and Yoshiyuki Kabashima | (参考訳) 実際に圧縮センシング(CS)において、得られた測定値は通常、伝送または記憶の前に限られたビット数に量子化を必要とする。
この非線形量子化プロセスは、特に1ビットのような極端に粗い量子化において、大きな回復の課題をもたらす。
近年、スコアベース生成モデル(SGM)を暗黙の先行として利用する量子CS(QCS)に対して、QCS-SGMと呼ばれる効率的なアルゴリズムが提案されている。
自然信号の複雑な構造を捉える際にSGMが有効であることから、QCS-SGMは従来のQCS法よりも大幅に優れていた。
しかし、QCS-SGMは、確率スコアの計算が難解になるにつれて(ほぼ)行直交の知覚行列に制約される。
この制限に対処するために、一般行列を効果的に処理できるQCS-SGM+と呼ばれる先進的なQCS-SGMを導入した。
鍵となるアイデアは、近似計算に期待伝播が用いられる確率スコア計算に関するベイズ推論の視点である。
また,QCS-SGMよりもQCS-SGM+の方が,行直交性以上の一般感覚行列に対してかなり優れていることを示した。 In practical compressed sensing (CS), the obtained measurements typically necessitate quantization to a limited number of bits prior to transmission or storage. This nonlinear quantization process poses significant recovery challenges, particularly with extreme coarse quantization such as 1-bit. Recently, an efficient algorithm called QCS-SGM was proposed for quantized CS (QCS) which utilizes score-based generative models (SGM) as an implicit prior. Due to the adeptness of SGM in capturing the intricate structures of natural signals, QCS-SGM substantially outperforms previous QCS methods. However, QCS-SGM is constrained to (approximately) row-orthogonal sensing matrices as the computation of the likelihood score becomes intractable otherwise. To address this limitation, we introduce an advanced variant of QCS-SGM, termed QCS-SGM+, capable of handling general matrices effectively. The key idea is a Bayesian inference perspective on the likelihood score computation, wherein expectation propagation is employed for its approximate computation. Extensive experiments are conducted, demonstrating the substantial superiority of QCS-SGM+ over QCS-SGM for general sensing matrices beyond mere row-orthogonality. | 翻訳日:2023-12-16 05:19:27 公開日:2023-12-14 |
# particleeg3d: ミネラル処理およびリサイクルにおけるマイクロct画像からの個別粒子のキャラクタリゼーションのためのスケーラブルなディープラーニングセグメンテーションソリューション ParticleSeg3D: A Scalable Out-of-the-Box Deep Learning Segmentation Solution for Individual Particle Characterization from Micro CT Images in Mineral Processing and Recycling ( http://arxiv.org/abs/2301.13319v4 ) ライセンス: Link先を確認 | Karol Gotkowski and Shuvam Gupta and Jose R. A. Godinho and Camila G. S. Tochtrop and Klaus H. Maier-Hein and Fabian Isensee | (参考訳) 鉱物、金属、プラスチックは機能する現代社会には不可欠である。
しかし, 資源供給が限られているため, リサイクル材料からの鉱石抽出・回収の最適化が必要となり, 加工材料の精密な特性に細心の注意が必要である。
したがって、これらの物質に対する理解を深めることは不可欠であり、それをマイクロメートルサイズの粒子に分解し、その特性を解析することで達成できる。
現在のイメージング手法では,ctで画像化した粒子のセグメンテーションとキャラクタリゼーションに基づいて解析を行い,触感粒子を分離するための基礎的ポストプロセッシング技術に依拠している。
しかしながら、この分離を確実に実行できないことと、新しいイメージごとにメソッドを再トレーニングする必要があるため、これらのアプローチは未解決のポテンシャルを生かすことになる。
本稿では,異なる材料を含む粒子試料のct画像から個々の粒子を抽出できるインスタンス分割法である particleeg3d を提案する。
我々のアプローチは、強力なnnU-Netフレームワークをベースとして、粒子サイズ正規化を導入し、境界コア表現を用いてインスタンスセグメンテーションを可能にし、さまざまな大きさ、形状、組成の粒子を含む大規模なデータセットで訓練する。
トレーニングセットに含まれていない材料や外観を含む多種多様な粒子タイプに対して,ParticleSeg3Dを最初から適用できることを実証した。
したがって、新しい粒子サンプルに適用する場合、手動のアノテーションや再訓練は不要であり、既存の方法よりも実験のスケーラビリティが大幅に向上する。
私たちのコードとデータセットは公開されています。 Minerals, metals, and plastics are indispensable for a functioning modern society. Yet, their supply is limited causing a need for optimizing ore extraction and recuperation from recyclable materials.Typically, those processes must be meticulously adapted to the precise properties of the processed materials. Advancing our understanding of these materials is thus vital and can be achieved by crushing them into particles of micrometer size followed by their characterization. Current imaging approaches perform this analysis based on segmentation and characterization of particles imaged with computed tomography (CT), and rely on rudimentary postprocessing techniques to separate touching particles. However, their inability to reliably perform this separation as well as the need to retrain methods for each new image, these approaches leave untapped potential to be leveraged. Here, we propose ParticleSeg3D, an instance segmentation method able to extract individual particles from large CT images of particle samples containing different materials. Our approach is based on the powerful nnU-Net framework, introduces a particle size normalization, uses a border-core representation to enable instance segmentation, and is trained with a large dataset containing particles of numerous different sizes, shapes, and compositions of various materials. We demonstrate that ParticleSeg3D can be applied out-of-the-box to a large variety of particle types, including materials and appearances that have not been part of the training set. Thus, no further manual annotations and retraining are required when applying the method to new particle samples, enabling substantially higher scalability of experiments than existing methods. Our code and dataset are made publicly available. | 翻訳日:2023-12-16 05:18:49 公開日:2023-12-14 |
# 一般変数条件下での分散確率最適化 Distributed Stochastic Optimization under a General Variance Condition ( http://arxiv.org/abs/2301.12677v3 ) ライセンス: Link先を確認 | Kun Huang, Xiao Li, Shi Pu | (参考訳) 分散確率最適化は,大規模機械学習問題の解法としての有効性から,近年大きな注目を集めている。
多くのアルゴリズムが提案され、一般的な実用的な問題に適用されているが、理論上の保証は主に確率勾配上の有界性条件に依存しており、一様有界性から緩やかな成長条件まで様々である。
さらに,エージェント間のデータの不均一性を特徴付ける方法や,そのアルゴリズム性能への影響も課題として残されている。
このようなモチベーションを考慮して、従来のフェデレーション平均化(FedAvg)アルゴリズム(McMahan et al., 2017)と、分散確率最適化問題の解法であるより最近のSCAFFOLD法(Karimireddy et al., 2020)を再検討し、滑らかな非凸目的関数の確率勾配上の軽度の分散条件下で収束結果を確立する。
ほぼ確実に定常点への収束も条件の下で確立される。
さらに,データの不均一性およびその意義について,より情報的な測定について考察する。 Distributed stochastic optimization has drawn great attention recently due to its effectiveness in solving large-scale machine learning problems. Though numerous algorithms have been proposed and successfully applied to general practical problems, their theoretical guarantees mainly rely on certain boundedness conditions on the stochastic gradients, varying from uniform boundedness to the relaxed growth condition. In addition, how to characterize the data heterogeneity among the agents and its impacts on the algorithmic performance remains challenging. In light of such motivations, we revisit the classical Federated Averaging (FedAvg) algorithm (McMahan et al., 2017) as well as the more recent SCAFFOLD method (Karimireddy et al., 2020) for solving the distributed stochastic optimization problem and establish the convergence results under only a mild variance condition on the stochastic gradients for smooth nonconvex objective functions. Almost sure convergence to a stationary point is also established under the condition. Moreover, we discuss a more informative measurement for data heterogeneity as well as its implications. | 翻訳日:2023-12-16 05:18:19 公開日:2023-12-14 |
# カーボンカゴメナノチューブ-平板を有する準1次元ナノ構造 Carbon Kagome Nanotubes -- quasi-one-dimensional nanostructures with flat bands ( http://arxiv.org/abs/2301.10200v3 ) ライセンス: Link先を確認 | Hsuan Ming Yu, Shivam Sharma, Shivang Agarwal, Olivia Liebman and Amartya S. Banerjee | (参考訳) We introduce carbon Kagome nanotubes (CKNTs) -- a new allotrope of carbon formed by rolling up sheets of Kagome graphene, and investigate the properties of this material using first principles calculations. Based on the direction of rolling, we identify two principal varieties of CKNTs -- armchair and zigzag, and find that the bending stiffness associated with rolling Kagome graphene into either type of CKNT is about a third of that associated with rolling conventional graphene into carbon nanotubes (CNTs).
Ab initio 分子動力学シミュレーションは、どちらのタイプのCKNTも室温で安定な構造として存在することを示唆している。
ここで探索された各CKNTは金属であり、ブリルアンゾーン全体で分散のない状態(すなわち平らなバンド)とフェルミ準位に近い状態の電子密度の特異ピークを特徴としている。
我々は, CKNTのねじりひずみおよび軸ひずみに対する力学的および電子的応答を計算し, 従来のCNTと比較した。
特に、CKNTの分散電子状態のねじれ、縮退、ディラック点と部分平坦なバンドはフェルミの2次帯域交差点から出現し、これらの特徴は比較的単純な強結合モデルを用いて説明できることを示す。
CKNTは、強い相関電子の存在によって引き起こされる魅力的な集合材料特性を潜在的に表示できる、現実的な準1次元(1D)物質の特異かつ顕著な例である。
さらに、歪んだckntsは、フラットバンド物理学とキラリティーによる異常輸送効果を一緒に研究できる興味深い物質プラットフォームを提供するかもしれない。 We introduce carbon Kagome nanotubes (CKNTs) -- a new allotrope of carbon formed by rolling up sheets of Kagome graphene, and investigate the properties of this material using first principles calculations. Based on the direction of rolling, we identify two principal varieties of CKNTs -- armchair and zigzag, and find that the bending stiffness associated with rolling Kagome graphene into either type of CKNT is about a third of that associated with rolling conventional graphene into carbon nanotubes (CNTs). Ab initio molecular dynamics simulations indicate that both types of CKNTs are likely to exist as stable structures at room temperature. Each CKNT explored here is metallic and features dispersionless states (i.e., flat bands) throughout its Brillouin zone, along with an associated singular peak in the electronic density of states, close to the Fermi level. We calculate the mechanical and electronic response of CKNTs to torsional and axial strains and compare against conventional CNTs. We show in particular, that upon twisting, degenerate dispersionless electronic states in CKNTs split, Dirac points and partially flat bands emerge from the quadratic band crossing point at the Fermi level, and that these features can be explained using a relatively simple tight-binding model. Overall, CKNTs appear to be unique and striking examples of realistic elemental quasi-one-dimensional (1D) materials that can potentially display fascinating collective material properties arising from the presence of strongly correlated electrons. Additionally, distorted CKNTs may provide an interesting material platform where flat band physics and chirality induced anomalous transport effects may be studied together. | 翻訳日:2023-12-16 05:17:31 公開日:2023-12-14 |
# ハミルトンシミュレーションのための一般量子アルゴリズムと非アベリア格子ゲージ理論への応用 General quantum algorithms for Hamiltonian simulation with applications to a non-Abelian lattice gauge theory ( http://arxiv.org/abs/2212.14030v3 ) ライセンス: Link先を確認 | Zohreh Davoudi, Alexander F. Shaw, and Jesse R. Stryker | (参考訳) 量子シミュレーションのための普遍量子コンピューティングと格子ゲージ理論の例により、非自明な関数係数を持つ多重(ボソニックおよびフェルミオン)量子数における相関変化からなる相互作用のクラスを効率的にシミュレートできる、かなり一般的な量子アルゴリズムを導入する。
特に,ハミルトニアン項の対角化を特異値分解法を用いて解析し,数値化時変作用素における達成された対角ユニタリをいかに実現できるかについて議論した。
格子ゲージ理論は1+1次元のSU(2)ゲージ理論であり、ステージングフェルミオンの1つのフレーバーと結合し、異なる計算モデルにおける完全な量子リソース解析が提示される。
これらのアルゴリズムは、アベリアおよび非アベリアゲージ理論と同様に高次元理論にも適用可能である。
選択された例は、効率的な理論定式化を採用することの重要性をさらに示している: ループ、弦、ハドロン自由度を用いた明示的にゲージ不変な定式化は、アルゴリズムを単純化し、角運動量に基づく標準定式化とシュウィンガーボゾン自由度に基づくコストを下げることを示した。
ループストリング・ハドロンの定式化は、コストのかかる操作を必要とせず、デジタル化されたシミュレーションの不正確さにもかかわらず、非アベリアゲージ対称性をさらに維持する。
このような理論的およびアルゴリズム的な考察は、自然と関連する他の複雑な理論を量子的にシミュレートする上で不可欠であると考えられる。 With a focus on universal quantum computing for quantum simulation, and through the example of lattice gauge theories, we introduce rather general quantum algorithms that can efficiently simulate certain classes of interactions consisting of correlated changes in multiple (bosonic and fermionic) quantum numbers with non-trivial functional coefficients. In particular, we analyze diagonalization of Hamiltonian terms using a singular-value decomposition technique, and discuss how the achieved diagonal unitaries in the digitized time-evolution operator can be implemented. The lattice gauge theory studied is the SU(2) gauge theory in 1+1 dimensions coupled to one flavor of staggered fermions, for which a complete quantum-resource analysis within different computational models is presented. The algorithms are shown to be applicable to higher-dimensional theories as well as to other Abelian and non-Abelian gauge theories. The example chosen further demonstrates the importance of adopting efficient theoretical formulations: it is shown that an explicitly gauge-invariant formulation using loop, string, and hadron degrees of freedom simplifies the algorithms and lowers the cost compared with the standard formulations based on angular-momentum as well as the Schwinger-boson degrees of freedom. The loop-string-hadron formulation further retains the non-Abelian gauge symmetry despite the inexactness of the digitized simulation, without the need for costly controlled operations. Such theoretical and algorithmic considerations are likely to be essential in quantumly simulating other complex theories of relevance to nature. | 翻訳日:2023-12-16 05:17:03 公開日:2023-12-14 |
# 神経構造場と結晶構造オートエンコーダへの応用 Neural Structure Fields with Application to Crystal Structure Autoencoders ( http://arxiv.org/abs/2212.13120v2 ) ライセンス: Link先を確認 | Naoya Chiba, Yuta Suzuki, Tatsunori Taniai, Ryo Igarashi, Yoshitaka Ushiku, Kotaro Saito, Kanta Ono | (参考訳) 結晶構造推定を含む機械学習アプリケーションを実現するためには,ニューラルネットワークによる決定を容易にするために材料の結晶構造を表現することが重要である。
これらの応用の中で、材料の逆設計は、運やセレンディピティーに頼ることなく、望ましい特性を持つ材料を探索するのに貢献することができる。
ニューラルネットワークを用いて結晶構造を表現するための高精度かつ実用的なアプローチとして,ニューラル構造体(NeSF)を提案する。
物理学におけるベクトル場の概念やコンピュータビジョンにおける暗黙の神経表現に触発されたNeSFは、結晶構造を原子の離散的な集合ではなく連続体と考える。
既存の格子ベースの離散空間表現とは異なり、NeSFは空間分解能と計算複雑性のトレードオフを克服し、任意の結晶構造を表現することができる。
ペロブスカイト構造材料や銅酸化物超伝導体などの様々な結晶構造を復元できる結晶構造のオートエンコーダを提案する。
大規模な定量的な結果は,既存のグリッドベースアプローチと比較して,NeSFの優れた性能を示している。 Representing crystal structures of materials to facilitate determining them via neural networks is crucial for enabling machine-learning applications involving crystal structure estimation. Among these applications, the inverse design of materials can contribute to explore materials with desired properties without relying on luck or serendipity. We propose neural structure fields (NeSF) as an accurate and practical approach for representing crystal structures using neural networks. Inspired by the concepts of vector fields in physics and implicit neural representations in computer vision, the proposed NeSF considers a crystal structure as a continuous field rather than as a discrete set of atoms. Unlike existing grid-based discretized spatial representations, the NeSF overcomes the tradeoff between spatial resolution and computational complexity and can represent any crystal structure. We propose an autoencoder of crystal structures that can recover various crystal structures, such as those of perovskite structure materials and cuprate superconductors. Extensive quantitative results demonstrate the superior performance of the NeSF compared with the existing grid-based approach. | 翻訳日:2023-12-16 05:16:33 公開日:2023-12-14 |
# 開量子系における計数統計量の漸近的大偏差 Asymptotic Large Deviations of Counting Statistics in Open Quantum Systems ( http://arxiv.org/abs/2212.09212v2 ) ライセンス: Link先を確認 | Fei Liu | (参考訳) 半マルコフ過程法を用いて、3つの開量子系に対する計数統計量の大きな偏差を計算し、共振二階系と共振三階系を$\lambda$- および$v$-コンフィギュレーションで計算する。
最初の2つのシステムでは、スケールした累積生成関数に対するラジカル解が得られる。
これは第三系では不可能であるが、一般の六次多項式方程式が存在するため、複素系の漸近的に大きな偏差が得られる。
これらの開量子系において、ゼロ電流における大きな偏差率関数は、作用素 $-{\rm i}\hat h$ の固有値の最大非零実数の2倍に等しいことが示され、ここでは$\hat h$ は非エルミートハミルトニアンである。 We use a semi-Markov process method to calculate large deviations of counting statistics for three open quantum systems, including a resonant two-level system and resonant three-level systems in the $\Lambda$- and $V$-configurations. In the first two systems, radical solutions to the scaled cumulant generating functions are obtained. Although this is impossible in the third system, since a general sixth-degree polynomial equation is present, we still obtain asymptotically large deviations of the complex system. Our results show that, in these open quantum systems, the large deviation rate functions at zero current are equal to two times the largest nonzero real parts of the eigenvalues of operator $-{\rm i}\hat H$, where $\hat H$ is a non-Hermitian Hamiltonian, while at a large current, these functions possess a unified formula. | 翻訳日:2023-12-16 05:16:16 公開日:2023-12-14 |
# 連続価値推定における時間分解能管理--基本トレードオフ Managing Temporal Resolution in Continuous Value Estimation: A Fundamental Trade-off ( http://arxiv.org/abs/2212.08949v2 ) ライセンス: Link先を確認 | Zichen Zhang, Johannes Kirschner, Junxi Zhang, Francesco Zanini, Alex Ayoub, Masood Dehghan, Dale Schuurmans | (参考訳) 強化学習(RL)と最適制御におけるデフォルトの仮定は、観測が固定クロックサイクルの離散時間点に到達することである。
しかし、多くのアプリケーションは、時間離散化を原則として管理できる連続時間システムを含んでいる。
時間離散化がRL法に与える影響は、既存の理論では十分に評価されていないが、その効果をより詳細に分析することで、データ効率を向上させることができる。
我々は,LQRシステムのモンテカルロ政策評価を分析し,近似と統計的誤差の基本的なトレードオフを明らかにすることで,このギャップに対処する。
重要なことに、これらの2つのエラーは時間離散化と異なる振る舞いをするので、与えられたデータ予算に対する時間分解能の最適選択に繋がる。
これらの結果から, 時間分解能の管理は, 有限データを用いたLQRシステムにおいて, 政策評価効率を向上する可能性が示唆された。
実験的に、LQRインスタンスの数値シミュレーションと非線形連続制御のための標準RLベンチマークのトレードオフを実証する。 A default assumption in reinforcement learning (RL) and optimal control is that observations arrive at discrete time points on a fixed clock cycle. Yet, many applications involve continuous-time systems where the time discretization, in principle, can be managed. The impact of time discretization on RL methods has not been fully characterized in existing theory, but a more detailed analysis of its effect could reveal opportunities for improving data-efficiency. We address this gap by analyzing Monte-Carlo policy evaluation for LQR systems and uncover a fundamental trade-off between approximation and statistical error in value estimation. Importantly, these two errors behave differently to time discretization, leading to an optimal choice of temporal resolution for a given data budget. These findings show that managing the temporal resolution can provably improve policy evaluation efficiency in LQR systems with finite data. Empirically, we demonstrate the trade-off in numerical simulations of LQR instances and standard RL benchmarks for non-linear continuous control. | 翻訳日:2023-12-16 05:15:58 公開日:2023-12-14 |
# PathFusion:パスに一貫性のあるLidar-Camera Deep Feature Fusion PathFusion: Path-consistent Lidar-Camera Deep Feature Fusion ( http://arxiv.org/abs/2212.06244v2 ) ライセンス: Link先を確認 | Lemeng Wu, Dilin Wang, Meng Li, Yunyang Xiong, Raghuraman Krishnamoorthi, Qiang Liu, Vikas Chandra | (参考訳) 3D LiDAR機能と2Dカメラ機能を組み合わせることは、3D検出の精度を高めるための有望なテクニックだ。
既存の手法のほとんどは、生のLiDAR点雲や浅層3D機能と直接融合するカメラ機能に重点を置いているが、より深い層に2Dと3Dの機能を直接結合することで、機能障害による精度の低下につながることが観察されている。
このミスアライメントは、大きな受容領域から学んだ特徴の集約に由来するもので、より深い層を掘り下げるにつれて、ますます深刻になる。
本稿では,意味的コヒーレントなLiDARカメラの深い特徴融合を実現するためのソリューションとしてPathFusionを提案する。
PathFusionはネットワーク内の複数の段階におけるパス一貫性の損失を導入し、2Dバックボーンとその融合パスが3Dバックボーンの変換とセマンティックに整合するように2D機能を変換することを奨励する。
これにより、2Dと3Dの機能間のセマンティックな一貫性が保証され、ネットワークの学習能力が向上する。
従来型の核融合ベースラインである Focals Conv の改善に PathFusion を適用し,nuScenes テストでは mAP が 1.6% 以上向上し,テスト時データ拡張を伴わず,かつ,KITTI $\text{AP}_{\text{3D}}$ (R11) も約 0.6% 向上した。 Fusing 3D LiDAR features with 2D camera features is a promising technique for enhancing the accuracy of 3D detection, thanks to their complementary physical properties. While most of the existing methods focus on directly fusing camera features with raw LiDAR point clouds or shallow-level 3D features, it is observed that directly combining 2D and 3D features in deeper layers actually leads to a decrease in accuracy due to feature misalignment. The misalignment, which stems from the aggregation of features learned from large receptive fields, becomes increasingly more severe as we delve into deeper layers. In this paper, we propose PathFusion as a solution to enable the alignment of semantically coherent LiDAR-camera deep feature fusion. PathFusion introduces a path consistency loss at multiple stages within the network, encouraging the 2D backbone and its fusion path to transform 2D features in a way that aligns semantically with the transformation of the 3D backbone. This ensures semantic consistency between 2D and 3D features, even in deeper layers, and amplifies the usage of the network's learning capacity. We apply PathFusion to improve a prior-art fusion baseline, Focals Conv, and observe an improvement of over 1.6% in mAP on the nuScenes test split consistently with and without testing-time data augmentations, and moreover, PathFusion also improves KITTI $\text{AP}_{\text{3D}}$ (R11) by about 0.6% on the moderate level. | 翻訳日:2023-12-16 05:15:40 公開日:2023-12-14 |
# 分解密度を持つ文字列図形 String Diagrams with Factorized Densities ( http://arxiv.org/abs/2305.02506v5 ) ライセンス: Link先を確認 | Eli Sennesh (Northeastern University), Jan-Willem van de Meent (University of Amsterdam) | (参考訳) 確率的プログラムと因果モデルに関する研究の活発化は、有向グラフィカルモデルを拡張するモデルクラスについて構成的に考える必要性を強調している。
確率的プログラムと因果モデルの両方は、ランダム変数の集合上の合同確率密度を定義し、因果関係と条件独立性を推論するために使用できるスパース構造を示す。
この研究は、確率写像のマルコフ圏に関する最近の研究に基づいて、射が各サンプル空間上で分解された結合密度と、サンプルから戻り値への決定論的写像を組み合わせた圏を定義する。
これは、確率測度に関する最近のカテゴリー論的記述と、確率計画法や因果推論によく用いられる分解密度の操作的定義とのギャップを埋めるためのステップである。 A growing body of research on probabilistic programs and causal models has highlighted the need to reason compositionally about model classes that extend directed graphical models. Both probabilistic programs and causal models define a joint probability density over a set of random variables, and exhibit sparse structure that can be used to reason about causation and conditional independence. This work builds on recent work on Markov categories of probabilistic mappings to define a category whose morphisms combine a joint density, factorized over each sample space, with a deterministic mapping from samples to return values. This is a step towards closing the gap between recent category-theoretic descriptions of probability measures, and the operational definitions of factorized densities that are commonly employed in probabilistic programming and causal inference. | 翻訳日:2023-12-16 05:08:40 公開日:2023-12-14 |
# 融合型グラフ状態生成のグラフ理論的最適化 Graph-theoretical optimization of fusion-based graph state generation ( http://arxiv.org/abs/2304.11988v4 ) ライセンス: Link先を確認 | Seok-Hyung Lee and Hyunseok Jeong | (参考訳) グラフ状態は、測定ベースの量子コンピューティングや量子リピータなど、様々な量子情報処理タスクのための汎用的なリソースである。
タイプII融合ゲートは、小さなグラフ状態を組み合わせることで全光学的なグラフ状態の生成を可能にするが、その非決定論的性質は大きなグラフ状態の効率的な生成を妨げる。
本稿では,Python パッケージ OptGraphState とともに,任意のグラフ状態の融合ベースの生成を効果的に最適化するグラフ理論戦略を提案する。
我々の戦略は、対象のグラフ状態を単純化し、融合ネットワークを構築し、融合の順序を決定する3つの段階からなる。
提案手法を用いることで,ランダムグラフとよく知られたグラフの資源オーバーヘッドを評価する。
さらに,利用可能な資源数に制限されたグラフ状態生成の成功確率についても検討する。
われわれの戦略とソフトウェアは、フォトニックグラフ状態を用いた実験可能なスキームの開発と評価を支援することを期待している。 Graph states are versatile resources for various quantum information processing tasks, including measurement-based quantum computing and quantum repeaters. Although the type-II fusion gate enables all-optical generation of graph states by combining small graph states, its non-deterministic nature hinders the efficient generation of large graph states. In this work, we present a graph-theoretical strategy to effectively optimize fusion-based generation of any given graph state, along with a Python package OptGraphState. Our strategy comprises three stages: simplifying the target graph state, building a fusion network, and determining the order of fusions. Utilizing this proposed method, we evaluate the resource overheads of random graphs and various well-known graphs. Additionally, we investigate the success probability of graph state generation given a restricted number of available resource states. We expect that our strategy and software will assist researchers in developing and assessing experimentally viable schemes that use photonic graph states. | 翻訳日:2023-12-16 05:08:26 公開日:2023-12-14 |
# ニューラルネットワークを用いた原子炉コアパラメータの進化予測 Prediction of the evolution of the nuclear reactor core parameters using artificial neural network ( http://arxiv.org/abs/2304.10337v2 ) ライセンス: Link先を確認 | Krzysztof Palmi, Wojciech Kubinski, Piotr Darnowski | (参考訳) MIT BEAVRSベンチマークに基づく原子炉は、典型的な発電用加圧水炉(PWR)として使用された。
PARCS v3.2 Nodal-diffusionコアシミュレータは、原子炉の動作をエミュレートし、ANNのトレーニングと検証データを生成するためにフルコアの原子炉物理学ソルバとして使用された。
ANNは、GoogleのTensorFlow 2.0ライブラリで専用のPython 3.8コードで実装された。
この取り組みは、後にANNの開発プロセスで使用されたPARCSシミュレータによって生成されたデータの適切な自動変換プロセスに基づいていた。
ネットワークの隠蔽層におけるニューロンの最適な数を見つけるために異なるANNアーキテクチャを試すなど、ANN予測結果の精度向上を可能にする様々な手法が研究された。
結果は後に文献で提案された建築と比較された。
選択した最良のアーキテクチャ予測は、異なるコアパラメータとコアローディングパターンに依存することに対して行われた。
本研究では, プラントの経済活動の目標の一つとして考えられるように, 所定のコア負荷パターンに対する燃料サイクル長の予測に特に焦点をあてた。
例えば、初期コアローディングパターンに依存する単一燃料サイクルの長さは、非常に正確な精度(>99%)で予測された。
この研究は、原子炉設計問題の解決におけるニューラルネットワークの有用性の探求に寄与する。
ANNの適用により、デザイナは過剰なコアシミュレータの実行を回避し、より詳細な設計検討を行う前に、可能なソリューションの空間をより迅速に探索することができる。 A nuclear reactor based on MIT BEAVRS benchmark was used as a typical power generating Pressurized Water Reactor (PWR). The PARCS v3.2 nodal-diffusion core simulator was used as a full-core reactor physics solver to emulate the operation of a reactor and to generate training, and validation data for the ANN. The ANN was implemented with dedicated Python 3.8 code with Google's TensorFlow 2.0 library. The effort was based to a large extent on the process of appropriate automatic transformation of data generated by PARCS simulator, which was later used in the process of the ANN development. Various methods that allow obtaining better accuracy of the ANN predicted results were studied, such as trying different ANN architectures to find the optimal number of neurons in the hidden layers of the network. Results were later compared with the architectures proposed in the literature. For the selected best architecture predictions were made for different core parameters and their dependence on core loading patterns. In this study, a special focus was put on the prediction of the fuel cycle length for a given core loading pattern, as it can be considered one of the targets for plant economic operation. For instance, the length of a single fuel cycle depending on the initial core loading pattern was predicted with very good accuracy (>99%). This work contributes to the exploration of the usefulness of neural networks in solving nuclear reactor design problems. Thanks to the application of ANN, designers can avoid using an excessive amount of core simulator runs and more rapidly explore the space of possible solutions before performing more detailed design considerations. | 翻訳日:2023-12-16 05:08:11 公開日:2023-12-14 |
# Masked Language Modellingから自己注意は何を学べるか? What does self-attention learn from Masked Language Modelling? ( http://arxiv.org/abs/2304.07235v2 ) ライセンス: Link先を確認 | Riccardo Rende, Federica Gerace, Alessandro Laio, Sebastian Goldt | (参考訳) トランスフォーマーは自然言語処理と機械学習に革命をもたらしたニューラルネットワークである。
彼らは単語のように入力のシーケンスを自己認識と呼ばれるメカニズムを使って処理し、それはマスク付き言語モデリング(MLM)によって訓練される。
MLMでは、単語は入力シーケンスでランダムにマスクされ、ネットワークは欠落した単語を予測するために訓練される。
変圧器の実用的成功にもかかわらず、どのようなデータ分散自意識が効率的に学習できるかは不明だ。
ここでは,単語の位置と埋め込みの処理を分離すると,一層の自己注意層が,サイトとポッツの色との相互作用を伴う一般化ポッツモデルの条件を学習することを示す。
さらに, このニューラルネットワークのトレーニングは, 統計物理学でよく知られた擬似類似解法によって, 逆ポッツ問題の解法と完全に等価であることを示す。
このマッピングを用いて,レプリカ法によるモデルシナリオにおける自己注意の一般化誤差を解析的に計算する。 Transformers are neural networks which revolutionised natural language processing and machine learning. They process sequences of inputs, like words, using a mechanism called self-attention, which is trained via masked language modelling (MLM). In MLM, a word is randomly masked in an input sequence, and the network is trained to predict the missing word. Despite the practical success of transformers, it remains unclear what type of data distribution self-attention can learn efficiently. Here, we show analytically that if one decouples the treatment of word positions and embeddings, a single layer of self-attention learns the conditionals of a generalised Potts model with interactions between sites and Potts colours. Moreover, we show that training this neural network is exactly equivalent to solving the inverse Potts problem by the so-called pseudo-likelihood method, well known in statistical physics. Using this mapping, we compute the generalisation error of self-attention in a model scenario analytically using the replica method. | 翻訳日:2023-12-16 05:07:47 公開日:2023-12-14 |
# 決定論的ニューラルネットワークによる宇宙の初期状態の予測 Predicting the Initial Conditions of the Universe using a Deterministic Neural Network ( http://arxiv.org/abs/2303.13056v2 ) ライセンス: Link先を確認 | Vaibhav Jindal, Albert Liang, Aarti Singh, Shirley Ho, Drew Jamieson | (参考訳) 宇宙の現在の状態につながる初期条件の発見は、初期条件の難解な入力空間を探索することと、計算的に高価であるn体シミュレーションのようなツールによってその進化をモデル化することを伴うため、困難である。
近年,N体シミュレーションの線形入力とシミュレーションからの最終的な非線形出力のマッピングを直接学習することで,N体シミュレーションの代理としてディープラーニングが登場し,フォワードモデリングが著しく加速している。
しかし、これは初期条件の探索空間を減少させるものではない。
本研究では,逆写像の学習に決定論的畳み込みニューラルネットワークを用いることで,逆問題の1対1の写像(小規模の発散した後方軌道による)にもかかわらず,広い範囲にわたる線形変位場(<1$-$2\%$エラー)をほぼ$k\simeq0.8$-$0.9 \text{ Mpc}^{-1}h$まで正確に回復することを示す。
具体的には、赤方偏移$z=0$の非線形変位と宇宙パラメータを考慮し、N体シミュレーションの線形変位を出力するV-Netアーキテクチャを訓練する。
その結果,単純な決定論的ニューラルネットワークは,初期線形状態の近似化に十分であり,最近提案されているより複雑で計算に要求される後方モデリング手法の必要性を回避できる可能性が示唆された。 Finding the initial conditions that led to the current state of the universe is challenging because it involves searching over an intractable input space of initial conditions, along with modeling their evolution via tools such as N-body simulations which are computationally expensive. Recently, deep learning has emerged as a surrogate for N-body simulations by directly learning the mapping between the linear input of an N-body simulation and the final nonlinear output from the simulation, significantly accelerating the forward modeling. However, this still does not reduce the search space for initial conditions. In this work, we pioneer the use of a deterministic convolutional neural network for learning the reverse mapping and show that it accurately recovers the initial linear displacement field over a wide range of scales ($<1$-$2\%$ error up to nearly $k\simeq0.8$-$0.9 \text{ Mpc}^{-1}h$), despite the one-to-many mapping of the inverse problem (due to the divergent backward trajectories at smaller scales). Specifically, we train a V-Net architecture, which outputs the linear displacement of an N-body simulation, given the nonlinear displacement at redshift $z=0$ and the cosmological parameters. The results of our method suggest that a simple deterministic neural network is sufficient for accurately approximating the initial linear states, potentially obviating the need for the more complex and computationally demanding backward modeling methods that were recently proposed. | 翻訳日:2023-12-16 05:07:27 公開日:2023-12-14 |
# 抵抗ネットワークの正規化 Normalizing Resistor Networks ( http://arxiv.org/abs/2303.11839v3 ) ライセンス: Link先を確認 | Robin Cockett, Amolak Ratan Kalra, Priyaa Varshinee Srinivasan | (参考訳) 星からメッシュへの変換は電気工学でよく知られており、量子力学におけるグラフ状態の局所補間を思い起こさせる。
本稿では, 一般星とメッシュ変換を用いた任意の正分割リグ上の抵抗回路の書き換えシステムについて述べる。
これらの変換は, 抵抗回路のカテゴリ上で, 整合的かつ終端的な書き換えシステムとして構成できることを示す。
さらに、最近確立された量子回路と電気回路の接続に基づいて、安定化器量子回路のための接近可能な正規形を求める。 Star to mesh transformations are well-known in electrical engineering, and are reminiscent of local complementation for graph states in qudit stabilizer quantum mechanics. This paper describes a rewriting system for resistor circuits over any positive division rig using general star to mesh transformations. We show how these transformations can be organized into a confluent and terminating rewriting system on the category of resistor circuits. Furthermore, based on the recently established connections between quantum and electrical circuits, this paper pushes forward the quest for approachable normal forms for stabilizer quantum circuits. | 翻訳日:2023-12-16 05:06:58 公開日:2023-12-14 |
# 量子速極限仮説を否定する閉系 Closed systems refuting quantum-speed-limit hypotheses ( http://arxiv.org/abs/2303.09423v2 ) ライセンス: Link先を確認 | Niklas H\"ornedal and Ole S\"onnerborn | (参考訳) 孤立系に対する多くの量子速度制限は閉系にも適用できる。
これは例えば、よく知られたマンデルスタム・タム量子速度制限の場合である。
マーゴラスとレヴィティンは同様によく知られており、表面上は量子速度の限界を導いており、マーゴラス-レヴィタン量子速度の極限も同様に閉系に一般化できると広く信じられている。
しかし、この極限の最近の幾何学的な検証により、既知のほとんどの量子速度限界と大きく異なることが判明した。
本稿では、一般的な信念に反して、Margolus-Levitin量子速度制限は明らかな方法で閉系に拡張されないことを示す。
より正確には、Margolus-Levitin型の任意の仮定的境界に対して、境界よりも短い時間で与えられた忠実度を持つ状態間で保存された正規化期待エネルギーで進化する閉系が存在することを示す。
また、孤立系では、マンデルスタム・タム量子速度制限と、バティア・ダビエス量子速度制限と呼ばれるこの制限のわずかに弱められたバージョンが常に同時に飽和することを示した。
これら2つの進化時間の推定は、クローズドシステムへ直接拡張される。
我々は,mandelstam-tammを飽和させるが,bhatia-daviesの量子速度限界を満たさない閉系が存在することを実証する。 Many quantum speed limits for isolated systems can be generalized to also apply to closed systems. This is, for example, the case with the well-known Mandelstam-Tamm quantum speed limit. Margolus and Levitin derived an equally well-known and ostensibly related quantum speed limit, and it seems to be widely believed that the Margolus-Levitin quantum speed limit can be similarly generalized to closed systems. However, a recent geometrical examination of this limit reveals that it differs significantly from most known quantum speed limits. In this paper, we show that, contrary to the common belief, the Margolus-Levitin quantum speed limit does not extend to closed systems in an obvious way. More precisely, we show that for every hypothetical bound of Margolus-Levitin type, there are closed systems that evolve with a conserved normalized expected energy between states with any given fidelity in a time shorter than the bound. We also show that for isolated systems, the Mandelstam-Tamm quantum speed limit and a slightly weakened version of this limit that we call the Bhatia-Davies quantum speed limit always saturate simultaneously. Both of these evolution time estimates extend straightforwardly to closed systems. We demonstrate that there are closed systems that saturate the Mandelstam-Tamm but not the Bhatia-Davies quantum speed limit. | 翻訳日:2023-12-16 05:06:49 公開日:2023-12-14 |
# 弱スーパービジョンポイントクラウドセグメンテーションのための信頼性適応一貫性規則化 Reliability-Adaptive Consistency Regularization for Weakly-Supervised Point Cloud Segmentation ( http://arxiv.org/abs/2303.05164v2 ) ライセンス: Link先を確認 | Zhonghua Wu, Yicheng Wu, Guosheng Lin, Jianfei Cai | (参考訳) 極端に限られたラベルを持つ弱教師付きポイントクラウドセグメンテーションは、高額な注釈付き3Dポイントの収集コストを軽減するために非常に望ましい。
本稿では,弱教師付き学習において一般的に用いられる一貫性の正規化を,複数のデータ固有の拡張に対応する点クラウドに適用する手法について検討する。
弱教師付きポイントクラウドセグメンテーションに整合性制約を適用する簡単な方法は、従来の信頼度に基づく選択によるノイズのある擬似ラベルと、信頼性の低い疑似ラベルを破棄する不整合性制約の2つの大きな制限がある。
そこで我々は,予測信頼度とモデル不確実性を両立させて疑似ラベルの信頼性を計測し,対応する擬似ラベルの信頼性に基づいて異なる点に対する異なる整合性制約を伴って,すべての未ラベル点に対する整合性トレーニングを適用する新しい信頼性適応整合性ネットワーク(RAC-Net)を提案する。
S3DIS と ScanNet-v2 ベンチマークデータセットによる実験結果から,弱制御点クラウドセグメンテーションにおいて,本モデルが優れた性能を発揮することが示された。
コードはhttps://github.com/wu-zhonghua/RAC-Netで公開される。 Weakly-supervised point cloud segmentation with extremely limited labels is highly desirable to alleviate the expensive costs of collecting densely annotated 3D points. This paper explores applying the consistency regularization that is commonly used in weakly-supervised learning, for its point cloud counterpart with multiple data-specific augmentations, which has not been well studied. We observe that the straightforward way of applying consistency constraints to weakly-supervised point cloud segmentation has two major limitations: noisy pseudo labels due to the conventional confidence-based selection and insufficient consistency constraints due to discarding unreliable pseudo labels. Therefore, we propose a novel Reliability-Adaptive Consistency Network (RAC-Net) to use both prediction confidence and model uncertainty to measure the reliability of pseudo labels and apply consistency training on all unlabeled points while with different consistency constraints for different points based on the reliability of corresponding pseudo labels. Experimental results on the S3DIS and ScanNet-v2 benchmark datasets show that our model achieves superior performance in weakly-supervised point cloud segmentation. The code will be released publicly at https://github.com/wu-zhonghua/RAC-Net. | 翻訳日:2023-12-16 05:06:24 公開日:2023-12-14 |
# 線形QAOAに基づく分解アルゴリズムの落とし穴 Pitfalls of the sublinear QAOA-based factorization algorithm ( http://arxiv.org/abs/2303.04656v6 ) ライセンス: Link先を確認 | Sergey V. Grebnev, Maxim A. Gavreev, Evgeniy O. Kiktenko, Anton P. Guglya, Albert R. Efimov, Aleksey K. Fedorov | (参考訳) 量子コンピューティングデバイスは、広く普及している公開鍵暗号ツールの中心である素因数分解問題を解決する上で強力であると考えられている。
しかし、Shorの量子因数分解アルゴリズムの実装には、数値サイズと線形にスケールする重要なリソースが必要であり、量子エラー補正に必要なオーバーヘッドを考慮すると、2048ビットのRSA鍵を8時間で分解するには2000万の物理量子ビットが必要である。
Yanらによる最近の提案は、線形量子資源による分解問題を解く可能性を主張している。
我々の研究で示すように、この提案はシュノーラーの格子に基づくアプローチを利用するアルゴリズムの古典的な部分の計算複雑性の体系的な解析を欠いている。
提案する量子分解アルゴリズムに対する追加資源分析の必要性を示すいくつかの例を示す。 Quantum computing devices are believed to be powerful in solving the prime factorization problem, which is at the heart of widely deployed public-key cryptographic tools. However, the implementation of Shor's quantum factorization algorithm requires significant resources scaling linearly with the number size; taking into account an overhead that is required for quantum error correction the estimation is that 20 millions of (noisy) physical qubits are required for factoring 2048-bit RSA key in 8 hours. Recent proposal by Yan et al. claims a possibility of solving the factorization problem with sublinear quantum resources. As we demonstrate in our work, this proposal lacks systematic analysis of the computational complexity of the classical part of the algorithm, which exploits the Schnorr's lattice-based approach. We provide several examples illustrating the need in additional resource analysis for the proposed quantum factorization algorithm. | 翻訳日:2023-12-16 05:05:59 公開日:2023-12-14 |
# オープンシステムにおけるクリロフ複雑性について:bi-lanczosアルゴリズムによるアプローチ On Krylov complexity in open systems: an approach via bi-Lanczos algorithm ( http://arxiv.org/abs/2303.04175v2 ) ライセンス: Link先を確認 | Aranya Bhattacharya, Pratik Nandy, Pingal Pratyush Nath, Himanshu Sahu | (参考訳) 先述のarXiv: 2207.05347 と arXiv: 2212.06180 は継続して、散逸性開量子系における演算子成長とクリロフ複雑性の探索を追求する。
本稿では,非直交部分空間を個別に生成する2つの直交クリロフ空間を生成するバイランチョスアルゴリズムを利用する。
前述したアーノルドの反復とは異なり、このアルゴリズムはリンドブラジアンを純粋に三対角形にレンダリングし、クリュロフの複雑性を後期に計算することで、散逸可積分およびカオスシステムの幅広いクラスを研究できる可能性を開く。
本研究は, 散逸的横場イジングモデル(tfim)と散逸的相互作用型xxz鎖の2つの特定の系に依存する。
弱結合の場合、初期ランチョス係数は散逸効果が設定される前に可積分およびカオス的進化を効率的に区別することができ、それによってより高いランチョス係数のゆらぎが増大する。
この結果、積分可能ケースとカオス的ケースの両方において、リアルタイムの複雑さが等しく飽和し、遅延カオスの概念は疑わしいものとなる。 Continuing the previous initiatives arXiv: 2207.05347 and arXiv: 2212.06180, we pursue the exploration of operator growth and Krylov complexity in dissipative open quantum systems. In this paper, we resort to the bi-Lanczos algorithm generating two bi-orthogonal Krylov spaces, which individually generate non-orthogonal subspaces. Unlike the previously studied Arnoldi iteration, this algorithm renders the Lindbladian into a purely tridiagonal form, thus opening up a possibility to study a wide class of dissipative integrable and chaotic systems by computing Krylov complexity at late times. Our study relies on two specific systems, the dissipative transverse-field Ising model (TFIM) and the dissipative interacting XXZ chain. We find that, for the weak coupling, initial Lanczos coefficients can efficiently distinguish integrable and chaotic evolution before the dissipative effect sets in, which results in more fluctuations in higher Lanczos coefficients. This results in the equal saturation of late-time complexity for both integrable and chaotic cases, making the notion of late-time chaos dubious. | 翻訳日:2023-12-16 05:05:24 公開日:2023-12-14 |
# Data Portraits: 基礎モデルトレーニングデータの記録 Data Portraits: Recording Foundation Model Training Data ( http://arxiv.org/abs/2303.03919v2 ) ライセンス: Link先を確認 | Marc Marone, Benjamin Van Durme | (参考訳) 基礎モデルはますます複雑で不透明なデータセットで訓練される。
これらのモデルは現在、AIシステム構築においてキーになっているが、直接的な質問に答えることは難しい。
そこで,我々は,トレーニングデータを記録し,下流の検査を可能にするデータポートレートを広く採用することを提案する。
まず,このようなアーティファクトの特性を概説し,既存のソリューションが透明性を高める上でどのように役立つかについて議論する。
そこで我々は,高速で空間効率のよいクエリを行うために,データスケッチに基づくソリューションを提案し,実装する。
私たちのツールを使って、人気のある言語モデリングコーパス(山)と最近リリースされたコードモデリングデータセット(スタック)を文書化します。
私たちのソリューションは,テストセットの漏洩とモデル盗作に関する質問に答えることを可能にする。
私たちのツールは軽量で高速で、オーバーヘッドのデータセットサイズはわずか3%です。
当社はツールのライブインターフェースをhttps://dataportraits.org/でリリースし、データセットとモデルクリエータに現在のドキュメントプラクティスの補完としてData Portraitsをリリースするよう呼びかけています。 Foundation models are trained on increasingly immense and opaque datasets. Even while these models are now key in AI system building, it can be difficult to answer the straightforward question: has the model already encountered a given example during training? We therefore propose a widespread adoption of Data Portraits: artifacts that record training data and allow for downstream inspection. First we outline the properties of such an artifact and discuss how existing solutions can be used to increase transparency. We then propose and implement a solution based on data sketching, stressing fast and space efficient querying. Using our tools, we document a popular language modeling corpus (The Pile) and a recently released code modeling dataset (The Stack). We show that our solution enables answering questions about test set leakage and model plagiarism. Our tool is lightweight and fast, costing only 3% of the dataset size in overhead. We release a live interface of our tools at https://dataportraits.org/ and call on dataset and model creators to release Data Portraits as a complement to current documentation practices. | 翻訳日:2023-12-16 05:05:00 公開日:2023-12-14 |
# 強化学習による実世界ヒューマノイド移動 Real-World Humanoid Locomotion with Reinforcement Learning ( http://arxiv.org/abs/2303.03381v2 ) ライセンス: Link先を確認 | Ilija Radosavovic, Tete Xiao, Bike Zhang, Trevor Darrell, Jitendra Malik, Koushil Sreenath | (参考訳) 多様な環境で自律的に操作できるヒューマノイドロボットは、工場の労働不足に対処し、高齢者を家庭で支援し、新しい惑星を植民地化する可能性を持っている。
ヒューマノイドロボットの古典的なコントローラーは、多くの設定で印象的な結果を示しているが、新しい環境への一般化と適応は困難である。
そこで本研究では,実世界のヒューマノイド移動に対する完全学習型アプローチを提案する。
我々のコントローラは、先天的な観察と行動の履歴を入力とし、次のアクションを予測する因果変換器である。
我々は、観測行動履歴には、強力なトランスフォーマーモデルが、重みを更新せずに、コンテキスト内の動作に適応できる世界に関する有用な情報が含まれていると仮定する。
我々は,シミュレーションにおけるランダムな環境のアンサンブルをモデルレス大規模強化学習で学習し,実世界のゼロショットに展開する。
我々のコントローラーは様々な屋外の地形を歩けるし、外乱に対して頑丈で、状況に応じて適応できる。 Humanoid robots that can autonomously operate in diverse environments have the potential to help address labour shortages in factories, assist elderly at homes, and colonize new planets. While classical controllers for humanoid robots have shown impressive results in a number of settings, they are challenging to generalize and adapt to new environments. Here, we present a fully learning-based approach for real-world humanoid locomotion. Our controller is a causal transformer that takes the history of proprioceptive observations and actions as input and predicts the next action. We hypothesize that the observation-action history contains useful information about the world that a powerful transformer model can use to adapt its behavior in-context, without updating its weights. We train our model with large-scale model-free reinforcement learning on an ensemble of randomized environments in simulation and deploy it to the real world zero-shot. Our controller can walk over various outdoor terrains, is robust to external disturbances, and can adapt in context. | 翻訳日:2023-12-16 05:04:41 公開日:2023-12-14 |
# Prophet:知識に基づく視覚質問応答のための補足的回答ヒューリスティックスを用いた大規模言語モデルの提案 Prophet: Prompting Large Language Models with Complementary Answer Heuristics for Knowledge-based Visual Question Answering ( http://arxiv.org/abs/2303.01903v3 ) ライセンス: Link先を確認 | Zhou Yu, Xuecheng Ouyang, Zhenwei Shao, Meng Wang, Jun Yu | (参考訳) 知識に基づく視覚的質問応答(VQA)は、質問に答えるために、画像以外の外部知識を必要とする。
初期の研究では、明示的な知識ベース(KB)から必要な知識を抽出し、しばしば問題に無関係な情報を導入し、モデルの性能を制限する。
近年の研究では,暗黙の知識エンジンとして強力な大規模言語モデル (LLM) を用いることで,回答に必要な知識を獲得している。
これらの手法によって得られた奨励的な結果にもかかわらず、提供されたテキスト入力が問題に答えるために必要な視覚情報を記述するのに不十分であるため、視覚的LLMの能力を完全に活性化していないと論じる。
本稿では,知識に基づくVQAの解答ヒューリスティックを LLM に促すための,概念的にシンプルで柔軟で汎用的なフレームワークである Prophet を提案する。
具体的には、まず、外部知識のない特定の知識に基づくVQAデータセット上でバニラVQAモデルをトレーニングする。
その後、VQAモデルから、解答候補と解答認識例の2種類の補解ヒューリスティックを抽出する。
最後に、2つのタイプの回答ヒューリスティックが共同でフォーマットされたプロンプトにエンコードされ、llmが画像と質問の両方を理解しやすくすることで、より正確な回答を生成する。
最先端のLPM GPT-3を組み込むことで、Prophetは4つの挑戦的な知識ベースのVQAデータセットにおいて、既存の最先端の手法よりも大幅に優れている。
このアプローチの一般性を示すため、異なるVQAモデル(識別モデルと生成モデルの両方)と異なるLLM(商用モデルとオープンソースモデルの両方)の組み合わせでProphetをインスタンス化する。 Knowledge-based visual question answering (VQA) requires external knowledge beyond the image to answer the question. Early studies retrieve required knowledge from explicit knowledge bases (KBs), which often introduces irrelevant information to the question, hence restricting the performance of their models. Recent works have resorted to using a powerful large language model (LLM) as an implicit knowledge engine to acquire the necessary knowledge for answering. Despite the encouraging results achieved by these methods, we argue that they have not fully activated the capacity of the blind LLM as the provided textual input is insufficient to depict the required visual information to answer the question. In this paper, we present Prophet -- a conceptually simple, flexible, and general framework designed to prompt LLM with answer heuristics for knowledge-based VQA. Specifically, we first train a vanilla VQA model on a specific knowledge-based VQA dataset without external knowledge. After that, we extract two types of complementary answer heuristics from the VQA model: answer candidates and answer-aware examples. Finally, the two types of answer heuristics are jointly encoded into a formatted prompt to facilitate the LLM's understanding of both the image and question, thus generating a more accurate answer. By incorporating the state-of-the-art LLM GPT-3, Prophet significantly outperforms existing state-of-the-art methods on four challenging knowledge-based VQA datasets. To demonstrate the generality of our approach, we instantiate Prophet with the combinations of different VQA models (i.e., both discriminative and generative ones) and different LLMs (i.e., both commercial and open-source ones). | 翻訳日:2023-12-16 05:04:24 公開日:2023-12-14 |
# deepsade: ドメイン制約満足度を保証するニューラルネットワークの学習 DeepSaDe: Learning Neural Networks that Guarantee Domain Constraint Satisfaction ( http://arxiv.org/abs/2303.01141v3 ) ライセンス: Link先を確認 | Kshitij Goyal, Sebastijan Dumancic, Hendrik Blockeel | (参考訳) 機械学習モデル、特にニューラルネットワークの人気が高まっているため、その信頼性に関する懸念があり、特に安全クリティカルなアプリケーションにおいて、例えば自動運転車の動作は安全でなければならない。
このようなドメイン要件が制約として強制されるようなニューラルネットワークをトレーニングできるアプローチもあるが、(目に見えないデータであっても)可能なすべての予測によって制約が満足されることを保証できないか、強制可能な制約の種類に制限されているかのいずれかだ。
本稿では,様々な制約を強制し,すべての可能な予測によって制約が満たされることを保証するニューラルネットワークの学習手法を提案する。
このアプローチは、線形モデルの学習が制約満足度問題(CSP)として定式化される以前の作業に基づいている。
このアイデアをニューラルネットワークに適用するために、ネットワーク層上の制約伝搬と、勾配降下とCSP解決の混合に基づく重み更新という、2つの重要な新しい要素が追加されている。
さまざまな機械学習タスクの評価は、我々のアプローチが多種多様なドメイン制約を強制するのに十分柔軟であり、それをニューラルネットワークで保証できることを示している。 As machine learning models, specifically neural networks, are becoming increasingly popular, there are concerns regarding their trustworthiness, specially in safety-critical applications, e.g. actions of an autonomous vehicle must be safe. There are approaches that can train neural networks where such domain requirements are enforced as constraints, but they either cannot guarantee that the constraint will be satisfied by all possible predictions (even on unseen data) or they are limited in the type of constraints that can be enforced. In this paper, we present an approach to train neural networks which can enforce a wide variety of constraints and guarantee that the constraint is satisfied by all possible predictions. The approach builds on earlier work where learning linear models is formulated as a constraint satisfaction problem (CSP). To make this idea applicable to neural networks, two crucial new elements are added: constraint propagation over the network layers, and weight updates based on a mix of gradient descent and CSP solving. Evaluation on various machine learning tasks demonstrates that our approach is flexible enough to enforce a wide variety of domain constraints and is able to guarantee them in neural networks. | 翻訳日:2023-12-16 05:03:53 公開日:2023-12-14 |
# gshot:ラベル付きグラフの少ない生成モデル GSHOT: Few-shot Generative Modeling of Labeled Graphs ( http://arxiv.org/abs/2306.03480v2 ) ライセンス: Link先を確認 | Sahil Manchanda, Shubham Gupta, Sayan Ranu, Srikanta Bedathur | (参考訳) 近年、深層グラフ生成モデリングは、基盤となる隠れグラフ分布を直接学習する能力によって、大きな注目を集めている。
初期の成功にもかかわらず、これらのテクニックは既存の多くの深層生成手法と同様に、優れたモデルを学ぶために多くのトレーニングサンプルを必要とする。
残念なことに、多くのトレーニングサンプルは、希少な疾患の薬物発見のようなシナリオで常に利用できるとは限らない。
同時に、数発学習の最近の進歩は、利用可能なトレーニングデータが制限されたアプリケーションへの扉を開いた。
本稿では,数ショットグラフ生成モデリングの非探索的パラダイムを紹介する。
これに向けて我々は,限定ラベルグラフ生成モデリングのためのメタラーニングベースのフレームワークであるgshotを開発した。
GSHOTは、類似のグラフデータセットからメタ知識の転送を学ぶ。
これらの経験を生かして、GSHOTは、セルフペースの微調整を通じて、目に見えないグラフデータセットに迅速に適応する。
トレーニングサンプルが限られている多様なドメインからのデータセットに関する広範な実験により、GSHOTは既存のベースラインに比べて優れた忠実度グラフを生成することが判明した。 Deep graph generative modeling has gained enormous attraction in recent years due to its impressive ability to directly learn the underlying hidden graph distribution. Despite their initial success, these techniques, like much of the existing deep generative methods, require a large number of training samples to learn a good model. Unfortunately, large number of training samples may not always be available in scenarios such as drug discovery for rare diseases. At the same time, recent advances in few-shot learning have opened door to applications where available training data is limited. In this work, we introduce the hitherto unexplored paradigm of few-shot graph generative modeling. Towards this, we develop GSHOT, a meta-learning based framework for few-shot labeled graph generative modeling. GSHOT learns to transfer meta-knowledge from similar auxiliary graph datasets. Utilizing these prior experiences, GSHOT quickly adapts to an unseen graph dataset through self-paced fine-tuning. Through extensive experiments on datasets from diverse domains having limited training samples, we establish that GSHOT generates graphs of superior fidelity compared to existing baselines. | 翻訳日:2023-12-16 04:57:11 公開日:2023-12-14 |
# SourceP:ソースコードでEthereum上のPonziスキーマを検出する SourceP: Detecting Ponzi Schemes on Ethereum with Source Code ( http://arxiv.org/abs/2306.01665v6 ) ライセンス: Link先を確認 | Pengcheng Lu, Liang Cai, and Keting Yin | (参考訳) ブロックチェーン技術がますます普及するにつれて、一般的な金融詐欺であるPonziスキームもブロックチェーンプラットフォームEthereumに登場している。
スマートコントラクトを通じて展開されるこのPonziスキームは、スマートPonziスキームとしても知られ、多くの経済的損失と負の影響を引き起こしている。
Ethereum上のスマートPonziスキームを検出する既存の方法は、主にバイトコード機能、オペコード機能、アカウント機能、スマートコントラクトのトランザクション動作機能に依存しており、Ponziスキームの動作特性を真に特徴づけることができないため、検出精度と誤警報率の点で一般的には不十分である。
本稿では,事前訓練されたモデルとデータフローを用いてEthereumプラットフォーム上のスマートPonziスキームを検出する方法であるSourcePを提案する。
SourcePは、既存の検出方法のデータの取得と特徴抽出の難しさを軽減する。
具体的には、まずスマートコントラクトのソースコードをデータフローグラフに変換し、次に学習コード表現に基づく事前学習モデルを導入し、スマートコントラクト内のポンジスキームを識別するための分類モデルを構築する。
実験の結果, SourceP は Ethereum のスマートコントラクトデータセット内のスマート Ponzi スキームの検出において,87.2\% のリコールと90.7\% のFスコアを達成した。
我々はまた、事前訓練されたモデルとデータフローがSourcePに重要な貢献をしていること、およびSourcePが優れた一般化能力を持っていることを実証する追加の実験を通して実証する。 As blockchain technology becomes more and more popular, a typical financial scam, the Ponzi scheme, has also emerged in the blockchain platform Ethereum. This Ponzi scheme deployed through smart contracts, also known as the smart Ponzi scheme, has caused a lot of economic losses and negative impacts. Existing methods for detecting smart Ponzi schemes on Ethereum mainly rely on bytecode features, opcode features, account features, and transaction behavior features of smart contracts, which are unable to truly characterize the behavioral features of Ponzi schemes, and thus generally perform poorly in terms of detection accuracy and false alarm rates. In this paper, we propose SourceP, a method to detect smart Ponzi schemes on the Ethereum platform using pre-trained models and data flow, which only requires using the source code of smart contracts as features. SourceP reduces the difficulty of data acquisition and feature extraction of existing detection methods. Specifically, we first convert the source code of a smart contract into a data flow graph and then introduce a pre-trained model based on learning code representations to build a classification model to identify Ponzi schemes in smart contracts. The experimental results show that SourceP achieves 87.2\% recall and 90.7\% F-score for detecting smart Ponzi schemes within Ethereum's smart contract dataset, outperforming state-of-the-art methods in terms of performance and sustainability. We also demonstrate through additional experiments that pre-trained models and data flow play an important contribution to SourceP, as well as proving that SourceP has a good generalization ability. | 翻訳日:2023-12-16 04:56:56 公開日:2023-12-14 |
# ダイヤモンド表面電子によるラベリング分子の増幅ナノスケール検出 Amplified Nanoscale Detection of Labelled Molecules via Surface Electrons on Diamond ( http://arxiv.org/abs/2305.19055v2 ) ライセンス: Link先を確認 | A. Biteri-Uribarren, P. Alsina-Bol\'ivar, C. Munuera-Javaloy, R. Puebla, J. Casanova | (参考訳) 個々の分子とそのダイナミクスの検出は、ナノテクノロジー分野における長年にわたる課題である。
本研究では, 窒素空孔(NV)中心とダイヤモンド表面のダングリング結合を利用して, マクロ分子上にタグ付けされた2つの電子標的間の結合を測定する手法を提案する。
これを実現するために,窒素空孔中心とダングリング結合との強い相互作用を利用するマルチトーン動的脱カップリング配列を設計する。
さらに、このシーケンスはデコヒーレンスの影響を最小限に抑え、最終的に信号対雑音比が増加する。
この提案は、生物物理学や生化学のような異なる分野における基礎研究と技術革新のための新しい道を開く可能性を秘めている。 The detection of individual molecules and their dynamics has been a long-standing challenge in the field of nanotechnology. In this work, we present a method that utilizes a nitrogen vacancy (NV) center and a dangling-bond on the diamond surface to measure the coupling between two electronic targets tagged on a macromolecule. To achieve this, we design a multi-tone dynamical decoupling sequence that leverages the strong interaction between the nitrogen vacancy center and the dangling bond. In addition, this sequence minimizes the impact of decoherence finally resulting in an increased signal-to-noise ratio. This proposal has the potential to open up new avenues for fundamental research and technological innovation in distinct areas such as biophysics and biochemistry. | 翻訳日:2023-12-16 04:56:18 公開日:2023-12-14 |
# Eclipse: 意図しない影による照明と材料の曖昧さ Eclipse: Disambiguating Illumination and Materials using Unintended Shadows ( http://arxiv.org/abs/2305.16321v3 ) ライセンス: Link先を確認 | Dor Verbin, Ben Mildenhall, Peter Hedman, Jonathan T. Barron, Todd Zickler, Pratul P. Srinivasan | (参考訳) 物体の外観を素材の表現や周囲の照明に分解することは、物体の3d形状が事前に分かっている場合でも困難である。
この問題は拡散物にとって特に困難であり、拡散物質が入射光をひどくぼやけていることや、高周波照明下の拡散物質が低周波照明下で光沢材料と区別できないことなどから不調である。
被写体に投げられた影のような意図しない影を利用して、拡散した物体からでも正確な材料や照明を復元できることを示した。
これらのシャドウは従来の逆レンダリングパイプラインでは迷惑ですが、ここではコンディショニングを改善し、物質を照らすあいまいさを解決するシグナルとして活用します。
本研究では,物体の画像から空間的変化のある物質,周囲の照明環境,および不注意に影を落としている未確認光閉塞者の形状を共同で復元するモンテカルロ線トレーシング法を提案する。 Decomposing an object's appearance into representations of its materials and the surrounding illumination is difficult, even when the object's 3D shape is known beforehand. This problem is especially challenging for diffuse objects: it is ill-conditioned because diffuse materials severely blur incoming light, and it is ill-posed because diffuse materials under high-frequency lighting can be indistinguishable from shiny materials under low-frequency lighting. We show that it is possible to recover precise materials and illumination -- even from diffuse objects -- by exploiting unintended shadows, like the ones cast onto an object by the photographer who moves around it. These shadows are a nuisance in most previous inverse rendering pipelines, but here we exploit them as signals that improve conditioning and help resolve material-lighting ambiguities. We present a method based on differentiable Monte Carlo ray tracing that uses images of an object to jointly recover its spatially-varying materials, the surrounding illumination environment, and the shapes of the unseen light occluders who inadvertently cast shadows upon it. | 翻訳日:2023-12-16 04:55:50 公開日:2023-12-14 |
# OverPrompt: 効率的なインコンテキスト学習によるチャットGPTの強化 OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning ( http://arxiv.org/abs/2305.14973v2 ) ライセンス: Link先を確認 | Jiazheng Li, Runcong Zhao, Yongxin Yang, Yulan He, Lin Gui | (参考訳) 事前訓練された大規模言語モデルの顕著な性能は、様々な自然言語処理アプリケーションに革命をもたらした。
巨大なパラメータ化と広範な実行コストのため、企業や組織はモデルをゼロショットプロンプト技術でターゲットタスクに転送する傾向があります。
しかし、トークンと時間の禁止コストは、アプリケーションへの採用を妨げている。
本稿では,複数のタスク入力を処理するために,llmsのコンテキスト内学習機能を活用し,トークンと時間コストを削減するoverpromptを提案する。
このアプローチは、条件付き分散マッピングの改善により、APIクエリ中のタスクパフォーマンスを改善する可能性がある。
多様な分類データセットから評価したところ、OverPromptはタスク性能に大きな損なうことなくコスト効率の良いゼロショット分類を達成でき、場合によってはその改善も可能であることがわかった。
様々なLSMで行ったアブレーション研究は、異なる入力順序付けへの促す戦略の堅牢性の調査とともに、様々なタスクにまたがる手法の適用性に関する貴重な洞察を提供する。
これらの結果から,APIによるLCMとメソッドのシームレスな統合が示唆された。 The remarkable performance of pre-trained large language models has revolutionised various natural language processing applications. Due to huge parametersizes and extensive running costs, companies or organisations tend to transfer the models to the target task by zero-shot prompting techniques. However, the prohibitive costs of tokens and time have hindered their adoption in applications. We propose OverPrompt, leveraging the in-context learning capability of LLMs to handle multiple task inputs, thereby reducing token and time costs. This approach could potentially improve task performance during API queries due to better conditional distribution mapping. Evaluated across diverse classification datasets, our experiments show that OverPrompt can achieve cost-efficient zero-shot classification without causing significant detriment to task performance, and in some cases, even improving it. An ablation study conducted on various LLMs, along with an investigation into the robustness of our prompting strategy to different input ordering, offers valuable insights into the broader applicability of our method across diverse tasks. These findings also suggest a more seamless integration of our method with LLMs through an API. | 翻訳日:2023-12-16 04:55:31 公開日:2023-12-14 |
# 単一点監視によるリモートセンシング物体検出の学習 Learning Remote Sensing Object Detection with Single Point Supervision ( http://arxiv.org/abs/2305.14141v2 ) ライセンス: Link先を確認 | Shitian He, Huanxin Zou, Yingqian Wang, Boyang Li, Xu Cao and Ning Jing | (参考訳) pointly supervised object detection (psod) は、ボックスレベルの教師付きオブジェクト検出に比べてラベリングコストが低く、かなりの関心を集めている。
しかしながら、リモートセンシング(rs)画像における複雑なシーン、密集した動的スケールオブジェクトは、rsフィールドにおけるpsodメソッドの開発を妨げる。
本稿では,単一点監視によるrsオブジェクト検出を初めて試み,rs画像に適したpsod法を提案する。
具体的には、単一点ラベルから擬似箱ラベルを生成するための点ラベル更新器(PLUG)を設計し、擬似箱を用いて既存の検出器の最適化を監督する。
さらに,RS画像中の密集したオブジェクトの課題に対処するため,スパースオブジェクトから情報的手がかりをフル活用して高品質なセマンティックマップを生成可能なスパース特徴ガイド型セマンティック予測モジュールを提案する。
DOTAデータセットの大規模なアブレーション研究により,本手法の有効性が検証された。
提案手法は,最先端の画像レベルとポイントレベルの教師付き検出法と比較して性能が大幅に向上し,PSODとボックスレベルの教師付きオブジェクト検出の差を低減できる。
コードはhttps://github.com/heshitian/plugで入手できる。 Pointly Supervised Object Detection (PSOD) has attracted considerable interests due to its lower labeling cost as compared to box-level supervised object detection. However, the complex scenes, densely packed and dynamic-scale objects in Remote Sensing (RS) images hinder the development of PSOD methods in RS field. In this paper, we make the first attempt to achieve RS object detection with single point supervision, and propose a PSOD method tailored for RS images. Specifically, we design a point label upgrader (PLUG) to generate pseudo box labels from single point labels, and then use the pseudo boxes to supervise the optimization of existing detectors. Moreover, to handle the challenge of the densely packed objects in RS images, we propose a sparse feature guided semantic prediction module which can generate high-quality semantic maps by fully exploiting informative cues from sparse objects. Extensive ablation studies on the DOTA dataset have validated the effectiveness of our method. Our method can achieve significantly better performance as compared to state-of-the-art image-level and point-level supervised detection methods, and reduce the performance gap between PSOD and box-level supervised object detection. Code is available at https://github.com/heshitian/PLUG. | 翻訳日:2023-12-16 04:55:12 公開日:2023-12-14 |
# 事例案内質問応答による対話状態追跡 Continual Dialogue State Tracking via Example-Guided Question Answering ( http://arxiv.org/abs/2305.13721v2 ) ライセンス: Link先を確認 | Hyundong Cho, Andrea Madotto, Zhaojiang Lin, Khyathi Raghavi Chandu, Satwik Kottur, Jing Xu, Jonathan May, Chinnadhurai Sankar | (参考訳) 対話システムは、新しいサービスに対応するために頻繁に更新されるが、学習済みサービスのパフォーマンスを低下させるため、新しいサービスのデータを継続的にトレーニングすることで、ナビゲート的に更新される。
対話状態追跡(DST)は,会話の進行に伴ってユーザの目標を推定する対話システムにおいて重要な要素であり,単純な自然言語理解タスクであり,サービス間のタスクシフトを最小限に抑えるために,詳細なサンプル誘導質問応答タスクのバンドルとして,それを再構成することを提案する。
提案手法はサービス固有の暗記を緩和し、与えられた質問やサンプルを文脈化して会話から必要な情報を抽出するモデルを教える。
60mのパラメータを持つモデルは、同様の対話状態の変化でターンを識別する訓練を受けたレトリバーが取得したコンテキスト内サンプルから学習することで、大幅な向上を達成できることが分かりました。
提案手法と対話レベルのメモリリプレイを組み合わせることで,複雑な正規化やパラメータ拡張手法を必要とせずに,dst連続学習指標におけるアートパフォーマンスを実現する。 Dialogue systems are frequently updated to accommodate new services, but naively updating them by continually training with data for new services in diminishing performance on previously learnt services. Motivated by the insight that dialogue state tracking (DST), a crucial component of dialogue systems that estimates the user's goal as a conversation proceeds, is a simple natural language understanding task, we propose reformulating it as a bundle of granular example-guided question answering tasks to minimize the task shift between services and thus benefit continual learning. Our approach alleviates service-specific memorization and teaches a model to contextualize the given question and example to extract the necessary information from the conversation. We find that a model with just 60M parameters can achieve a significant boost by learning to learn from in-context examples retrieved by a retriever trained to identify turns with similar dialogue state changes. Combining our method with dialogue-level memory replay, our approach attains state of the art performance on DST continual learning metrics without relying on any complex regularization or parameter expansion methods. | 翻訳日:2023-12-16 04:54:22 公開日:2023-12-14 |
# 孤立系の平衡:初期状態磁化における粗粒化の役割に関する研究 Equilibration of Isolated Systems: investigating the role of coarse-graining on the initial state magnetization ( http://arxiv.org/abs/2305.11985v3 ) ライセンス: Link先を確認 | Gabriel Dias Carvalho, Luis Fernando dos Prazeres, Pedro Silva Correia, and Thiago R de Oliveira | (参考訳) 多くの理論および実験の結果は、一元的に進化する孤立量子系でさえも、観測可能ないくつかの進化は、大抵の場合、無視できるゆらぎを持つ平衡値の周りに存在する可能性があるため、等式化することができることを示している。
そのような平衡が発生する条件を与える厳密な定理がある。
特に、エネルギーの分解能の欠如で準備された初期状態は平衡する。
初期状態の磁化における分解能の欠如や粗粒化の影響について検討する。
特に、カオススピンチェーンと正確な対角化を用いて、粗く、よく定義されていない磁化との初期状態の平衡度が、よく定義された初期状態のレベルとは異なることを示す。
この差は粗粒化の程度と磁化の方向に依存する。
また,システムが平衡に達するまでの時間を解析し,理論的な推定値とよく一致し,より少ない分解能で平衡がより速くなることを示す。
本研究は,量子系の平衡力学における初期状態準備の重要性を強調し,閉系における平衡の基本的性質に関する新たな知見を提供する。 Many theoretical and experimental results show that even isolated quantum systems evolving unitarily may equilibrate, since the evolution of some observables may be around an equilibrium value with negligible fluctuations most of the time. There are rigorous theorems giving the conditions for such equilibration to happen. In particular, initial states prepared with a lack of resolution in the energy will equilibrate. We investigate how equilibration may be affected by a lack of resolution, or coarse-graining, in the magnetization of the initial state. In particular, for a chaotic spin chain and using exact diagonalization, we show that the level of equilibration of an initial state with a coarse, not well-defined magnetization is different from the level of an initial state with well-defined magnetization. This difference will depend on the degree of coarse-graining and the direction of magnetization. We also analyze the time for the system to reach equilibrium, showing good agreement with theoretical estimates and with some evidence that less resolution leads to faster equilibration. Our study highlights the crucial role of initial state preparation in the equilibration dynamics of quantum systems and provides new insights into the fundamental nature of equilibration in closed systems. | 翻訳日:2023-12-16 04:54:01 公開日:2023-12-14 |
# 大規模言語モデルによるAI生成テキスト検出の回避 Large Language Models can be Guided to Evade AI-Generated Text Detection ( http://arxiv.org/abs/2305.10847v5 ) ライセンス: Link先を確認 | Ning Lu, Shengcai Liu, Rui He, Qi Wang, Yew-Soon Ong, Ke Tang | (参考訳) 大規模言語モデル(LLM)は様々なタスクにおいて顕著な性能を示し、一般に広く利用されている。
しかし、盗作やスパムといったllmの誤用に関する懸念が高まり、微調整された分類器や統計的手法を含む複数の検出器の開発につながった。
本研究では,これらの検出器の脆弱性を評価するために,外部パラフラサーに頼るのではなく,LCMにプロンプトを付与する。
本稿では,検出器を回避するためのプロンプトを自動的に構築する新しい置換型インコンテキスト・サンプル最適化手法を提案する。
SICOは40の人手による例と、プロンプトを生成するのに限られた数のLLM推論を必要とするため、コスト効率が高い。
さらに、タスク固有のプロンプトが構築されれば、幅広い検出器に対して普遍的に使用することができる。
3つの実世界のタスクにわたる大規模な実験により、SICOはパラフラザーベースラインを著しく上回り、GPT-3.5は6つの検出器を回避し、平均0.5のAUCを減少させることができた。
さらに、総合的な人的評価と、野生での検証実験により、SICO生成したテキストが人間レベルの可読性とタスク完了率を達成することを示す。
最後に、sicoの強力な性能は将来の検出器の信頼性評価ツールとしての可能性を示している。
コードとデータはhttps://github.com/ColinLu50/Evade-GPT-Detectorにある。 Large language models (LLMs) have shown remarkable performance in various tasks and have been extensively utilized by the public. However, the increasing concerns regarding the misuse of LLMs, such as plagiarism and spamming, have led to the development of multiple detectors, including fine-tuned classifiers and statistical methods. In this study, we equip LLMs with prompts, rather than relying on an external paraphraser, to evaluate the vulnerability of these detectors. We propose a novel Substitution-based In-Context example Optimization method (SICO) to automatically construct prompts for evading the detectors. SICO is cost-efficient as it requires only 40 human-written examples and a limited number of LLM inferences to generate a prompt. Moreover, once a task-specific prompt has been constructed, it can be universally used against a wide range of detectors. Extensive experiments across three real-world tasks demonstrate that SICO significantly outperforms the paraphraser baselines and enables GPT-3.5 to successfully evade six detectors, decreasing their AUC by 0.5 on average. Furthermore, a comprehensive human evaluation as well as a validation experiment in the wild show that the SICO-generated text achieves human-level readability and task completion rates. Finally, the strong performance of SICO exhibits its potential as a reliable evaluation tool for future detectors. The codes and data are located on https://github.com/ColinLu50/Evade-GPT-Detector. | 翻訳日:2023-12-16 04:53:41 公開日:2023-12-14 |
# 画像圧縮のためのマルチスケール拡張正規化フロー Multiscale Augmented Normalizing Flows for Image Compression ( http://arxiv.org/abs/2305.05451v2 ) ライセンス: Link先を確認 | Marc Windsheimer, Fabian Brand, Andr\'e Kaup | (参考訳) ほとんどの学習ベース画像圧縮法は、非可逆設計のため、高画質の効率を欠いている。
頻繁に適用される圧縮オートエンコーダアーキテクチャの復号関数は、符号化変換の近似逆数である。
この問題は可逆潜在変数モデルを用いることで解決できるため、量子化が行われなければ完全再構成が可能である。
さらに、従来の画像やビデオコーダの多くは、コンテンツに応じて特定の画像領域の圧縮を変更するために動的ブロック分割を適用している。
このアプローチにインスパイアされた階層型潜在空間は、学習に基づく圧縮ネットワークに適用されている。
本稿では,可逆的潜在変数モデルである拡張正規化フローに対して階層的潜在空間を適用する新しい概念を提案する。
我々の最高のパフォーマンスモデルは、比較対象のシングルスケールモデルよりも平均で7%以上節約できた。 Most learning-based image compression methods lack efficiency for high image quality due to their non-invertible design. The decoding function of the frequently applied compressive autoencoder architecture is only an approximated inverse of the encoding transform. This issue can be resolved by using invertible latent variable models, which allow a perfect reconstruction if no quantization is performed. Furthermore, many traditional image and video coders apply dynamic block partitioning to vary the compression of certain image regions depending on their content. Inspired by this approach, hierarchical latent spaces have been applied to learning-based compression networks. In this paper, we present a novel concept, which adapts the hierarchical latent space for augmented normalizing flows, an invertible latent variable model. Our best performing model achieved average rate savings of more than 7% over comparable single-scale models. | 翻訳日:2023-12-16 04:52:41 公開日:2023-12-14 |
# Attribute Regularized Soft Introspective VAE: : MRI領域による心Attribute Regularizationに向けて Attribute Regularized Soft Introspective VAE: Towards Cardiac Attribute Regularization Through MRI Domains ( http://arxiv.org/abs/2307.12618v2 ) ライセンス: Link先を確認 | Maxime Di Folco and Cosmin Bercea and Julia A. Schnabel | (参考訳) 深層生成モデルがデータ生成と操作に影響を与えている。
データ属性を選択的に変更することで、これらのモデルの制御性を高めることが最近注目されている。
変分オートエンコーダ(VAE)は、隠された属性をキャプチャするが、しばしばぼやけた再構成を生成する。
これらの属性を異なる画像領域で制御することは、医用画像では難しい。
近年、ソフトイントロスペクティブvaeは、vae訓練に敵対的損失を組み込むことにより、印象的な画像合成能力を示したvaesとgansの双方の利点を生かしている。
本研究では,属性正規化損失をSoft-Intro VAEフレームワークに組み込むことで,Attributed Soft Introspective VAE(Attri-SIVAE)を提案する。
種々のスキャナーベンダーや取得センタなど,様々な領域の心臓MRIデータに対する提案手法を実験的に評価した。
提案手法は, 従来の正規化vaeと比較して, 再構成と正規化の点で同等の性能を発揮するが, 比較法とは異なり, 異なるデータセット上でテストした場合も同様の正規化レベルを維持することにも成功している。 Deep generative models have emerged as influential instruments for data generation and manipulation. Enhancing the controllability of these models by selectively modifying data attributes has been a recent focus. Variational Autoencoders (VAEs) have shown promise in capturing hidden attributes but often produce blurry reconstructions. Controlling these attributes through different imaging domains is difficult in medical imaging. Recently, Soft Introspective VAE leverage the benefits of both VAEs and Generative Adversarial Networks (GANs), which have demonstrated impressive image synthesis capabilities, by incorporating an adversarial loss into VAE training. In this work, we propose the Attributed Soft Introspective VAE (Attri-SIVAE) by incorporating an attribute regularized loss, into the Soft-Intro VAE framework. We evaluate experimentally the proposed method on cardiac MRI data from different domains, such as various scanner vendors and acquisition centers. The proposed method achieves similar performance in terms of reconstruction and regularization compared to the state-of-the-art Attributed regularized VAE but additionally also succeeds in keeping the same regularization level when tested on a different dataset, unlike the compared method. | 翻訳日:2023-12-16 04:45:06 公開日:2023-12-14 |
# 光冷却・浮遊ナノ粒子を用いた微視的指向性雑音浴のセンシング Sensing microscopic directional noise baths with an optically cooled and levitated nanoparticle ( http://arxiv.org/abs/2307.06765v2 ) ライセンス: Link先を確認 | J.M.H. Gosling, A. Pontin, J. H. Iacoponi, P.F. Barker and T.S. Monteiro | (参考訳) オプトメカニカルデバイスは、慣性センシングから溶出性ダークマターの探索に至るまで、超弱力センサとして活用されている。
後者は、高エネルギー単一コイルまたは超軽量狭帯域源の検出に焦点を当てており、指向性信号が期待されている。
しかし、弱いインパルス、あるいはより一般的には指向性ブロードバンド信号の確率的ストリームを探索する可能性は排除される必要はなく、これや他の応用を念頭に置いて、光ツイーザーで閉じ込められ、3D冷却された浮遊ナノスフィア上で、よく定義された方向のガウスホワイトノイズインパルスの実験的シグネチャを調査する。
相関パワースペクトルは、通常のパワースペクトル密度 (psds) とは異なり、方向的だが確率的微視的力とその向きの四角形の存在に対するキャリブレーションフリーな特徴的シグネチャを与える。
理論結果と実験結果の相性は良好である。
キャリブレーションによって、平面内の力コンパスに似た、$\psi$の角度を測定することができます。
この手法を量子状態に拡張し、量子浴と古典浴の期待される挙動を比較する。 Optomechanical devices are being harnessed as sensors of ultraweak forces for applications ranging from inertial sensing to the search for the elusive dark matter. For the latter, there is a focus on detection of either higher energy single recoils or ultralight, narrowband sources; a directional signal is expected. However, the possibility of searching for a stochastic stream of weak impulses, or more generally a directional broadband signal, need not be excluded; with this and other applications in mind, we investigate the experimental signature of Gaussian white noise impulses with a well defined direction $\Psi$ on a levitated nanosphere, trapped and 3D cooled in an optical tweezer. We find that cross-correlation power spectra offer a calibration-free distinctive signature of the presence of a directional but stochastic microscopic force and its orientation quadrant, unlike normal power spectral densities (PSDs). We obtain excellent agreement between theoretical and experimental results. With calibration we are able to measure the angle $\Psi$, akin to a force compass in a plane. We discuss prospects for extending this technique into quantum regime and compare the expected behaviour of quantum baths and classical baths. | 翻訳日:2023-12-16 04:44:32 公開日:2023-12-14 |
# 任意の次例外点近傍における固有状態幾何からの固有値感度 Eigenvalue sensitivity from eigenstate geometry near and beyond arbitrary-order exceptional points ( http://arxiv.org/abs/2307.06289v2 ) ライセンス: Link先を確認 | Henning Schomerus | (参考訳) 効果的に非エルミート的ハミルトニアンを持つ系は、その固有状態の非直交性から生じるパラメトリックおよび動的摂動に対する高感度を示す。
この強化感度は、数学的に固有値条件数に対応し、量子ノイズ理論のピーターマン因子を物理的に決定する位相剛性によって定量化することができる。
任意の固有値構成に適用可能な、この感度尺度の正確な非摂動式を導出する。
この式は、スペクトル相関を追加の幾何学データから分離し、任意の順序の例外点(eps)に近い単純な漸近的な振る舞いを保ちながら、システムにおける追加状態の役割を捉える。
これは、そのような状態がスペクトル的に十分に分離されていなくても相当な効果を持つことを示し、この非摂動効果を決定する特定の行列を特定する。
固有ベクトルから固有値の学派に従う代数的アプローチもまたEPに近い状態の幾何学に関する直接的な洞察を与える。
例えば、位相剛性は系の準退化部分空間における顕著な等分原理に従うことを示すのに使うことができる。 Systems with an effectively non-Hermitian Hamiltonian display an enhanced sensitivity to parametric and dynamic perturbations, which arises from the nonorthogonality of their eigenstates. This enhanced sensitivity can be quantified by the phase rigidity, which mathematically corresponds to the eigenvalue condition number, and physically also determines the Petermann factor of quantum noise theory. I derive an exact nonperturbative expression for this sensitivity measure that applies to arbitrary eigenvalue configurations. The expression separates spectral correlations from additional geometric data, and retains a simple asymptotic behaviour close to exceptional points (EPs) of any order, while capturing the role of additional states in the system. This reveals that such states can have a sizable effect even if they are spectrally well separated, and identifies the specific matrix whose elements determine this nonperturbative effect. The employed algebraic approach, which follows the eigenvectors-from-eigenvalues school of thought, also provides direct insights into the geometry of the states near an EP. For instance, it can be used to show that the phase rigidity follows a striking equipartition principle in the quasi-degenerate subspace of a system. | 翻訳日:2023-12-16 04:44:09 公開日:2023-12-14 |
# メモリ付き量子ネットワーク上での動的スケジューリングのための線形代数的枠組み A Linear Algebraic Framework for Dynamic Scheduling Over Memory-Equipped Quantum Networks ( http://arxiv.org/abs/2307.06009v2 ) ライセンス: Link先を確認 | Paolo Fittipaldi, Anastasios Giovanidis, Fr\'ed\'eric Grosshans | (参考訳) 量子インターネットワーク(Quantum Internetworking)は、多くの興味深いアプリケーションを約束する最近の分野であり、その多くが、任意のユーザペア間の絡み合いの分散を必要とする。
この研究は、任意の絡み合い交換量子ネットワーク(しばしば第1世代量子ネットワークと呼ばれる)の一般トポロジー、マルチコモディティ、ロスアウェアな定式化におけるスケジューリングの問題を扱う。
中間絡み合いリンクの生成を通じて量子メモリを利用する線形代数的フレームワークを導入する。
このフレームワークは、Lyapunov Drift Minimization(古典的なネットワーク科学の標準技術)を適用して、量子ネットワークのスケジューリングポリシーの自然なクラスを数学的に導出し、ユーザ要求バックログの平方ノルムを最小化する。
さらに、マックスウェイトにインスパイアされたポリシーのさらなるクラスが提案され、ベンチマークされ、わずかな性能劣化の価格で計算コストを大幅に削減する。
このポリシーは、提供ツールの量子ネットワーク設計への潜在的な応用を示すために、ユーザが提供するネットワークトポロジとスケジューリングポリシーを認めるアドホックシミュレータを通じて、情報可用性、ローカライズ、ネットワーク全体のパフォーマンスの点で比較される。 Quantum Internetworking is a recent field that promises numerous interesting applications, many of which require the distribution of entanglement between arbitrary pairs of users. This work deals with the problem of scheduling in an arbitrary entanglement swapping quantum network - often called first generation quantum network - in its general topology, multicommodity, loss-aware formulation. We introduce a linear algebraic framework that exploits quantum memory through the creation of intermediate entangled links. The framework is then employed to apply Lyapunov Drift Minimization (a standard technique in classical network science) to mathematically derive a natural class of scheduling policies for quantum networks minimizing the square norm of the user demand backlog. Moreover, an additional class of Max-Weight inspired policies is proposed and benchmarked, reducing significantly the computation cost at the price of a slight performance degradation. The policies are compared in terms of information availability, localization and overall network performance through an ad-hoc simulator that admits user-provided network topologies and scheduling policies in order to showcase the potential application of the provided tools to quantum network design. | 翻訳日:2023-12-16 04:43:47 公開日:2023-12-14 |
# avsegformer:transformerによる視聴覚セグメンテーション AVSegFormer: Audio-Visual Segmentation with Transformer ( http://arxiv.org/abs/2307.01146v3 ) ライセンス: Link先を確認 | Shengyi Gao, Zhe Chen, Guo Chen, Wenhai Wang, Tong Lu | (参考訳) オーディオと視覚の組み合わせは、長い間、マルチモーダルコミュニティにおける関心事であった。
近年,映像中の音源の特定とセグメント化を目的とした,音声視覚分割(AVS)タスクが導入されている。
このタスクは、初めて音声駆動のピクセルレベルのシーン理解を必要とする。
本稿では,トランスフォーマティブアーキテクチャを活用したavsタスクのための新しいフレームワークであるavsegformerを提案する。
具体的には、オーディオクエリと学習可能なクエリをtransformerデコーダに導入し、ネットワークが関心のある視覚機能に選択的に対応できるようにする。
また,無関係な空間チャネルを増幅・抑制することにより,視覚的な特徴を動的に調整できる視聴覚混合器を提案する。
さらに、デコーダの監視を強化するために中間マスク損失を考案し、より正確な中間予測を行うようネットワークに促す。
広範な実験により、avsegformerはavsベンチマークで最先端の結果を達成した。
コードはhttps://github.com/vvvb-github/AVSegFormerで入手できる。 The combination of audio and vision has long been a topic of interest in the multi-modal community. Recently, a new audio-visual segmentation (AVS) task has been introduced, aiming to locate and segment the sounding objects in a given video. This task demands audio-driven pixel-level scene understanding for the first time, posing significant challenges. In this paper, we propose AVSegFormer, a novel framework for AVS tasks that leverages the transformer architecture. Specifically, we introduce audio queries and learnable queries into the transformer decoder, enabling the network to selectively attend to interested visual features. Besides, we present an audio-visual mixer, which can dynamically adjust visual features by amplifying relevant and suppressing irrelevant spatial channels. Additionally, we devise an intermediate mask loss to enhance the supervision of the decoder, encouraging the network to produce more accurate intermediate predictions. Extensive experiments demonstrate that AVSegFormer achieves state-of-the-art results on the AVS benchmark. The code is available at https://github.com/vvvb-github/AVSegFormer. | 翻訳日:2023-12-16 04:42:41 公開日:2023-12-14 |
# 任意の2体ハミルトニアンのディジタルアナログ量子計算 Digital-Analog Quantum Computation with Arbitrary Two-Body Hamiltonians ( http://arxiv.org/abs/2307.00966v2 ) ライセンス: Link先を確認 | Mikel Garcia-de-Andoin, \'Alvaro Saiz, Pedro P\'erez-Fern\'andez, Lucas Lamata, Izaskun Oregi, Mikel Sanz | (参考訳) デジタルアナログ量子コンピューティング(Digital-analog quantum computing)は、アナログハミルトン資源と単一量子ゲートを併用した計算パラダイムである。
ここでは、任意の2体源ハミルトニアンを用いた新しいスキームを設計し、この計算パラダイムの実験的適用性をほとんどの量子プラットフォームに拡張する。
任意の2体ターゲットハミルトニアンを$n$ qubitsでシミュレーションするには、正の時間を保証する$\mathcal{O}(n^2)$アナログブロックが必要であることを示し、以前のスキームと比較して多項式の優位性を与える。
さらに, ベイズ最適化と勾配降下法を組み合わせた古典的戦略を提案し, フロベニウスノルムで測定した小システムに対して$\sim55\%$の性能改善を行った。 Digital-analog quantum computing is a computational paradigm which employs an analog Hamiltonian resource together with single-qubit gates to reach universality. Here, we design a new scheme which employs an arbitrary two-body source Hamiltonian, extending the experimental applicability of this computational paradigm to most quantum platforms. We show that the simulation of an arbitrary two-body target Hamiltonian of $n$ qubits requires $\mathcal{O}(n^2)$ analog blocks with guaranteed positive times, providing a polynomial advantage compared to the previous scheme. Additionally, we propose a classical strategy which combines a Bayesian optimization with a gradient descent method, improving the performance by $\sim55\%$ for small systems measured in the Frobenius norm. | 翻訳日:2023-12-16 04:42:25 公開日:2023-12-14 |
# autost: スパイキングトランスフォーマーのトレーニングフリーニューラルネットワーク検索 AutoST: Training-free Neural Architecture Search for Spiking Transformers ( http://arxiv.org/abs/2307.00293v2 ) ライセンス: Link先を確認 | Ziqing Wang, Qidong Zhao, Jinku Cui, Xu Liu, Dongkuan Xu | (参考訳) スパイキングトランスフォーマーはスパイキングニューラルネットワーク(snn)のエネルギー効率とトランスフォーマーの高容量の両方を達成するため、かなりの注目を集めている。
しかし、Artificial Neural Networks (ANN) から派生した既存のSpking Transformerアーキテクチャは、アーキテクチャのギャップが顕著であり、ANNのアーキテクチャに比べてパフォーマンスが劣る。
手動で最適なアーキテクチャを発見するのは時間がかかります。
これらの制約に対処するために,高速なスパイキングトランスフォーマーアーキテクチャを高速に識別するために,スパイキングトランスフォーマーのトレーニング不要なNAS方式であるAutoSTを導入する。
SNNに固有の非微分可能性と高空間性に苦しむ既存のトレーニングフリーNAS法とは違って,モデル計算やトレーニングダイナミクスとは独立に,Floating-Point Operations (FLOPs) を性能指標として活用することを提案する。
我々の広範な実験により、AutoSTモデルは静的およびニューロモルフィックなデータセット上で、手動または自動設計のSNNアーキテクチャよりも優れていることが示された。
完全なコード、モデル、データは複製のためにリリースされます。 Spiking Transformers have gained considerable attention because they achieve both the energy efficiency of Spiking Neural Networks (SNNs) and the high capacity of Transformers. However, the existing Spiking Transformer architectures, derived from Artificial Neural Networks (ANNs), exhibit a notable architectural gap, resulting in suboptimal performance compared to their ANN counterparts. Manually discovering optimal architectures is time-consuming. To address these limitations, we introduce AutoST, a training-free NAS method for Spiking Transformers, to rapidly identify high-performance Spiking Transformer architectures. Unlike existing training-free NAS methods, which struggle with the non-differentiability and high sparsity inherent in SNNs, we propose to utilize Floating-Point Operations (FLOPs) as a performance metric, which is independent of model computations and training dynamics, leading to a stronger correlation with performance. Our extensive experiments show that AutoST models outperform state-of-the-art manually or automatically designed SNN architectures on static and neuromorphic datasets. Full code, model, and data are released for reproduction. | 翻訳日:2023-12-16 04:42:08 公開日:2023-12-14 |
# 短尺・長尺のルーペアによる関節脱神経と核融合 Joint Denoising and Fusion with Short- and Long-exposure Raw Pairs ( http://arxiv.org/abs/2306.10311v4 ) ライセンス: Link先を確認 | Qirui Yang, Yihao Liu, Qihua Chen and Jingyu Yang | (参考訳) 一般的な画像センサの小型開口とセンササイズのため,高ダイナミックレンジ(HDR)撮像は重要な課題である。
現在の方法では、ブラケット付き露光sRGB画像から主にHDR画像を生成する。
しかし、異なる露光で一組のsRGB画像を処理する際に、画像信号処理装置(ISP)の計算とメモリの非効率性を見落としている。
さらに、大規模な生のHDRデータセットがないため、HDRイメージングの研究は制限される。
従来の手法と異なり、信号対雑音比の短時間露光画像と長時間露光画像の差を利用してhdr画像を生成し、ノイズ化させるという考え方である。
そこで本研究では,2重露光型HDRセンサのためのモデルライタを提案し,生データの特徴を活用して生間HDRマッピングと生デノーミングを容易にする。
1)新しい計算用LDR-HDRペア生成パイプラインはRealRaw-HDRと呼ばれる実世界の生HDRデータセットを構築するために設計され、(2)軽量なHDRモデルRepUNetは構造的パラメータ化技術を用いて開発され、(3)プラグアンドプレイアライメントフリーかつモーションアライメント対応のショート露光ファースト選択損失とカラフルネスの損失がゴーストアーティファクトやカラーキャストを緩和するために提案されている。
実験により,提案手法の有効性を検証し,計算コストを低減した最先端手法に匹敵する性能が得られることを示した。 Denoising and high dynamic range (HDR) imaging are significant yet challenging problems due to the small aperture and sensor size of generic image sensors. Current methods predominantly generate HDR images from a set of bracketed exposure sRGB images. However, they overlook the computational and memory inefficiencies of the Image Signal Processor (ISP) when processing a set of sRGB images with different exposures. Furthermore, the absence of large-scale raw-based HDR datasets limits the research on HDR imaging. Unlike existing methods, the core idea of this work is to utilize the difference between short- and long-exposure images of signal-to-noise ratios to generate HDR images and denoising. To this end, we propose a model tailor-made for double-exposure HDR sensors, leveraging the unique features of the raw data to facilitate raw-to-HDR mapping and raw denoising. Our key insights are threefold: (1) a new computational raw LDR-HDR pair formation pipeline is designed to construct a real-world raw HDR dataset called RealRaw-HDR; (2) a lightweight-efficient HDR model, RepUNet, is developed using the structural reparameterization technique; (3) a plug-and-play alignment-free and motion-aware short-exposure-first selection loss and a colorfulness loss are proposed to mitigate ghost artifacts and color cast. Our empirical evaluation validates the effectiveness of the proposed LDR-HDR formation pipeline, as well as experiments show that our method achieves comparable performance to the state-of-the-art methods with less computational cost. | 翻訳日:2023-12-16 04:41:20 公開日:2023-12-14 |
# sensorimotor pre-trainingを用いたロボット学習 Robot Learning with Sensorimotor Pre-training ( http://arxiv.org/abs/2306.10007v2 ) ライセンス: Link先を確認 | Ilija Radosavovic, Baifeng Shi, Letian Fu, Ken Goldberg, Trevor Darrell, Jitendra Malik | (参考訳) 本稿では,ロボットに対する自己教師付きセンサモデレータの事前学習手法を提案する。
我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。
カメラ画像のシーケンス、プロプリセプティブロボットの状態、アクションが与えられたら、シーケンスをトークンにエンコードし、サブセットをマスクアウトし、残りの部分から欠落したコンテンツを予測するためにモデルを訓練する。
我々は、もしロボットがマスクされたコンテンツを予測することができるなら、それが作用できる物理世界の良いモデルを得るだろうと仮定する。
RPTは、予測を抽出し、より大きなモデルへのスケーリングを可能にし、実際のロボットで高速な推論を可能にする潜在視覚表現を操作するように設計されている。
提案手法を評価するために,動作計画と把握アルゴリズムの組み合わせを用いて,9ヶ月で2万件の現実世界の軌跡のデータセットを収集した。
感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にする。 We present a self-supervised sensorimotor pre-training approach for robotics. Our model, called RPT, is a Transformer that operates on sequences of sensorimotor tokens. Given a sequence of camera images, proprioceptive robot states, and actions, we encode the sequence into tokens, mask out a subset, and train a model to predict the missing content from the rest. We hypothesize that if a robot can predict the masked-out content it will have acquired a good model of the physical world that can enable it to act. RPT is designed to operate on latent visual representations which makes prediction tractable, enables scaling to larger models, and allows fast inference on a real robot. To evaluate our approach, we collected a dataset of 20,000 real-world trajectories over 9 months using a combination of motion planning and grasping algorithms. We find that sensorimotor pre-training consistently outperforms training from scratch, has favorable scaling properties, and enables transfer across different tasks, environments, and robots. | 翻訳日:2023-12-16 04:40:47 公開日:2023-12-14 |
# 多腕バンディットの実数値組合せ型純粋探索のための最適アルゴリズム An Optimal Algorithm for the Real-Valued Combinatorial Pure Exploration of Multi-Armed Bandit ( http://arxiv.org/abs/2306.09202v2 ) ライセンス: Link先を確認 | Shintaro Nakamura and Masashi Sugiyama | (参考訳) 確率的マルチアームバンドイット(R-CPE-MAB)における実測値の組合せ純粋探索問題について検討した。
本研究では, 作用集合の大きさがアームの数に対して多項式である場合について検討する。
そのような場合、R-CPE-MABはいわゆるトランスダクティブ線形帯域の特別な場合と見なすことができる。
R-CPE-MABとトランスダクティブ線形バンドイットの既存の手法は、それぞれ、サンプル複雑性の上界と下界の間の問題依存定数項と対数項のギャップを有する。
これらのギャップを閉じるために、コンビネートギャップベース探索(combgape)アルゴリズムというアルゴリズムを提案しました。
最後に,CombGapEアルゴリズムが既存手法よりも優れていることを示す。 We study the real-valued combinatorial pure exploration problem in the stochastic multi-armed bandit (R-CPE-MAB). We study the case where the size of the action set is polynomial with respect to the number of arms. In such a case, the R-CPE-MAB can be seen as a special case of the so-called transductive linear bandits. Existing methods in the R-CPE-MAB and transductive linear bandits have a gap of problem-dependent constant terms and logarithmic terms between the upper and lower bounds of the sample complexity, respectively. We close these gaps by proposing an algorithm named the combinatorial gap-based exploration (CombGapE) algorithm, whose sample complexity upper bound matches the lower bound. Finally, we numerically show that the CombGapE algorithm outperforms existing methods significantly. | 翻訳日:2023-12-16 04:40:31 公開日:2023-12-14 |
# 長テール視覚認識のための頭部から尾への特徴融合 Feature Fusion from Head to Tail for Long-Tailed Visual Recognition ( http://arxiv.org/abs/2306.06963v2 ) ライセンス: Link先を確認 | Mengke Li, Zhikai Hu, Yang Lu, Weichao Lan, Yiu-ming Cheung, Hui Huang | (参考訳) 長い尾を持つデータの不均衡分布は、ヘッドクラスの正確な分類を優先するが、テールクラスのほとんどを無視しているため、ディープラーニングモデルにとって大きな課題となる。
末尾クラスにおける意味情報の不十分に起因するバイアス付き決定境界は、認識精度の低下に寄与する重要な要因の1つである。
この問題を正すため,我々はhead-to-tail fusion (h2t) と呼ばれるヘッドクラスからの多様な意味情報をグラフトすることにより,尾クラスを強化することを提案する。
テールクラスのフィーチャーマップの一部を、ヘッドクラスに属するものに置き換えます。
これらの融合特徴はテールクラスの多様性を大幅に向上させる。
理論的解析と実用実験の両方で、H2Tが決定境界に対してより最適化された解に寄与できることが示されている。
我々はH2Tを分類器調整段階にシームレスに統合し、プラグアンドプレイモジュールとした。
そのシンプルさと実装の容易さにより、既存のロングテール認識手法とのスムーズな統合が可能になり、さらなるパフォーマンス向上が促進される。
様々な長い尾を持つベンチマークに対する大規模な実験は、提案されたH2Tの有効性を示す。
ソースコードはhttps://github.com/keke921/h2t。 The imbalanced distribution of long-tailed data presents a considerable challenge for deep learning models, as it causes them to prioritize the accurate classification of head classes but largely disregard tail classes. The biased decision boundary caused by inadequate semantic information in tail classes is one of the key factors contributing to their low recognition accuracy. To rectify this issue, we propose to augment tail classes by grafting the diverse semantic information from head classes, referred to as head-to-tail fusion (H2T). We replace a portion of feature maps from tail classes with those belonging to head classes. These fused features substantially enhance the diversity of tail classes. Both theoretical analysis and practical experimentation demonstrate that H2T can contribute to a more optimized solution for the decision boundary. We seamlessly integrate H2T in the classifier adjustment stage, making it a plug-and-play module. Its simplicity and ease of implementation allow for smooth integration with existing long-tailed recognition methods, facilitating a further performance boost. Extensive experiments on various long-tailed benchmarks demonstrate the effectiveness of the proposed H2T. The source code is available at https://github.com/Keke921/H2T. | 翻訳日:2023-12-16 04:40:19 公開日:2023-12-14 |
# 航空ビジョン・ダイアログナビゲーションのための目標位置グラフ認識トランスフォーマ Target-Grounded Graph-Aware Transformer for Aerial Vision-and-Dialog Navigation ( http://arxiv.org/abs/2308.11561v5 ) ライセンス: Link先を確認 | Yifei Su, Dong An, Yuan Xu, Kehan Chen, Yan Huang | (参考訳) 本報告では,ICCV CLVL 2023におけるAVDNチャレンジの入賞方法について詳述する。
このコンペティションは、ドローンエージェントが対話履歴と空中観測を関連づけて目的地に到達する必要がある、ANDH(Aerial Navigation from Dialog History)タスクに対処する。
ドローンエージェントのクロスモーダルグラウンド機能を改善するため,TG-GAT(Target-Grounded Graph-Aware Transformer)フレームワークを提案する。
具体的には、TG-GATはまずグラフ対応トランスフォーマーを利用して時空間依存性をキャプチャし、ナビゲーション状態のトラッキングとロバストなアクションプランニングに役立てる。
加えて、エージェントが参照するランドマークに対する認識を高めるために補助的な視覚接地タスクが考案されている。
さらに,大規模言語モデルに基づくハイブリッド拡張戦略を用いて,データ不足の軽減を図る。
我々のTG-GATフレームワークは、それぞれSPLとSRメトリクスのベースラインに対して2.2%と3.0%の絶対的な改善を達成しました。
コードはhttps://github.com/yifeisu/tg-gatで入手できる。 This report details the methods of the winning entry of the AVDN Challenge in ICCV CLVL 2023. The competition addresses the Aerial Navigation from Dialog History (ANDH) task, which requires a drone agent to associate dialog history with aerial observations to reach the destination. For better cross-modal grounding abilities of the drone agent, we propose a Target-Grounded Graph-Aware Transformer (TG-GAT) framework. Concretely, TG-GAT first leverages a graph-aware transformer to capture spatiotemporal dependency, which benefits navigation state tracking and robust action planning. In addition,an auxiliary visual grounding task is devised to boost the agent's awareness of referred landmarks. Moreover, a hybrid augmentation strategy based on large language models is utilized to mitigate data scarcity limitations. Our TG-GAT framework won the AVDN Challenge, with 2.2% and 3.0% absolute improvements over the baseline on SPL and SR metrics, respectively. The code is available at https://github.com/yifeisu/TG-GAT. | 翻訳日:2023-12-16 04:34:28 公開日:2023-12-14 |
# 線形スピン量子ビットアレイにおける残留交換結合の解析と緩和 Analysis and mitigation of residual exchange coupling in linear spin qubit arrays ( http://arxiv.org/abs/2308.11308v2 ) ライセンス: Link先を確認 | Irina Heinz, Adam R. Mills, Jason R. Petta and Guido Burkard | (参考訳) スピン量子ビットを用いた量子コンピューティングの最近の進歩により、このプラットフォームは2量子ビットゲートを99.5%以上実装する可能性を秘めている。
しかし、他のqubitプラットフォームと同様に、qubit結合を完全にオフにすることは不可能である。
本研究では,二重量子ドットを用いたゲート集合トモグラフィにおけるコヒーレント誤差行列の影響について検討する。
スピン間の残留交換による不確かさを評価し, 電荷雑音の有無によるパラメータ設定の相違を考慮した簡易駆動による調整タイミングの利用を含む, 様々な緩和手法を比較した。
さらに,本解析を交換結合スピン量子ビットのより大きな配列に拡張し,期待される忠実度を推定する。
特に,リニアチェーンにおける1キュービット$y$ゲートとネイティブ2キュービットスワップゲートに対する残差交換の影響を実証する。
本研究は,スピン量子ビット装置をスケールアップする際の残差交換の計算の重要性を強調するとともに,帯電ノイズと残差交換のトレードオフを強調する。 In recent advancements of quantum computing utilizing spin qubits, it has been demonstrated that this platform possesses the potential for implementing two-qubit gates with fidelities exceeding 99.5%. However, as with other qubit platforms, it is not feasible to completely turn qubit couplings off. This study aims to investigate the impact of coherent error matrices in gate set tomography by employing a double quantum dot. We evaluate the infidelity caused by residual exchange between spins and compare various mitigation approaches, including the use of adjusted timing through simple drives, considering different parameter settings in the presence of charge noise. Furthermore, we extend our analysis to larger arrays of exchange-coupled spin qubits to provide an estimation of the expected fidelity. In particular, we demonstrate the influence of residual exchange on a single-qubit $Y$ gate and the native two-qubit SWAP gate in a linear chain. Our findings emphasize the significance of accounting for residual exchange when scaling up spin qubit devices and highlight the tradeoff between the effects of charge noise and residual exchange in mitigation techniques. | 翻訳日:2023-12-16 04:34:09 公開日:2023-12-14 |
# 廃棄物を湿潤化する - 連続条件生成対向ネットワークの強化のための低品質サンプルの活用 Turning Waste into Wealth: Leveraging Low-Quality Samples for Enhancing Continuous Conditional Generative Adversarial Networks ( http://arxiv.org/abs/2308.10273v2 ) ライセンス: Link先を確認 | Xin Ding and Yongwei Wang and Zuheng Xu | (参考訳) Continuous Conditional Generative Adversarial Networks (CcGANs) は、連続スカラー変数 (termed regression labels) に基づく生成的モデリングを可能にする。
しかし、トレーニングデータに制限があるため、偽画像も生成できる。
負データ拡張(NDA)は、実際のトレーニング画像に異常を導入し、低品質の出力からGANを誘導することにより、非条件およびクラス条件のGANを効果的に強化するが、CcGANサンプリング中に発生する負のサンプルを複製できないため、そのCcGANへの影響は限定的である。
この問題に対処するために,CcGAN に適した新しい NDA アプローチである Dual-NDA を提案する。
Dual-NDAは、事前訓練されたCcGANから生成された視覚的に非現実的なイメージと、実画像のラベルを操作することによって生成されたラベル一貫性のないイメージの2つのタイプの負のサンプルを使用している。
これらの負のサンプルを活用し,修正ccganトレーニングアルゴリズムと並行して,新たな判別対象を導入する。
UTKFace と Steering Angle の実証分析により、Dual-NDA は CcGAN が生成した偽画像の視覚的忠実度とラベルの一貫性を一貫して向上し、バニラ NDA よりもかなりの性能向上を示した。
さらに、Dual-NDAを適用することで、CcGANsは最先端の条件付きGANと拡散モデルの能力を超える顕著な進歩を示し、新しい性能のパイナクルを確立した。
私たちのコードはhttps://github.com/UBCDingXin/Dual-NDA.orgで参照できます。 Continuous Conditional Generative Adversarial Networks (CcGANs) enable generative modeling conditional on continuous scalar variables (termed regression labels). However, they can produce subpar fake images due to limited training data. Although Negative Data Augmentation (NDA) effectively enhances unconditional and class-conditional GANs by introducing anomalies into real training images, guiding the GANs away from low-quality outputs, its impact on CcGANs is limited, as it fails to replicate negative samples that may occur during the CcGAN sampling. We present a novel NDA approach called Dual-NDA specifically tailored for CcGANs to address this problem. Dual-NDA employs two types of negative samples: visually unrealistic images generated from a pre-trained CcGAN and label-inconsistent images created by manipulating real images' labels. Leveraging these negative samples, we introduce a novel discriminator objective alongside a modified CcGAN training algorithm. Empirical analysis on UTKFace and Steering Angle reveals that Dual-NDA consistently enhances the visual fidelity and label consistency of fake images generated by CcGANs, exhibiting a substantial performance gain over the vanilla NDA. Moreover, by applying Dual-NDA, CcGANs demonstrate a remarkable advancement beyond the capabilities of state-of-the-art conditional GANs and diffusion models, establishing a new pinnacle of performance. Our codes can be found at https://github.com/UBCDingXin/Dual-NDA. | 翻訳日:2023-12-16 04:33:52 公開日:2023-12-14 |
# O^2-Recon: 事前学習2次元拡散モデルによるシーンにおける被集積物の3次元再構成 O^2-Recon: Completing 3D Reconstruction of Occluded Objects in the Scene with a Pre-trained 2D Diffusion Model ( http://arxiv.org/abs/2308.09591v2 ) ライセンス: Link先を確認 | Yubin Hu, Sheng Ye, Wang Zhao, Matthieu Lin, Yuze He, Yu-Hui Wen, Ying He, Yong-Jin Liu | (参考訳) 閉塞は、rgb-dビデオからの3d再構成において一般的な問題であり、しばしばオブジェクトの完全な再構築をブロックし、進行中の問題を示す。
本稿では,2次元拡散に基づくインペイントモデルにより,物体の隠れた部分の完全な表面を再構築する新しい枠組みを提案する。
具体的には,事前学習した拡散モデルを用いて2次元画像の隠れ領域を埋める。
次に,これらのインペインテッド画像を用いて,3次元再構成のための各インスタンスの神経的暗黙的表面表現を最適化する。
このプロセスに必要な塗装マスクの作成は難しいので、我々は高品質なマスクを作成するために、人間のエンゲージメントをほとんど含まない、ループ内戦略を採用しています。
さらに、ビデオは通常限られた視点から撮影されるため、オブジェクトの一部を完全に隠すことができる。
これらの見えない領域の回復を確保するため,符号付き距離場を予測し,位置符号化の周波数帯域を多用し,全体的な滑らかさを維持するカスケードネットワークアーキテクチャを開発した。
一般的なレンダリング損失、アイコン損失、シルエット損失に加えて、CLIPに基づくセマンティック一貫性損失を採用し、見えないカメラアングルから表面を誘導する。
ScanNetのシーンでの実験では,シーンレベルのRGB-Dビデオからのオブジェクトレベルの再構築において,最先端の精度と完全性を実現する。
コード:https://github.com/THU-LYJ-Lab/O2-Recon Occlusion is a common issue in 3D reconstruction from RGB-D videos, often blocking the complete reconstruction of objects and presenting an ongoing problem. In this paper, we propose a novel framework, empowered by a 2D diffusion-based in-painting model, to reconstruct complete surfaces for the hidden parts of objects. Specifically, we utilize a pre-trained diffusion model to fill in the hidden areas of 2D images. Then we use these in-painted images to optimize a neural implicit surface representation for each instance for 3D reconstruction. Since creating the in-painting masks needed for this process is tricky, we adopt a human-in-the-loop strategy that involves very little human engagement to generate high-quality masks. Moreover, some parts of objects can be totally hidden because the videos are usually shot from limited perspectives. To ensure recovering these invisible areas, we develop a cascaded network architecture for predicting signed distance field, making use of different frequency bands of positional encoding and maintaining overall smoothness. Besides the commonly used rendering loss, Eikonal loss, and silhouette loss, we adopt a CLIP-based semantic consistency loss to guide the surface from unseen camera angles. Experiments on ScanNet scenes show that our proposed framework achieves state-of-the-art accuracy and completeness in object-level reconstruction from scene-level RGB-D videos. Code: https://github.com/THU-LYJ-Lab/O2-Recon. | 翻訳日:2023-12-16 04:33:22 公開日:2023-12-14 |
# 一様制御ゲートとブール関数の定数深さ回路と量子メモリ回路への応用 Constant-depth circuits for Uniformly Controlled Gates and Boolean functions with application to quantum memory circuits ( http://arxiv.org/abs/2308.08539v2 ) ライセンス: Link先を確認 | Jonathan Allcock, Jinge Bao, Jo\~ao F. Doriguello, Alessandro Luongo, Miklos Santha | (参考訳) 本研究では,Ising型ハミルトニアンが生成する非有界ファンアウトゲートとGlobal Tunableゲートのパワーを探索し,量子メモリデバイスに特に注目する。
本稿では,一様制御ゲート実装のための2種類の定数深度構造を提案する。
これらのゲートには、$|x\rangle|b\rangle\mapsto |x\rangle|b\oplus f(x)\rangle$ for $x\in\{0,1\}^n$ と $b\in\{0,1\}$ で定義されるファンインゲートが含まれる。
最初の構成は、制御レジスタ $|x\rangle$ の1ホットエンコーディングの計算に基づいていますが、もう1つはブール解析に基づいており、フーリエ展開のような異なる$f$の表現を利用しています。
これらの構成により、メモリサイズ$n$の量子ランダムアクセスメモリ(QRAM)と量子ランダムアクセスゲート(QRAG)の、リードオンリーおよびリードライトメモリデバイスに対して、一定の深さの回路を得る。
1ホットエンコーディングに基づく実装には、$O(n\log{n}\log\log{n})$ ancillaeと$O(n\log{n})$ Fan-Out gatesか$O(n\log{n})$ ancillaeと$6$ Global Tunable gatesが必要である。
一方、Boolean解析に基づく実装は、$O(n^2)$ ancillaeを犠牲にして、Global Tunable Gatesを2ドルしか必要としない。 We explore the power of the unbounded Fan-Out gate and the Global Tunable gates generated by Ising-type Hamiltonians in constructing constant-depth quantum circuits, with particular attention to quantum memory devices. We propose two types of constant-depth constructions for implementing Uniformly Controlled Gates. These gates include the Fan-In gates defined by $|x\rangle|b\rangle\mapsto |x\rangle|b\oplus f(x)\rangle$ for $x\in\{0,1\}^n$ and $b\in\{0,1\}$, where $f$ is a Boolean function. The first of our constructions is based on computing the one-hot encoding of the control register $|x\rangle$, while the second is based on Boolean analysis and exploits different representations of $f$ such as its Fourier expansion. Via these constructions, we obtain constant-depth circuits for the quantum counterparts of read-only and read-write memory devices -- Quantum Random Access Memory (QRAM) and Quantum Random Access Gate (QRAG) -- of memory size $n$. The implementation based on one-hot encoding requires either $O(n\log{n}\log\log{n})$ ancillae and $O(n\log{n})$ Fan-Out gates or $O(n\log{n})$ ancillae and $6$ Global Tunable gates. On the other hand, the implementation based on Boolean analysis requires only $2$ Global Tunable gates at the expense of $O(n^2)$ ancillae. | 翻訳日:2023-12-16 04:32:58 公開日:2023-12-14 |
# ZYN: RLAIFに疑問の余地のないゼロショットリワードモデル ZYN: Zero-Shot Reward Models with Yes-No Questions for RLAIF ( http://arxiv.org/abs/2308.06385v2 ) ライセンス: Link先を確認 | Victor Gallego | (参考訳) 本稿では,言語モデル(lm)のテキスト生成を望ましい行動に向け,生成したテキストを人間の操作者の好みに合わせる問題に対処する。
本稿では,さらにラベル付けされたデータを必要とすることなく,ユーザの好みを表すYes-No質問のプロンプトにより,ゼロショット方式の言語モデルを批判報酬モデルとして用いることを提案する。
このゼロショット報酬モデルは,AIフィードバックからの強化学習(Reinforcement Learning from AI Feedback, RLAIF)を用いて,ベースLMをさらに微調整する学習信号を提供する。
提案するzinフレームワークの機能に関する広範な証拠は、テキスト生成に関連するさまざまなドメインの実験、映画レビューの感情の最適化、モデルが持つ可能性のある特定のトピックに関する意見の調整、テキストから画像へのタスクのためのプロンプトジェネレータのパーソナライズなどを通じて提供される。
コードは \url{https://github.com/vicgalle/zero-shot-reward-models/} で利用可能である。 In this work, we address the problem of directing the text generation of a language model (LM) towards a desired behavior, aligning the generated text with the preferences of the human operator. We propose using another, instruction-tuned language model as a critic reward model in a zero-shot way thanks to the prompt of a Yes-No question that represents the user preferences, without requiring further labeled data. This zero-shot reward model provides the learning signal to further fine-tune the base LM using Reinforcement Learning from AI Feedback (RLAIF); yet our approach is also compatible in other contexts such as quality-diversity search. Extensive evidence of the capabilities of the proposed ZYN framework is provided through experiments in different domains related to text generation, including detoxification; optimizing sentiment of movie reviews, or any other attribute; steering the opinion about a particular topic the model may have; and personalizing prompt generators for text-to-image tasks. Code available at \url{https://github.com/vicgalle/zero-shot-reward-models/}. | 翻訳日:2023-12-16 04:32:19 公開日:2023-12-14 |
# スマートデバイスのプライバシーポリシーの景観に関する研究 A Study of the Landscape of Privacy Policies of Smart Devices ( http://arxiv.org/abs/2308.05890v2 ) ライセンス: Link先を確認 | Aamir Hamid, Hemanth Reddy Samidi, Tim Finin, Primal Pappachan, Roberto Yus | (参考訳) スマートデバイスの採用が私たちの生活のあらゆる側面を浸透させ続けている中、ユーザーのプライバシーに関する懸念はこれまで以上に重要になっている。
プライバシーポリシーは、これらのデバイスのデータ処理プラクティスを概説する。
ウェブサイトやモバイルアプリのドメインでの以前の作業は、プライバシーポリシーがユーザーによって読まれ理解されることはほとんどないことを示している。
これらの領域では、プライバシーポリシーの自動分析がユーザーに適切な洞察を与えるのに役立つことが示されている。
しかし、スマートデバイスのプライバシーポリシーの分野にはそのような分析が欠けている。
本稿では,スマートデバイスのプライバシーポリシーの展望を包括的に研究する。
我々は,スマートデバイスのユニークな課題に対処する方法論を紹介し,それらに関する情報,製造者,およびWeb上のプライバシポリシを探索する。
本手法は,最新の分析手法を用いて,スマートデバイスポリシの可読性とプライバシを評価し,eコマースWebサイトやモバイルアプリケーションのポリシーと比較する。
全体として、スマートデバイス4,556台、メーカー2,211台、プライバシーポリシー819台を分析した。
スマートデバイスは(カメラやマイクのようなセンサーを使って)ユーザーの侵入的なデータにアクセスすることができたが、分析されたメーカーの1,167人以上がポリシーを持っていなかった。
この研究は、スマートデバイスのデータ管理プラクティスを伝える上で、大幅な改善が必要であることを強調している。 As the adoption of smart devices continues to permeate all aspects of our lives, user privacy concerns have become more pertinent than ever. Privacy policies outline the data handling practices of these devices. Prior work in the domains of websites and mobile apps has shown that privacy policies are rarely read and understood by users. In these domains, automatic analysis of privacy policies has been shown to help give users appropriate insights. However, there is a lack of such an analysis in the domain of smart device privacy policies. This paper presents a comprehensive study of the landscape of privacy policies of smart devices. We introduce a methodology that addresses the unique challenges of smart devices, by finding information about them, their manufacturers, and their privacy policies on the Web. Our methodology utilizes state-of-the-art analysis techniques to assess readability and privacy of smart device policies and compares it policies of e-commerce websites and mobile applications. Overall, we analyzed 4,556 smart devices, 2,211 manufacturers, and 819 privacy policies. Despite smart devices having access to more intrusive data about their users (using sensors such as cameras and microphones), more than 1,167 of the analyzed manufacturers did not have policies available. The study highlights that significant improvement is required on communicating the data management practices of smart devices. | 翻訳日:2023-12-16 04:31:29 公開日:2023-12-14 |
# ReCLIP: ソースフリードメイン適応によるコントラスト言語イメージの事前学習 ReCLIP: Refine Contrastive Language Image Pre-Training with Source Free Domain Adaptation ( http://arxiv.org/abs/2308.03793v2 ) ライセンス: Link先を確認 | Xuefeng Hu, Ke Zhang, Lu Xia, Albert Chen, Jiajia Luo, Yuyin Sun, Ken Wang, Nan Qiao, Xiao Zeng, Min Sun, Cheng-Hao Kuo, Ram Nevatia | (参考訳) clipのような大規模事前学習型視覚言語モデルはゼロショット分類において、例を見ずに、imagenetで76.3%のtop-1精度を達成するなど、優れた性能を示している。
しかし、CLIPを下流のターゲットドメインに適用する一方で、視覚領域とテキスト領域のギャップとモダリティ間のミスアライメントの存在は、モデルのパフォーマンスに大きな影響を与えます。
このような課題に対処するために,視覚言語モデルに対して,ソースデータやラベル付きデータを必要としない,最初のソースフリーなドメイン適応手法であるrelipを提案する。
ReCLIPはまず、不整合なビジュアルテキスト埋め込みを緩和するプロジェクション空間を学習し、擬似ラベルを学習し、擬似ラベルと相互に学習し、視覚的およびテキストエンコーダを更新し、ラベルを洗練し、ドメインギャップを減らし、繰り返し修正する。
広範な実験により、22の画像分類ベンチマークにおいて、ReCLIPはCLIPの平均エラー率を30.17%から25.06%に下げることを示した。
コードはhttps://github.com/michiganleon/reclip_wacv。 Large-scale Pre-Training Vision-Language Model such as CLIP has demonstrated outstanding performance in zero-shot classification, e.g. achieving 76.3% top-1 accuracy on ImageNet without seeing any example, which leads to potential benefits to many tasks that have no labeled data. However, while applying CLIP to a downstream target domain, the presence of visual and text domain gaps and cross-modality misalignment can greatly impact the model performance. To address such challenges, we propose ReCLIP, the first source-free domain adaptation method for vision-language models, which does not require any source data or target labeled data. ReCLIP first learns a projection space to mitigate the misaligned visual-text embeddings and learns pseudo labels, and then deploys cross-modality self-training with the pseudo labels, to update visual and text encoders, refine labels and reduce domain gaps and misalignments iteratively. With extensive experiments, we demonstrate ReCLIP reduces the average error rate of CLIP from 30.17% to 25.06% on 22 image classification benchmarks. Code available at https://github.com/michiganleon/ReCLIP_WACV. | 翻訳日:2023-12-16 04:31:07 公開日:2023-12-14 |
# 非計測共同設立者の因果推論における拡散モデル Diffusion Model in Causal Inference with Unmeasured Confounders ( http://arxiv.org/abs/2308.03669v4 ) ライセンス: Link先を確認 | Tatsuhiro Shimizu | (参考訳) 本研究では,未測定の共同設立者の存在下での観察データから因果的疑問に答えるための拡散モデルの適用方法を検討する。
因果的介入を捉えるためにDAG(Directed Acyclic Graph)を用いるパールの枠組みでは、すべての共同設立者が観察されることを前提に、拡散モデルを用いて因果的疑問により正確に答える手法が提案された。
しかし、実際には測定されていない共同設立者が存在し、DCMの適用を妨げている。
DCMのこの制限を軽減するために,バックドア基準に基づくDCM(Backdoor Criterion based DCM)と呼ばれる拡張モデルを提案する。
合成データ実験により, 提案モデルが, dcmよりも正確に反事実分布を捉えていることが証明された。 We study how to extend the use of the diffusion model to answer the causal question from the observational data under the existence of unmeasured confounders. In Pearl's framework of using a Directed Acyclic Graph (DAG) to capture the causal intervention, a Diffusion-based Causal Model (DCM) was proposed incorporating the diffusion model to answer the causal questions more accurately, assuming that all of the confounders are observed. However, unmeasured confounders in practice exist, which hinders DCM from being applicable. To alleviate this limitation of DCM, we propose an extended model called Backdoor Criterion based DCM (BDCM), whose idea is rooted in the Backdoor criterion to find the variables in DAG to be included in the decoding process of the diffusion model so that we can extend DCM to the case with unmeasured confounders. Synthetic data experiment demonstrates that our proposed model captures the counterfactual distribution more precisely than DCM under the unmeasured confounders. | 翻訳日:2023-12-16 04:30:43 公開日:2023-12-14 |
# 大規模行動空間を用いたオフポリティ評価のための二重ロバスト推定器 Doubly Robust Estimator for Off-Policy Evaluation with Large Action Spaces ( http://arxiv.org/abs/2308.03443v3 ) ライセンス: Link先を確認 | Tatsuhiro Shimizu, Laura Forastiere | (参考訳) 大規模行動空間を持つコンテキスト的帯域設定におけるオフ・ポリティ・アセスメント(OPE)について検討する。
ベンチマーク評価者は厳しいバイアスと分散トレードオフに苦しむ。
パラメトリックアプローチは正しいモデルを特定するのが難しいためバイアスに悩まされるが、重みのあるアプローチはばらつきに悩まされる。
これらの制限を克服するため、推定器の分散を緩和するためにMarginalized Inverse Propensity Scoring (MIPS) が提案された。
にもかかわらず、MIPSは直接効果を受けていないため、アクションの埋め込みは報酬に対するアクションの効果を完全に仲介していると仮定する。
非現実的な仮定への依存を克服するために、Marginalized Doubly Robust (MDR) 推定器を提案する。
理論的解析により、提案した推定器はMIPSよりも弱い仮定の下では偏りがなく、MIPSに対する分散は減少することが示された。
実験により、MDRの既存の行動空間を持つ推定器に対する優位性を検証する。 We study Off-Policy Evaluation (OPE) in contextual bandit settings with large action spaces. The benchmark estimators suffer from severe bias and variance tradeoffs. Parametric approaches suffer from bias due to difficulty specifying the correct model, whereas ones with importance weight suffer from variance. To overcome these limitations, Marginalized Inverse Propensity Scoring (MIPS) was proposed to mitigate the estimator's variance via embeddings of an action. Nevertheless, MIPS is unbiased under the no direct effect, which assumes that the action embedding completely mediates the effect of an action on a reward. To overcome the dependency on these unrealistic assumptions, we propose a Marginalized Doubly Robust (MDR) estimator. Theoretical analysis shows that the proposed estimator is unbiased under weaker assumptions than MIPS while reducing the variance against MIPS. The empirical experiment verifies the supremacy of MDR against existing estimators with large action spaces. | 翻訳日:2023-12-16 04:30:22 公開日:2023-12-14 |
# 多体Hatano-Nelsonモデルにおける絡み合いのダイナミクス Entanglement dynamics in the many-body Hatano-Nelson model ( http://arxiv.org/abs/2308.03078v2 ) ライセンス: Link先を確認 | Takahiro Orito and Ken-Ichiro Imura | (参考訳) 非エルミート量子系における絡み合いダイナミクスを数値的に研究し,準粒子画像の観点から解析した。
具体的モデルとして, オンサイト障害および近距離-近距離相互作用下での非対称ホッピング(ハタノ・ネルソンモデル)を持つ1次元強結合モデルを考える。
以前の研究の主張とは対照的に、この非エルミート量子系における絡み合いダイナミクスは、特に弱い障害を持つ非局在化状態においてヘルミート量子系と大きく異なる; 絡み合いエントロピー $s_{\rm ent}(t)$ は、特徴的な非単調な時間発展を示す。
我々は,この挙動の性質を準粒子図で明らかにし,定量化した。
t\rightarrow\infty$ の漸近的レジームでは、このレジームにおける絡み合いエントロピー $s_{\rm ent}(t)$ は、非常に抑制された値に飽和し、サブシステムのサイズに対して対数的にのみ増加する。 The entanglement dynamics in a non-Hermitian quantum system is studied numerically and analyzed from the viewpoint of quasiparticle picture. As a concrete model, we consider a one-dimensional tight-binding model with asymmetric hopping (Hatano-Nelson model) under onsite disorder and nearest-neighbor interaction. As opposed to an assertion of previous studies, the entanglement dynamics in this non-Hermitian quantum system is very different from the one in its Hermitian counterpart, especially in the delocalized regime with weak disorder; there the entanglement entropy $S_{\rm ent}(t)$ shows a characteristic non-monotonic time evolution. We have clarified and quantified the nature of this behavior in the quasiparticle picture. In the asymptotic regime of $t\rightarrow\infty$, the entanglement entropy $S_{\rm ent}(t)$ in this regime saturates to a much suppressed value, which increases only logarithmically with respect to the size of the subsystem. | 翻訳日:2023-12-16 04:29:33 公開日:2023-12-14 |
# 半改良インスタンスセグメンテーションのためのガイド蒸留法 Guided Distillation for Semi-Supervised Instance Segmentation ( http://arxiv.org/abs/2308.02668v2 ) ライセンス: Link先を確認 | Tariq Berrada, Camille Couprie, Karteek Alahari, Jakob Verbeek | (参考訳) インスタンスセグメンテーション法はかなり改善されているが、主流のパラダイムは、入手が難しい完全注釈付きトレーニングイメージに依存することである。
この信頼を緩和し、結果を高めるために、半教師付きアプローチはラベルなしのデータをラベル付きサンプルへの過剰適合を制限する追加のトレーニング信号として利用する。
そこで本研究では,教師・学生の蒸留モデルを大幅に改善するための新しい設計選択を提案する。
特に私たちは
(i)新しい「ガイド・バーンイン」ステージの導入による蒸留アプローチの改善、
(II) 異なるインスタンスセグメンテーションアーキテクチャ、およびバックボーンネットワークおよび事前学習戦略を評価する。
学生モデルのバーンイン期間に教師データのみを使用する従来の研究とは対照的に,教師モデルの指導を用いてバーンイン期間中にラベルなしデータを活用している。
蒸留法の改良は, 従来の技術結果よりも大幅に改善した。
例えば、Cityscapesデータセットでは、画像の10\%にラベルを使用する場合、マスクAPを23.7から33.9に改善し、COCOデータセットではトレーニングデータの1\%にラベルを使用する場合、マスクAPを18.3から34.1に改善します。 Although instance segmentation methods have improved considerably, the dominant paradigm is to rely on fully-annotated training images, which are tedious to obtain. To alleviate this reliance, and boost results, semi-supervised approaches leverage unlabeled data as an additional training signal that limits overfitting to the labeled samples. In this context, we present novel design choices to significantly improve teacher-student distillation models. In particular, we (i) improve the distillation approach by introducing a novel "guided burn-in" stage, and (ii) evaluate different instance segmentation architectures, as well as backbone networks and pre-training strategies. Contrary to previous work which uses only supervised data for the burn-in period of the student model, we also use guidance of the teacher model to exploit unlabeled data in the burn-in period. Our improved distillation approach leads to substantial improvements over previous state-of-the-art results. For example, on the Cityscapes dataset we improve mask-AP from 23.7 to 33.9 when using labels for 10\% of images, and on the COCO dataset we improve mask-AP from 18.3 to 34.1 when using labels for only 1\% of the training data. | 翻訳日:2023-12-16 04:29:13 公開日:2023-12-14 |
# DualCoOp++: アノテーションを限定したマルチラベル認識への高速かつ効果的な適応 DualCoOp++: Fast and Effective Adaptation to Multi-Label Recognition with Limited Annotations ( http://arxiv.org/abs/2308.01890v2 ) ライセンス: Link先を確認 | Ping Hu, Ximeng Sun, Stan Sclaroff, and Kate Saenko | (参考訳) 低音域におけるマルチラベル画像認識は,課題と実用的意義の課題である。
以前の作品は、限られた画像ラベルを補うためにテキスト空間と視覚空間のアライメントを学ぶことに重点を置いていたが、高品質のマルチラベルアノテーションが不足しているため、精度が低下する可能性がある。
本研究では,何百万もの補助画像-テキストペアで事前学習したテキスト特徴と視覚特徴の強力なアライメントを利用する。
我々は、部分ラベルとゼロショットのマルチラベル認識に対応するための統一的なアプローチとして、エビデンス主導のデュアルコンテキスト最適化(dualcoop++)と呼ばれる効率的かつ効果的なフレームワークを導入する。
dualcoop++では、言語入力(すなわちプロンプト)のパラメトリックコンポーネントとして、ターゲットクラスの明示的、肯定的、否定的なコンテキストを別々にエンコードします。
立証コンテキストは、対象クラスに関連するすべての視覚コンテンツを発見し、画像の空間領域からポジティブなコンテキストとネガティブなコンテキストを集約し、類似したカテゴリの識別を改善するためのガイダンスとして機能する。
さらに,学習中にクラス間インタラクションを促進するとともに,余分なパラメータやコストを回避できるウィナー・テイク・オールモジュールを導入する。
DualCoOp++は、事前訓練された視覚言語フレームワークに最小限の学習オーバーヘッドを課しているため、アノテーションや目に見えないクラスを限定したマルチラベル認識タスクへの迅速な適応を可能にしている。
2つの挑戦的な低ラベル設定における標準マルチラベル認識ベンチマークの実験は、最先端手法よりも優れた性能を示している。 Multi-label image recognition in the low-label regime is a task of great challenge and practical significance. Previous works have focused on learning the alignment between textual and visual spaces to compensate for limited image labels, yet may suffer from reduced accuracy due to the scarcity of high-quality multi-label annotations. In this research, we leverage the powerful alignment between textual and visual features pretrained with millions of auxiliary image-text pairs. We introduce an efficient and effective framework called Evidence-guided Dual Context Optimization (DualCoOp++), which serves as a unified approach for addressing partial-label and zero-shot multi-label recognition. In DualCoOp++ we separately encode evidential, positive, and negative contexts for target classes as parametric components of the linguistic input (i.e., prompts). The evidential context aims to discover all the related visual content for the target class, and serves as guidance to aggregate positive and negative contexts from the spatial domain of the image, enabling better distinguishment between similar categories. Additionally, we introduce a Winner-Take-All module that promotes inter-class interaction during training, while avoiding the need for extra parameters and costs. As DualCoOp++ imposes minimal additional learnable overhead on the pretrained vision-language framework, it enables rapid adaptation to multi-label recognition tasks with limited annotations and even unseen classes. Experiments on standard multi-label recognition benchmarks across two challenging low-label settings demonstrate the superior performance of our approach compared to state-of-the-art methods. | 翻訳日:2023-12-16 04:28:55 公開日:2023-12-14 |
# spd行列列のための構造保存トランス Structure-Preserving Transformers for Sequences of SPD Matrices ( http://arxiv.org/abs/2309.07579v4 ) ライセンス: Link先を確認 | Mathieu Seraphim, Alexis Lechervy, Florian Yger, Luc Brun and Olivier Etard | (参考訳) 近年,トランスフォーマーをベースとした自動アテンション機構は,テキストから画像まで,非ユークリッド測地データを含む,さまざまなコンテキスト依存データ型の分析に成功している。
本稿では,その解析を通してリーマン幾何学を保存しながら,対称正定値行列の列を分類する機構を提案する。
本手法は,脳波由来の共分散行列を標準データセットからタイムリーに自動睡眠ステージングに応用し,高いステージレベルの性能を得る。 In recent years, Transformer-based auto-attention mechanisms have been successfully applied to the analysis of a variety of context-reliant data types, from texts to images and beyond, including data from non-Euclidean geometries. In this paper, we present such a mechanism, designed to classify sequences of Symmetric Positive Definite matrices while preserving their Riemannian geometry throughout the analysis. We apply our method to automatic sleep staging on timeseries of EEG-derived covariance matrices from a standard dataset, obtaining high levels of stage-wise performance. | 翻訳日:2023-12-16 04:22:59 公開日:2023-12-14 |
# 強化学習による準結晶構造の自己組織化の動的制御 Dynamic control of self-assembly of quasicrystalline structures through reinforcement learning ( http://arxiv.org/abs/2309.06869v2 ) ライセンス: Link先を確認 | Uyen Tu Lieu, Natsuhiko Yoshinaga | (参考訳) 本研究では, ドデカゴナル準結晶(DDQC)の動的自己集合性を制御するための強化学習を提案する。
パッチ状粒子は他の粒子と異方性相互作用を持ち、DDQCを形成する。
しかし、定常状態におけるそれらの構造は、その構造形成の運動経路に大きく影響される。
q-learning法によって訓練された温度制御の最適方針を推定し、推定したポリシーを用いて、少ない欠陥でddqcを生成できることを実証する。
強化学習により得られた温度スケジュールは、焼鈍などの従来の固定温度スケジュールよりも効率的に所望の構造を再現することができる。
学習の成功を明らかにするために,トリプルウェルポテンシャルの運動による構造変化の速度論を記述した簡単なモデルも分析した。
強化学習は,構造ゆらぎがグローバルに安定な状態を形成する可能性を高める臨界温度を自律的に発見することを発見した。
推定ポリシは、DDQCの形成を支援するために、システムを臨界温度に導く。 We propose reinforcement learning to control the dynamical self-assembly of the dodecagonal quasicrystal (DDQC) from patchy particles. The patchy particles have anisotropic interactions with other particles and form DDQC. However, their structures at steady states are significantly influenced by the kinetic pathways of their structural formation. We estimate the best policy of temperature control trained by the Q-learning method and demonstrate that we can generate DDQC with few defects using the estimated policy. The temperature schedule obtained by reinforcement learning can reproduce the desired structure more efficiently than the conventional pre-fixed temperature schedule, such as annealing. To clarify the success of the learning, we also analyse a simple model describing the kinetics of structural changes through the motion in a triple-well potential. We have found that reinforcement learning autonomously discovers the critical temperature at which structural fluctuations enhance the chance of forming a globally stable state. The estimated policy guides the system toward the critical temperature to assist the formation of DDQC. | 翻訳日:2023-12-16 04:22:50 公開日:2023-12-14 |
# robust-mbdl:ロバストなマルチブランチ深層学習モデルによる回転機械の寿命予測と運転条件同定 Robust-MBDL: A Robust Multi-branch Deep Learning Based Model for Remaining Useful Life Prediction and Operational Condition Identification of Rotating Machines ( http://arxiv.org/abs/2309.06157v2 ) ライセンス: Link先を確認 | Khoa Tran, Hai-Canh Vu, Lam Pham, Nassim Boudaoud | (参考訳) 本稿では,回転機械の寿命予測と状態操作(CO)を継続するロバスト多分岐深層学習システムを提案する。
特に、(1)振動データを無声化するためのlstm自動符号化装置、(2)無声データから時間領域、周波数領域、時間周波数に基づく特徴を生成する特徴抽出、(3)多機能を利用するための新規でロバストなマルチブランチ深層学習ネットワークアーキテクチャである。
提案システムの性能を,XJTU-SY と PRONOSTIA の2つのベンチマークデータセットの最先端システムと比較した。
実験の結果,提案システムは最先端システムよりも優れており,軸受マシン上での現実的な応用の可能性を示している。 In this paper, a Robust Multi-branch Deep learning-based system for remaining useful life (RUL) prediction and condition operations (CO) identification of rotating machines is proposed. In particular, the proposed system comprises main components: (1) an LSTM-Autoencoder to denoise the vibration data; (2) a feature extraction to generate time-domain, frequency-domain, and time-frequency based features from the denoised data; (3) a novel and robust multi-branch deep learning network architecture to exploit the multiple features. The performance of our proposed system was evaluated and compared to the state-of-the-art systems on two benchmark datasets of XJTU-SY and PRONOSTIA. The experimental results prove that our proposed system outperforms the state-of-the-art systems and presents potential for real-life applications on bearing machines. | 翻訳日:2023-12-16 04:22:32 公開日:2023-12-14 |
# sable: セキュアでビザンチン堅牢な学習 SABLE: Secure And Byzantine robust LEarning ( http://arxiv.org/abs/2309.05395v4 ) ライセンス: Link先を確認 | Antoine Choffrut, Rachid Guerraoui, Rafael Pinot, Renaud Sirdey, John Stephan, and Martin Zuber | (参考訳) データの普及に伴い、機械学習(ML)アルゴリズムが分散トポロジに実装され、中央サーバの調整を通じて、さまざまなノードがMLモデルのトレーニングに協力するようになっている。
しかし、分散学習アプローチは、主に2つの潜在的な脅威から生じる重大な脆弱性に直面している。
まず、ビザンチンノードの存在は、不正確な情報をサーバに送信することで学習プロセスを悪化させるリスクを引き起こす。
第二に、好奇心の強いサーバが個々のノードのプライバシーを侵害し、時にはノードのデータ全体を再構築する。
ホモモルフィック暗号化(HE)は、非ビザンチンシナリオ下での分散学習におけるプライバシーを保護するための主要なセキュリティ対策として登場した。
しかし、特に高次元mlモデルに対するheの広範な計算要求は、非線形ロバストなアグリゲータに対する純粋準同型作用素の設計を妨げている。
本稿では,最初の準同型およびビザンチンロバスト分散学習アルゴリズムであるsableを紹介する。
SABLEは、新しく効率的なホモモルフィック演算子であるHTSを活用して、顕著な座標にトリミングされた平均ロバストアグリゲータを実装している。
HTSを設計することで、新しい同型中央アグリゲータであるHMEDを実装することができる。
標準のMLタスクに関する大規模な実験は、SABLEが非プライベートなタスクに匹敵するMLの精度を維持しながら、実用的な実行時間を達成していることを示している。 Due to the widespread availability of data, machine learning (ML) algorithms are increasingly being implemented in distributed topologies, wherein various nodes collaborate to train ML models via the coordination of a central server. However, distributed learning approaches face significant vulnerabilities, primarily stemming from two potential threats. Firstly, the presence of Byzantine nodes poses a risk of corrupting the learning process by transmitting inaccurate information to the server. Secondly, a curious server may compromise the privacy of individual nodes, sometimes reconstructing the entirety of the nodes' data. Homomorphic encryption (HE) has emerged as a leading security measure to preserve privacy in distributed learning under non-Byzantine scenarios. However, the extensive computational demands of HE, particularly for high-dimensional ML models, have deterred attempts to design purely homomorphic operators for non-linear robust aggregators. This paper introduces SABLE, the first homomorphic and Byzantine robust distributed learning algorithm. SABLE leverages HTS, a novel and efficient homomorphic operator implementing the prominent coordinate-wise trimmed mean robust aggregator. Designing HTS enables us to implement HMED, a novel homomorphic median aggregator. Extensive experiments on standard ML tasks demonstrate that SABLE achieves practical execution times while maintaining an ML accuracy comparable to its non-private counterpart. | 翻訳日:2023-12-16 04:22:16 公開日:2023-12-14 |
# 視覚および言語ナビゲーションのためのプロンプトベースコンテキストおよびドメインアウェア事前学習 Prompt-based Context- and Domain-aware Pretraining for Vision and Language Navigation ( http://arxiv.org/abs/2309.03661v3 ) ライセンス: Link先を確認 | Ting Liu, Yue Hu, Wansen Wu, Youkai Wang, Kai Xu, Quanjun Yin | (参考訳) 事前訓練された視覚言語モデルは広範な知識を持ち、視覚および言語ナビゲーション(vln)で広く使われている。
しかし、VLNタスクの屋内シナリオには敏感ではない。
VLNのもう1つの課題は、エージェントがパス上のアクション間のコンテキスト関係をどのように理解し、連続的にモード間のアライメントを実行するかである。
本稿では,これらの問題に対処するための新しい Prompt-bAsed coNtext と inDoor-Aware (PANDA) 事前学習フレームワークを提案する。
プロンプトは2段階で行われる。
室内認識の段階では,室内環境に対する帰納バイアスを伴う事前学習モデルの拡張のために,室内データセットから深い視覚プロンプトを学ぶための効率的なチューニングパラダイムを適用する。
これにより、VLN剤のより試料効率の良い適応が可能となる。
さらに、文脈認識段階では、命令中のシーケンスレベルの意味をキャプチャするためのハードコンテキストプロンプトのセットを設計する。
コントラスト学習を通じて事前訓練されたモデルのさらなるチューニングを可能にする。
R2RとREVERIEの両実験結果は,既存の最先端手法と比較してPANDAの優位性を示している。 Pretrained visual-language models have extensive world knowledge and are widely used in visual and language navigation (VLN). However, they are not sensitive to indoor scenarios for VLN tasks. Another challenge for VLN is how the agent understands the contextual relations between actions on a path and performs cross-modal alignment sequentially. In this paper, we propose a novel Prompt-bAsed coNtext- and inDoor-Aware (PANDA) pretraining framework to address these problems. It performs prompting in two stages. In the indoor-aware stage, we apply an efficient tuning paradigm to learn deep visual prompts from an indoor dataset, in order to augment pretrained models with inductive biases towards indoor environments. This can enable more sample-efficient adaptation for VLN agents. Furthermore, in the context-aware stage, we design a set of hard context prompts to capture the sequence-level semantics in the instruction. They enable further tuning of the pretrained models via contrastive learning. Experimental results on both R2R and REVERIE show the superiority of PANDA compared to existing state-of-the-art methods. | 翻訳日:2023-12-16 04:21:53 公開日:2023-12-14 |
# 引用フィールド学習のためのアンカー学習手法 An Anchor Learning Approach for Citation Field Learning ( http://arxiv.org/abs/2309.03559v2 ) ライセンス: Link先を確認 | Zilin Yuan, Borun Chen, Yimeng Dai, Yinghui Li, Hai-Tao Zheng, Rui Zhang | (参考訳) 引用フィールド学習は、引用文字列を著者、タイトル、会場などの興味のある分野に分割することである。
引用からこれらの分野を抽出することは、引用索引付けや研究者のプロファイル分析などに不可欠である。
学術ホームページやCurriculum Vitaeのようなユーザ生成リソースは、豊富な引用フィールド情報を提供する。
しかし、これらのリソースからフィールドを抽出することは、一貫性のない引用スタイル、不完全文構文、不十分なトレーニングデータのために困難である。
そこで,これらの課題に対処するために,新たなアルゴリズムであるcifal(citation field learning by anchor learning)を提案する。
cifalは、事前学習された言語モデルのモデルに依存しないアンカー学習を利用して、さまざまな引用スタイルのデータから引用パターンをキャプチャする。
実験により、CIFALは励磁場学習における最先端の手法よりも優れており、F1スコアの2.68%の改善が達成されている。
結果の広範な分析により,cifalの有効性が定量的,質的に確認された。 Citation field learning is to segment a citation string into fields of interest such as author, title, and venue. Extracting such fields from citations is crucial for citation indexing, researcher profile analysis, etc. User-generated resources like academic homepages and Curriculum Vitae, provide rich citation field information. However, extracting fields from these resources is challenging due to inconsistent citation styles, incomplete sentence syntax, and insufficient training data. To address these challenges, we propose a novel algorithm, CIFAL (citation field learning by anchor learning), to boost the citation field learning performance. CIFAL leverages the anchor learning, which is model-agnostic for any Pre-trained Language Model, to help capture citation patterns from the data of different citation styles. The experiments demonstrate that CIFAL outperforms state-of-the-art methods in citation field learning, achieving a 2.68% improvement in field-level F1-scores. Extensive analysis of the results further confirms the effectiveness of CIFAL quantitatively and qualitatively. | 翻訳日:2023-12-16 04:20:56 公開日:2023-12-14 |
# VGDiffZero:テキストと画像の拡散モデルはゼロショットのビジュアルグラウンド VGDiffZero: Text-to-image Diffusion Models Can Be Zero-shot Visual Grounders ( http://arxiv.org/abs/2309.01141v2 ) ライセンス: Link先を確認 | Xuyang Liu, Siteng Huang, Yachen Kang, Honggang Chen, Donglin Wang | (参考訳) 大規模テキストから画像への拡散モデルは、事前学習から強い視覚言語アライメントを活用することで、生成的タスクに素晴らしい能力を示している。
しかし、視覚言語識別タスクの多くは、時間と計算リソースに大きなコストをかけて、そのようなアライメントを得るために注意深くラベルされたデータセットを広範囲に微調整する必要がある。
本研究では,事前学習した生成拡散モデルを直接,微調整や追加の訓練データセットを使わずに視覚的接地を識別する難しいタスクに適用することを検討する。
具体的には,テキストから画像への拡散モデルに基づく,単純かつ効果的なゼロショット視覚接地フレームワークであるvgdiffzeroを提案する。
また,各提案のグローバルコンテキストとローカルコンテキストの両方を考慮した包括的領域スケーリング手法を設計する。
RefCOCO、RefCOCO+、RefCOCOgの大規模な実験は、VGDiffZeroがゼロショットの視覚的グラウンドで強いパフォーマンスを達成することを示している。
私たちのコードはhttps://github.com/xuyang-liu16/vgdiffzeroで利用可能です。 Large-scale text-to-image diffusion models have shown impressive capabilities for generative tasks by leveraging strong vision-language alignment from pre-training. However, most vision-language discriminative tasks require extensive fine-tuning on carefully-labeled datasets to acquire such alignment, with great cost in time and computing resources. In this work, we explore directly applying a pre-trained generative diffusion model to the challenging discriminative task of visual grounding without any fine-tuning and additional training dataset. Specifically, we propose VGDiffZero, a simple yet effective zero-shot visual grounding framework based on text-to-image diffusion models. We also design a comprehensive region-scoring method considering both global and local contexts of each isolated proposal. Extensive experiments on RefCOCO, RefCOCO+, and RefCOCOg show that VGDiffZero achieves strong performance on zero-shot visual grounding. Our code is available at https://github.com/xuyang-liu16/VGDiffZero. | 翻訳日:2023-12-16 04:20:09 公開日:2023-12-14 |
# FaceChain:人間中心の人工知能生成コンテンツのためのプレイグラウンド FaceChain: A Playground for Human-centric Artificial Intelligence Generated Content ( http://arxiv.org/abs/2308.14256v2 ) ライセンス: Link先を確認 | Yang Liu, Cheng Yu, Lei Shang, Yongyi He, Ziheng Wu, Xingjun Wang, Chao Xu, Haoyu Xie, Weida Wang, Yuze Zhao, Lin Zhu, Chen Cheng, Weitao Chen, Yuan Yao, Wenmeng Zhou, Jiaqi Xu, Qiang Wang, Yingda Chen, Xuansong Xie, Baigui Sun | (参考訳) 最近のパーソナライズ画像生成の進歩により、肖像画画像の集合から身元情報を学ぶための事前学習されたテキストから画像へのモデルの興味をそそる能力が明らかになった。
しかし、既存のソリューションは真に詳しい情報を生み出すのに脆弱であり、通常いくつかの欠陥に悩まされる。
(i)生成した顔は独自の特徴を有しており、顔の形状や顔の特徴位置が入力のキー特性に似ていない場合がある。
(ii)合成顔は、反り、ぼやけたり、腐敗した領域を含むことができる。
本稿では、一連のカスタマイズされた画像生成モデルと、顔検出、深層顔埋め込み抽出、顔属性認識などの顔関連理解モデルを組み合わせた、パーソナライズされたポートレート生成フレームワークFaceChainを紹介し、上記の課題に対処し、少数のポートレートイメージを入力として、真にパーソナライズされたポートレートを生成する。
具体的には、複数のSOTAフェースモデルを生成手順に注入し、DreamBooth ~\cite{ruiz2023dreambooth} 、InstantBooth ~\cite{shi2023instantbooth} 、その他のLoRAのみのアプローチ ~\cite{hu2021lora} といった従来のソリューションと比較して、より効率的なラベルタグ付け、データ処理、モデル後処理を実現する。
さらに、FaceChainをベースとして、仮想トライオンや2Dトーキングヘッドなど、その価値をよりよく示すための広い遊び場を構築するためのいくつかのアプリケーションも開発しています。
コミュニティの急成長するニーズに応えられるように成長できることを願っています。
これは継続的に洗練され、改善されていく作業である。
facechainは、apache-2.0ライセンス下で、 \url{https://github.com/modelscope/facechain}でオープンソースである。 Recent advancement in personalized image generation have unveiled the intriguing capability of pre-trained text-to-image models on learning identity information from a collection of portrait images. However, existing solutions are vulnerable in producing truthful details, and usually suffer from several defects such as (i) The generated face exhibit its own unique characteristics, \ie facial shape and facial feature positioning may not resemble key characteristics of the input, and (ii) The synthesized face may contain warped, blurred or corrupted regions. In this paper, we present FaceChain, a personalized portrait generation framework that combines a series of customized image-generation model and a rich set of face-related perceptual understanding models (\eg, face detection, deep face embedding extraction, and facial attribute recognition), to tackle aforementioned challenges and to generate truthful personalized portraits, with only a handful of portrait images as input. Concretely, we inject several SOTA face models into the generation procedure, achieving a more efficient label-tagging, data-processing, and model post-processing compared to previous solutions, such as DreamBooth ~\cite{ruiz2023dreambooth} , InstantBooth ~\cite{shi2023instantbooth} , or other LoRA-only approaches ~\cite{hu2021lora} . Besides, based on FaceChain, we further develop several applications to build a broader playground for better showing its value, including virtual try on and 2D talking head. We hope it can grow to serve the burgeoning needs from the communities. Note that this is an ongoing work that will be consistently refined and improved upon. FaceChain is open-sourced under Apache-2.0 license at \url{https://github.com/modelscope/facechain}. | 翻訳日:2023-12-16 04:19:52 公開日:2023-12-14 |
# 量子物理学における1ハーフ位相数 One-Half Topological Number in Entangled Quantum Physics ( http://arxiv.org/abs/2308.14062v2 ) ライセンス: Link先を確認 | Karyn Le Hur | (参考訳) トポロジカル位相は、放射磁場の結果としてヘッジホッグ構造を示すスピン-1/2のブロッホ球からの量子物理学で設計することができる。
1つの極における絡み合った波動関数の形成と、2スピンモデル、および1つの半位相数の興味深い対との関係について詳述する。
超伝導体のクーパー対と同様に、アインシュタイン-ポドルスキー-ローゼン対またはベル状態は半フラックス量子化を生じ、これは表面上のベリー曲率の半分のフラックスを指す。
これらの1/2数はまた、極に自由マヨラナフェルミオンの存在を示す。
位相応答は、北から南へ走行する場合や、保護された横流の量子化または半量子化の性質を示す極の円偏波場から測定することができる。
バンド構造における絡み合った波動関数の応用を示し、運動量空間に局所位相マーカーを導入し、二層幾何学における2次元半金属の位相応答を特徴付ける。 A topological phase can be engineered in quantum physics from the Bloch sphere of a spin-1/2 showing an hedgehog structure as a result of a radial magnetic field. We elaborate on a relation between the formation of an entangled wavefunction at one pole, in a two-spins model, and an interesting pair of one-half topological numbers. Similar to Cooper pairs in superconductors, the Einstein-Podolsky-Rosen pair or Bell state produces a half flux quantization, which here refers to the halved flux of the Berry curvature on the surface. These 1/2-numbers also reveal the presence of a free Majorana fermion at a pole. The topological responses can be measured when driving from north to south and also from a circularly polarized field at the poles revealing the quantized or half-quantized nature of the protected transverse currents. We show applications of entangled wavefunctions in band structures, introducing a local topological marker in momentum space, to characterize the topological response of two-dimensional semimetals in bilayer geometries. | 翻訳日:2023-12-16 04:19:15 公開日:2023-12-14 |
# グループ知識による残留ネットワークの強化 Boosting Residual Networks with Group Knowledge ( http://arxiv.org/abs/2308.13772v2 ) ライセンス: Link先を確認 | Shengji Tang, Peng Ye, Baopu Li, Weihao Lin, Tao Chen, Tong He, Chong Yu, Wanli Ouyang | (参考訳) 最近の研究は、暗黙のアンサンブルモデルの新しい視点から残留ネットワークを理解する。
この観点から、確率深度や刺激訓練といった従来の手法は、サブネットのサンプリングとトレーニングにより、残留ネットワークの性能をさらに向上させた。
しかし、両者は異なる能力を持つ全てのサブネットに対して同じ監督を行い、訓練中にサブネットが生み出す貴重な知識を無視している。
本書では,同じ種類の監督を用いることによって生じる重要な知識蒸留ギャップを緩和し,サブネットを活用した多様な知識の提供を提唱する。
このモチベーションに基づいて,残余ネットワークの性能向上のためのグループ知識ベーストレーニングフレームワークを提案する。
具体的には、すべてのサブネットをサブネットサンプリングによって階層群に暗黙的に分割し、トレーニング中に各グループの異なるサブネットの知識を集約し、上位レベルのグループ知識を利用して下位レベルのサブネットグループを監督する。
また,より大規模なサブネットを自然にサンプリングするサブネットサンプリング手法を開発した。
従来のサブネットトレーニングや他の手法と比較して,複数のデータセットとネットワーク構造において,最適な効率性と性能上のトレードオフを実現する。
コードはhttps://github.com/tsj-001/AAAI24-GKTにある。 Recent research understands the residual networks from a new perspective of the implicit ensemble model. From this view, previous methods such as stochastic depth and stimulative training have further improved the performance of the residual network by sampling and training of its subnets. However, they both use the same supervision for all subnets of different capacities and neglect the valuable knowledge generated by subnets during training. In this manuscript, we mitigate the significant knowledge distillation gap caused by using the same kind of supervision and advocate leveraging the subnets to provide diverse knowledge. Based on this motivation, we propose a group knowledge based training framework for boosting the performance of residual networks. Specifically, we implicitly divide all subnets into hierarchical groups by subnet-in-subnet sampling, aggregate the knowledge of different subnets in each group during training, and exploit upper-level group knowledge to supervise lower-level subnet groups. Meanwhile, We also develop a subnet sampling strategy that naturally samples larger subnets, which are found to be more helpful than smaller subnets in boosting performance for hierarchical groups. Compared with typical subnet training and other methods, our method achieves the best efficiency and performance trade-offs on multiple datasets and network structures. The code is at https://github.com/tsj-001/AAAI24-GKT. | 翻訳日:2023-12-16 04:18:58 公開日:2023-12-14 |
# テンポラル誘導型バイラテラル学習による方向認識ビデオ復調 Direction-aware Video Demoireing with Temporal-guided Bilateral Learning ( http://arxiv.org/abs/2308.13388v2 ) ライセンス: Link先を確認 | Shuning Xu, Binbin Song, Xiangyu Chen, and Jiantao Zhou | (参考訳) moireパターンは、画面上で画像やビデオを撮影して、キャプチャした画像やビデオの品質を著しく低下させるときに発生する。
近年の進歩にもかかわらず、既存の映像復調法はモアレパターンの物理的特徴や形成過程を無視し、映像再生の有効性を著しく制限している。
本稿では,映像復調のための方向認識と時間制御による双方向学習ネットワークdtnetについて述べる。
DTNetは、モアレパターンの除去、アライメント、色補正、ディテール改善のプロセスを効果的に取り入れている。
提案するDTNetは,フレームレベル指向型デモアライメント・アライメント(FDDA)とトーン・ディテール・リファインメント(TDR)の2段階からなる。
FDDAでは、複数の方向DCTモードを用いて周波数領域におけるモアレパターン除去処理を行い、顕著なモアレエッジを効果的に検出する。
そして、隣接情報の活用を容易にするために、破砕特徴に粗粒度及び細粒度アライメントを適用する。
tdrでは,fddaで復元された周波数情報を保存しつつ,moireパターンによる色や詳細の劣化を軽減するために,時間的ガイド付きバイラテラル学習パイプラインを提案する。
FDDAの時間的特徴に則って、究極のクリーンフレームの回復のためのアフィン変換をTDRで学習する。
広汎な実験により,PSNRの2.3dBによる最先端の手法よりも優れた映像体験を実現することができた。
私たちのコードはhttps://github.com/rebeccaeexu/dtnetで利用可能です。 Moire patterns occur when capturing images or videos on screens, severely degrading the quality of the captured images or videos. Despite the recent progresses, existing video demoireing methods neglect the physical characteristics and formation process of moire patterns, significantly limiting the effectiveness of video recovery. This paper presents a unified framework, DTNet, a direction-aware and temporal-guided bilateral learning network for video demoireing. DTNet effectively incorporates the process of moire pattern removal, alignment, color correction, and detail refinement. Our proposed DTNet comprises two primary stages: Frame-level Direction-aware Demoireing and Alignment (FDDA) and Tone and Detail Refinement (TDR). In FDDA, we employ multiple directional DCT modes to perform the moire pattern removal process in the frequency domain, effectively detecting the prominent moire edges. Then, the coarse and fine-grained alignment is applied on the demoired features for facilitating the utilization of neighboring information. In TDR, we propose a temporal-guided bilateral learning pipeline to mitigate the degradation of color and details caused by the moire patterns while preserving the restored frequency information in FDDA. Guided by the aligned temporal features from FDDA, the affine transformations for the recovery of the ultimate clean frames are learned in TDR. Extensive experiments demonstrate that our video demoireing method outperforms state-of-the-art approaches by 2.3 dB in PSNR, and also delivers a superior visual experience. Our code is available at https://github.com/rebeccaeexu/DTNet. | 翻訳日:2023-12-16 04:18:40 公開日:2023-12-14 |
# HR-Pro:階層的信頼性伝播による時間的行動局所化 HR-Pro: Point-supervised Temporal Action Localization via Hierarchical Reliability Propagation ( http://arxiv.org/abs/2308.12608v2 ) ライセンス: Link先を確認 | Huaxin Zhang, Xiang Wang, Xiaohao Xu, Zhiwu Qing, Changxin Gao, Nong Sang | (参考訳) PTAL(Point-supervised Temporal Action Localization)はラベル効率学習のための新たな研究方向である。
しかし、現在のメソッドは主にスニペットレベルかインスタンスレベルのネットワークを最適化することに集中しており、両方のレベルでポイントアノテーションの固有の信頼性を無視している。
本稿では、スニペットレベルの識別学習とインスタンスレベルの完全性学習の2つの段階からなる階層的信頼性伝搬(HR-Pro)フレームワークを提案する。
スニペットレベル学習では,オンライン更新メモリを導入し,各クラスに信頼性の高いスニペットプロトタイプを格納する。
次に、Reliability-aware Attention Blockを使用して、スニペットの動画内およびビデオ間の依存関係をキャプチャし、より差別的でロバストなスニペット表現を実現します。
インスタンスレベルの学習では,スニペットとインスタンスを接続する手段として,ポイントベースの提案生成手法を提案する。
多段階の信頼性認識学習により、予測された提案の信頼性と時間的境界をより正確に得ることができる。
私たちのHR-Proは、THUMOS14で平均60.3%の印象的なmAPを含む、複数の挑戦的なベンチマークで最先端のパフォーマンスを実現しています。
特に、我々のHR-Proは、これまでのすべてのポイント管理手法をはるかに上回り、競争力のある完全管理手法よりも優れています。
コードはhttps://github.com/pipixin321/HR-Proで入手できる。 Point-supervised Temporal Action Localization (PSTAL) is an emerging research direction for label-efficient learning. However, current methods mainly focus on optimizing the network either at the snippet-level or the instance-level, neglecting the inherent reliability of point annotations at both levels. In this paper, we propose a Hierarchical Reliability Propagation (HR-Pro) framework, which consists of two reliability-aware stages: Snippet-level Discrimination Learning and Instance-level Completeness Learning, both stages explore the efficient propagation of high-confidence cues in point annotations. For snippet-level learning, we introduce an online-updated memory to store reliable snippet prototypes for each class. We then employ a Reliability-aware Attention Block to capture both intra-video and inter-video dependencies of snippets, resulting in more discriminative and robust snippet representation. For instance-level learning, we propose a point-based proposal generation approach as a means of connecting snippets and instances, which produces high-confidence proposals for further optimization at the instance level. Through multi-level reliability-aware learning, we obtain more reliable confidence scores and more accurate temporal boundaries of predicted proposals. Our HR-Pro achieves state-of-the-art performance on multiple challenging benchmarks, including an impressive average mAP of 60.3% on THUMOS14. Notably, our HR-Pro largely surpasses all previous point-supervised methods, and even outperforms several competitive fully supervised methods. Code will be available at https://github.com/pipixin321/HR-Pro. | 翻訳日:2023-12-16 04:18:08 公開日:2023-12-14 |
# 数万の超伝導量子ビットと数千ゲートを用いた高密度イジング最適化問題のための量子回路の設計と実行 Design and execution of quantum circuits using tens of superconducting qubits and thousands of gates for dense Ising optimization problems ( http://arxiv.org/abs/2308.12423v2 ) ライセンス: Link先を確認 | Filip B. Maciejewski, Stuart Hadfield, Benjamin Hall, Mark Hodson, Maxime Dupont, Bram Evert, James Sud, M. Sohaib Alam, Zhihui Wang, Stephen Jeffrey, Bhuvanesh Sundar, P. Aaron Lott, Shon Grabbe, Eleanor G. Rieffel, Matthew J. Reagor and Davide Venturelli | (参考訳) 我々は,各層におけるコストハミルトニアン内のすべての相互作用のサブセットをパラメータ化する,既存のアンサットから派生した変分最適化のためのハードウェア効率の高いアンサッツを開発した。
ゲート順序を変分パラメータとして扱い,実験において大きな性能向上が期待できることを示す。
リゲッティ・アスペン-M-3トランスモンプロセッサの50ビット線形鎖サブシステム上で,完全連結シェリントン・カークパトリック・ハミルトンのコンパイル最適化実装実験を行った。
その結果, 最良回路設計では, 高レベルのノイズが存在するにもかかわらず, 最適角度, ゲート順序における平均性能は回路深さ(より多くのパラメータを用いて)とともに増加することがわかった。
最大5000個の2量子ビットおよび5000個の1量子ビットネイティブゲートを含む回路において、ランダムな推定オラクルを使用するよりも性能が大幅に向上したことを報告した。
さらに、現在の量子プロセッサと将来の量子プロセッサを最適化のためにより効果的に利用するための結果の様々な要約についても論じる。 We develop a hardware-efficient ansatz for variational optimization, derived from existing ansatze in the literature, that parametrizes subsets of all interactions in the Cost Hamiltonian in each layer. We treat gate orderings as a variational parameter and observe that doing so can provide significant performance boosts in experiments. We carried out experimental runs of a compilation-optimized implementation of fully-connected Sherrington-Kirkpatrick Hamiltonians on a 50-qubit linear-chain subsystem of Rigetti Aspen-M-3 transmon processor. Our results indicate that, for the best circuit designs tested, the average performance at optimized angles and gate orderings increases with circuit depth (using more parameters), despite the presence of a high level of noise. We report performance significantly better than using a random guess oracle for circuits involving up to approx 5000 two-qubit and approx 5000 one-qubit native gates. We additionally discuss various takeaways of our results toward more effective utilization of current and future quantum processors for optimization. | 翻訳日:2023-12-16 04:17:42 公開日:2023-12-14 |
# 水中画像強調のための固有スーパービジョンによる相乗的マルチスケールディテール微細化 Synergistic Multiscale Detail Refinement via Intrinsic Supervision for Underwater Image Enhancement ( http://arxiv.org/abs/2308.11932v2 ) ライセンス: Link先を確認 | Dehuan Zhang, Jingchun Zhou, ChunLe Guo, Weishi Zhang, Chongyi Li | (参考訳) 視覚的な水中のシーンは、主に水中メディアからの干渉を緩和する。
既存の手法は水中のシーンに固有のスケール関連特性を無視する。
そこで本研究では,複数ステージを含む水中シーンの細部を拡張すべく,内在的監督(smdr-is)による相乗的多スケール詳細化を提案する。
原画像からの低分解段階は、Adaptive Selective Intrinsic Supervised Feature (ASISF)モジュールを使用して特徴伝搬によって達成された、複数のスケールの詳細を原ステージに付与する。
ASISFモジュールは、内在的な監視を用いることで、多段劣化段階における特徴伝達を正確に制御し、誘導し、マルチスケールの細部改善を強化し、低劣化段階における無関係情報からの干渉を最小限にする。
SMDR-ISのマルチデグレーションエンコーダ・デコーダ・フレームワークにおいて,BICA(Bifocal Intrinsic-Context Attention Module)を導入する。
BICAは、本質的な監督原理に基づいて、画像内のマルチスケールシーン情報を効率的に活用する。
BICAは高解像度空間を低解像度空間の洞察に触発し、水中画像復元における空間的文脈関係の重要な役割を浮き彫りにする。
トレーニングを通じて、多変量損失関数が組み込まれれば、ネットワークが強化され、多様なスケールで情報を取り出すことができる。
最先端の手法に対してベンチマークすると、SMDR-ISは一貫して優れた性能を示す。
コードは、https://github.com/zhoujingchun03/SMDR-ISで公開されている。 Visually restoring underwater scenes primarily involves mitigating interference from underwater media. Existing methods ignore the inherent scale-related characteristics in underwater scenes. Therefore, we present the synergistic multi-scale detail refinement via intrinsic supervision (SMDR-IS) for enhancing underwater scene details, which contain multi-stages. The low-degradation stage from the original images furnishes the original stage with multi-scale details, achieved through feature propagation using the Adaptive Selective Intrinsic Supervised Feature (ASISF) module. By using intrinsic supervision, the ASISF module can precisely control and guide feature transmission across multi-degradation stages, enhancing multi-scale detail refinement and minimizing the interference from irrelevant information in the low-degradation stage. In multi-degradation encoder-decoder framework of SMDR-IS, we introduce the Bifocal Intrinsic-Context Attention Module (BICA). Based on the intrinsic supervision principles, BICA efficiently exploits multi-scale scene information in images. BICA directs higher-resolution spaces by tapping into the insights of lower-resolution ones, underscoring the pivotal role of spatial contextual relationships in underwater image restoration. Throughout training, the inclusion of a multi-degradation loss function can enhance the network, allowing it to adeptly extract information across diverse scales. When benchmarked against state-of-the-art methods, SMDR-IS consistently showcases superior performance. The code is publicly available at: https://github.com/zhoujingchun03/SMDR-IS. | 翻訳日:2023-12-16 04:17:23 公開日:2023-12-14 |
# AMSP-UOD:渦畳み込みと確率摂動と水中物体検出 AMSP-UOD: When Vortex Convolution and Stochastic Perturbation Meet Underwater Object Detection ( http://arxiv.org/abs/2308.11918v2 ) ライセンス: Link先を確認 | Jingchun Zhou, Zongxin He, Kin-Man Lam, Yudong Wang, Weishi Zhang, ChunLe Guo, Chongyi Li | (参考訳) 本稿では,水中物体検出のためのAmplitude-Modulated Stochastic Perturbation and Vortex Convolutional Network, AMSP-UODを提案する。
AMSP-UODは、複雑な水中環境において、非理想的撮像因子が検出精度に与える影響に特に対処する。
AMSP Vortex Convolution (AMSP-VConv) は, 物体検出性能に対するノイズの影響を軽減するため, ノイズ分布の破壊, 特徴抽出能力の向上, パラメータの効果的削減, ネットワークロバスト性の向上を目的としている。
本研究では, 複雑な水中環境下でのネットワーク性能を向上させるとともに, 長期・短距離の特徴の関連性を高めたFAD-CSP (Feature Association Decoupling Cross Stage partial) モジュールを設計する。
さらに,非最大抑圧(NMS)とアスペクト比類似度閾値を基準として,水藻や魚の群れなどの密集した場面における検出を最適化し,物体検出精度を向上させる。
URPCとRUODデータセットの大規模な実験により、我々の手法は精度とノイズ免疫の点で既存の最先端手法よりも優れていることが示された。
AMSP-UODは現実世界の応用の可能性のある革新的なソリューションを提案する。
私たちのコードはhttps://github.com/shujingchun03/AMSP-UOD.comで利用可能です。 In this paper, we present a novel Amplitude-Modulated Stochastic Perturbation and Vortex Convolutional Network, AMSP-UOD, designed for underwater object detection. AMSP-UOD specifically addresses the impact of non-ideal imaging factors on detection accuracy in complex underwater environments. To mitigate the influence of noise on object detection performance, we propose AMSP Vortex Convolution (AMSP-VConv) to disrupt the noise distribution, enhance feature extraction capabilities, effectively reduce parameters, and improve network robustness. We design the Feature Association Decoupling Cross Stage Partial (FAD-CSP) module, which strengthens the association of long and short range features, improving the network performance in complex underwater environments. Additionally, our sophisticated post-processing method, based on Non-Maximum Suppression (NMS) with aspect-ratio similarity thresholds, optimizes detection in dense scenes, such as waterweed and schools of fish, improving object detection accuracy. Extensive experiments on the URPC and RUOD datasets demonstrate that our method outperforms existing state-of-the-art methods in terms of accuracy and noise immunity. AMSP-UOD proposes an innovative solution with the potential for real-world applications. Our code is available at https://github.com/zhoujingchun03/AMSP-UOD. | 翻訳日:2023-12-16 04:16:56 公開日:2023-12-14 |
# 言語誘導型適応型ハイパーモーダル表現によるマルチモーダル感性分析 Learning Language-guided Adaptive Hyper-modality Representation for Multimodal Sentiment Analysis ( http://arxiv.org/abs/2310.05804v2 ) ライセンス: Link先を確認 | Haoyu Zhang, Yu Wang, Guanghao Yin, Kejun Liu, Yuanyuan Liu, Tianshu Yu | (参考訳) マルチモーダル・センティメント・アナリティクス(MSA)は、複数の情報源(例えば、言語、ビデオ、音声)から豊富な情報を活用することで有効であることが証明されているが、潜在的な感情的関連性やモダリティ間の矛盾のある情報は、パフォーマンスをさらに改善することを妨げる可能性がある。
そこで我々は,適応型言語誘導型マルチモーダルトランスフォーマ (ALMT) を提案する。AHL(Adaptive Hyper-modality Learning) モジュールを組み込んで,異なるスケールの言語特徴の指導の下で,視覚的・音声的特徴から不適切な/複雑な表現を学習する。
得られた超モダリティ表現により、モデルは効率的なMSAのためのマルチモーダル融合により相補的および共同表現を得ることができる。
実際、ALMTはいくつかの一般的なデータセット(MOSI、MOSEI、CH-SIMSなど)で最先端のパフォーマンスを達成しており、アブレーションの多さは我々の無関係/複雑抑制機構の有効性と必要性を示している。 Though Multimodal Sentiment Analysis (MSA) proves effective by utilizing rich information from multiple sources (e.g., language, video, and audio), the potential sentiment-irrelevant and conflicting information across modalities may hinder the performance from being further improved. To alleviate this, we present Adaptive Language-guided Multimodal Transformer (ALMT), which incorporates an Adaptive Hyper-modality Learning (AHL) module to learn an irrelevance/conflict-suppressing representation from visual and audio features under the guidance of language features at different scales. With the obtained hyper-modality representation, the model can obtain a complementary and joint representation through multimodal fusion for effective MSA. In practice, ALMT achieves state-of-the-art performance on several popular datasets (e.g., MOSI, MOSEI and CH-SIMS) and an abundance of ablation demonstrates the validity and necessity of our irrelevance/conflict suppression mechanism. | 翻訳日:2023-12-16 04:09:45 公開日:2023-12-14 |
# マルチソース領域適応のための部分空間同定 Subspace Identification for Multi-Source Domain Adaptation ( http://arxiv.org/abs/2310.04723v2 ) ライセンス: Link先を確認 | Zijian Li, Ruichu Cai, Guangyi Chen, Boyang Sun, Zhifeng Hao, Kun Zhang | (参考訳) マルチソースドメイン適応(MSDA)手法は、複数のラベル付きソースドメインからラベルなしターゲットドメインへ知識を転送することを目的としている。
現在の方法では、ドメイン間の最小限の変化を強制することによって、目的の関節分布の識別性を実現するが、適切な数のドメイン、潜伏変数の単調変換、不変ラベル分布など、厳密な条件を必要とすることが多い。
これらの要件は、現実世界のアプリケーションで満たすのは難しい。
このような厳密な仮定の必要性を軽減するため、ドメイン数や変換特性に関する制約の少ない制約の下で、ドメイン不変変数とドメイン固有変数の絡み合いを保証する部分空間同定理論を提案し、不変変数に対するドメインシフトの影響を最小限に抑えることで、ドメイン適応を容易にする。
この理論に基づいて,変分推論を利用した部分空間識別保証(SIG)モデルを開発した。
さらに、SIGモデルでは、ラベル分布がドメインと変化するターゲットシフトに対応するために、クラス認識条件アライメントが組み込まれている。
実験結果から,SIGモデルは様々なベンチマークデータセット上で既存のMSDA技術よりも優れており,実世界のアプリケーションでの有効性が示された。 Multi-source domain adaptation (MSDA) methods aim to transfer knowledge from multiple labeled source domains to an unlabeled target domain. Although current methods achieve target joint distribution identifiability by enforcing minimal changes across domains, they often necessitate stringent conditions, such as an adequate number of domains, monotonic transformation of latent variables, and invariant label distributions. These requirements are challenging to satisfy in real-world applications. To mitigate the need for these strict assumptions, we propose a subspace identification theory that guarantees the disentanglement of domain-invariant and domain-specific variables under less restrictive constraints regarding domain numbers and transformation properties, thereby facilitating domain adaptation by minimizing the impact of domain shifts on invariant variables. Based on this theory, we develop a Subspace Identification Guarantee (SIG) model that leverages variational inference. Furthermore, the SIG model incorporates class-aware conditional alignment to accommodate target shifts where label distributions change with the domains. Experimental results demonstrate that our SIG model outperforms existing MSDA techniques on various benchmark datasets, highlighting its effectiveness in real-world applications. | 翻訳日:2023-12-16 04:09:23 公開日:2023-12-14 |
# エンドツーエンドチェス認識 End-to-End Chess Recognition ( http://arxiv.org/abs/2310.04086v3 ) ライセンス: Link先を確認 | Athanasios Masouris, Jan van Gemert | (参考訳) チェス認識は、チェス盤画像からチェスピース構成を抽出するタスクである。
現在のアプローチでは,チェスボード検出や正方形定位,ピース分類といった,独立した独立したモジュールのパイプラインを使用する。
代わりに、ディープラーニングの哲学に従い、画像から構成を直接予測するエンドツーエンドのアプローチを探り、逐次的なアプローチのエラーの蓄積を回避し、中間アノテーションの必要性を排除する。
さらに,10,800枚の実画像とそのアノテーションからなる新しいデータセットChess Recognition Dataset (ChessReD)を導入する。
合成レンダリングされ角度が限られている既存のデータセットとは対照的に、ChessReDはスマートフォンカメラを使ってさまざまな角度から撮影されている。
導入したベンチマークデータセットに対するチェス認識のアプローチは,チェスレッドのテスト画像の15.26%において,チェスピースの構成をうまく認識する手法よりも優れている。
この精度は低いように見えるかもしれないが、現在の最先端の7倍近く良く、問題の難しさを反映している。
コードとデータはhttps://github.com/thanosm97/end-to-end-chess-recognitionで入手できる。 Chess recognition is the task of extracting the chess piece configuration from a chessboard image. Current approaches use a pipeline of separate, independent, modules such as chessboard detection, square localization, and piece classification. Instead, we follow the deep learning philosophy and explore an end-to-end approach to directly predict the configuration from the image, thus avoiding the error accumulation of the sequential approaches and eliminating the need for intermediate annotations. Furthermore, we introduce a new dataset, Chess Recognition Dataset (ChessReD), that consists of 10,800 real photographs and their corresponding annotations. In contrast to existing datasets that are synthetically rendered and have only limited angles, ChessReD has photographs captured from various angles using smartphone cameras; a sensor choice made to ensure real-world applicability. Our approach in chess recognition on the introduced challenging benchmark dataset outperforms related approaches, successfully recognizing the chess pieces' configuration in 15.26% of ChessReD's test images. This accuracy may seem low, but it is ~7x better than the current state-of-the-art and reflects the difficulty of the problem. The code and data are available through: https://github.com/ThanosM97/end-to-end-chess-recognition. | 翻訳日:2023-12-16 04:09:01 公開日:2023-12-14 |
# 緩和群畳み込みによる物理系の対称性破壊の発見 Discovering Symmetry Breaking in Physical Systems with Relaxed Group Convolution ( http://arxiv.org/abs/2310.02299v4 ) ライセンス: Link先を確認 | Rui Wang, Han Gao, Robin Walters, Tess E.Smidt | (参考訳) 対称性の破れを見つけることは、微視的な粒子相互作用から流体力学や宇宙構造のようなマクロな現象に至るまで、物理系の挙動や性質の基本的な変化を理解するために不可欠である。
緩和群畳み込みは、完全対称性と完全同値モデルを持たない物理系が制限的である場合の例の解として現れる。
本稿では,この柔軟な畳み込み手法により,モデルがデータと整合する最上位の等分散を維持でき,様々な物理系における微妙な対称性破壊因子を発見できることを示す。
様々な緩和された群畳み込み構造を用いて, 結晶構造の相転移, 乱流の等方性と均質性の破れ, 振り子系の時間反転対称性破れなど, 異なる物理系の様々な対称性破れ因子を明らかにする。 Finding symmetry breaking is essential for understanding the fundamental changes in the behaviors and properties of physical systems, from microscopic particle interactions to macroscopic phenomena like fluid dynamics and cosmic structures. Relaxed group convolution emerges as a solution for instances when physical systems without perfect symmetries and perfectly equivariant models are restrictive. In this paper, we provide both theoretical and empirical evidence that this flexible convolution technique allows the model to maintain the highest level of equivariance that is consistent with data and discover the subtle symmetry-breaking factors in various physical systems. We employ various relaxed group convolution architectures to uncover various symmetry-breaking factors in different physical systems, including the phase transition of crystal structure, the isotropy and homogeneity breaking in turbulence, and the time-reversal symmetry breaking in pendulum systems. | 翻訳日:2023-12-16 04:08:40 公開日:2023-12-14 |
# 空間と時間を表す言語モデル Language Models Represent Space and Time ( http://arxiv.org/abs/2310.02207v2 ) ライセンス: Link先を確認 | Wes Gurnee, Max Tegmark | (参考訳) 大規模言語モデル(LLM)の能力は、そのようなシステムが巨大な表面統計の収集やデータ生成プロセスの一貫性のあるモデル(世界モデル)を学ぶだけなのかという議論を引き起こしている。
Llama-2モデルの3つの空間的データセット(世界,アメリカ,ニューヨーク)と3つの時間的データセット(歴史図形,アートワーク,ニュースヘッドライン)の学習された表現を分析して,後者の予備的証拠を見出した。
LLMは複数のスケールにわたる空間と時間の線形表現を学ぶ。
これらの表現は変化を促すために堅牢であり、異なる実体タイプ(都市やランドマークなど)で統一される。
さらに空間的および時間的座標を確実にエンコードする個々の「空間的ニューロン」と「時間的ニューロン」を識別する。
さらなる調査が必要であるが、現代のllmは実世界のリッチな時空間表現を学習し、世界モデルの基本要素を持っていることを示唆する。 The capabilities of large language models (LLMs) have sparked debate over whether such systems just learn an enormous collection of superficial statistics or a coherent model of the data generation process -- a world model. We find preliminary evidence for the latter by analyzing the learned representations of three spatial datasets (world, US, NYC places) and three temporal datasets (historical figures, artworks, news headlines) in the Llama-2 family of models. We discover that LLMs learn linear representations of space and time across multiple scales. These representations are robust to prompting variations and unified across different entity types (e.g. cities and landmarks). In addition, we identify individual ``space neurons'' and ``time neurons'' that reliably encode spatial and temporal coordinates. While further investigation is needed, our results suggest modern LLMs learn rich spatiotemporal representations of the real world and possess basic ingredients of a world model. | 翻訳日:2023-12-16 04:08:23 公開日:2023-12-14 |
# GNNX-BENCH: 詳細なベンチマークを通じて、摂動に基づくGNN Explainerの有用性を強調 GNNX-BENCH: Unravelling the Utility of Perturbation-based GNN Explainers through In-depth Benchmarking ( http://arxiv.org/abs/2310.01794v2 ) ライセンス: Link先を確認 | Mert Kosan, Samidha Verma, Burouj Armgaan, Khushbu Pahwa, Ambuj Singh, Sourav Medya, Sayan Ranu | (参考訳) GNNの内部動作に光を放つための多くの説明可能性法が提案されている。
提案アルゴリズムに経験的評価を含むにもかかわらず、これらの評価の疑似側面は多様性を欠いている。
その結果, 反事実推論者の比較分析, 異なるgnnアーキテクチャ, ノイズ, 非凸損失面の確率性, 領域制約下での実現可能性など, 変動要因に対する安定性など, gnnに関する説明可能性に関する様々な側面が, 公式には検討されていない。
そこで我々は, GNNの摂動に基づく説明可能性手法のベンチマーク研究を行い, 幅広い説明可能性手法を体系的に評価し, 比較することを目的とした。
本研究の要点として,ノイズの存在下での優れた有効性と安定性を示すパレート最適手法を同定した。
しかしながら,本研究では,すべてのアルゴリズムがノイズの多いデータに直面すると,安定性の問題によって影響を受けることを明らかにした。
さらに, ドメイン特有な考察によって符号化された位相的制約の違反により, 現行の反事実的説明器では実現不可能な場合がしばしばあることを示した。
総合的に、このベンチマーク研究は、GNNの分野におけるステークホルダーに、最先端の説明可能性方法、さらなる拡張のための潜在的研究問題、そして実世界のシナリオにおける彼らの応用の意味を包括的に理解させる。 Numerous explainability methods have been proposed to shed light on the inner workings of GNNs. Despite the inclusion of empirical evaluations in all the proposed algorithms, the interrogative aspects of these evaluations lack diversity. As a result, various facets of explainability pertaining to GNNs, such as a comparative analysis of counterfactual reasoners, their stability to variational factors such as different GNN architectures, noise, stochasticity in non-convex loss surfaces, feasibility amidst domain constraints, and so forth, have yet to be formally investigated. Motivated by this need, we present a benchmarking study on perturbation-based explainability methods for GNNs, aiming to systematically evaluate and compare a wide range of explainability techniques. Among the key findings of our study, we identify the Pareto-optimal methods that exhibit superior efficacy and stability in the presence of noise. Nonetheless, our study reveals that all algorithms are affected by stability issues when faced with noisy data. Furthermore, we have established that the current generation of counterfactual explainers often fails to provide feasible recourses due to violations of topological constraints encoded by domain-specific considerations. Overall, this benchmarking study empowers stakeholders in the field of GNNs with a comprehensive understanding of the state-of-the-art explainability methods, potential research problems for further enhancement, and the implications of their application in real-world scenarios. | 翻訳日:2023-12-16 04:08:06 公開日:2023-12-14 |
# Unravel 異常: 時系列異常検出のためのエンドツーエンドの季節トレンド分解手法 Unravel Anomalies: An End-to-end Seasonal-Trend Decomposition Approach for Time Series Anomaly Detection ( http://arxiv.org/abs/2310.00268v2 ) ライセンス: Link先を確認 | Zhenwei Zhang, Ruiqi Wang, Ran Ding, Yuantao Gu | (参考訳) 従来の時系列異常検出(TAD)法は、複雑な時系列データと多様な異常データの組み合わせの性質に苦慮することが多い。
tadnetは,様々な種類の異常を特定の分解成分に関連付け,複雑な時系列の分析を簡素化し,検出性能を向上させるために,季節分解を利用するエンドツーエンドtadモデルである。
合成データセットの事前学習と微調整を併用したトレーニング手法は,効率的な分解と高精度な異常検出のバランスを崩す。
実世界のデータセットに対する実験的検証は、さまざまな異常領域にわたるTADNetの最先端のパフォーマンスを確認する。 Traditional Time-series Anomaly Detection (TAD) methods often struggle with the composite nature of complex time-series data and a diverse array of anomalies. We introduce TADNet, an end-to-end TAD model that leverages Seasonal-Trend Decomposition to link various types of anomalies to specific decomposition components, thereby simplifying the analysis of complex time-series and enhancing detection performance. Our training methodology, which includes pre-training on a synthetic dataset followed by fine-tuning, strikes a balance between effective decomposition and precise anomaly detection. Experimental validation on real-world datasets confirms TADNet's state-of-the-art performance across a diverse range of anomalies. | 翻訳日:2023-12-16 04:07:36 公開日:2023-12-14 |
# 冷間結合原子配列におけるクリーン-無秩序界面における原子励起脱局在 Atomic excitation delocalization at the clean to disordered interface in a chirally-coupled atomic array ( http://arxiv.org/abs/2309.15361v2 ) ライセンス: Link先を確認 | C.-C. Wu, K.-T. Lin, I G. N. Y. Handayana, C.-H. Chien, S. Goswami, G.-D. Lin, Y.-C. Chen and H. H. Jen | (参考訳) 一次元量子エミッタ系では、原子励起のダイナミクスは光子を介する双極子-双極子相互作用によるエミッタ間の集団結合に影響される。
原子配列の一部に位置障害を導入することにより、乱れ領域とクリーンゾーンの界面における非局在化現象を解明する。
励起は乱領域における対称ディック状態として初期化され、励起局在を定量化するためにいくつかの測度が用いられる。
本研究はまず,時間進化下での励起ダイナミクスの解明に人口不均衡と半鎖エントロピーを用い,また相互結合の場合の固有スペクトルのギャップ比による励起局在化と非局在化の交叉について検討する。
特に,原子鎖の両端における全鎖の参加率と光子損失率について検討し,非相互結合の場合の非局在化クロスオーバーの定量化に有効であることを示した。
さらに, 全鎖の固定個数で乱れ領域の全体サイズや比率を増大させることにより, 前者の場合より小さな乱れ強度で励起局在が生じるのに対し, 後者では, 乱れ領域と乱れ領域の有意な比率が適用された場合に, 脱局在の促進が現れるのが観察された。
以上の結果から,クリーンゾーンと局所化現象の無秩序ゾーンサイズとの競合が明らかとなり,エミッタ・導波路界面における非平衡ダイナミクスへの洞察が得られ,量子情報処理における潜在的な応用が期待できる。 In one-dimensional quantum emitter systems, the dynamics of atomic excitations are influenced by the collective coupling between emitters through photon-mediated dipole-dipole interactions. By introducing positional disorders in a portion of the atomic array, we investigate the delocalization phenomena at the interface between disordered zone and clean zone. The excitation is initialized as symmetric Dicke states in the disordered zone, and several measures are used to quantify the excitation localization. We first use population imbalance and half-chain entropy to investigate the excitation dynamics under time evolutions, and further investigate the crossover of excitation localization to delocalization via the gap ratio from the eigenspectrum in the reciprocal coupling case. In particular, we study the participation ratio of the whole chain and the photon loss ratio between both ends of the atomic chain, which can be used to quantify the delocalization crossover in the non-reciprocal coupling cases. Furthermore, by increasing the overall size or the ratio of the disordered zone under a fixed number of the whole chain, we observe that excitation localization occurs at a smaller disorder strength in the former case, while in the latter, a facilitation of the delocalization appears when a significant ratio of clean zone to disordered zone is applied. Our results can reveal the competition between the clean zone and the disordered zone sizes on localization phenomenon, give insights to non-equilibrium dynamics in the emitter-waveguide interface, and provide potential applications in quantum information processing. | 翻訳日:2023-12-16 04:07:23 公開日:2023-12-14 |
# InternLM-XComposer:高度なテキストイメージ理解と構成のための視覚言語大モデル InternLM-XComposer: A Vision-Language Large Model for Advanced Text-image Comprehension and Composition ( http://arxiv.org/abs/2309.15112v5 ) ライセンス: Link先を確認 | Pan Zhang, Xiaoyi Dong, Bin Wang, Yuhang Cao, Chao Xu, Linke Ouyang, Zhiyuan Zhao, Haodong Duan, Songyang Zhang, Shuangrui Ding, Wenwei Zhang, Hang Yan, Xinyue Zhang, Wei Li, Jingwen Li, Kai Chen, Conghui He, Xingcheng Zhang, Yu Qiao, Dahua Lin, Jiaqi Wang | (参考訳) InternLM-XComposerは、高度な画像テキスト理解と合成を可能にする視覚言語大モデルである。
私たちのモデルの革新的な性質は、3つの魅力的な性質によって強調される。
1)Interleaved Text- Image composition: InternLM-XComposerは、画像をシームレスに統合し、より魅力的で没入的な読書体験を提供するコヒーレントで文脈的な記事を生成することができる。
書記命令を単に提供すれば,本システムは対応する原稿を生成する。
画像がコンテンツを強化するテキスト内の領域をインテリジェントに識別し、最も適切な視覚的候補を自動的に挿入する。
2) リッチ多言語知識の理解: テキストイメージの理解は、慎重に構築された戦略を持つ広範囲なマルチモーダル多言語データベースでトレーニングすることで、視覚的内容の深い理解をもたらす。
3) 最先端性能: 我々のモデルは, MME Benchmark, MMBench, MMBench-CN, Seed-Bench, CCBench (China Cultural Benchmark), QBench, Tiny LVLM など, ビジョンベースモデルの様々な主要なベンチマークにおいて, 常に最先端の結果を達成している。
テキスト画像合成を定量的に評価するための確立された指標がないため、信頼性を確保するために、人間とgpt4-vision(gpt4-v)の両方を含む堅牢な評価手順を考案した。
特に、我々のInternLM-XComposerは、GPT4-VやGPT3.5といった公開ソリューションと比較して、競合するテキスト画像合成スコアを達成しています。
集合的に、InternLM-XComposerは高度なテキストイメージの理解と構成をシームレスにブレンドし、視覚と言語間の相互作用を革新し、新たな洞察と機会を提供する。
InternLM-XComposerモデルシリーズはhttps://github.com/InternLM/InternLM-XComposerで公開されている。 We propose InternLM-XComposer, a vision-language large model that enables advanced image-text comprehension and composition. The innovative nature of our model is highlighted by three appealing properties: 1) Interleaved Text-Image Composition: InternLM-XComposer can effortlessly generate coherent and contextual articles that seamlessly integrate images, providing a more engaging and immersive reading experience. Simply provide a writing instruction, and our system will generate the corresponding manuscript. It can intelligently identify the areas in the text where images would enhance the content and automatically insert the most appropriate visual candidates. 2) Comprehension with Rich Multilingual Knowledge: The text-image comprehension is empowered by training on an extensive multi-modal multilingual database with carefully crafted strategies, resulting in a deep understanding of visual content. 3) State-of-the-art Performance: Our model consistently achieves state-of-the-art results across various mainstream benchmarks for vision-language foundational models, including MME Benchmark, MMBench, MMBench-CN, Seed-Bench, CCBench (Chinese Cultural Benchmark), QBench and Tiny LVLM. Owing to the absence of established metrics for quantitatively assessing text-image composition, we have devised a robust evaluation procedure that comprises both human and GPT4-Vision (GPT4-V) to ensure reliability. Notably, our InternLM-XComposer achieves competitive text-image composition scores compared to public solutions, including GPT4-V and GPT3.5. Collectively, InternLM-XComposer seamlessly blends advanced text-image comprehension and composition, revolutionizing vision-language interaction and offering new insights and opportunities. The InternLM-XComposer model series are publicly available at https://github.com/InternLM/InternLM-XComposer. | 翻訳日:2023-12-16 04:06:55 公開日:2023-12-14 |
# 画像間翻訳のための深層強化学習 Deep Reinforcement Learning for Image-to-Image Translation ( http://arxiv.org/abs/2309.13672v2 ) ライセンス: Link先を確認 | Xin Wang, Ziwei Luo, Jing Hu, Chengming Feng, Shu Hu, Bin Zhu, Xi Wu, Siwei Lyu | (参考訳) 既存の画像変換(I2IT)手法のほとんどは、ディープラーニング(DL)モデルの単一実行時に画像を生成する。
しかし、そのような単一ステップモデルの設計は常に困難であり、大量のパラメータが必要であり、すぐに悪いグローバルな最小値に陥り、過度に適合する。
本稿では,深部強化学習(DRL)による段階的意思決定問題としてI2ITを再構成し,RLに基づくI2IT(RL-I2IT)を実現する新しいフレームワークを提案する。
RL-I2ITフレームワークの主な特徴は、モノリシックな学習プロセスを軽量なモデルで小さなステップに分解し、ターゲット画像に徐々にソースイメージを変換することである。
従来のrlフレームワークでは,高次元連続状態や動作空間を扱うことが困難であると考えると,従来の画像よりも低次元で,俳優が扱いやすい高次元アクションを生成することができる標準アクター・クリティックモデルに対して,新たな概念プランによるメタポリシーを導入する。
RL-I2ITフレームワークでは、トレーニングプロセスを安定させ、対応するタスクの性能を向上させるために、タスク固有の補助学習戦略も採用している。
複数のi2itタスクにおける実験により,高次元連続動作空間問題に対する提案手法の有効性とロバスト性が示された。 Most existing Image-to-Image Translation (I2IT) methods generate images in a single run of a deep learning (DL) model. However, designing such a single-step model is always challenging, requiring a huge number of parameters and easily falling into bad global minimums and overfitting. In this work, we reformulate I2IT as a step-wise decision-making problem via deep reinforcement learning (DRL) and propose a novel framework that performs RL-based I2IT (RL-I2IT). The key feature in the RL-I2IT framework is to decompose a monolithic learning process into small steps with a lightweight model to progressively transform a source image successively to a target image. Considering that it is challenging to handle high dimensional continuous state and action spaces in the conventional RL framework, we introduce meta policy with a new concept Plan to the standard Actor-Critic model, which is of a lower dimension than the original image and can facilitate the actor to generate a tractable high dimensional action. In the RL-I2IT framework, we also employ a task-specific auxiliary learning strategy to stabilize the training process and improve the performance of the corresponding task. Experiments on several I2IT tasks demonstrate the effectiveness and robustness of the proposed method when facing high-dimensional continuous action space problems. | 翻訳日:2023-12-16 04:05:58 公開日:2023-12-14 |
# 不均質駆動場によるランダム横フィールドイジング鎖の欠陥生成の低減 Reducing defect production in random transverse-field Ising chains by inhomogeneous driving fields ( http://arxiv.org/abs/2309.12827v2 ) ライセンス: Link先を確認 | R. Juh\'asz, G. Ro\'osz | (参考訳) 横磁場イジングモデルでは、カップリングの障害は臨界エネルギーギャップの劇的な減少をもたらし、従ってシステムが量子臨界点を通り抜けるときに生じる欠陥の密度の非好ましくない、非代数的スケーリングを引き起こす。
キブル・ズレーク理論と数値計算を応用し, 1次元モデルにおいて, 結合障害と不均質な駆動場とのバランスをとることで, 欠陥密度とアニーリング時間とのスケーリングを代数的にできることを示した。
ゼロでのカップリング分布の尾部に依存すると、バランスは完全であり、等質系のよく知られた逆二乗法則、あるいは部分的法則は依然として代数的減少をもたらすが、より小さいユニバーサル指数を持つ。
また, システムの量子臨界点までゆっくりと冷却されるモデルにおいて, 環境温度のクエンチ中の欠陥生成について検討した。
我々のスケーリングと数値的な結果によると、バランス障害は再び、欠陥密度の代数的時間的減少に繋がる。 In transverse-field Ising models, disorder in the couplings gives rise to a drastic reduction of the critical energy gap and, accordingly, to an unfavorable, slower-than-algebraic scaling of the density of defects produced when the system is driven through its quantum critical point. By applying Kibble-Zurek theory and numerical calculations, we demonstrate in the one-dimensional model that the scaling of defect density with annealing time can be made algebraic by balancing the coupling disorder with suitably chosen inhomogeneous driving fields. Depending on the tail of the coupling distribution at zero, balancing can be either perfect, leading to the well-known inverse-square law of the homogeneous system, or partial, still resulting in an algebraic decrease but with a smaller, non-universal exponent. We also study defect production during an environment-temperature quench of the open variant of the model in which the system is slowly cooled down to its quantum critical point. According to our scaling and numerical results, balanced disorder leads again to an algebraic temporal decrease of the defect density. | 翻訳日:2023-12-16 04:05:36 公開日:2023-12-14 |
# 大規模言語モデルによるプライバシー保護マスクからの回復 Recovering from Privacy-Preserving Masking with Large Language Models ( http://arxiv.org/abs/2309.08628v3 ) ライセンス: Link先を確認 | Arpita Vats, Zhe Liu, Peng Su, Debjyoti Paul, Yingyi Ma, Yutong Pang, Zeeshan Ahmed, Ozlem Kalinli | (参考訳) モデル適応は、プロキシトレーニングデータと受信した実際のユーザデータとの相違を扱うために不可欠である。
効果的に適応するために、ユーザのテキストデータは、通常サーバーまたはローカルデバイスに格納され、下流自然言語処理(NLP)モデルは、そのようなドメイン内のデータを使って直接訓練することができる。
しかし、これは、相手にユーザー情報を暴露するリスクが余分にあるため、プライバシーとセキュリティの懸念を引き起こす可能性がある。
テキストデータ内の識別情報を汎用マーカーに置き換える手法が近年検討されている。
本研究では,大規模言語モデル(llm)を用いてマスキングトークンの代替案を提案し,その効果を下流言語モデリングタスクで評価する。
具体的には,複数の事前学習および微調整 LLM に基づくアプローチを提案し,これらの手法の比較のために様々なデータセットに関する実証的研究を行う。
実験結果から,難読化コーパスでトレーニングしたモデルは,プライバシ保護トークンマスキングを使わずに,元のデータでトレーニングしたモデルと同等のパフォーマンスを達成できることがわかった。 Model adaptation is crucial to handle the discrepancy between proxy training data and actual users data received. To effectively perform adaptation, textual data of users is typically stored on servers or their local devices, where downstream natural language processing (NLP) models can be directly trained using such in-domain data. However, this might raise privacy and security concerns due to the extra risks of exposing user information to adversaries. Replacing identifying information in textual data with a generic marker has been recently explored. In this work, we leverage large language models (LLMs) to suggest substitutes of masked tokens and have their effectiveness evaluated on downstream language modeling tasks. Specifically, we propose multiple pre-trained and fine-tuned LLM-based approaches and perform empirical studies on various datasets for the comparison of these methods. Experimental results show that models trained on the obfuscation corpora are able to achieve comparable performance with the ones trained on the original data without privacy-preserving token masking. | 翻訳日:2023-12-16 04:05:17 公開日:2023-12-14 |
# 空間時間学習者としての複合マスケオートエンコーダ Concatenated Masked Autoencoders as Spatial-Temporal Learner ( http://arxiv.org/abs/2311.00961v2 ) ライセンス: Link先を確認 | Zhouqiang Jiang, Bowen Wang, Tong Xiang, Zhaofeng Niu, Hong Tang, Guangshun Li, Liangzhi Li | (参考訳) ビデオから表現を学ぶには、連続した動きとフレーム間の視覚的対応を理解する必要がある。
本稿では,自己教師型ビデオ表現学習のための空間時間学習器として,Concatenated Masked Autoencoders (CatMAE)を導入する。
ビデオフレームの入力シーケンスについては、CatMAEは初期フレームを変更せず、マスキング(95%)をその後のフレームに適用する。
CatMAEのエンコーダは各フレームの可視パッチを個別にエンコードする責任があり、その後、各マスクフレームに対して、デコーダは以前のフレームと現在のフレームの両方から可視パッチを活用して元のイメージを再構築する。
提案手法により,目に見えるパッチ間の動き情報を推定し,先行フレームと後続フレーム間の対応を一致させ,最終的にシーンの進化を学習できる。
さらに,モデルの再構成目標として逆フレームを用いた新しいデータ拡張戦略である video-reverse (vire) を提案する。
これにより、モデルが連続的な動きの詳細と対応を利用して再構築を完了させることが奨励され、モデルの能力が向上する。
もっとも先進的な事前学習手法と比較して、CatMAEはビデオセグメンテーションタスクとアクション認識タスクのリードレベルを達成する。 Learning representations from videos requires understanding continuous motion and visual correspondences between frames. In this paper, we introduce the Concatenated Masked Autoencoders (CatMAE) as a spatial-temporal learner for self-supervised video representation learning. For the input sequence of video frames, CatMAE keeps the initial frame unchanged while applying substantial masking (95%) to subsequent frames. The encoder in CatMAE is responsible for encoding visible patches for each frame individually; subsequently, for each masked frame, the decoder leverages visible patches from both previous and current frames to reconstruct the original image. Our proposed method enables the model to estimate the motion information between visible patches, match the correspondences between preceding and succeeding frames, and ultimately learn the evolution of scenes. Furthermore, we propose a new data augmentation strategy, Video-Reverse (ViRe), which uses reversed video frames as the model's reconstruction targets. This further encourages the model to utilize continuous motion details and correspondences to complete the reconstruction, thereby enhancing the model's capabilities. Compared to the most advanced pre-training methods, CatMAE achieves a leading level in video segmentation tasks and action recognition tasks. | 翻訳日:2023-12-16 03:58:33 公開日:2023-12-14 |
# beyond u: 拡散モデルの高速化と軽量化 Beyond U: Making Diffusion Models Faster & Lighter ( http://arxiv.org/abs/2310.20092v2 ) ライセンス: Link先を確認 | Sergio Calvo-Ordonez, Jiahao Huang, Lipei Zhang, Guang Yang, Carola-Bibiane Schonlieb, Angelica I Aviles-Rivero | (参考訳) 拡散モデルは、画像合成、ビデオ生成、分子設計などのタスクにおいて記録的な性能をもたらす生成モデルである。
それらの能力にもかかわらず、その効率、特に逆の復調過程においては、収束速度が遅いことと計算コストが高いため、依然として課題である。
本研究では,よりパラメータ効率が高く,コンバージェンスが高速で,雑音のロバスト性が増大する拡散モデルに対して,連続力学系を応用し,新しいデノージングネットワークを設計する手法を提案する。
確率的拡散モデルを用いて,約4分の1のパラメータとFloating Point Operations (FLOPs) の$\sim 30\%$を演算し,標準U-Nets in Denoising Diffusion Probabilistic Models (DDPMs)と比較した。
さらに, 同一条件下で測定した場合のベースラインモデルよりも, より良い品質ソリューションに収束しながら, 推定精度が向上した。 Diffusion models are a family of generative models that yield record-breaking performance in tasks such as image synthesis, video generation, and molecule design. Despite their capabilities, their efficiency, especially in the reverse denoising process, remains a challenge due to slow convergence rates and high computational costs. In this work, we introduce an approach that leverages continuous dynamical systems to design a novel denoising network for diffusion models that is more parameter-efficient, exhibits faster convergence, and demonstrates increased noise robustness. Experimenting with denoising probabilistic diffusion models, our framework operates with approximately a quarter of the parameters and $\sim 30\%$ of the Floating Point Operations (FLOPs) compared to standard U-Nets in Denoising Diffusion Probabilistic Models (DDPMs). Furthermore, our model is faster in inference than the baseline models when measured in equal conditions while converging to better quality solutions. | 翻訳日:2023-12-16 03:58:13 公開日:2023-12-14 |
# ニューラルネットワークの知識編集に関する調査研究 A Survey on Knowledge Editing of Neural Networks ( http://arxiv.org/abs/2310.19704v2 ) ライセンス: Link先を確認 | Vittorio Mazzia, Alessandro Pedrani, Andrea Caciolai, Kay Rottmann, Davide Bernardi | (参考訳) 深層ニューラルネットワークは、学界や業界でますます普及し、さまざまな分野や関連するタスクで人間のパフォーマンスと一致し、追い越すようになっている。
しかし、人間と同じように、最大のニューラルネットワークでさえ間違いを犯し、世界が経つにつれて一度正しい予測が無効になる可能性がある。
ミスや最新の情報を考慮したサンプルによるデータセットの強化は、実用アプリケーションでは一般的な回避策となっている。
しかしながら、破滅的な忘れというよく知られた現象は、ニューラルネットワークパラメータの暗黙的に記憶された知識の正確な変化を達成する上で課題となり、しばしば望ましい振る舞いを達成するために完全なモデルの再訓練が必要となる。
これは高価で信頼性がなく、大規模な自己教師型事前トレーニングの現在のトレンドと相容れないため、データ変更にニューラルネットワークモデルを適用するためのより効率的で効果的な方法を見つける必要がある。
このニーズに対処するために、知識編集は、事前学習されたタスクにおけるモデル行動に影響を与えることなく、信頼性、データ効率、高速な目標モデルの変更を可能にすることを目的とした、新しい研究分野として浮上している。
本調査では,最近の人工知能研究分野について概説する。
まず、ニューラルネットワークを編集し、共通の枠組みで形式化し、継続的学習のようなより悪名高い研究分野と区別する問題を紹介する。
次に、これまでに提案されている最も関連する知識編集手法とデータセットのレビューを行い、正規化技法、メタラーニング、直接モデル編集、アーキテクチャ戦略の4つの異なるファミリーに分類する。
最後に,他の研究分野との交点と今後の研究の方向性について概説する。 Deep neural networks are becoming increasingly pervasive in academia and industry, matching and surpassing human performance on a wide variety of fields and related tasks. However, just as humans, even the largest artificial neural networks make mistakes, and once-correct predictions can become invalid as the world progresses in time. Augmenting datasets with samples that account for mistakes or up-to-date information has become a common workaround in practical applications. However, the well-known phenomenon of catastrophic forgetting poses a challenge in achieving precise changes in the implicitly memorized knowledge of neural network parameters, often requiring a full model re-training to achieve desired behaviors. That is expensive, unreliable, and incompatible with the current trend of large self-supervised pre-training, making it necessary to find more efficient and effective methods for adapting neural network models to changing data. To address this need, knowledge editing is emerging as a novel area of research that aims to enable reliable, data-efficient, and fast changes to a pre-trained target model, without affecting model behaviors on previously learned tasks. In this survey, we provide a brief review of this recent artificial intelligence field of research. We first introduce the problem of editing neural networks, formalize it in a common framework and differentiate it from more notorious branches of research such as continuous learning. Next, we provide a review of the most relevant knowledge editing approaches and datasets proposed so far, grouping works under four different families: regularization techniques, meta-learning, direct model editing, and architectural strategies. Finally, we outline some intersections with other fields of research and potential directions for future works. | 翻訳日:2023-12-16 03:57:53 公開日:2023-12-14 |
# Ever Evolving Evaluator (EV3):知識蒸留のためのフレキシブルで信頼性の高いメタ最適化を目指して Ever Evolving Evaluator (EV3): Towards Flexible and Reliable Meta-Optimization for Knowledge Distillation ( http://arxiv.org/abs/2310.18893v2 ) ライセンス: Link先を確認 | Li Ding, Masrour Zoghi, Guy Tennenholtz, Maryam Karimzadehgan | (参考訳) 我々は,スケーラブルな機械学習モデルを,直感的な探索-評価-適応プロトコルによって効率的に学習するように設計された,新しいメタ最適化フレームワークであるEV3を紹介した。
EV3の各イテレーションにおいて、様々なモデルパラメータの更新を調査し、関連する評価手法を用いて評価し、最適更新と過去の進捗履歴に基づいてモデルを適応する。
EV3は、関心のタスクに関連する主要な目的に対する差別性のような厳密な制約を課すことなく、大幅な柔軟性を提供する。
さらに、評価フェーズは堅牢な一般化を保証するための信頼性の高い安全制御を提供し、複数の目的を持ったシナリオでタスクを動的に優先順位付けすることができる。
進化的アルゴリズム,メタラーニング,ニューラルアーキテクチャ検索からインスピレーションを得たEV3の知識蒸留への応用について検討する。
我々の実験結果は、EV3がモデリングのランドスケープを安全に探索する能力を示しながら、その固有の柔軟性と適応性のために、多くのドメインにまたがる潜在的な適用性を示唆している。
最後に、実験用のソースコードとともに、EV3のJAX実装を提供しています。 We introduce EV3, a novel meta-optimization framework designed to efficiently train scalable machine learning models through an intuitive explore-assess-adapt protocol. In each iteration of EV3, we explore various model parameter updates, assess them using pertinent evaluation methods, and then adapt the model based on the optimal updates and previous progress history. EV3 offers substantial flexibility without imposing stringent constraints like differentiability on the key objectives relevant to the tasks of interest, allowing for exploratory updates with intentionally-biased gradients and through a diversity of losses and optimizers. Additionally, the assessment phase provides reliable safety controls to ensure robust generalization, and can dynamically prioritize tasks in scenarios with multiple objectives. With inspiration drawn from evolutionary algorithms, meta-learning, and neural architecture search, we investigate an application of EV3 to knowledge distillation. Our experimental results illustrate EV3's capability to safely explore the modeling landscape, while hinting at its potential applicability across numerous domains due to its inherent flexibility and adaptability. Finally, we provide a JAX implementation of EV3, along with source code for experiments, available at: https://github.com/google-research/google-research/tree/master/ev3. | 翻訳日:2023-12-16 03:57:24 公開日:2023-12-14 |
# 言語モデルにおける真さをモデル化するペルソナ Personas as a Way to Model Truthfulness in Language Models ( http://arxiv.org/abs/2310.18168v4 ) ライセンス: Link先を確認 | Nitish Joshi, Javier Rando, Abulhair Saparov, Najoung Kim, He He | (参考訳) 大規模言語モデル (LLM) は、インターネットから大量のテキストを学習し、世界に関する事実と誤解を招く情報の両方を含む。
言語モデルは、この矛盾するデータで真理と偽りを区別できるだろうか?
LLMは、異なるコミュニケーションエージェントをモデル化できるという観点から、ペルソナ仮説を提示する。
例えば、真面目なペルソナとは、真面目なテキストを生成し、形式的な書体や科学的参考書のような類似した特徴を共有するエージェントのグループである。
このペルソナをモデル化することにより、LLMは、各エージェントがトレーニングテキストを生成する特定のコンテキストを超えて、真実性を一般化することができる。
例えば、モデルでは、エージェント「Wikipedia」が真面目なペルソナに属するため、「Science」によってのみ生成されるトピックに対して真に振る舞うことを推測することができる。
我々は,(1)モデルが生成する前に真理であるかどうかを検証し,(2)事実の集合上でモデルを微調整することで,その真理性が改善される,という2つの観察を通してペルソナ仮説の証拠を示す。
次に、算術を合成環境として用いて、言語モデルが真と偽の言明を分離し、エージェント間で真さを一般化できることを示し、訓練データ内のエージェントが真偽のペルソナを作成することができる真偽生成プロセスを共有する場合に限る。
全体としては、モデルがデータの階層構造を利用して真理のような抽象概念を学習できることが示唆されている。 Large Language Models (LLMs) are trained on vast amounts of text from the internet, which contains both factual and misleading information about the world. Can language models discern truth from falsehood in this contradicting data? Expanding on the view that LLMs can model different communicative agents, we present the persona hypothesis: LLMs can cluster agents into personas using common features of their generations. For instance, a truthful persona is a group of agents that are likely to produce truthful text and that share similar features like formal writing styles and scientific references. By modeling this persona, LLMs can generalize truthfulness beyond the specific contexts in which each agent generated the training text. For example, the model can infer that the agent "Wikipedia" will behave truthfully on topics that were only generated by "Science" because they both belong to the truthful persona. We show evidence for the persona hypothesis via two observations: (1) we can probe whether a model's answer will be truthful before it is generated; (2) finetuning a model on a set of facts improves its truthfulness on unseen topics. Next, using arithmetics as a synthetic environment, we show that language models can separate true and false statements, and generalize truthfulness across agents; but only if agents in the training data share a truthful generative process that enables the creation of a truthful persona. Overall, our findings suggest that models can exploit hierarchical structures in the data to learn abstract concepts like truthfulness. | 翻訳日:2023-12-16 03:56:43 公開日:2023-12-14 |
# MarkQA:数値推論を用いた大規模KBQAデータセット MarkQA: A large scale KBQA dataset with numerical reasoning ( http://arxiv.org/abs/2310.15517v2 ) ライセンス: Link先を確認 | Xiang Huang, Sitao Cheng, Yuheng Bao, Shanshan Huang, Yuzhong Qu | (参考訳) 知識ベースに対する質問応答 (KBQA) はファクトイド問題への対処の進展を示しているが、数値的推論を伴うKBQAはいまだに未解明である。
本稿では,KBQAにおける複素数値推論に着目し,マルチホップ推論と数値推論の両方を実行する必要がある新しいタスクNR-KBQAを提案する。
PyQLと呼ばれるPython形式で論理形式を設計し、数値推論問題の推論プロセスを表現する。
NR-KBQAの開発を容易にするため,少量の種子から自動的に構築されるMarkQAと呼ばれる大規模なデータセットを提案する。
MarkQAの各質問には、対応するSPARQLクエリと、QDMRフォーマットとPyQLプログラムのステップバイステップ推論プロセスが備わっている。
MarkQAにおける最先端QA手法の実験結果は、KBQAにおける複雑な数値推論が大きな課題に直面していることを示している。 While question answering over knowledge bases (KBQA) has shown progress in addressing factoid questions, KBQA with numerical reasoning remains relatively unexplored. In this paper, we focus on the complex numerical reasoning in KBQA and propose a new task, NR-KBQA, which necessitates the ability to perform both multi-hop reasoning and numerical reasoning. We design a logic form in Python format called PyQL to represent the reasoning process of numerical reasoning questions. To facilitate the development of NR-KBQA, we present a large dataset called MarkQA, which is automatically constructed from a small set of seeds. Each question in MarkQA is equipped with its corresponding SPARQL query, alongside the step-by-step reasoning process in the QDMR format and PyQL program. Experimental results of some state-of-the-art QA methods on the MarkQA show that complex numerical reasoning in KBQA faces great challenges. | 翻訳日:2023-12-16 03:55:37 公開日:2023-12-14 |
# autodan: 大きな言語モデルに対する解釈可能な勾配に基づく逆攻撃 AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large Language Models ( http://arxiv.org/abs/2310.15140v2 ) ライセンス: Link先を確認 | Sicheng Zhu, Ruiyi Zhang, Bang An, Gang Wu, Joe Barrow, Zichao Wang, Furong Huang, Ani Nenkova, Tong Sun | (参考訳) 大規模言語モデル(llm)の安全性アライメントは、手動のジェイルブレイク攻撃や(自動的な)逆襲によって危険にさらされる可能性がある。
最近の研究は、これらの攻撃に対する防御が可能であることを示唆している: 敵対的な攻撃は無制限だが読解不能なプロンプトを生成し、パープレキシティベースのフィルターによって検出できる;手動のジェイルブレイク攻撃は可読性プロンプトを製作するが、人間の創造性の必要性によるそれらの数は限られている。
本稿では,これらの解は楽観的すぎる可能性があることを示す。
両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
ジェイルブレイクと可読性の2つの目標によってガイドされ、AutoDANはトークンを1つずつ左から右に最適化して生成する。
特に、勾配を使ってスクラッチから生成されたこれらのプロンプトは解釈可能で多様であり、手動のジェイルブレイク攻撃でよく見られる新しい戦略である。
彼らはまた、限られたトレーニングデータや単一のプロキシモデルを使用する場合、予期せぬ有害な振る舞いを一般化し、ブラックボックスのLSMに転送する。
さらに,システムプロンプトを自動リークすることで,AutoDANの汎用性を示す。
我々の研究は、red-team llmに新しい方法を提供し、解釈可能性を通じてジェイルブレイクのメカニズムを理解する。 Safety alignment of Large Language Models (LLMs) can be compromised with manual jailbreak attacks and (automatic) adversarial attacks. Recent studies suggest that defending against these attacks is possible: adversarial attacks generate unlimited but unreadable gibberish prompts, detectable by perplexity-based filters; manual jailbreak attacks craft readable prompts, but their limited number due to the necessity of human creativity allows for easy blocking. In this paper, we show that these solutions may be too optimistic. We introduce AutoDAN, an interpretable, gradient-based adversarial attack that merges the strengths of both attack types. Guided by the dual goals of jailbreak and readability, AutoDAN optimizes and generates tokens one by one from left to right, resulting in readable prompts that bypass perplexity filters while maintaining high attack success rates. Notably, these prompts, generated from scratch using gradients, are interpretable and diverse, with emerging strategies commonly seen in manual jailbreak attacks. They also generalize to unforeseen harmful behaviors and transfer to black-box LLMs better than their unreadable counterparts when using limited training data or a single proxy model. Furthermore, we show the versatility of AutoDAN by automatically leaking system prompts using a customized objective. Our work offers a new way to red-team LLMs and understand jailbreak mechanisms via interpretability. | 翻訳日:2023-12-16 03:55:21 公開日:2023-12-14 |
# 人間のフィードバックによる品質の多様性 Quality Diversity through Human Feedback ( http://arxiv.org/abs/2310.12103v2 ) ライセンス: Link先を確認 | Li Ding, Jenny Zhang, Jeff Clune, Lee Spector, Joel Lehman | (参考訳) Reinforcement Learning from Human Feedback (RLHF) は、明確な目的が欠如している定性的なタスクに可能性を示している。
しかし、その効果は、平均的な人間の嗜好を最適化するツールとしてのみ概念化され、特に多様なモデル応答を必要とする生成タスクにおいて、完全には実現されない。
一方、品質多様性(QD)アルゴリズムは、多様で高品質なソリューションを特定するのに優れています。
本稿では,人間のフィードバックをQDフレームワークに統合する新しいアプローチである,人間のフィードバックによる品質多様性について紹介する。
QDHFは、ソリューション間の類似性の人間の判断から多様性メトリクスを推定し、QDアルゴリズムの適用性と有効性を高める。
実験の結果,qdhfは自動ダイバーシティ発見において最先端手法を著しく上回っており,ロボット工学や強化学習における標準ベンチマークにおけるqdのための手作りメトリクスの使用の有効性に匹敵することがわかった。
特に、潜時空間照明タスクにおいて、QDHFは拡散モデルによって生成された画像の多様性を著しく向上させ、ユーザ研究においてより好意的に受け入れられた。
我々はQDHFのスケーラビリティと派生した多様性指標の品質を分析し、複雑でオープンな最適化タスクにおける探索と多様性を改善する可能性を強調した。
ソースコードはgithubにある。 https://github.com/ld-ing/qdhf。 Reinforcement Learning from Human Feedback (RLHF) has shown potential in qualitative tasks where clear objectives are lacking. However, its effectiveness is not fully realized when it is conceptualized merely as a tool to optimize average human preferences, especially in generative tasks that demand diverse model responses. Meanwhile, Quality Diversity (QD) algorithms excel at identifying diverse and high-quality solutions but often rely on manually crafted diversity metrics. This paper introduces Quality Diversity through Human Feedback (QDHF), a novel approach integrating human feedback into the QD framework. QDHF infers diversity metrics from human judgments of similarity among solutions, thereby enhancing the applicability and effectiveness of QD algorithms. Our empirical studies show that QDHF significantly outperforms state-of-the-art methods in automatic diversity discovery and matches the efficacy of using manually crafted metrics for QD on standard benchmarks in robotics and reinforcement learning. Notably, in a latent space illumination task, QDHF substantially enhances the diversity in images generated by a diffusion model and was more favorably received in user studies. We conclude by analyzing QDHF's scalability and the quality of its derived diversity metrics, emphasizing its potential to improve exploration and diversity in complex, open-ended optimization tasks. Source code is available on GitHub: https://github.com/ld-ing/qdhf. | 翻訳日:2023-12-16 03:54:55 公開日:2023-12-14 |
# 基礎言語モデルを用いたテキスト要約のためのゼロショット忠実度評価 Zero-shot Faithfulness Evaluation for Text Summarization with Foundation Language Model ( http://arxiv.org/abs/2310.11648v2 ) ライセンス: Link先を確認 | Qi Jia, Siyu Ren, Yizhu Liu, Kenny Q. Zhu | (参考訳) 自然言語生成の大幅な改善にもかかわらず、要約モデルは未だに不満足な問題に苦しんでいる。
これまでの研究は、他のタスクでトレーニングされたモデルやドメイン内の合成データを使ったり、ChatGPTのような大規模なモデルに刺激を与えたりした。
本稿では,適度な基礎言語モデルを用いて,単純にゼロショット忠実性評価を行うことを提案する。
出力に整合したテキストをプレフィックスすることで、出力を予測する確率を増大させるという直感に基づいて、確率変化の組合せである新しい計量FFLMを導入する。
実験の結果、fflmは24倍のパラメータで非一貫性検出と忠実性評価の両方において、chatgptと競合するか、あるいは上回るパフォーマンスを示している。
FFLMは他の強力なベースラインよりも改善されている。 Despite tremendous improvements in natural language generation, summarization models still suffer from the unfaithfulness issue. Previous work evaluates faithfulness either using models trained on the other tasks or in-domain synthetic data, or prompting a large model such as ChatGPT. This paper proposes to do zero-shot faithfulness evaluation simply with a moderately-sized foundation language model. We introduce a new metric FFLM, which is a combination of probability changes based on the intuition that prefixing a piece of text that is consistent with the output will increase the probability of predicting the output. Experiments show that FFLM performs competitively with or even outperforms ChatGPT on both inconsistency detection and faithfulness rating with 24x fewer parameters. FFLM also achieves improvements over other strong baselines. | 翻訳日:2023-12-16 03:54:32 公開日:2023-12-14 |
# 言語拡散モデルを用いた非線形力学的展開応答に基づくエンドツーエンドde novoタンパク質生成 ForceGen: End-to-end de novo protein generation based on nonlinear mechanical unfolding responses using a language diffusion model ( http://arxiv.org/abs/2310.10605v2 ) ライセンス: Link先を確認 | Bo Ni, David L. Kaplan, Markus J. Buehler | (参考訳) 進化を通じて、自然はエラスチン、シルク、ケラチン、コラーゲンを含む優れたタンパク質物質を提示し、メカノビオロジーにおいて重要な役割を担っている。
しかし、特定の機械的特性を満たすタンパク質を発見するための自然な設計を超えることは依然として困難である。
本稿では,複雑な非線形力学特性設計の目的を満たすタンパク質設計を予測する生成モデルについて述べる。
我々のモデルは、事前訓練されたタンパク質言語モデルからタンパク質配列の深い知識を活用し、機械的展開応答をマッピングして新しいタンパク質を生成する。
直接的検証のための全原子分子シミュレーションにより, 設計したタンパク質は新規であり, 展開エネルギー, 機械的強度, 詳細な展開力-分離曲線など, 標的となる力学特性を満たすことを実証した。
本モデルでは, 機械的特徴を標的として, 生体合成に拘束されない巨大メカノバイオロジータンパク質配列空間を探索し, 優れた機械的特性を持つタンパク質の発見を可能にする。 Through evolution, nature has presented a set of remarkable protein materials, including elastins, silks, keratins and collagens with superior mechanical performances that play crucial roles in mechanobiology. However, going beyond natural designs to discover proteins that meet specified mechanical properties remains challenging. Here we report a generative model that predicts protein designs to meet complex nonlinear mechanical property-design objectives. Our model leverages deep knowledge on protein sequences from a pre-trained protein language model and maps mechanical unfolding responses to create novel proteins. Via full-atom molecular simulations for direct validation, we demonstrate that the designed proteins are novel, and fulfill the targeted mechanical properties, including unfolding energy and mechanical strength, as well as the detailed unfolding force-separation curves. Our model offers rapid pathways to explore the enormous mechanobiological protein sequence space unconstrained by biological synthesis, using mechanical features as target to enable the discovery of protein materials with superior mechanical properties. | 翻訳日:2023-12-16 03:54:20 公開日:2023-12-14 |
# character-LLM:ロールプレイングのためのトレーニング可能なエージェント Character-LLM: A Trainable Agent for Role-Playing ( http://arxiv.org/abs/2310.10158v2 ) ライセンス: Link先を確認 | Yunfan Shao, Linyang Li, Junqi Dai, Xipeng Qiu | (参考訳) 大規模言語モデル(llm)は、人間の指示を理解し、高品質なテキストを提供する能力を備えており、人間の行動をシミュレートするエージェントとして使用できる。
このような能力は、単純な人間の行動よりも高い形態でLSMが人をシミュレートできるかどうかを疑問にさせる。
そこで我々は,ChatGPT APIを指示するために限られたプロンプトを使うのではなく,特定の人のプロファイル,経験,感情状態を持つエージェントを訓練することを目指している。
本研究では, ベートーヴェン, クレオパトラ女王, ユリウス・カエサルなど, LLM に特定の人物として行動するように教えるキャラクタ-LLMを紹介する。
提案手法は,プロファイルを特定のキャラクターの経験として編集することと,これらの経験を個人的シミュラクラとするトレーニングモデルに焦点をあてる。
提案手法の有効性を評価するため,訓練されたエージェントを面接し,エージェントがキャラクターや経験を記憶するかどうかを評価する実験場を構築した。
実験結果から、人類の将来的なシミュラクラの構築に役立つ興味深い観察結果が得られた。 Large language models (LLMs) can be used to serve as agents to simulate human behaviors, given the powerful ability to understand human instructions and provide high-quality generated texts. Such ability stimulates us to wonder whether LLMs can simulate a person in a higher form than simple human behaviors. Therefore, we aim to train an agent with the profile, experience, and emotional states of a specific person instead of using limited prompts to instruct ChatGPT API. In this work, we introduce Character-LLM that teach LLMs to act as specific people such as Beethoven, Queen Cleopatra, Julius Caesar, etc. Our method focuses on editing profiles as experiences of a certain character and training models to be personal simulacra with these experiences. To assess the effectiveness of our approach, we build a test playground that interviews trained agents and evaluates whether the agents \textit{memorize} their characters and experiences. Experimental results show interesting observations that help build future simulacra of humankind. | 翻訳日:2023-12-16 03:54:00 公開日:2023-12-14 |
# フォトニック集積回路のための最適化キラルエミッタとしての量子ドット Quantum dots as optimized chiral emitters for photonic integrated circuits ( http://arxiv.org/abs/2310.09253v2 ) ライセンス: Link先を確認 | Jakub Rosi\'nski, Micha{\l} Gawe{\l}czyk, Karol Tarnowski, Pawe{\l} Karwat, Daniel Wigger, Pawe{\l} Machnikowski | (参考訳) 量子ドット(QD)とフォトニック結晶導波路モードの双方向相互作用を可能にするキラルカップリングは、量子フォトニック集積回路の機能向上を約束する。
qd遷移の楕円分極は方向性を大幅に向上させる。
しかし, エピタキシャルqd作製においては, 側方qd位置の精密制御の欠如が, 効率的なキラル界面の実現に課題となっている。
本稿では,QDエミッタの偏光を空間平均化方向性に対して最適化する理論解析を行い,導波路の高方向領域の大きさと位置,および大きなパーセル拡張領域との重なりの点で技術的優位性を示すとともに,装置のスケーラビリティを向上させることを提案する。
さらに、$\mathbf{\mathit{k}}\cdot\mathbf{\mathit{p}}$ モデリングを用いて、現実的なqd構造における中性励起子転移に対して最適な楕円偏光が得られることを示す。
本研究は,QDベースのフォトニック集積回路において,効率的なキラルカップリングを実現するための有効な経路を示し,製造技術の課題と限界を克服した。 Chiral coupling, which allows directional interactions between quantum dots (QDs) and photonic crystal waveguide modes, holds promise for enhancing the functionality of quantum photonic integrated circuits. Elliptical polarizations of QD transitions offer a considerable enhancement in directionality. However, in epitaxial QD fabrication, the lack of precise control over lateral QD positions still poses a challenge in achieving efficient chiral interfaces. Here, we present a theoretical analysis in which we propose to optimize the polarization of a QD emitter against the spatially averaged directionality and demonstrate that the resulting emitter offers a considerable technological advantage in terms of the size and location of high-directionality areas of the waveguide as well as their overlap with the regions of large Purcell enhancement, thereby improving the scalability of the device. Moreover, using $\mathbf{\mathit{k}}\cdot\mathbf{\mathit{p}}$ modeling, we demonstrate that the optimal elliptical polarization can be achieved for neutral exciton transitions in a realistic QD structure. Our results present a viable path for efficient chiral coupling in QD-based photonic integrated circuits, to a large extent overcoming the challenges and limitations of the present manufacturing technology. | 翻訳日:2023-12-16 03:53:42 公開日:2023-12-14 |
# ドメイン間クラウド分割のためのSAM適応学習 Learning to Adapt SAM for Segmenting Cross-domain Point Clouds ( http://arxiv.org/abs/2310.08820v3 ) ライセンス: Link先を確認 | Xidong Peng, Runnan Chen, Feng Qiao, Lingdong Kong, Youquan Liu, Tai Wang, Xinge Zhu, Yuexin Ma | (参考訳) 3Dセグメンテーションタスクにおける非教師なしドメイン適応(UDA)は、主にポイントクラウドデータの希薄で非秩序な性質から生じる、恐ろしい挑戦である。
特にLiDARの点雲では、様々な撮影シーン、変動する気象条件、使用中の様々なLiDARデバイス間でドメインの差が明らかになる。
従来のUDA手法では、ソースとターゲットのドメイン間の特徴を整列させることで、このギャップを緩和しようと試みてきたが、ドメインのかなりの変動により、3Dセグメンテーションに適用した場合、このアプローチは不十分である。
イメージセグメンテーションの領域において、視覚基盤モデルSAMが示す顕著な一般化能力に着想を得て、SAM内に埋め込まれた豊富な一般知識を活用し、多様な3次元領域にまたがる特徴表現を統一し、さらに3次元領域適応問題を解く。
具体的には,ポイントクラウドに関連する画像を用いて知識伝達を容易にするとともに,3d特徴空間とsam特徴空間のアライメントを著しく向上し,シーンレベルとインスタンスレベルの両方で動作する,革新的なハイブリッド特徴拡張手法を提案する。
本手法は,広く認識されたデータセット上で評価され,最先端の性能を実現する。 Unsupervised domain adaptation (UDA) in 3D segmentation tasks presents a formidable challenge, primarily stemming from the sparse and unordered nature of point cloud data. Especially for LiDAR point clouds, the domain discrepancy becomes obvious across varying capture scenes, fluctuating weather conditions, and the diverse array of LiDAR devices in use. While previous UDA methodologies have often sought to mitigate this gap by aligning features between source and target domains, this approach falls short when applied to 3D segmentation due to the substantial domain variations. Inspired by the remarkable generalization capabilities exhibited by the vision foundation model, SAM, in the realm of image segmentation, our approach leverages the wealth of general knowledge embedded within SAM to unify feature representations across diverse 3D domains and further solves the 3D domain adaptation problem. Specifically, we harness the corresponding images associated with point clouds to facilitate knowledge transfer and propose an innovative hybrid feature augmentation methodology, which significantly enhances the alignment between the 3D feature space and SAM's feature space, operating at both the scene and instance levels. Our method is evaluated on many widely-recognized datasets and achieves state-of-the-art performance. | 翻訳日:2023-12-16 03:53:20 公開日:2023-12-14 |
# MMA拡散:拡散モデルに対するマルチモーダル攻撃 MMA-Diffusion: MultiModal Attack on Diffusion Models ( http://arxiv.org/abs/2311.17516v2 ) ライセンス: Link先を確認 | Yijun Yang, Ruiyuan Gao, Xiaosen Wang, Tsung-Yi Ho, Nan Xu, Qiang Xu | (参考訳) 近年,テキスト・ツー・イメージ(T2I)モデルは顕著な進歩を遂げ,広く普及している。
しかし、この進歩は、特に不適切な、あるいは安全でない(NSFW)コンテンツを生成する際の、潜在的な誤用に対する不注意な道を開いた。
MMA-Diffusionは,オープンソースモデルと商用オンラインサービスの両方において,現在の防御対策を効果的に回避し,T2Iモデルのセキュリティに対する顕著かつ現実的な脅威を示すフレームワークである。
従来のアプローチとは異なり、mma-diffusionはテキストと視覚の両方を利用してプロンプトフィルタやポストホック安全チェッカーなどのセーフガードをバイパスし、既存の防御機構の脆弱性を露呈し、強調する。 In recent years, Text-to-Image (T2I) models have seen remarkable advancements, gaining widespread adoption. However, this progress has inadvertently opened avenues for potential misuse, particularly in generating inappropriate or Not-Safe-For-Work (NSFW) content. Our work introduces MMA-Diffusion, a framework that presents a significant and realistic threat to the security of T2I models by effectively circumventing current defensive measures in both open-source models and commercial online services. Unlike previous approaches, MMA-Diffusion leverages both textual and visual modalities to bypass safeguards like prompt filters and post-hoc safety checkers, thus exposing and highlighting the vulnerabilities in existing defense mechanisms. | 翻訳日:2023-12-16 03:46:23 公開日:2023-12-14 |
# 単にトレーニングだけでなく、テストも: ピアテスティング 機械学習駆動アプリケーションによる高校生の視点調整 Not Just Training, Also Testing: High School Youths' Perspective-Taking through Peer Testing Machine Learning-Powered Applications ( http://arxiv.org/abs/2311.12733v2 ) ライセンス: Link先を確認 | L. Morales-Navarro, M. Shah, Y. B. Kafai | (参考訳) K-12人工知能と機械学習(AI/ML)教育で最も注目されているのは、若者がモデルを訓練することであり、機械学習アプリケーションを作成する際にも、モデルが同様に重要なテストに注目されることははるかに少ない。
MLアプリケーションのテストは、予測に対するモデルの評価を可能にし、アプリケーションのクリエータがユーザエクスペリエンスに悪影響を及ぼす可能性のある障害やエッジケースを特定し、対処するのに役立つ。
それぞれのプロジェクトの機能やパフォーマンス,潜在的な問題について,青少年を視点として,相互にテストする方法を検討する。
2週間のワークショップで収集されたワークシート、音声、ビデオの録音テストを分析し、11人の高校生が(音声、ポーズ、画像)ML分類器を含む物理コンピューティングプロジェクトを作成した。
その結果、ピアテストの若者は、トレーニングデータセットのサイズ、トレーニングデータの多様性、クラスの設計、トレーニングデータを生成するコンテキストに反映していることがわかった。
本稿では,AI/ML教育におけるピアテスト研究の今後の方向性と,このような活動の限界について論じる。 Most attention in K-12 artificial intelligence and machine learning (AI/ML) education has been given to having youths train models, with much less attention to the equally important testing of models when creating machine learning applications. Testing ML applications allows for the evaluation of models against predictions and can help creators of applications identify and address failure and edge cases that could negatively impact user experiences. We investigate how testing each other's projects supported youths to take perspective about functionality, performance, and potential issues in their own projects. We analyzed testing worksheets, audio and video recordings collected during a two week workshop in which 11 high school youths created physical computing projects that included (audio, pose, and image) ML classifiers. We found that through peer-testing youths reflected on the size of their training datasets, the diversity of their training data, the design of their classes and the contexts in which they produced training data. We discuss future directions for research on peer-testing in AI/ML education and current limitations for these kinds of activities. | 翻訳日:2023-12-16 03:46:08 公開日:2023-12-14 |
# csgnn: 動的クラスワイズ選択によるノイズノードラベルの克服 CSGNN: Conquering Noisy Node labels via Dynamic Class-wise Selection ( http://arxiv.org/abs/2311.11473v2 ) ライセンス: Link先を確認 | Yifan Li, Zhen Tan, Kai Shu, Zongsheng Cao, Yu Kong, Huan Liu | (参考訳) グラフニューラルネットワーク(GNN)は、グラフ上での表現学習の強力なツールとして登場したが、特にデータが不足したり不均衡な場合に、過度な適合とラベルのノイズ問題に悩まされることが多い。
本稿では,単一ノード信頼度に依存する従来手法のパラダイムと異なり,異なるクラスにまたがる信頼性の高いノードを適応的に選択するために,隣接に集約された潜在空間を用いるcsgnnと呼ばれるグラフニューラルネットワークのクラス別選択手法を提案する。
具体的には
1) クラス不均衡問題に取り組むために, 隣り合う信頼度に基づいてクリーンノードを識別するクラスタリング技術を活用して, 動的クラス間選択機構を導入する。
このようにして,本手法は,グローバルしきい値法と共通するバイアスサンプリングの落とし穴を回避することができる。
2) 暗記効果の概念に基づくノイズラベルの問題を軽減するため,CSGNNは,ノイズよりもクリーンノードからの学習を優先し,ラベルノイズを緩和しながらモデル性能を反復的に向上させる。
実験により,CSGNNは,有効性とロバスト性の両方の観点から,最先端の手法よりも優れていることを示す。 Graph Neural Networks (GNNs) have emerged as a powerful tool for representation learning on graphs, but they often suffer from overfitting and label noise issues, especially when the data is scarce or imbalanced. Different from the paradigm of previous methods that rely on single-node confidence, in this paper, we introduce a novel Class-wise Selection for Graph Neural Networks, dubbed CSGNN, which employs a neighbor-aggregated latent space to adaptively select reliable nodes across different classes. Specifically, 1) to tackle the class imbalance issue, we introduce a dynamic class-wise selection mechanism, leveraging the clustering technique to identify clean nodes based on the neighbor-aggregated confidences. In this way, our approach can avoid the pitfalls of biased sampling which is common with global threshold techniques. 2) To alleviate the problem of noisy labels, built on the concept of the memorization effect, CSGNN prioritizes learning from clean nodes before noisy ones, thereby iteratively enhancing model performance while mitigating label noise. Through extensive experiments, we demonstrate that CSGNN outperforms state-of-the-art methods in terms of both effectiveness and robustness. | 翻訳日:2023-12-16 03:45:12 公開日:2023-12-14 |
# wildlifedatasets: 動物の再識別のためのオープンソースツールキット WildlifeDatasets: An open-source toolkit for animal re-identification ( http://arxiv.org/abs/2311.09118v2 ) ライセンス: Link先を確認 | Vojt\v{e}ch \v{C}erm\'ak, Lukas Picek, Luk\'a\v{s} Adam, Kostas Papafitsoros | (参考訳) 本稿では,野生生物データセット(https://github.com/wildlifedatasets/wildlife-datasets)について述べる。
wildlifeデータセットはpythonで記述されており、一般公開されている野生生物データセットへの簡単なアクセスを可能にし、データセットのプリプロセッシング、パフォーマンス分析、モデルの微調整のためのさまざまな方法を提供する。
我々は,このツールキットを様々なシナリオやベースライン実験で紹介し,私たちの知る限り,局所記述子と深層学習アプローチの両方を含む,野生生物の再同定のためのデータセットと方法の最も包括的な比較実験を行った。
さらに,動物再識別データセット上での最先端のパフォーマンスを提供し,CLIPやDINOv2などの事前訓練モデルを上回る性能を示す,幅広い種(MegaDescriptor)における個人再識別のための最初の基礎モデルを提供する。
モデルを一般向けに公開し、既存の野生生物モニタリングアプリケーションと簡単に統合できるようにするため、HuggingFaceハブ(https://huggingface.co/BVRA)を通じて複数のMegaDescriptorフレーバー(Small, Medium, Large)を提供する。 In this paper, we present WildlifeDatasets (https://github.com/WildlifeDatasets/wildlife-datasets) - an open-source toolkit intended primarily for ecologists and computer-vision / machine-learning researchers. The WildlifeDatasets is written in Python, allows straightforward access to publicly available wildlife datasets, and provides a wide variety of methods for dataset pre-processing, performance analysis, and model fine-tuning. We showcase the toolkit in various scenarios and baseline experiments, including, to the best of our knowledge, the most comprehensive experimental comparison of datasets and methods for wildlife re-identification, including both local descriptors and deep learning approaches. Furthermore, we provide the first-ever foundation model for individual re-identification within a wide range of species - MegaDescriptor - that provides state-of-the-art performance on animal re-identification datasets and outperforms other pre-trained models such as CLIP and DINOv2 by a significant margin. To make the model available to the general public and to allow easy integration with any existing wildlife monitoring applications, we provide multiple MegaDescriptor flavors (i.e., Small, Medium, and Large) through the HuggingFace hub (https://huggingface.co/BVRA). | 翻訳日:2023-12-16 03:44:48 公開日:2023-12-14 |
# 分散二レベル最適化のための単一ループアルゴリズム A Single-Loop Algorithm for Decentralized Bilevel Optimization ( http://arxiv.org/abs/2311.08945v2 ) ライセンス: Link先を確認 | Youran Dong, Shiqian Ma, Junfeng Yang, Chao Yin | (参考訳) バイレベル最適化は、機械学習の幅広い応用により、近年ますます注目を集めている。
本稿では,分散ネットワークにおけるバイレベル最適化について検討する。
特に, 強凸低レベル問題を用いて分散二値最適化を解くための新しい単一ループアルゴリズムを提案する。
本アルゴリズムは完全に単一ループであり,超次数近似時の重行列ベクトル乗算は不要である。
さらに,分散二レベル最適化とフェデレート二レベル最適化の既存手法とは異なり,アルゴリズムは勾配不均一性仮定を必要としない。
解析の結果,提案アルゴリズムはサブ線形収束率が得られることがわかった。
合成およびMNISTデータセットを用いたハイパーパラメータ最適化に関する実験結果から,提案アルゴリズムの有効性が示された。 Bilevel optimization has received more and more attention recently due to its wide applications in machine learning. In this paper, we consider bilevel optimization in decentralized networks. In particular, we propose a novel single-loop algorithm for solving decentralized bilevel optimization with strongly convex lower level problem. Our algorithm is fully single-loop and does not require heavy matrix-vector multiplications when approximating the hypergradient. Moreover, unlike existing methods for decentralized bilevel optimization and federated bilevel optimization, our algorithm does not require any gradient heterogeneity assumption. Our analysis shows that the proposed algorithm achieves a sublinear convergence rate. Experimental results on hyperparameter optimization problem with both synthetic and MNIST data sets demonstrate the efficiency of the proposed algorithm. | 翻訳日:2023-12-16 03:44:20 公開日:2023-12-14 |
# GMTR:グラフマッチング変換器 GMTR: Graph Matching Transformers ( http://arxiv.org/abs/2311.08141v2 ) ライセンス: Link先を確認 | Jinpei Guo, Shaofeng Zhang, Runzhong Wang, Chang Liu, Junchi Yan | (参考訳) 視覚変換器(ViT)は近年,物体検出やセグメンテーション以外の視覚的マッチングに使用されている。
しかし、VTTの元々のグリッド分割戦略はキーポイントの空間情報を無視し、ローカル情報に対する感度を制限する。
そこで,提案するQueryTrans (Query Transformer) は,空間情報抽出の高速化を目的として,クロスアテンションモジュールとキーポイントに基づく中心作物戦略を採用する。
グラフアテンションモジュールをさらに統合し、トランスフォーマーベースのグラフマッチングアプローチGMTR(Graph Matching TRansformers)を考案し、GMの組合せ的性質をグラフトランスフォーマーニューラルGMソルバで処理する。
gm標準ベンチマークでは、gmtrはsataフレームワークに対する競争力を示している。
具体的には、Pascal VOCでは、GMTRはSOTAフレームワークよりも$\mathbf{83.6\%}$精度$\mathbf{0.9\%}$高い。
spair-71kではgmtrは大きな可能性を示し、以前の作品のほとんどを上回っている。
一方、Pascal VOCでは、QueryTransはNGMv2の精度を80.1\%$から$\mathbf{83.3\%}$に改善し、BBGMは79.0\%$から$\mathbf{84.5\%}$に改善した。
spair-71kでは、querytransはngmv2を$0.6\%$から$\mathbf{82.5\%}$に、bbgmを$22.1\%$から$\mathbf{83.9\%}$に改善する。
ソースコードは公開される予定だ。 Vision transformers (ViTs) have recently been used for visual matching beyond object detection and segmentation. However, the original grid dividing strategy of ViTs neglects the spatial information of the keypoints, limiting the sensitivity to local information. Therefore, we propose QueryTrans (Query Transformer), which adopts a cross-attention module and keypoints-based center crop strategy for better spatial information extraction. We further integrate the graph attention module and devise a transformer-based graph matching approach GMTR (Graph Matching TRansformers) whereby the combinatorial nature of GM is addressed by a graph transformer neural GM solver. On standard GM benchmarks, GMTR shows competitive performance against the SOTA frameworks. Specifically, on Pascal VOC, GMTR achieves $\mathbf{83.6\%}$ accuracy, $\mathbf{0.9\%}$ higher than the SOTA framework. On Spair-71k, GMTR shows great potential and outperforms most of the previous works. Meanwhile, on Pascal VOC, QueryTrans improves the accuracy of NGMv2 from $80.1\%$ to $\mathbf{83.3\%}$, and BBGM from $79.0\%$ to $\mathbf{84.5\%}$. On Spair-71k, QueryTrans improves NGMv2 from $80.6\%$ to $\mathbf{82.5\%}$, and BBGM from $82.1\%$ to $\mathbf{83.9\%}$. Source code will be made publicly available. | 翻訳日:2023-12-16 03:44:10 公開日:2023-12-14 |
# 政策勾配アルゴリズムにおける大きな偏差の視点 A Large Deviations Perspective on Policy Gradient Algorithms ( http://arxiv.org/abs/2311.07411v2 ) ライセンス: Link先を確認 | Wouter Jongeneel, Mengmeng Li, Daniel Kuhn | (参考訳) 強化学習の文脈におけるポリシー勾配法に動機づけられ,ポリak-lojasiewicz条件を満たす非凸対象に対する確率的勾配降下によって生成されたイテレートに対する最初の大きな偏差率関数を導出する。
大偏差理論からの縮約原理を利用して、ソフトマックスパラメトリゼーションとエントロピー正規化目的を持つポリシー勾配の収束特性を、他のポリシーパラメトリゼーションの幅広いスペクトルに自然に拡張できることを示すことにより、この結果の可能性を示す。 Motivated by policy gradient methods in the context of reinforcement learning, we derive the first large deviation rate function for the iterates generated by stochastic gradient descent for possibly non-convex objectives satisfying a Polyak-Lojasiewicz condition. Leveraging the contraction principle from large deviations theory, we illustrate the potential of this result by showing how convergence properties of policy gradient with a softmax parametrization and an entropy regularized objective can be naturally extended to a wide spectrum of other policy parametrizations. | 翻訳日:2023-12-16 03:43:37 公開日:2023-12-14 |
# druformer: 運転場面の強化 運転関係の自己理解による重要物体検出 DRUformer: Enhancing the driving scene Important object detection with driving relationship self-understanding ( http://arxiv.org/abs/2311.06497v2 ) ライセンス: Link先を確認 | Yingjie Niu, Ming Ding, Keisuke Fujii, Kento Ohtani, Alexander Carballo, Kazuya Takeda | (参考訳) 交通事故はしばしば致命傷を負い、2023年まで5000万人以上の死者を出した。
運転の危険を軽減し、個人の安全を確保するためには、走行中の重要な物体を予測するための車両支援が不可欠である。
重要物体検出に関するこれまでの研究は、主に個々の参加者の重要性を評価し、それらを独立した実体として扱い、それらの参加者間のつながりをよく見落としていた。
残念ながら、このアプローチは複雑なシナリオで重要なオブジェクトを検出するのにあまり効果がないことが分かっています。
そこで本研究では,重要な物体検出タスクを強化するために,運転シーン関連自己理解トランス (DRUformer) を提案する。
druformerはトランスフォーマティブベースのマルチモーダル重要な物体検出モデルであり、運転シナリオのすべての参加者間の関係を考慮に入れている。
運転意図が運転中の重要な物体の検出に大きく影響していることを認識し,運転意図を埋め込むモジュールを組み込んだ。
提案手法の性能を評価するために,演劇データセットの比較実験を行い,他の最先端(sota)モデルと比較した。
その結果、mIoUの16.2\%改善とACCの12.3\%向上がSOTA法と比較して顕著に示された。
さらに,様々な道路シナリオやクラスにまたがる重要な物体を検出できるモデルの質的分析を行い,多様な文脈における有効性に注目した。
最後に,druformerモデルにおいて提案するモジュールの効率を評価するため,様々なアブレーション実験を行った。 Traffic accidents frequently lead to fatal injuries, contributing to over 50 million deaths until 2023. To mitigate driving hazards and ensure personal safety, it is crucial to assist vehicles in anticipating important objects during travel. Previous research on important object detection primarily assessed the importance of individual participants, treating them as independent entities and frequently overlooking the connections between these participants. Unfortunately, this approach has proven less effective in detecting important objects in complex scenarios. In response, we introduce Driving scene Relationship self-Understanding transformer (DRUformer), designed to enhance the important object detection task. The DRUformer is a transformer-based multi-modal important object detection model that takes into account the relationships between all the participants in the driving scenario. Recognizing that driving intention also significantly affects the detection of important objects during driving, we have incorporated a module for embedding driving intention. To assess the performance of our approach, we conducted a comparative experiment on the DRAMA dataset, pitting our model against other state-of-the-art (SOTA) models. The results demonstrated a noteworthy 16.2\% improvement in mIoU and a substantial 12.3\% boost in ACC compared to SOTA methods. Furthermore, we conducted a qualitative analysis of our model's ability to detect important objects across different road scenarios and classes, highlighting its effectiveness in diverse contexts. Finally, we conducted various ablation studies to assess the efficiency of the proposed modules in our DRUformer model. | 翻訳日:2023-12-16 03:43:25 公開日:2023-12-14 |
# 共感の連鎖--精神療法モデルに基づく大規模言語モデルの共感応答の増強 Chain of Empathy: Enhancing Empathetic Response of Large Language Models Based on Psychotherapy Models ( http://arxiv.org/abs/2311.04915v2 ) ライセンス: Link先を確認 | Yoon Kyung Lee, Inju Lee, Minjung Shin, Seoyeon Bae, Sowon Hahn | (参考訳) 本稿では,心理療法の知見を活かして,大規模言語モデル(LLM)を誘導し,人間の感情状態を理解する新しい方法である共感の連鎖(CoE)を提案する。
この方法は、認知行動療法(CBT)、弁証的行動療法(DBT)、人中心療法(PCT)、現実療法(RT)といった様々な心理療法のアプローチにインスパイアされ、それぞれがクライアントの精神状態を解釈する様々なパターンへと導かれる。
推論のないLLMは、主に探索的な応答を生み出した。
しかし, LLMがCoE推論を用いた場合, それぞれの心理療法モデルの異なる推論パターンに合わせた, より包括的な共感反応が認められた。
CBTをベースとしたCoEは最もバランスの取れた共感反応を生み出した。
この調査結果は、感情的文脈を理解することの重要性と、それが人間とAIコミュニケーションにどのように影響するかを強調している。
我々の研究は、精神療法モデルをLLMに組み込む方法の理解に寄与し、文脈固有の、より安全で共感的なAIの開発を促進する。 We present a novel method, the Chain of Empathy (CoE) prompting, that utilizes insights from psychotherapy to induce Large Language Models (LLMs) to reason about human emotional states. This method is inspired by various psychotherapy approaches including Cognitive Behavioral Therapy (CBT), Dialectical Behavior Therapy (DBT), Person Centered Therapy (PCT), and Reality Therapy (RT), each leading to different patterns of interpreting clients' mental states. LLMs without reasoning generated predominantly exploratory responses. However, when LLMs used CoE reasoning, we found a more comprehensive range of empathetic responses aligned with the different reasoning patterns of each psychotherapy model. The CBT based CoE resulted in the most balanced generation of empathetic responses. The findings underscore the importance of understanding the emotional context and how it affects human and AI communication. Our research contributes to understanding how psychotherapeutic models can be incorporated into LLMs, facilitating the development of context-specific, safer, and empathetic AI. | 翻訳日:2023-12-16 03:43:01 公開日:2023-12-14 |
# 人物再識別のための多視点情報統合と伝播 Multi-view Information Integration and Propagation for Occluded Person Re-identification ( http://arxiv.org/abs/2311.03828v3 ) ライセンス: Link先を確認 | Neng Dong, Shuanglin Yan, Hao Tang, Jinhui Tang, Liyan Zhang | (参考訳) 被占領者の再識別(re-ID)は,閉塞摂動による課題である。
閉塞音によるモデル障害を防止するために多大な努力がなされているが、現在のソリューションのほとんどは1つの画像からのみ情報をキャプチャし、同じ歩行者を描いた複数の画像で利用可能な豊富な補完情報を無視している。
本稿では,MVI$^{2}$P(Multi-view Information Integration and Propagation)と呼ばれる新しいフレームワークを提案する。
具体的には,対象歩行者を効果的にキャラクタリゼーションするマルチビュー画像の可能性を認識し,その特徴地図を統合して総合表現を作成する。
この過程で, 咬合音の導入を避けるため, 識別に寄与する情報を選択的に統合するcams対応ローカライズモジュールを開発した。
さらに,異なる画像の識別特性のばらつきを考慮し,信頼性の高い情報を統合するための確率認識量子化モジュールを設計する。
さらに、同一の同一性を持つ複数の画像がテスト段階ではアクセスできないため、包括的表現から単一の隠蔽画像の知識を抽出する情報伝達(IP)機構を考案する。
広範な実験と解析により、提案するmvi$^{2}$pの有効性と優位性が明らかに証明された。
コードは \url{https://github.com/nengdong96/MVIIP} でリリースされる。 Occluded person re-identification (re-ID) presents a challenging task due to occlusion perturbations. Although great efforts have been made to prevent the model from being disturbed by occlusion noise, most current solutions only capture information from a single image, disregarding the rich complementary information available in multiple images depicting the same pedestrian. In this paper, we propose a novel framework called Multi-view Information Integration and Propagation (MVI$^{2}$P). Specifically, realizing the potential of multi-view images in effectively characterizing the occluded target pedestrian, we integrate feature maps of which to create a comprehensive representation. During this process, to avoid introducing occlusion noise, we develop a CAMs-aware Localization module that selectively integrates information contributing to the identification. Additionally, considering the divergence in the discriminative nature of different images, we design a probability-aware Quantification module to emphatically integrate highly reliable information. Moreover, as multiple images with the same identity are not accessible in the testing stage, we devise an Information Propagation (IP) mechanism to distill knowledge from the comprehensive representation to that of a single occluded image. Extensive experiments and analyses have unequivocally demonstrated the effectiveness and superiority of the proposed MVI$^{2}$P. The code will be released at \url{https://github.com/nengdong96/MVIIP}. | 翻訳日:2023-12-16 03:42:41 公開日:2023-12-14 |
# 大規模言語モデルの帰属に関する調査 A Survey of Large Language Models Attribution ( http://arxiv.org/abs/2311.03731v2 ) ライセンス: Link先を確認 | Dongfang Li, Zetian Sun, Xinshuo Hu, Zhenyu Liu, Ziyang Chen, Baotian Hu, Aiguo Wu, Min Zhang | (参考訳) オープンドメイン生成システムは会話型ai(例えば生成型検索エンジン)の分野で大きな注目を集めている。
本稿では,これらのシステム,特に大規模言語モデルが採用する帰属機構について概説する。
帰属や引用は事実と妥当性を改善するが、曖昧な知識貯水池、固有のバイアス、過剰な帰属の欠点はこれらのシステムの有効性を妨げる。
本研究の目的は,オープンドメイン生成システムによる応答の信頼性と妥当性を高めるために,帰属方法論の洗練を支援するために,研究者に貴重な洞察を提供することである。
この分野はまだ初期段階にあると考えているので、現在進行中の研究を https://github.com/HITsz-TMG/awesome-llm-attributions で追跡するリポジトリを維持しています。 Open-domain generative systems have gained significant attention in the field of conversational AI (e.g., generative search engines). This paper presents a comprehensive review of the attribution mechanisms employed by these systems, particularly large language models. Though attribution or citation improve the factuality and verifiability, issues like ambiguous knowledge reservoirs, inherent biases, and the drawbacks of excessive attribution can hinder the effectiveness of these systems. The aim of this survey is to provide valuable insights for researchers, aiding in the refinement of attribution methodologies to enhance the reliability and veracity of responses generated by open-domain generative systems. We believe that this field is still in its early stages; hence, we maintain a repository to keep track of ongoing studies at https://github.com/HITsz-TMG/awesome-llm-attributions. | 翻訳日:2023-12-16 03:42:19 公開日:2023-12-14 |
# Lift Satisfiability Checking における対称性の利用 Using Symmetries to Lift Satisfiability Checking ( http://arxiv.org/abs/2311.03424v2 ) ライセンス: Link先を確認 | Pierre Carbonnelle and Gottfried Schenner and Maurice Bruynooghe and Bart Bogaerts and Marc Denecker | (参考訳) 情報を失うことなく、構造(解釈としても知られる)をより小さな領域に圧縮するために、対称性がどのように使われるかを分析する。
この分析は、圧縮領域における満足度問題を解く可能性を示唆する。
そこで本研究では2段階の新規手法を提案する。
i) 満足すべき文は,ドメイン圧縮を可能にする ``lifted'' 語彙上で,自動的に同感可能な文に翻訳される。
(ii)満足構造が見つかるまで(当初不明な)圧縮領域を成長させることにより、持ち上げられた文の満足度をチェックする。
鍵となる問題は、この充足構造が、満足すべき原文を満たす非圧縮構造に常に拡張できることである。
本稿では,集合で拡張した一階述語論理における文の適切な翻訳について述べる。
実験の結果,生成的構成問題に対する高速化がみられた。
この方法は複雑なデータ構造上で動作するソフトウェアの検証にも応用できる。
本研究は,対称性低減のための文の自動翻訳に関するさらなる研究を正当化する。 We analyze how symmetries can be used to compress structures (also known as interpretations) onto a smaller domain without loss of information. This analysis suggests the possibility to solve satisfiability problems in the compressed domain for better performance. Thus, we propose a 2-step novel method: (i) the sentence to be satisfied is automatically translated into an equisatisfiable sentence over a ``lifted'' vocabulary that allows domain compression; (ii) satisfiability of the lifted sentence is checked by growing the (initially unknown) compressed domain until a satisfying structure is found. The key issue is to ensure that this satisfying structure can always be expanded into an uncompressed structure that satisfies the original sentence to be satisfied. We present an adequate translation for sentences in typed first-order logic extended with aggregates. Our experimental evaluation shows large speedups for generative configuration problems. The method also has applications in the verification of software operating on complex data structures. Our results justify further research in automatic translation of sentences for symmetry reduction. | 翻訳日:2023-12-16 03:42:01 公開日:2023-12-14 |
# 制約HRT表面とそのエントロピー解釈 Constrained HRT Surfaces and their Entropic Interpretation ( http://arxiv.org/abs/2311.18290v2 ) ライセンス: Link先を確認 | Xi Dong, Donald Marolf and Pratik Rath | (参考訳) 共通境界コーシー曲面にある2つの境界部分領域$A$と$B$を考え、関連するHRT曲面$\gamma_B$ for $B$を考える。
この文脈において、制約付き HRT 曲面 $\gamma_{A:B}$ は、$A$ に固定された余次元2バルク曲面として定義することができ、これは$\gamma_B$ を含むコーシースライスに制限された最大構成によって得られる。
その結果、$\gamma_{A:B}$ は 2 つのピースの和 $\gamma^B_{A:B}$ と $\gamma^{\bar B}_{A:B}$ はそれぞれ$B$ の絡み合いのくさびと、その補集合 $\gamma B$ である。
hrt曲面の領域 $\mathcal{a}\left(\gamma_a\right)$ とは異なり、少なくとも半古典的極限では、領域 $\mathcal{a}\left(\gamma_{a:b}\right)$ は$\gamma_{a:b}$ であり、領域 $\mathcal{a}\left(\gamma_b\right)$ は$\gamma_b$ である。
$\mathcal{A}\left(\gamma_{A:B}\right)$ のエントロピー解釈を研究するために、サブリージョン $A$ の R'enyi エントロピーを、サブリージョン $B$ の固定領域状態において解析する。
重力経路積分を用いて、$n\approx1$ R\enyiエントロピーが$\mathcal{A}\left(\gamma_A\right)$を、$\mathcal{A}\left(\gamma_B\right)$に共役して定義される時空上で最小化することを示す。
一定のブースト角で交わる、$\gamma^b_{a:b}$ と $\gamma^{\bar b}_{a:b}$ が交わる場合、幾何学的議論により、$n\approx1$ r\'enyi entropy は $\frac{\mathcal{a}(\gamma_{a:b})}{4g}$ によって与えられる。
我々は、$n\approx1$ R'enyiエントロピーが、$n\to1$と$G\to0$の可換性の欠如により、フォン・ノイマンエントロピーとどのように異なるかについて議論する。
固定領域状態の幅の関数として挙動がどのように変化するかについても論じる。
以上の結果は,標準ランダムテンソルネットワークを用いた時間依存幾何学表現の試みに関連するいくつかの問題に関連している。 Consider two boundary subregions $A$ and $B$ that lie in a common boundary Cauchy surface, and consider also the associated HRT surface $\gamma_B$ for $B$. In that context, the constrained HRT surface $\gamma_{A:B}$ can be defined as the codimension-2 bulk surface anchored to $A$ that is obtained by a maximin construction restricted to Cauchy slices containing $\gamma_B$. As a result, $\gamma_{A:B}$ is the union of two pieces, $\gamma^B_{A:B}$ and $\gamma^{\bar B}_{A:B}$ lying respectively in the entanglement wedges of $B$ and its complement $\bar B$. Unlike the area $\mathcal{A}\left(\gamma_A\right)$ of the HRT surface $\gamma_A$, at least in the semiclassical limit, the area $\mathcal{A}\left(\gamma_{A:B}\right)$ of $\gamma_{A:B}$ commutes with the area $\mathcal{A}\left(\gamma_B\right)$ of $\gamma_B$. To study the entropic interpretation of $\mathcal{A}\left(\gamma_{A:B}\right)$, we analyze the R\'enyi entropies of subregion $A$ in a fixed-area state of subregion $B$. We use the gravitational path integral to show that the $n\approx1$ R\'enyi entropies are then computed by minimizing $\mathcal{A}\left(\gamma_A\right)$ over spacetimes defined by a boost angle conjugate to $\mathcal{A}\left(\gamma_B\right)$. In the case where the pieces $\gamma^B_{A:B}$ and $\gamma^{\bar B}_{A:B}$ intersect at a constant boost angle, a geometric argument shows that the $n\approx1$ R\'enyi entropy is then given by $\frac{\mathcal{A}(\gamma_{A:B})}{4G}$. We discuss how the $n\approx1$ R\'enyi entropy differs from the von Neumann entropy due to a lack of commutativity of the $n\to1$ and $G\to0$ limits. We also discuss how the behaviour changes as a function of the width of the fixed-area state. Our results are relevant to some of the issues associated with attempts to use standard random tensor networks to describe time dependent geometries. | 翻訳日:2023-12-16 03:35:51 公開日:2023-12-14 |
# 適応実験における半パラメトリック効率的な推論 Semiparametric Efficient Inference in Adaptive Experiments ( http://arxiv.org/abs/2311.18274v2 ) ライセンス: Link先を確認 | Thomas Cook, Alan Mishler, Aaditya Ramdas | (参考訳) 本研究では, 治療や管理に対する課題の割り当てを規定する政策が時間とともに変化しうる連続的な実験において, 平均治療効果の効率的な推定の問題を考える。
まず、アダプティブ拡張逆確率重み推定器の中央極限定理を提案し、これは半パラメトリック効率が良く、従来の文献よりも弱い仮定の下で得られる。
この中心極限定理は、固定標本サイズでの効率的な推論を可能にする。
次に、従来の方法よりもかなり厳密な漸近的および漸近的信頼シーケンスを導出した逐次推論の設定を検討する。
これらのanytime-validメソッドは、データに依存した停止時間(サンプルサイズ)での推論を可能にする。
さらに,近年のオフポリティクス推定文献から得られた確率スコアトランケーション手法を用いて,漸近的分散に影響を与えずに,推定器の有限サンプル分散を低減する。
実験結果から,本手法は時間一様誤差制御を維持しつつ,従来文献で開発された手法よりも信頼性が低いことを示す。 We consider the problem of efficient inference of the Average Treatment Effect in a sequential experiment where the policy governing the assignment of subjects to treatment or control can change over time. We first provide a central limit theorem for the Adaptive Augmented Inverse-Probability Weighted estimator, which is semiparametric efficient, under weaker assumptions than those previously made in the literature. This central limit theorem enables efficient inference at fixed sample sizes. We then consider a sequential inference setting, deriving both asymptotic and nonasymptotic confidence sequences that are considerably tighter than previous methods. These anytime-valid methods enable inference under data-dependent stopping times (sample sizes). Additionally, we use propensity score truncation techniques from the recent off-policy estimation literature to reduce the finite sample variance of our estimator without affecting the asymptotic variance. Empirical results demonstrate that our methods yield narrower confidence sequences than those previously developed in the literature while maintaining time-uniform error control. | 翻訳日:2023-12-16 03:34:47 公開日:2023-12-14 |
# Ego-Exo4D:初対三対人の視点からの技能的活動の理解 Ego-Exo4D: Understanding Skilled Human Activity from First- and Third-Person Perspectives ( http://arxiv.org/abs/2311.18259v2 ) ライセンス: Link先を確認 | Kristen Grauman, Andrew Westbury, Lorenzo Torresani, Kris Kitani, Jitendra Malik, Triantafyllos Afouras, Kumar Ashutosh, Vijay Baiyya, Siddhant Bansal, Bikram Boote, Eugene Byrne, Zach Chavis, Joya Chen, Feng Cheng, Fu-Jen Chu, Sean Crane, Avijit Dasgupta, Jing Dong, Maria Escobar, Cristhian Forigua, Abrham Gebreselasie, Sanjay Haresh, Jing Huang, Md Mohaiminul Islam, Suyog Jain, Rawal Khirodkar, Devansh Kukreja, Kevin J Liang, Jia-Wei Liu, Sagnik Majumder, Yongsen Mao, Miguel Martin, Effrosyni Mavroudi, Tushar Nagarajan, Francesco Ragusa, Santhosh Kumar Ramakrishnan, Luigi Seminara, Arjun Somayazulu, Yale Song, Shan Su, Zihui Xue, Edward Zhang, Jinxu Zhang, Angela Castillo, Changan Chen, Xinzhu Fu, Ryosuke Furuta, Cristina Gonzalez, Prince Gupta, Jiabo Hu, Yifei Huang, Yiming Huang, Weslie Khoo, Anush Kumar, Robert Kuo, Sach Lakhavani, Miao Liu, Mi Luo, Zhengyi Luo, Brighid Meredith, Austin Miller, Oluwatumininu Oguntola, Xiaqing Pan, Penny Peng, Shraman Pramanick, Merey Ramazanova, Fiona Ryan, Wei Shan, Kiran Somasundaram, Chenan Song, Audrey Southerland, Masatoshi Tateno, Huiyu Wang, Yuchen Wang, Takuma Yagi, Mingfei Yan, Xitong Yang, Zecheng Yu, Shengxin Cindy Zha, Chen Zhao, Ziwei Zhao, Zhifan Zhu, Jeff Zhuo, Pablo Arbelaez, Gedas Bertasius, David Crandall, Dima Damen, Jakob Engel, Giovanni Maria Farinella, Antonino Furnari, Bernard Ghanem, Judy Hoffman, C. V. Jawahar, Richard Newcombe, Hyun Soo Park, James M. Rehg, Yoichi Sato, Manolis Savva, Jianbo Shi, Mike Zheng Shou, Michael Wray | (参考訳) ego-exo4dは多種多様なマルチモーダルマルチビュービデオデータセットとベンチマークチャレンジである。
Ego-Exo4Dは、熟練した人間の活動(スポーツ、音楽、ダンス、自転車修理など)を同時に捉えたエゴセントリックでエゴセントリックなビデオを中心にしている。
世界の13都市から800人以上の参加者が、131の異なる自然シーンでこれらの活動を行い、それぞれ1分から42分、合計1,422時間の映像を撮影した。
ビデオにはマルチチャネルオーディオ、アイアイズ、3dポイントクラウド、カメラポーズ、imu、そして複数のペアリング言語記述が含まれており、その中には教師や教師による新しい「専門的な解説」が含まれ、熟練した活動領域に合わせたものも含まれている。
熟練した人間活動の一人称ビデオ理解のフロンティアを推進するために,詳細な活動理解,熟練度推定,クロスビュー翻訳,3次元手/体ポーズなど,一連のベンチマークタスクとそのアノテーションも提示する。
すべてのリソースはオープンソースとして公開され、コミュニティにおける新たな研究が促進される。 We present Ego-Exo4D, a diverse, large-scale multimodal multiview video dataset and benchmark challenge. Ego-Exo4D centers around simultaneously-captured egocentric and exocentric video of skilled human activities (e.g., sports, music, dance, bike repair). More than 800 participants from 13 cities worldwide performed these activities in 131 different natural scene contexts, yielding long-form captures from 1 to 42 minutes each and 1,422 hours of video combined. The multimodal nature of the dataset is unprecedented: the video is accompanied by multichannel audio, eye gaze, 3D point clouds, camera poses, IMU, and multiple paired language descriptions -- including a novel "expert commentary" done by coaches and teachers and tailored to the skilled-activity domain. To push the frontier of first-person video understanding of skilled human activity, we also present a suite of benchmark tasks and their annotations, including fine-grained activity understanding, proficiency estimation, cross-view translation, and 3D hand/body pose. All resources will be open sourced to fuel new research in the community. | 翻訳日:2023-12-16 03:34:30 公開日:2023-12-14 |
# デジタル病理における凝集モデルハイパーパラメータ Aggregation Model Hyperparameters Matter in Digital Pathology ( http://arxiv.org/abs/2311.17804v2 ) ライセンス: Link先を確認 | Gustav Bredell, Marcel Fischer, Przemyslaw Szostak, Samaneh Abbasi-Sureshjani, Alvaro Gomariz | (参考訳) デジタル病理学は、ギガピクセル全スライディング画像(WSI)の解析を通じて、疾患の検出と病理学の効率を大幅に向上させた。
このプロセスでは、まずWSIをパッチに分割し、特徴抽出モデルを適用して特徴ベクトルを取得し、その後集約モデルで処理して各WSIラベルを予測する。
表現学習の急速な進化に伴い、多くの新しい特徴抽出モデル(しばしば基礎モデルと呼ばれる)が出現した。
しかし、従来の評価手法は固定集約モデルハイパーパラメータに依存しており、このフレームワークは結果にバイアスを与える可能性があると認識している。
本研究は,特徴抽出器モデルと集約モデルハイパーパラメータの相互依存性を明らかにし,選択したハイパーパラメータに基づいて,性能の相違性を示す。
この共依存性を考慮すると、現在の多くの特徴抽出モデルの性能が顕著に類似していることが分かる。
162のアグリゲーションモデル構成を持つ3つのデータセットにまたがる7つの特徴抽出モデルを評価することで、この洞察を支援する。
この包括的アプローチは、特徴抽出器と集約モデルの関係をより微妙に理解し、デジタル病理学における特徴抽出器モデルをより公平かつ正確に評価する。 Digital pathology has significantly advanced disease detection and pathologist efficiency through the analysis of gigapixel whole-slide images (WSI). In this process, WSIs are first divided into patches, for which a feature extractor model is applied to obtain feature vectors, which are subsequently processed by an aggregation model to predict the respective WSI label. With the rapid evolution of representation learning, numerous new feature extractor models, often termed foundational models, have emerged. Traditional evaluation methods, however, rely on fixed aggregation model hyperparameters, a framework we identify as potentially biasing the results. Our study uncovers a co-dependence between feature extractor models and aggregation model hyperparameters, indicating that performance comparability can be skewed based on the chosen hyperparameters. By accounting for this co-dependency, we find that the performance of many current feature extractor models is notably similar. We support this insight by evaluating seven feature extractor models across three different datasets with 162 different aggregation model configurations. This comprehensive approach provides a more nuanced understanding of the relationship between feature extractors and aggregation models, leading to a fairer and more accurate assessment of feature extractor models in digital pathology. | 翻訳日:2023-12-16 03:33:52 公開日:2023-12-14 |
# JINSPのエミュレータ Emulators in JINSP ( http://arxiv.org/abs/2311.16146v2 ) ライセンス: Link先を確認 | Lei Zhao, Miaomiao Zhang, Lv Zhe | (参考訳) jinsp(jiutian intelligence network simulation platform)は、ユーザ動作シミュレーション、基地局シミュレーション、端末シミュレーションからなる実環境における動的ユーザのためのプロトコルスタックのシミュレーションなど、一連の基本的なエミュレータとそれらの組み合わせを記述する。
マルチターゲットアンテナ最適化や圧縮フィードバックなど、特定のビジネスシナリオに適用される。
本稿では,エミュレータの実装プロセス,プラットフォームとの統合,実験結果,その他の側面を含む,各エミュレータとその組み合わせについて詳細な説明を行う。 JINSP(Jiutian Intelligence Network Simulation Platform) describes a series of basic emulators and their combinations, such as the simulation of the protocol stack for dynamic users in a real environment, which is composed of user behavior simulation, base station simulation, and terminal simulation. It is applied in specific business scenarios, such as multi-target antenna optimization, compression feedback, and so on. This paper provides detailed descriptions of each emulator and its combination based on this foundation, including the implementation process of the emulator, integration with the platform, experimental results, and other aspects. | 翻訳日:2023-12-16 03:32:44 公開日:2023-12-14 |
# Prompt-driven Nucleus Instance Segmentation のパワーを解放する Unleashing the Power of Prompt-driven Nucleus Instance Segmentation ( http://arxiv.org/abs/2311.15939v2 ) ライセンス: Link先を確認 | Zhongyi Shui and Yunlong Zhang and Kai Yao and Chenglu Zhu and Yuxuan Sun and Lin Yang | (参考訳) 組織像における核インスタンスのセグメンテーションは、幅広い臨床応用に不可欠である。
現在の一般的な核インスタンスセグメンテーションアルゴリズムは、核輪郭の回帰、距離マップ、流域マーカー、あるいは恒星凸多角形のプロキシ核表現に依存する。
したがって、これらの方法は、エラーになりやすくパラメータに敏感であると一般に認識される核インスタンスを区別するために、洗練された後処理操作を必要とする。
近年,segment anything model (sam) が医用画像セグメンテーションの分野で注目されている。
それでも、核インスタンスのセグメンテーションに対するその可能性はほとんど未調査のままである。
本稿では,ポイントプロンプトと自動核インスタンスセグメンテーションのためのSAMから構成される新しいプロンプト駆動フレームワークを提案する。
具体的には、SAMが微調整されてキュード核の対応するマスクが出力される間、プロンプトは各核に対してユニークな点プロンプトを生成することを学習する。
さらに, 隣接核を負のプロンプトとして付加し, 重なり合う核を認識する能力を促進することを提案する。
提案手法では,3つの難解なベンチマークで最先端のパフォーマンスを新たに設定する。
私たちのコードは \url{https://github.com/windygoo/PromptNucSeg} で利用可能です。 Nuclear instance segmentation in histology images is crucial for a broad spectrum of clinical applications. Current prevailing nuclear instance segmentation algorithms rely on regression of nuclei contours, distance maps, watershed markers or a proxy nuclear representation of star-convex polygons. Consequently, these methods necessitate sophisticated post-processing operations to distinguish nuclei instances, which are commonly acknowledged to be error-prone and parameter-sensitive. Recently, the segment anything model (SAM) has earned attracted huge attention within the domain of medical image segmentation due to its impressive generalization ability and promptable property. Nevertheless, its potential on nuclear instance segmentation remains largely underexplored. In this paper, we present a novel prompt-driven framework that consists of a point prompter and a SAM for automatic nuclei instance segmentation. Specifically, the prompter learns to generate a unique point prompt for each nucleus while the SAM is fine tuned to output the corresponding mask of the cued nucleus. Furthermore, we propose to add adjacent nuclei as negative prompts to promote the model's ability to recognize overlapping nuclei. Without bells and whistles, our proposed method sets a new state-of-the-art performance on three challenging benchmarks. Our code is available at \url{https://github.com/windygoo/PromptNucSeg}. | 翻訳日:2023-12-16 03:32:34 公開日:2023-12-14 |
# SER_AMPEL:イタリアの高齢者の音声感情認識のためのマルチソースデータセット SER_AMPEL: a multi-source dataset for speech emotion recognition of Italian older adults ( http://arxiv.org/abs/2311.14483v2 ) ライセンス: Link先を確認 | Alessandra Grossi and Francesca Gasparini | (参考訳) 本稿では,音声感情認識のためのマルチソースデータセットであるSER_AMPELについて述べる。
このデータセットの特徴は、イタリア人の高齢者の場合の音声感情認識の基準を提供する目的で収集されていることである。
データセットは、さまざまなプロトコルに従って収集され、特にアクションされた会話、映画やテレビシリーズから抽出された会話、適切な質問によって感情が引き起こされる自然な会話を記録する。
このようなデータセットの必要性の証拠は、技術の現状の分析から生まれる。
提案するデータセットのサブセットの分類結果を分析し,serの重要課題に関する予備的考察を行った。 In this paper, SER_AMPEL, a multi-source dataset for speech emotion recognition (SER) is presented. The peculiarity of the dataset is that it is collected with the aim of providing a reference for speech emotion recognition in case of Italian older adults. The dataset is collected following different protocols, in particular considering acted conversations, extracted from movies and TV series, and recording natural conversations where the emotions are elicited by proper questions. The evidence of the need for such a dataset emerges from the analysis of the state of the art. Preliminary considerations on the critical issues of SER are reported analyzing the classification results on a subset of the proposed dataset. | 翻訳日:2023-12-16 03:31:58 公開日:2023-12-14 |
# 医用画像分類のための循環射影を用いたパラメータ化生成逆ネットワーク A Parameterized Generative Adversarial Network Using Cyclic Projection for Explainable Medical Image Classification ( http://arxiv.org/abs/2311.14388v3 ) ライセンス: Link先を確認 | Xiangyu Xiong, Yue Sun, Xiaohong Liu, Chan-Tong Lam, Tong Tong, Hao Chen, Qinquan Gao, Wei Ke, Tao Tan | (参考訳) 現在のデータ拡張法はデータ不足を軽減するのに成功しているが、従来の拡張法は主にドメイン内であり、高度な生成逆数ネットワーク(GAN)は不確実な画像を生成する。
本稿では,ドメイン間の合成サンプルの変化を効果的に制御し,下流分類のための注意領域を強調するパラメータ化gan(paragan)を提案する。
具体的には、ParaGANは射影距離パラメータを巡回射影に組み込み、ソース画像を決定境界に投影し、クラス差マップを得る。
実験の結果,ParaGANは2つの小規模医療データセットに対して説明可能な分類を行い,既存の拡張手法より一貫して優れていることがわかった。 Although current data augmentation methods are successful to alleviate the data insufficiency, conventional augmentation are primarily intra-domain while advanced generative adversarial networks (GANs) generate images remaining uncertain, particularly in small-scale datasets. In this paper, we propose a parameterized GAN (ParaGAN) that effectively controls the changes of synthetic samples among domains and highlights the attention regions for downstream classification. Specifically, ParaGAN incorporates projection distance parameters in cyclic projection and projects the source images to the decision boundary to obtain the class-difference maps. Our experiments show that ParaGAN can consistently outperform the existing augmentation methods with explainable classification on two small-scale medical datasets. | 翻訳日:2023-12-16 03:31:39 公開日:2023-12-14 |
# 条件付き画像-映像生成のためのコンテンツと動作の分離 Decouple Content and Motion for Conditional Image-to-Video Generation ( http://arxiv.org/abs/2311.14294v2 ) ライセンス: Link先を確認 | Cuifeng Shen, Yulu Gan, Chen Chen, Xiongwei Zhu, Lele Cheng, Tingting Gao, Jinzhi Wang | (参考訳) conditional image-to-video(ci2v)生成の目標は,従来のci2v生成手法が従来rgbピクセル空間で実行されていた条件,すなわち1つの画像とテキストから始めて,新たなビデオを作成することにある。
本稿では,対象のrgb画素を空間的内容と時間的動きという2つの異なる要素に分離することで,これらの課題に対処する新しい手法を提案する。
具体的には,3次元UNet拡散モデルに基づいて,動きベクトルと残差を含む時間運動を予測する。
時間的動きを明示的にモデル化し、開始画像に重ね合わせることにより、生成されたビデオの時間的一貫性を向上させる。
これにより空間的冗長性が減少し、時間的詳細が強調される。
提案手法は, モデルに新たな構造的複雑さを導入することなく, コンテンツと動きを分離することで, 性能改善を実現する。
様々なデータセットに関する広範囲な実験により,本手法は実効性と効率性の両方において,最先端手法の大部分よりも優れた性能を示す。 The goal of conditional image-to-video (cI2V) generation is to create a believable new video by beginning with the condition, i.e., one image and text.The previous cI2V generation methods conventionally perform in RGB pixel space, with limitations in modeling motion consistency and visual continuity. Additionally, the efficiency of generating videos in pixel space is quite low.In this paper, we propose a novel approach to address these challenges by disentangling the target RGB pixels into two distinct components: spatial content and temporal motions. Specifically, we predict temporal motions which include motion vector and residual based on a 3D-UNet diffusion model. By explicitly modeling temporal motions and warping them to the starting image, we improve the temporal consistency of generated videos. This results in a reduction of spatial redundancy, emphasizing temporal details. Our proposed method achieves performance improvements by disentangling content and motion, all without introducing new structural complexities to the model. Extensive experiments on various datasets confirm our approach's superior performance over the majority of state-of-the-art methods in both effectiveness and efficiency. | 翻訳日:2023-12-16 03:30:48 公開日:2023-12-14 |
# GeoLocator:地理プライバシ推定のための位置積分型大規模マルチモーダルモデル GeoLocator: a location-integrated large multimodal model for inferring geo-privacy ( http://arxiv.org/abs/2311.13018v2 ) ライセンス: Link先を確認 | Yifan Yang, Yixian Zhang, Daoyang Li, Shuju Sun, Junhong Duan, Junzhou He, Qingyang Wu, Hao Liu | (参考訳) 地理的プライバシ(英: geographic privacy)または地理的プライバシー(英: geo-privacy)とは、個人の地理的位置、特に個人の電子機器が保持する地理的データを制限することを指す。
地理的プライバシーは個人の安全の重要な側面であるが、日常的な活動では気付かないことが多い。
GPT-4のような大規模マルチモーダルモデル(LMM)のオープンソースインテリジェンス(OSINT)への利用が急増し、ジオプライバシー違反に伴う潜在的なリスクが増大している。
本研究は,GeoLocatorという位置積分GPT-4モデルを開発し,入力画像やソーシャルメディアコンテンツの位置情報を推測・識別する4次元実験を設計した。
実験の結果,GeoLocatorは特定の地理的詳細を高精度に生成し,地理空間情報を公開するモデル利用者のリスクを意識せずに埋め込むことで,オンラインデータ共有,情報収集技術,LLMの地理的プライバシに関するスレッドを強調した。
我々は,高度なaiとソーシャルメディアの普及の時代における,地理的プライバシーの漏えいに対する意識向上と保護対策の緊急性を強調することで,ジオロケータの広範な意味と個人やコミュニティ全体に対する我々の発見を結論づける。
キーワード:Geoprivacy, GPT-4, image comprehension, Large Multimodal Model (LMM), Open Source Intelligence (OSINT) Geographic privacy or geo-privacy refers to the keeping private of one's geographic location, especially the restriction of geographical data maintained by personal electronic equipment. Geo-privacy is a crucial aspect of personal security, however often goes unnoticed in daily activities. With the surge in the use of Large Multimodal Models (LMM), such as GPT-4, for Open Source Intelligence (OSINT), the potential risks associated with geo-privacy breaches have intensified. This study develops a location-integrated GPT-4 based model named GeoLocator and designed four-dimensional experiments to demonstrate its capability in inferring and identifying the locational information of input imageries and/or social media contents. Our experiments reveal that GeoLocator generates specific geographic details with high accuracy and consequently embeds the risk of the model users exposing geospatial information to the public unintentionally, highlighting the thread of online data sharing, information gathering technologies and LLM on geo-privacy. We conclude with the broader implications of GeoLocator and our findings for individuals and the community at large, by emphasizing the urgency for enhanced awareness and protective measures against geo-privacy leakage in the era of advanced AI and widespread social media usage. Keywords: geoprivacy, GPT-4, image comprehension, Large Multimodal Model (LMM), Open Source Intelligence (OSINT) | 翻訳日:2023-12-16 03:30:21 公開日:2023-12-14 |
# AI生成画像の自然性を探る Exploring the Naturalness of AI-Generated Images ( http://arxiv.org/abs/2312.05476v2 ) ライセンス: Link先を確認 | Zijian Chen, Wei Sun, Haoning Wu, Zicheng Zhang, Jun Jia, Xiongkuo Min, Guangtao Zhai, Wenjun Zhang | (参考訳) 人工知能生成画像(AGI)の拡散は、画像自然度評価(INA)問題を大幅に拡大した。
限られた歪み(例えば、露光、コントラスト、色再現)を持つトーンマップ画像に主にフォーカスする初期の定義とは異なり、AI生成画像上のINAは、より多様な内容を持ち、低レベルの技術的歪みや高レベルの合理性歪みを含む複数の視点からの影響を受け得るため、特に困難である。
本稿では,AI生成画像の視覚的自然性をベンチマークし,評価する第一歩を踏み出す。
まず,AI生成画像自然性(AGIN)データベースを構築し,技術・合理性の観点からの認識だけでなく,全体自然性に関する人間の意見を収集する大規模主観的研究を行った。
aginは、自然性は技術的および合理性の歪みの両方によって普遍的かつ異様に影響を受けることを検証する。
第2に、人間の評価を整列するAGIの自然性を自動的に学習するJoint Objective Image Naturalness EvaluaTor(JOINT)を提案する。
具体的には、技術と合理性の両方の視点を共同で学習することで、自然性評価における人間の推論を模倣する。
実験の結果,本研究は,自然性評価において主観的に一貫性のある結果を与えるため,ベースラインを大幅に上回っていることがわかった。
データベースとコードはhttps://github.com/zijianchen98/aginでリリースします。 The proliferation of Artificial Intelligence-Generated Images (AGIs) has greatly expanded the Image Naturalness Assessment (INA) problem. Different from early definitions that mainly focus on tone-mapped images with limited distortions (e.g., exposure, contrast, and color reproduction), INA on AI-generated images is especially challenging as it has more diverse contents and could be affected by factors from multiple perspectives, including low-level technical distortions and high-level rationality distortions. In this paper, we take the first step to benchmark and assess the visual naturalness of AI-generated images. First, we construct the AI-Generated Image Naturalness (AGIN) database by conducting a large-scale subjective study to collect human opinions on the overall naturalness as well as perceptions from technical and rationality perspectives. AGIN verifies that naturalness is universally and disparately affected by both technical and rationality distortions. Second, we propose the Joint Objective Image Naturalness evaluaTor (JOINT), to automatically learn the naturalness of AGIs that aligns human ratings. Specifically, JOINT imitates human reasoning in naturalness evaluation by jointly learning both technical and rationality perspectives. Experimental results show our proposed JOINT significantly surpasses baselines for providing more subjectively consistent results on naturalness assessment. Our database and code will be released in https://github.com/zijianchen98/AGIN. | 翻訳日:2023-12-16 03:22:58 公開日:2023-12-14 |
# beyond surface: スケールとレイヤーにまたがるラマの探索 Beyond Surface: Probing LLaMA Across Scales and Layers ( http://arxiv.org/abs/2312.04333v3 ) ライセンス: Link先を確認 | Nuo Chen, Ning Wu, Shining Liang, Ming Gong, Linjun Shou, Dongmei Zhang, Jia Li | (参考訳) 本稿では,自然言語処理における著名なオープンソース基礎モデルであるllamaに着目し,大規模言語モデル(llms)の詳細な解析を行う。
LLaMAを生成出力で評価する代わりに、複数の選択タスクを設計し、推論や計算などの高次タスクにおける本質的な理解を探索する。
モデルを水平的に検討し、異なるサイズと垂直に比較し、異なる層を評価した。
1) モデルサイズを水平に拡大することは, 新たな知識や計算能力を自動的に付与することはほとんど不可能である。
その代わり、特に数学の問題解決において推論能力を高めることができ、幻覚を減少させるのに役立つが、一定の大きさの閾値を超えるだけである。(2)垂直解析において、ラマの下位層は実質的な算術的・事実的知識を欠き、論理的思考、多言語的・認識的能力を示し、上位層は計算能力と実世界の知識を多く含む。 This paper presents an in-depth analysis of Large Language Models (LLMs), focusing on LLaMA, a prominent open-source foundational model in natural language processing. Instead of assessing LLaMA through its generative output, we design multiple-choice tasks to probe its intrinsic understanding in high-order tasks such as reasoning and computation. We examine the model horizontally, comparing different sizes, and vertically, assessing different layers. We unveil several key and uncommon findings based on the designed probing tasks: (1) Horizontally, enlarging model sizes almost could not automatically impart additional knowledge or computational prowess. Instead, it can enhance reasoning abilities, especially in math problem solving, and helps reduce hallucinations, but only beyond certain size thresholds; (2) In vertical analysis, the lower layers of LLaMA lack substantial arithmetic and factual knowledge, showcasing logical thinking, multilingual and recognitive abilities, with top layers housing most computational power and real-world knowledge. | 翻訳日:2023-12-16 03:21:47 公開日:2023-12-14 |
# strong, less, and superior: ドメイン一般化意味セグメンテーションのためのビジョン基盤モデルを活用する Stronger, Fewer, & Superior: Harnessing Vision Foundation Models for Domain Generalized Semantic Segmentation ( http://arxiv.org/abs/2312.04265v2 ) ライセンス: Link先を確認 | Zhixiang Wei, Lin Chen, Yi Jin, Xiaoxiao Ma, Tianle Liu, Pengyang Lin, Ben Wang, Huaian Chen, Jinjin Zheng | (参考訳) 本稿では、まず、ドメイン一般化セマンティックセマンティックセグメンテーション(DGSS)の文脈において、様々なビジョン基礎モデル(VFM)を評価し、活用する。
より強力な事前学習モデルとより少ない訓練可能なパラメータを上向きの一般化性に活用する動機により、DGSSのVFMをパラメータ効率よく活用するための堅牢な微調整手法、すなわちReinを導入する。
トレーニング可能なトークンセットに基づいて構築され、それぞれが異なるインスタンスにリンクされ、機能マップを各レイヤからバックボーン内の次のレイヤに正確に洗練し、転送する。
このプロセスは、単一の画像内のさまざまなカテゴリの多様な改良を生み出す。
トレーニング可能なパラメータが少ないため、ReinはDGSSタスクのVFMを効率的に微調整する。
さまざまな設定にわたる大規模な実験は、Reinが最先端のメソッドを大幅に上回っていることを示している。
注目すべきは、凍結したバックボーン内のトレーニング可能なパラメータのわずか1%で、Reinは実際の都市シーンデータセットにアクセスすることなく、Cityscapesで68.1%のmIoUを達成したことだ。 In this paper, we first assess and harness various Vision Foundation Models (VFMs) in the context of Domain Generalized Semantic Segmentation (DGSS). Driven by the motivation that Leveraging Stronger pre-trained models and Fewer trainable parameters for Superior generalizability, we introduce a robust fine-tuning approach, namely Rein, to parameter-efficiently harness VFMs for DGSS. Built upon a set of trainable tokens, each linked to distinct instances, Rein precisely refines and forwards the feature maps from each layer to the next layer within the backbone. This process produces diverse refinements for different categories within a single image. With fewer trainable parameters, Rein efficiently fine-tunes VFMs for DGSS tasks, surprisingly surpassing full parameter fine-tuning. Extensive experiments across various settings demonstrate that Rein significantly outperforms state-of-the-art methods. Remarkably, with just an extra 1% of trainable parameters within the frozen backbone, Rein achieves a mIoU of 68.1% on the Cityscapes, without accessing any real urban-scene datasets.Code is available at https://github.com/w1oves/Rein.git. | 翻訳日:2023-12-16 03:21:27 公開日:2023-12-14 |
# グラフ上でのマルチタスク事前学習とプロンプトのためのマルチgprompt MultiGPrompt for Multi-Task Pre-Training and Prompting on Graphs ( http://arxiv.org/abs/2312.03731v2 ) ライセンス: Link先を確認 | Xingtong Yu, Chang Zhou, Yuan Fang, Xinming Zhang | (参考訳) グラフは本質的にWeb上の相互接続オブジェクトをモデル化することができ、Web分析やコンテントレコメンデーションといった一連のWebアプリケーションを容易にします。
近年,グラフ表現学習の主流技術としてグラフニューラルネットワーク(GNN)が登場している。
しかし、エンドツーエンドの監視フレームワークでの有効性は、タスク固有のラベルの可用性にかなり関係しています。
ラベリングコストを軽減し、数ショット設定で堅牢性を高めるため、自己指導型タスクの事前訓練が有望な方法として現れ、プリテキストと下流タスクの客観的ギャップをさらに狭めるためのプロンプトが提案されている。
グラフ上でのプロンプトベース学習の初期調査はあったが、それらは主に単一のプリテキストタスクを活用し、事前学習データから学べる一般的な知識のサブセットが限られている。
そこで本稿では,マルチタスク事前学習およびプロンプトフレームワークであるmultigpromptを提案する。
まず、事前学習において、複数のプリテキストタスクを相乗化するためのプリテキストトークンセットを設計する。
第2に,タスク固有の,グローバルな事前学習知識を活用するためのオープンプロンプトとオープンプロンプトから構成されたデュアルプロンプト機構を提案する。
最後に、MultiGPromptの評価と分析を行うために、6つの公開データセットに関する広範な実験を行う。 Graphs can inherently model interconnected objects on the Web, thereby facilitating a series of Web applications, such as web analyzing and content recommendation. Recently, Graph Neural Networks (GNNs) have emerged as a mainstream technique for graph representation learning. However, their efficacy within an end-to-end supervised framework is significantly tied to the availabilityof task-specific labels. To mitigate labeling costs and enhance robustness in few-shot settings, pre-training on self-supervised tasks has emerged as a promising method, while prompting has been proposed to further narrow the objective gap between pretext and downstream tasks. Although there has been some initial exploration of prompt-based learning on graphs, they primarily leverage a single pretext task, resulting in a limited subset of general knowledge that could be learned from the pre-training data. Hence, in this paper, we propose MultiGPrompt, a novel multi-task pre-training and prompting framework to exploit multiple pretext tasks for more comprehensive pre-trained knowledge. First, in pre-training, we design a set of pretext tokens to synergize multiple pretext tasks. Second, we propose a dual-prompt mechanism consisting of composed and open prompts to leverage task-specific and global pre-training knowledge, to guide downstream tasks in few-shot settings. Finally, we conduct extensive experiments on six public datasets to evaluate and analyze MultiGPrompt. | 翻訳日:2023-12-16 03:20:34 公開日:2023-12-14 |
# 基本メカニズムとAIアルゴリズムをリンクする循環経路:アモルファスネットワークにおけるポアソン比の例 A Cyclical Route Linking Fundamental Mechanism and AI Algorithm: An Example from Poisson's Ratio in Amorphous Networks ( http://arxiv.org/abs/2312.03404v2 ) ライセンス: Link先を確認 | Changliang Zhu, Chenchao Fang, Zhipeng Jin, Baowen Li, Xiangying Shen, Lei Xu | (参考訳) 「科学のためのAI」は科学研究の発展の今後の動向として広く認識されている。
現在、機械学習アルゴリズムは、多くの成功したケースで科学的研究において重要な役割を担っているが、aiが特定の現象の背後にある物理メカニズムを解明し、そのメカニズムを使用して機械学習アルゴリズムの効率を改善するために研究者を支援する例は比較的少ない。
本稿では, 極端なポアソン比値とアモルファスネットワークの構造との関係を事例研究として, 機械学習手法が基礎となる物理メカニズムを明らかにするのにどのように役立つかを説明する。
ポアソンの比が動的行列の低周波振動モードに依存していることを認識すると、従来の画像認識の代わりに動的行列で訓練された畳み込みニューラルネットワークを用いて、ポアソンの非晶質ネットワークの比をはるかに高い効率で予測することができる。
この例を通して,人工知能が基本的な物理メカニズムを明らかにする上で果たす役割を明らかにすることを目的として,機械学習アルゴリズムを大幅に改善する。 "AI for science" is widely recognized as a future trend in the development of scientific research. Currently, although machine learning algorithms have played a crucial role in scientific research with numerous successful cases, relatively few instances exist where AI assists researchers in uncovering the underlying physical mechanisms behind a certain phenomenon and subsequently using that mechanism to improve machine learning algorithms' efficiency. This article uses the investigation into the relationship between extreme Poisson's ratio values and the structure of amorphous networks as a case study to illustrate how machine learning methods can assist in revealing underlying physical mechanisms. Upon recognizing that the Poisson's ratio relies on the low-frequency vibrational modes of dynamical matrix, we can then employ a convolutional neural network, trained on the dynamical matrix instead of traditional image recognition, to predict the Poisson's ratio of amorphous networks with a much higher efficiency. Through this example, we aim to showcase the role that artificial intelligence can play in revealing fundamental physical mechanisms, which subsequently improves the machine learning algorithms significantly. | 翻訳日:2023-12-16 03:19:34 公開日:2023-12-14 |
# 確率的最適制御マッチング Stochastic Optimal Control Matching ( http://arxiv.org/abs/2312.02027v2 ) ライセンス: Link先を確認 | Carles Domingo-Enrich, Jiequn Han, Brandon Amos, Joan Bruna, Ricky T. Q. Chen | (参考訳) 雑音系の振る舞いを駆動する目的を持つ確率的最適制御は、科学、工学、人工知能に広く応用されている。
本研究は,確率的最適制御のための新しい反復拡散最適化(IDO)手法である確率的最適制御マッチング(SOCM)を紹介する。
すなわち、制御は一致するベクトル場に収まるようにすることで最小二乗問題を通じて学習される。
クロスエントロピー損失と密接に結びついているトレーニング損失は、一致するベクトル場に現れる制御関数と再パラメータ化行列のファミリーの両方に対して最適化される。
再パラメータ行列に関する最適化は、一致するベクトル場の分散を最小化することを目的としている。
実験により,提案アルゴリズムは4つの制御問題のうち3つに対して,確率的最適制御のための既存のIDO手法よりも誤差が小さい。
socmの基礎となる重要なアイデアはパスワイズ再パラメータ化トリック(path-wise reparameterization trick)である。
Code at https://github.com/facebookresearch/SOC-matching Stochastic optimal control, which has the goal of driving the behavior of noisy systems, is broadly applicable in science, engineering and artificial intelligence. Our work introduces Stochastic Optimal Control Matching (SOCM), a novel Iterative Diffusion Optimization (IDO) technique for stochastic optimal control that stems from the same philosophy as the conditional score matching loss for diffusion models. That is, the control is learned via a least squares problem by trying to fit a matching vector field. The training loss, which is closely connected to the cross-entropy loss, is optimized with respect to both the control function and a family of reparameterization matrices which appear in the matching vector field. The optimization with respect to the reparameterization matrices aims at minimizing the variance of the matching vector field. Experimentally, our algorithm achieves lower error than all the existing IDO techniques for stochastic optimal control for three out of four control problems, in some cases by an order of magnitude. The key idea underlying SOCM is the path-wise reparameterization trick, a novel technique that is of independent interest, e.g., for generative modeling. Code at https://github.com/facebookresearch/SOC-matching | 翻訳日:2023-12-16 03:18:49 公開日:2023-12-14 |
# Visual Promptingがニューラルネットワークのスパーシフィケーションをアップグレード:データモデルの観点から Visual Prompting Upgrades Neural Network Sparsification: A Data-Model Perspective ( http://arxiv.org/abs/2312.01397v2 ) ライセンス: Link先を確認 | Can Jin, Tianjin Huang, Yihua Zhang, Mykola Pechenizkiy, Sijia Liu, Shiwei Liu, Tianlong Chen | (参考訳) 大規模ディープラーニングモデルの急速な開発は、ハードウェアプラットフォームの可用性に疑問を投げかけている。
製品としてのスパースニューラルネットワークは、複雑性の低下や損傷のない一般化など、数多くの有利なメリットを示している。
プルーニング戦略の多くは、ネットワークトポロジの分析による重要な重みの探索と保存に焦点を当て、モデル中心の観点から発明されている。
しかし、データの役割とモデル中心の刈り取りとの相互作用は、比較的未調査のままである。
本研究では,重要なモデルトポロジと適切な入力データを相乗的に学習することで,より優れた重量空間性を促進する新しいデータモデル共設計視点を提案する。
具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。
先駆的な取り組みとして,異なる視覚的プロンプトがモデルプルーニングに与える影響を体系的に調査し,効果的な共同最適化手法を提案する。
3つのネットワークアーキテクチャと8つのデータセットによる大規模な実験は、既存の最先端のプルーニングアルゴリズムよりもVPNによる大幅なパフォーマンス向上を示している。
さらに,事前学習モデルからvpnによって検出されたサブネットワークは,下流のさまざまなシナリオをまたいだ転送性が向上する。
これらの洞察は、ビジョンモデルのスパーシフィケーションのためのデータモデル共同設計の新たな可能性に光を当てた。 The rapid development of large-scale deep learning models questions the affordability of hardware platforms, which necessitates the pruning to reduce their computational and memory footprints. Sparse neural networks as the product, have demonstrated numerous favorable benefits like low complexity, undamaged generalization, etc. Most of the prominent pruning strategies are invented from a model-centric perspective, focusing on searching and preserving crucial weights by analyzing network topologies. However, the role of data and its interplay with model-centric pruning has remained relatively unexplored. In this research, we introduce a novel data-model co-design perspective: to promote superior weight sparsity by learning important model topology and adequate input data in a synergetic manner. Specifically, customized Visual Prompts are mounted to upgrade neural Network sparsification in our proposed VPNs framework. As a pioneering effort, this paper conducts systematic investigations about the impact of different visual prompts on model pruning and suggests an effective joint optimization approach. Extensive experiments with 3 network architectures and 8 datasets evidence the substantial performance improvements from VPNs over existing start-of-the-art pruning algorithms. Furthermore, we find that subnetworks discovered by VPNs from pre-trained models enjoy better transferability across diverse downstream scenarios. These insights shed light on new promising possibilities of data-model co-designs for vision model sparsification. | 翻訳日:2023-12-16 03:18:29 公開日:2023-12-14 |
# 全てを接地する:視覚言語トランスフォーマーにおける新しい局所化特性 Grounding Everything: Emerging Localization Properties in Vision-Language Transformers ( http://arxiv.org/abs/2312.00878v3 ) ライセンス: Link先を確認 | Walid Bousselham, Felix Petersen, Vittorio Ferrari, Hilde Kuehne | (参考訳) 視覚言語基礎モデルは、画像検索、分類、キャプションなど、様々なゼロショット設定で顕著な性能を示している。
しかし今のところ、これらのモデルは、画像中の参照表現とオブジェクトのゼロショットのローカライズに関しては遅れているようだ。
結果として、それらはこのタスクのために微調整される必要があります。
本稿では、事前学習された視覚言語(VL)モデルが、微調整なしでゼロショットオープン語彙オブジェクトの局所化を可能にすることを示す。
これらの機能を活用するために,CLIPSurgeryが自己注意経路に導入した価値価値注意の考え方を一般化するグラウンドング・エミッション・モジュール(GEM)を提案する。
自己注意の概念はクラスタリングに対応し,同一対象から発生するトークン群が言語空間との整合を維持しながら類似することを示す。
グループ形成をさらにガイドするために、データセットとバックボーンをまたいでモデルを最終的に一般化する一連の正規化を提案する。
セマンティックセグメンテーションのための様々なベンチマークタスクとデータセットに基づいて提案したGEMフレームワークを評価する。
GEMは、他のトレーニング不要なオープン語彙ローカライズ手法よりも優れているだけでなく、最近提案されたOpenImagesV7大規模セグメンテーションベンチマークの最先端結果も達成している。 Vision-language foundation models have shown remarkable performance in various zero-shot settings such as image retrieval, classification, or captioning. But so far, those models seem to fall behind when it comes to zero-shot localization of referential expressions and objects in images. As a result, they need to be fine-tuned for this task. In this paper, we show that pretrained vision-language (VL) models allow for zero-shot open-vocabulary object localization without any fine-tuning. To leverage those capabilities, we propose a Grounding Everything Module (GEM) that generalizes the idea of value-value attention introduced by CLIPSurgery to a self-self attention path. We show that the concept of self-self attention corresponds to clustering, thus enforcing groups of tokens arising from the same object to be similar while preserving the alignment with the language space. To further guide the group formation, we propose a set of regularizations that allows the model to finally generalize across datasets and backbones. We evaluate the proposed GEM framework on various benchmark tasks and datasets for semantic segmentation. It shows that GEM not only outperforms other training-free open-vocabulary localization methods, but also achieves state-of-the-art results on the recently proposed OpenImagesV7 large-scale segmentation benchmark. | 翻訳日:2023-12-16 03:18:04 公開日:2023-12-14 |
# 77以上のテキストトークンの価値:密集したキャプションでクリップスタイルのモデルを評価する A Picture is Worth More Than 77 Text Tokens: Evaluating CLIP-Style Models on Dense Captions ( http://arxiv.org/abs/2312.08578v1 ) ライセンス: Link先を確認 | Jack Urbanek, Florian Bordes, Pietro Astolfi, Mary Williamson, Vasu Sharma, Adriana Romero-Soriano | (参考訳) 膨大なビジョン言語データセットのキュレーション方法は、データセットのサイズと品質をトレードオフする。
しかし、利用可能なキャプションの最高品質でさえ、画像の豊富な視覚的詳細を捉えるにはあまりにも短すぎる。
濃密で高度に整合した画像テキストペアの価値を示すために,1000語以上を平均的に表現した8012の自然画像を含むDensely Captioned Images (DCI)データセットを収集した。
画像の特定の部分に関連する正確かつ信頼性の高いキャプションを用いて、画像内容の視覚言語モデル(VLM)理解を、各キャプションと対応するサブクロップとを一致させる新しいタスクで評価することができる。
現在のモデルは77のテキストトークンに制限されることが多いため、各キャプションの長さが制限された要約版(sDCI)も導入する。
標準ベンチマークを進歩させる最新の技術は、我々のsDCIベースのベンチマークの大幅な改善と一致しないことを示す。
最後に, sDCIを用いてCLIPを微調整し, トレーニングセットが小さいにもかかわらず, ベースラインを大幅に改善した。
人間の注釈付き高密度画像キャプションデータセットを初めてリリースすることで、次世代のVLMのための新しいベンチマークや微調整のレシピの開発を可能にしたいと考えています。 Curation methods for massive vision-language datasets trade off between dataset size and quality. However, even the highest quality of available curated captions are far too short to capture the rich visual detail in an image. To show the value of dense and highly-aligned image-text pairs, we collect the Densely Captioned Images (DCI) dataset, containing 8012 natural images human-annotated with mask-aligned descriptions averaging above 1000 words each. With precise and reliable captions associated with specific parts of an image, we can evaluate vision-language models' (VLMs) understanding of image content with a novel task that matches each caption with its corresponding subcrop. As current models are often limited to 77 text tokens, we also introduce a summarized version (sDCI) in which each caption length is limited. We show that modern techniques that make progress on standard benchmarks do not correspond with significant improvement on our sDCI based benchmark. Lastly, we finetune CLIP using sDCI and show significant improvements over the baseline despite a small training set. By releasing the first human annotated dense image captioning dataset, we hope to enable the development of new benchmarks or fine-tuning recipes for the next generation of VLMs to come. | 翻訳日:2023-12-16 00:35:18 公開日:2023-12-14 |
# シナリオ最適化と等角予測によるニューラルネットワーク到達管の検証 Verification of Neural Reachable Tubes via Scenario Optimization and Conformal Prediction ( http://arxiv.org/abs/2312.08604v1 ) ライセンス: Link先を確認 | Albert Lin and Somil Bansal | (参考訳) 安全クリティカルシステムを制御するための学習ベースのアプローチは急速に普及しており、その性能と安全性を保証することが重要である。
hamilton-jacobi (hj) reachability analysisは一般的な形式的検証ツールであり、一般的な非線形系のダイナミクス、境界付けられた対向系外乱、状態と入力の制約を扱うことができる。
しかし、計算とメモリの複雑さは状態次元と指数関数的にスケールし、大規模システムでは難解である。
この課題を克服するために、DeepReachのようなニューラルアプローチは、到達可能なチューブと高次元システムの安全コントローラを合成するために使われてきた。
しかし、これらの神経到達管の検証は依然として困難である。
本研究では,頑健なシナリオ最適化と共形予測に基づく2つの検証手法を提案し,ニューラルリーチブルチューブの確率論的安全性を保証する。
本手法は,学習に基づくアプローチでは避けられないニューラルチューブの誤差を解消するためのレジリエンスと,確率論的安全性の強さとの直接的なトレードオフを可能にする。
さらに,不確実性定量化のための機械学習コミュニティで広く用いられている手法であるスプリットコンフォメーション予測は,シナリオベースアプローチに還元され,ニューラルリーチブルチューブの検証だけでなく,より一般的には2つの手法が等価であることを示す。
我々の知る限り、我々の証明は、共形予測とシナリオ最適化の強い関係を示す最初の文献である。
最後に, ニューラルリーチブルチューブの誤差分布を用いて, より安全なボリュームを復元する, 外部調整型検証手法を提案する。
本研究では,複数車両衝突回避と無着陸ロケット着陸の高次元問題に対する提案手法の有効性を実証する。 Learning-based approaches for controlling safety-critical systems are rapidly growing in popularity; thus, it is important to assure their performance and safety. Hamilton-Jacobi (HJ) reachability analysis is a popular formal verification tool for providing such guarantees, since it can handle general nonlinear system dynamics, bounded adversarial system disturbances, and state and input constraints. However, its computational and memory complexity scales exponentially with the state dimension, making it intractable for large-scale systems. To overcome this challenge, neural approaches, such as DeepReach, have been used to synthesize reachable tubes and safety controllers for high-dimensional systems. However, verifying these neural reachable tubes remains challenging. In this work, we propose two verification methods, based on robust scenario optimization and conformal prediction, to provide probabilistic safety guarantees for neural reachable tubes. Our methods allow a direct trade-off between resilience to outlier errors in the neural tube, which are inevitable in a learning-based approach, and the strength of the probabilistic safety guarantee. Furthermore, we show that split conformal prediction, a widely used method in the machine learning community for uncertainty quantification, reduces to a scenario-based approach, making the two methods equivalent not only for verification of neural reachable tubes but also more generally. To our knowledge, our proof is the first in the literature to show a strong relationship between conformal prediction and scenario optimization. Finally, we propose an outlier-adjusted verification approach that uses the error distribution in neural reachable tubes to recover greater safe volumes. We demonstrate the efficacy of the proposed approaches for the high-dimensional problems of multi-vehicle collision avoidance and rocket landing with no-go zones. | 翻訳日:2023-12-16 00:24:21 公開日:2023-12-14 |
# オメガレギュラー決定過程 Omega-Regular Decision Processes ( http://arxiv.org/abs/2312.08602v1 ) ライセンス: Link先を確認 | Ernst Moritz Hahn, Mateo Perez, Sven Schewe, Fabio Somenzi, Ashutosh Trivedi, Dominik Wojtczak | (参考訳) 正規決定過程 (RDP) は非マルコフ的決定過程のサブクラスであり、遷移関数と報酬関数は過去の通常の性質によって守られている(見返り)。
RDPは非マルコフ決定過程の直感的かつ簡潔な表現を可能にするが、その表現力は有限状態マルコフ決定過程(MDP)と一致する。
我々は,オメガ規則決定プロセス(ODP)を導入し,遷移と報酬関数の非マルコフ的側面をシステム進化上のオメガ規則的なルックアヘッドに拡張する。
意味的に、これらのルックアヘッドは、意思決定者または学習エージェントが将来の行動について行う約束と見なすことができる。
特に、約束されたルックアヘッドが満たされていない場合、意思決定者への報酬は$\bot$(望ましい報酬)と仮定し、意思決定者によって収集された報酬をオーバーライドする。
我々は, 有限MDP上での語彙最適化と学習に還元することで, 減算対象によるODPの最適化と学習を可能にする。
提案手法の有効性を示す実験結果を示す。 Regular decision processes (RDPs) are a subclass of non-Markovian decision processes where the transition and reward functions are guarded by some regular property of the past (a lookback). While RDPs enable intuitive and succinct representation of non-Markovian decision processes, their expressive power coincides with finite-state Markov decision processes (MDPs). We introduce omega-regular decision processes (ODPs) where the non-Markovian aspect of the transition and reward functions are extended to an omega-regular lookahead over the system evolution. Semantically, these lookaheads can be considered as promises made by the decision maker or the learning agent about her future behavior. In particular, we assume that, if the promised lookaheads are not met, then the payoff to the decision maker is $\bot$ (least desirable payoff), overriding any rewards collected by the decision maker. We enable optimization and learning for ODPs under the discounted-reward objective by reducing them to lexicographic optimization and learning over finite MDPs. We present experimental results demonstrating the effectiveness of the proposed reduction. | 翻訳日:2023-12-16 00:23:50 公開日:2023-12-14 |
# 量子イジング鎖上の閉じ込めとキンク絡み非対称性 Confinement and Kink Entanglement Asymmetry on a Quantum Ising Chain ( http://arxiv.org/abs/2312.08601v1 ) ライセンス: Link先を確認 | Brian J. J. Khor, D. M. K\"urk\c{c}\"uo\~glu, T. J. Hobbs, G. N. Perdue, Israel Klich | (参考訳) 本研究では, 1次元量子イジングチェーン上の閉じ込め, 弦破断, 絡み合い非対称性の相互作用を考察する。
我々は、初期領域壁の進化を考察し、意外なことに、長手フィールドによる閉じ込めの導入は典型的には絡みを抑制するが、自由粒子の有界集合を超えて増大させるのに役立つことを示した。
我々のモデルは、リンク変数に関連する絡み合い非対称性を探索する機会を与えるドメイン壁の数を保存するために調整することができる。
結合変数(キンク)をサイト変数(スピン)に写像するクラマース・ワニエ変換の直接あるいは後続のリンク変数の非局所性を扱うための2つのアプローチについて検討する。
テンソルネットワーク法を用いて非対称性を計算する数値計算法を開発し, 異なる種類の絡み合いと絡み合い非対称性を示す。 In this work, we explore the interplay of confinement, string breaking and entanglement asymmetry on a 1D quantum Ising chain. We consider the evolution of an initial domain wall and show that, surprisingly, while the introduction of confinement through a longitudinal field typically suppresses entanglement, it can also serve to increase it beyond a bound set for free particles. Our model can be tuned to conserve the number of domain walls, which gives an opportunity to explore entanglement asymmetry associated with link variables. We study two approaches to deal with the non-locality of the link variables, either directly or following a Kramers-Wannier transformation that maps bond variables (kinks) to site variables (spins). We develop a numerical procedure for computing the asymmetry using tensor network methods and use it to demonstrate the different types of entanglement and entanglement asymmetry. | 翻訳日:2023-12-16 00:23:32 公開日:2023-12-14 |
# CartoMark: マップパターン認識と1つのマップコンテンツ検索のためのベンチマークデータセット CartoMark: a benchmark dataset for map pattern recognition and 1 map content retrieval with machine intelligence ( http://arxiv.org/abs/2312.08600v1 ) ライセンス: Link先を確認 | Xiran Zhou, Yi Wen, Honghao Li, Kaiyuan Li, Zhenfeng Shao, Zhigang Yan, Xiao Xie | (参考訳) 地図は、実単語をシンプルで16の哲学的な方法で視覚化し表現するための基本的な媒体である。
第三波情報の出現により、地図の比率はユビキタスに生成可能となり、実世界の特性を理解するための次元と視点が大幅に強化される。
しかし、ほとんどの地図データセットが発見され、取得され、効果的に使用されることはなく、多くのアプリケーションで使用される地図データは、これらのアプリケーションの真の要求に完全に適合していないかもしれない。
この課題は、複雑なマップコンテンツを特定するためのディープラーニングアプローチを実装するための、多くの十分なベンチマークデータセットが欠如していることによるものだ。
そこで,我々は,地図テキストのアノテーション認識,地図シーン分類,地図超解像再構成,地図スタイル転送のためのラベル付きデータセットを含む大規模ベンチマークデータセットを開発した。
さらに、これらのよくラベル付けされたデータセットは、マップ特徴の検出、マップパターン認識、マップコンテンツ検索を行う最先端のマシンインテリジェンス技術を促進する。
われわれの努力が、AIによる地図の応用に役立つことを願っている。 Maps are fundamental medium to visualize and represent the real word in a simple and 16 philosophical way. The emergence of the 3rd wave information has made a proportion of maps are available to be generated ubiquitously, which would significantly enrich the dimensions and perspectives to understand the characteristics of the real world. However, a majority of map dataset have never been discovered, acquired and effectively used, and the map data used in many applications might not be completely fitted for the authentic demands of these applications. This challenge is emerged due to the lack of numerous well-labelled benchmark datasets for implementing the deep learning approaches into identifying complicated map content. Thus, we develop a large-scale benchmark dataset that includes well-labelled dataset for map text annotation recognition, map scene classification, map super-resolution reconstruction, and map style transferring. Furthermore, these well-labelled datasets would facilitate the state-of-the-art machine intelligence technologies to conduct map feature detection, map pattern recognition and map content retrieval. We hope our efforts would be useful for AI-enhanced cartographical applications. | 翻訳日:2023-12-16 00:23:15 公開日:2023-12-14 |
# mothernet: 表分類のための基盤的ハイパーネットワーク MotherNet: A Foundational Hypernetwork for Tabular Classification ( http://arxiv.org/abs/2312.08598v1 ) ライセンス: Link先を確認 | Andreas M\"uller, Carlo Curino, Raghu Ramakrishnan | (参考訳) Foundation Modelsの出現は、多くのモダリティ(言語、画像、ビデオなど)にわたって機械学習を変換し、多くの設定でトレーニングを即時に置き換える。
表データ(例えばtabpfn)に関する最近の研究は、数値データの分類のための基礎モデルを構築する同様の機会を示唆している。
本稿ではさらに一歩進めて,mothernetと呼ばれる,数百万の分類タスクに基づいてトレーニングされたハイパーネットワークアーキテクチャを提案する。
他のファウンデーションモデルと同様に、MotherNetは特定のデータセットのトレーニングを、単一のフォワードパスを通じてコンテキスト内学習に置き換える。
タスク固有の、あるいは比較的制約のあるマルチタスク設定のためにトレーニングされた既存のハイパーネットワークとは対照的に、mothernetは、データセット固有の勾配降下なしに任意の表型データセットでマルチクラス分類を行うネットワークを生成するように訓練されている。
MotherNetによって生成された子ネットワークは、コンテキスト内学習を使用して、小さなデータセット上で勾配降下を用いてトレーニングされたニューラルネットワークよりも優れており、TabPFNやGradient Boostingのような標準MLメソッドの予測と競合する。
TabPFNのようなトランスフォーマーモデルの直接適用とは異なり、MotherNetの生成したネットワークは推論時に非常に効率的である。
この方法論は、データセット固有のトレーニングを使わずに、効率的かつ堅牢な表データ上に予測モデルを構築するための、新たなアプローチを開く。 The advent of Foundation Models is transforming machine learning across many modalities (e.g., language, images, videos) with prompt engineering replacing training in many settings. Recent work on tabular data (e.g., TabPFN) hints at a similar opportunity to build Foundation Models for classification for numerical data. In this paper, we go one step further and propose a hypernetwork architecture that we call MotherNet, trained on millions of classification tasks, that, once prompted with a never-seen-before training set generates the weights of a trained ``child'' neural-network. Like other Foundation Models, MotherNet replaces training on specific datasets with in-context learning through a single forward pass. In contrast to existing hypernetworks that were either task-specific or trained for relatively constraint multi-task settings, MotherNet is trained to generate networks to perform multiclass classification on arbitrary tabular datasets without any dataset specific gradient descent. The child network generated by MotherNet using in-context learning outperforms neural networks trained using gradient descent on small datasets, and is competitive with predictions by TabPFN and standard ML methods like Gradient Boosting. Unlike a direct application of transformer models like TabPFN, MotherNet generated networks are highly efficient at inference time. This methodology opens up a new approach to building predictive models on tabular data that is both efficient and robust, without any dataset-specific training. | 翻訳日:2023-12-16 00:22:56 公開日:2023-12-14 |
# CT-MVSNet:クロススケールトランスを用いた効率的なマルチビューステレオ CT-MVSNet: Efficient Multi-View Stereo with Cross-scale Transformer ( http://arxiv.org/abs/2312.08594v1 ) ライセンス: Link先を確認 | Sicheng Wang, Hao Jiang, Lei Xiang | (参考訳) 近年の深層多視点ステレオ(MVS)法は,高分解能深度推定のためにトランスフォーマーをカスケードネットワークに広く組み込んで,優れた結果を得た。
しかし、既存の変換器ベースの手法は計算コストに制約されるため、より細かい段階にまで拡張できない。
本稿では,異なる段階における特徴表現を付加計算なしで処理する新しいクロススケールトランス (CT) を提案する。
具体的には,複数のスケールで異なる対話型アテンションの組み合わせを用いた適応マッチングアウェアトランスフォーマ(amt)を提案する。
この組み合わせ戦略により,ネットワークは画像内コンテキスト情報をキャプチャし,画像間特徴関係を強化することができる。
さらに,粗大なグローバル意味情報を細かなコストボリューム構築に組み込むことにより,グローバルかつ局所的な特徴認識をさらに強化する,デュアルフィーチャーガイドアグリゲーション(dfga)を提案する。
一方,特徴量的損失(fm損失)は,特徴的ミスマッチが深さ推定に与える影響を減少させるために,変換前後の特徴バイアスを評価する。
DTUデータセットとタンク・アンド・テンプル (T\&T) ベンチマークの大規模な実験により,本手法が最先端の成果を得られることが示された。
コードはhttps://github.com/wscstrive/CT-MVSNetで入手できる。 Recent deep multi-view stereo (MVS) methods have widely incorporated transformers into cascade network for high-resolution depth estimation, achieving impressive results. However, existing transformer-based methods are constrained by their computational costs, preventing their extension to finer stages. In this paper, we propose a novel cross-scale transformer (CT) that processes feature representations at different stages without additional computation. Specifically, we introduce an adaptive matching-aware transformer (AMT) that employs different interactive attention combinations at multiple scales. This combined strategy enables our network to capture intra-image context information and enhance inter-image feature relationships. Besides, we present a dual-feature guided aggregation (DFGA) that embeds the coarse global semantic information into the finer cost volume construction to further strengthen global and local feature awareness. Meanwhile, we design a feature metric loss (FM Loss) that evaluates the feature bias before and after transformation to reduce the impact of feature mismatch on depth estimation. Extensive experiments on DTU dataset and Tanks and Temples (T\&T) benchmark demonstrate that our method achieves state-of-the-art results. Code is available at https://github.com/wscstrive/CT-MVSNet. | 翻訳日:2023-12-16 00:22:28 公開日:2023-12-14 |
# MOSaiC: 共同医療ビデオアセスメントとアノテーションのためのWebプラットフォーム MOSaiC: a Web-based Platform for Collaborative Medical Video Assessment and Annotation ( http://arxiv.org/abs/2312.08593v1 ) ライセンス: Link先を確認 | Jean-Paul Mazellier, Antoine Boujon, M\'eline Bour-Lang, Ma\"el Erharhd, Julien Waechter, Emilie Wernert, Pietro Mascagni, Nicolas Padoy | (参考訳) MOSaiC 3.6.2は医用ビデオのアノテーションと評価を目的としたWebベースの協調プラットフォームである。
MOSaiCは、ビデオベースのアセスメントを促進し、外科的データサイエンスプロジェクトを促進するために設計された。
本稿では,モザイクの重要な機能,グループおよびビデオ管理,アノテーションツール,オントロジー,評価機能,ユーザ管理について概説する。
最後に、MOSaiCがデータセット開発に役立ったいくつかの医学データ科学研究について概説する。 This technical report presents MOSaiC 3.6.2, a web-based collaborative platform designed for the annotation and evaluation of medical videos. MOSaiC is engineered to facilitate video-based assessment and accelerate surgical data science projects. We provide an overview of MOSaiC's key functionalities, encompassing group and video management, annotation tools, ontologies, assessment capabilities, and user administration. Finally, we briefly describe several medical data science studies where MOSaiC has been instrumental in the dataset development. | 翻訳日:2023-12-16 00:22:04 公開日:2023-12-14 |
# マルチモーダルchatgptによる食事評価 : 体系的分析 Dietary Assessment with Multimodal ChatGPT: A Systematic Analysis ( http://arxiv.org/abs/2312.08592v1 ) ライセンス: Link先を確認 | Frank P.-W. Lo, Jianing Qiu, Zeyu Wang, Junhong Chen, Bo Xiao, Wu Yuan, Stamatia Giannarou, Gary Frost, Benny Lo | (参考訳) 食事アセスメントの従来のアプローチは、主に栄養士の監督の下で行われる自己報告方法や構造化面接に基礎を置いている。
しかし、これらの方法はしばしば主観的、潜在的に不正確であり、時間集約的である。
ai(artificial intelligence)ベースのソリューションは、食事アセスメントプロセスを自動化するために考案されているが、これらの以前のai方法論は、さまざまな種類の食品タイプ、食事行動、文化的文脈を一般化する能力の課題に遭遇する。
これにより、限られた特殊化と限られた精度を有する食事分野におけるAI応用が可能となる。
近年、最新のChatGPTを駆動するGPT-4Vのようなマルチモーダル基盤モデルの出現は、様々な研究領域において、幅広いタスク(シーン理解や画像キャプションなど)にわたる変換可能性を示している。
これらのモデルは、様々なデータモダリティを処理できる、顕著な一般知性と正確性を示している。
本研究では,食事アセスメントの領域におけるマルチモーダルChatGPTの適用について検討する。
以上の結果から,GPT-4Vは食品特異的データセットを用いた微調整や適応を行うことなく,87.5%の精度で食品検出に優れていた。
特定の言語プロンプト(例えばアフリカ料理)でモデルを導くことで、米やパンのような一般的な主食の認識から、バンクーやウガリといった地域料理の正確な識別へと移行する。
GPT-4Vのもう一つの特徴は文脈認識である。
GPT-4Vは、周囲の物体をスケール基準として利用して食品の部位サイズを推定し、食品重量を栄養分に翻訳する精度を高める。
このUSDA National Nutrient Databaseとの整合性は、GPT-4Vが栄養科学と食事アセスメント技術を進歩させる可能性を示している。 Conventional approaches to dietary assessment are primarily grounded in self-reporting methods or structured interviews conducted under the supervision of dietitians. These methods, however, are often subjective, potentially inaccurate, and time-intensive. Although artificial intelligence (AI)-based solutions have been devised to automate the dietary assessment process, these prior AI methodologies encounter challenges in their ability to generalize across a diverse range of food types, dietary behaviors, and cultural contexts. This results in AI applications in the dietary field that possess a narrow specialization and limited accuracy. Recently, the emergence of multimodal foundation models such as GPT-4V powering the latest ChatGPT has exhibited transformative potential across a wide range of tasks (e.g., Scene understanding and image captioning) in numerous research domains. These models have demonstrated remarkable generalist intelligence and accuracy, capable of processing various data modalities. In this study, we explore the application of multimodal ChatGPT within the realm of dietary assessment. Our findings reveal that GPT-4V excels in food detection under challenging conditions with accuracy up to 87.5% without any fine-tuning or adaptation using food-specific datasets. By guiding the model with specific language prompts (e.g., African cuisine), it shifts from recognizing common staples like rice and bread to accurately identifying regional dishes like banku and ugali. Another GPT-4V's standout feature is its contextual awareness. GPT-4V can leverage surrounding objects as scale references to deduce the portion sizes of food items, further enhancing its accuracy in translating food weight into nutritional content. This alignment with the USDA National Nutrient Database underscores GPT-4V's potential to advance nutritional science and dietary assessment techniques. | 翻訳日:2023-12-16 00:21:57 公開日:2023-12-14 |
# Joint2Human: 3Dジョイントのコンパクトな球面埋め込みによる高品質な3Dヒューマンジェネレーション Joint2Human: High-quality 3D Human Generation via Compact Spherical Embedding of 3D Joints ( http://arxiv.org/abs/2312.08591v1 ) ライセンス: Link先を確認 | Muxin Zhang, Qiao Feng, Zhuo Su, Chao Wen, Zhou Xue, Kun Li | (参考訳) 3d人間生成は、様々な応用においてますます重要になっている。
しかし、3d生成における2次元生成法の直接使用は、しばしば局所的な詳細を失うが、生成された画像から幾何学を再構成する手法は、グローバルビューの一貫性に苦しむ。
本研究では,2次元拡散モデルを用いて3次元形状を直接生成し,大域構造と局所的詳細の両方を保証する新しい手法である joint2human を紹介する。
これを実現するために,フーリエ占有場(fof)表現を用い,2次元生成モデルを用いて3次元形状の直接生成を可能にする。
提案する高周波エンハンサーと多視点リカービング戦略により,異なる視点からの細部を均一なグローバル形状にシームレスに統合し,3次元人間の前処理をよりよく活用し,生成した形状の制御性を高めるため,3次元関節のコンパクトな球形埋め込みを導入する。
これにより、生成プロセス中にポーズガイダンスを効果的に適用することができる。
また,テキスト入力で誘導された3次元人間を生成できる。
実験により,グローバルな構造,局所的な詳細,高解像度,低計算コストを同時に確保できることを示す。
さらなる結果とコードは、プロジェクトのページ http://cic.tju.edu.cn/faculty/likun/projects/Joint2Human で確認できます。 3D human generation is increasingly significant in various applications. However, the direct use of 2D generative methods in 3D generation often results in significant loss of local details, while methods that reconstruct geometry from generated images struggle with global view consistency. In this work, we introduce Joint2Human, a novel method that leverages 2D diffusion models to generate detailed 3D human geometry directly, ensuring both global structure and local details. To achieve this, we employ the Fourier occupancy field (FOF) representation, enabling the direct production of 3D shapes as preliminary results using 2D generative models. With the proposed high-frequency enhancer and the multi-view recarving strategy, our method can seamlessly integrate the details from different views into a uniform global shape.To better utilize the 3D human prior and enhance control over the generated geometry, we introduce a compact spherical embedding of 3D joints. This allows for effective application of pose guidance during the generation process. Additionally, our method is capable of generating 3D humans guided by textual inputs. Our experimental results demonstrate the capability of our method to ensure global structure, local details, high resolution, and low computational cost, simultaneously. More results and code can be found on our project page at http://cic.tju.edu.cn/faculty/likun/projects/Joint2Human. | 翻訳日:2023-12-16 00:21:25 公開日:2023-12-14 |
# ゼロ階プロセス忠実度を状態準備と測定誤差から独立にすること Making the zeroth-order process fidelity independent of state preparation and measurement errors ( http://arxiv.org/abs/2312.08590v1 ) ライセンス: Link先を確認 | Yu-Hao Chen, Renata Wong, Hsi-Sheng Goan | (参考訳) プロセス忠実性の近似として、ゼロ忠実性と呼ばれるプロトコルが最近提案されている。
これはゼロ階プロセスの忠実さと解釈できる。
複雑な実験的設定や長時間実行といったプロセスの忠実さの問題を修正する。
しかし、プロセスフィデリティと同様に、ゼロフィデリティは状態準備および測定(spam)エラーにも頑健ではない。
これにより、両方のプロトコルの実用性は制限される。
本稿では,SPAM誤差が制御NOTゲートを含むチャネルと制御Zゲートを含むチャネルの2つの操作チャネルのゼロ忠実性に与える影響について検討する。
次に,この2つのチャンネルを比較し,その間のゼロ忠実度の違いをチェックする。
最後に,SPAMエラーとは無関係なゼロ忠実度プロトコルを実現するために,ランダム化ベンチマーク(RB)プロトコルと組み合わせる。 A protocol called zero-fidelity was recently proposed as an approximation to the process fidelity. It can be understood as the zeroth-order process fidelity. It remedies problems of the process fidelity such as complex experimental settings and long running times. However, like the process fidelity, zero-fidelity is also not robust to state preparation and measurement (SPAM) errors. This limits both protocols' usefulness for real devices. Here, we investigate how SPAM errors affect the zero-fidelity for two operation channels: one channel containing controlled-NOT gates and the other containing controlled-Z gates. Then, we compare these two channels by checking the difference in the zero-fidelities between them. Finally, to make the zero-fidelity protocol independent of SPAM errors, we combine it with the randomized benchmarking (RB) protocol. | 翻訳日:2023-12-16 00:20:59 公開日:2023-12-14 |
# 適切な校正誤差の一貫性と漸近的不偏推定 Consistent and Asymptotically Unbiased Estimation of Proper Calibration Errors ( http://arxiv.org/abs/2312.08589v1 ) ライセンス: Link先を確認 | Teodora Popordanoska, Sebastian G. Gruber, Aleksei Tiulpin, Florian Buettner, Matthew B. Blaschko | (参考訳) 適切なスコアリングルールは確率的予測の品質を評価し、正確で校正されたモデルの追求に不可欠な役割を果たす。
すべての適切なスコアは、ブレグマンの発散を利用して、2つの基本的なコンポーネント(適切な校正誤差と精細化)に分解される。
不確実性の校正は注目されているが、現在の文献は、既知の統計的性質を持つこれらの量に対する一般的な推定器を欠いている。
そこで本研究では,すべての適切な校正誤差と補正項の一貫性,漸近的および偏りのない推定を可能にする手法を提案する。
特に,一般的に使用されるクロスエントロピー損失によるKulback-Leiblerキャリブレーション誤差を導入する。
本研究の結果は, 適切なスコアリングルールが最適化されているかに関わらず, ニューラルネットワークにおける情報単調性を意味するf-分節と精製の関係を証明した。
本実験は,提案する推定器の特性を実証的に検証し,ポストホックキャリブレーション法の選択は,特定のキャリブレーション誤差によって決定されるべきであることを示す。 Proper scoring rules evaluate the quality of probabilistic predictions, playing an essential role in the pursuit of accurate and well-calibrated models. Every proper score decomposes into two fundamental components -- proper calibration error and refinement -- utilizing a Bregman divergence. While uncertainty calibration has gained significant attention, current literature lacks a general estimator for these quantities with known statistical properties. To address this gap, we propose a method that allows consistent, and asymptotically unbiased estimation of all proper calibration errors and refinement terms. In particular, we introduce Kullback--Leibler calibration error, induced by the commonly used cross-entropy loss. As part of our results, we prove the relation between refinement and f-divergences, which implies information monotonicity in neural networks, regardless of which proper scoring rule is optimized. Our experiments validate empirically the claimed properties of the proposed estimator and suggest that the selection of a post-hoc calibration method should be determined by the particular calibration error of interest. | 翻訳日:2023-12-16 00:20:48 公開日:2023-12-14 |
# ラベルなしラベルシフト時の校正誤差の推定 Estimating calibration error under label shift without labels ( http://arxiv.org/abs/2312.08586v1 ) ライセンス: Link先を確認 | Teodora Popordanoska, Gorjan Radevski, Tinne Tuytelaars, Matthew B. Blaschko | (参考訳) データセットシフトに直面した場合、モデルキャリブレーションは、機械学習システムの信頼性を確保する上で重要な役割を果たす。
校正誤差(CE)は、予測確率と分類器の精度の一致の指標である。
以前の研究は、キャリブレーションにおけるデータセットのシフトの意味を掘り下げているが、既存のce推定者は、モデルがデプロイされ使用されるときに、実際に利用できない場合が多いターゲットドメインからのラベルへのアクセスを想定している。
この研究はこのような困難なシナリオに対処し、ソースとターゲットの分布の間に条件付き$p(X|Y)$定数を保ちながらラベル分布の変化を特徴とするラベルシフトの下での新しいCE推定器を提案する。
我々の貢献は、ラベル付きソース分布の重み付けを生かして、シフトしたターゲット分布に対する一貫性と漸近的にないCE推定を提供するアプローチである。
実世界の様々なデータセットにまたがる実験結果とラベルシフト強度は,提案した推定器の有効性と信頼性を示す。 In the face of dataset shift, model calibration plays a pivotal role in ensuring the reliability of machine learning systems. Calibration error (CE) is an indicator of the alignment between the predicted probabilities and the classifier accuracy. While prior works have delved into the implications of dataset shift on calibration, existing CE estimators assume access to labels from the target domain, which are often unavailable in practice, i.e., when the model is deployed and used. This work addresses such challenging scenario, and proposes a novel CE estimator under label shift, which is characterized by changes in the marginal label distribution $p(Y)$, while keeping the conditional $p(X|Y)$ constant between the source and target distributions. Our contribution is an approach, which, by leveraging importance re-weighting of the labeled source distribution, provides consistent and asymptotically unbiased CE estimation with respect to the shifted target distribution. Empirical results across diverse real-world datasets, under various conditions and label-shift intensities, demonstrate the effectiveness and reliability of the proposed estimator. | 翻訳日:2023-12-16 00:20:29 公開日:2023-12-14 |
# 知識蒸留の重要な要因の解明 Unraveling Key Factors of Knowledge Distillation ( http://arxiv.org/abs/2312.08585v1 ) ライセンス: Link先を確認 | Jingxuan Wei, Linzhuang Sun, Xu Tan, Bihui Yu, Ruifeng Guo | (参考訳) モデル圧縮と性能向上のための技術である知識蒸留は、ニューラルマシン翻訳(nmt)において大きな注目を集めている。
しかし、既存の研究は主に経験的応用に焦点を当てており、学生モデルの能力、データの複雑さ、復号化戦略が蒸留の有効性にどのように影響するかを包括的に理解していない。
そこで本研究では,nmt内の単語レベルとシーケンスレベルの蒸留における相互作用に着目し,これらの要因について詳細に検討する。
IWSLT13 En$\rightarrow$Fr, IWSLT14 En$\rightarrow$Deなどのデータセットにわたる広範な実験を通じて、これらの要因が知識蒸留に与える影響に関する仮説を実証的に検証する。
本研究は, モデル容量, データ複雑性, 復号化戦略が蒸留効率に与える影響を解明するだけでなく, 新たな最適化蒸留手法も導入する。
このアプローチは、IWSLT14 de$\rightarrow$en翻訳タスクに適用され、最先端の性能を実現し、NMTの分野を前進させる実用的な効果を示す。 Knowledge distillation, a technique for model compression and performance enhancement, has gained significant traction in Neural Machine Translation (NMT). However, existing research primarily focuses on empirical applications, and there is a lack of comprehensive understanding of how student model capacity, data complexity, and decoding strategies collectively influence distillation effectiveness. Addressing this gap, our study conducts an in-depth investigation into these factors, particularly focusing on their interplay in word-level and sequence-level distillation within NMT. Through extensive experimentation across datasets like IWSLT13 En$\rightarrow$Fr, IWSLT14 En$\rightarrow$De, and others, we empirically validate hypotheses related to the impact of these factors on knowledge distillation. Our research not only elucidates the significant influence of model capacity, data complexity, and decoding strategies on distillation effectiveness but also introduces a novel, optimized distillation approach. This approach, when applied to the IWSLT14 de$\rightarrow$en translation task, achieves state-of-the-art performance, demonstrating its practical efficacy in advancing the field of NMT. | 翻訳日:2023-12-16 00:20:10 公開日:2023-12-14 |
# ZeroQuant(4+2): FP6-Centric Strategy for Diverse Generative Tasks による LLM 量子化の再定義 ZeroQuant(4+2): Redefining LLMs Quantization with a New FP6-Centric Strategy for Diverse Generative Tasks ( http://arxiv.org/abs/2312.08583v1 ) ライセンス: Link先を確認 | Xiaoxia Wu, Haojun Xia, Stephen Youn, Zhen Zheng, Shiyang Chen, Arash Bakhtiari, Michael Wyatt, Yuxiong He, Olatunji Ruwase, Leon Song, Zhewei Yao | (参考訳) 本研究では,大規模言語モデル(LLM)におけるGPTQのような4ビット量子化手法について検討し,ゼロショットタスクにおけるGPTQの過度な適合と制限された拡張を強調した。
事前の作業はゼロショット計測のみに留まらず、コード生成や抽象的要約といったよりジェネレーティブなカテゴリにまでタスク範囲を拡大し、int4量子化は著しく過小評価できることがわかった。
しかし、FP6のようなより高精度なフォーマットに移行することは特に困難であり、現在のAIハードウェアに高度な統合とシステムアクセラレーション戦略が欠如していることによるパフォーマンスの低下によって見落とされた。
その結果、FP6は粗粒量子化方式でも様々なアルゴリズムやタスクに対して頑健に動作し、精度と汎用性に優れることを示した。
特に、FP6量子化では、コード生成におけるFP16と同等に動作し、406Mのような小さなモデルでは、要約においてベースラインと密に一致している。
INT4では達成できない。
各種AIハードウェアの適合性を向上し,最高のシステム性能を実現するため,FP6の新たな4+2設計を提案し,最先端のINT4微粒量子化に類似したレイテンシを実現する。
我々の設計により、FP6はLLMで使われる現在の4ビット量子化法の有望な解となる。 This study examines 4-bit quantization methods like GPTQ in large language models (LLMs), highlighting GPTQ's overfitting and limited enhancement in Zero-Shot tasks. While prior works merely focusing on zero-shot measurement, we extend task scope to more generative categories such as code generation and abstractive summarization, in which we found that INT4 quantization can significantly underperform. However, simply shifting to higher precision formats like FP6 has been particularly challenging, thus overlooked, due to poor performance caused by the lack of sophisticated integration and system acceleration strategies on current AI hardware. Our results show that FP6, even with a coarse-grain quantization scheme, performs robustly across various algorithms and tasks, demonstrating its superiority in accuracy and versatility. Notably, with the FP6 quantization, \codestar-15B model performs comparably to its FP16 counterpart in code generation, and for smaller models like the 406M it closely matches their baselines in summarization. Neither can be achieved by INT4. To better accommodate various AI hardware and achieve the best system performance, we propose a novel 4+2 design for FP6 to achieve similar latency to the state-of-the-art INT4 fine-grain quantization. With our design, FP6 can become a promising solution to the current 4-bit quantization methods used in LLMs. | 翻訳日:2023-12-16 00:19:50 公開日:2023-12-14 |
# 天文学論文における惑星名同定 : マルチステップアプローチ Identifying Planetary Names in Astronomy Papers: A Multi-Step Approach ( http://arxiv.org/abs/2312.08579v1 ) ライセンス: Link先を確認 | Golnaz Shapurian, Michael J Kurtz, and Alberto Accomazzi | (参考訳) 天文学出版物における惑星名の自動識別には多くの課題がある。
これらの特徴は、衝突や火山活動によって生じる概ね円形の凹凸として定義されるクレーター、長く伸びた構造物やひび割れの尾根、月面の暗い滑らかな物質の小さな不規則な斑点、すなわち「ラク」(Planetary Names Working Group, n.d.)である。
多くの特徴名はシリア、テンペ、アインシュタイン、セーガンといった地名に因んで命名された場所や人々の名前と重なり合い、いくつかの地名(アメリカ合衆国地質調査所)を冠している。
例えばアポロは、月上のクレーターに加えて、ミッション、プログラム、サンプル、宇宙飛行士、地震計、地震計、コア、時代、データ、収集、機器、ステーションなど、様々な場面で使われている。
いくつかの特徴名は、月のクレーターである黒、緑、白などの形容詞としてテキストに現れる。
他の文脈でのいくつかの特徴名は、月の西と南のクレーターのような方向として機能する。
さらに、いくつかの特徴は、月と火星の両方に存在するアダムズクレーターのような曖昧さをなくすために、異なる天体に同じ名前を持つ。
本稿では,ルールに基づくフィルタリング,統計的関連分析,部分音声(pos)タグ付け,名前付きエンティティ認識(ner)モデル,ハイブリッドキーワード抽出,知識グラフ(kg)マッチング,および局所的に設置された大規模言語モデル(llm)による推論を組み合わせた多段階パイプラインを提案する。
ADS(Astrophysics Data System)の天文学論文のデータセットで評価すると、この手法は惑星の特徴を曖昧にするために0.97以上のF1スコアを達成する。 The automatic identification of planetary feature names in astronomy publications presents numerous challenges. These features include craters, defined as roughly circular depressions resulting from impact or volcanic activity; dorsas, which are elongate raised structures or wrinkle ridges; and lacus, small irregular patches of dark, smooth material on the Moon, referred to as "lake" (Planetary Names Working Group, n.d.). Many feature names overlap with places or people's names that they are named after, for example, Syria, Tempe, Einstein, and Sagan, to name a few (U.S. Geological Survey, n.d.). Some feature names have been used in many contexts, for instance, Apollo, which can refer to mission, program, sample, astronaut, seismic, seismometers, core, era, data, collection, instrument, and station, in addition to the crater on the Moon. Some feature names can appear in the text as adjectives, like the lunar craters Black, Green, and White. Some feature names in other contexts serve as directions, like craters West and South on the Moon. Additionally, some features share identical names across different celestial bodies, requiring disambiguation, such as the Adams crater, which exists on both the Moon and Mars. We present a multi-step pipeline combining rule-based filtering, statistical relevance analysis, part-of-speech (POS) tagging, named entity recognition (NER) model, hybrid keyword harvesting, knowledge graph (KG) matching, and inference with a locally installed large language model (LLM) to reliably identify planetary names despite these challenges. When evaluated on a dataset of astronomy papers from the Astrophysics Data System (ADS), this methodology achieves an F1-score over 0.97 in disambiguating planetary feature names. | 翻訳日:2023-12-16 00:19:22 公開日:2023-12-14 |
# 行動認識のための生成モデルに基づく特徴知識蒸留 Generative Model-based Feature Knowledge Distillation for Action Recognition ( http://arxiv.org/abs/2312.08644v1 ) ライセンス: Link先を確認 | Guiqin Wang, Peng Zhao, Yanjiang Shi, Cong Zhao, Shusen Yang | (参考訳) コンピュータビジョンで広く使われる技術である知識蒸留(kd)は、小型ニューラルネットワークの性能向上のためのデファクトスタンダードとして登場した。
しかしながら、ビデオタスクにおけるkdベースのアプローチは、主に損失関数の設計とクロスモーダル情報の使用に焦点を当てている。
これは空間的時間的特徴セマンティクスを見落とし、モデル圧縮の限られた進歩をもたらす。
このギャップに対処するため,本稿では,軽量学生モデルの学習のための生成モデルを用いて,革新的な知識蒸留フレームワークを提案する。
最初のフェーズは特徴表現(Feature Representation)であり、生成モデルベースのアテンションモジュールは特徴セマンティクスを表現するために訓練され、その後、生成モデルでアテンションベースのアテンションセマンティクスを転送する目的で、生成モデルベースの特徴蒸留(Generative Distillation)とアテンション蒸留(Attention Distillation)の両方を含む。
提案手法の有効性は,様々な人気データセットの総合的な実験を通じて実証され,映像行動認識タスクの大幅な向上が証明された。
さらに,より複雑な映像行動検出タスクの文脈において,提案手法の有効性を検証した。
私たちのコードはhttps://github.com/aaai-24/生成ベースのkdで利用可能です。 Knowledge distillation (KD), a technique widely employed in computer vision, has emerged as a de facto standard for improving the performance of small neural networks. However, prevailing KD-based approaches in video tasks primarily focus on designing loss functions and fusing cross-modal information. This overlooks the spatial-temporal feature semantics, resulting in limited advancements in model compression. Addressing this gap, our paper introduces an innovative knowledge distillation framework, with the generative model for training a lightweight student model. In particular, the framework is organized into two steps: the initial phase is Feature Representation, wherein a generative model-based attention module is trained to represent feature semantics; Subsequently, the Generative-based Feature Distillation phase encompasses both Generative Distillation and Attention Distillation, with the objective of transferring attention-based feature semantics with the generative model. The efficacy of our approach is demonstrated through comprehensive experiments on diverse popular datasets, proving considerable enhancements in video action recognition task. Moreover, the effectiveness of our proposed framework is validated in the context of more intricate video action detection task. Our code is available at https://github.com/aaai-24/Generative-based-KD. | 翻訳日:2023-12-16 00:13:02 公開日:2023-12-14 |
# 正の強化をともなうメタ認知機能を有するフイショットプロンプト Metacognition-Enhanced Few-Shot Prompting With Positive Reinforcement ( http://arxiv.org/abs/2312.08642v1 ) ライセンス: Link先を確認 | Yu Ji and Wen Wu and Yi Hu and Hong Zheng and Liang He | (参考訳) 少数ショットプロンプトは、入力にいくつかのデモ例を組み込むことで、大きな言語モデルの驚くべき能力を引き出す。
しかし、実演されたすべての入出力ペアを一度に持つ大規模な言語モデルを提供する従来の方法は、特定の入出力マッピング関係を学ぶために、大きな言語モデルを効果的に導くことはできない。
本稿では,学生の学習におけるメタ認知の規制的かつ支援的な役割に着想を得て,大規模言語モデルに思考過程を反映させ,与えられた実演例を包括的に学習させる,メタ認知に富んだ新規なショットプロンプトを提案する。
さらに,学生の学習モチベーションを向上させることを考えると,反応に基づく肯定的なフィードバックを提供することで,大規模言語モデルの数発学習を促進するメタ認知の強化が促進される。
実世界の2つのデータセットによる実験結果から,メタ認知によって増強された数ショットは,分類精度とマクロF1において従来の数ショットを超えることが判明した。 Few-shot prompting elicits the remarkable abilities of large language models by equipping them with a few demonstration examples in the input. However, the traditional method of providing large language models with all demonstration input-output pairs at once may not effectively guide large language models to learn the specific input-output mapping relationship. In this paper, inspired by the regulatory and supportive role of metacognition in students' learning, we propose a novel metacognition-enhanced few-shot prompting, which guides large language models to reflect on their thought processes to comprehensively learn the given demonstration examples. Furthermore, considering that positive reinforcement can improve students' learning motivation, we introduce positive reinforcement into our metacognition-enhanced few-shot prompting to promote the few-shot learning of large language models by providing response-based positive feedback. The experimental results on two real-world datasets show that our metacognition-enhanced few-shot prompting with positive reinforcement surpasses traditional few-shot prompting in classification accuracy and macro F1. | 翻訳日:2023-12-16 00:12:42 公開日:2023-12-14 |
# mmap : クロスドメインマルチタスク学習のためのマルチモーダルアライメントプロンプト MmAP : Multi-modal Alignment Prompt for Cross-domain Multi-task Learning ( http://arxiv.org/abs/2312.08636v1 ) ライセンス: Link先を確認 | Yi Xin, Junlong Du, Qiang Wang, Ke Yan, Shouhong Ding | (参考訳) マルチタスク学習(MTL)は、複数の関連タスクを同時に訓練し、個々のタスクのパフォーマンスを向上させるように設計されている。
通常、マルチタスクネットワーク構造は共有バックボーンとタスク固有のデコーダで構成される。
しかし、デコーダの複雑さはタスクの数によって増加する。
この課題に取り組むため,我々は,ゼロショット一般化機能を有するデコーダフリーな視覚言語モデルクリップを統合する。
近年,下流タスクに適応するクリップを用いてパラメータ効率のよい転送学習手法が広く研究され,プロンプトチューニングが強い可能性を示している。
にもかかわらず、これらの手法は単一のモダリティ(テキストや視覚)のみを微調整し、CLIPのモダリティ構造を乱す。
本稿では,まずテキストと視覚のモダリティを微調整するクリップ用マルチモーダルアライメントプロンプト(mmap)を提案する。
MmAPを基盤として,革新的なマルチタスク・プロンプト学習フレームワークを開発した。
一方,タスクの相補性を高い類似度で最大化するために,タスクを複数の非結合グループに分割し,グループ共有mmapを各グループに割り当てる勾配駆動タスクグループ化手法を用いる。
一方,各タスクの特徴を保存するために,タスク固有のMmAPを各タスクに割り当てる。
2つの大規模マルチタスク学習データセットに関する包括的実験により、本手法は、トレーニング可能なパラメータの約0.09%のみを活用しながら、完全な微調整に比べて大幅に性能が向上することを示した。 Multi-Task Learning (MTL) is designed to train multiple correlated tasks simultaneously, thereby enhancing the performance of individual tasks. Typically, a multi-task network structure consists of a shared backbone and task-specific decoders. However, the complexity of the decoders increases with the number of tasks. To tackle this challenge, we integrate the decoder-free vision-language model CLIP, which exhibits robust zero-shot generalization capability. Recently, parameter-efficient transfer learning methods have been extensively explored with CLIP for adapting to downstream tasks, where prompt tuning showcases strong potential. Nevertheless, these methods solely fine-tune a single modality (text or visual), disrupting the modality structure of CLIP. In this paper, we first propose Multi-modal Alignment Prompt (MmAP) for CLIP, which aligns text and visual modalities during fine-tuning process. Building upon MmAP, we develop an innovative multi-task prompt learning framework. On the one hand, to maximize the complementarity of tasks with high similarity, we utilize a gradient-driven task grouping method that partitions tasks into several disjoint groups and assign a group-shared MmAP to each group. On the other hand, to preserve the unique characteristics of each task, we assign an task-specific MmAP to each task. Comprehensive experiments on two large multi-task learning datasets demonstrate that our method achieves significant performance improvements compared to full fine-tuning while only utilizing approximately 0.09% of trainable parameters. | 翻訳日:2023-12-16 00:12:23 公開日:2023-12-14 |
# 交絡エントロピーの測定と音韻系に対する位相的シグネチャ Measuring entanglement entropy and its topological signature for phononic systems ( http://arxiv.org/abs/2312.08632v1 ) ライセンス: Link先を確認 | Zhi-Kang Lin, Yao Zhou, Bin Jiang, Bing-Quan Wu, Li-Mei Chen, Xiao-Yu Liu, Li-Wei Wang, Peng Ye, and Jian-Hua Jiang | (参考訳) 絡み合うエントロピーは、量子情報科学、ブラックホール、物質科学など様々な分野において重要性が高まる基本的な概念である。
複雑な材料やシステムにおいて、絡み合いのエントロピーは、システムの複雑な振る舞いを過小評価する集合的な自由度に関する洞察を与える。
良く知られた予測として、絡み合いエントロピーはギャップ付き励起を持つ系の領域法則を示すが、これはギャップレスフェルミオン系におけるジョエフ・クリッヒ=ウィドムスケール法則に従う。
さらに、絡み合いスペクトルは、従来のパラダイムを超えた位相位相と位相遷移の健全な特徴を与える。
しかし、これらの基本的な予測の多くは、物理系の絡み合いエントロピーの測定が困難であるため、実験ではまだ確認されていない。
本稿では, 音韻系における非局所的相関を探索し, 上記の予測を実験的に検証する。
フォノン結晶のポンプ-プローブ応答から,フェルミオン充填アナログを持つフォノン系のエンタングルメントエントロピーとエンタングルメントスペクトルを得る。
これらの測定により, 1次元および2次元の様々な準粒子分散に対する絡み合いエントロピーのジョエフ・クリッヒ=ウィドムスケーリング則を検証する。
さらに, 絡み合いスペクトルおよび絡み合いエントロピーにおける位相位相の顕著なシグネチャを観察し, バルク境界対応に頼らずに, 前例のない位相のプローブを明らかにする。
ここでの進歩は、絡み合いのエントロピーが、非エルミートやその他の非伝統的体制に一般化できる創発的な相と相転移の研究において重要な実験ツールとなるフロンティアを開く。 Entanglement entropy is a fundamental concept with rising importance in different fields ranging from quantum information science, black holes to materials science. In complex materials and systems, entanglement entropy provides insight into the collective degrees of freedom that underlie the systems' complex behaviours. As well-known predictions, the entanglement entropy exhibits area laws for systems with gapped excitations, whereas it follows the Gioev-Klich-Widom scaling law in gapless fermion systems. Furthermore, the entanglement spectrum provides salient characterizations of topological phases and phase transitions beyond the conventional paradigms. However, many of these fundamental predictions have not yet been confirmed in experiments due to the difficulties in measuring entanglement entropy in physical systems. Here, we report the experimental verification of the above predictions by probing the nonlocal correlations in phononic systems. From the pump-probe responses in phononic crystals, we obtain the entanglement entropy and entanglement spectrum for phononic systems with the fermion filling analog. With these measurements, we verify the Gioev-Klich-Widom scaling law of entanglement entropy for various quasiparticle dispersions in one- and two-dimensions. Moreover, we observe the salient signatures of topological phases in the entanglement spectrum and entanglement entropy which unveil an unprecedented probe of topological phases without relying on the bulk-boundary correspondence. The progress here opens a frontier where entanglement entropy serves as an important experimental tool in the study of emergent phases and phase transitions which can be generalized to non-Hermitian and other unconventional regimes. | 翻訳日:2023-12-16 00:11:58 公開日:2023-12-14 |
# マスケッドモデリングを用いた半教師付きセマンティックセマンティックセマンティックセマンティゼーション:一貫性規則化における局所性学習の課題 Semi-supervised Semantic Segmentation Meets Masked Modeling:Fine-grained Locality Learning Matters in Consistency Regularization ( http://arxiv.org/abs/2312.08631v1 ) ライセンス: Link先を確認 | Wentao Pan, Zhe Xu, Jiangpeng Yan, Zihan Wu, Raymond Kai-yu Tong, Xiu Li, Jianhua Yao | (参考訳) 半教師付き意味セグメンテーションは、限定されたラベル付き画像と豊富なラベル付き画像を利用してラベル効率のよい学習を実現することを目的としている。
有効性にもかかわらず、そのようなスキームは地域において満足なセグメンテーションに苦しむ。
これは、元々は画像分類タスクに由来し、密集した予測を優先するきめ細かい局所意味論をキャプチャする特別なメカニズムを欠いているためかもしれない。
そこで本研究では,より詳細な局所性学習により,より高密度なセグメンテーションを実現するための新しいフレームワークである「texttt{MaskMatch}」を提案する。
本研究は,従来の教師学生用フレームワーク上で,教師モデルが生成した擬似ラベルに整合性を持たせるために,学生モデルに対して,未成年イメージパッチ(30%のみ)のセグメンテーションの予測を促すマスク付きモデリングプロキシタスクを設計する。
このような設計は、隣接する情報が不十分な場合に予測がより一貫したものになると、よりきめ細かい局所性知覚が達成されるという直感に動機づけられる。
さらに,上記の局所学習における信頼性の高い疑似ラベルの重要性と,元の一貫性学習手法を認識し,疑似ラベル生成のための異なる抽象レベルでの文脈を考慮したマルチスケールセンシング戦略を考案する。
ベンチマークデータセットの大規模な実験は、従来の手法とプラグアンドプレイの柔軟性に対する我々の手法の優位性を実証している。 Semi-supervised semantic segmentation aims to utilize limited labeled images and abundant unlabeled images to achieve label-efficient learning, wherein the weak-to-strong consistency regularization framework, popularized by FixMatch, is widely used as a benchmark scheme. Despite its effectiveness, we observe that such scheme struggles with satisfactory segmentation for the local regions. This can be because it originally stems from the image classification task and lacks specialized mechanisms to capture fine-grained local semantics that prioritizes in dense prediction. To address this issue, we propose a novel framework called \texttt{MaskMatch}, which enables fine-grained locality learning to achieve better dense segmentation. On top of the original teacher-student framework, we design a masked modeling proxy task that encourages the student model to predict the segmentation given the unmasked image patches (even with 30\% only) and enforces the predictions to be consistent with pseudo-labels generated by the teacher model using the complete image. Such design is motivated by the intuition that if the predictions are more consistent given insufficient neighboring information, stronger fine-grained locality perception is achieved. Besides, recognizing the importance of reliable pseudo-labels in the above locality learning and the original consistency learning scheme, we design a multi-scale ensembling strategy that considers context at different levels of abstraction for pseudo-label generation. Extensive experiments on benchmark datasets demonstrate the superiority of our method against previous approaches and its plug-and-play flexibility. | 翻訳日:2023-12-16 00:11:32 公開日:2023-12-14 |
# 安全工学のためのLLMベースの知識Q&AシステムChatSOS ChatSOS: LLM-based knowledge Q&A system for safety engineering ( http://arxiv.org/abs/2312.08629v1 ) ライセンス: Link先を確認 | Haiyang Tang, Zhenyi Liu, Dongping Chen, Qingzhao Chu | (参考訳) 大規模言語モデル(LLM)の最近の進歩は、特に自然言語処理(NLP)能力を推進し、安全工学の応用において大きな可能性を示している。
これらの進歩にもかかわらず、LLMは、コーパスサイズ、入力処理の制限、プライバシー上の懸念といった要因により、特別なタスクを処理する際の制約に直面している。
LLMには、信頼できる情報源から限られた時間で有用な情報を取得することが不可欠である。
そこで本研究では,LLMに基づく安全工学のためのQ&Aシステムを導入し,モデルの理解と応答精度を向上させる。
私たちは、外部知識データベースを組み込むために、迅速なエンジニアリングを採用しました。
本システムは,統計的手法を用いて過去のインシデントレポートを分析し,ベクトル埋め込みを用いてベクトルデータベースを構築し,効率的な類似性に基づく検索機能を提供する。
以上の結果から,外部知識の統合は,詳細な問題解析と自律的タスク割り当てにおいて,llmの能力を大幅に向上させることが示唆された。
事故報告を効果的に要約し、関連する勧告を提供する。
この統合アプローチは、安全工学におけるLLMアプリケーションを拡張するだけでなく、自動化とインテリジェントシステムに向けた将来の開発の前例となる。 Recent advancements in large language models (LLMs) have notably propelled natural language processing (NLP) capabilities, demonstrating significant potential in safety engineering applications. Despite these advancements, LLMs face constraints in processing specialized tasks, attributed to factors such as corpus size, input processing limitations, and privacy concerns. Obtaining useful information from reliable sources in a limited time is crucial for LLM. Addressing this, our study introduces an LLM-based Q&A system for safety engineering, enhancing the comprehension and response accuracy of the model. We employed prompt engineering to incorporate external knowledge databases, thus enriching the LLM with up-to-date and reliable information. The system analyzes historical incident reports through statistical methods, utilizes vector embedding to construct a vector database, and offers an efficient similarity-based search functionality. Our findings indicate that the integration of external knowledge significantly augments the capabilities of LLM for in-depth problem analysis and autonomous task assignment. It effectively summarizes accident reports and provides pertinent recommendations. This integration approach not only expands LLM applications in safety engineering but also sets a precedent for future developments towards automation and intelligent systems. | 翻訳日:2023-12-16 00:10:57 公開日:2023-12-14 |
# YOLO-OB:大腸内視鏡におけるアンカーフリーリアルタイムマルチスケール大腸ポリープ検出装置の改良 YOLO-OB: An improved anchor-free real-time multiscale colon polyp detector in colonoscopy ( http://arxiv.org/abs/2312.08628v1 ) ライセンス: Link先を確認 | Xiao Yang, Enmin Song, Guangzhi Ma, Yunfeng Zhu, Dongming Yu, Bowen Ding, Xianyuan Wang | (参考訳) 大腸癌は2023年に米国で2番目に大きながんの死因になると予想されている。
大腸内視鏡は大腸癌の早期予防に最も有効な方法の1つであるが、内科医はポリープの最大30%を欠く可能性があるため、大腸癌の発症リスクが高くなる。
ディープニューラルネットワークはポリプの検出率を高める効果的な手段であることが証明されている。
しかし, ポリプサイズの変化は, 1) 効率的かつ十分なマルチスケールな特徴融合構造を設計することが困難であり, (2) 異なるサイズのポリプを固定サイズのアンカーボックスでマッチングすることは困難である。
これらの問題はポリープ検出の性能を低下させ、モデルのトレーニングと検出効率を低下させる。
これらの課題に対処するために, YOLO-OBと呼ばれる新しいモデルを提案する。
具体的には,CNNの異なる深さにまたがる機能融合能力を向上できる双方向多スケール機能融合構造BiSPFPNを開発した。
objectbox detection headは,様々なサイズのポリプを任意のスケールの機能マップ上で検出可能な,センターベースのアンカーフリーボックス回帰戦略を採用した。
公開データセットsunと自己収集型コロンポリープデータセット連合の実験により,提案モデルがポリープ検出,特にリコール率の様々な性能指標を著しく改善したことが示された。
公開データセットsunの最新の結果と比較すると、提案手法はリコール率を91.5%から98.23%に6.73%向上させた。
さらに,我々のYOLO-OBは,RTX3090グラフィックスカードを用いて,毎秒39フレームのリアルタイムポリープ検出を実現した。
本論文の実装は、https://github.com/seanyan62/yolo-ob。 Colon cancer is expected to become the second leading cause of cancer death in the United States in 2023. Although colonoscopy is one of the most effective methods for early prevention of colon cancer, up to 30% of polyps may be missed by endoscopists, thereby increasing patients' risk of developing colon cancer. Though deep neural networks have been proven to be an effective means of enhancing the detection rate of polyps. However, the variation of polyp size brings the following problems: (1) it is difficult to design an efficient and sufficient multi-scale feature fusion structure; (2) matching polyps of different sizes with fixed-size anchor boxes is a hard challenge. These problems reduce the performance of polyp detection and also lower the model's training and detection efficiency. To address these challenges, this paper proposes a new model called YOLO-OB. Specifically, we developed a bidirectional multiscale feature fusion structure, BiSPFPN, which could enhance the feature fusion capability across different depths of a CNN. We employed the ObjectBox detection head, which used a center-based anchor-free box regression strategy that could detect polyps of different sizes on feature maps of any scale. Experiments on the public dataset SUN and the self-collected colon polyp dataset Union demonstrated that the proposed model significantly improved various performance metrics of polyp detection, especially the recall rate. Compared to the state-of-the-art results on the public dataset SUN, the proposed method achieved a 6.73% increase on recall rate from 91.5% to 98.23%. Furthermore, our YOLO-OB was able to achieve real-time polyp detection at a speed of 39 frames per second using a RTX3090 graphics card. The implementation of this paper can be found here: https://github.com/seanyan62/YOLO-OB. | 翻訳日:2023-12-16 00:10:36 公開日:2023-12-14 |
# 地下流れ最適化のためのグラフネットワークサロゲートモデル Graph Network Surrogate Model for Subsurface Flow Optimization ( http://arxiv.org/abs/2312.08625v1 ) ライセンス: Link先を確認 | Haoyu Tang and Louis J. Durlofsky | (参考訳) 井戸の位置と制御の最適化は、石油生産や地質的なCO2貯蔵などの地下流動操作の設計において重要なステップである。
しかし、これらの最適化問題は計算量的に高価であり、多くの候補解を評価する必要がある。
本研究では,適切な配置と制御を最適化するためのグラフネットワークサロゲートモデル(GNSM)を提案する。
GNSMはフローモデルを符号化・処理・復号アーキテクチャを含む計算グラフに変換する。
圧力と飽和状態変数のグローバル予測を提供するために、別々のネットワークが構築されている。
モデル性能は単相定常圧力溶液を特徴として含むことで向上する。
多段階のマルチステップ戦略が訓練に使用される。
訓練されたGNSMを用いて,流路型貯水池の2次元非構造モデルにおける流れの応答を予測する。
実験では, モデル全体を通して5つの射出井戸と5つの生産井戸をランダムに配置し, それぞれの井戸にランダム制御変数(ボトムホール圧力)を割り当てた。
圧力および飽和の中間的相対誤差は300例で1-2%であった。
トレーニングされたGNSMが、新しい(地質学的に類似した)透水性実現の正確な予測を提供する能力を示す。
最後に、訓練されたGNSMは、微分進化アルゴリズムを用いて井戸の位置と制御を最適化するために使用される。
GNSMベースの最適化結果はシミュレーションベースの最適化と同等であり、実行時の高速化は36。
この手法がロバストな最適化に使われ、それぞれの候補解が複数の地質モデルで評価される場合、より大きなスピードアップが期待される。 The optimization of well locations and controls is an important step in the design of subsurface flow operations such as oil production or geological CO2 storage. These optimization problems can be computationally expensive, however, as many potential candidate solutions must be evaluated. In this study, we propose a graph network surrogate model (GNSM) for optimizing well placement and controls. The GNSM transforms the flow model into a computational graph that involves an encoding-processing-decoding architecture. Separate networks are constructed to provide global predictions for the pressure and saturation state variables. Model performance is enhanced through the inclusion of the single-phase steady-state pressure solution as a feature. A multistage multistep strategy is used for training. The trained GNSM is applied to predict flow responses in a 2D unstructured model of a channelized reservoir. Results are presented for a large set of test cases, in which five injection wells and five production wells are placed randomly throughout the model, with a random control variable (bottom-hole pressure) assigned to each well. Median relative error in pressure and saturation for 300 such test cases is 1-2%. The ability of the trained GNSM to provide accurate predictions for a new (geologically similar) permeability realization is demonstrated. Finally, the trained GNSM is used to optimize well locations and controls with a differential evolution algorithm. GNSM-based optimization results are comparable to those from simulation-based optimization, with a runtime speedup of a factor of 36. Much larger speedups are expected if the method is used for robust optimization, in which each candidate solution is evaluated on multiple geological models. | 翻訳日:2023-12-16 00:10:04 公開日:2023-12-14 |
# 医療処置のための混合現実コミュニケーション : 中心静脈カテーテルの設置を指導する Mixed Reality Communication for Medical Procedures: Teaching the Placement of a Central Venous Catheter ( http://arxiv.org/abs/2312.08624v1 ) ライセンス: Link先を確認 | Manuel Rebol, Krzysztof Pietroszek, Claudia Ranniger, Colton Hood, Adam Rutenberg, Neal Sikka, David Li, Christian G\"utl | (参考訳) 医療処置は医療提供の重要な部分であり、手続き的スキルの獲得は医療教育の重要な要素である。
残念ながら、手続きスキルは医療提供者間で均等に分配されていない。
スキルは、提供者の訓練や進行中の経験に応じて、部門や機関、地理的地域によって異なる。
本稿では,手続き的スキルトレーニングへのアクセスを高め,遠隔救急支援を改善するための複合現実的リアルタイムコミュニケーションシステムを提案する。
本システムでは,遠隔地の専門家が医療手順を通じて現地のオペレーターを誘導できる。
rgbdカメラは、患者、オペレーター、医療機器を含む地元のシーンのボリュームビューをキャプチャする。
ボリュームキャプチャはリモートエキスパートのビューに拡張され、専門家は視覚的および言語的指示を使ってローカルオペレータを空間的にガイドすることができる。
本研究は,CVC (Central venous catheter) の超音波ガイド下配置をシミュレーション環境で学生に教える実験において,複合現実通信システムの評価を行った。
本研究は,最先端のビデオ通信とシステムを比較した。
その結果,ビデオ会議によるトレーニングに比べて視覚コミュニケーションが向上し,新たな可能性が示唆された。 Medical procedures are an essential part of healthcare delivery, and the acquisition of procedural skills is a critical component of medical education. Unfortunately, procedural skill is not evenly distributed among medical providers. Skills may vary within departments or institutions, and across geographic regions, depending on the provider's training and ongoing experience. We present a mixed reality real-time communication system to increase access to procedural skill training and to improve remote emergency assistance. Our system allows a remote expert to guide a local operator through a medical procedure. RGBD cameras capture a volumetric view of the local scene including the patient, the operator, and the medical equipment. The volumetric capture is augmented onto the remote expert's view to allow the expert to spatially guide the local operator using visual and verbal instructions. We evaluated our mixed reality communication system in a study in which experts teach the ultrasound-guided placement of a central venous catheter (CVC) to students in a simulation setting. The study compares state-of-the-art video communication against our system. The results indicate that our system enhances and offers new possibilities for visual communication compared to video teleconference-based training. | 翻訳日:2023-12-16 00:09:40 公開日:2023-12-14 |
# 話者照合のためのスケーラブルアンサンブルに基づく逆攻撃検出法 Scalable Ensemble-based Detection Method against Adversarial Attacks for speaker verification ( http://arxiv.org/abs/2312.08622v1 ) ライセンス: Link先を確認 | Haibin Wu, Heng-Cheng Kuo, Yu Tsao, Hung-yi Lee | (参考訳) 自動話者照合(asv)は、逆境攻撃の影響を受けやすい。
浄化モジュールは通常、対向ノイズを軽減するための前処理として採用される。
しかし、それらは様々な実験的な設定にまたがって実装され、直接比較するのは難しい。
本稿では,一貫した枠組みにおける主流浄化手法を包括的に比較する。
これらの手法は、実際のサンプル性能の同時維持と敵の摂動の低減に苦慮しているため、ユーザエクスペリエンスとセキュリティのトレードオフに直面することが多い。
この課題に対処するため、一部の取り組みは、トレードオフを軽減することを目的として、検出機能を含む浄化モジュールを拡張した。
しかし、先進的な浄化モジュールは常に段階に入り、従来の検出方法を超える。
その結果, 対向雑音に対するSOTA(State-of-the-art)性能を向上し, 検出のための高度な浄化モジュールを統合した, 追従が容易なアンサンブル手法を提案する。
我々のアンサンブル法は、将来の高度な浄化技術との互換性から大きな可能性を秘めている。 Automatic speaker verification (ASV) is highly susceptible to adversarial attacks. Purification modules are usually adopted as a pre-processing to mitigate adversarial noise. However, they are commonly implemented across diverse experimental settings, rendering direct comparisons challenging. This paper comprehensively compares mainstream purification techniques in a unified framework. We find these methods often face a trade-off between user experience and security, as they struggle to simultaneously maintain genuine sample performance and reduce adversarial perturbations. To address this challenge, some efforts have extended purification modules to encompass detection capabilities, aiming to alleviate the trade-off. However, advanced purification modules will always come into the stage to surpass previous detection method. As a result, we further propose an easy-to-follow ensemble approach that integrates advanced purification modules for detection, achieving state-of-the-art (SOTA) performance in countering adversarial noise. Our ensemble method has great potential due to its compatibility with future advanced purification techniques. | 翻訳日:2023-12-16 00:09:23 公開日:2023-12-14 |
# zebra: 階層型グループ化されたローカルグローバルアテンションによるコンテキストウィンドウの拡張 Zebra: Extending Context Window with Layerwise Grouped Local-Global Attention ( http://arxiv.org/abs/2312.08618v1 ) ライセンス: Link先を確認 | Kaiqiang Song, Xiaoyang Wang, Sangwoo Cho, Xiaoman Pan, Dong Yu | (参考訳) 本稿では,大規模なテキストシーケンスの処理と理解において,大規模言語モデル(llm)の能力を向上させるための新しい手法を提案する。
主に Transformer アーキテクチャ上に構築された LLM のコンテキストウィンドウの拡張における固有の課題を認識し,Zebra と呼ばれる新しいモデルアーキテクチャを提案する。
本アーキテクチャは、グループ化された局所的グローバルアテンション層を用いて、トランスフォーマにおける全アテンションに関連する二次時間およびメモリ複雑性問題を効率的に管理する。
私たちのモデルは、zebraの交互のストライプに似ており、ローカルおよびグローバルアテンション層をバランスさせ、計算要求とメモリ消費を大幅に削減します。
ゼブラの性能を評価するために,スクラッチからの事前学習,長文適応訓練の継続,長文調律などの総合的な実験を行った。
その結果、Zebraはショートシーケンスとロングシーケンスのベンチマークで同等または優れたパフォーマンスを実現し、トレーニングと推論の効率も向上した。 This paper introduces a novel approach to enhance the capabilities of Large Language Models (LLMs) in processing and understanding extensive text sequences, a critical aspect in applications requiring deep comprehension and synthesis of large volumes of information. Recognizing the inherent challenges in extending the context window for LLMs, primarily built on Transformer architecture, we propose a new model architecture, referred to as Zebra. This architecture efficiently manages the quadratic time and memory complexity issues associated with full attention in the Transformer by employing grouped local-global attention layers. Our model, akin to a zebra's alternating stripes, balances local and global attention layers, significantly reducing computational requirements and memory consumption. Comprehensive experiments, including pretraining from scratch, continuation of long context adaptation training, and long instruction tuning, are conducted to evaluate the Zebra's performance. The results show that Zebra achieves comparable or superior performance on both short and long sequence benchmarks, while also enhancing training and inference efficiency. | 翻訳日:2023-12-16 00:09:08 公開日:2023-12-14 |
# グラフ上の一般化ニューラル拡散フレームワーク A Generalized Neural Diffusion Framework on Graphs ( http://arxiv.org/abs/2312.08616v1 ) ライセンス: Link先を確認 | Yibo Li, Xiao Wang, Hongrui Liu, Chuan Shi | (参考訳) 近年の研究では、GNNと拡散過程の関連が明らかにされており、多くの拡散に基づくGNNが提案されている。
しかしながら、これらの2つのメカニズムは密接に関連しているため、自然に1つの根本的な疑問が生じる: これらのGNNを正式に統一できる一般的な拡散フレームワークはあるか?
この質問に対する回答は、GNNの学習プロセスの理解を深めるだけでなく、より広いクラスのGNNを設計するための新たな扉を開くかもしれない。
本稿では,より多くのgnnと拡散過程の関係を形式的に確立する,忠実性項を持つ一般拡散方程式の枠組みを提案する。
一方、この枠組みでは、グラフ拡散ネットワークの1つの特性、すなわち、現在の神経拡散過程は1次拡散方程式にのみ対応している。
しかし, 実験により, 高次隣人のラベルは実際には単相性を示しており, 上位隣人のラベルに基づく類似性は, 一階隣人の類似性を必要としないことがわかった。
この発見の動機は、新しい高次隣り合う拡散方程式を設計し、フレームワークに基づいた新しいタイプのグラフ拡散ネットワーク(HiD-Net)を導出することにある。
高次拡散方程式では、hid-netは攻撃に対してより強固であり、ホモフィリーグラフとヘテロフィリーグラフの両方で動作する。
我々は,HiD-Netと高次ランダムウォークの関係を理論的に解析するだけでなく,理論的収束保証を提供する。
グラフ拡散ネットワークにおけるHiD-Netの有効性を実験的に検証した。 Recent studies reveal the connection between GNNs and the diffusion process, which motivates many diffusion-based GNNs to be proposed. However, since these two mechanisms are closely related, one fundamental question naturally arises: Is there a general diffusion framework that can formally unify these GNNs? The answer to this question can not only deepen our understanding of the learning process of GNNs, but also may open a new door to design a broad new class of GNNs. In this paper, we propose a general diffusion equation framework with the fidelity term, which formally establishes the relationship between the diffusion process with more GNNs. Meanwhile, with this framework, we identify one characteristic of graph diffusion networks, i.e., the current neural diffusion process only corresponds to the first-order diffusion equation. However, by an experimental investigation, we show that the labels of high-order neighbors actually exhibit monophily property, which induces the similarity based on labels among high-order neighbors without requiring the similarity among first-order neighbors. This discovery motives to design a new high-order neighbor-aware diffusion equation, and derive a new type of graph diffusion network (HiD-Net) based on the framework. With the high-order diffusion equation, HiD-Net is more robust against attacks and works on both homophily and heterophily graphs. We not only theoretically analyze the relation between HiD-Net with high-order random walk, but also provide a theoretical convergence guarantee. Extensive experimental results well demonstrate the effectiveness of HiD-Net over state-of-the-art graph diffusion networks. | 翻訳日:2023-12-16 00:08:50 公開日:2023-12-14 |
# Factorization Vision Transformer:ローカルウィンドウコストによる長距離依存性のモデル化 Factorization Vision Transformer: Modeling Long Range Dependency with Local Window Cost ( http://arxiv.org/abs/2312.08614v1 ) ライセンス: Link先を確認 | Haolin Qin, Daquan Zhou, Tingfa Xu, Ziyang Bian, Jianan Li | (参考訳) トランスフォーマーは並外れた表現力を持つが、通常は画像解像度と二次的なかなりの計算を消費する。
一般的なSwin変換器は、ローカルウィンドウ戦略により計算コストを削減する。
しかし、この戦略は必然的に2つの欠点を生じさせる:(1)ローカルウィンドウベースの自己注意は、グローバルな依存性モデリング能力を妨げる;(2)最近の研究は、ローカルウィンドウが堅牢性を損なうことを指摘している。
これらの課題を克服するため,我々は計算コストと性能のトレードオフを追求する。
そこで,我々は,ローカルウィンドウコストと長距離依存性モデリング能力の利点を享受する新しい因子化自己着機構(fasa)を提案する。
従来の注目行列をスパースサブアテンション行列に分解することにより、FaSAは、局所ウィンドウベースの自己アテンションと同等の計算コストで混合きめの情報を集約しながら、長距離依存をキャプチャする。
FaSAを応用し,階層構造を持つ因子化ビジョントランス (FaViT) を提案する。
FaViTは、入力画像空間分解能に関する線形計算複雑性により、高い性能とロバスト性を達成する。
大規模な実験では、分類および下流タスクにおけるFaViTの高度な性能が示されている。
さらに、破損したデータや偏りのあるデータに対して強いモデルロバスト性を示し、実用的なアプリケーションを好む利点を示す。
ベースラインモデルSwin-Tと比較して,FaViT-B2は分類精度を1%,頑健度を7%向上し,モデルパラメータを14%削減した。
私たちのコードは近くhttps://github.com/q2479036243/favitで公開される予定だ。 Transformers have astounding representational power but typically consume considerable computation which is quadratic with image resolution. The prevailing Swin transformer reduces computational costs through a local window strategy. However, this strategy inevitably causes two drawbacks: (1) the local window-based self-attention hinders global dependency modeling capability; (2) recent studies point out that local windows impair robustness. To overcome these challenges, we pursue a preferable trade-off between computational cost and performance. Accordingly, we propose a novel factorization self-attention mechanism (FaSA) that enjoys both the advantages of local window cost and long-range dependency modeling capability. By factorizing the conventional attention matrix into sparse sub-attention matrices, FaSA captures long-range dependencies while aggregating mixed-grained information at a computational cost equivalent to the local window-based self-attention. Leveraging FaSA, we present the factorization vision transformer (FaViT) with a hierarchical structure. FaViT achieves high performance and robustness, with linear computational complexity concerning input image spatial resolution. Extensive experiments have shown FaViT's advanced performance in classification and downstream tasks. Furthermore, it also exhibits strong model robustness to corrupted and biased data and hence demonstrates benefits in favor of practical applications. In comparison to the baseline model Swin-T, our FaViT-B2 significantly improves classification accuracy by 1% and robustness by 7%, while reducing model parameters by 14%. Our code will soon be publicly available at https://github.com/q2479036243/FaViT. | 翻訳日:2023-12-16 00:08:25 公開日:2023-12-14 |
# UniTeam:オープン語彙モバイル操作チャレンジ UniTeam: Open Vocabulary Mobile Manipulation Challenge ( http://arxiv.org/abs/2312.08611v1 ) ライセンス: Link先を確認 | Andrew Melnik, Michael B\"uttner, Leon Harz, Lyon Brown, Gora Chand Nandi, Arjun PS, Gaurav Kumar Yadav, Rahul Kala, Robert Haschke | (参考訳) このレポートでは、"HomeRobot: Open Vocabulary Mobile Manipulation"チャレンジのベースラインを改良したUniTeamエージェントを紹介します。
この課題は、慣れない環境でのナビゲーション、新しいオブジェクトの操作、オープン語彙オブジェクトクラスの認識の問題を引き起こす。
この課題は、機械学習、コンピュータビジョン、自然言語、ロボット工学の最近の進歩を利用して、AIを具現化した横断的な研究を促進することを目的としている。
本研究では,提供されたベースラインエージェントを徹底的に評価し,知覚,ナビゲーション,操作スキルの欠陥を特定し,ベースラインエージェントの性能を改善した。
特に、誤分類の最小化、ナビゲーション、無限ループのコミットメントの防止、オブジェクトの可視性の変化による障害への対処、オブジェクトの配置成功のための正確な位置決めの確保といった拡張が行われた。 This report introduces our UniTeam agent - an improved baseline for the "HomeRobot: Open Vocabulary Mobile Manipulation" challenge. The challenge poses problems of navigation in unfamiliar environments, manipulation of novel objects, and recognition of open-vocabulary object classes. This challenge aims to facilitate cross-cutting research in embodied AI using recent advances in machine learning, computer vision, natural language, and robotics. In this work, we conducted an exhaustive evaluation of the provided baseline agent; identified deficiencies in perception, navigation, and manipulation skills; and improved the baseline agent's performance. Notably, enhancements were made in perception - minimizing misclassifications; navigation - preventing infinite loop commitments; picking - addressing failures due to changing object visibility; and placing - ensuring accurate positioning for successful object placement. | 翻訳日:2023-12-16 00:07:58 公開日:2023-12-14 |
# VQCNIR:ベクトル量子コードブックによる夜の鮮明な画像復元 VQCNIR: Clearer Night Image Restoration with Vector-Quantized Codebook ( http://arxiv.org/abs/2312.08606v1 ) ライセンス: Link先を確認 | Wenbin Zou, Hongxia Gao, Tian Ye, Liang Chen, Weipeng Yang, Shasha Huang, Hongsheng Chen, Sixiang Chen | (参考訳) 夜間撮影は、暗い環境や長時間の露光から生じる、暗い光やぼやけなどの課題に苦しむことが多い。
現在の手法では、事前を無視してエンドツーエンドのネットワークを直接適合させ、一貫性のない照明に導くか、ネットワークを制約するために信頼できない先行技術に頼る。
私たちは、データ駆動の高品質な事前処理の強みを信じ、手動による事前処理の制限を回避する、信頼性と一貫性のある事前処理の提供に努めています。
本稿では,ベクトル量子化コードブック (vqcnir) を用いたより鮮明な夜間画像復元手法を提案する。
細部と照明の忠実な復元を確保するため, 適応照明強化モジュール (AIEM) と変形性二方向クロスアテンションモジュール (DBCA) の2つの重要なモジュールについて提案する。
aiemは機能のチャネル間相関を利用して、劣化した機能と高品質なコードブック機能間の照明一貫性を動的に維持する。
一方、DBCAモジュールは双方向のクロスアテンションと変形可能な畳み込みを通じてテクスチャと構造情報を効果的に統合し、それによって並列デコーダ間の微細な詳細化と構造的忠実度が向上する。
大規模な実験により、VQCNIRは低照度条件下での画質向上に際し、合成データセットと実世界のデータセットの両方で最先端のパフォーマンスを示す。
コードはhttps://github.com/alexzou14/vqcnirで入手できる。 Night photography often struggles with challenges like low light and blurring, stemming from dark environments and prolonged exposures. Current methods either disregard priors and directly fitting end-to-end networks, leading to inconsistent illumination, or rely on unreliable handcrafted priors to constrain the network, thereby bringing the greater error to the final result. We believe in the strength of data-driven high-quality priors and strive to offer a reliable and consistent prior, circumventing the restrictions of manual priors. In this paper, we propose Clearer Night Image Restoration with Vector-Quantized Codebook (VQCNIR) to achieve remarkable and consistent restoration outcomes on real-world and synthetic benchmarks. To ensure the faithful restoration of details and illumination, we propose the incorporation of two essential modules: the Adaptive Illumination Enhancement Module (AIEM) and the Deformable Bi-directional Cross-Attention (DBCA) module. The AIEM leverages the inter-channel correlation of features to dynamically maintain illumination consistency between degraded features and high-quality codebook features. Meanwhile, the DBCA module effectively integrates texture and structural information through bi-directional cross-attention and deformable convolution, resulting in enhanced fine-grained detail and structural fidelity across parallel decoders. Extensive experiments validate the remarkable benefits of VQCNIR in enhancing image quality under low-light conditions, showcasing its state-of-the-art performance on both synthetic and real-world datasets. The code is available at https://github.com/AlexZou14/VQCNIR. | 翻訳日:2023-12-16 00:07:42 公開日:2023-12-14 |
# AVA:DeepFake検出を経由した非目立った属性変動に基づく対向攻撃 AVA: Inconspicuous Attribute Variation-based Adversarial Attack bypassing DeepFake Detection ( http://arxiv.org/abs/2312.08675v1 ) ライセンス: Link先を確認 | Xiangtao Meng, Li Wang, Shanqing Guo, Lei Ju, Qingchuan Zhao | (参考訳) 近年、DeepFakeアプリケーションの人気が高まっているが、その悪用は深刻なプライバシーの脅威となる。
残念なことに、乱用問題を緩和するためのほとんどの関連する検出アルゴリズムは、DNNベースの分類モデル上に構築されているため、本質的には敵の攻撃に対して脆弱である。
対応する緩和法が提案されているが,ガウス前駆体とセマンティック判別器の組み合わせによって潜在空間を摂動する属性可変型対向攻撃 (AVA) を新たに発見した。
これはDeepFakeイメージの属性空間のセマンティクスを乱し、人間(例えば口を開ける)に不明瞭であるが、DeepFake検出にかなりの違いをもたらす可能性がある。
我々は9つの最先端のDeepFake検出アルゴリズムとアプリケーションに対するAVA攻撃の評価を行った。
実験の結果、AVA攻撃はDeepFake検出器に対する最先端のブラックボックス攻撃を破り、2つの商用DeepFake検出器で95%以上の成功率を達成した。
さらに、人間の研究では、AVA生成のDeepFake画像は人間には認識できないことが多いことが示されています。 While DeepFake applications are becoming popular in recent years, their abuses pose a serious privacy threat. Unfortunately, most related detection algorithms to mitigate the abuse issues are inherently vulnerable to adversarial attacks because they are built atop DNN-based classification models, and the literature has demonstrated that they could be bypassed by introducing pixel-level perturbations. Though corresponding mitigation has been proposed, we have identified a new attribute-variation-based adversarial attack (AVA) that perturbs the latent space via a combination of Gaussian prior and semantic discriminator to bypass such mitigation. It perturbs the semantics in the attribute space of DeepFake images, which are inconspicuous to human beings (e.g., mouth open) but can result in substantial differences in DeepFake detection. We evaluate our proposed AVA attack on nine state-of-the-art DeepFake detection algorithms and applications. The empirical results demonstrate that AVA attack defeats the state-of-the-art black box attacks against DeepFake detectors and achieves more than a 95% success rate on two commercial DeepFake detectors. Moreover, our human study indicates that AVA-generated DeepFake images are often imperceptible to humans, which presents huge security and privacy concerns. | 翻訳日:2023-12-16 00:03:24 公開日:2023-12-14 |
# segment beyond view: 音声と視覚のセマンティクスセグメンテーションのための部分欠落したモダリティの処理 Segment Beyond View: Handling Partially Missing Modality for Audio-Visual Semantic Segmentation ( http://arxiv.org/abs/2312.08673v1 ) ライセンス: Link先を確認 | Renjie Wu, Hu Wang, Feras Dayoub, Hsiang-Ting Chen | (参考訳) 拡張現実(ar)デバイスは、著名なモバイルインタラクションプラットフォームとして登場し、特に対向車に関するユーザー安全性の課題に直面している。
搭載カメラアレイを利用するソリューションもあるが、これらのカメラはしばしば前方または下向きの視野を持つ視野(FoV)に制限がある。
そこで本研究では,新しい音声・視覚意味セグメンテーション手法であるsbv(out-of-view semantic segmentation task and segment beyond view)を提案する。
SBVは教師-学生蒸留モデル(Omni2Ego)を用いた聴覚情報を用いて、FoV以外の情報を見逃す視覚的モダリティを補う。
このモデルはパノラマ情報を活用した視覚教師、8チャンネルオーディオを持つ聴覚教師と、限られたfovとバイノーラルオーディオを入力として、fov外のオブジェクトの意味セグメンテーションを生成するオーディオ・ビジュアル・学生からなる。
SBVは既存のモデルを比較評価で上回り、様々なFoV範囲とモノラルオーディオ設定で一貫したパフォーマンスを示す。 Augmented Reality (AR) devices, emerging as prominent mobile interaction platforms, face challenges in user safety, particularly concerning oncoming vehicles. While some solutions leverage onboard camera arrays, these cameras often have limited field-of-view (FoV) with front or downward perspectives. Addressing this, we propose a new out-of-view semantic segmentation task and Segment Beyond View (SBV), a novel audio-visual semantic segmentation method. SBV supplements the visual modality, which miss the information beyond FoV, with the auditory information using a teacher-student distillation model (Omni2Ego). The model consists of a vision teacher utilising panoramic information, an auditory teacher with 8-channel audio, and an audio-visual student that takes views with limited FoV and binaural audio as input and produce semantic segmentation for objects outside FoV. SBV outperforms existing models in comparative evaluations and shows a consistent performance across varying FoV ranges and in monaural audio settings. | 翻訳日:2023-12-16 00:03:01 公開日:2023-12-14 |
# cat: 血縁グラフをトリミングするための因果グラフアテンションネットワーク CAT: A Causally Graph Attention Network for Trimming Heterophilic Graph ( http://arxiv.org/abs/2312.08672v1 ) ライセンス: Link先を確認 | Silu He, Qinyao Luo, Xinsha Fu, Ling Zhao, Ronghua Du, Haifeng Lia | (参考訳) グラフ注意ネットワーク(GAT)に採用されているローカルアテンション誘導メッセージパッシングメカニズム(LAMP)は、グラフ上のより優れたローカルアグリゲーションのために、近隣ノードの重要性を適応的に学習するように設計されている。
しかし、既存のgatsは、類似する隣接ノードの比率が高いと中央ノードの自己着脱が弱くなり、同時に表現空間の類似ノードから中央ノードのずれが生じるため、好血球グラフにおいて有意な識別能力低下に苦しむ。
本稿では, 隣接ノードが生成するこのような効果をディストラクション効果(DE)と呼ぶ。
隣接ノードのdeを推定して弱めるために,cat (trimming heterophilic graph) のための因果グラフアテンションネットワークを提案する。
deを推定するには、deを2つの経路(隣接ノードに割り当てられた注意をグラブし、中央ノードの自己照準を減少させる)で生成するので、deは因果推定の一種であり、干渉データから推定できるdeモデルにトータルエフェクトを使用し、deを弱めるために、deを最も高いdeを持つ隣人を識別し、それを除去します。
我々は提案したCATフレームワークのベースモデルとして3つの代表GATを採用し、3つの異なるサイズのヘテロ親和性データセットに対して実験を行う。
比較実験により、CATは全てのベースGATモデルのノード分類精度を向上させることができることが示された。
アブレーション実験と可視化により、CATによる識別能力の向上がさらに検証された。
ソースコードはhttps://github.com/GeoX-Lab/CATで入手できる。 Local Attention-guided Message Passing Mechanism (LAMP) adopted in Graph Attention Networks (GATs) is designed to adaptively learn the importance of neighboring nodes for better local aggregation on the graph, which can bring the representations of similar neighbors closer effectively, thus showing stronger discrimination ability. However, existing GATs suffer from a significant discrimination ability decline in heterophilic graphs because the high proportion of dissimilar neighbors can weaken the self-attention of the central node, jointly resulting in the deviation of the central node from similar nodes in the representation space. This kind of effect generated by neighboring nodes is called the Distraction Effect (DE) in this paper. To estimate and weaken the DE of neighboring nodes, we propose a Causally graph Attention network for Trimming heterophilic graph (CAT). To estimate the DE, since the DE are generated through two paths (grab the attention assigned to neighbors and reduce the self-attention of the central node), we use Total Effect to model DE, which is a kind of causal estimand and can be estimated from intervened data; To weaken the DE, we identify the neighbors with the highest DE (we call them Distraction Neighbors) and remove them. We adopt three representative GATs as the base model within the proposed CAT framework and conduct experiments on seven heterophilic datasets in three different sizes. Comparative experiments show that CAT can improve the node classification accuracy of all base GAT models. Ablation experiments and visualization further validate the enhancement of discrimination ability brought by CAT. The source code is available at https://github.com/GeoX-Lab/CAT. | 翻訳日:2023-12-16 00:02:33 公開日:2023-12-14 |
# グラフ分割によるグラフニューラルネットワークの表現力向上 Uplifting the Expressive Power of Graph Neural Networks through Graph Partitioning ( http://arxiv.org/abs/2312.08671v1 ) ライセンス: Link先を確認 | Asela Hevapathige, Qing Wang | (参考訳) グラフニューラルネットワーク(GNN)は、グラフ関連学習タスクの基盤となるための道を開いた。
理論的な観点から、GNNの表現力は主に非同型グラフを識別する能力によって特徴づけられる。
従来のGNNの大部分が上界であるという事実は、Weisfeiler-Lehman graph isomorphism test (1-WL) によって知られている。
本研究では,グラフ分割のレンズによるグラフニューラルネットワークの表現力について検討する。
これは、置換不変グラフ分割は頂点集合と部分グラフの間の構造的相互作用を探索する強力な方法となり、gnnの表現力を高めるのに役立つという観測から導かれる。
これに基づいて、まずグラフ分割とグラフ同型の間の理論的関係を確立する。
次に,新しいGNNアーキテクチャ,すなわちグラフ分割ニューラルネットワーク(GPNN)を紹介する。
理論的には、グラフ分割スキームと異なる種類の構造相互作用がk-WL階層とどのように関係するかを分析する。
実験により,既存のGNNモデルよりも,様々なグラフベンチマークタスクにおいて優れた性能を示す。 Graph Neural Networks (GNNs) have paved its way for being a cornerstone in graph related learning tasks. From a theoretical perspective, the expressive power of GNNs is primarily characterised according to their ability to distinguish non-isomorphic graphs. It is a well-known fact that most of the conventional GNNs are upper-bounded by Weisfeiler-Lehman graph isomorphism test (1-WL). In this work, we study the expressive power of graph neural networks through the lens of graph partitioning. This follows from our observation that permutation invariant graph partitioning enables a powerful way of exploring structural interactions among vertex sets and subgraphs, and can help uplifting the expressive power of GNNs efficiently. Based on this, we first establish a theoretical connection between graph partitioning and graph isomorphism. Then we introduce a novel GNN architecture, namely Graph Partitioning Neural Networks (GPNNs). We theoretically analyse how a graph partitioning scheme and different kinds of structural interactions relate to the k-WL hierarchy. Empirically, we demonstrate its superior performance over existing GNN models in a variety of graph benchmark tasks. | 翻訳日:2023-12-16 00:01:40 公開日:2023-12-14 |
# 因果的連続処理における時間空間エントロピーバランス Temporal-Spatial Entropy Balancing for Causal Continuous Treatment-Effect Estimation ( http://arxiv.org/abs/2312.08670v1 ) ライセンス: Link先を確認 | Tao Hu and Honglong Zhang and Fan Zeng and Min Du and XiangKun Du and Yue Zheng and Mengran Zhang and Dan Yang and Jihao Wu | (参考訳) 都市内貨物輸送の分野では、順序量の変化は時間的・空間的要因に大きく影響される。
補助金と価格戦略を構築する場合、これらの戦略の注文量に対する因果効果を予測することが重要である。
因果効果を計算する過程において、共起変数は影響を受けうる。
連結変数を制御する伝統的な方法は、特定の時間的および空間的次元における因果効果の精度を保証することができない、全体論的観点からのデータを扱う。
しかし、時間的・空間的次元は物流分野において極めて重要であり、この制限は補助金と価格戦略の精度に直接影響する可能性がある。
そこで本研究では,フレキシブルな時空間グリッドパーティショニングに基づく手法を提案する。
さらに, 柔軟なグリッド分割手法に基づき, ts-ebct (temporal-spatial entropy balancing for causal continue treatments) と呼ばれる時間空間領域における連続エントロピーバランス法を提案する。
提案手法は2つのシミュレーションデータセットと2つの実データセットで検証され,いずれも優れた性能を示した。
実際、TS-EBCT法を都市内貨物輸送分野に適用したことにより、因果効果の予測精度が大幅に向上した。
それは会社の補助金と価格戦略に良いビジネス利益をもたらす。 In the field of intracity freight transportation, changes in order volume are significantly influenced by temporal and spatial factors. When building subsidy and pricing strategies, predicting the causal effects of these strategies on order volume is crucial. In the process of calculating causal effects, confounding variables can have an impact. Traditional methods to control confounding variables handle data from a holistic perspective, which cannot ensure the precision of causal effects in specific temporal and spatial dimensions. However, temporal and spatial dimensions are extremely critical in the logistics field, and this limitation may directly affect the precision of subsidy and pricing strategies. To address these issues, this study proposes a technique based on flexible temporal-spatial grid partitioning. Furthermore, based on the flexible grid partitioning technique, we further propose a continuous entropy balancing method in the temporal-spatial domain, which named TS-EBCT (Temporal-Spatial Entropy Balancing for Causal Continue Treatments). The method proposed in this paper has been tested on two simulation datasets and two real datasets, all of which have achieved excellent performance. In fact, after applying the TS-EBCT method to the intracity freight transportation field, the prediction accuracy of the causal effect has been significantly improved. It brings good business benefits to the company's subsidy and pricing strategies. | 翻訳日:2023-12-16 00:01:10 公開日:2023-12-14 |
# 無線フェデレート学習におけるデータとモデル中毒バックドア攻撃とその防御機構 : 包括的調査 Data and Model Poisoning Backdoor Attacks on Wireless Federated Learning, and the Defense Mechanisms: A Comprehensive Survey ( http://arxiv.org/abs/2312.08667v1 ) ライセンス: Link先を確認 | Yichen Wan, Youyang Qu, Wei Ni, Yong Xiang, Longxiang Gao, Ekram Hossain | (参考訳) デバイスの性能が大幅に向上し、大量のデータが提供され、データのプライバシーに対する懸念が高まっているため、フェデレートラーニング(FL)は無線通信ネットワーク(WCN)へのアプリケーションとしてますます検討されている。
Wireless FL(WFL)は、グローバルなディープラーニングモデルをトレーニングする分散方法であり、多数の参加者がトレーニングデータセット上でローカルモデルをトレーニングし、その後、ローカルモデルの更新を中央サーバにアップロードする。
しかしながら、一般に、非独立かつ同一の(非iidの)wcnsのデータは、悪意のある参加者がwcnに有毒なデータやモデルをアップロードすることでグローバルモデルに"バックドア"を注入する可能性があるため、堅牢性に関する懸念を引き起こす。
これにより、モデルが悪質な入力を特定のターゲットクラスとして誤って分類し、通常は良質な入力で振る舞います。
この調査は、最新のバックドア攻撃と防御メカニズムの包括的なレビューを提供する。
ターゲット(データ中毒、モデル中毒)、攻撃段階(ローカルデータ収集、トレーニング、アグリゲーション)、防衛段階(集約前、集約中、集約後のローカルトレーニング)に応じて分類される。
既存の攻撃戦略と防御機構の強さと限界を詳細に分析する。
既存の攻撃方法と防御設計の比較を行い、注目すべき発見、オープンチャレンジ、およびWFLのセキュリティとプライバシに関する今後の研究方向性を指摘した。 Due to the greatly improved capabilities of devices, massive data, and increasing concern about data privacy, Federated Learning (FL) has been increasingly considered for applications to wireless communication networks (WCNs). Wireless FL (WFL) is a distributed method of training a global deep learning model in which a large number of participants each train a local model on their training datasets and then upload the local model updates to a central server. However, in general, non-independent and identically distributed (non-IID) data of WCNs raises concerns about robustness, as a malicious participant could potentially inject a "backdoor" into the global model by uploading poisoned data or models over WCN. This could cause the model to misclassify malicious inputs as a specific target class while behaving normally with benign inputs. This survey provides a comprehensive review of the latest backdoor attacks and defense mechanisms. It classifies them according to their targets (data poisoning or model poisoning), the attack phase (local data collection, training, or aggregation), and defense stage (local training, before aggregation, during aggregation, or after aggregation). The strengths and limitations of existing attack strategies and defense mechanisms are analyzed in detail. Comparisons of existing attack methods and defense designs are carried out, pointing to noteworthy findings, open challenges, and potential future research directions related to security and privacy of WFL. | 翻訳日:2023-12-16 00:00:10 公開日:2023-12-14 |
# SPEAL: クロスソースポイントクラウド登録のための骨格的事前組込み注意学習 SPEAL: Skeletal Prior Embedded Attention Learning for Cross-Source Point Cloud Registration ( http://arxiv.org/abs/2312.08664v1 ) ライセンス: Link先を確認 | Kezheng Xiong, Maoji Zheng, Qingshan Xu, Chenglu Wen, Siqi Shen, Cheng Wang | (参考訳) 3dコンピュータビジョンの基本的なタスクであるポイントクラウド登録は、主にクロスソースなポイントクラウドや非構造化シーンで未調査のままである。
主な課題は、ノイズ、異常値、スケールや密度の変化である。
しかし、点雲の無視された幾何学的性質は、現在の方法の性能を制限する。
本稿では,点雲の固有トポロジーを効果的に学習するために骨格表現を活用するために,spealと呼ばれる新しい手法を提案する。
具体的には,骨格点と骨格特徴を教師なしに抽出するスケルトン抽出モジュールの設計を行った。
そこで我々はSkeleton-Aware GeoTransformerを提案する。
トポロジカルな性質と点-クラウド間の骨格間相関をノイズ・ロバストおよび密度-不変骨格表現と明示的に捉えている。
次に, 骨格対応による対応の強化により対応を容易にするために, 対応デュアルサンプラーを導入する。
さらに, クロスソースクラウド登録手法をベンチマークするために, KITTI CrossSource という新しい大規模クロスソースクラウドデータセットを構築した。
クロスソースデータセットと同ソースデータセットの両方において、我々のアプローチの優位性と堅牢性を示すために、広範囲にわたる定量的および定性的な実験を行った。
私たちの知る限りでは、私たちのアプローチは、骨格幾何学的優先順位でポイントクラウド登録を促進する最初の方法です。 Point cloud registration, a fundamental task in 3D computer vision, has remained largely unexplored in cross-source point clouds and unstructured scenes. The primary challenges arise from noise, outliers, and variations in scale and density. However, neglected geometric natures of point clouds restricts the performance of current methods. In this paper, we propose a novel method termed SPEAL to leverage skeletal representations for effective learning of intrinsic topologies of point clouds, facilitating robust capture of geometric intricacy. Specifically, we design the Skeleton Extraction Module to extract skeleton points and skeletal features in an unsupervised manner, which is inherently robust to noise and density variances. Then, we propose the Skeleton-Aware GeoTransformer to encode high-level skeleton-aware features. It explicitly captures the topological natures and inter-point-cloud skeletal correlations with the noise-robust and density-invariant skeletal representations. Next, we introduce the Correspondence Dual-Sampler to facilitate correspondences by augmenting the correspondence set with skeletal correspondences. Furthermore, we construct a challenging novel large-scale cross-source point cloud dataset named KITTI CrossSource for benchmarking cross-source point cloud registration methods. Extensive quantitative and qualitative experiments are conducted to demonstrate our approach's superiority and robustness on both cross-source and same-source datasets. To the best of our knowledge, our approach is the first to facilitate point cloud registration with skeletal geometric priors. | 翻訳日:2023-12-15 23:59:09 公開日:2023-12-14 |
# トマトとトウモロコシの葉病の画像に基づく検出について : 詳細な比較実験 On the Image-Based Detection of Tomato and Corn leaves Diseases : An in-depth comparative experiments ( http://arxiv.org/abs/2312.08659v1 ) ライセンス: Link先を確認 | Affan Yasin, Rubia Fatima | (参考訳) 本研究は、植物画像分類のための畳み込みニューラルネットワーク(CNN)に基づく新しい植物病検出モデルを導入し、画像分類への重要な貢献を示す。
革新的なトレーニングアプローチは、合理化され効率的なシステム実装を可能にする。
このモデルは2つの異なる植物病を4つのカテゴリに分類し、植物病の同定の新しい技術を示す。
実験1ではinception-v3, dense-net-121, resnet-101-v2, xceptionモデルを用いてcnnトレーニングを行った。
新たに作成された植物病画像データセットには、1963年のトマト植物画像と7316のトウモロコシ植物画像が含まれている。
そのうち1374点のトマト画像と5121点のトウモロコシ画像が訓練に使われ、589点のトマト画像と2195点のトウモロコシ画像が検査・検証に使用された。
結果は、Xceptionモデルが他の3モデルより優れており、それぞれ95.08%と92.21%のval_accuracy値、対応するval_loss値が0.3108と0.4204であることを示している。
実験2では、Batch Normalizationを併用したCNNがトレーニングセットで約99.89%、val_accuracy値が97.52%を超え、val_lossが0.103となった。
実験3ではCNNアーキテクチャをベースモデルとして採用し、モデル2のレイヤを追加し、モデル3の接続をスキップし、モデル4の正規化を行った。
詳細な実験結果とモデル効率は、論文のサブセクション1.5で概説されている。
実験4では、すべてのトウモロコシとトマトの画像を組み合わせて、mobilenet (val_accuracy=86.73%), efficientnetb0 (val_accuracy=93.973%), xception (val_accuracy=74.91%), inceptionresnetv2 (val_accuracy=31.03%), cnn (59.79%) などのモデルを用いた。
さらに,提案モデルのval_accuracyは84.42%であった。 The research introduces a novel plant disease detection model based on Convolutional Neural Networks (CNN) for plant image classification, marking a significant contribution to image categorization. The innovative training approach enables a streamlined and efficient system implementation. The model classifies two distinct plant diseases into four categories, presenting a novel technique for plant disease identification. In Experiment 1, Inception-V3, Dense-Net-121, ResNet-101-V2, and Xception models were employed for CNN training. The newly created plant disease image dataset includes 1963 tomato plant images and 7316 corn plant images from the PlantVillage dataset. Of these, 1374 tomato images and 5121 corn images were used for training, while 589 tomato images and 2195 corn images were used for testing/validation. Results indicate that the Xception model outperforms the other three models, yielding val_accuracy values of 95.08% and 92.21% for the tomato and corn datasets, with corresponding val_loss values of 0.3108 and 0.4204, respectively. In Experiment 2, CNN with Batch Normalization achieved disease detection rates of approximately 99.89% in the training set and val_accuracy values exceeding 97.52%, accompanied by a val_loss of 0.103. Experiment 3 employed a CNN architecture as the base model, introducing additional layers in Model 2, skip connections in Model 3, and regularizations in Model 4. Detailed experiment results and model efficiency are outlined in the paper's sub-section 1.5. Experiment 4 involved combining all corn and tomato images, utilizing various models, including MobileNet (val_accuracy=86.73%), EfficientNetB0 (val_accuracy=93.973%), Xception (val_accuracy=74.91%), InceptionResNetV2 (val_accuracy=31.03%), and CNN (59.79%). Additionally, our proposed model achieved a val_accuracy of 84.42%. | 翻訳日:2023-12-15 23:58:45 公開日:2023-12-14 |
# 塑性成形による連続的マクロプロセスの実時間自律制御 Real-time Autonomous Control of a Continuous Macroscopic Process as Demonstrated by Plastic Forming ( http://arxiv.org/abs/2312.08658v1 ) ライセンス: Link先を確認 | Shun Muroga, Takashi Honda, Yasuaki Miki, Hideaki Nakajima, Don N. Futaba, Kenji Hata | (参考訳) 研究と製造の両方を強化するためのより適応的で効果的なアプローチの要求を満たすため,実時間内特徴量を用いた自律システムと,能動学習アルゴリズムに基づく自律的意思決定処理システムについて報告する。
本システムは, 所定のターゲット膜寸法のプロセス条件を決定する際の効率と精度を明らかにするために, 人間の介入なしにプラスチック膜形成システムに適用した。
9つの異なるフィルム次元へのシステムの適用は、適切なプロセス条件(平均11回のキャラクタリゼーション調整イテレーション、19分)を迅速に決定する能力と、反復的な過補正のようなトラップを避ける能力を示した。
さらに, 得られた膜寸法と目標値を比較すると, 膜厚と膜厚の精度が高い(R2 = 0.87, 0.90)。
さらに, 能動学習アルゴリズムを用いることで, プラスチック成形プロセスにおける制御因子(材料供給率, 応用力, 材料粘度)の複雑な関係から, ゼロ初期訓練データを用いて最適化を行うことができた。
我々のシステムは本質的に一般的であり、ほとんどの物質的プロセスに適用できるため、これらの結果は研究と産業のプロセスの両方を加速させる重要な意味を持つ。 To meet the demands for more adaptable and expedient approaches to augment both research and manufacturing, we report an autonomous system using real-time in-situ characterization and an autonomous, decision-making processer based on an active learning algorithm. This system was applied to a plastic film forming system to highlight its efficiency and accuracy in determining the process conditions for specified target film dimensions, importantly, without any human intervention. Application of this system towards nine distinct film dimensions demonstrated the system ability to quickly determine the appropriate and stable process conditions (average 11 characterization-adjustment iterations, 19 minutes) and the ability to avoid traps, such as repetitive over-correction. Furthermore, comparison of the achieved film dimensions to the target values showed a high accuracy (R2 = 0.87, 0.90) for film width and thickness, respectively. In addition, the use of an active learning algorithm afforded our system to proceed optimization with zero initial training data, which was unavailable due to the complex relationships between the control factors (material supply rate, applied force, material viscosity) within the plastic forming process. As our system is intrinsically general and can be applied to any most material processes, these results have significant implications in accelerating both research and industrial processes. | 翻訳日:2023-12-15 23:58:03 公開日:2023-12-14 |
# MaxK-GNN: グラフニューラルネットワーク学習の高速化のための理論的速度限界を目指して MaxK-GNN: Towards Theoretical Speed Limits for Accelerating Graph Neural Networks Training ( http://arxiv.org/abs/2312.08656v1 ) ライセンス: Link先を確認 | Hongwu Peng, Xi Xie, Kaustubh Shivdikar, MD Amit Hasan, Jiahui Zhao, Shaoyi Huang, Omer Khan, David Kaeli, Caiwen Ding | (参考訳) ディープニューラルネットワークトレーニングの加速において、GPUは主流のプラットフォームになった。
GPUは、ワークロードの不均衡やメモリアクセスの不規則など、GNNに重大な課題に直面し、未使用のハードウェアに繋がる。
PyG、cuSPARSEを使ったDGL、GNNAdvisorフレームワークといった既存のソリューションは、これらの課題に部分的に対処するが、メモリトラフィックは依然として重要である。
我々は、高速化最適化を「後考」として扱うのではなく、アルゴリズムとシステム革新の垂直最適化によってのみ、劇的な性能改善が達成できると主張している。
(i)GNNアルゴリズムを与えられたり、加速器を設計したり、
(ii)gnnアルゴリズムを最適化したハードウェアが与えられた。
本稿では,アルゴリズムとシステム革新を統合した高性能GPUトレーニングシステムMaxK-GNNを提案する。
(i)MaxK非線形性を導入し、MaxK非線形性を普遍近似として理論的解析し、非線形性後の特徴行列のデータとインデックスを保存するために設計されたCompressed Balanced Sparse Row(CBSR)フォーマットを示す。
(II)入力特徴量取得と共有メモリにおけるスパース出力蓄積バッファの戦略的配置にCBSRを用いた行ワイズ製品ベースSpGEMMカーネルを用いたコーデッシング強化フォワード計算を設計する。
(iii)外部製品ベースおよびsspmmカーネルを用いた最適化後向き計算を開発した。
我々はMaxK-GNNを広範囲に評価し、エンドツーエンドのシステム実行状況を報告する。
実験により、maxk-gnnシステムはamdahlの法則に従って理論的なスピードアップ限界に近づくことができた。
我々はSOTA GNNに匹敵する精度を達成したが、DGLやGNNAdvisorの実装と比較して、Redditの3.22/4.24倍のスピードアップ(理論上の制限は5.52/7.27倍)を実現した。 In the acceleration of deep neural network training, the GPU has become the mainstream platform. GPUs face substantial challenges on GNNs, such as workload imbalance and memory access irregularities, leading to underutilized hardware. Existing solutions such as PyG, DGL with cuSPARSE, and GNNAdvisor frameworks partially address these challenges but memory traffic is still significant. We argue that drastic performance improvements can only be achieved by the vertical optimization of algorithm and system innovations, rather than treating the speedup optimization as an "after-thought" (i.e., (i) given a GNN algorithm, designing an accelerator, or (ii) given hardware, mainly optimizing the GNN algorithm). In this paper, we present MaxK-GNN, an advanced high-performance GPU training system integrating algorithm and system innovation. (i) We introduce the MaxK nonlinearity and provide a theoretical analysis of MaxK nonlinearity as a universal approximator, and present the Compressed Balanced Sparse Row (CBSR) format, designed to store the data and index of the feature matrix after nonlinearity; (ii) We design a coalescing enhanced forward computation with row-wise product-based SpGEMM Kernel using CBSR for input feature matrix fetching and strategic placement of a sparse output accumulation buffer in shared memory; (iii) We develop an optimized backward computation with outer product-based and SSpMM Kernel. We conduct extensive evaluations of MaxK-GNN and report the end-to-end system run-time. Experiments show that MaxK-GNN system could approach the theoretical speedup limit according to Amdahl's law. We achieve comparable accuracy to SOTA GNNs, but at a significantly increased speed: 3.22/4.24 times speedup (vs. theoretical limits, 5.52/7.27 times) on Reddit compared to DGL and GNNAdvisor implementations. | 翻訳日:2023-12-15 23:57:39 公開日:2023-12-14 |
# 神経スパイク法によるAedes aegyptiのジカとデングの自動検出 Automated detection of Zika and dengue in Aedes aegypti using neural spiking analysis ( http://arxiv.org/abs/2312.08654v1 ) ライセンス: Link先を確認 | Danial Sharifrazi, Nouman Javed, Roohallah Alizadehsani, Prasad N. Paradkar, U. Rajendra Acharya, and Asim Bhatti | (参考訳) 蚊が媒介する病気は、動物と人間の健康にかなりのリスクをもたらす。
aedes aegypti 蚊はデング、ジカ、イエローフィーバー、チクングニアなど多くの医学的に重要なウイルスの主要なベクターである。
この蚊の神経活動の特徴は、生成された電気スパイクを分類することが不可欠である。
しかし、現在蚊にはオープンソースの神経スパイク分類方法がない。
本研究は,無感染,デング感染,ジカ熱に感染した蚊の神経スパイクを分類する,革新的な人工知能に基づく手法である。
優れた性能を目指して、前処理における正規化、特徴重要度、次元縮小の融合を用い、畳み込みニューラルネットワークと余分勾配ブースティング(xgboost)を組み合わせて分類する。
マイクロ電極アレイ技術により記録された蚊ニューロンの電気的スパイク活動データを用いる。
0,1,1,2,3,7日後のデータを用いて,1500万以上のサンプルを収集し,その解析を行った。
提案手法の性能は,精度,精度,リコール,F1スコアを用いて評価した。
この方法で得られた結果は、感染した蚊と感染していない蚊を区別し、平均98.1%の成績を示した。
パフォーマンスは、他の6つの機械学習アルゴリズムと比較され、メソッドの能力をさらに評価した。
この方法は、他の機械学習アルゴリズムのパフォーマンスを上回った。
全体として、この研究は、Aedes aegypti 蚊の神経スパイクを分類する効率的な方法であり、病原体と蚊の間の複雑な相互作用の解明に役立つ。 Mosquito-borne diseases present considerable risks to the health of both animals and humans. Aedes aegypti mosquitoes are the primary vectors for numerous medically important viruses such as dengue, Zika, yellow fever, and chikungunya. To characterize this mosquito neural activity, it is essential to classify the generated electrical spikes. However, no open-source neural spike classification method is currently available for mosquitoes. Our work presented in this paper provides an innovative artificial intelligence-based method to classify the neural spikes in uninfected, dengue-infected, and Zika-infected mosquitoes. Aiming for outstanding performance, the method employs a fusion of normalization, feature importance, and dimension reduction for the preprocessing and combines convolutional neural network and extra gradient boosting (XGBoost) for classification. The method uses the electrical spiking activity data of mosquito neurons recorded by microelectrode array technology. We used data from 0, 1, 2, 3, and 7 days post-infection, containing over 15 million samples, to analyze the method's performance. The performance of the proposed method was evaluated using accuracy, precision, recall, and the F1 scores. The results obtained from the method highlight its remarkable performance in differentiating infected vs uninfected mosquito samples, achieving an average of 98.1%. The performance was also compared with 6 other machine learning algorithms to further assess the method's capability. The method outperformed all other machine learning algorithms' performance. Overall, this research serves as an efficient method to classify the neural spikes of Aedes aegypti mosquitoes and can assist in unraveling the complex interactions between pathogens and mosquitoes. | 翻訳日:2023-12-15 23:57:07 公開日:2023-12-14 |
# オープンワールドオブジェクト検出のための簡易知識蒸留フレームワーク A Simple Knowledge Distillation Framework for Open-world Object Detection ( http://arxiv.org/abs/2312.08653v1 ) ライセンス: Link先を確認 | Shuailei Ma, Yuefeng Wang, Ying Wei, Jiaqi Fan, Xinyu Sun, Peihao Chen, Enming Zhang | (参考訳) Open World Object Detection (OWOD) は、古典的オブジェクト検出(OD)ベンチマークと現実世界のオブジェクト検出のギャップを埋める、非常に困難な新しいコンピュータビジョンタスクである。
参照/既知のオブジェクトの検出と分類に加えて、owodアルゴリズムは、すべての潜在未認識/未知オブジェクトをローカライズし、段階的に学習することが期待されている。
大規模な事前学習された視覚言語基底モデル(VLM,eg, GLIP)は、オープンワールドについて豊富な知識を持っているが、テキストプロンプトによって制限されており、説明不能なオブジェクトをローカライズできない。
しかし、事前定義された言語記述が推論中に利用できない多くの検出シナリオが存在する。
本稿では,オープンワールドの知識を言語に依存しない検知器に蒸留することにより,OWODタスクのためのVLMモデルを専門化しようとする。
驚くべきことに、単純な知識蒸留アプローチとowodの自動擬似ラベル機構の組み合わせは、少量のデータでも未知の物体検出においてより良い性能を得ることができる。
残念ながら、未知の物体に対する知識の蒸留は、既知の物体に対する従来の構造を持つ検出器の学習に大きな影響を与え、破滅的な忘れを招いた。
これらの問題を緩和するために,視覚言語から単一視覚モダリティへの知識蒸留における減量損失関数を提案する。
一方,ローカライゼーションと認識の学習を分離することで,未知の物体と未知の物体のカテゴリ間相互作用がローカライゼーション学習プロセスに与える影響を低減する。
MS-COCOとPASCAL VOCの総合的な実験により,本手法の有効性が示された。 Open World Object Detection (OWOD) is a novel computer vision task with a considerable challenge, bridging the gap between classic object detection (OD) benchmarks and real-world object detection. In addition to detecting and classifying seen/known objects, OWOD algorithms are expected to localize all potential unseen/unknown objects and incrementally learn them. The large pre-trained vision-language grounding models (VLM,eg, GLIP) have rich knowledge about the open world, but are limited by text prompts and cannot localize indescribable objects. However, there are many detection scenarios which pre-defined language descriptions are unavailable during inference. In this paper, we attempt to specialize the VLM model for OWOD task by distilling its open-world knowledge into a language-agnostic detector. Surprisingly, we observe that the combination of a simple knowledge distillation approach and the automatic pseudo-labeling mechanism in OWOD can achieve better performance for unknown object detection, even with a small amount of data. Unfortunately, knowledge distillation for unknown objects severely affects the learning of detectors with conventional structures for known objects, leading to catastrophic forgetting. To alleviate these problems, we propose the down-weight loss function for knowledge distillation from vision-language to single vision modality. Meanwhile, we decouple the learning of localization and recognition to reduce the impact of category interactions of known and unknown objects on the localization learning process. Comprehensive experiments performed on MS-COCO and PASCAL VOC demonstrate the effectiveness of our methods. | 翻訳日:2023-12-15 23:56:37 公開日:2023-12-14 |
# インダクティブロバストネスを目指して : グラフ逆攻撃に対するトランスダクティブgcnsの蒸留と波誘発共鳴の促進 Towards Inductive Robustness: Distilling and Fostering Wave-induced Resonance in Transductive GCNs Against Graph Adversarial Attacks ( http://arxiv.org/abs/2312.08651v1 ) ライセンス: Link先を確認 | Ao Liu, Wenshan Li, Tao Li, Beibei Li, Hanyuan Huang, Pan Zhou | (参考訳) グラフニューラルネットワーク(GNN)は最近、グラフ構造のわずかな摂動が誤った予測につながるような敵攻撃に弱いことが示されている。
しかし、このような攻撃に対抗するための現在の堅牢なモデルは、グラフ畳み込みネットワーク(GCN)のトランスダクティブな制限を継承している。
その結果、それらは固定構造によって制約され、自然に見えないノードに一般化されない。
そこで本研究では, トランスダクティブgcnが, 波誘起共振過程によって得られる蒸留性頑健性を有することを見出した。
これに基づいて、我々はこの共鳴を育み、帰納的かつ堅牢な学習を促進する。
具体的には、まず、GCN駆動のメッセージパッシング(MP)によって生成された信号がエッジベースのラプラシアン波と等価であることを示す。
この共鳴は、信号系に有害な摂動に固有の抵抗を与える。
次に、GCN内の3つのMPイテレーションがノードとエッジ間の信号共鳴を誘導し、ノードと蒸留可能な周辺部分グラフの結合として現れることを証明した。
その結果, グラフ共振ネットワーク (GRN) を導入し, 蒸留した共振部分グラフからノード表現を学習することで, この共振を促進させる。
このサブグラフ内のエッジ送信された信号をキャプチャし、ノード信号と統合することで、grnはこれらの組み合わせ信号を中央ノードの表現に組み込む。
このノードワイズ埋め込みアプローチは、見えないノードへの一般化を可能にする。
我々は実験により理論的な知見を検証し、GRNが乱れグラフの最先端の分類精度を維持しながら、目に見えないノードに頑健さを一般化することを示した。 Graph neural networks (GNNs) have recently been shown to be vulnerable to adversarial attacks, where slight perturbations in the graph structure can lead to erroneous predictions. However, current robust models for defending against such attacks inherit the transductive limitations of graph convolutional networks (GCNs). As a result, they are constrained by fixed structures and do not naturally generalize to unseen nodes. Here, we discover that transductive GCNs inherently possess a distillable robustness, achieved through a wave-induced resonance process. Based on this, we foster this resonance to facilitate inductive and robust learning. Specifically, we first prove that the signal formed by GCN-driven message passing (MP) is equivalent to the edge-based Laplacian wave, where, within a wave system, resonance can naturally emerge between the signal and its transmitting medium. This resonance provides inherent resistance to malicious perturbations inflicted on the signal system. We then prove that merely three MP iterations within GCNs can induce signal resonance between nodes and edges, manifesting as a coupling between nodes and their distillable surrounding local subgraph. Consequently, we present Graph Resonance-fostering Network (GRN) to foster this resonance via learning node representations from their distilled resonating subgraphs. By capturing the edge-transmitted signals within this subgraph and integrating them with the node signal, GRN embeds these combined signals into the central node's representation. This node-wise embedding approach allows for generalization to unseen nodes. We validate our theoretical findings with experiments, and demonstrate that GRN generalizes robustness to unseen nodes, whilst maintaining state-of-the-art classification accuracy on perturbed graphs. | 翻訳日:2023-12-15 23:56:10 公開日:2023-12-14 |
# PhyOT:監視カメラの物理インフォームドオブジェクト追跡 PhyOT: Physics-informed object tracking in surveillance cameras ( http://arxiv.org/abs/2312.08650v1 ) ライセンス: Link先を確認 | Kawisorn Kamtue and Jose M.F. Moura and Orathai Sangpetch and Paulo Garcia | (参考訳) ディープラーニングはコンピュータビジョンにおいて非常に成功したが、照明の変動や背景の乱れ、閉塞といった現実世界の動作条件は、その正確さを妨げている。
以前の研究によると、ニューラルネットワークとヒューリスティックス/アルゴリズムを組み合わせたハイブリッドモデルは、分類やトラッキングなど、いくつかのコンピュータビジョンタスクにおいて、バニラディープラーニングを上回っている。
本研究では,ニューラルネットを‘センサー’として概念化するハイブリッドモデル(phyot)を,ニュートン運動の法則の形で,センサ観測を融合させ,推定精度を向上させるために,先行知識を用いたカルマンフィルタのセットアップで評価する。
実験では,3つのニューラルネットワーク,動作位置,間接速度,加速度推定をそれぞれ組み合わせて,ウェアハウスセキュリティカメラのデータセットとアノテートしたアノテートしたトラフィックカメラのオープンデータセットの2つのベンチマークデータセット上で,そのような定式化を評価する。
その結果、PhyOTは最先端のディープニューラルネットワークが失敗する極端な条件下での物体の追跡が可能であり、一般的な場合の性能は既存のディープラーニング手法と大きく異なることが示唆された。
結果は、phyotコンポーネントが一般化し、転送可能であることも示唆しています。 While deep learning has been very successful in computer vision, real world operating conditions such as lighting variation, background clutter, or occlusion hinder its accuracy across several tasks. Prior work has shown that hybrid models -- combining neural networks and heuristics/algorithms -- can outperform vanilla deep learning for several computer vision tasks, such as classification or tracking. We consider the case of object tracking, and evaluate a hybrid model (PhyOT) that conceptualizes deep neural networks as ``sensors'' in a Kalman filter setup, where prior knowledge, in the form of Newtonian laws of motion, is used to fuse sensor observations and to perform improved estimations. Our experiments combine three neural networks, performing position, indirect velocity and acceleration estimation, respectively, and evaluate such a formulation on two benchmark datasets: a warehouse security camera dataset that we collected and annotated and a traffic camera open dataset. Results suggest that our PhyOT can track objects in extreme conditions that the state-of-the-art deep neural networks fail while its performance in general cases does not degrade significantly from that of existing deep learning approaches. Results also suggest that our PhyOT components are generalizable and transferable. | 翻訳日:2023-12-15 23:55:41 公開日:2023-12-14 |
# 不均一・長期データに基づくCLIP誘導型フェデレーション学習 CLIP-guided Federated Learning on Heterogeneous and Long-Tailed Data ( http://arxiv.org/abs/2312.08648v1 ) ライセンス: Link先を確認 | Jiangming Shi, Shanshan Zheng, Xiangbo Yin, Yang Lu, Yuan Xie, Yanyun Qu | (参考訳) federated learning(fl)は、サーバがクライアントのグループとコラボレーションして、クライアントのデータにアクセスせずにグローバルモデルを学ぶ分散型機械学習パラダイムを提供する。
ユーザの不均一性はFLにとって重要な課題であり、クラス分配の不均衡とともにFLの難易度をさらに高める。
Contrastive Language-Image Pre-Training (CLIP) のような大きな視覚言語モデルでは、画像分類とオブジェクト認識の新しい方法が大きな進歩を遂げている。
CLIPの成功とゼロショット学習にインスパイアされた私たちは、CLIPを使用して、ビジョン言語による監督の下で、サーバモデルとクライアントモデル間のフェデレーション学習を最適化します。
強力なクロスモダリティ表現と豊富なオープンボキャブラリー事前知識により、ユーザの不均一性とクラス分配バランスの緩和が期待されている。
本稿では,不均一・長尾データに対するクリップ誘導fl(clip2fl)法を提案する。
CLIP2FLでは、既製のCLIPモデルの知識がクライアントサーバモデルに転送され、クライアントとサーバの間にブリッジが構築されます。
具体的には,クライアント側の特徴表現能力を向上させるため,クライアントモデルとCLIP間の知識蒸留を行う。
サーバ側での学習では、異種性とクラス分散の不均衡を軽減するために、サーバモデルを再トレーニングするためのフェデレーション機能を生成します。
クリップのテキストエンコーダの監督によるコントラスト学習のプロトタイプを導入し、クライアント側の勾配に応じてフェデレーション特徴を生成し、バランスのとれたサーバ分類器の再トレーニングに使用する。 Federated learning (FL) provides a decentralized machine learning paradigm where a server collaborates with a group of clients to learn a global model without accessing the clients' data. User heterogeneity is a significant challenge for FL, which together with the class-distribution imbalance further enhances the difficulty of FL. Great progress has been made in large vision-language models, such as Contrastive Language-Image Pre-training (CLIP), which paves a new way for image classification and object recognition. Inspired by the success of CLIP on few-shot and zero-shot learning, we use CLIP to optimize the federated learning between server and client models under its vision-language supervision. It is promising to mitigate the user heterogeneity and class-distribution balance due to the powerful cross-modality representation and rich open-vocabulary prior knowledge. In this paper, we propose the CLIP-guided FL (CLIP2FL) method on heterogeneous and long-tailed data. In CLIP2FL, the knowledge of the off-the-shelf CLIP model is transferred to the client-server models, and a bridge is built between the client and server. Specifically, for client-side learning, knowledge distillation is conducted between client models and CLIP to improve the ability of client-side feature representation. For server-side learning, in order to mitigate the heterogeneity and class-distribution imbalance, we generate federated features to retrain the server model. A prototype contrastive learning with the supervision of the text encoder of CLIP is introduced to generate federated features depending on the client-side gradients, and they are used to retrain a balanced server classifier. | 翻訳日:2023-12-15 23:55:18 公開日:2023-12-14 |
# PairingNet: 画像フラグメントのための学習型ペア検索とマッチングネットワーク PairingNet: A Learning-based Pair-searching and -matching Network for Image Fragments ( http://arxiv.org/abs/2312.08704v1 ) ライセンス: Link先を確認 | Rixin Zhou, Ding Xia, Yi Zhang, Honglin Pang, Xi Yang, Chuntao Li | (参考訳) 本稿では,難解な修復問題を解決するために,学習に基づくイメージフラグメントのペア探索とマッチング手法を提案する。
既存の作業では、同様の輪郭形状やテクスチャにマッチするルールベースの手法を採用している。
そこで我々は,隣接するテクスチャを輪郭形状情報で効果的に活用し,性能を根本的に向上させるニューラルネットワークを提案する。
まず,グラフベースのネットワークを用いて断片の局所的な輪郭とテクスチャの特徴を抽出する。
そして,ペア探索タスクにおいて,各フラグメントのグローバルな特徴を符号化するために,これらの局所的特徴を統合するリニアトランスフォーマーベースモジュールを採用する。
ペアマッチングタスクでは,局所輪郭とテクスチャの特徴を動的に融合する重み付き融合モジュールを設計し,各フラグメントに対して類似度行列を定式化し,マッチングスコアを計算し,隣接する輪郭のセグメントを推定する。
提案するネットワークを忠実に評価するために,不規則な断片に画像全体を分解するアルゴリズムを用いて,新たな画像フラグメントデータセットを作成した。
実験の結果,提案ネットワークはペア探索の精度に優れ,マッチングエラーを低減し,計算時間を大幅に短縮することがわかった。
詳細、ソースコード、およびデータは、私たちの補足資料で利用可能です。 In this paper, we propose a learning-based image fragment pair-searching and -matching approach to solve the challenging restoration problem. Existing works use rule-based methods to match similar contour shapes or textures, which are always difficult to tune hyperparameters for extensive data and computationally time-consuming. Therefore, we propose a neural network that can effectively utilize neighbor textures with contour shape information to fundamentally improve performance. First, we employ a graph-based network to extract the local contour and texture features of fragments. Then, for the pair-searching task, we adopt a linear transformer-based module to integrate these local features and use contrastive loss to encode the global features of each fragment. For the pair-matching task, we design a weighted fusion module to dynamically fuse extracted local contour and texture features, and formulate a similarity matrix for each pair of fragments to calculate the matching score and infer the adjacent segment of contours. To faithfully evaluate our proposed network, we created a new image fragment dataset through an algorithm we designed that tears complete images into irregular fragments. The experimental results show that our proposed network achieves excellent pair-searching accuracy, reduces matching errors, and significantly reduces computational time. Details, sourcecode, and data are available in our supplementary material. | 翻訳日:2023-12-15 23:48:13 公開日:2023-12-14 |
# Rydberg-atom による整数分解問題の解法 A Rydberg-atom approach to the integer factorization problem ( http://arxiv.org/abs/2312.08703v1 ) ライセンス: Link先を確認 | Juyoung Park, Seokho Jeong, Minhyuk Kim, Kangheun Kim, Andrew Byun, Louis Vignoli, Louis-Paul Henry, Lo\"ic Henriet, and Jaewook Ahn | (参考訳) 整数を分解するタスクは現代の暗号学において大きな課題となり、量子コンピューティングはこの問題を古典的アルゴリズムと比較して効率的に扱う可能性を秘めている。
したがって、この問題に対処する量子コンピューティングアルゴリズムを開発することが重要である。
本研究では,rydberg原子を用いた因子分解問題に対する量子アプローチを提案する。
6 = 2 \times 3$、15 = 3 \times 5$、35 = 5 \times 7$ のような小さな合成数の分解について実験的なデモが行われた。
このアプローチでは、Rydberg-atom graph を用いてバイナリ乗法テーブルをアルゴリズムでプログラムし、ファクタリング解の重ね合わせを表す多くの基底状態を生成する。
その後、これらの状態は量子断熱計算を用いて探究される。
この手法の限界について論じ、特に複雑な計算問題に対する現在のRydberg量子コンピューティングのスケーラビリティに対処する。 The task of factoring integers poses a significant challenge in modern cryptography, and quantum computing holds the potential to efficiently address this problem compared to classical algorithms. Thus, it is crucial to develop quantum computing algorithms to address this problem. This study introduces a quantum approach that utilizes Rydberg atoms to tackle the factorization problem. Experimental demonstrations are conducted for the factorization of small composite numbers such as $6 = 2 \times 3$, $15 = 3 \times 5$, and $35 = 5 \times 7$. This approach involves employing Rydberg-atom graphs to algorithmically program binary multiplication tables, yielding many-body ground states that represent superpositions of factoring solutions. Subsequently, these states are probed using quantum adiabatic computing. Limitations of this method are discussed, specifically addressing the scalability of current Rydberg quantum computing for the intricate computational problem. | 翻訳日:2023-12-15 23:47:47 公開日:2023-12-14 |
# 合理的感性:自己呈示理論によるllm強化共感応答生成 Rational Sensibility: LLM Enhanced Empathetic Response Generation Guided by Self-presentation Theory ( http://arxiv.org/abs/2312.08702v1 ) ライセンス: Link先を確認 | Linzhuang Sun, Nan Xu, Jingxuan Wei, Bihui Yu, Liping Bu, Yin Luo | (参考訳) 共感する能力を持つことは、会話中の人間の行動を正確に表現するために重要である。
外部知識を取り入れたモデル認知能力の向上を目的とした研究が数多く行われているが、認知共感の重要な要素である会話自体の合理的かつ合理的な表現に注意が向けられている。
社会学における自己表現理論に導かれ, 歴史的対話を合理的かつ合理的な文に分離し, その後, 注意機構によって文脈を解明する, 革新的なカテゴリー的アプローチを考案した。
しかし,会話内の有理的な情報は制限されており,従来手法で用いられてきた外部知識は,意味的矛盾や視野の狭さに限界がある。
インテリジェントエージェントの領域におけるllmの印象的なパフォーマンスを考える。
llama2-70bを有理脳として,会話に保持される深い論理情報を分析し,感性と合理性のバランスを評価するモデルを用いて,質的共感応答を生成する。
実験により,本手法は自動評価と人的評価の両方において,他の同等の手法よりも優れていることが示された。 Having the ability to empathize is crucial for accurately representing human behavior during conversations. Despite numerous research aim to improve the cognitive capability of models by incorporating external knowledge, there has been limited attention on the sensible and rational expression of the conversation itself, which are crucial components of the cognitive empathy. Guided by self-presentation theory in sociology, we have designed an innovative categorical approach that segregates historical dialogues into sensible and rational sentences and subsequently elucidate the context through the designed attention mechanism. However, the rational information within the conversation is restricted and the external knowledge used in previous methods have limitations of semantic contradiction and narrow vision field. Considering the impressive performance of LLM in the domain of intelligent agent. We employ LLaMA2-70b as a rational brain to analyze the profound logical information maintained in conversations, which assists the model assessing the balance of sensibility and rationality to produce quality empathetic responses. Experimental evaluations demonstrate that our method outperforms other comparable methods on both automatic and human evaluations. | 翻訳日:2023-12-15 23:47:32 公開日:2023-12-14 |
# RdimKD:次元還元による汎用蒸留パラダイム RdimKD: Generic Distillation Paradigm by Dimensionality Reduction ( http://arxiv.org/abs/2312.08700v1 ) ライセンス: Link先を確認 | Yi Guo, Yiqian He, Xiaoyang Li, Haotong Qin, Van Tung Pham, Yang Zhang, Shouda Liu | (参考訳) 知識蒸留(KD)は、リソース制限されたデバイス上で高度なディープニューラルネットワークを実行する最も有望な圧縮技術のひとつである。
大規模なネットワーク(教師)の指導のもと、小さなネットワーク(学生)を訓練するために、教師の情報を用いて生徒の特徴地図やロジットを規則化する直感的な手法を用いる。
しかし、既存の手法では、教師から全ての情報を学ぶことを過剰に制限しているか、あるいは様々な豪華で精巧なモジュールを使って、複雑で汎用性に欠ける特徴を処理・調整する。
本研究では,DIMensionality Reduction KD(RdimKD)と呼ばれるKDタスクの抽象的かつ一般的なパラダイムを提案する。
RdimKD はプロジェクション行列を利用して教師と生徒の特徴マップを低次元の部分空間に投影し、訓練中に最適化する。
RdimKDは、生徒が教師から貴重な情報を得るだけでなく、学生の低容量現実に適応するための十分な柔軟性を確保するために、最も単純な方法で目標を達成する。
実験により,RdimKDの学習課題およびネットワークアーキテクチャにおける有効性を示した。 Knowledge Distillation (KD) emerges as one of the most promising compression technologies to run advanced deep neural networks on resource-limited devices. In order to train a small network (student) under the guidance of a large network (teacher), the intuitive method is regularizing the feature maps or logits of the student using the teacher's information. However, existing methods either over-restrict the student to learn all information from the teacher, which lead to some bad local minimum, or use various fancy and elaborate modules to process and align features, which are complex and lack generality. In this work, we proposed an abstract and general paradigm for the KD task, referred to as DIMensionality Reduction KD (RdimKD), which solely relies on dimensionality reduction, with a very minor modification to naive L2 loss. RdimKD straightforwardly utilizes a projection matrix to project both the teacher's and student's feature maps onto a low-dimensional subspace, which are then optimized during training. RdimKD achieves the goal in the simplest way that not only does the student get valuable information from the teacher, but it also ensures sufficient flexibility to adapt to the student's low-capacity reality. Our extensive empirical findings indicate the effectiveness of RdimKD across various learning tasks and diverse network architectures. | 翻訳日:2023-12-15 23:47:13 公開日:2023-12-14 |
# 超伝導量子コンピュータにおけるゲート忠実度を最大化するspulsegen: succinct pulse generator architecture SPulseGen: Succinct pulse generator architecture maximizing gate fidelity for superconducting quantum computers ( http://arxiv.org/abs/2312.08699v1 ) ライセンス: Link先を確認 | Ryosuke Matsuo, Kazuhisa Ogawa, Hidehisa Shiomi, Makoto Negoro, Takefumi Miyoshi, Michihiro Shintani, Hiromitsu Awano, Takashi Sato, Jun Shiomi | (参考訳) 本稿では,超伝導量子ビット用RFパルス発生器の費用対効果アーキテクチャを提案する。
既存の作品の多くは、高帯域幅メモリと高性能アナログ回路の両方を必要とする任意の波形発生器(awgs)を使用して、最適化されたrfパルス波形で最高のゲート忠実性を達成する。
提案したパルス発生アーキテクチャは、RFパルスの発生回路と波形の両方を低コストで2乗パルスに単純化する。
このアーキテクチャは、スケーラブルな量子コンピュータを実現する上での大きな障害である電力とコスト集約型AWGの必要性を排除している。
さらに,単一および複数キュービットのゲート操作の忠実度を最大化するためにパルス波形を最適化する手法を提案する。
システム状態が時間とともに進化するトランスモン量子ビットの量子力学シミュレーションは、我々のパルス発生器が理想のrfパルスと実質的に同じゲート忠実性を達成でき、メモリとアナログ回路の性能要件を実質的に低減できることを示す。 This paper proposes a cost-effective architecture for an RF pulse generator for superconducting qubits. Most existing works use arbitrary waveform generators (AWGs) that require both a large amount of high-bandwidth memories and high-performance analog circuits to achieve the highest gate fidelity with an optimized RF pulse waveform. The proposed pulse generator architecture significantly simplifies both the generator circuit and the waveform of the RF pulse to a cost-aware square pulses. This architecture eliminates the requirement for power- and cost-intensive AWG, a major obstacle in realizing scalable quantum computers. Additionally, this paper proposes a process to optimize pulse waveforms to maximize fidelity of gate operations for single and multiple qubits. Quantum dynamics simulation of transmon qubits, wherein the state of system evolves with time, demonstrates that our pulse generator can achieve practically the same gate fidelity as ideal RF pulses, while substantially reducing the performance requirements of memory and analog circuits. | 翻訳日:2023-12-15 23:46:50 公開日:2023-12-14 |
# 高信頼誘導による不完全コントラストマルチビュークラスタリング Incomplete Contrastive Multi-View Clustering with High-Confidence Guiding ( http://arxiv.org/abs/2312.08697v1 ) ライセンス: Link先を確認 | Guoqing Chao, Yi Jiang, Dianhui Chu | (参考訳) 実世界のアプリケーションでは、値が欠けているマルチビューデータがユビキタスであるため、不完全なマルチビュークラスタリングは重要な研究課題となる。
不完全なマルチビュークラスタリングには大きな努力がなされているが、まだいくつか課題がある。
1)既存のほとんどのメソッドは、欠落した値を扱うためにマルチビュー情報をフル活用しなかった。
2)ほとんどの方法は,多視点データ内の一貫性情報のみを用いるが,補完情報を無視している。
3) 既存の不完全なマルチビュークラスタリング手法では,不完全なマルチビュー表現学習とクラスタリングが独立したプロセスとして扱われ,性能差が生じる。
本研究では,高信頼誘導(ICMVC)を用いた非完全コントラストマルチビュークラスタリング手法を提案する。
まず、欠落値問題に対処するために、多視点一貫性関係伝達とグラフ畳み込みネットワークを提案する。
第二に、補完情報を活用するために、インスタンスレベルの注意融合と高信頼誘導が提案され、一方、潜在表現に対するインスタンスレベルのコントラスト学習は一貫性のある情報を利用するように設計されている。
第3に,マルチビュー欠落値処理,マルチビュー表現学習,統合最適化のためのクラスタリング割り当てを統合するためのエンドツーエンドフレームワークを提案する。
最先端手法との比較実験により,本手法の有効性と優位性を示した。
私たちのコードはhttps://github.com/liunian-Jay/ICMVC.comで公開されています。 Incomplete multi-view clustering becomes an important research problem, since multi-view data with missing values are ubiquitous in real-world applications. Although great efforts have been made for incomplete multi-view clustering, there are still some challenges: 1) most existing methods didn't make full use of multi-view information to deal with missing values; 2) most methods just employ the consistent information within multi-view data but ignore the complementary information; 3) For the existing incomplete multi-view clustering methods, incomplete multi-view representation learning and clustering are treated as independent processes, which leads to performance gap. In this work, we proposed a novel Incomplete Contrastive Multi-View Clustering method with high-confidence guiding (ICMVC). Firstly, we proposed a multi-view consistency relation transfer plus graph convolutional network to tackle missing values problem. Secondly, instance-level attention fusion and high-confidence guiding are proposed to exploit the complementary information while instance-level contrastive learning for latent representation is designed to employ the consistent information. Thirdly, an end-to-end framework is proposed to integrate multi-view missing values handling, multi-view representation learning and clustering assignment for joint optimization. Experiments compared with state-of-the-art approaches demonstrated the effectiveness and superiority of our method. Our code is publicly available at https://github.com/liunian-Jay/ICMVC. | 翻訳日:2023-12-15 23:46:32 公開日:2023-12-14 |
# cpst:マルチモーダルナラティブのための理解保存スタイルトランスファー CPST: Comprehension-Preserving Style Transfer for Multi-Modal Narratives ( http://arxiv.org/abs/2312.08695v1 ) ライセンス: Link先を確認 | Yi-Chun Chen, Arnav Jhala | (参考訳) マルチモーダルな視覚的物語におけるスタイル伝達の課題について検討する。
漫画や漫画のような静的な視覚的な物語の中には、プレゼンテーションの観点で異なるビジュアルスタイルがある。
パネルレイアウト、サイズ、形状、色など、複数のディメンションにまたがるスタイル機能が含まれている。
視覚的要素とテキストメディア要素の両方が含まれる。
テキスト要素とメディア要素の両方のレイアウトは、物語コミュニケーションにおいても重要である。
パネル間のシーケンシャルな遷移は、読者が物語の世界について推測する場である。
これらの特徴の違いは、各モダリティに対する特徴の処理に違いがあるスタイル転送に興味深い課題をもたらす。
このようなマルチモーダルドメインにおける理解保存スタイル転送(CPST)の概念を導入する。
CPSTはスタイル伝達の伝統的なメトリクスだけでなく、物語理解のメトリクスも必要としている。
この領域のさらなる研究を促進するために、漫画と漫画の注釈付きデータセットと、視覚的、テキスト的、レイアウトパラメータの分離したスタイル転送モジュールを利用するアルゴリズムの初期セットを提示する。
スタイル伝達が物語のセマンティクスを保存するかどうかを検証するために,このアルゴリズムを,物語システムの計算認知の研究に触発された視覚的ストーリークローゼテストにより評価する。
スタイルと物語のセマンティクスの関連を理解することは、情報ブローフレットデザインからデータストーリーテリングまで幅広い応用の洞察を与える。 We investigate the challenges of style transfer in multi-modal visual narratives. Among static visual narratives such as comics and manga, there are distinct visual styles in terms of presentation. They include style features across multiple dimensions, such as panel layout, size, shape, and color. They include both visual and text media elements. The layout of both text and media elements is also significant in terms of narrative communication. The sequential transitions between panels are where readers make inferences about the narrative world. These feature differences provide an interesting challenge for style transfer in which there are distinctions between the processing of features for each modality. We introduce the notion of comprehension-preserving style transfer (CPST) in such multi-modal domains. CPST requires not only traditional metrics of style transfer but also metrics of narrative comprehension. To spur further research in this area, we present an annotated dataset of comics and manga and an initial set of algorithms that utilize separate style transfer modules for the visual, textual, and layout parameters. To test whether the style transfer preserves narrative semantics, we evaluate this algorithm through visual story cloze tests inspired by work in computational cognition of narrative systems. Understanding the connection between style and narrative semantics provides insight for applications ranging from informational brochure designs to data storytelling. | 翻訳日:2023-12-15 23:46:10 公開日:2023-12-14 |
# spectrumnerf: 神経放射場を用いた物理的スペクトルレンダリング SpectralNeRF: Physically Based Spectral Rendering with Neural Radiance Field ( http://arxiv.org/abs/2312.08692v1 ) ライセンス: Link先を確認 | Ru Li, Jia Liu, Guanghui Liu, Shengping Zhang, Bing Zeng, Shuaicheng Liu | (参考訳) 本稿では,新しいスペクトル視点から,高品質な物理ベースレンダリングを実現するために,NeRF(End-to-end Neural Radiance Field)アーキテクチャであるSpectralNeRFを提案する。
古典的なスペクトルレンダリングを2つの主要なステップに修正する。
1)異なる波長にまたがる一連のスペクトルマップの生成。
2)RGB出力に対するこれらのスペクトルマップの組み合わせ。
我々のSpectralNeRFは、提案したマルチ層パーセプトロン(MLP)ベースのアーキテクチャ(SpectralMLP)とSAUNet(Spectral Attention UNet)の2つのステップに従っている。
スペクトルMLPは、光の起源と光の方向を考慮し、スペクトル放射場を構築して、新しいビューのスペクトルマップを取得し、それをSAUNetに送信し、白色光のRGB画像を生成する。
スペクトルレンダリングを構築するためにNeRFを適用することは、レイトレーシングの観点からより物理的な方法である。
さらに、スペクトル放射場は難しいシーンを分解し、NeRF法の性能を向上させる。
包括的実験により,提案するspectrumnerfは,合成データセットと実データ集合の新しいビューを合成する際に,近年のnrf法よりも優れていることが示された。
コードとデータセットはhttps://github.com/liru0126/SpectralNeRFで公開されている。 In this paper, we propose SpectralNeRF, an end-to-end Neural Radiance Field (NeRF)-based architecture for high-quality physically based rendering from a novel spectral perspective. We modify the classical spectral rendering into two main steps, 1) the generation of a series of spectrum maps spanning different wavelengths, 2) the combination of these spectrum maps for the RGB output. Our SpectralNeRF follows these two steps through the proposed multi-layer perceptron (MLP)-based architecture (SpectralMLP) and Spectrum Attention UNet (SAUNet). Given the ray origin and the ray direction, the SpectralMLP constructs the spectral radiance field to obtain spectrum maps of novel views, which are then sent to the SAUNet to produce RGB images of white-light illumination. Applying NeRF to build up the spectral rendering is a more physically-based way from the perspective of ray-tracing. Further, the spectral radiance fields decompose difficult scenes and improve the performance of NeRF-based methods. Comprehensive experimental results demonstrate the proposed SpectralNeRF is superior to recent NeRF-based methods when synthesizing new views on synthetic and real datasets. The codes and datasets are available at https://github.com/liru0126/SpectralNeRF. | 翻訳日:2023-12-15 23:45:53 公開日:2023-12-14 |
# TigerBot: オープン多言語マルチタスク LLM TigerBot: An Open Multilingual Multitask LLM ( http://arxiv.org/abs/2312.08688v1 ) ライセンス: Link先を確認 | Ye Chen and Wei Cai and Liangmin Wu and Xiaowei Li and Zhanxuan Xin and Cong Fu | (参考訳) 我々は7,13,70,180億のパラメータを持つベースモデルとチャットモデルからなる,tigerbotファミリーの大規模言語モデル(llm)のリリースと紹介を行う。
Llama-2とBLOOMをベースとしたモデルを開発し、データ、トレーニングアルゴリズム、インフラストラクチャ、アプリケーションツールの境界をさらに進める。
私たちのモデルは、例えばllama-2、特に英語では6\%、中国語では20\%といった、somaオープンソースモデルよりも有意義なパフォーマンス向上をもたらします。
tigerbot model familyは、主要な学術や産業のベンチマークやリーダーボードでも主要なパフォーマンスを達成している。
私たちは TigerBot が LLM オープンソースコミュニティの急速な進歩のスナップショットにすぎないと考えています。
したがって、私たちのモデルを公開し、私たちのアプローチを報告し、民主化された方法でSOTA LLMを構築し、現実世界のアプリケーションでLLMを使えるようにする追加の段階を施すことで、私たちは喜んでいます。 We release and introduce the TigerBot family of large language models (LLMs), consisting of base and chat models, sized from 7, 13, 70 and 180 billion parameters. We develop our models embarking from Llama-2 and BLOOM, and push the boundary further in data, training algorithm, infrastructure, and application tools. Our models yield meaningful performance gain over SOTA open-source models, e.g., Llama-2, specifically 6\% gain in English and 20\% gain in Chinese. TigerBot model family also achieves leading performance in major academic and industrial benchmarks and leaderboards. We believe that TigerBot represents just a snapshot of lightning-fast progression in LLM open-source community. Therefore, we are thrilled to give back by publicly releasing our models and reporting our approach behind, with additional emphases on building SOTA LLMs in a democratized way and making LLMs of use in real-world applications. | 翻訳日:2023-12-15 23:45:32 公開日:2023-12-14 |
# 厳密な)凸目的関数を持つADMMの反復によるプライバシ増幅 Privacy Amplification by Iteration for ADMM with (Strongly) Convex Objective Functions ( http://arxiv.org/abs/2312.08685v1 ) ライセンス: Link先を確認 | T-H. Hubert Chan and Hao Xie and Mengshi Zhao | (参考訳) 一次二重反復法である(強く)凸目的のためのプライベートADMM変種について検討する。
各イテレーションには、プリミティブ変数の更新に使用するプライベート機能を持つユーザがあり、ローカルプライバシのガウスノイズに隠れているため、デュアル変数にノイズを直接追加する必要はない。
イテレーションによるプライバシ増幅は、後回のイテレーションからのノイズが最後のイテレーションの後に最終変数をリリースする際のプライバシ保証を強化するかどうかを探求する。
Cyffersなど。
ICML 2023]は,ユーザのプライベート機能全体がアクセスされ,プライマリ変数にノイズが付加される,近位ADMM変種に対する繰り返しによるプライバシ増幅を探索した。
対照的に、ユーザ関数への1つの勾配アクセスを必要とするプライベートadmm変種について検討するが、主変数と双対変数は連続する反復の間に渡さなければならない。
Balle氏らによる[NeurIPS 2019]結合フレームワークを勾配ADMMの変種に適用するために、新しいアイデアで技術的な課題に取り組む。
まず、ADMMイテレーションにおける拡張性のないマッピング問題に、カスタマイズされたノルムを用いて対処する。
第二に、二重変数は直接ノイズを隠蔽しないため、2つの連続ノイズADMMイテレーションをマルコフ演算子として扱うことにより、それらのプライバシー保証が達成される。
我々の主な成果は、勾配ADMM変種に対するプライバシー保証が反復回数に比例して増幅可能であることである。
強凸目的関数の場合、この増幅は反復数によって指数関数的に増加する。
これらの増幅結果は、前述した確率勾配降下の特別な場合と一致する。 We examine a private ADMM variant for (strongly) convex objectives which is a primal-dual iterative method. Each iteration has a user with a private function used to update the primal variable, masked by Gaussian noise for local privacy, without directly adding noise to the dual variable. Privacy amplification by iteration explores if noises from later iterations can enhance the privacy guarantee when releasing final variables after the last iteration. Cyffers et al. [ICML 2023] explored privacy amplification by iteration for the proximal ADMM variant, where a user's entire private function is accessed and noise is added to the primal variable. In contrast, we examine a private ADMM variant requiring just one gradient access to a user's function, but both primal and dual variables must be passed between successive iterations. To apply Balle et al.'s [NeurIPS 2019] coupling framework to the gradient ADMM variant, we tackle technical challenges with novel ideas. First, we address the non-expansive mapping issue in ADMM iterations by using a customized norm. Second, because the dual variables are not masked with any noise directly, their privacy guarantees are achieved by treating two consecutive noisy ADMM iterations as a Markov operator. Our main result is that the privacy guarantee for the gradient ADMM variant can be amplified proportionally to the number of iterations. For strongly convex objective functions, this amplification exponentially increases with the number of iterations. These amplification results align with the previously studied special case of stochastic gradient descent. | 翻訳日:2023-12-15 23:45:14 公開日:2023-12-14 |
# GPT-4による不均一グラフニューラルアーキテクチャ探索 Heterogeneous Graph Neural Architecture Search with GPT-4 ( http://arxiv.org/abs/2312.08680v1 ) ライセンス: Link先を確認 | Haoyuan Dong, Yang Gao, Haishuai Wang, Hong Yang, Peng Zhang | (参考訳) 不均一グラフニューラルネットワーク(HGNAS)は、有効な異種グラフニューラルネットワークを自動設計するための強力なツールである。
しかし、既存のHGNASアルゴリズムは非効率な探索と不安定な結果に悩まされている。
本稿では,HGNASの探索効率と探索精度を向上させるため,新しいGPT-4ベースのHGNASモデルを提案する。
具体的には、新しいGPT-4拡張ヘテロジニアスグラフニューラルネットワーク探索(GHGNAS、略してGHGNAS)を提案する。
GHGNASの基本的な考え方は、GPT-4を新しい異種グラフニューラルアーキテクチャを生成するタスクへと導く一連のプロンプトを設計することである。
繰り返しGPT-4にプロンプトを尋ねることで、GHGNASは生成したHGNNの精度を継続的に検証し、フィードバックを使ってプロンプトをさらに最適化する。
GHGNASはGPT-4の強力な一般化能力を活用して,新たなHGNNを設計できることを示す。
さらに、GHGNASは強化学習と微分検索アルゴリズムに基づく従来のHGNASモデルよりも効率的かつ安定に動作する。 Heterogeneous graph neural architecture search (HGNAS) represents a powerful tool for automatically designing effective heterogeneous graph neural networks. However, existing HGNAS algorithms suffer from inefficient searches and unstable results. In this paper, we present a new GPT-4 based HGNAS model to improve the search efficiency and search accuracy of HGNAS. Specifically, we present a new GPT-4 enhanced Heterogeneous Graph Neural Architecture Search (GHGNAS for short). The basic idea of GHGNAS is to design a set of prompts that can guide GPT-4 toward the task of generating new heterogeneous graph neural architectures. By iteratively asking GPT-4 with the prompts, GHGNAS continually validates the accuracy of the generated HGNNs and uses the feedback to further optimize the prompts. Experimental results show that GHGNAS can design new HGNNs by leveraging the powerful generalization capability of GPT-4. Moreover, GHGNAS runs more effectively and stably than previous HGNAS models based on reinforcement learning and differentiable search algorithms. | 翻訳日:2023-12-15 23:44:47 公開日:2023-12-14 |
# 多様な髪型の容積捕獲のための局所的外観モデル A Local Appearance Model for Volumetric Capture of Diverse Hairstyle ( http://arxiv.org/abs/2312.08679v1 ) ライセンス: Link先を確認 | Ziyan Wang, Giljoo Nam, Aljaz Bozic, Chen Cao, Jason Saragih, Michael Zollhoefer, Jessica Hodgins | (参考訳) 髪は個性や外見において重要な役割を担っており、高品質でフォトリアリスティックなアバターの重要な要素となっている。
既存のアプローチでは、顔領域のみのモデリングにフォーカスするか、パーソナライズされたモデルに依存し、その一般化性と拡張性を制限する。
本稿では,多彩なヘアスタイルで高忠実度アバターを作成する新しい手法を提案する。
本手法は異なる髪型にまたがる局所的類似性を生かして,数百人のマルチビュー撮影に先立ち,普遍的な髪の出現を学習する。
この先行モデルは、入力として3次元配向の特徴を取り入れ、スパース点雲上に色で条件付けられた高密度放射場を生成する。
我々のモデルは、異なるヘアスタイルをローカルプリミティブに分割し、そのレベルで構築するので、様々なヘアトポロジーを扱うことができる。
実験により,本モデルは多種多様なヘアスタイルを捕捉し,新しいヘアスタイルに挑戦する上で有効であることを示す。
実験結果から,本手法は,フルヘアのフォトリアリスティックなパーソナライズされたアバターをキャプチャーし,生成する際の最先端のアプローチを改善することが示された。 Hair plays a significant role in personal identity and appearance, making it an essential component of high-quality, photorealistic avatars. Existing approaches either focus on modeling the facial region only or rely on personalized models, limiting their generalizability and scalability. In this paper, we present a novel method for creating high-fidelity avatars with diverse hairstyles. Our method leverages the local similarity across different hairstyles and learns a universal hair appearance prior from multi-view captures of hundreds of people. This prior model takes 3D-aligned features as input and generates dense radiance fields conditioned on a sparse point cloud with color. As our model splits different hairstyles into local primitives and builds prior at that level, it is capable of handling various hair topologies. Through experiments, we demonstrate that our model captures a diverse range of hairstyles and generalizes well to challenging new hairstyles. Empirical results show that our method improves the state-of-the-art approaches in capturing and generating photorealistic, personalized avatars with complete hair. | 翻訳日:2023-12-15 23:44:29 公開日:2023-12-14 |
# 一般化正規化器としての物理事前学習 Deep Learning with Physics Priors as Generalized Regularizers ( http://arxiv.org/abs/2312.08678v1 ) ライセンス: Link先を確認 | Frank Liu, Agniva Chowdhury | (参考訳) 様々な科学的・工学的な応用において、一般に、アレタリックとエピステミックの両不確実性を含むにもかかわらず、基礎となる複雑な系の近似モデルが存在する。
本稿では,これらの近似モデルをモデリングの物理学的優先事項として取り入れ,学習モデルの一般化能力の過小化を防止し,拡張する原理的手法を提案する。
構造的リスク最小化(SRM)の帰納的原理をバプニク(Vapnik)が先駆的に用い、このアプローチは物理学の先行を一般化正則化器に構成する。
実験の結果,テスト精度は最大で2桁の改善が達成された。 In various scientific and engineering applications, there is typically an approximate model of the underlying complex system, even though it contains both aleatoric and epistemic uncertainties. In this paper, we present a principled method to incorporate these approximate models as physics priors in modeling, to prevent overfitting and enhancing the generalization capabilities of the trained models. Utilizing the structural risk minimization (SRM) inductive principle pioneered by Vapnik, this approach structures the physics priors into generalized regularizers. The experimental results demonstrate that our method achieves up to two orders of magnitude of improvement in testing accuracy. | 翻訳日:2023-12-15 23:44:08 公開日:2023-12-14 |
# オンライン連続学習のための適応型ショートカットデバイアス Adaptive Shortcut Debiasing for Online Continual Learning ( http://arxiv.org/abs/2312.08677v1 ) ライセンス: Link先を確認 | Doyoung Kim, Dongmin Park, Yooju Shin, Jihwan Bang, Hwanjun Song, Jae-Gil Lee | (参考訳) 本稿では,オンライン連続学習(OCL)におけるショートカットバイアスを抑制しつつ,環境変化に伴うショートカットバイアスの程度に適応する新しいフレームワークDropTopを提案する。
観察されたショートカットバイアスの高アテンション特性により、高度に活性化された特徴がデバイアスの候補と考えられる。
より重要なのは、事前知識と補助データの準備が整っていないオンライン環境の制限を解決するために、2つの新しい技術 -- 特徴マップ融合と適応強度シフト -- が、投下すべき候補ショートカット機能の適切なレベルと比率を自動的に決定することを可能にすることです。
5つのベンチマークデータセットに関する広範囲な実験により、様々なoclアルゴリズムと組み合わせることで、droptopは平均精度を10.4%向上させ、忘れることを63.2%低下させることが示された。 We propose a novel framework DropTop that suppresses the shortcut bias in online continual learning (OCL) while being adaptive to the varying degree of the shortcut bias incurred by continuously changing environment. By the observed high-attention property of the shortcut bias, highly-activated features are considered candidates for debiasing. More importantly, resolving the limitation of the online environment where prior knowledge and auxiliary data are not ready, two novel techniques -- feature map fusion and adaptive intensity shifting -- enable us to automatically determine the appropriate level and proportion of the candidate shortcut features to be dropped. Extensive experiments on five benchmark datasets demonstrate that, when combined with various OCL algorithms, DropTop increases the average accuracy by up to 10.4% and decreases the forgetting by up to 63.2%. | 翻訳日:2023-12-15 23:43:57 公開日:2023-12-14 |
# sef-vc: クロス注意による自由ゼロショット音声変換 SEF-VC: Speaker Embedding Free Zero-Shot Voice Conversion with Cross Attention ( http://arxiv.org/abs/2312.08676v1 ) ライセンス: Link先を確認 | Junjie Li, Yiwei Guo, Xie Chen, Kai Yu | (参考訳) ゼロショット音声変換(VC: Zero-shot Voice conversion)は、音源話者の音色を任意の標的話者の音色に変換する。
生成した音声の音声は、対象話者の話者埋め込みを提供することで制御できるが、話者類似性は、地上の真実記録より遅れている。
本稿では,提案するSEF-VCについて述べる。このSEF-VCは,話者の音色を参照音声から学習して組み込むための,強力な位置に依存しないクロスアテンション機構によって設計され,HuBERTセマンティックトークンから非自己回帰的に波形を再構成する。
SEF-VCの簡潔な設計により、訓練安定性と音声変換性能が向上する。
目的的および主観的評価は、非常に短い参照音声であっても、強いゼロショットVCベースラインよりもターゲット参照に類似した高品質な音声を生成するSEF-VCの優位性を示す。 Zero-shot voice conversion (VC) aims to transfer the source speaker timbre to arbitrary unseen target speaker timbre, while keeping the linguistic content unchanged. Although the voice of generated speech can be controlled by providing the speaker embedding of the target speaker, the speaker similarity still lags behind the ground truth recordings. In this paper, we propose SEF-VC, a speaker embedding free voice conversion model, which is designed to learn and incorporate speaker timbre from reference speech via a powerful position-agnostic cross-attention mechanism, and then reconstruct waveform from HuBERT semantic tokens in a non-autoregressive manner. The concise design of SEF-VC enhances its training stability and voice conversion performance. Objective and subjective evaluations demonstrate the superiority of SEF-VC to generate high-quality speech with better similarity to target reference than strong zero-shot VC baselines, even for very short reference speeches. | 翻訳日:2023-12-15 23:43:39 公開日:2023-12-14 |
# ドリームドロン DreamDrone ( http://arxiv.org/abs/2312.08746v1 ) ライセンス: Link先を確認 | Hanyang Kong, Dongze Lian, Michael Bi Mi, Xinchao Wang | (参考訳) テキストプロンプトから未公開のフライスルーシーンを生成するための,革新的な手法であるdreamdroneを紹介する。
本手法の中心は,拡散モデルにおける中間的特徴の強い対応を利用した特徴対応誘導拡散プロセスである。
さらに,この指導戦略を活かして,中間的潜在コード編集のための高度な手法を提案し,幾何学的一貫性を持つ新たなビューの生成を可能にした。
大規模な実験により、DreamDroneは既存の手法をはるかに上回り、優れた視覚的品質のシーンを生成することがわかった。
このアプローチは、テキストプロンプトからゼロショットの永続ビュー生成において重要なステップであり、オースや洞窟などの自然景観や、レゴスタイルのストリートビューのような複雑な都市環境など、多様なシーンを作成できる。
私たちのコードは公開されています。 We introduce DreamDrone, an innovative method for generating unbounded flythrough scenes from textual prompts. Central to our method is a novel feature-correspondence-guidance diffusion process, which utilizes the strong correspondence of intermediate features in the diffusion model. Leveraging this guidance strategy, we further propose an advanced technique for editing the intermediate latent code, enabling the generation of subsequent novel views with geometric consistency. Extensive experiments reveal that DreamDrone significantly surpasses existing methods, delivering highly authentic scene generation with exceptional visual quality. This approach marks a significant step in zero-shot perpetual view generation from textual prompts, enabling the creation of diverse scenes, including natural landscapes like oases and caves, as well as complex urban settings such as Lego-style street views. Our code is publicly available. | 翻訳日:2023-12-15 23:38:09 公開日:2023-12-14 |
# GOEnFusion: 3次元前方拡散モデルのためのグラディエントオリジナルエンコーディング GOEnFusion: Gradient Origin Encodings for 3D Forward Diffusion Models ( http://arxiv.org/abs/2312.08744v1 ) ライセンス: Link先を確認 | Animesh Karnewar and Andrea Vedaldi and Niloy J. Mitra and David Novotny | (参考訳) 最近導入されたフォワードディフフュージョン法では、2次元画像のみを使用して3次元拡散モデルを訓練することができる。
しかし、異なる3D表現への一般化は容易ではなく、基礎となる3Dシーンを生成するのに計算的に高価な自動回帰サンプリングプロセスが必要である。
本稿では,goen:gradient origin encoding (goneと発音する)を提案する。
goenは、トレーニング済みの画像特徴抽出器を使わずに、入力画像を任意のタイプの3d表現にエンコードできる。
また、設計によって、単一の、複数の、あるいはないソースビューも同じように扱うことができ、ビューからエンコーディングへの情報転送を最大化しようとする。
提案するGOEnFusionモデルは,Vanilla Forward-Diffusion実現の限界に対処するForward-Diffusionモデルの実現と,GOEnエンコーディングのペア化を行う。
GOEn機構がエンコードされた表現にどの程度の情報を転送するか、そして、部分的なAutoEncoderのレンズを通して、基礎となる3Dシーンの以前の分布をどの程度正確に捉えているかを評価する。
最後に, GOEnFusionモデルの有効性を, 最近提案されたOmniObject3Dデータセットで評価し, 最先端のフォワードモデルおよび非フォワード拡散モデルおよび他の3次元生成モデルと比較した。 The recently introduced Forward-Diffusion method allows to train a 3D diffusion model using only 2D images for supervision. However, it does not easily generalise to different 3D representations and requires a computationally expensive auto-regressive sampling process to generate the underlying 3D scenes. In this paper, we propose GOEn: Gradient Origin Encoding (pronounced "gone"). GOEn can encode input images into any type of 3D representation without the need to use a pre-trained image feature extractor. It can also handle single, multiple or no source view(s) alike, by design, and tries to maximise the information transfer from the views to the encodings. Our proposed GOEnFusion model pairs GOEn encodings with a realisation of the Forward-Diffusion model which addresses the limitations of the vanilla Forward-Diffusion realisation. We evaluate how much information the GOEn mechanism transfers to the encoded representations, and how well it captures the prior distribution over the underlying 3D scenes, through the lens of a partial AutoEncoder. Lastly, the efficacy of the GOEnFusion model is evaluated on the recently proposed OmniObject3D dataset while comparing to the state-of-the-art Forward and non-Forward-Diffusion models and other 3D generative models. | 翻訳日:2023-12-15 23:37:55 公開日:2023-12-14 |
# 低ランク特徴表現の学習:連続学習における安定性と塑性のトレードオフの改善 Learning a Low-Rank Feature Representation: Achieving Better Trade-Off between Stability and Plasticity in Continual Learning ( http://arxiv.org/abs/2312.08740v1 ) ライセンス: Link先を確認 | Zhenrong Liu, Yang Li, Yi Gong and Yik-Chung Wu | (参考訳) 連続学習では、ネットワークは一連のタスクでトレーニングされた場合、安定性と可塑性の間のトレードオフに直面します。
安定性を犠牲にすることなく可塑性を高めるために,LRFRと呼ばれる新しいトレーニングアルゴリズムを提案する。
このアプローチは、安定性を保証するために過去のタスクのフィーチャー表現行列のヌル空間におけるネットワークパラメータを最適化する。
同時に、ネットワークの各層におけるニューロンのサブセットのみを任意に選択し、個々のタスクを訓練して過去のタスクの特徴表現行列を低ランクで学習する。
これにより、その後のタスクでネットワークパラメータを設計する際のヌル空間次元が増大し、可塑性が向上する。
CIFAR-100とTinyImageNetを連続学習のベンチマークデータセットとして使用することにより、提案手法は一貫して最先端の手法より優れている。 In continual learning, networks confront a trade-off between stability and plasticity when trained on a sequence of tasks. To bolster plasticity without sacrificing stability, we propose a novel training algorithm called LRFR. This approach optimizes network parameters in the null space of the past tasks' feature representation matrix to guarantee the stability. Concurrently, we judiciously select only a subset of neurons in each layer of the network while training individual tasks to learn the past tasks' feature representation matrix in low-rank. This increases the null space dimension when designing network parameters for subsequent tasks, thereby enhancing the plasticity. Using CIFAR-100 and TinyImageNet as benchmark datasets for continual learning, the proposed approach consistently outperforms state-of-the-art methods. | 翻訳日:2023-12-15 23:37:32 公開日:2023-12-14 |
# JPIS:Slot-to-Intent Attentionによるプロファイルベースインテント検出とスロットフィリングの統合モデル JPIS: A Joint Model for Profile-based Intent Detection and Slot Filling with Slot-to-Intent Attention ( http://arxiv.org/abs/2312.08737v1 ) ライセンス: Link先を確認 | Thinh Pham, Dat Quoc Nguyen | (参考訳) プロファイルに基づくインテント検出とスロット充填は,ユーザ固有のプロファイル情報を活用することで,ユーザの発話の曖昧さを軽減するための重要なタスクである。
しかし、この2つの課題の研究は広範囲に研究されていない。
このギャップを埋めるために,プロファイルに基づくインテント検出とスロット充填の強化を目的としたjpisというジョイントモデルを提案する。
JPISは、サポート対象のプロファイル情報をエンコーダに組み込んで、スロット情報表現をインテント検出に転送するスロットツーインテントアテンション機構を導入する。
実験の結果,JPISは従来のプロファイルベースモデルよりも大幅に優れており,中国のベンチマークデータセットProSLUの精度が向上した。 Profile-based intent detection and slot filling are important tasks aimed at reducing the ambiguity in user utterances by leveraging user-specific supporting profile information. However, research in these two tasks has not been extensively explored. To fill this gap, we propose a joint model, namely JPIS, designed to enhance profile-based intent detection and slot filling. JPIS incorporates the supporting profile information into its encoder and introduces a slot-to-intent attention mechanism to transfer slot information representations to intent detection. Experimental results show that our JPIS substantially outperforms previous profile-based models, establishing a new state-of-the-art performance in overall accuracy on the Chinese benchmark dataset ProSLU. | 翻訳日:2023-12-15 23:37:19 公開日:2023-12-14 |
# Polyper: 境界感性ポリープセグメンテーション Polyper: Boundary Sensitive Polyp Segmentation ( http://arxiv.org/abs/2312.08735v1 ) ライセンス: Link先を確認 | Hao Shao, Yang Zhang, Qibin Hou | (参考訳) ポリープセグメンテーションのための新しいバウンダリセンシティブなフレームワークであるPolyperを提案する。
本手法は, 内ポリープ領域に内在する特徴を生かしてぼやけた境界に対処し, モデルの境界識別能力を向上し, 計算の最小化を図りながら, ポリープ領域を明示的に活用することを目的としている。
まず,初期セグメンテーションマップから境界領域とポリプ領域をモルフォロジー演算子を通して抽出する。
次に,境界近傍の特徴の強化に焦点をあてた境界敏感な注意を内部ポリープ領域の特性を用いて設計し,良好なセグメンテーション結果を生成する。
提案手法は,resnet-50,mit-b1,swain transformerなどの従来のエンコーダネットワークとシームレスに統合できる。
Polyperの有効性を評価するため、5つの公開可能な挑戦的データセットで実験を行い、それらすべてに対して最先端のパフォーマンスを受信する。
コードはhttps://github.com/haoshao-nku/medical_seg.gitで入手できる。 We present a new boundary sensitive framework for polyp segmentation, called Polyper. Our method is motivated by a clinical approach that seasoned medical practitioners often leverage the inherent features of interior polyp regions to tackle blurred boundaries.Inspired by this, we propose explicitly leveraging polyp regions to bolster the model's boundary discrimination capability while minimizing computation. Our approach first extracts boundary and polyp regions from the initial segmentation map through morphological operators. Then, we design the boundary sensitive attention that concentrates on augmenting the features near the boundary regions using the interior polyp regions's characteristics to generate good segmentation results. Our proposed method can be seamlessly integrated with classical encoder networks, like ResNet-50, MiT-B1, and Swin Transformer. To evaluate the effectiveness of Polyper, we conduct experiments on five publicly available challenging datasets, and receive state-of-the-art performance on all of them. Code is available at https://github.com/haoshao-nku/medical_seg.git. | 翻訳日:2023-12-15 23:37:05 公開日:2023-12-14 |
# VMT-Adapter:マルチタスクディッセンスのためのパラメータ効率な伝達学習 VMT-Adapter: Parameter-Efficient Transfer Learning for Multi-Task Dense ( http://arxiv.org/abs/2312.08733v1 ) ライセンス: Link先を確認 | Yi Xin, Junlong Du, Qiang Wang, Zhiwen Lin, Ke Yan | (参考訳) 大規模事前訓練型モデルは様々なコンピュータビジョンタスクにおいて顕著な成功を収めた。
これらのモデルを活用するための標準的なアプローチは、ダウンストリームタスクのモデルパラメータをすべて微調整することであり、計算とストレージコストの面で問題を引き起こす。
近年,自然言語処理(NLP)にインスパイアされたパラメータ効率の伝達学習が視覚タスクに成功している。
しかし、既存のほとんどの技術はシングルタスク適応に重点を置いており、マルチタスク適応に関する限られた研究にもかかわらず、これらの手法はしばしば準最適トレーニングと推論効率を示す。
本稿では、まず、約O(1)のトレーニングと推論効率w.r.tタスク番号を打つ、一度のビジョン・マルチタスク・アダプタ(VMT-Adapter)を提案する。
具体的には、VMT-Adapterは複数のタスクからの知識を共有し、タスク固有の知識を独立した知識抽出モジュールを介して保存する。
特に、タスク固有のモジュールはパラメータが少ないため、VMT-Adapterはトレーニング可能なパラメータを無視して任意の数のタスクを処理できる。
また,ダウンプロジェクションとアッププロジェクションの共有パラメータを学習することにより,学習可能なパラメータをさらに削減するvmt-adapter-liteを提案する。
4つの密集したシーン理解タスクに関する大規模な実験では、VMT-Adapter(-Lite)が3.96%(1.34%)の相対的な改善を達成し、事前訓練されたモデルのトレーニング可能なパラメータをわずか1%(0.36%)利用した。 Large-scale pre-trained models have achieved remarkable success in various computer vision tasks. A standard approach to leverage these models is to fine-tune all model parameters for downstream tasks, which poses challenges in terms of computational and storage costs. Recently, inspired by Natural Language Processing (NLP), parameter-efficient transfer learning has been successfully applied to vision tasks. However, most existing techniques primarily focus on single-task adaptation, and despite limited research on multi-task adaptation, these methods often exhibit suboptimal training and inference efficiency. In this paper, we first propose an once-for-all Vision Multi-Task Adapter (VMT-Adapter), which strikes approximately O(1) training and inference efficiency w.r.t task number. Concretely, VMT-Adapter shares the knowledge from multiple tasks to enhance cross-task interaction while preserves task-specific knowledge via independent knowledge extraction modules. Notably, since task-specific modules require few parameters, VMT-Adapter can handle an arbitrary number of tasks with a negligible increase of trainable parameters. We also propose VMT-Adapter-Lite, which further reduces the trainable parameters by learning shared parameters between down- and up-projections. Extensive experiments on four dense scene understanding tasks demonstrate the superiority of VMT-Adapter(-Lite), achieving a 3.96%(1.34%) relative improvement compared to single-task full fine-tuning, while utilizing merely ~1% (0.36%) trainable parameters of the pre-trained model. | 翻訳日:2023-12-15 23:36:44 公開日:2023-12-14 |
# 頑健で表現力に富む人体のポーズと形状推定に向けて Towards Robust and Expressive Whole-body Human Pose and Shape Estimation ( http://arxiv.org/abs/2312.08730v1 ) ライセンス: Link先を確認 | Hui EnPang and Zhongang Cai and Lei Yang and Qingyi Tao and Zhonghua Wu and Tianwei Zhang and Ziwei Liu | (参考訳) 全体のポーズと形状推定は、単眼画像から人体のさまざまな行動(ポーズ、手振り、表情など)を共同で予測することを目的としている。
既存の手法では、既存のシナリオの複雑さの下で、しばしば劣化したパフォーマンスを示す。
これらのモデルの精度と信頼性は、予測された「textit{bounding box}」の品質、例えば、身体部分のスケールとアライメントに大きく影響していると論じる。
理想のバウンディングボックスアノテーションとモデル検出結果との自然な相違は、体全体のポーズと形状推定の性能に特に有害である。
本稿では,体全体のポーズと形状推定のロバスト性を高めるための新しい枠組みを提案する。
このフレームワークでは,上記の課題を3つの視点から解決するための3つの新しいモジュールが組み込まれている。
コントラスト的特徴抽出モジュール(Contrastive Feature extract Module)は、専用の正のサンプルに対照的な損失を組み込むことで、ロバストな拡張に不変であることを奨励する。
\textbf{3)ピクセルアライメントモジュール}は、予測されたカメラとボディモデルのパラメータから再投影されたメッシュが正確かつピクセルアライメントであることを保証する。
提案フレームワークの身体,手,顔,体全体のベンチマークにおける有効性を示すための総合的な実験を行った。
Codebase は \url{https://github.com/robosmplx/robosmplx} で入手できる。 Whole-body pose and shape estimation aims to jointly predict different behaviors (e.g., pose, hand gesture, facial expression) of the entire human body from a monocular image. Existing methods often exhibit degraded performance under the complexity of in-the-wild scenarios. We argue that the accuracy and reliability of these models are significantly affected by the quality of the predicted \textit{bounding box}, e.g., the scale and alignment of body parts. The natural discrepancy between the ideal bounding box annotations and model detection results is particularly detrimental to the performance of whole-body pose and shape estimation. In this paper, we propose a novel framework to enhance the robustness of whole-body pose and shape estimation. Our framework incorporates three new modules to address the above challenges from three perspectives: \textbf{1) Localization Module} enhances the model's awareness of the subject's location and semantics within the image space. \textbf{2) Contrastive Feature Extraction Module} encourages the model to be invariant to robust augmentations by incorporating contrastive loss with dedicated positive samples. \textbf{3) Pixel Alignment Module} ensures the reprojected mesh from the predicted camera and body model parameters are accurate and pixel-aligned. We perform comprehensive experiments to demonstrate the effectiveness of our proposed framework on body, hands, face and whole-body benchmarks. Codebase is available at \url{https://github.com/robosmplx/robosmplx}. | 翻訳日:2023-12-15 23:36:15 公開日:2023-12-14 |
# ラベルは自然言語理解タスクにあまりにもマスクマッチングを必要とする Labels Need Prompts Too Mask Matching for Natural Language Understanding Tasks ( http://arxiv.org/abs/2312.08726v1 ) ライセンス: Link先を確認 | Bo Li, Wei Ye, Quansen Wang, Wen Zhao, Shikun Zhang | (参考訳) テキストラベル名(記述)は、典型的には多くの自然言語理解(NLU)タスクに意味的に富んでいる。
本稿では,モデル入力のエンリッチ化に広く用いられているプロンプト手法をラベル側に初めて導入する。
具体的には,入力にプロンプトとそのラベルを付与し,マスク表現と照合して予測を行うマスクマッチング手法を提案する。
14個のデータセットで8つのNLUタスクを広範囲に評価した。
実験結果から,Mask Matchingは細調整や従来型のプロンプトチューニングにおいて,いくつかのデータセットにおける最先端のパフォーマンスを著しく向上させることがわかった。
マスクマッチングは、大きなラベル数と情報的なラベル名でNLUタスクを扱うのに特に適している。
ラベル側のプロンプトを調査する先駆的な取り組みとして,今後の研究の課題についても議論する。 Textual label names (descriptions) are typically semantically rich in many natural language understanding (NLU) tasks. In this paper, we incorporate the prompting methodology, which is widely used to enrich model input, into the label side for the first time. Specifically, we propose a Mask Matching method, which equips an input with a prompt and its label with another, and then makes predictions by matching their mask representations. We evaluate our method extensively on 8 NLU tasks with 14 datasets. The experimental results show that Mask Matching significantly outperforms its counterparts of fine-tuning and conventional prompt-tuning, setting up state-of-the-art performances in several datasets. Mask Matching is particularly good at handling NLU tasks with large label counts and informative label names. As pioneering efforts that investigate the label-side prompt, we also discuss open issues for future study. | 翻訳日:2023-12-15 23:35:49 公開日:2023-12-14 |
# 財務分析のための微調整LDMとLCMのFew-Shot Learningの比較分析 A Comparative Analysis of Fine-Tuned LLMs and Few-Shot Learning of LLMs for Financial Sentiment Analysis ( http://arxiv.org/abs/2312.08725v1 ) ライセンス: Link先を確認 | Sorouralsadat Fatemi, Yuheng Hu | (参考訳) 金融感情分析は、潜在パターンを解明し、新たなトレンドを検出する上で重要な役割を果たす。
近年,Large Language Models (LLMs) は,様々な自然言語処理(NLP)タスクにおいて,ゼロショットや少数ショットのインコンテクスト学習においても,その有効性を実証している。
それにもかかわらず、金融感情分析の文脈におけるそれらの可能性と適用性はまだ十分に検討されていない。
このギャップを埋めるために、インコンテキスト学習(gpt-3.5-turboモデルに焦点をあてる)と金融ドメインデータセットに微調整 LLM という2つのアプローチを採用する。
パラメータサイズが大きい微調整LDMと関連する計算コストを考えると、我々は小調整のための2億5000万から3Bのパラメータに焦点をあてている。
そして、そのパフォーマンスと最先端の成果を比較して、財務ドメインにおけるその効果を評価します。
提案手法は, パラメータが少なく, トレーニングデータセットも小さいモデルであっても, 最先端の微調整LDMに匹敵する性能が得られることを示す。
さらに、ゼロショットとワンショットのパフォーマンスは、微調整された小さなLDMと最先端の成果で同等の結果が得られる。
さらに,本分析では,文脈内学習におけるショット数が増加すると,財務領域の感情分析のパフォーマンスが向上しないことを示した。 Financial sentiment analysis plays a crucial role in uncovering latent patterns and detecting emerging trends, enabling individuals to make well-informed decisions that may yield substantial advantages within the constantly changing realm of finance. Recently, Large Language Models (LLMs) have demonstrated their effectiveness in diverse domains, showcasing remarkable capabilities even in zero-shot and few-shot in-context learning for various Natural Language Processing (NLP) tasks. Nevertheless, their potential and applicability in the context of financial sentiment analysis have not been thoroughly explored yet. To bridge this gap, we employ two approaches: in-context learning (with a focus on gpt-3.5-turbo model) and fine-tuning LLMs on a finance-domain dataset. Given the computational costs associated with fine-tuning LLMs with large parameter sizes, our focus lies on smaller LLMs, spanning from 250M to 3B parameters for fine-tuning. We then compare the performances with state-of-the-art results to evaluate their effectiveness in the finance-domain. Our results demonstrate that fine-tuned smaller LLMs can achieve comparable performance to state-of-the-art fine-tuned LLMs, even with models having fewer parameters and a smaller training dataset. Additionally, the zero-shot and one-shot performance of LLMs produces comparable results with fine-tuned smaller LLMs and state-of-the-art outcomes. Furthermore, our analysis demonstrates that there is no observed enhancement in performance for finance-domain sentiment analysis when the number of shots for in-context learning is increased. | 翻訳日:2023-12-15 23:35:24 公開日:2023-12-14 |
# パーソナライズされたパス Personalized Path Recourse ( http://arxiv.org/abs/2312.08724v1 ) ライセンス: Link先を確認 | Dat Hong, Tong Wang | (参考訳) 本稿では,エージェントのリコースパスを生成する新しい手法であるパーソナライズドパスリコースを提案する。
目的は、エージェントの本来の経路と高い類似性を確保し、エージェントにパーソナライズされたまま、望ましい目標(例えば、エージェントの元々の行動経路と比較してより良い結果)を達成することである。
パーソナライズとは、新しい経路が、そのポリシー機能からエージェントが観察した行動パターンに合わせて調整される範囲を指す。
パーソナライズされたリコースエージェントを訓練して,目標,類似性,パーソナライズを考慮した報酬関数を用いて,パーソナライズされたパスを生成する。
提案手法は強化学習と教師付き学習の両方に適用でき、事前決定された目標を達成するために行動のシーケンスやデータのシーケンスを修正または改善する。
この手法は様々な設定で評価され、有望な結果を示す。 This paper introduces Personalized Path Recourse, a novel method that generates recourse paths for an agent. The objective is to achieve desired goals (e.g., better outcomes compared to the agent's original paths of action), while ensuring a high similarity to the agent's original paths and being personalized to the agent. Personalization refers to the extent to which the new path is tailored to the agent's observed behavior patterns from their policy function. We train a personalized recourse agent to generate such personalized paths, which are obtained using reward functions that consider the goal, similarity, and personalization. The proposed method is applicable to both reinforcement learning and supervised learning settings for correcting or improving sequences of actions or sequences of data to achieve a pre-determined goal. The method is evaluated in various settings and demonstrates promising results. | 翻訳日:2023-12-15 23:34:10 公開日:2023-12-14 |
# StemGen:聴く音楽生成モデル StemGen: A music generation model that listens ( http://arxiv.org/abs/2312.08723v1 ) ライセンス: Link先を確認 | Julian D. Parker, Janne Spijkervet, Katerina Kosta, Furkan Yesiler, Boris Kuznetsov, Ju-Chiang Wang, Matt Avent, Jitong Chen, Duc Le | (参考訳) 近年,ディープラーニング技術を用いた音楽音声のエンドツーエンド生成が活発化している。
しかし、ほとんどのモデルは抽象コンディショニング情報に反応して完全に混合した音楽を生成することに集中している。
本研究では,音楽の文脈に耳を傾け,反応できる音楽生成モデルを作成するための代替パラダイムを提案する。
本稿では,非自己回帰型トランスフォーマーモデルアーキテクチャを用いて,そのようなモデルを構築する方法について述べる。
記述したアーキテクチャは、オープンソースとプロプライエタリなデータセットの両方でトレーニングします。
標準品質指標と音楽情報検索記述子に基づく新しい手法を用いて生成したモデルを評価する。
得られたモデルは、最先端のテキスト条件付きモデルの音質に到達し、その文脈と強い音楽的コヒーレンスを示す。 End-to-end generation of musical audio using deep learning techniques has seen an explosion of activity recently. However, most models concentrate on generating fully mixed music in response to abstract conditioning information. In this work, we present an alternative paradigm for producing music generation models that can listen and respond to musical context. We describe how such a model can be constructed using a non-autoregressive, transformer-based model architecture and present a number of novel architectural and sampling improvements. We train the described architecture on both an open-source and a proprietary dataset. We evaluate the produced models using standard quality metrics and a new approach based on music information retrieval descriptors. The resulting model reaches the audio quality of state-of-the-art text-conditioned models, as well as exhibiting strong musical coherence with its context. | 翻訳日:2023-12-15 23:33:51 公開日:2023-12-14 |
# ヒューマン・aiコラボレーションと認知信頼の多様性の定量化 Quantifying Divergence for Human-AI Collaboration and Cognitive Trust ( http://arxiv.org/abs/2312.08722v1 ) ライセンス: Link先を確認 | M\"uge Kural, Ali Gebe\c{s}\c{c}e, Tilek Chubakov, G\"ozde G\"ul \c{S}ahin | (参考訳) コラボレーションの可能性を予測し、AIシステムに対する認知的信頼を測定することは、これまで以上に重要である。
そのため、従来の研究は主にモデルの特徴(例えば精度、信頼性)にのみ焦点をあて、人間の要因を無視した。
そこで本研究では,人間から取得したラベルと広範囲のモデルから算出した分散度指標(KL, JSD)に基づく意思決定類似度尺度を提案する。
そこで,ユーザに対して,様々なモデルからソフトラベルを付与し,最も近い選択肢を選択するように依頼する。
ユーザは、最も類似したモデルと類似性/差異を示し、選択されたシステムに対するコラボレーションと認知信頼の可能性を調査する。
最後に,提案した意思決定類似度尺度と調査結果との関係を質的,定量的に分析した。
人々が最もよく似たモデル -- jsdによって測定される -- とコラボレーションする傾向があることが分かっていますが、このコラボレーションが必ずしも同じようなレベルの認知的信頼を意味するとは限らないのです。
私たちは、レポジトリでユーザリサーチ(設計、アウトプット)、モデル、メトリクスに関連するすべてのリソースをリリースします。 Predicting the collaboration likelihood and measuring cognitive trust to AI systems is more important than ever. To do that, previous research mostly focus solely on the model features (e.g., accuracy, confidence) and ignore the human factor. To address that, we propose several decision-making similarity measures based on divergence metrics (e.g., KL, JSD) calculated over the labels acquired from humans and a wide range of models. We conduct a user study on a textual entailment task, where the users are provided with soft labels from various models and asked to pick the closest option to them. The users are then shown the similarities/differences to their most similar model and are surveyed for their likelihood of collaboration and cognitive trust to the selected system. Finally, we qualitatively and quantitatively analyze the relation between the proposed decision-making similarity measures and the survey results. We find that people tend to collaborate with their most similar models -- measured via JSD -- yet this collaboration does not necessarily imply a similar level of cognitive trust. We release all resources related to the user study (e.g., design, outputs), models, and metrics at our repo. | 翻訳日:2023-12-15 23:33:11 公開日:2023-12-14 |
# ビジュアル・ナラティブにおけるジャンル分析のためのパネル・トランジション Panel Transitions for Genre Analysis in Visual Narratives ( http://arxiv.org/abs/2312.08720v1 ) ライセンス: Link先を確認 | Yi-Chun Chen, Arnav Jhala | (参考訳) 人間のコミュニケーションの仕方を理解し、物語を理解することは、メディア技術の研究と開発にとって重要である。
これは、アマチュアユーザーが高品質のコンテンツを簡単に作成できるツールやアルゴリズムがある現代において特に重要である。
ナラティブメディアは時間とともに、類似したアーティファクトにまたがる特徴の認識可能なパターンのセットを発達させる。
ジャンルは、同様のパターン、トロピー、ストーリー構造を持つ物語メディアのためのそのようなアーティファクトのグループである。
テキストやビデオのジャンル分類については,多くの研究がなされてきたが,漫画やマンガ風のビジュアル・ナラティブに基づいたジャンルのマルチモーダル分析を行う新たなアプローチを提案する。
本稿では,高レベルなナラティブパターンに対する注釈付き,西洋・東洋のさまざまなビジュアルブックを含む注釈付きデータセットの体系的特徴分析を行う。
次に,この媒体のジャンル分類におけるハイレベル特徴の寄与について,詳細な分析を行った。
主観的ラベルのモデル化における既存の計算手法の限界と課題を浮き彫りにする。
コミュニティへのコントリビューションは,注釈付きマンガ書籍のデータセット,高レベルの特徴による制約付きポピュラーメディアにおける視覚パネルとテキストのマルチモーダル分析,およびコンピュータモデルに主観的物語パターンを組み込むための体系的プロセスである。 Understanding how humans communicate and perceive narratives is important for media technology research and development. This is particularly important in current times when there are tools and algorithms that are easily available for amateur users to create high-quality content. Narrative media develops over time a set of recognizable patterns of features across similar artifacts. Genre is one such grouping of artifacts for narrative media with similar patterns, tropes, and story structures. While much work has been done on genre-based classifications in text and video, we present a novel approach to do a multi-modal analysis of genre based on comics and manga-style visual narratives. We present a systematic feature analysis of an annotated dataset that includes a variety of western and eastern visual books with annotations for high-level narrative patterns. We then present a detailed analysis of the contributions of high-level features to genre classification for this medium. We highlight some of the limitations and challenges of our existing computational approaches in modeling subjective labels. Our contributions to the community are: a dataset of annotated manga books, a multi-modal analysis of visual panels and text in a constrained and popular medium through high-level features, and a systematic process for incorporating subjective narrative patterns in computational models. | 翻訳日:2023-12-15 23:32:50 公開日:2023-12-14 |
# モード分解を利用した効率的な反応合成 Efficient Reactive Synthesis Using Mode Decomposition ( http://arxiv.org/abs/2312.08717v1 ) ライセンス: Link先を確認 | Mat\'ias Brizzio, C\'esar S\'anchez | (参考訳) ミッションコントローラや組み込みシステムといった重要なコンポーネントの開発は難しい作業です。
反応合成は、正しいコントローラを自動生成する技術である。
LTLで書かれた高レベル仕様が与えられた場合、リアクティブ合成は、環境が仮定を尊重する限り、仕様を満たすシステムを計算する。
残念ながら、LTL合成は、多くのケースでの使用を妨げる高い計算複雑性に悩まされている。
合成のスケーラビリティを改善するための有望なアプローチは、安全仕様を小さな仕様に分解し、独立して処理し、元の仕様のソリューションを構成することができる。
従来の分解方法は、同時実行によってシステムを構成する仕様の独立した部分を特定することに重点を置いていた。
本研究では,複雑な安全性仕様をより小さな問題に分解し,その解を順次(同時に)構成するモードに基づく新しい分解アルゴリズムを提案する。
我々のアルゴリズムへの入力は、元の仕様とモードの記述である。
サブ仕様の自動生成方法を示し、全てのサブプロブレムが実現可能であれば、完全な仕様が実現可能であることを示す。
さらに,分解仕様のサブシステムから,原仕様のシステムを構築する方法を示す。
最後に, 自己合成ツールを用いて得られたサブプロブレムを処理した複数のケーススタディを用いて, 提案手法の実現可能性を示す。 Developing critical components, such as mission controllers or embedded systems, is a challenging task. Reactive synthesis is a technique to automatically produce correct controllers. Given a high-level specification written in LTL, reactive synthesis consists of computing a system that satisfies the specification as long as the environment respects the assumptions. Unfortunately, LTL synthesis suffers from high computational complexity which precludes its use for many large cases. A promising approach to improve synthesis scalability consists of decomposing a safety specification into smaller specifications, that can be processed independently and composed into a solution for the original specification. Previous decomposition methods focus on identifying independent parts of the specification whose systems are combined via simultaneous execution. In this work, we propose a novel decomposition algorithm based on modes, which consists of decomposing a complex safety specification into smaller problems whose solution is then composed sequentially (instead of simultaneously). The input to our algorithm is the original specification and the description of the modes. We show how to generate sub-specifications automatically and we prove that if all sub-problems are realizable then the full specification is realizable. Moreover, we show how to construct a system for the original specification from sub-systems for the decomposed specifications. We finally illustrate the feasibility of our approach with multiple case studies using off-the-self synthesis tools to process the obtained sub-problems. | 翻訳日:2023-12-15 23:32:29 公開日:2023-12-14 |
# 勾配インフォームドプロキシポリシー最適化 Gradient Informed Proximal Policy Optimization ( http://arxiv.org/abs/2312.08710v1 ) ライセンス: Link先を確認 | Sanghyun Son, Laura Yu Zheng, Ryan Sullivan, Yi-Ling Qiao, Ming C. Lin | (参考訳) 本稿では,PPOアルゴリズムと差別化可能な環境からの解析的勾配を統合する新しいポリシー学習手法を提案する。
分析的勾配をPPOフレームワークに組み込むため、局所的に優位な政策として立つ「アルファ」政治の概念を導入する。
α}値を適応的に修正することで、学習中の分析ポリシー勾配の影響を効果的に管理することができる。
この目的のために,分析勾配のばらつきとバイアスを評価する指標を提案し,高いばらつきや偏りが検出された場合,これらの勾配への依存を低減させる。
提案手法は,関数最適化や物理シミュレーション,トラヒック制御環境など,様々なシナリオにおいてベースラインアルゴリズムよりも優れている。
私たちのコードはオンラインで見つけることができます。 We introduce a novel policy learning method that integrates analytical gradients from differentiable environments with the Proximal Policy Optimization (PPO) algorithm. To incorporate analytical gradients into the PPO framework, we introduce the concept of an {\alpha}-policy that stands as a locally superior policy. By adaptively modifying the {\alpha} value, we can effectively manage the influence of analytical policy gradients during learning. To this end, we suggest metrics for assessing the variance and bias of analytical gradients, reducing dependence on these gradients when high variance or bias is detected. Our proposed approach outperforms baseline algorithms in various scenarios, such as function optimization, physics simulations, and traffic control environments. Our code can be found online: https://github.com/SonSang/gippo. | 翻訳日:2023-12-15 23:32:09 公開日:2023-12-14 |
# VSFormer: 対応処理のためのVisual-Spatial Fusion Transformer VSFormer: Visual-Spatial Fusion Transformer for Correspondence Pruning ( http://arxiv.org/abs/2312.08774v1 ) ライセンス: Link先を確認 | Tangfei Liao, Xiaoqin Zhang, Li Zhao, Tao Wang, Guobao Xiao | (参考訳) 対応プルーニングは、多くのアプリケーションで基本的なタスクである最初の対応セットから正しい一致(インリアー)を見つけることを目的としている。
視覚的差異が大きいため、シーン/イメージペア間の不整合比が異なるため、発見のプロセスは困難である。
しかし、既存の手法の性能は通常、シーンの視覚的な手がかり(例えばテクスチャ、照明、構造)の欠如によって制限される。
本稿では,不整点を識別し,カメラのポーズを正確に復元するVisual-Spatial Fusion Transformer (VSFormer)を提案する。
まず,二視点画像の局所的特徴の相互に注意を向け,高度に抽象的なシーンの視覚手がかりを得る。
次に,これらの視覚手がかりと対応を視覚空間融合モジュールでモデル化し,同時に視覚手がかりをプルーニング用対応に組み込む。
さらに、対応の整合性を検討するために、KNNグラフと変換器を組み合わせた新しいモジュールを設計し、ローカルおよびグローバル両方のコンテキストを効果的にキャプチャする。
広範な実験により、vsformerは屋外および屋内ベンチマークにおいて最先端の手法よりも優れていることが示されている。 Correspondence pruning aims to find correct matches (inliers) from an initial set of putative correspondences, which is a fundamental task for many applications. The process of finding is challenging, given the varying inlier ratios between scenes/image pairs due to significant visual differences. However, the performance of the existing methods is usually limited by the problem of lacking visual cues (\eg texture, illumination, structure) of scenes. In this paper, we propose a Visual-Spatial Fusion Transformer (VSFormer) to identify inliers and recover camera poses accurately. Firstly, we obtain highly abstract visual cues of a scene with the cross attention between local features of two-view images. Then, we model these visual cues and correspondences by a joint visual-spatial fusion module, simultaneously embedding visual cues into correspondences for pruning. Additionally, to mine the consistency of correspondences, we also design a novel module that combines the KNN-based graph and the transformer, effectively capturing both local and global contexts. Extensive experiments have demonstrated that the proposed VSFormer outperforms state-of-the-art methods on outdoor and indoor benchmarks. | 翻訳日:2023-12-15 23:15:52 公開日:2023-12-14 |
# センチネル-1時系列, GIS, セマンティックセグメンテーションモデルを用いたオフショア風力発電プラントのセグメンテーション Offshore Wind Plant Instance Segmentation Using Sentinel-1 Time Series, GIS, and Semantic Segmentation Models ( http://arxiv.org/abs/2312.08773v1 ) ライセンス: Link先を確認 | Osmar Luiz Ferreira de Carvalho, Osmar Abilio de Carvalho Junior, Anesmar Olino de Albuquerque, Daniel Guerreiro e Silva | (参考訳) オフショア風力発電所は、世界的な成長傾向の著しい再生可能エネルギー源であり、そのモニタリングは、地域と環境計画にとって戦略的である。
本研究の目的は,セマンティクスセグメンテーションモデルとセンチネル-1時系列を用いて,洋上風力発電プラントをインスタンスレベルで検出することである。
第二の目標は
(a)ラベル付きデータとS-1時系列からなるデータベースを開発すること
(b)5つの深いセマンティックセグメンテーションアーキテクチャ(U-Net、U-Net++、Feature Pyramid Network - FPN、DeepLabv3+、LinkNet)のパフォーマンスを比較する。
(c)時系列内の画像の位置をシャッフルする新たな拡張戦略を開発すること。
(d)時系列間隔(1,5,10,15画像)の異なる寸法を調査し、
(e)semantic-to-instance変換手順を評価する。
LinkNetは最高パフォーマンスモデルで、続いてU-Net++とU-Netが続く一方、FPNとDeepLabv3+は最悪の結果を示した。
セマンティクスセグメンテーションモデルの評価により,時系列画像の強化により,統合(iou) (25%) とf-scoreメトリクス(18%) の交差点が拡張されたことが明らかとなった。
この研究は、偏見を緩和し、不変ターゲットを正確に検出する強化戦略の能力を示す。
さらに、セマンティクスからインスタンスセグメンテーションへの変換は、個々のインスタンスを分類された領域内で正確に分離することの有効性を示しています。 Offshore wind farms represent a renewable energy source with a significant global growth trend, and their monitoring is strategic for territorial and environmental planning. This study's primary objective is to detect offshore wind plants at an instance level using semantic segmentation models and Sentinel-1 time series. The secondary objectives are: (a) to develop a database consisting of labeled data and S-1 time series; (b) to compare the performance of five deep semantic segmentation architectures (U-Net, U-Net++, Feature Pyramid Network - FPN, DeepLabv3+, and LinkNet); (c) develop a novel augmentation strategy that shuffles the positions of the images within the time series; (d) investigate different dimensions of time series intervals (1, 5, 10, and 15 images); and (e) evaluate the semantic-to-instance conversion procedure. LinkNet was the top-performing model, followed by U-Net++ and U-Net, while FPN and DeepLabv3+ presented the worst results. The evaluation of semantic segmentation models reveals enhanced Intersection over Union (IoU) (25%) and F-score metrics (18%) with the augmentation of time series images. The study showcases the augmentation strategy's capability to mitigate biases and precisely detect invariant targets. Furthermore, the conversion from semantic to instance segmentation demonstrates its efficacy in accurately isolating individual instances within classified regions - simplifying training data and reducing annotation effort and complexity. | 翻訳日:2023-12-15 23:15:32 公開日:2023-12-14 |
# テキスト・画像拡散モデルにおける局所条件制御 Local Conditional Controlling for Text-to-Image Diffusion Models ( http://arxiv.org/abs/2312.08768v1 ) ライセンス: Link先を確認 | Yibo Zhao, Liang Peng, Yang Yang, Zekai Luo, Hengjia Li, Yao Chen, Wei Zhao, qinglin lu, Wei Liu, Boxi Wu | (参考訳) 拡散モデルは、テキストから画像へのタスクにおいて印象的な傾向を示してきた。
近年の手法では、エッジや深度マップなどの画像レベルの制御を加えて、テキストプロンプトとともに生成プロセスを操作し、所望の画像を取得する。
この制御プロセスは、制御領域の柔軟性を制限する全画像上でグローバルに操作される。
本稿では,ローカル制御という,シンプルで実用的なタスク設定を提案する。
ユーザが定義した画像条件に従って特定の局所領域を制御することに焦点を当て、残りの領域は元のテキストプロンプトによってのみ条件付けされる。
この方法では、ユーザがきめ細かい方法で画像生成を柔軟に制御できる。
しかし、この目標を達成することは自明ではない。
局所的な条件を直接付加するナイーブな方法が、局所的な支配的な問題に繋がる可能性がある。
そこで本研究では,非制御領域における概念生成を促進するため,非制御領域におけるデノセーション過程におけるクロス・アテンション・マップのノイズの更新とパラメータを活用するトレーニングフリーな手法を提案する。
また,局所制御領域内外における情報差に起因する合成画像品質の劣化を軽減するために,特徴マスク制約を用いる。
広域実験により,高品質画像を局所制御条件下でプロンプトに合成できることが実証された。
コードはhttps://github.com/YibooZhao/Local-Control.comで入手できる。 Diffusion models have exhibited impressive prowess in the text-to-image task. Recent methods add image-level controls, e.g., edge and depth maps, to manipulate the generation process together with text prompts to obtain desired images. This controlling process is globally operated on the entire image, which limits the flexibility of control regions. In this paper, we introduce a new simple yet practical task setting: local control. It focuses on controlling specific local areas according to user-defined image conditions, where the rest areas are only conditioned by the original text prompt. This manner allows the users to flexibly control the image generation in a fine-grained way. However, it is non-trivial to achieve this goal. The naive manner of directly adding local conditions may lead to the local control dominance problem. To mitigate this problem, we propose a training-free method that leverages the updates of noised latents and parameters in the cross-attention map during the denosing process to promote concept generation in non-control areas. Moreover, we use feature mask constraints to mitigate the degradation of synthesized image quality caused by information differences inside and outside the local control area. Extensive experiments demonstrate that our method can synthesize high-quality images to the prompt under local control conditions. Code is available at https://github.com/YibooZhao/Local-Control. | 翻訳日:2023-12-15 23:15:02 公開日:2023-12-14 |
# メラノーマ診断と予後診断のための二重畳み込みニューラルネットワークパイプライン A Dual Convolutional Neural Network Pipeline for Melanoma Diagnostics and Prognostics ( http://arxiv.org/abs/2312.08766v1 ) ライセンス: Link先を確認 | Marie B{\o}-Sande, Edvin Benjaminsen, Neel Kanwal, Saul Fuster, Helga Hardardottir, Ingrid Lundal, Emiel A.M. Janssen, Kjersti Engan | (参考訳) メラノーマ(melanoma)は、皮膚の色素を制御している細胞から発生するがんの一種であり、しばしば最も危険な皮膚がんと呼ばれる。
メラノーマの診断は時間がかかり、メラノーマのインシデントの増加は、より効率的な診断プロセスに対する需要の増加を示している。
本稿では, 2つの畳み込みニューラルネットワーク, 診断, 予後モデルを用いて, メラノーマ診断のためのパイプラインを提案する。
診断モデルは、スライド画像全体にわたって悪性パッチをローカライズし、悪性または良性である患者レベルの診断を提供する。
さらに、診断モデルの出力を利用して、患者レベルの予後を良くも悪くも提供する。
フルパイプラインはF1スコアが0.79で、トレーニングされたのと同じ分布のデータでテストされる。 Melanoma is a type of cancer that begins in the cells controlling the pigment of the skin, and it is often referred to as the most dangerous skin cancer. Diagnosing melanoma can be time-consuming, and a recent increase in melanoma incidents indicates a growing demand for a more efficient diagnostic process. This paper presents a pipeline for melanoma diagnostics, leveraging two convolutional neural networks, a diagnosis, and a prognosis model. The diagnostic model is responsible for localizing malignant patches across whole slide images and delivering a patient-level diagnosis as malignant or benign. Further, the prognosis model utilizes the diagnostic model's output to provide a patient-level prognosis as good or bad. The full pipeline has an F1 score of 0.79 when tested on data from the same distribution as it was trained on. | 翻訳日:2023-12-15 23:14:40 公開日:2023-12-14 |
# coweyeview - より精密な家畜栽培のためのマルチタスクトップダウンビュー牛データセット CattleEyeView: A Multi-task Top-down View Cattle Dataset for Smarter Precision Livestock Farming ( http://arxiv.org/abs/2312.08764v1 ) ライセンス: Link先を確認 | Kian Eng Ong, Sivaji Retta, Ramarajulu Srinivasan, Shawn Tan, Jun Liu | (参考訳) 牛の農業は重要な農業産業の1つである。
動物の数を数えたり、動物とそのポーズを追跡したりできるインテリジェントな自動精密家畜農業システムを使用することで、生産性を高め、既に制限された労働プールの重荷を著しく軽減できる。
このようなインテリジェントなシステムを実現するには,大規模な牛のビデオデータセットが不可欠である。
しかし、現在の多くの動物データセットは、少数のタスクや他の種類の動物に適合しており、牛に適用した場合のモデル性能は低下する。
また、牛をトップダウンで見ることはできない。
このような制限に対処するために、我々は、牛の数を数え、成長と幸福度を評価するのに役立つ、様々な関連タスク(数え、検出、ポーズ推定、追跡、インスタンスセグメンテーション)のための、最初のトップダウンビューのマルチタスクビデオデータセットであるcoweyeviewデータセットを紹介します。
データセットには、30,703フレーム(14の動画シーケンス)で753種類のトップダウン牛のインスタンスが含まれている。
各タスクに対するモデルの性能を評価するためのベンチマーク実験を行う。
データセットとコードはhttps://github.com/animaleyeq/cattleeyeviewにある。 Cattle farming is one of the important and profitable agricultural industries. Employing intelligent automated precision livestock farming systems that can count animals, track the animals and their poses will raise productivity and significantly reduce the heavy burden on its already limited labor pool. To achieve such intelligent systems, a large cattle video dataset is essential in developing and training such models. However, many current animal datasets are tailored to few tasks or other types of animals, which result in poorer model performance when applied to cattle. Moreover, they do not provide top-down views of cattle. To address such limitations, we introduce CattleEyeView dataset, the first top-down view multi-task cattle video dataset for a variety of inter-related tasks (i.e., counting, detection, pose estimation, tracking, instance segmentation) that are useful to count the number of cows and assess their growth and well-being. The dataset contains 753 distinct top-down cow instances in 30,703 frames (14 video sequences). We perform benchmark experiments to evaluate the model's performance for each task. The dataset and codes can be found at https://github.com/AnimalEyeQ/CattleEyeView. | 翻訳日:2023-12-15 23:14:25 公開日:2023-12-14 |
# 極性表現から学ぶ:長期時系列予測のための極性適応モデル Learning from Polar Representation: An Extreme-Adaptive Model for Long-Term Time Series Forecasting ( http://arxiv.org/abs/2312.08763v1 ) ライセンス: Link先を確認 | Yanhong Li and David C. Anastasiu | (参考訳) 水文学分野において, 時系列予測は, 効率的な水資源管理, 洪水および干ばつ対策の改善, 一般住民の安全と生活の質の向上に不可欠である。
しかし、極端なイベントが存在するため、長期的なストリームフローの予測は複雑な作業である。
長距離依存関係のキャプチャと、稀だが重要な極端な値のモデリングが必要である。
既存のアプローチはしばしば、これら2つの課題に同時に取り組むのに苦労する。
本稿では、これらの問題を特に掘り下げ、極性表現学習によって強化されたストラムフローの長距離予測のための新しい極性適応モデルである距離重み付き自己正規化ニューラルネットワーク(DAN)を提案する。
DANは、距離重み付きマルチロス機構とスタック可能なブロックを使用して、外因性データからインジケータシーケンスを動的に洗練すると同時に、ガウス混合確率モデルを用いて一変量時系列を処理し、重大事象に対する堅牢性を改善する。
また,不均衡極端データを扱うために,kruskal-wallisサンプリングとゲート制御ベクトルを導入する。
4つの実生活型水文流れデータセットについて,danが最先端水文時系列予測法と長期時系列予測のための一般的な手法を有意に上回っていることを実証した。 In the hydrology field, time series forecasting is crucial for efficient water resource management, improving flood and drought control and increasing the safety and quality of life for the general population. However, predicting long-term streamflow is a complex task due to the presence of extreme events. It requires the capture of long-range dependencies and the modeling of rare but important extreme values. Existing approaches often struggle to tackle these dual challenges simultaneously. In this paper, we specifically delve into these issues and propose Distance-weighted Auto-regularized Neural network (DAN), a novel extreme-adaptive model for long-range forecasting of stremflow enhanced by polar representation learning. DAN utilizes a distance-weighted multi-loss mechanism and stackable blocks to dynamically refine indicator sequences from exogenous data, while also being able to handle uni-variate time-series by employing Gaussian Mixture probability modeling to improve robustness to severe events. We also introduce Kruskal-Wallis sampling and gate control vectors to handle imbalanced extreme data. On four real-life hydrologic streamflow datasets, we demonstrate that DAN significantly outperforms both state-of-the-art hydrologic time series prediction methods and general methods designed for long-term time series prediction. | 翻訳日:2023-12-15 23:14:03 公開日:2023-12-14 |
# 言語モデルにおける連鎖推論のためのマルチモーダル遅延空間学習 Multi-modal Latent Space Learning for Chain-of-Thought Reasoning in Language Models ( http://arxiv.org/abs/2312.08762v1 ) ライセンス: Link先を確認 | Liqi He, Zuchao Li, Xiantao Cai, Ping Wang | (参考訳) CoT推論(Chain-of-thinkt)は、複雑なタスクの解決と質問に答えるための言語モデルにおいて、素晴らしいパフォーマンスを示している。
しかし、現実の質問の多くは、テキストや画像などのマルチモーダル情報を必要とする。
従来のマルチモーダルCoTの研究は、主に市販のビジョンモデルから固定画像の特徴を抽出し、注意機構を用いてテキストで融合することに焦点を当てていた。
このアプローチには、これらのビジョンモデルは複雑な推論タスクのために設計されておらず、言語思考とうまく一致しないため、制限がある。
この制限を克服するために,拡散過程による潜時空間学習を利用して,言語思考と整合する効果的な画像特徴を生成するマルチモーダルCoT推論手法を提案する。
提案手法は画像特徴とテキスト表現を深いレベルで融合し,マルチモーダルCoTの複雑な推論能力を向上させる。
提案手法がマルチモーダルScienceQAおよび機械翻訳ベンチマークにおいて有効であることを示し,ScienceQAの最先端性能を実現する。
全体として、我々のアプローチは言語モデルにおけるマルチモーダル推論に対してより堅牢で効果的なソリューションを提供し、複雑な実世界の問題に取り組む能力を高める。 Chain-of-thought (CoT) reasoning has exhibited impressive performance in language models for solving complex tasks and answering questions. However, many real-world questions require multi-modal information, such as text and images. Previous research on multi-modal CoT has primarily focused on extracting fixed image features from off-the-shelf vision models and then fusing them with text using attention mechanisms. This approach has limitations because these vision models were not designed for complex reasoning tasks and do not align well with language thoughts. To overcome this limitation, we introduce a novel approach for multi-modal CoT reasoning that utilizes latent space learning via diffusion processes to generate effective image features that align with language thoughts. Our method fuses image features and text representations at a deep level and improves the complex reasoning ability of multi-modal CoT. We demonstrate the efficacy of our proposed method on multi-modal ScienceQA and machine translation benchmarks, achieving state-of-the-art performance on ScienceQA. Overall, our approach offers a more robust and effective solution for multi-modal reasoning in language models, enhancing their ability to tackle complex real-world problems. | 翻訳日:2023-12-15 23:13:30 公開日:2023-12-14 |
# CF-NeRF:インクリメンタル学習によるカメラパラメータフリーニューラル放射場 CF-NeRF: Camera Parameter Free Neural Radiance Fields with Incremental Learning ( http://arxiv.org/abs/2312.08760v1 ) ライセンス: Link先を確認 | Qingsong Yan, Qiang Wang, Kaiyong Zhao, Jie Chen, Bo Li, Xiaowen Chu, Fei Deng | (参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、新しいビュー合成において優れた性能を示した。
しかし、NeRFとその変種のほとんどは、COLMAPのような外在的および内在的なカメラパラメータを提供するために、従来の複雑なパイプラインに依存している。
NeRFmm、BARF、L2G-NeRFといった最近の研究は、カメラパラメータを直接学習可能なものとして扱い、差分ボリュームレンダリングによってそれらを推定している。
しかし、これらの手法は、わずかに動きのある前方のシーンで動作し、実際に回転シナリオに対処できない。
この制限を克服するために,3次元表現を漸進的に再構成し,運動からインクリメンタル構造にインスパイアされたカメラパラメータを回復する,新しい\underline{c}ameraパラメータ \underline{f}ree neural radiance field (cf-nerf)を提案する。
CF-NeRFは画像のカメラパラメータを1つずつ推定し、初期化、暗黙の局所化、暗黙の最適化によってシーンを再構築する。
提案手法の評価には,複雑な路面下で12のシーンを提供する,現実的なデータセットNeRFBusterを用いる。
その結果、CF-NeRFはカメラ回転に頑健であり、事前情報や制約を伴わずに最先端の結果が得られることを示した。 Neural Radiance Fields (NeRF) have demonstrated impressive performance in novel view synthesis. However, NeRF and most of its variants still rely on traditional complex pipelines to provide extrinsic and intrinsic camera parameters, such as COLMAP. Recent works, like NeRFmm, BARF, and L2G-NeRF, directly treat camera parameters as learnable and estimate them through differential volume rendering. However, these methods work for forward-looking scenes with slight motions and fail to tackle the rotation scenario in practice. To overcome this limitation, we propose a novel \underline{c}amera parameter \underline{f}ree neural radiance field (CF-NeRF), which incrementally reconstructs 3D representations and recovers the camera parameters inspired by incremental structure from motion (SfM). Given a sequence of images, CF-NeRF estimates the camera parameters of images one by one and reconstructs the scene through initialization, implicit localization, and implicit optimization. To evaluate our method, we use a challenging real-world dataset NeRFBuster which provides 12 scenes under complex trajectories. Results demonstrate that CF-NeRF is robust to camera rotation and achieves state-of-the-art results without providing prior information and constraints. | 翻訳日:2023-12-15 23:13:08 公開日:2023-12-14 |
# すべての真に絡み合った安定化部分空間は多重部分完全非局所である All genuinely entangled stabilizer subspaces are multipartite fully nonlocal ( http://arxiv.org/abs/2312.08757v1 ) ライセンス: Link先を確認 | Owidiusz Makuta and Remigiusz Augusiak | (参考訳) 絡み合いとベル非局所性の関係を理解することは、基礎と応用の両方の観点から重要な量子物理学における長く続くオープン問題の一つである。
特に、エンタングルメントとベルの非局所性は量子情報において重要な資源であるが、プレイヤーがデバイスを信頼する必要のないデバイス非依存のフレームワークで情報処理を可能にするため、後者はより強力なものと思われる。
したがって、どの絡み合った状態がベル非局所性をもたらすかを理解することは重要かつ興味深い課題である。
ここでは、安定化形式から派生した多元状態(純粋な混合状態)の広いクラスに対して、真の絡み合いと真の非局所状態の等価性を確立する。
実際、真に絡み合った部分空間上で定義された任意の(混合された)安定化状態が多重非局所的であり、それが任意の型の局所的な隠れ変数モデルから寄与しない相関をもたらすことを示す。
したがって、すべての純状態が真に非局所であるような実非局所部分空間の最初の例も導入する。 Understanding the relationship between entanglement and Bell nonlocality is one of the long-lasting open problems in quantum physics which is important both from the fundamental and application points of view. In particular, while both entanglement and Bell nonlocality are key resources in quantum information, the latter appears to be a stronger one because it allows for information processing in the device-independent framework in which the players need not trust their devices. Thus, understanding which entangled states give rise to Bell nonlocality and thus are resourceful in this framework is an important and interesting task. Here we establish the equivalence between genuine entanglement and genuine nonlocal for a broad class of multipartite (pure and mixed) states originating from the stabilizer formalism. In fact, we demonstrate a much stronger result that any (mixed) stabilizer state defined on a genuinely entangled subspace is multipartite fully nonlocal meaning that it gives rise to correlations that have no contribution coming from local hidden variable models of any type. We thus also introduce the first examples of genuinely nonlocal subspaces in multiqubit Hilbert spaces in which every single pure state is genuinely nonlocal. | 翻訳日:2023-12-15 23:12:43 公開日:2023-12-14 |
# PROPRES:様々なトリガーと環境による仮定の射影性の調査 PROPRES: Investigating the Projectivity of Presupposition with Various Triggers and Environments ( http://arxiv.org/abs/2312.08755v1 ) ライセンス: Link先を確認 | Daiki Asami and Saku Sugawara | (参考訳) 例えば、少年が涙を流すのをやめなかった否定的な文は、少年が以前に涙を流したと仮定している)。
プロジェクティビティは、前提となるトリガーと環境の組み合わせによって異なりうる。
しかし、従来の自然言語理解研究は、人間のベースラインを使わないか、あるいはモデルの性能を評価するための複雑な環境として否定しか含まないため、それを考慮しない。
現在の研究ではこれらの問題を整理しようと試みている。
5つの環境を持つ語彙の多様性を含む6つのトリガーを横断する12kの前提-仮説ペアを含む新しいデータセット、PROPRESを導入する。
人間による評価では、ある場合において、人間は可変射影性を示すことが判明する。
しかし、モデル評価は、最高のパフォーマンスのモデルであるDeBERTaが完全にはキャプチャしていないことを示している。
以上の結果から,実用的推論の探索研究は,人間の判断の多様性と言語項目の組み合わせを考慮すべきであることが示唆された。 What makes a presupposition of an utterance -- information taken for granted by its speaker -- different from other pragmatic inferences such as an entailment is projectivity (e.g., the negative sentence the boy did not stop shedding tears presupposes the boy had shed tears before). The projectivity may vary depending on the combination of presupposition triggers and environments. However, prior natural language understanding studies fail to take it into account as they either use no human baseline or include only negation as an entailment-canceling environment to evaluate models' performance. The current study attempts to reconcile these issues. We introduce a new dataset, projectivity of presupposition (PROPRES, which includes 12k premise-hypothesis pairs crossing six triggers involving some lexical variety with five environments. Our human evaluation reveals that humans exhibit variable projectivity in some cases. However, the model evaluation shows that the best-performed model, DeBERTa, does not fully capture it. Our findings suggest that probing studies on pragmatic inferences should take extra care of the human judgment variability and the combination of linguistic items. | 翻訳日:2023-12-15 23:12:23 公開日:2023-12-14 |
# UniDream: 楽しいテキストから3D生成のための拡散優先事項の統合 UniDream: Unifying Diffusion Priors for Relightable Text-to-3D Generation ( http://arxiv.org/abs/2312.08754v1 ) ライセンス: Link先を確認 | Zexiang Liu, Yangguang Li, Youtian Lin, Xin Yu, Sida Peng, Yan-Pei Cao, Xiaojuan Qi, Xiaoshui Huang, Ding Liang, Wanli Ouyang | (参考訳) テキスト3d生成技術の最近の進歩は、テキスト記述を想像力のある幾何学的および微細なテクスチャの3dオブジェクトに変換することを著しく進歩させた。
これらの発展にもかかわらず、拡散または再構成モデルにおけるRGBデータの使用により、しばしば現実主義から逸脱する固有の照明と影の効果を持つモデルが生じるため、正確なリライト能力を必要とするアプリケーションにおける使用性が制限される。
このギャップを埋めるために,unified diffusion priorsを組み込んだテキスト対3d生成フレームワークunidreamを提案する。
提案手法は,(1)アルベド正規配位型多視点拡散・再構成モデルを得るための2相学習プロセス,(2)訓練された再構成・拡散モデルを用いたスコア蒸留サンプル(SDS)に基づく幾何およびアルベドテクスチャのプログレッシブ生成手順,(3)安定拡散モデルに基づく固定アルベドを保ちながらPBR生成を確定するSDSの革新的な応用,の3つからなる。
広汎な評価により、UniDreamは、より鮮明なアルベドテクスチャ、より滑らかな表面、強化されたリアリズム、優れたライティング能力を持つ3Dオブジェクトを生成する既存の方法を上回ることが示されている。 Recent advancements in text-to-3D generation technology have significantly advanced the conversion of textual descriptions into imaginative well-geometrical and finely textured 3D objects. Despite these developments, a prevalent limitation arises from the use of RGB data in diffusion or reconstruction models, which often results in models with inherent lighting and shadows effects that detract from their realism, thereby limiting their usability in applications that demand accurate relighting capabilities. To bridge this gap, we present UniDream, a text-to-3D generation framework by incorporating unified diffusion priors. Our approach consists of three main components: (1) a dual-phase training process to get albedo-normal aligned multi-view diffusion and reconstruction models, (2) a progressive generation procedure for geometry and albedo-textures based on Score Distillation Sample (SDS) using the trained reconstruction and diffusion models, and (3) an innovative application of SDS for finalizing PBR generation while keeping a fixed albedo based on Stable Diffusion model. Extensive evaluations demonstrate that UniDream surpasses existing methods in generating 3D objects with clearer albedo textures, smoother surfaces, enhanced realism, and superior relighting capabilities. | 翻訳日:2023-12-15 23:12:03 公開日:2023-12-14 |
# l_\infty$ lipschitz 政策ネットワークによる観測摂動に対する強化学習のロバスト性向上 Improve Robustness of Reinforcement Learning against Observation Perturbations via $l_\infty$ Lipschitz Policy Networks ( http://arxiv.org/abs/2312.08751v1 ) ライセンス: Link先を確認 | Buqing Nie, Jingtian Ji, Yangqing Fu, Yue Gao | (参考訳) 深層強化学習(drl)は逐次的決定タスクにおいて著しく進歩した。
しかし、最近の研究により、DRL剤は観測におけるわずかな摂動の影響を受けやすいことが判明した。
この脆弱性は、現実世界のアプリケーションにそのようなエージェントをデプロイすることの有効性と堅牢性に関する懸念を引き起こす。
本研究では,ネットワークアーキテクチャの観点から観測摂動に対するDRLポリシーの堅牢性を向上する,SrtRLと呼ばれる新しい頑健な強化学習手法を提案する。
我々は、グローバルな$l_\infty$ Lipschitz連続性を組み込んだポリシーネットワークに新しいアーキテクチャを採用し、出力マージンに基づいてポリシーロバスト性を高めるための便利な方法を提供する。
さらに、squtrl用にトレーニングフレームワークが設計されており、観測値の$l_\infty$の有界摂動に対して堅牢性を維持しながら、所定のタスクを解決している。
本手法の有効性を評価するために,クラシック制御タスクやビデオゲームなどいくつかの実験を行った。
その結果,異なる摂動強度に対してsqutrlは最先端のロバスト性性能を達成できた。 Deep Reinforcement Learning (DRL) has achieved remarkable advances in sequential decision tasks. However, recent works have revealed that DRL agents are susceptible to slight perturbations in observations. This vulnerability raises concerns regarding the effectiveness and robustness of deploying such agents in real-world applications. In this work, we propose a novel robust reinforcement learning method called SortRL, which improves the robustness of DRL policies against observation perturbations from the perspective of the network architecture. We employ a novel architecture for the policy network that incorporates global $l_\infty$ Lipschitz continuity and provide a convenient method to enhance policy robustness based on the output margin. Besides, a training framework is designed for SortRL, which solves given tasks while maintaining robustness against $l_\infty$ bounded perturbations on the observations. Several experiments are conducted to evaluate the effectiveness of our method, including classic control tasks and video games. The results demonstrate that SortRL achieves state-of-the-art robustness performance against different perturbation strength. | 翻訳日:2023-12-15 23:11:36 公開日:2023-12-14 |
# 結合振動子モデルにおけるトモグラフィエンタングルメントインジケータ Tomographic entanglement indicators in a coupled oscillator model ( http://arxiv.org/abs/2312.08750v1 ) ライセンス: Link先を確認 | Sreelekshmi Pillai, S. Ramanan, V. Balakrishnan, S. Lakshmibala | (参考訳) 同じ自然周波数の2つの結合線形調和振動子からなる簡易モデルにおける絡み合いについて検討した。
システムは質量(COM)の中心で分離可能であり、相対座標は周波数$\omega_c$と$\omega_r$の2つの振動子に分離される。
我々は,周波数比$\eta = \omega_c/\omega_r$ の関数として,標準エンタングルメント測度 (subsystem linear entropy and subsystem von neumann entropy) といくつかのトモグラフィエンタングルメント指標 (bhattacharyya distance, kullback-leibler divergence and inverse participation ratio) を計算し,com発振器を基底状態に保つ。
全体として、絡み合い指標は標準尺度の変動を忠実に反映していることを示す。
絡み合いは$\eta = 1$で最小であり、$\eta \to 0$または$\infty$として最大である。 We study entanglement in a simple model comprising two coupled linear harmonic oscillators of the same natural frequency. The system is separable in the center of mass (COM) and relative coordinates into two oscillators of frequency $\omega_c$ and $\omega_r$. We compute standard entanglement measures (subsystem linear entropy and subsystem von Neumann entropy) as well as several tomographic entanglement indicators (Bhattacharyya distance, Kullback-Leibler divergence and inverse participation ratio) as functions of the frequency ratio $\eta = \omega_c/\omega_r$, keeping the COM oscillator in the ground state. We demonstrate that, overall, the entanglement indicators reflect quite faithfully the variations in the standard measures. The entanglement is shown to be minimum at $\eta = 1$ and maximum as $\eta \to 0$ or $\infty$. | 翻訳日:2023-12-15 23:11:18 公開日:2023-12-14 |
# 機械学習におけるラベルバイアスの緩和:信頼学習による公平性 Mitigating Label Bias in Machine Learning: Fairness through Confident Learning ( http://arxiv.org/abs/2312.08749v1 ) ライセンス: Link先を確認 | Yixuan Zhang, Boyu Li, Zenan Ling and Feng Zhou | (参考訳) 偏見のないラベルが潜在的なバイアスを持つエージェントによって上書きされると、特定のグループに不公平に損傷を与え、分類器にこれらのバイアスを継承させるバイアスデータセットが生じる。
本稿では,バイアスラベルにのみアクセス可能であるにもかかわらず,信頼度学習の枠組みの中で最も公平な事例をフィルタリングすることでバイアスを排除できることを実証する。
自信のある学習の文脈では、低い自信は通常潜在的なラベルエラーを示すが、必ずしもそうではない。
例、特に表現不足なグループの例は、エラーのラベル付け以外の理由から、低い信頼度を示す可能性がある。
この制限に対処するため,本手法では信頼スコアの切り離しを採用し,確率しきい値の信頼区間を延長する。
さらに,公平なインスタンスの選択をより堅牢で信頼性の高いものにし,バイアスラベルの悪影響を効果的に軽減するために,コティーチングパラダイムを取り入れている。
さまざまなデータセットの広範な実験と評価を通じて、機械学習モデルにおける公正性向上とラベルバイアスの影響の低減に、我々のアプローチの有効性を実証する。 Discrimination can occur when the underlying unbiased labels are overwritten by an agent with potential bias, resulting in biased datasets that unfairly harm specific groups and cause classifiers to inherit these biases. In this paper, we demonstrate that despite only having access to the biased labels, it is possible to eliminate bias by filtering the fairest instances within the framework of confident learning. In the context of confident learning, low self-confidence usually indicates potential label errors; however, this is not always the case. Instances, particularly those from underrepresented groups, might exhibit low confidence scores for reasons other than labeling errors. To address this limitation, our approach employs truncation of the confidence score and extends the confidence interval of the probabilistic threshold. Additionally, we incorporate with co-teaching paradigm for providing a more robust and reliable selection of fair instances and effectively mitigating the adverse effects of biased labels. Through extensive experimentation and evaluation of various datasets, we demonstrate the efficacy of our approach in promoting fairness and reducing the impact of label bias in machine learning models. | 翻訳日:2023-12-15 23:10:55 公開日:2023-12-14 |
# 自然言語推論におけるアーティファクト緩和のための統計的テストと自動データ拡張による語彙分離バイアス Dissecting vocabulary biases datasets through statistical testing and automated data augmentation for artifact mitigation in Natural Language Inference ( http://arxiv.org/abs/2312.08747v1 ) ライセンス: Link先を確認 | Dat Thanh Nguyen | (参考訳) 近年、Stanford Natural Language InferenceやMulti-Genre Natural Language Inferenceといった大規模な注釈付きデータセットが利用可能となり、事前訓練された言語モデルの出現とともに、自然言語推論ドメインの開発に大きく貢献している。
しかしながら、これらのクラウドソースのアノテートデータセットはバイアスやデータセットアーティファクトを含むことが多く、過大評価されたモデルパフォーマンスと一般化の低さにつながる。
本研究では,データセットのアーティファクトの調査と,これらの問題に対処するための戦略開発に焦点を当てる。
新たな統計検査手法を用いることで,語彙分布とテキスト含意クラスとの有意な関連性を発見し,語彙を顕著なバイアス源として強調する。
これらの問題を緩和するために,文字レベルから単語レベルにまたがる自動データ拡張戦略を提案する。
ELECTRA事前学習言語モデルを微調整することにより、強化されたモデルの性能をベースラインモデルと比較する。
実験により,提案手法はモデルの精度を効果的に向上させ,バイアスを0.66%,1.14%低減することを示した。 In recent years, the availability of large-scale annotated datasets, such as the Stanford Natural Language Inference and the Multi-Genre Natural Language Inference, coupled with the advent of pre-trained language models, has significantly contributed to the development of the natural language inference domain. However, these crowdsourced annotated datasets often contain biases or dataset artifacts, leading to overestimated model performance and poor generalization. In this work, we focus on investigating dataset artifacts and developing strategies to address these issues. Through the utilization of a novel statistical testing procedure, we discover a significant association between vocabulary distribution and text entailment classes, emphasizing vocabulary as a notable source of biases. To mitigate these issues, we propose several automatic data augmentation strategies spanning character to word levels. By fine-tuning the ELECTRA pre-trained language model, we compare the performance of boosted models with augmented data against their baseline counterparts. The experiments demonstrate that the proposed approaches effectively enhance model accuracy and reduce biases by up to 0.66% and 1.14%, respectively. | 翻訳日:2023-12-15 23:10:36 公開日:2023-12-14 |
# 拡散モデルによる音場の再構成 Reconstruction of Sound Field through Diffusion Models ( http://arxiv.org/abs/2312.08821v1 ) ライセンス: Link先を確認 | Federico Miotello, Luca Comanducci, Mirco Pezzoli, Alberto Bernardini, Fabio Antonacci and Augusto Sarti | (参考訳) 室内の音場を再構成することは、音制御や拡張現実(AR)、仮想現実(VR)など、いくつかのアプリケーションにとって重要な課題である。
本稿では,モーダル周波数範囲に着目して室内の音場の大きさを再現するためのデータ駆動生成モデルを提案する。
本稿では,拡張領域上の音場(sf-diff)を再構成するために訓練された条件付き脱音拡散確率モデル(ddpm)について初めて紹介する。
アーキテクチャは、異なる周波数で利用可能な限られた測定値のセットに条件付けし、ターゲット、未知の場所の音場を生成するように設計されている。
その結果,SF-Diffは,カーネル補間に基づく最先端のベースラインよりも高い精度で,正確な再構築を実現することができた。 Reconstructing the sound field in a room is an important task for several applications, such as sound control and augmented (AR) or virtual reality (VR). In this paper, we propose a data-driven generative model for reconstructing the magnitude of acoustic fields in rooms with a focus on the modal frequency range. We introduce, for the first time, the use of a conditional Denoising Diffusion Probabilistic Model (DDPM) trained in order to reconstruct the sound field (SF-Diff) over an extended domain. The architecture is devised in order to be conditioned on a set of limited available measurements at different frequencies and generate the sound field in target, unknown, locations. The results show that SF-Diff is able to provide accurate reconstructions, outperforming a state-of-the-art baseline based on kernel interpolation. | 翻訳日:2023-12-15 23:02:05 公開日:2023-12-14 |
# ロボットの育成法 --ヒューマノイド支援ロボットの制約タスク計画におけるニューロシンボリックaiの事例- How to Raise a Robot -- A Case for Neuro-Symbolic AI in Constrained Task Planning for Humanoid Assistive Robots ( http://arxiv.org/abs/2312.08820v1 ) ライセンス: Link先を確認 | Niklas Hemken, Florian Jacob, Fabian Peller-Konrad, Rainer Kartmann, Tamim Asfour, Hannes Hartenstein | (参考訳) ヒューマノイドロボットは、人間の日常生活、特に多目的な行動能力のために、人間を助けることができる。
しかし、これらのロボットは学習と探索にはある程度の自律性が必要だが、アクセス制御など、さまざまな制約を尊重する必要がある。
ロボットタスク計画手法を用いて,プライバシ,セキュリティ,アクセス制御の制約を取り入れた新しい分野を探求する。
本稿では,古典的シンボリックアプローチ,深層学習ニューラルネットワーク,および知識ベースとして大規模言語モデルを用いた現代的アイデアに関する予備的結果を報告する。
それらのトレードオフの分析から,ハイブリッドなアプローチが必要であると結論し,ニューロシンボリック人工知能の新たな分野への新たなユースケースを提案する。 Humanoid robots will be able to assist humans in their daily life, in particular due to their versatile action capabilities. However, while these robots need a certain degree of autonomy to learn and explore, they also should respect various constraints, for access control and beyond. We explore the novel field of incorporating privacy, security, and access control constraints with robot task planning approaches. We report preliminary results on the classical symbolic approach, deep-learned neural networks, and modern ideas using large language models as knowledge base. From analyzing their trade-offs, we conclude that a hybrid approach is necessary, and thereby present a new use case for the emerging field of neuro-symbolic artificial intelligence. | 翻訳日:2023-12-15 23:01:51 公開日:2023-12-14 |
# ディープラーニングとLORA技術に基づくマイクログリッドのサイバー物理アーキテクチャ A Cyber-Physical Architecture for Microgrids based on Deep learning and LORA Technology ( http://arxiv.org/abs/2312.08818v1 ) ライセンス: Link先を確認 | Mojtaba Mohammadi, Abdollah KavousiFard, Mortza Dabbaghjamanesh | (参考訳) 本稿では,孤立型ハイブリッドマイクログリッド (hmgs) のセキュアな社会運用のためのサイバー物理アーキテクチャを提案する。
提案アーキテクチャの物理的側面から, 種々の再生可能エネルギー源(RES)と化石燃料ベース分散発電ユニット(DG)を考慮した最適スケジューリング手法を提案する。
MGのサイバー層については、低域広帯域(LORA)技術に基づく無線アーキテクチャが、スマート電力網の高度計測インフラ(AMI)に導入されている。
提案アーキテクチャでは,DGとac-dcコンバータを考慮したスマートメータの適用のために,LORAデータフレームを詳細に記述した。
さらに, スマートグリッドのサイバー層はサイバー攻撃に対して脆弱であるため, 双方向長短期メモリ(BLSTM)とシーケンシャル仮説テスト(SHT)に基づく深層学習に基づくサイバー攻撃検出モデル(CADM)を提案し, AMI内のスマートメーターにおける偽データインジェクション攻撃(FDIA)を検出する。
提案したエネルギー管理アーキテクチャの性能をIEEE 33-busテストシステムを用いて評価した。
分離されたHMGに対するFDIAの影響を調査し、サイバー層と物理層との相互作用を強調するため、テストシステムに対してFDIAを起動する。
その結果, 攻撃が成功すればシステムに大きな損傷を与え, 広い負荷層を生じさせることがわかった。
また,提案するcadmの性能を実世界データセットを用いて検証する。
その結果,2つのサンプルのみを用いた攻撃検出におけるCADMの有効性が証明された。 This paper proposes a cyber-physical architecture for the secured social operation of isolated hybrid microgrids (HMGs). On the physical side of the proposed architecture, an optimal scheduling scheme considering various renewable energy sources (RESs) and fossil fuel-based distributed generation units (DGs) is proposed. Regarding the cyber layer of MGs, a wireless architecture based on low range wide area (LORA) technology is introduced for advanced metering infrastructure (AMI) in smart electricity grids. In the proposed architecture, the LORA data frame is described in detail and designed for the application of smart meters considering DGs and ac-dc converters. Additionally, since the cyber layer of smart grids is highly vulnerable to cyber-attacks, t1his paper proposes a deep-learning-based cyber-attack detection model (CADM) based on bidirectional long short-term memory (BLSTM) and sequential hypothesis testing (SHT) to detect false data injection attacks (FDIA) on the smart meters within AMI. The performance of the proposed energy management architecture is evaluated using the IEEE 33-bus test system. In order to investigate the effect of FDIA on the isolated HMGs and highlight the interactions between the cyber layer and physical layer, an FDIA is launched against the test system. The results showed that a successful attack can highly damage the system and cause widespread load shedding. Also, the performance of the proposed CADM is examined using a real-world dataset. Results prove the effectiveness of the proposed CADM in detecting the attacks using only two samples. | 翻訳日:2023-12-15 23:01:36 公開日:2023-12-14 |
# 基本エミュレータを組み合わせるビジネスシナリオのためのサービスの実装 Implement services for business scenarios by combining basic emulators ( http://arxiv.org/abs/2312.08815v1 ) ライセンス: Link先を確認 | Lei Zhao, Miaomiao Zhang | (参考訳) 本稿では主に,Jiutian Intelligence Network Simulation Platformにおいて,さまざまな基本エミュレータを用いて複合エミュレータを構築し,異なるビジネスシナリオにおけるシミュレーションサービス機能を実現する方法について紹介する。
その中にエミュレータが組み込まれている。
ビジネスシナリオには、多目的アンテナ最適化、ビジネスの高トラフィック、CSI(チャネル状態情報)圧縮フィードバックなど、さまざまな実用的アプリケーションが含まれます。 This article mainly introduces how to use various basic emulators to form a combined emulator in the Jiutian Intelligence Network Simulation Platform to realize simulation service functions in different business scenarios. Among them, the combined emulator is included. The business scenarios include different practical applications such as multi-objective antenna optimization, high traffic of business, CSI (channel state information) compression feedback, etc. | 翻訳日:2023-12-15 23:01:13 公開日:2023-12-14 |
# 集合的強結合による凝集と解決 Collective Strong Coupling Modifies Aggregation and Solvation ( http://arxiv.org/abs/2312.08814v1 ) ライセンス: Link先を確認 | Matteo Castagnola, Tor S. Haugland, Enrico Ronca, Henrik Koch, and Christian Sch\"afer | (参考訳) 分子間相互作用は凝集、溶解、結晶化に重要である。
我々は、複数の分子を単一の光学モードに結合させることで、例えば第1集合体や溶媒殻における不純物周囲の分子励起が顕著に変化することを示した。
短距離クーロンと長距離フォトニック相関の競合はポラリトニック状態の局所遷移密度を反転させ、溶媒和殻の偏光率の顕著な変化を示唆する。
本研究は,最近のポーラリトニック化学研究における新たな視点を示し,凝集,溶解,結晶化における協調的効果の厳密な処理への道を開く。 Intermolecular interactions are pivotal for aggregation, solvation, and crystallization. We demonstrate that the collective strong coupling of several molecules to a single optical mode results in notable changes in the molecular excitations around an impurity, e.g., in the first aggregation or solvation shell. A competition between short-range Coulombic and long-range photonic correlation inverts the local transition density in a polaritonic state, suggesting notable changes in the polarizability of the solvation shell. Our results provide an alternative perspective on recent work in polaritonic chemistry and pave the way for the rigorous treatment of cooperative effects in aggregation, solvation, and crystallization. | 翻訳日:2023-12-15 23:01:05 公開日:2023-12-14 |
# カラーコードのための新しい回路とオープンソースデコーダ New circuits and an open source decoder for the color code ( http://arxiv.org/abs/2312.08813v1 ) ライセンス: Link先を確認 | Craig Gidney and Cody Jones | (参考訳) 2つの新しいカラーコード回路を提示する: 1つは超高次符号化にインスパイアされたもので、もう1つは測定の中間にカラーコード状態が現れる中間の戦略に基づくものである。
また、m\"obius color code decoderのオープンソース実装である`Chromobius'も提示する。
クロモビウスを用いることで,カラーコードとサーフェスコード間の性能差を低減できることを示す。
ノイズ強度が0.1\%$の均一な偏極ノイズの下では、中間出力カラーコード回路は1250キュービットのテラクオップフットプリント(相関マッチングで復号された表面符号vs650)を達成する。
最後に、chromobius は *less* 情報を与えると toric のカラーコードをデコードするので、カラーコードデコーダが大幅に改善される余地があることを示唆している。 We present two new color code circuits: one inspired by superdense coding and the other based on a middle-out strategy where the color code state appears halfway between measurements. We also present ``Chromobius'', an open source implementation of the m\"obius color code decoder. Using Chromobius, we show our new circuits reduce the performance gap between color codes and surface codes. Under uniform depolarizing noise with a noise strength of $0.1\%$, the middle-out color code circuit achieves a teraquop footprint of 1250 qubits (vs 650 for surface codes decoded by correlated matching). Finally, we highlight that Chromobius decodes toric color codes better when given *less* information, suggesting there's substantial room for improvement in color code decoders. | 翻訳日:2023-12-15 23:00:52 公開日:2023-12-14 |
# ディープラーニングによるスマートグリッドのサイバーアタック検出モデル Deep Learning-Based Cyber-Attack Detection Model for Smart Grids ( http://arxiv.org/abs/2312.08810v1 ) ライセンス: Link先を確認 | Mojtaba Mohammadi, Arshia Aflaki, Abdollah Kavousifard, Mohsen Gitizadeh | (参考訳) 本稿では,スマートグリッドを用いた新しい人工知能によるサイバー攻撃検出モデルを開発し,監視制御とデータ取得(SCADA)により受信した負荷データに対するデータ完全性サイバー攻撃(DIA)を防ぐ。
提案モデルでは,まず回帰モデルを用いて負荷データを予測し,処理後,教師なし学習法を用いて処理データをクラスタリングする。
本研究は, 最適性能を達成するため, 3つの負荷予測手法(ETR, long short-term memory, LSTM, bidirectional long long-term memory, BiLSTM)を回帰モデルとして利用し, その性能を比較した。
クラスタリングおよび外部検出には、教師なし学習方法として共分散楕円エンベロープ(EE)を用いる。
提案モデルを検討するために,マレーシアのジョホール市電力会社の時給負荷データを用いて,経済損失を対象とするDIAとブラックアウトを対象とするDIAである2つの共通DIAを用いて,複数のシナリオにおいて検出方法の精度を評価する。
シミュレーションの結果,提案手法は,他の2つの手法と比較して,より堅牢で正確であることがわかった。 In this paper, a novel artificial intelligence-based cyber-attack detection model for smart grids is developed to stop data integrity cyber-attacks (DIAs) on the received load data by supervisory control and data acquisition (SCADA). In the proposed model, first the load data is forecasted using a regression model and after processing stage, the processed data is clustered using the unsupervised learning method. In this work, in order to achieve the best performance, three load forecasting methods (i.e. extra tree regression (ETR), long short-term memory (LSTM) and bidirectional long short-term memory (BiLSTM)) are utilized as regression models and their performance is compared. For clustering and outlying detection, the covariance elliptic envelope (EE) is employed as an unsupervised learning method. To examine the proposed model, the hourly load data of the power company of the city of Johor in Malaysia is employed and Two common DIAs, which are DIAs targeting economic loss and DIAs targeting blackouts, are used to evaluate the accuracy of detection methods in several scenarios. The simulation results show that the proposed EE-BiLSTM method can perform more robust and accurate compared to the other two methods. | 翻訳日:2023-12-15 23:00:32 公開日:2023-12-14 |
# fmriデータに対するマトリックス因子分解の性能評価 Performance evaluation of matrix factorization for fMRI data ( http://arxiv.org/abs/2312.08809v1 ) ライセンス: Link先を確認 | Yusuke Endo, Koujin Takeda | (参考訳) 脳の研究では、近年視覚刺激に対して実験的に確認されている外部刺激の情報表現においてスパース符号化が実現されるという仮説がある。
しかし、脳内の特定の機能領域とは異なり、脳全体の情報処理におけるスパースコーディングは十分に解明されていない。
本研究では,脳全体の神経活動に関する機能的磁気共鳴画像データに種々のマトリックス因子化法を適用し,ヒト脳全体のスパース符号化の有効性について検討した。
その結果, スパースMF法, SparsePCA法, MOD法から抽出した特徴が, スパース条件下でのスパースMF法, FastICA法から抽出された特徴が, 非スパースMF法やスパースMF法よりも正確に外部視覚刺激を分類できることが示唆された。 In the study of the brain, there is a hypothesis that sparse coding is realized in information representation of external stimuli, which is experimentally confirmed for visual stimulus recently. However, unlike the specific functional region in the brain, sparse coding in information processing in the whole brain has not been clarified sufficiently. In this study, we investigate the validity of sparse coding in the whole human brain by applying various matrix factorization methods to functional magnetic resonance imaging data of neural activities in the whole human brain. The result suggests sparse coding hypothesis in information representation in the whole human brain, because extracted features from sparse MF method, SparsePCA or MOD under high sparsity setting, or approximate sparse MF method, FastICA, can classify external visual stimuli more accurately than non-sparse MF method or sparse MF method under low sparsity setting. | 翻訳日:2023-12-15 23:00:07 公開日:2023-12-14 |
# 植物へのズームイン:葉・茎・静脈のきめ細かい分析 Zoom in on the Plant: Fine-grained Analysis of Leaf, Stem and Vein Instances ( http://arxiv.org/abs/2312.08805v1 ) ライセンス: Link先を確認 | Ronja G\"uldenring, Rasmus Eckholdt Andersen, Lazaros Nalpantidis | (参考訳) ロボットの知覚は、人間ができることとは程遠い。
人間は複雑なセマンティック・シーンの理解を持つだけでなく、細粒な物体内特性を抽出する。
人間は植物を見るとき、個々の葉と枝分かれシステムで植物アーキテクチャを自然に知覚する。
本研究は,農業用精密ロボットにおける植物理解の粒度化を推し進めるものである。
本研究では,葉,茎,静脈などの微細な表現型情報を抽出するモデルを開発した。
基盤となるデータセットであるRumexLeavesは公開されており、キーポイント誘導ポリリンアノテーションによって、葉基底に沿って最も低い茎点から葉の頂点まで導かれる最初のものである。
さらに、キーポイント誘導ポリラインの概念に従う適応された計量POKSを導入する。
実験評価では,新たに導入したデータセットに対して,OKSに対するPOKSの利点を示しながら,ベースライン結果を提供する。 Robot perception is far from what humans are capable of. Humans do not only have a complex semantic scene understanding but also extract fine-grained intra-object properties for the salient ones. When humans look at plants, they naturally perceive the plant architecture with its individual leaves and branching system. In this work, we want to advance the granularity in plant understanding for agricultural precision robots. We develop a model to extract fine-grained phenotypic information, such as leaf-, stem-, and vein instances. The underlying dataset RumexLeaves is made publicly available and is the first of its kind with keypoint-guided polyline annotations leading along the line from the lowest stem point along the leaf basal to the leaf apex. Furthermore, we introduce an adapted metric POKS complying with the concept of keypoint-guided polylines. In our experimental evaluation, we provide baseline results for our newly introduced dataset while showcasing the benefits of POKS over OKS. | 翻訳日:2023-12-15 22:59:49 公開日:2023-12-14 |
# 意味的能力モデルとsmtに基づくプロセス計画の自動作成 Automated Process Planning Based on a Semantic Capability Model and SMT ( http://arxiv.org/abs/2312.08801v1 ) ライセンス: Link先を確認 | Aljosha K\"ocher, Luis Miguel Vieira da Silva, Alexander Fay | (参考訳) 製造システムや自律ロボットの研究において、「能力」という用語はシステム機能の機械解釈可能な仕様として用いられる。
本研究領域のアプローチは,機能要件,効果,行動の解釈に関連するすべての情報をキャプチャする情報モデルを開発する。
これらのアプローチは、様々な種類のプロセスと多数のベンダーから生じる多様性を克服することを目的としている。
しかしながら、これらのモデルと関連する手法は、自動化されたプロセス計画のためのソリューションを提供していない。
代わりに、これはAI計画アプローチの典型的なタスクであり、残念なことに、それぞれの計画問題記述を作成するのに高い労力を要する。
本稿では,これら2つのトピックを組み合わせたアプローチを提案する。 意味能力モデルから始めて,AI計画問題を自動的に生成する。
計画問題は、Satisfiability Modulo Theoriesを用いて符号化され、必要パラメータ値を含む有効な機能シーケンスを見つけるために既存のソルバを使用する。
このアプローチはまた、計画決定を理解するために、既存の人間の専門知識を統合し、人間オペレーターに説明を提供する可能性も提供する。 In research of manufacturing systems and autonomous robots, the term capability is used for a machine-interpretable specification of a system function. Approaches in this research area develop information models that capture all information relevant to interpret the requirements, effects and behavior of functions. These approaches are intended to overcome the heterogeneity resulting from the various types of processes and from the large number of different vendors. However, these models and associated methods do not offer solutions for automated process planning, i.e. finding a sequence of individual capabilities required to manufacture a certain product or to accomplish a mission using autonomous robots. Instead, this is a typical task for AI planning approaches, which unfortunately require a high effort to create the respective planning problem descriptions. In this paper, we present an approach that combines these two topics: Starting from a semantic capability model, an AI planning problem is automatically generated. The planning problem is encoded using Satisfiability Modulo Theories and uses an existing solver to find valid capability sequences including required parameter values. The approach also offers possibilities to integrate existing human expertise and to provide explanations for human operators in order to help understand planning decisions. | 翻訳日:2023-12-15 22:59:37 公開日:2023-12-14 |
# 前提条件による健康関連クエリのための大規模言語モデルの評価 Evaluating Large Language Models for Health-related Queries with Presuppositions ( http://arxiv.org/abs/2312.08800v1 ) ライセンス: Link先を確認 | Navreet Kaur and Monojit Choudhury and Danish Pruthi | (参考訳) 企業が検索に大規模な言語モデル(llm)を組み込むことを急いでいる中、ユーザが表現できるあらゆる前提条件にロバストな事実的正確な情報を提供することが重要である。
本研究では, 様々な前提条件の健康関連クエリからなるデータセットであるUPHILLを紹介する。
UPHILLを用いて,InstructGPT,ChatGPT,BingChatモデルの実際の精度と一貫性を評価する。
instructgptからの回答は、偽の主張の32%、chatgpt 26%、bingchat 23%と一致しています。
入力クエリの予測範囲を増加させるにつれて,instructgpt と chatgpt からの応答は,その妥当性に関わらず,より頻繁にその主張に一致する。
検索したWebページに依存しているBingChatからの応答は、それほど影響を受けない。
適度な事実の正確さとモデルが誤った仮定を一貫して修正できないことを踏まえ、我々は、高リスクシナリオで使用する現在のllmを慎重に評価することを求める。 As corporations rush to integrate large language models (LLMs) to their search offerings, it is critical that they provide factually accurate information that is robust to any presuppositions that a user may express. In this work, we introduce UPHILL, a dataset consisting of health-related queries with varying degrees of presuppositions. Using UPHILL, we evaluate the factual accuracy and consistency of InstructGPT, ChatGPT, and BingChat models. We find that while model responses rarely disagree with true health claims (posed as questions), they often fail to challenge false claims: responses from InstructGPT agree with 32% of the false claims, ChatGPT 26% and BingChat 23%. As we increase the extent of presupposition in input queries, the responses from InstructGPT and ChatGPT agree with the claim considerably more often, regardless of its veracity. Responses from BingChat, which rely on retrieved webpages, are not as susceptible. Given the moderate factual accuracy, and the inability of models to consistently correct false assumptions, our work calls for a careful assessment of current LLMs for use in high-stakes scenarios. | 翻訳日:2023-12-15 22:59:18 公開日:2023-12-14 |
# 禁止事実:llama-2における競合目標の調査 Forbidden Facts: An Investigation of Competing Objectives in Llama-2 ( http://arxiv.org/abs/2312.08793v1 ) ライセンス: Link先を確認 | Tony T. Wang, Miles Wang, Kaivu Hariharan, Nir Shavit | (参考訳) LLMは、しばしば競合する圧力(例えば、有用性対無害性)に直面します。
モデルがこのような矛盾をどのように解決するかを理解するため、llama-2-chatモデルを禁止ファクトタスクで研究する。
具体的には、llama-2に、正しい答えを述べることを禁じながら、事実リコールステートメントを真に完了するよう指示します。
これはしばしばモデルに誤った答えを与える。
Llama-2を1000以上の成分に分解し、正しい解を禁ずるのがいかに有用かに関してそれぞれをランク付けする。
まとめると、約35のコンポーネントが完全な抑制動作を確実に実装するのに十分であることがわかった。
しかし、これらのコンポーネントはかなり異種であり、多くのコンポーネントは欠陥ヒューリスティックを使って動作している。
我々は、これらのヒューリスティックの1つが、カリフォルニア攻撃と呼ばれる手動で設計された敵の攻撃によって悪用できることを発見した。
以上の結果から,先進的なMLシステムの解釈に成功している障害が浮き彫りになった。
プロジェクトwebサイトはhttps://forbiddenfacts.github.ioで閲覧できる。 LLMs often face competing pressures (for example helpfulness vs. harmlessness). To understand how models resolve such conflicts, we study Llama-2-chat models on the forbidden fact task. Specifically, we instruct Llama-2 to truthfully complete a factual recall statement while forbidding it from saying the correct answer. This often makes the model give incorrect answers. We decompose Llama-2 into 1000+ components, and rank each one with respect to how useful it is for forbidding the correct answer. We find that in aggregate, around 35 components are enough to reliably implement the full suppression behavior. However, these components are fairly heterogeneous and many operate using faulty heuristics. We discover that one of these heuristics can be exploited via a manually designed adversarial attack which we call The California Attack. Our results highlight some roadblocks standing in the way of being able to successfully interpret advanced ML systems. Project website available at https://forbiddenfacts.github.io . | 翻訳日:2023-12-15 22:58:56 公開日:2023-12-14 |
# 未知領域の管理:オープンセット認識と接点領域に関する調査 Managing the unknown: a survey on Open Set Recognition and tangential areas ( http://arxiv.org/abs/2312.08785v1 ) ライセンス: Link先を確認 | Marcos Barcina-Blanco, Jesus L. Lobo, Pablo Garcia-Bringas, Javier Del Ser | (参考訳) 実世界のシナリオでは、トレーニング段階では現れていないクラスに属するサンプルを予測する際に、分類モデルは堅牢に実行する必要があることが多い。
Open Set Recognitionは、テストフェーズに到着したサンプルから未知のクラスを検出できるモデルを考案し、既知のクラスに属するサンプルの分類において優れたパフォーマンスを維持することで、この問題に対処する。
本稿では,オープンセット認識に関する最近の文献を概観し,連続学習,分布外検出,新奇性検出,不確実性推定など他の機械学習研究分野との共通実践,限界,関連について概説する。
私たちの研究は、オープンな問題も明らかにし、より安全な人工知能手法への将来の取り組みを動機づけ、具体化するいくつかの研究方向を提案する。 In real-world scenarios classification models are often required to perform robustly when predicting samples belonging to classes that have not appeared during its training stage. Open Set Recognition addresses this issue by devising models capable of detecting unknown classes from samples arriving during the testing phase, while maintaining a good level of performance in the classification of samples belonging to known classes. This review comprehensively overviews the recent literature related to Open Set Recognition, identifying common practices, limitations, and connections of this field with other machine learning research areas, such as continual learning, out-of-distribution detection, novelty detection, and uncertainty estimation. Our work also uncovers open problems and suggests several research directions that may motivate and articulate future efforts towards more safe Artificial Intelligence methods. | 翻訳日:2023-12-15 22:58:42 公開日:2023-12-14 |
# 基礎モデルによる汎用ロボットに向けて:調査とメタ分析 Toward General-Purpose Robots via Foundation Models: A Survey and Meta-Analysis ( http://arxiv.org/abs/2312.08782v1 ) ライセンス: Link先を確認 | Yafei Hu and Quanting Xie and Vidhi Jain and Jonathan Francis and Jay Patrikar and Nikhil Keetha and Seungchan Kim and Yaqi Xie and Tianyi Zhang and Zhibo Zhao and Yu-Quan Chong and Chen Wang and Katia Sycara and Matthew Johnson-Roberson and Dhruv Batra and Xiaolong Wang and Sebastian Scherer and Zsolt Kira and Fei Xia and Yonatan Bisk | (参考訳) あらゆる環境において、あらゆる目的のためにシームレスに動作し、様々なスキルを使って多様なタスクを完遂できる汎用ロボットの開発は、人工知能の長年の目標だった。
しかし残念なことに、既存のロボットシステムは、特定のタスク用に設計され、特定のデータセットでトレーニングされ、特定の環境にデプロイされている。
これらのシステムは、通常、広範囲にラベル付けされたデータを必要とし、タスク固有のモデルに依存し、現実世界のシナリオにデプロイする際、多くの一般化の問題を持ち、分散シフトに対する堅牢さを維持するのに苦労している。
自然言語処理(nlp)やコンピュータビジョン(cv)といった研究分野における,web規模,大容量事前学習モデル(財団モデル)の印象的なオープンセットパフォーマンスとコンテンツ生成能力に動機づけられ,この調査を探究にあてる。
(i)nlpおよびcvの既存の基礎モデルがロボット工学の分野にどのように応用され、また探究されるか
(ii)ロボット特有の基礎モデルがどのようなものか。
まず、従来のロボットシステムを構成するものの概要と、それを普遍的に適用するための基本的な障壁を提供することから始める。
次に,既存の基盤モデルをロボット工学に活用し,ロボット工学に精通したモデルを開発する方法について検討する。
最後に,汎用ロボットシステムの実現に向けた基礎モデルの利用における課題と今後の展望について述べる。
この調査でレビューされた論文や、ロボティクスの基礎モデルを開発するための関連プロジェクトやリポジトリなどを含む、githubのリソースリポジトリを閲覧することを読者に勧めています。 Building general-purpose robots that can operate seamlessly, in any environment, with any object, and utilizing various skills to complete diverse tasks has been a long-standing goal in Artificial Intelligence. Unfortunately, however, most existing robotic systems have been constrained - having been designed for specific tasks, trained on specific datasets, and deployed within specific environments. These systems usually require extensively-labeled data, rely on task-specific models, have numerous generalization issues when deployed in real-world scenarios, and struggle to remain robust to distribution shifts. Motivated by the impressive open-set performance and content generation capabilities of web-scale, large-capacity pre-trained models (i.e., foundation models) in research fields such as Natural Language Processing (NLP) and Computer Vision (CV), we devote this survey to exploring (i) how these existing foundation models from NLP and CV can be applied to the field of robotics, and also exploring (ii) what a robotics-specific foundation model would look like. We begin by providing an overview of what constitutes a conventional robotic system and the fundamental barriers to making it universally applicable. Next, we establish a taxonomy to discuss current work exploring ways to leverage existing foundation models for robotics and develop ones catered to robotics. Finally, we discuss key challenges and promising future directions in using foundation models for enabling general-purpose robotic systems. We encourage readers to view our ``living`` GitHub repository of resources, including papers reviewed in this survey as well as related projects and repositories for developing foundation models for robotics. | 翻訳日:2023-12-15 22:58:27 公開日:2023-12-14 |
# 線形算術的制約による近似整数解数 Approximate Integer Solution Counts over Linear Arithmetic Constraints ( http://arxiv.org/abs/2312.08776v1 ) ライセンス: Link先を確認 | Cunjing Ge | (参考訳) 線形制約の整数解を数えることは、様々な分野の興味深い応用を見出した。
これは、ポリトープ内の格子点を数える問題と同値である。
しかし、この問題に対する最先端のアルゴリズムは、控えめな数の変数でも遅すぎる。
本稿では,新しいランダムウォークサンプリング法を用いて,ポリトープ内の格子数を近似する新しい枠組みを提案する。
このアプローチによって計算されたカウントは、およそ$(\epsilon, \delta)$-boundによって制限されている。
広範なベンチマーク実験により,本アルゴリズムは数十次元のポリトープを解き,最先端のカウンタを大きく上回ることを示した。 Counting integer solutions of linear constraints has found interesting applications in various fields. It is equivalent to the problem of counting lattice points inside a polytope. However, state-of-the-art algorithms for this problem become too slow for even a modest number of variables. In this paper, we propose a new framework to approximate the lattice counts inside a polytope with a new random-walk sampling method. The counts computed by our approach has been proved approximately bounded by a $(\epsilon, \delta)$-bound. Experiments on extensive benchmarks show that our algorithm could solve polytopes with dozens of dimensions, which significantly outperforms state-of-the-art counters. | 翻訳日:2023-12-15 22:57:57 公開日:2023-12-14 |
# achelous++: vision-radar fusion と pruning of hetero modalities に基づくエッジデバイス上での電力指向型水面感応フレームワーク Achelous++: Power-Oriented Water-Surface Panoptic Perception Framework on Edge Devices based on Vision-Radar Fusion and Pruning of Heterogeneous Modalities ( http://arxiv.org/abs/2312.08851v1 ) ライセンス: Link先を確認 | Runwei Guan, Haocheng Zhao, Shanliang Yao, Ka Lok Man, Xiaohui Zhu, Limin Yu, Yong Yue, Jeremy Smith, Eng Gee Lim, Weiping Ding, Yutao Yue | (参考訳) 水環境のインテリジェントな監視と無人船の自律的な航行と運用の基礎として、特に水路の安全の文脈において、都市水面の堅牢な認識が役立っている。
現在のマルチセンサー融合とマルチタスク学習モデルは、かなりの電力を消費し、推論にはgpuに大きく依存している点に注意が必要だ。
これは二酸化炭素排出量の増加に寄与し、環境保全と持続可能で低炭素の都市環境の追求に重点を置いている。
これらの懸念を踏まえて,視覚と4次元レーダデータの融合による低消費電力,軽量,マルチタスクのパンオプティカル知覚に焦点をあてた。
マルチタスク水面汎視知覚モデルの開発と総合評価を容易にするフレームワークAchelous++を提案する。
achelous++は、オブジェクト検出、オブジェクトセマンティクスセグメンテーション、ドリブル領域セグメンテーション、ウォーターラインセグメンテーション、レーダーポイントクラウドセグメンテーションを含む、高速かつ低消費電力の5つの知覚タスクを同時に実行することができる。
さらに、低性能デバイス上でのリアルタイム推論のためにモデルをカスタマイズする需要に応えるため、Herogeneous-Aware SynFlow(HA-SynFlow)と呼ばれる新しいマルチモーダルプルーニング戦略を提案する。
さらに、Achelous++はUniformやErdos-Renyi-Kernel(ERK)など、異なるレイヤ幅で初期化時にランダムプルーニングをサポートする。
全体として、我々のAchelous++フレームワークはWaterScenesベンチマークで最先端のパフォーマンスを実現し、他のシングルタスクモデルやマルチタスクモデルと比較して精度と電力効率に優れています。
コードをhttps://github.com/guanrunwei/achelousでリリースし、メンテナンスしています。 Urban water-surface robust perception serves as the foundation for intelligent monitoring of aquatic environments and the autonomous navigation and operation of unmanned vessels, especially in the context of waterway safety. It is worth noting that current multi-sensor fusion and multi-task learning models consume substantial power and heavily rely on high-power GPUs for inference. This contributes to increased carbon emissions, a concern that runs counter to the prevailing emphasis on environmental preservation and the pursuit of sustainable, low-carbon urban environments. In light of these concerns, this paper concentrates on low-power, lightweight, multi-task panoptic perception through the fusion of visual and 4D radar data, which is seen as a promising low-cost perception method. We propose a framework named Achelous++ that facilitates the development and comprehensive evaluation of multi-task water-surface panoptic perception models. Achelous++ can simultaneously execute five perception tasks with high speed and low power consumption, including object detection, object semantic segmentation, drivable-area segmentation, waterline segmentation, and radar point cloud semantic segmentation. Furthermore, to meet the demand for developers to customize models for real-time inference on low-performance devices, a novel multi-modal pruning strategy known as Heterogeneous-Aware SynFlow (HA-SynFlow) is proposed. Besides, Achelous++ also supports random pruning at initialization with different layer-wise sparsity, such as Uniform and Erdos-Renyi-Kernel (ERK). Overall, our Achelous++ framework achieves state-of-the-art performance on the WaterScenes benchmark, excelling in both accuracy and power efficiency compared to other single-task and multi-task models. We release and maintain the code at https://github.com/GuanRunwei/Achelous. | 翻訳日:2023-12-15 22:51:09 公開日:2023-12-14 |
# ハミルトン固有値変換のための普遍アルゴリズム Universal algorithm for transforming Hamiltonian eigenvalues ( http://arxiv.org/abs/2312.08848v1 ) ライセンス: Link先を確認 | Tatsuki Odake, Hl\'er Kristj\'ansson, Philip Taranto, Mio Murao | (参考訳) 物理系を管理するハミルトニアンを操作することは、量子化学から半導体設計まで幅広い応用を見出した。
本研究では,固有ベクトルを固定しながら固有値を変化させることで,ハミルトニアンを操作する新しい方法を提案する。
初期ハミルトニアンの古典的な記述が知られているなら、原理的にはそれを対角化し、古典的なコンピュータ上でハミルトニアン変換を計算することができる。
しかし、これはかなりの計算コストを伴っており、初期ハミルトニアンの古典的記述は、特に複素系において常に利用可能であるとは限らない。
本研究では,未知のハミルトニアンの固有値に対して任意の所望の(好適に微分可能)関数を決定論的に実装する普遍的アルゴリズムを開発した。
本手法は,本研究で開発された一般的なコンパイル手順を用いて,2つのサブルーチン,すなわち制御とフーリエ級数シミュレーションを効率的に結合するために相関ランダム性を利用する。
我々のアルゴリズムのランタイムは、サブルーチンのna\"ive concatenationと比較して、一般的なコンパイルフレームワークを使って大幅に削減され、さらに量子特異値変換に基づく類似のメソッドよりも優れています。 Manipulating the Hamiltonians governing physical systems has found a broad range of applications, from quantum chemistry to semiconductor design. In this work, we provide a new way of manipulating Hamiltonians, by transforming their eigenvalues while keeping their eigenvectors fixed. If a classical description of the initial Hamiltonian is known, then one can -- in principle -- diagonalize it and compute the Hamiltonian transformation on a classical computer. However, this comes with a significant computational cost, and a classical description of the initial Hamiltonian is not always available, in particular for complex systems. In this work, we develop a universal algorithm that deterministically implements any desired (suitably differentiable) function on the eigenvalues of any unknown Hamiltonian, whose dynamics is given as a black box. Our algorithm makes use of correlated randomness to efficiently combine two subroutines -- namely controlization and Fourier series simulation -- using a general compilation procedure developed in this work. We show that the runtime of our algorithm is significantly reduced using our general compilation framework, compared to a na\"ive concatenation of the subroutines, and moreover outperforms similar methods based on the quantum singular value transformation. | 翻訳日:2023-12-15 22:50:32 公開日:2023-12-14 |
# 次活動予測のための注意機構を持つニューラルネットワークの知識駆動変調 Knowledge-Driven Modulation of Neural Networks with Attention Mechanism for Next Activity Prediction ( http://arxiv.org/abs/2312.08847v1 ) ライセンス: Link先を確認 | Ivan Donadello, Jonghyeon Ko, Fabrizio Maria Maggi, Jan Mendling, Francesco Riva and Matthias Weidlich | (参考訳) Predictive Process Monitoring (PPM) は、過去のプロセス実行データを活用して、実行がいつまで続くかを予測することを目的としている。
近年,ニューラルネットワーク(NN)を予測器として利用することにより,次の活動を予測するためのPPM技術が著しく成熟している。
彼らのパフォーマンスは一般的には打ち勝つのが難しいが、バックグラウンドプロセスの知識が役に立つ特定の状況がある。
このような知識は、例外的なプロセス実行の予測品質の向上や、概念の漂流によるプロセスの変化に活用することができる。
本稿では、手続き的プロセスモデルを用いて表現された背景知識を利用して、トレーニングデータのアンダーサンプリングをオフセットするシンボリック[Neuro]システムを提案する。
具体的には,NN分野における新たな技術であるアテンション機構を備えたNNを用いた予測を行う。
このシステムは、予測タスクの性能改善を示す複数の実生活ログでテストされている。 Predictive Process Monitoring (PPM) aims at leveraging historic process execution data to predict how ongoing executions will continue up to their completion. In recent years, PPM techniques for the prediction of the next activities have matured significantly, mainly thanks to the use of Neural Networks (NNs) as a predictor. While their performance is difficult to beat in the general case, there are specific situations where background process knowledge can be helpful. Such knowledge can be leveraged for improving the quality of predictions for exceptional process executions or when the process changes due to a concept drift. In this paper, we present a Symbolic[Neuro] system that leverages background knowledge expressed in terms of a procedural process model to offset the under-sampling in the training data. More specifically, we make predictions using NNs with attention mechanism, an emerging technology in the NN field. The system has been tested on several real-life logs showing an improvement in the performance of the prediction task. | 翻訳日:2023-12-15 22:50:09 公開日:2023-12-14 |
# TiMix:効果的なビジョンランゲージ事前学習のためのテキスト対応画像ミキシング TiMix: Text-aware Image Mixing for Effective Vision-Language Pre-training ( http://arxiv.org/abs/2312.08846v1 ) ライセンス: Link先を確認 | Chaoya Jiang, Wei ye, Haiyang Xu, Qinghao Ye, Ming Yan, Ji Zhang, Shikun Zhang | (参考訳) 自己教師型マルチモーダル・コントラシティブ・ラーニング(SMCL)は、視覚的・言語的モダリティを整合させることにより、現代のビジョンランゲージ・プレトレーニング(VLP)モデルを大幅に進歩させる。
しかし、ウェブハーベストテキストイメージペアのノイズのため、SMCLにおけるトレーニングデータボリュームのスケールアップは、計算コストとデータ非効率の点でかなりの障害となる。
本稿では,vlpにおけるデータ効率を向上させるために,ミックスベースデータ拡張技術をsmclに統合したテキスト認識画像混合(timix)を提案する。
本稿では,相互情報(MI)の観点からTiMixの理論的解析を行い,相互学習のための混合データサンプルが,対照損失の正則化として暗黙的に機能していることを示す。
実験の結果,timoxは既存の手法に対してベンチマークを行った場合,トレーニングデータの量が少なく,トレーニング時間が短い場合でも,下流タスクで同等のパフォーマンスを示すことがわかった。
この研究は、データ効率と計算可能なVLPのためのデータ混合の可能性を実証的かつ理論的に実証し、実用シナリオにおけるより広範なVLPモデルの採用に寄与する。 Self-supervised Multi-modal Contrastive Learning (SMCL) remarkably advances modern Vision-Language Pre-training (VLP) models by aligning visual and linguistic modalities. Due to noises in web-harvested text-image pairs, however, scaling up training data volume in SMCL presents considerable obstacles in terms of computational cost and data inefficiency. To improve data efficiency in VLP, we propose Text-aware Image Mixing (TiMix), which integrates mix-based data augmentation techniques into SMCL, yielding significant performance improvements without significantly increasing computational overhead. We provide a theoretical analysis of TiMixfrom a mutual information (MI) perspective, showing that mixed data samples for cross-modal contrastive learning implicitly serve as a regularizer for the contrastive loss. The experimental results demonstrate that TiMix exhibits a comparable performance on downstream tasks, even with a reduced amount of training data and shorter training time, when benchmarked against existing methods. This work empirically and theoretically demonstrates the potential of data mixing for data-efficient and computationally viable VLP, benefiting broader VLP model adoption in practical scenarios. | 翻訳日:2023-12-15 22:49:53 公開日:2023-12-14 |
# diffusion-c: 破損したデータによる拡散モデルの生成的挑戦 Diffusion-C: Unveiling the Generative Challenges of Diffusion Models through Corrupted Data ( http://arxiv.org/abs/2312.08843v1 ) ライセンス: Link先を確認 | Keywoong Bae, Suan Lee, Wookey Lee | (参考訳) 現代学術調査では,拡散モデル,特にGAN,DDPM,DDIMに類似した拡散モデルの生成制限を解析するための基礎的方法論である拡散-Cを提案する。
入力された視覚データを無数の汚職のモダリティや強度に適応させることで,これらの拡散モデルの性能特性を解明する。
ノイズ成分は、ディープラーニングシステムの力学に影響を及ぼす重要な要素であると仮定された分析において中心的な段階を占める。
拡散-cを用いた厳密な探検では, (i) 拡散分類学下の生成モデルの範囲内において, ddpmはパラゴンとして出現し, 一貫して優れた性能指標を示す。
(II)
広範囲にわたる汚職の枠組みの中で、霧とフラクタルの腐敗はDDPMとDDIMの両方の機能的堅牢性を著しく損なう。
(III)
これらの特定の腐敗に対する拡散モデルの脆弱性は、特に平均と分散の整合性に関して、位相的および統計的類似性に大きく影響される。
この学術的な研究は、様々な汚職の影響に関するディフュージョン・Cの中核的な理解を強調し、生成モデルの領域における将来の研究の舞台となる。 In our contemporary academic inquiry, we present "Diffusion-C," a foundational methodology to analyze the generative restrictions of Diffusion Models, particularly those akin to GANs, DDPM, and DDIM. By employing input visual data that has been subjected to a myriad of corruption modalities and intensities, we elucidate the performance characteristics of those Diffusion Models. The noise component takes center stage in our analysis, hypothesized to be a pivotal element influencing the mechanics of deep learning systems. In our rigorous expedition utilizing Diffusion-C, we have discerned the following critical observations: (I) Within the milieu of generative models under the Diffusion taxonomy, DDPM emerges as a paragon, consistently exhibiting superior performance metrics. (II) Within the vast spectrum of corruption frameworks, the fog and fractal corruptions notably undermine the functional robustness of both DDPM and DDIM. (III) The vulnerability of Diffusion Models to these particular corruptions is significantly influenced by topological and statistical similarities, particularly concerning the alignment between mean and variance. This scholarly work highlights Diffusion-C's core understandings regarding the impacts of various corruptions, setting the stage for future research endeavors in the realm of generative models. | 翻訳日:2023-12-15 22:49:31 公開日:2023-12-14 |
# ナノスケール磁気共鳴イメージングの展望 Roadmap on Nanoscale Magnetic Resonance Imaging ( http://arxiv.org/abs/2312.08841v1 ) ライセンス: Link先を確認 | Raffi Budakian, Amit Finkler, Alexander Eichler, Martino Poggio, Christian L. Degen, Sahand Tabatabaei, Inhee Lee, P. Chris Hammel, Eugene S. Polzik, Tim H. Taminiau, Ronald L. Walsworth, Paz London, Ania Bleszynski Jayich, Ashok Ajoy, Arjun Pillai, J\"org Wrachtrup, Fedor Jelezko, Yujeong Bae, Andreas J. Heinrich, Christian R. Ast, Patrice Bertet, Paola Cappellaro, Cristian Bonato, Yoann Altmann, Erik Gauger | (参考訳) ナノスケール磁気共鳴イメージング(NanoMRI)の分野は30年前に始まった。
これは、タンパク質やウイルス粒子のような単一分子や分子集合体を、原子に近い空間分解能と100nmの長さで画像化したいという欲求に動機づけられた。
長年にわたり、ナノMRI分野は、ミクロンスケールまでのサンプルを含む環境条件下での分子の有用な高分解能核磁気共鳴分光(NMR)の目標を含むように拡張されてきた。
これらの目標の実現には、スピンのナノスケールアンサンブルの検出と制御が可能な従来のnmrやmriよりも数桁高い感度を持つスピン検出技術の開発が必要である。
長年にわたり、NanoMRIに対する様々な技術的アプローチが出現し、それぞれが基礎分野と応用分野の異なる能力を持っている。
このロードマップ記事の目的は、NanoMRI技術における技術の現状を報告し、彼らが影響を及ぼそうとしている分野を概説し、今後の課題を特定し、これらの課題を満たす方法を提案することである。
このロードマップはまた、NanoMRI技術の発展が、新興量子科学と技術応用のブレークスルーにつながることを示している。 The field of nanoscale magnetic resonance imaging (NanoMRI) was started 30 years ago. It was motivated by the desire to image single molecules and molecular assemblies, such as proteins and virus particles, with near-atomic spatial resolution and on a length scale of 100 nm. Over the years, the NanoMRI field has also expanded to include the goal of useful high-resolution nuclear magnetic resonance (NMR) spectroscopy of molecules under ambient conditions, including samples up to the micron-scale. The realization of these goals requires the development of spin detection techniques that are many orders of magnitude more sensitive than conventional NMR and MRI, capable of detecting and controlling nanoscale ensembles of spins. Over the years, a number of different technical approaches to NanoMRI have emerged, each possessing a distinct set of capabilities for basic and applied areas of science. The goal of this roadmap article is to report the current state of the art in NanoMRI technologies, outline the areas where they are poised to have impact, identify the challenges that lie ahead, and propose methods to meet these challenges. This roadmap also shows how developments in NanoMRI techniques can lead to breakthroughs in emerging quantum science and technology applications. | 翻訳日:2023-12-15 22:49:09 公開日:2023-12-14 |
# 接地訓練オープンセット検出における視覚的プロンプトの探索 Exploration of visual prompt in Grounded pre-trained open-set detection ( http://arxiv.org/abs/2312.08839v1 ) ライセンス: Link先を確認 | Qibo Chen, Weizhong Jin, Shuchang Li, Mengdi Liu, Li Yu, Jian Jiang, Xiaozheng Wang | (参考訳) テキストプロンプトは、訓練済みのオープンセットオブジェクト検出モデルを新しいカテゴリに一般化するために重要である。
しかし、テキストプロンプトの現在の方法は、新しいカテゴリに一般化する際に手動のフィードバックを必要とするため、複雑なシーンをモデル化する能力を制限するため、しばしば誤った検出結果をもたらす。
この制限に対処するため,いくつかのラベル付き画像から新たなカテゴリ知識を学習し,事前学習された検出モデルを新しいカテゴリに一般化する視覚的プロンプト手法を提案する。
視覚的プロンプトが新しいカテゴリを適切に表現できるようにするために,事前に定義された語彙長に制限されない統計ベースのプロンプト構成モジュールを提案する。
さらに,事前学習データセットのカテゴリ辞書を用いてタスク固有の類似度辞書の設計を行い,視覚的プロンプトの識別性を高める。
本手法をODinWデータセット上で評価し,既存のプロンプト学習法より優れ,組合せ推論においてより一貫した性能を示す。 Text prompts are crucial for generalizing pre-trained open-set object detection models to new categories. However, current methods for text prompts are limited as they require manual feedback when generalizing to new categories, which restricts their ability to model complex scenes, often leading to incorrect detection results. To address this limitation, we propose a novel visual prompt method that learns new category knowledge from a few labeled images, which generalizes the pre-trained detection model to the new category. To allow visual prompts to represent new categories adequately, we propose a statistical-based prompt construction module that is not limited by predefined vocabulary lengths, thus allowing more vectors to be used when representing categories. We further utilize the category dictionaries in the pre-training dataset to design task-specific similarity dictionaries, which make visual prompts more discriminative. We evaluate the method on the ODinW dataset and show that it outperforms existing prompt learning methods and performs more consistently in combinatorial inference. | 翻訳日:2023-12-15 22:48:49 公開日:2023-12-14 |
# 一級決定木を用いた実演による安全制約の学習 Learning Safety Constraints From Demonstration Using One-Class Decision Trees ( http://arxiv.org/abs/2312.08837v1 ) ライセンス: Link先を確認 | Mattijs Baert, Sam Leroux, Pieter Simoens | (参考訳) 安全が重要な関心事である物理的環境にこれらのエージェントを配置する場合、自律的なエージェントと人間の価値のアライメントは重要な課題である。
しかし、報酬やコスト関数としてエージェントの目的を定義することは本質的に複雑であり、ヒューマンエラーを起こしやすい。
この課題に応えて,一級決定木を活用し,専門家によるデモンストレーションから学ぶことを容易にする新しいアプローチを提案する。
これらの決定木は、与えられた環境に関連する制約の集合を、可分正規形式の論理式として表現する基盤を提供する。
学習制約はその後、オラクル制約強化学習フレームワークに採用され、安全なポリシーの取得を可能にする。
他の手法とは対照的に,本手法は安全クリティカルな環境において重要な特徴である制約の解釈可能な表現を提供する。
提案手法の有効性を検証するため,合成ベンチマークドメインと現実的な運転環境を用いて実験を行った。 The alignment of autonomous agents with human values is a pivotal challenge when deploying these agents within physical environments, where safety is an important concern. However, defining the agent's objective as a reward and/or cost function is inherently complex and prone to human errors. In response to this challenge, we present a novel approach that leverages one-class decision trees to facilitate learning from expert demonstrations. These decision trees provide a foundation for representing a set of constraints pertinent to the given environment as a logical formula in disjunctive normal form. The learned constraints are subsequently employed within an oracle constrained reinforcement learning framework, enabling the acquisition of a safe policy. In contrast to other methods, our approach offers an interpretable representation of the constraints, a vital feature in safety-critical environments. To validate the effectiveness of our proposed method, we conduct experiments in synthetic benchmark domains and a realistic driving environment. | 翻訳日:2023-12-15 22:48:32 公開日:2023-12-14 |
# 拡散モデルを用いた光音響イメージングの高速化 Speeding up Photoacoustic Imaging using Diffusion Models ( http://arxiv.org/abs/2312.08834v1 ) ライセンス: Link先を確認 | Irem Loc and Mehmet Burcin Unlu | (参考訳) 背景:光音響顕微鏡(PAM)は、光学的および音響的イメージングを統合し、組織内の光吸収成分を検出するための浸透深度を向上させる。
それでも、大きな領域を高い空間分解能でスキャンすることは困難である。
レーザーパルス繰り返し速度による速度制限により、pamイメージングの高速化において計算法の潜在的役割が強調される。
目的: 拡散モデルを用いて光音響イメージングプロセスの高速化を行う, 新規で適応性の高いDiffPamアルゴリズムを提案する。
方法: マウス脳微小血管のpam画像に焦点をあてたデータセットを用いて, 自然画像のみを訓練した拡散モデルとドメイン内訓練u-netモデルの性能を比較した。
結果:DiffPamは,大規模なデータセットやディープラーニングモデルのトレーニングを必要とせず,専用のU-Netモデルに匹敵する性能を達成した。
また,精度を損なうことなく計算時間を短縮するための拡散プロセスの短縮効果も導入した。
結論: 本研究は, 限定的なai知識と計算資源を有する研究者において, 実効的なpam画像再構成アルゴリズムとしてのdiffpamの重要性を強調する。 Background: Photoacoustic Microscopy (PAM) integrates optical and acoustic imaging, offering enhanced penetration depth for detecting optical-absorbing components in tissues. Nonetheless, challenges arise in scanning large areas with high spatial resolution. With speed limitations imposed by laser pulse repetition rates, the potential role of computational methods is highlighted in accelerating PAM imaging. Purpose: We are proposing a novel and highly adaptable DiffPam algorithm that utilizes diffusion models for speeding up the photoacoustic imaging process. Method: We leveraged a diffusion model trained exclusively on natural images, comparing its performance with an in-domain trained U-Net model using a dataset focused on PAM images of mice brain microvasculature. Results: Our findings indicate that DiffPam achieves comparable performance to a dedicated U-Net model, without the need for a large dataset or training a deep learning model. The study also introduces the efficacy of shortened diffusion processes for reducing computing time without compromising accuracy. Conclusion: This study underscores the significance of DiffPam as a practical algorithm for reconstructing undersampled PAM images, particularly for researchers with limited AI expertise and computational resources. | 翻訳日:2023-12-15 22:48:17 公開日:2023-12-14 |
# 非マルコフ巨大原子を用いた伝搬ボソニック場の捕獲と放出 Catch and release of propagating bosonic field with non-Markovian giant atom ( http://arxiv.org/abs/2312.08832v1 ) ライセンス: Link先を確認 | Luting Xu and Lingzhen Guo | (参考訳) 物理系の非マルコフ性は量子情報処理に潜在的に応用できる貴重な資源であると考えられている。
情報(フライングキュービット)で符号化された移動量子場の制御は量子ネットワークにとって重要である。
本研究では,複数の結合点を介して環境に結合する非マルコフ巨大原子を用いた光子/フォノンの捕捉と放出を提案する。
巨大原子と場作用素に対するハイゼンベルク運動方程式に基づいて、線形応答理論から時間依存散乱係数を計算し、非マルコフ巨原子の基準を定義する。
本研究では,非マルコビアン性に起因する場境界状態を用いて,巨大原子のパラメータを調整することにより,伝搬するボソニック場をオンデマンドで捕捉・放出できることを解析し,数値的に検証する。 The non-Markovianity of physical systems is considered to be a valuable resource that has potential applications to quantum information processing. The control of traveling quantum fields encoded with information (flying qubit) is crucial for quantum networks. In this work, we propose to catch and release the propagating photon/phonon with a non-Markovian giant atom, which is coupled to the environment via multiple coupling points. Based on the Heisenberg equation of motion for the giant atom and field operators, we calculate the time-dependent scattering coefficients from the linear response theory and define the criteria for the non-Markovian giant atom. We analyze and numerically verify that the field bound states due to non-Markovianity can be harnessed to catch and release the propagating bosonic field on demand by tuning the parameters of giant atom. | 翻訳日:2023-12-15 22:47:57 公開日:2023-12-14 |
# 人工知能と人間地理学 Artificial Intelligence and Human Geography ( http://arxiv.org/abs/2312.08827v1 ) ライセンス: Link先を確認 | Song Gao | (参考訳) 本稿では,人間地理学におけるAIの最近の進歩,特に場所表現とモデリング,空間解析と予測マッピング,都市計画と設計など,機械学習(深層学習)の利用について検討する。
AI技術は、複雑な人間と環境の相互作用に関する深い洞察を可能にし、より効果的な科学的探索、社会的ダイナミクスの理解、空間的意思決定に貢献した。
さらに、ヒューマンジオグラフィックは、特にコンテキスト認識モデル開発、人間中心設計、バイアスと倫理的考察、データプライバシにおいて、aiに重要な貢献を提供する。
AIと人間の地理の相乗効果は、災害の回復力、貧困、公平な資源アクセスといった世界的な課題に対処するために不可欠である。
このAIと地理の学際的なコラボレーションは、GeoAIの開発を前進させ、より良い持続可能な世界を提供する。 This paper examines the recent advances and applications of AI in human geography especially the use of machine (deep) learning, including place representation and modeling, spatial analysis and predictive mapping, and urban planning and design. AI technologies have enabled deeper insights into complex human-environment interactions, contributing to more effective scientific exploration, understanding of social dynamics, and spatial decision-making. Furthermore, human geography offers crucial contributions to AI, particularly in context-aware model development, human-centered design, biases and ethical considerations, and data privacy. The synergy beween AI and human geography is essential for addressing global challenges like disaster resilience, poverty, and equitable resource access. This interdisciplinary collaboration between AI and geography will help advance the development of GeoAI and promise a better and sustainable world for all. | 翻訳日:2023-12-15 22:47:43 公開日:2023-12-14 |
# 自動生成テストにおける新しい品質問題の手作業分類 A manual categorization of new quality issues on automatically-generated tests ( http://arxiv.org/abs/2312.08826v1 ) ライセンス: Link先を確認 | Geraldine Galindo-Gutierrez, Narea Maxilimiliano, Blanco Alison Fernandez, Nicolas Anquetil, Alcocer Juan Pablo Sandoval | (参考訳) 様々な研究が、テスト臭を主品質属性として使用して自動生成テストケースの品質を分析している。
しかし、最近の研究は、生成されたテストは以前の研究で必ずしも考慮されていない多くの品質上の問題に悩まされる可能性があると報告している。
これらの問題と生成したテストの頻度についてはほとんど知られていない。
本稿では,2,340個の自動生成テストからなる外部データセットの手動解析について報告する。
この分析は、過去の確認試験の匂いをカバーしない、新しい品質問題を検出することを目的とした。
テーマ分析を用いて、新たな品質問題をグループ化し分類する。
その結果,4つのカテゴリに分類される13の新たな品質課題の分類法を提案する。
また、データセット内の新たな品質問題の発生頻度を報告し、自動生成テストの品質と有用性を改善するためにテストジェネレータが考慮すべき8つの推奨事項を提示する。 Diverse studies have analyzed the quality of automatically generated test cases by using test smells as the main quality attribute. But recent work reported that generated tests may suffer a number of quality issues not necessarily considered in previous studies. Little is known about these issues and their frequency within generated tests. In this paper, we report on a manual analysis of an external dataset consisting of 2,340 automatically generated tests. This analysis aimed at detecting new quality issues, not covered by past recognized test smells. We use thematic analysis to group and categorize the new quality issues found. As a result, we propose a taxonomy of 13 new quality issues grouped in four categories. We also report on the frequency of these new quality issues within the dataset and present eight recommendations that test generators may consider to improve the quality and usefulness of the automatically generated tests. | 翻訳日:2023-12-15 22:47:27 公開日:2023-12-14 |
# 自己監督拡散特徴からの誘導拡散 Guided Diffusion from Self-Supervised Diffusion Features ( http://arxiv.org/abs/2312.08825v1 ) ライセンス: Link先を確認 | Vincent Tao Hu, Yunlu Chen, Mathilde Caron, Yuki M. Asano, Cees G. M. Snoek, Bjorn Ommer | (参考訳) ガイダンスは拡散モデルにおいて重要な概念であるが、その有効性は追加のデータアノテーションや分類器事前訓練の必要性によって制限されることが多い。
だからこそ、DINOのような自己教師型学習のバックボーンから指導を受けたのです。
しかし,近年の研究では,拡散モデル自体から派生した特徴表現が下流タスクにおいても識別可能であることが判明し,拡散モデルから,特に拡散モデルからガイダンスを抽出する枠組みを提案する。
私たちの研究はいくつかの重要な貢献をもたらした。
第一に、拡散モデルからの誘導信号は、クラス条件の拡散モデルと同等である。
第二に、Sinkhorn-Knoppアルゴリズムに基づく特徴正規化は、非条件拡散モデルと比較して特徴の識別性をさらに高めることができる。
第3に,拡散モデルの拡散モデルから指導を同時導出できるオンライン学習手法を構築した。
最後に, 拡散モデルの適用範囲をODEの一定速度経路に沿って拡張し, サンプリングステップと忠実度とのバランスをより良好にする。
imagenet256, imagenet256-100,lsun-churchesなどの大規模解像度データセットにおけるベースライン比較を上回っている。
私たちのコードはリリースされます。 Guidance serves as a key concept in diffusion models, yet its effectiveness is often limited by the need for extra data annotation or classifier pretraining. That is why guidance was harnessed from self-supervised learning backbones, like DINO. However, recent studies have revealed that the feature representation derived from diffusion model itself is discriminative for numerous downstream tasks as well, which prompts us to propose a framework to extract guidance from, and specifically for, diffusion models. Our research has yielded several significant contributions. Firstly, the guidance signals from diffusion models are on par with those from class-conditioned diffusion models. Secondly, feature regularization, when based on the Sinkhorn-Knopp algorithm, can further enhance feature discriminability in comparison to unconditional diffusion models. Thirdly, we have constructed an online training approach that can concurrently derive guidance from diffusion models for diffusion models. Lastly, we have extended the application of diffusion models along the constant velocity path of ODE to achieve a more favorable balance between sampling steps and fidelity. The performance of our methods has been outstanding, outperforming related baseline comparisons in large-resolution datasets, such as ImageNet256, ImageNet256-100 and LSUN-Churches. Our code will be released. | 翻訳日:2023-12-15 22:47:15 公開日:2023-12-14 |
# metropolis-adjusted mirror langevin アルゴリズムを用いた制約空間からの高速サンプリング Fast sampling from constrained spaces using the Metropolis-adjusted Mirror Langevin Algorithm ( http://arxiv.org/abs/2312.08823v1 ) ライセンス: Link先を確認 | Vishwak Srinivasan, Andre Wibisono, Ashia Wilson | (参考訳) 本研究では,コンパクトかつ凸集合である分布から近似サンプリングを行うためのmetropolis-adjusted mirror langevinアルゴリズムを提案する。
このアルゴリズムはミラーランジュバンの単一のステップ(zhang et al., 2020)によって引き起こされるマルコフ連鎖にアクセプ・リジェクト・フィルタを付加し、これはミラーランジュバンダイナミクスの基本的な離散化である。
このフィルタが組み込まれているため,本手法は目標に対して偏りがないが,ミラーランゲヴィンアルゴリズムを含むミラーランゲヴィン力学の偏見は漸近バイアスを有する。
自己調和ミラー関数に関して、ポテンシャルが比較的滑らかで凸であり、リプシッツであるとき、提案アルゴリズムの混合時間について上限を与える。
このアルゴリズムによって引き起こされるマルコフ連鎖の可逆性の結果、近似サンプリングの誤差耐性に対する指数関数的に優れた依存性が得られる。
また,理論的な知見を裏付ける数値実験も実施する。 We propose a new method called the Metropolis-adjusted Mirror Langevin algorithm for approximate sampling from distributions whose support is a compact and convex set. This algorithm adds an accept-reject filter to the Markov chain induced by a single step of the mirror Langevin algorithm (Zhang et al., 2020), which is a basic discretisation of the mirror Langevin dynamics. Due to the inclusion of this filter, our method is unbiased relative to the target, while known discretisations of the mirror Langevin dynamics including the mirror Langevin algorithm have an asymptotic bias. We give upper bounds for the mixing time of the proposed algorithm when the potential is relatively smooth, convex, and Lipschitz with respect to a self-concordant mirror function. As a consequence of the reversibility of the Markov chain induced by the algorithm, we obtain an exponentially better dependence on the error tolerance for approximate sampling. We also present numerical experiments that corroborate our theoretical findings. | 翻訳日:2023-12-15 22:46:54 公開日:2023-12-14 |
# 計画とレンダリング: エンド・ツー・エンドのプロダクトポスター生成に向けて Planning and Rendering: Towards End-to-End Product Poster Generation ( http://arxiv.org/abs/2312.08822v1 ) ライセンス: Link先を確認 | Zhaochen Li, Fengheng Li, Wei Feng, Honghe Zhu, An Liu, Yaoyu Li, Zheng Zhang, Jingjing Lv, Xin Zhu, Junjie Shen, Zhangang Lin, Jingping Shao, Zhenglu Yang | (参考訳) エンドツーエンドの製品ポスター生成は設計効率を大幅に最適化し、生産コストを削減する。
一般的な手法は, クリーンな背景画像を生成するために, 画像塗布法に大きく依存する。
その後、ポスターレイアウト生成方法を採用し、対応するレイアウト結果を生成する。
しかし、背景画像は、その複雑さのためにテキストコンテンツに適合せず、製品の固定位置はレイアウト結果の多様性を制限している。
これらの問題を緩和するために,我々はP\&Rという新しい製品ポスター生成フレームワークを提案する。
p\&rは、計画とレンダリングという2つのステージからなるポスター作成におけるデザイナーのワークフローからインスピレーションを得ている。
設計段階では,製品の外観特徴とテキストの意味的特徴の両方を考慮し,製品およびその他の視覚的コンポーネントのレイアウトを生成するプランネットを提案し,レイアウトの多様性と合理性を向上させる。
レンダリングの段階では,異なるビジュアルコンポーネントのレイアウトを融合させる空間融合モジュールが導入された場合において,生成したレイアウトを考慮しながら製品の背景を生成するRenderNetを提案する。
この分野の進展を促進するために,30kの精巧な製品ポスターイメージと包括的な画像とテキストアノテーションからなる,最初のエンドツーエンドの製品ポスター生成データセット PPG30k を提案する。
提案手法は, PPG30k上での最先端の製品ポスター生成手法より優れている。
PPG30kはまもなくリリースされる。 End-to-end product poster generation significantly optimizes design efficiency and reduces production costs. Prevailing methods predominantly rely on image-inpainting methods to generate clean background images for given products. Subsequently, poster layout generation methods are employed to produce corresponding layout results. However, the background images may not be suitable for accommodating textual content due to their complexity, and the fixed location of products limits the diversity of layout results. To alleviate these issues, we propose a novel product poster generation framework named P\&R. The P\&R draws inspiration from the workflow of designers in creating posters, which consists of two stages: Planning and Rendering. At the planning stage, we propose a PlanNet to generate the layout of the product and other visual components considering both the appearance features of the product and semantic features of the text, which improves the diversity and rationality of the layouts. At the rendering stage, we propose a RenderNet to generate the background for the product while considering the generated layout, where a spatial fusion module is introduced to fuse the layout of different visual components. To foster the advancement of this field, we propose the first end-to-end product poster generation dataset PPG30k, comprising 30k exquisite product poster images along with comprehensive image and text annotations. Our method outperforms the state-of-the-art product poster generation methods on PPG30k. The PPG30k will be released soon. | 翻訳日:2023-12-15 22:46:36 公開日:2023-12-14 |
# エージェント注意:ソフトマックスと線形注意の統合について Agent Attention: On the Integration of Softmax and Linear Attention ( http://arxiv.org/abs/2312.08874v1 ) ライセンス: Link先を確認 | Dongchen Han, Tianzhu Ye, Yizeng Han, Zhuofan Xia, Shiji Song, Gao Huang | (参考訳) attentionモジュールはTransformersの重要なコンポーネントである。
グローバルアテンションメカニズムは高い表現性を提供するが、その過剰な計算コストは様々なシナリオで適用性を制限する。
本稿では,計算効率と表現力のバランスをとるために,新しい注意パラダイムであるエージェント注意(Agent Attention)を提案する。
具体的には、エージェントアテンションは4倍の$(Q, A, K, V)$と表現され、従来のアテンションモジュールに追加のエージェントトークンセット$A$を導入する。
エージェントトークンは最初、クエリトークンのエージェントとして機能し、$k$と$v$から情報を集約し、その後、情報を$q$にブロードキャストする。
エージェントトークンの数をクエリトークンの数よりもはるかに小さく設計できるため、グローバルコンテキストモデリング能力を維持しつつ、広く採用されているsoftmaxの注意よりもエージェントの注意ははるかに効率的である。
興味深いことに,提案するエージェントアテンションは線形アテンションの一般化形式と等価である。
したがって,エージェント・アテンションはソフトマックス・アテンションと高効率線形アテンションをシームレスに統合する。
広範な実験により、様々な視覚トランスフォーマーや、画像分類、物体検出、意味セグメンテーション、画像生成など、様々な視覚タスクにおけるエージェントの注意の有効性が実証された。
特に、エージェントの注意は高解像度シナリオにおいて顕著な性能を示しており、その線形の注意の性質に依拠している。
例えば、安定拡散に適用した場合、エージェントアテンションは生成を加速し、追加のトレーニングなしで画像生成品質を大幅に向上させる。
コードはhttps://github.com/LeapLabTHU/Agent-Attentionで入手できる。 The attention module is the key component in Transformers. While the global attention mechanism offers high expressiveness, its excessive computational cost restricts its applicability in various scenarios. In this paper, we propose a novel attention paradigm, Agent Attention, to strike a favorable balance between computational efficiency and representation power. Specifically, the Agent Attention, denoted as a quadruple $(Q, A, K, V)$, introduces an additional set of agent tokens $A$ into the conventional attention module. The agent tokens first act as the agent for the query tokens $Q$ to aggregate information from $K$ and $V$, and then broadcast the information back to $Q$. Given the number of agent tokens can be designed to be much smaller than the number of query tokens, the agent attention is significantly more efficient than the widely adopted Softmax attention, while preserving global context modelling capability. Interestingly, we show that the proposed agent attention is equivalent to a generalized form of linear attention. Therefore, agent attention seamlessly integrates the powerful Softmax attention and the highly efficient linear attention. Extensive experiments demonstrate the effectiveness of agent attention with various vision Transformers and across diverse vision tasks, including image classification, object detection, semantic segmentation and image generation. Notably, agent attention has shown remarkable performance in high-resolution scenarios, owning to its linear attention nature. For instance, when applied to Stable Diffusion, our agent attention accelerates generation and substantially enhances image generation quality without any additional training. Code is available at https://github.com/LeapLabTHU/Agent-Attention. | 翻訳日:2023-12-15 22:41:21 公開日:2023-12-14 |
# 低エネルギー部分空間におけるディジタル量子シミュレーションの理論 A Theory of Digital Quantum Simulations in the Low-Energy Subspace ( http://arxiv.org/abs/2312.08867v1 ) ライセンス: Link先を確認 | Weiyuan Gong, Shuo Zhou, Tongyang Li | (参考訳) デジタル量子シミュレーションはハミルトンのユニタリ進化の近似に広く応用されている。
実際、量子系の多くのシミュレーションタスクはヒルベルト空間全体ではなく低エネルギー部分空間の量子状態に焦点を当てている。
本稿では,低エネルギー部分空間における積公式に基づくディジタル量子シミュレーションの複雑性を体系的に検討する。
シミュレーション誤差は、様々なディジタル量子シミュレーションアルゴリズムと量子システムに対するハミルトニアンの効果的な低エネルギーノルムに依存しており、不完全な状態準備であっても、以前のユニタリシミュレーションの複雑さよりも改善できることを示した。
特に、低エネルギー部分空間におけるスピンモデルをシミュレートするためには、qDRIFTやランダムな置換のようなランダム化された積公式はより小さなステップ複雑さを必要とする。
この改良は対称性に保護されたデジタル量子シミュレーションでも継続する。
我々は、パワーロー量子相互作用のダイナミクスをシミュレートする同様の改善を証明している。
また,低エネルギー部分空間における一般ディジタル量子シミュレーションのためのクエリ下限を提供する。 Digital quantum simulation has broad applications in approximating unitary evolutions of Hamiltonians. In practice, many simulation tasks for quantum systems focus on quantum states in the low-energy subspace instead of the entire Hilbert space. In this paper, we systematically investigate the complexity of digital quantum simulation based on product formulas in the low-energy subspace. We show that the simulation error depends on the effective low-energy norm of the Hamiltonian for a variety of digital quantum simulation algorithms and quantum systems, allowing improvements over the previous complexities for full unitary simulations even for imperfect state preparations. In particular, for simulating spin models in the low-energy subspace, we prove that randomized product formulas such as qDRIFT and random permutation require smaller step complexities. This improvement also persists in symmetry-protected digital quantum simulations. We prove a similar improvement in simulating the dynamics of power-law quantum interactions. We also provide a query lower bound for general digital quantum simulations in the low-energy subspace. | 翻訳日:2023-12-15 22:37:32 公開日:2023-12-14 |
# MCANet:マルチスケールクロス軸注意による医用画像セグメンテーション MCANet: Medical Image Segmentation with Multi-Scale Cross-Axis Attention ( http://arxiv.org/abs/2312.08866v1 ) ライセンス: Link先を確認 | Hao Shao, Quansheng Zeng, Qibin Hou, Jufeng Yang | (参考訳) 病変領域や臓器の大きさや形状が異なるため,多次元情報を効率的に捉え,画素間の長距離依存性を構築することは医用画像分割に不可欠である。
本稿では,効率的な軸方向注意に基づく課題を解決するために,MCA(Multi-scale Cross-axis Attention)を提案する。
水平方向と垂直方向に沿って軸方向の注意を逐次接続する代わりに、2つの平行軸方向の注意間の二重交差を計算し、グローバル情報をよりよく捉えることを提案する。
個々の大きさや形状の病変領域や臓器の顕著な変化を処理するために,各軸方向の注意経路に異なるカーネルサイズを持つストリップ形状のカーネルの複数コンボリューションを用いて空間情報の符号化におけるMCAの効率を向上させる。
我々は MSCAN のバックボーン上に MCA を構築し,そのネットワークを MCANet と呼ぶ。
4M以上のパラメータしか持たないMCANetは、皮膚病変のセグメンテーション、核のセグメンテーション、腹腔多臓器のセグメンテーション、ポリープセグメンテーションを含む4つの課題において、より重いバックボーン(例えば、Swin Transformer)を使用する場合よりも、さらに優れている。
コードはhttps:// github.com/haoshao-nku/ medical seg.gitで入手できる。 Efficiently capturing multi-scale information and building long-range dependencies among pixels are essential for medical image segmentation because of the various sizes and shapes of the lesion regions or organs. In this paper, we present Multi-scale Cross-axis Attention (MCA) to solve the above challenging issues based on the efficient axial attention. Instead of simply connecting axial attention along the horizontal and vertical directions sequentially, we propose to calculate dual cross attentions between two parallel axial attentions to capture global information better. To process the significant variations of lesion regions or organs in individual sizes and shapes, we also use multiple convolutions of strip-shape kernels with different kernel sizes in each axial attention path to improve the efficiency of the proposed MCA in encoding spatial information. We build the proposed MCA upon the MSCAN backbone, yielding our network, termed MCANet. Our MCANet with only 4M+ parameters performs even better than most previous works with heavy backbones (e.g., Swin Transformer) on four challenging tasks, including skin lesion segmentation, nuclei segmentation, abdominal multi-organ segmentation, and polyp segmentation. Code is available at https:// github.com/ haoshao-nku/ medical seg.git. | 翻訳日:2023-12-15 22:37:17 公開日:2023-12-14 |
# テキスト専用画像キャプションのための合成ペアによるクロスモーダルアライメントの改善 Improving Cross-modal Alignment with Synthetic Pairs for Text-only Image Captioning ( http://arxiv.org/abs/2312.08865v1 ) ライセンス: Link先を確認 | Zhiyue Liu, Jinyuan Liu, Fanrong Ma | (参考訳) 近年、画像キャプションモデルは大きな進歩を遂げているが、その大半は画像とテキストのペアを含む高品質なデータセットに大きく依存している。
以前の作業では、教師なし設定下でのテキスト情報のみに依存して、画像キャプションのためのCLIPのクロスモーダルアソシエーション機能を活用していた。
しかし、CLIPテキストと画像特徴の間にはモダリティギャップが存在するだけでなく、実世界の画像が利用できないため、トレーニングと推論の相違も生じ、テキストのみのキャプションにおけるモーダルアライメントの障害となる。
本稿では,合成画像とテキストのペアを組み込んだ新しい手法を提案する。
テキストデータに対応する画像を得るために、事前学習されたテキスト対画像モデルがデプロイされ、クリップ埋め込み空間の実際の画像に対して生成された画像の擬似特徴が最適化される。
さらに、画像特徴を表すためにテキスト情報を収集し、様々な意味を持つ画像特徴と橋渡しモダリティギャップを生じる。
トレーニングと推論を統一するために、合成画像機能は言語デコーダのトレーニングプレフィックスとして機能し、実際の画像は推論に使用される。
さらに、画像中のサルエントオブジェクトを、モダリティアライメントの学習を強化する支援として検出する。
実験の結果,本手法はベンチマークデータセットにおける最先端の性能を得ることができた。 Although image captioning models have made significant advancements in recent years, the majority of them heavily depend on high-quality datasets containing paired images and texts which are costly to acquire. Previous works leverage the CLIP's cross-modal association ability for image captioning, relying solely on textual information under unsupervised settings. However, not only does a modality gap exist between CLIP text and image features, but a discrepancy also arises between training and inference due to the unavailability of real-world images, which hinders the cross-modal alignment in text-only captioning. This paper proposes a novel method to address these issues by incorporating synthetic image-text pairs. A pre-trained text-to-image model is deployed to obtain images that correspond to textual data, and the pseudo features of generated images are optimized toward the real ones in the CLIP embedding space. Furthermore, textual information is gathered to represent image features, resulting in the image features with various semantics and the bridged modality gap. To unify training and inference, synthetic image features would serve as the training prefix for the language decoder, while real images are used for inference. Additionally, salient objects in images are detected as assistance to enhance the learning of modality alignment. Experimental results demonstrate that our method obtains the state-of-the-art performance on benchmark datasets. | 翻訳日:2023-12-15 22:36:51 公開日:2023-12-14 |
# RankDVQA-mini:知識蒸留駆動型ディープビデオ品質評価 RankDVQA-mini: Knowledge Distillation-Driven Deep Video Quality Assessment ( http://arxiv.org/abs/2312.08864v1 ) ライセンス: Link先を確認 | Chen Feng, Duolikun Danier, Haoran Wang, Fan Zhang, and David Bull | (参考訳) 深層学習に基づく映像品質評価(Deep VQA)は,人間の知覚との相関性において有望な改善とともに,従来の指標を超える大きな可能性を示している。
しかしながら、そのような深層VQAモデルの実践的な展開は、高い計算複雑性と大きなメモリ要求のために制限されることが多い。
この問題に対処するため,我々はプルーニング駆動モデル圧縮と多段階知識蒸留を統合した2段階のワークフローを用いて,最先端の深層VQA手法であるRandDVQAのモデルサイズと実行時間を大幅に削減することを目指している。
結果として得られた軽量な品質指標である RankDVQA-mini は、フルバージョン (FLOPsの14%) と比較して10%未満のモデルパラメータを必要とする一方で、既存のディープなVQA手法よりも優れた品質予測性能を維持している。
RankDVQA-miniのソースコードはhttps://chenfeng-bristol.github.io/RankDVQA-mini/で公開されている。 Deep learning-based video quality assessment (deep VQA) has demonstrated significant potential in surpassing conventional metrics, with promising improvements in terms of correlation with human perception. However, the practical deployment of such deep VQA models is often limited due to their high computational complexity and large memory requirements. To address this issue, we aim to significantly reduce the model size and runtime of one of the state-of-the-art deep VQA methods, RankDVQA, by employing a two-phase workflow that integrates pruning-driven model compression with multi-level knowledge distillation. The resulting lightweight quality metric, RankDVQA-mini, requires less than 10% of the model parameters compared to its full version (14% in terms of FLOPs), while still retaining a quality prediction performance that is superior to most existing deep VQA methods. The source code of the RankDVQA-mini has been released at https://chenfeng-bristol.github.io/RankDVQA-mini/ for public evaluation. | 翻訳日:2023-12-15 22:36:07 公開日:2023-12-14 |
# HeadRecon:モノクロ映像から高忠実な3Dヘッドレコン HeadRecon: High-Fidelity 3D Head Reconstruction from Monocular Video ( http://arxiv.org/abs/2312.08863v1 ) ライセンス: Link先を確認 | Xueying Wang and Juyong Zhang | (参考訳) 近年,静止像からの高忠実度3次元頭部モデルの再構築が進んでいる。
しかし、ほとんどの方法はマルチビューやマルチイルミネーション情報を必要とするため、データ取得に高い要求が生じる。
本稿では,任意の単眼映像から高忠実度3dヘッドモデルの再構成について検討する。
動きからの非剛性構造 (NRSFM) 法は, 異なるフレーム間の2次元対応により, この問題の解決に広く用いられている。
しかし,高コンプレックス毛髪構造や表情の変化によって生じる不正確な対応は,復元精度に大きく影響する。
これらの問題に対処するために,先導型動的暗黙的ニューラルネットワークを提案する。
具体的には、現在のフレーム空間を標準空間に変換するための2部動的変形場を設計する。
さらに、学習可能な符号付き距離場(SDF)を用いて標準空間の頭部形状をモデル化し、2つの主頭部の誘導によるボリュームレンダリングを用いて最適化し、復元精度とロバスト性を向上させる。
大規模アブレーション研究と最先端手法との比較により,提案手法の有効性とロバスト性を示した。 Recently, the reconstruction of high-fidelity 3D head models from static portrait image has made great progress. However, most methods require multi-view or multi-illumination information, which therefore put forward high requirements for data acquisition. In this paper, we study the reconstruction of high-fidelity 3D head models from arbitrary monocular videos. Non-rigid structure from motion (NRSFM) methods have been widely used to solve such problems according to the two-dimensional correspondence between different frames. However, the inaccurate correspondence caused by high-complex hair structures and various facial expression changes would heavily influence the reconstruction accuracy. To tackle these problems, we propose a prior-guided dynamic implicit neural network. Specifically, we design a two-part dynamic deformation field to transform the current frame space to the canonical one. We further model the head geometry in the canonical space with a learnable signed distance field (SDF) and optimize it using the volumetric rendering with the guidance of two-main head priors to improve the reconstruction accuracy and robustness. Extensive ablation studies and comparisons with state-of-the-art methods demonstrate the effectiveness and robustness of our proposed method. | 翻訳日:2023-12-15 22:35:47 公開日:2023-12-14 |
# 行列積作用素のブロック符号化 Block encoding of matrix product operators ( http://arxiv.org/abs/2312.08861v1 ) ライセンス: Link先を確認 | Martina Nibbi and Christian B. Mendl | (参考訳) 量子信号処理と量子固有値変換の組み合わせは、最近いくつかの量子アルゴリズムの統一フレームワークとして登場した。
標準的な形式では、ブロック符号化はより大きなユニタリでハミルトニアンを符号化し、信号処理は回転ゲートを用いてハミルトニアンのほぼ任意の多項式変換を達成する。
動作全体のボトルネックは通常ブロックエンコーディングによって構成され、近年ではこの問題を克服するための問題固有の技術がいくつか導入されている。
このフレームワーク内では、行列積演算子(MPO)表現に基づいてハミルトニアンをブロック符号化する手順を示す。
具体的には、すべてのMPOテンソルを次元$D+2$の大きいユニタリでエンコードし、$D = \lceil\log(\chi)\rceil$は、仮想結合次元$\chi$と対数的にスケールするその後に縮約された量子ビットの数である。
ブロック符号化回路を1ビットと2ビットのゲートに分解する計算コストは$\mathcal{O}(L\cdot\chi^2)$である。 Quantum signal processing combined with quantum eigenvalue transformation has recently emerged as a unifying framework for several quantum algorithms. In its standard form, it consists of two separate routines: block encoding, which encodes a Hamiltonian in a larger unitary, and signal processing, which achieves an almost arbitrary polynomial transformation of such a Hamiltonian using rotation gates. The bottleneck of the entire operation is typically constituted by block encoding and, in recent years, several problem-specific techniques have been introduced to overcome this problem. Within this framework, we present a procedure to block-encode a Hamiltonian based on its matrix product operator (MPO) representation. More specifically, we encode every MPO tensor in a larger unitary of dimension $D+2$, where $D = \lceil\log(\chi)\rceil$ is the number of subsequently contracted qubits that scales logarithmically with the virtual bond dimension $\chi$. Given any system of size $L$, our method requires $L+D$ ancillary qubits in total, while the computational cost for the decomposition of the block encoding circuit into one- and two-qubit gates scales as $\mathcal{O}(L\cdot\chi^2)$. | 翻訳日:2023-12-15 22:35:29 公開日:2023-12-14 |
# BVI-Artefact: ストリーミングビデオのアーティファクト検出ベンチマークデータセット BVI-Artefact: An Artefact Detection Benchmark Dataset for Streamed Videos ( http://arxiv.org/abs/2312.08859v1 ) ライセンス: Link先を確認 | Chen Feng, Duolikun Danier, Fan Zhang and David Bull | (参考訳) オンラインでストリーミングされるプロフェッショナル生成コンテンツ(PGC)には、ユーザエクスペリエンスの品質を低下させる視覚的アーティファクトが含まれている。
これらのアーティファクトは、取得、ポストプロダクション、圧縮、送信など、ストリーミングパイプラインのさまざまな段階から発生します。
ストリーミング体験の向上を向上するためには、プリスタン参照がない場合に、ユーザエンドで特定のアーティファクトを検出することが重要である。
本研究では,大規模データベースBVI-Artefactの作成と検証を通じて,ストリームされたPGC内のアーティファクト検出のための包括的なベンチマークの欠如に対処する。
ビデオストリーミングで遭遇する最も関連する10種類のアーティファクトタイプを考慮して,480種類のビデオシーケンスを収集して生成し,それぞれに関連するバイナリアーティファクトラベルを含む。
この新たなデータベースに基づいて,既存のアーティファクト検出手法をベンチマークし,この課題の困難な性質を示し,より信頼性の高いアーティファクト検出手法の必要性を示す。
この分野のさらなる研究を促進するため、我々はBVI-Artifactをhttps://chenfeng-bristol.github.io/BVI-Artefact/で公開しました。 Professionally generated content (PGC) streamed online can contain visual artefacts that degrade the quality of user experience. These artefacts arise from different stages of the streaming pipeline, including acquisition, post-production, compression, and transmission. To better guide streaming experience enhancement, it is important to detect specific artefacts at the user end in the absence of a pristine reference. In this work, we address the lack of a comprehensive benchmark for artefact detection within streamed PGC, via the creation and validation of a large database, BVI-Artefact. Considering the ten most relevant artefact types encountered in video streaming, we collected and generated 480 video sequences, each containing various artefacts with associated binary artefact labels. Based on this new database, existing artefact detection methods are benchmarked, with results showing the challenging nature of this tasks and indicating the requirement of more reliable artefact detection methods. To facilitate further research in this area, we have made BVI-Artifact publicly available at https://chenfeng-bristol.github.io/BVI-Artefact/ | 翻訳日:2023-12-15 22:35:04 公開日:2023-12-14 |
# 同時特徴と画像ガイド融合によるガイド画像復元 Guided Image Restoration via Simultaneous Feature and Image Guided Fusion ( http://arxiv.org/abs/2312.08853v1 ) ライセンス: Link先を確認 | Xinyi Liu, Qian Zhao, Jie Liang, Hui Zeng, Deyu Meng and Lei Zhang | (参考訳) 誘導深度マップやパンシャーピングなどのガイド画像復元(GIR)は、同一シーンの他の画像からの誘導情報を用いて目標画像を強化することを目的としている。
現在、共同イメージフィルタリングにインスパイアされたディープラーニングベースの手法は、桁作業の最先端を表している。
これらの手法は、フィルタリング指向のディープニューラルネットワーク(DNN)モジュールを精巧に設計し、入力の特徴レベルの融合に焦点を当てることでGIRをエンドツーエンドで扱うか、DNNでフィルタリング係数をパラメータ化して画像レベルの融合に取り組んでいる従来のジョイントフィルタリングメカニズムを明示的に利用する。
前者は文脈情報の回復に長けているが、細かな詳細をなくす傾向があり、後者はテキスト情報の保持が良くなるが、内容の歪みにつながる可能性がある。
本研究では,その制約を緩和しながら,両方の手法の利点を継承するために,特徴量と画像ガイド融合(SFIGF)ネットワークを提案し,同時に特徴量と画像レベルの誘導融合を誘導フィルタ(GF)機構に従って検討した。
特徴領域では,クロスアテンション(CA)をGFに接続し,特徴レベル融合を改善するためにGFにインスパイアされたCAモジュールを提案する。
特徴領域と画像領域の両方で誘導融合が実装されているため,提案したSFIGFは,情報源からの文脈情報とテキスト情報を忠実に再構成し,より優れたGIR結果をもたらすことが期待されている。
SFIGFを4つの典型的なGIRタスクに適用し,これらのタスクに関する実験結果から,その有効性と汎用性を示す。 Guided image restoration (GIR), such as guided depth map super-resolution and pan-sharpening, aims to enhance a target image using guidance information from another image of the same scene. Currently, joint image filtering-inspired deep learning-based methods represent the state-of-the-art for GIR tasks. Those methods either deal with GIR in an end-to-end way by elaborately designing filtering-oriented deep neural network (DNN) modules, focusing on the feature-level fusion of inputs; or explicitly making use of the traditional joint filtering mechanism by parameterizing filtering coefficients with DNNs, working on image-level fusion. The former ones are good at recovering contextual information but tend to lose fine-grained details, while the latter ones can better retain textual information but might lead to content distortions. In this work, to inherit the advantages of both methodologies while mitigating their limitations, we proposed a Simultaneous Feature and Image Guided Fusion (SFIGF) network, that simultaneously considers feature and image-level guided fusion following the guided filter (GF) mechanism. In the feature domain, we connect the cross-attention (CA) with GF, and propose a GF-inspired CA module for better feature-level fusion; in the image domain, we fully explore the GF mechanism and design GF-like structure for better image-level fusion. Since guided fusion is implemented in both feature and image domains, the proposed SFIGF is expected to faithfully reconstruct both contextual and textual information from sources and thus lead to better GIR results. We apply SFIGF to 4 typical GIR tasks, and experimental results on these tasks demonstrate its effectiveness and general availability. | 翻訳日:2023-12-15 22:34:41 公開日:2023-12-14 |
# オンデマンド型自律移動システムのための多エージェント深層強化学習におけるグローバル報酬 Global Rewards in Multi-Agent Deep Reinforcement Learning for Autonomous Mobility on Demand Systems ( http://arxiv.org/abs/2312.08884v1 ) ライセンス: Link先を確認 | Heiko Hoppe, Tobias Enders, Quentin Cappart, Maximilian Schiffer | (参考訳) 本研究では,AMoD(Autonomous Mobility on Demand, AMoD)システムにおいて,中央オペレーターが顧客の要求に車両を割り当てたり,その総利益を最大化するためにこれを拒否するシステムについて検討する。
最近のアプローチでは、スケーラブルでパフォーマンスの高いアルゴリズムを実現するためにマルチエージェント深層強化学習(madrl)を使用しているが、ローカル報酬に基づくエージェントを訓練することで、システム全体の利益に関して報酬信号を歪め、パフォーマンスを低下させる。
そこで本研究では,amodシステムにおける車両派遣のためのglobal-rewards-based madrlアルゴリズムを提案する。
提案アルゴリズムは,局所的な報酬を伴う最先端のMADRLアルゴリズムと比較して,実世界の様々な設定における統計的に有意な改善を示す。
さらに,グローバル報酬の活用により,暗黙的な車両バランスと需要予測能力が向上することを示す構造分析を行う。
私たちのコードはhttps://github.com/tumbais/gr-madrl-amodで利用可能です。 We study vehicle dispatching in autonomous mobility on demand (AMoD) systems, where a central operator assigns vehicles to customer requests or rejects these with the aim of maximizing its total profit. Recent approaches use multi-agent deep reinforcement learning (MADRL) to realize scalable yet performant algorithms, but train agents based on local rewards, which distorts the reward signal with respect to the system-wide profit, leading to lower performance. We therefore propose a novel global-rewards-based MADRL algorithm for vehicle dispatching in AMoD systems, which resolves so far existing goal conflicts between the trained agents and the operator by assigning rewards to agents leveraging a counterfactual baseline. Our algorithm shows statistically significant improvements across various settings on real-world data compared to state-of-the-art MADRL algorithms with local rewards. We further provide a structural analysis which shows that the utilization of global rewards can improve implicit vehicle balancing and demand forecasting abilities. Our code is available at https://github.com/tumBAIS/GR-MADRL-AMoD. | 翻訳日:2023-12-15 22:26:08 公開日:2023-12-14 |
# 小欠陥検査のためのインクリメンタル統一フレームワーク An Incremental Unified Framework for Small Defect Inspection ( http://arxiv.org/abs/2312.08917v1 ) ライセンス: Link先を確認 | Jiaqi Tang, Hao Lu, Xiaogang Xu, Ruizheng Wu, Sixing Hu, Tong Zhang, Tsz Wa Cheng, Ming Ge, Ying-Cong Chen and Fugee Tsung | (参考訳) 人工知能(AI)による欠陥検査は工業生産において重要である。
しかし、多くのメソッドは特定のパイプラインに合わせて、さまざまな製品ポートフォリオと進化するプロセスに対応しています。
これに対処するために、我々はインクリメンタル統一フレームワーク(iuf)を紹介し、パイプラインに新しいオブジェクトを継続的に統合するときに、機能衝突の問題を低減し、オブジェクト指向学習シナリオに有利にする。
最先端のトランスフォーマーを用いて、異なるセマンティックバウンダリを規定するために、OASA(Object-Aware Self-Attention)を導入する。
セマンティクス圧縮損失(scl)は、非プライマリ意味空間を最適化するために統合され、新しいオブジェクトのネットワーク適応性が向上する。
さらに、重み更新時に確立したオブジェクトの特徴を保持することを優先する。
画像および画素レベルでの欠陥検査におけるメリットを実証し,最先端の性能を実現し,動的かつスケーラブルな産業検査に不可欠であることを証明した。
私たちのコードはhttps://github.com/jqtangust/iufでリリースされる予定です。 Artificial Intelligence (AI)-driven defect inspection is pivotal in industrial manufacturing. Yet, many methods, tailored to specific pipelines, grapple with diverse product portfolios and evolving processes. Addressing this, we present the Incremental Unified Framework (IUF) that can reduce the feature conflict problem when continuously integrating new objects in the pipeline, making it advantageous in object-incremental learning scenarios. Employing a state-of-the-art transformer, we introduce Object-Aware Self-Attention (OASA) to delineate distinct semantic boundaries. Semantic Compression Loss (SCL) is integrated to optimize non-primary semantic space, enhancing network adaptability for novel objects. Additionally, we prioritize retaining the features of established objects during weight updates. Demonstrating prowess in both image and pixel-level defect inspection, our approach achieves state-of-the-art performance, proving indispensable for dynamic and scalable industrial inspections. Our code will be released at https://github.com/jqtangust/IUF. | 翻訳日:2023-12-15 22:17:36 公開日:2023-12-14 |
# 弱修正セマンティックセグメンテーションの進行的不確実性自己強化 Progressive Uncertain Feature Self-reinforcement for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2312.08916v1 ) ライセンス: Link先を確認 | Jingxuan He, Lechao Cheng, Chaowei Fang, Zunlei Feng, Tingting Mu, Mingli Song | (参考訳) 画素レベルでの従来のセマンティックセグメンテーションと対照的に、画像レベルのラベルを持つWeakly Supervised Semantic Segmentation (WSSS)は、常に最も差別的な領域に焦点を合わせ、完全に監督された条件の相違をもたらす。
典型的な表示はオブジェクト境界における精度の低下であり、WSSSの精度が低下する。
この問題を緩和するために,画像コンテンツを決定論的領域(例えば,自信ある前景と背景)と不確実領域(例えば,オブジェクト境界と誤分類されたカテゴリ)に適応的に分割して処理することを提案する。
不確実な方法として,アクティベーションベースのマスキング戦略を採用し,自己蒸留知識を用いて地域情報を復元する。
さらに、マスクされていない確信領域は、グローバルセマンティクスを維持するのに十分な堅牢性を持つべきであると仮定する。
そこで我々は,これらの自信のある領域と同一のクラスラベルを持つ拡張画像とのセマンティック一貫性を制約する補完的な自己強調手法を提案する。
PASCAL VOC 2012 と MS COCO 2014 で実施された大規模な実験により,WSSS の単一ステージアプローチは,最先端ベンチマークを著しく上回るだけでなく,精度と複雑性を交換する多段階手法を超越していることが示された。
コードはhttps://github.com/jessie459/feature-self-reinforcementにある。 Compared to conventional semantic segmentation with pixel-level supervision, Weakly Supervised Semantic Segmentation (WSSS) with image-level labels poses the challenge that it always focuses on the most discriminative regions, resulting in a disparity between fully supervised conditions. A typical manifestation is the diminished precision on the object boundaries, leading to a deteriorated accuracy of WSSS. To alleviate this issue, we propose to adaptively partition the image content into deterministic regions (e.g., confident foreground and background) and uncertain regions (e.g., object boundaries and misclassified categories) for separate processing. For uncertain cues, we employ an activation-based masking strategy and seek to recover the local information with self-distilled knowledge. We further assume that the unmasked confident regions should be robust enough to preserve the global semantics. Building upon this, we introduce a complementary self-enhancement method that constrains the semantic consistency between these confident regions and an augmented image with the same class labels. Extensive experiments conducted on PASCAL VOC 2012 and MS COCO 2014 demonstrate that our proposed single-stage approach for WSSS not only outperforms state-of-the-art benchmarks remarkably but also surpasses multi-stage methodologies that trade complexity for accuracy. The code can be found at https://github.com/Jessie459/feature-self-reinforcement. | 翻訳日:2023-12-15 22:17:18 公開日:2023-12-14 |
# 順応性心疾患分類のための属性正則型ソフトイントロスペクティブ変分オートエンコーダ Attribute Regularized Soft Introspective Variational Autoencoder for Interpretable Cardiac Disease Classification ( http://arxiv.org/abs/2312.08915v1 ) ライセンス: Link先を確認 | Maxime Di Folco, Cosmin I. Bercea, Julia A. Schnabel | (参考訳) 臨床医が人工知能モデルの理解と信頼を確実にするためには、医療画像の解釈可能性が不可欠である。
本稿では,逆向きに訓練された変分オートエンコーダのフレームワーク内で,潜在空間の属性正規化を組み合わす新しい解釈可能な手法を提案する。
心臓MRIデータセットの比較実験により,変分自己エンコーダ法におけるぼやけた再構成問題に対処し,潜時空間の解釈性を向上させる方法が示された。
さらに, 下流課題の分析により, 正規化潜在空間を用いた心疾患の分類は, 属性正規化次元に大きく依存しており, 使用属性を臨床観察と結びつけることで, 優れた解釈性を示していることが明らかとなった。 Interpretability is essential in medical imaging to ensure that clinicians can comprehend and trust artificial intelligence models. In this paper, we propose a novel interpretable approach that combines attribute regularization of the latent space within the framework of an adversarially trained variational autoencoder. Comparative experiments on a cardiac MRI dataset demonstrate the ability of the proposed method to address blurry reconstruction issues of variational autoencoder methods and improve latent space interpretability. Additionally, our analysis of a downstream task reveals that the classification of cardiac disease using the regularized latent space heavily relies on attribute regularized dimensions, demonstrating great interpretability by connecting the used attributes for prediction with clinical observations. | 翻訳日:2023-12-15 22:16:48 公開日:2023-12-14 |
# CogAgent: GUIエージェントのためのビジュアル言語モデル CogAgent: A Visual Language Model for GUI Agents ( http://arxiv.org/abs/2312.08914v1 ) ライセンス: Link先を確認 | Wenyi Hong, Weihan Wang, Qingsong Lv, Jiazheng Xu, Wenmeng Yu, Junhui Ji, Yan Wang, Zihan Wang, Yuxiao Dong, Ming Ding, Jie Tang | (参考訳) 人々はグラフィカルユーザインタフェース(GUI)、例えばコンピュータやスマートフォンの画面を通じて、デジタルデバイスに膨大な時間を費やしています。
ChatGPTのような大きな言語モデル(LLM)は、電子メールを書くといったタスクを補助するが、GUIを理解したり操作したりするのに苦労するため、自動化レベルを増やす可能性を制限することができる。
本稿では,GUIの理解とナビゲーションに特化した18ビリオンパラメータビジュアル言語モデル(VLM)であるCogAgentを紹介する。
低解像度画像エンコーダと高解像度画像エンコーダの両方を利用することで、CogAgentは1120*1120の解像度で入力をサポートし、小さなページ要素とテキストを認識できる。
一般的なビジュアル言語モデルとして、CogAgentはVQAv2、OK-VQA、Text-VQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet、POPEを含む5つのテキストリッチおよび4つの一般的なVQAベンチマーク上で、最先端を達成している。
CogAgentはスクリーンショットのみを入力として使用し、PCとAndroidのGUIナビゲーションタスク(Mind2WebとAITW)で抽出したHTMLテキストを消費するLLMベースのメソッドよりも優れており、最先端の技術が進歩している。
モデルとコードは \url{https://github.com/thudm/cogvlm} で利用可能である。 People are spending an enormous amount of time on digital devices through graphical user interfaces (GUIs), e.g., computer or smartphone screens. Large language models (LLMs) such as ChatGPT can assist people in tasks like writing emails, but struggle to understand and interact with GUIs, thus limiting their potential to increase automation levels. In this paper, we introduce CogAgent, an 18-billion-parameter visual language model (VLM) specializing in GUI understanding and navigation. By utilizing both low-resolution and high-resolution image encoders, CogAgent supports input at a resolution of 1120*1120, enabling it to recognize tiny page elements and text. As a generalist visual language model, CogAgent achieves the state of the art on five text-rich and four general VQA benchmarks, including VQAv2, OK-VQA, Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet, and POPE. CogAgent, using only screenshots as input, outperforms LLM-based methods that consume extracted HTML text on both PC and Android GUI navigation tasks -- Mind2Web and AITW, advancing the state of the art. The model and codes are available at \url{https://github.com/THUDM/CogVLM}. | 翻訳日:2023-12-15 22:16:33 公開日:2023-12-14 |
# 逆予測マッチングによるデータセット蒸留 Dataset Distillation via Adversarial Prediction Matching ( http://arxiv.org/abs/2312.08912v1 ) ライセンス: Link先を確認 | Mingyang Chen, Bo Huang, Junda Lu, Bing Li, Yi Wang, Minhao Cheng, Wei Wang | (参考訳) データセット蒸留は、小さな凝縮データセットを大きな元のデータセットから合成し、効果を維持するために必要な情報を保持する技術である。
本稿では, 原データからの情報を蒸留版に凝縮するための導管として, 大容量の原データセットと小容量の蒸留データセットでそれぞれ訓練されたモデル間の実データ分布における予測誤差を最小化することを検討する。
この問題を効果的に解決するために, 敵対的枠組みを提案する。
ネスト最適化や長距離勾配展開を含む既存の蒸留法とは対照的に,本手法は単一レベル最適化に依拠している。
これにより、この方法のメモリ効率が保証され、時間とメモリ予算のフレキシブルなトレードオフが提供され、最小限の6.5gbのgpuメモリでimagenet-1kを無効にすることができます。
最適なトレードオフ戦略の下では、2.5$\times$のメモリと5$\times$のランタイムしか必要としない。
実験では,ImageNet-1Kを含む完全オリジナルデータセット上でトレーニングされたモデルのテスト精度の94%を平均して,元の10パーセントのサイズで合成データセットを生成することができる。
さらに, 蒸留したデータセットはクロスアーキテクチャの一般化能力に優れていた。 Dataset distillation is the technique of synthesizing smaller condensed datasets from large original datasets while retaining necessary information to persist the effect. In this paper, we approach the dataset distillation problem from a novel perspective: we regard minimizing the prediction discrepancy on the real data distribution between models, which are respectively trained on the large original dataset and on the small distilled dataset, as a conduit for condensing information from the raw data into the distilled version. An adversarial framework is proposed to solve the problem efficiently. In contrast to existing distillation methods involving nested optimization or long-range gradient unrolling, our approach hinges on single-level optimization. This ensures the memory efficiency of our method and provides a flexible tradeoff between time and memory budgets, allowing us to distil ImageNet-1K using a minimum of only 6.5GB of GPU memory. Under the optimal tradeoff strategy, it requires only 2.5$\times$ less memory and 5$\times$ less runtime compared to the state-of-the-art. Empirically, our method can produce synthetic datasets just 10% the size of the original, yet achieve, on average, 94% of the test accuracy of models trained on the full original datasets including ImageNet-1K, significantly surpassing state-of-the-art. Additionally, extensive tests reveal that our distilled datasets excel in cross-architecture generalization capabilities. | 翻訳日:2023-12-15 22:16:04 公開日:2023-12-14 |
# 視線追跡による中国語話者の言語景観イメージの認識 Using eye tracking to investigate what native Chinese speakers notice about linguistic landscape images ( http://arxiv.org/abs/2312.08906v1 ) ライセンス: Link先を確認 | Zichao Wei, Yewei Qin | (参考訳) 言語学的景観は社会言語学研究において重要な分野である。
視線追跡技術は心理学研究において一般的な技術である。
言語学的景観を研究するために眼球運動を用いる例は少ない。
本稿では,視線追跡技術を用いて言語景観の実際の固定について検討し,固定時間と固定時間という2次元において,中国語母語話者の言語景観への固定が一般的な景観よりも高いことを見出した。
本稿では,この現象は言語景観の情報密度が高いためであると主張する。
同時に、この現象の他の可能性についても論じている。 Linguistic landscape is an important field in sociolinguistic research. Eye tracking technology is a common technology in psychological research. There are few cases of using eye movement to study linguistic landscape. This paper uses eye tracking technology to study the actual fixation of the linguistic landscape and finds that in the two dimensions of fixation time and fixation times, the fixation of native Chinese speakers to the linguistic landscape is higher than that of the general landscape. This paper argues that this phenomenon is due to the higher information density of linguistic landscapes. At the same time, the article also discusses other possible reasons for this phenomenon. | 翻訳日:2023-12-15 22:15:41 公開日:2023-12-14 |
# LLM推論の強化:強化インコンテキストプルーニングによるFew-shot Learningの限界を押し上げる Boosting LLM Reasoning: Push the Limits of Few-shot Learning with Reinforced In-Context Pruning ( http://arxiv.org/abs/2312.08901v1 ) ライセンス: Link先を確認 | Xijie Huang, Li Lyna Zhang, Kwang-Ting Cheng, Mao Yang | (参考訳) 大きな言語モデル(LLM)は、様々なタスクにおいて印象的な能力を示しているが、それでも数学の推論に苦戦している。
CoT(Chain-of-Thoughts)のプロンプトと微調整LDMを最適化する努力にもかかわらず、数発の学習の可能性はまだ明らかになっていない。
本研究では,数ショットのCoT学習の境界を推し進める新しい手法であるCoT-Maxを提案する。
CoT-Maxは、コンテキストウィンドウの長さが制限されているため、有用な例の選択と限られたサンプル数の選択の課題に対処する。
自然言語入力には多くの冗長性が含まれているという観測に触発されて,llmsのプラグアンドプレイモジュールとして粗いprunerを提案する。
プルーナーを訓練するために,多種多様な難易度とステップを持つ算数推論データセットを収集し,算数推論とトークン長制約に対する入力の有効性を計測する報奨を導入し,強化学習を用いた新しい学習手法を提案する。
その結果、CoT-MaxはCoTを著しく上回り、様々なLLM(LLaMA2-7B、13B、70B)と5つの数学的データセットをベースラインとして最大4.55%の改善を実現している。
注目すべきは、微調整なしでは、CoT-Maxを搭載したLLaMA2-70BはGPT-3.5を超え、GSM8K上の幅広いLLM(PaLM、Minervaなど)をはるかに上回っていることである。 Large language models (LLMs) have shown impressive capabilities in various tasks, yet they still struggle with math reasoning. Despite efforts to optimize Chain-of-Thoughts (CoT) prompts and fine-tune LLMs, the potential of few-shot learning remains unexplored. In this work, we propose CoT-Max, a novel approach pushing the boundaries of few-shot CoT learning to improve LLM math reasoning capabilities. CoT-Max addresses the challenges of the selection of useful examples and limited number of examples due to restricted context window length. Inspired by our observation that natural language inputs contain many redundancy, we propose a coarse-to-fine pruner as a plug-and-play module for LLMs, which first identifies crucial CoT examples from a large batch and then further prunes unimportant tokens. To train the pruner, we collect a math reasoning dataset with diverse difficulty and steps, introduce a reward to measure both the input's effectiveness for math reasoning and token length constraints, and propose a novel training approach with reinforcement learning. As a result, CoT-Max significantly outperforms CoT and few-shot prompting baselines across various LLMs (LLaMA2-7B, 13B, 70B) and 5 mathematical datasets, achieving up to 4.55% absolute improvements. Remarkably, without any fine-tuning, LLaMA2-70B with CoT-Max surpasses GPT-3.5 and a wide range of larger LLMs (PaLM, Minerva, etc.) on the GSM8K. | 翻訳日:2023-12-15 22:15:31 公開日:2023-12-14 |
# Context-PEFT: 効率的なマルチモーダル・マルチタスクファインチューニング Context-PEFT: Efficient Multi-Modal, Multi-Task Fine-Tuning ( http://arxiv.org/abs/2312.08900v1 ) ライセンス: Link先を確認 | Avelina Asada Hadji-Kyriacou, Ognjen Arandjelovic | (参考訳) 本稿では,事前学習型言語モデルを用いたマルチモーダル・マルチタスク変換学習のためのパラメータ・効率的なファインチューニング(PEFT)フレームワークを提案する。
LoRA、BitFit、IA3といったPEFT技術は、トレーニング可能なパラメータを著しく少なくし、GPUメモリ消費を削減しながら、特定の下流タスクのためにトレーニング済みモデルの完全な微調整に匹敵する性能を示している。
しかし、マルチモーダル微調整の文脈では、アーキテクチャの変更や完全な微調整の必要性がしばしば明らかになる。
そこで我々は,トークンのドメインに基づいて適応パラメータの異なるグループを学習するcontext-peftを提案する。
このアプローチにより、追加のアーキテクチャ変更を必要とせずに、LoRAライクな重量注入が可能になる。
提案手法はCOCOキャプションタスクで評価され,データ制約下での完全微調整よりも優れ,パラメータ効率が向上し,計算経済性も向上する。 This paper introduces a novel Parameter-Efficient Fine-Tuning (PEFT) framework for multi-modal, multi-task transfer learning with pre-trained language models. PEFT techniques such as LoRA, BitFit and IA3 have demonstrated comparable performance to full fine-tuning of pre-trained models for specific downstream tasks, all while demanding significantly fewer trainable parameters and reduced GPU memory consumption. However, in the context of multi-modal fine-tuning, the need for architectural modifications or full fine-tuning often becomes apparent. To address this we propose Context-PEFT, which learns different groups of adaptor parameters based on the token's domain. This approach enables LoRA-like weight injection without requiring additional architectural changes. Our method is evaluated on the COCO captioning task, where it outperforms full fine-tuning under similar data constraints while simultaneously offering a substantially more parameter-efficient and computationally economical solution. | 翻訳日:2023-12-15 22:14:37 公開日:2023-12-14 |
# 未知例の検出と防御 Detection and Defense of Unlearnable Examples ( http://arxiv.org/abs/2312.08898v1 ) ライセンス: Link先を確認 | Yifan Zhu and Lijia Yu and Xiao-Shan Gao | (参考訳) ソーシャルメディアの出現に伴い、プライバシー保護はますます重要になっている。
ディープラーニングモデルの一般化能力を低下させることにより、インターネット上の個人情報の漏洩を避けるために、未学習例が提案されている。
しかし,本研究では,見当たらない例が容易に検出可能であることを明らかにする。
我々は,ある既知の有毒データセットの線形分離性に関する理論的結果と,既存の既知の例をすべて識別可能な単純なネットワークベース検出手法を提案する。
単純なネットワークを用いた理解不能な例の検出性は,新たな防御手法の設計を動機付ける。
そこで本研究では,単純なネットワークで発生する敵対的雑音とより強固なデータ拡張を組み合わせることで,検出性を低下させ,より低コストで学習不能な例に対する効果的な防御を実現することを提案する。
大きな予算を持つ敵の訓練は、学習不可能な例に対する広く使われている防衛方法である。
本研究は, 強靭な無防備な事例の存在や, 敵防衛の失敗を判断する, 毒と敵の予算の量的基準を確立する。 Privacy preserving has become increasingly critical with the emergence of social media. Unlearnable examples have been proposed to avoid leaking personal information on the Internet by degrading generalization abilities of deep learning models. However, our study reveals that unlearnable examples are easily detectable. We provide theoretical results on linear separability of certain unlearnable poisoned dataset and simple network based detection methods that can identify all existing unlearnable examples, as demonstrated by extensive experiments. Detectability of unlearnable examples with simple networks motivates us to design a novel defense method. We propose using stronger data augmentations coupled with adversarial noises generated by simple networks, to degrade the detectability and thus provide effective defense against unlearnable examples with a lower cost. Adversarial training with large budgets is a widely-used defense method on unlearnable examples. We establish quantitative criteria between the poison and adversarial budgets which determine the existence of robust unlearnable examples or the failure of the adversarial defense. | 翻訳日:2023-12-15 22:14:09 公開日:2023-12-14 |
# ヒトの運動合成と編集のための運動フローマッチング Motion Flow Matching for Human Motion Synthesis and Editing ( http://arxiv.org/abs/2312.08895v1 ) ライセンス: Link先を確認 | Vincent Tao Hu, Wenzhe Yin, Pingchuan Ma, Yunlu Chen, Basura Fernando, Yuki M Asano, Efstratios Gavves, Pascal Mettes, Bjorn Ommer, Cees G. M. Snoek | (参考訳) 人間の動作合成はコンピュータアニメーションの基本課題である。
近年の拡散モデルやGPT構造に基づく手法は, 高い性能を示すが, サンプリング速度の遅さと誤差蓄積の欠点を示す。
本稿では,効率的なサンプリングと効率性を備えた人体動作生成のための新しい生成モデルである「emph{Motion Flow Matching}」を提案する。
提案手法は,従来の拡散モデルの1000ステップからわずか10ステップまでのサンプリング複雑性を低減し,テキスト・トゥ・モーションおよびアクション・トゥ・モーション生成ベンチマークで同等の性能を実現する。
我々のアプローチは、KIT-MLデータセット上に新しい最先端のFr'echet Inception Distanceを確立する。
さらに, 動き予測, 動き内予測, 動き補間, 上半身編集などの様々な編集シナリオに適用し, ODEスタイルの生成モデルを利用した簡単な動作編集パラダイムである「emph{sampling trajectory rewriting」を調整する。
私たちのコードはリリースされます。 Human motion synthesis is a fundamental task in computer animation. Recent methods based on diffusion models or GPT structure demonstrate commendable performance but exhibit drawbacks in terms of slow sampling speeds and error accumulation. In this paper, we propose \emph{Motion Flow Matching}, a novel generative model designed for human motion generation featuring efficient sampling and effectiveness in motion editing applications. Our method reduces the sampling complexity from thousand steps in previous diffusion models to just ten steps, while achieving comparable performance in text-to-motion and action-to-motion generation benchmarks. Noticeably, our approach establishes a new state-of-the-art Fr\'echet Inception Distance on the KIT-ML dataset. What is more, we tailor a straightforward motion editing paradigm named \emph{sampling trajectory rewriting} leveraging the ODE-style generative models and apply it to various editing scenarios including motion prediction, motion in-between prediction, motion interpolation, and upper-body editing. Our code will be released. | 翻訳日:2023-12-15 22:13:44 公開日:2023-12-14 |
# harood:短距離fmcwレーダによる行動分類と分布検出 HAROOD: Human Activity Classification and Out-of-Distribution Detection with Short-Range FMCW Radar ( http://arxiv.org/abs/2312.08894v1 ) ライセンス: Link先を確認 | Sabri Mustafa Kahya, Muhammet Sami Yavuz, Eckehard Steinbach | (参考訳) 短距離FMCWレーダを用いた人間活動分類器とアウト・オブ・ディストリビューション(OOD)検出器としてHAROODを提案する。
人間の立位、立位、歩行活動を分類し、OODとして他の移動物体や静止物体を検出することを目的としている。
2段階ネットワークを導入する。
第1段階は、中間再構成損失、中間コントラスト損失、三重項損失を含む新規な損失関数で訓練される。
第2段階は第1段階の出力を入力として使用し、クロスエントロピー損失で訓練される。
アクティビティ分類を実行する単純な分類器を生成する。
60GHz短距離FMCWレーダーで収集したデータセットでは、平均的な分類精度は96.51%である。
また、OOD検出器として平均95.04%のAUROCを達成する。
さらに, 標準のood検出指標を用いて, 最先端のood検出法よりもharoodが優れていることを示す。 We propose HAROOD as a short-range FMCW radar-based human activity classifier and out-of-distribution (OOD) detector. It aims to classify human sitting, standing, and walking activities and to detect any other moving or stationary object as OOD. We introduce a two-stage network. The first stage is trained with a novel loss function that includes intermediate reconstruction loss, intermediate contrastive loss, and triplet loss. The second stage uses the first stage's output as its input and is trained with cross-entropy loss. It creates a simple classifier that performs the activity classification. On our dataset collected by 60 GHz short-range FMCW radar, we achieve an average classification accuracy of 96.51%. Also, we achieve an average AUROC of 95.04% as an OOD detector. Additionally, our extensive evaluations demonstrate the superiority of HAROOD over the state-of-the-art OOD detection methods in terms of standard OOD detection metrics. | 翻訳日:2023-12-15 22:12:52 公開日:2023-12-14 |
# プレコンディショニングより高速な高密度線形システムの解法 Solving Dense Linear Systems Faster than via Preconditioning ( http://arxiv.org/abs/2312.08893v1 ) ライセンス: Link先を確認 | Micha{\l} Derezi\'nski and Jiaming Yang | (参考訳) n\times n$ 実数値線形系 $ax=b$ を解く確率的最適化アルゴリズムを与え、$\tilde x$ を返すと、$\|a\tilde x-b\|\leq \epsilon\|b\|$ in time: $$\tilde o((n^2+nk^{\omega-1})\log1/\epsilon)$$k$ は$a$ の特異値の数である。
k=o(n^{1-\theta})$(すなわち、$a$は、ノイズデータや正規化のため、フラットテールのスペクトルを持つ)の場合、システムを直接解決するコストと、共役勾配のような反復的手法を事前に調整するコストの両方を改善する。
特に、我々のアルゴリズムは$k=O(n^{0.729})$のときに$\tilde O(n^2)$ランタイムを持つ。
さらに、この結果はスパース正半定行列と最小二乗回帰に適応する。
主アルゴリズムはランダムなブロック座標降下法とみなすことができ、そこで鍵となる課題は、良い収束と高速な解定時間を確保することである。
本解析では,基本対称多項式に対するメジャー化の理論を用いて,座標ブロックを行列点過程を用いてサンプリングした場合の鋭い収束保証を確立する。
次に、マルコフ連鎖結合論を用いて、より安価なサンプリング方式で類似の収束が達成できることを示し、行列スケッチによるブロック座標降下更新を高速化する。 We give a stochastic optimization algorithm that solves a dense $n\times n$ real-valued linear system $Ax=b$, returning $\tilde x$ such that $\|A\tilde x-b\|\leq \epsilon\|b\|$ in time: $$\tilde O((n^2+nk^{\omega-1})\log1/\epsilon),$$ where $k$ is the number of singular values of $A$ larger than $O(1)$ times its smallest positive singular value, $\omega < 2.372$ is the matrix multiplication exponent, and $\tilde O$ hides a poly-logarithmic in $n$ factor. When $k=O(n^{1-\theta})$ (namely, $A$ has a flat-tailed spectrum, e.g., due to noisy data or regularization), this improves on both the cost of solving the system directly, as well as on the cost of preconditioning an iterative method such as conjugate gradient. In particular, our algorithm has an $\tilde O(n^2)$ runtime when $k=O(n^{0.729})$. We further adapt this result to sparse positive semidefinite matrices and least squares regression. Our main algorithm can be viewed as a randomized block coordinate descent method, where the key challenge is simultaneously ensuring good convergence and fast per-iteration time. In our analysis, we use theory of majorization for elementary symmetric polynomials to establish a sharp convergence guarantee when coordinate blocks are sampled using a determinantal point process. We then use a Markov chain coupling argument to show that similar convergence can be attained with a cheaper sampling scheme, and accelerate the block coordinate descent update via matrix sketching. | 翻訳日:2023-12-15 22:12:29 公開日:2023-12-14 |
# VaLID:新しいビュー合成のための可変長入力拡散 VaLID: Variable-Length Input Diffusion for Novel View Synthesis ( http://arxiv.org/abs/2312.08892v1 ) ライセンス: Link先を確認 | Shijie Li, Farhad G. Zanjani, Haitam Ben Yahia, Yuki M. Asano, Juergen Gall, Amirhossein Habibian | (参考訳) 対象の視点と対応するポーズでリアルな画像を生成しようとする新しいビュー合成(nvs)は、3次元視覚における根本的な問題である。
このタスクは過度に訓練されていないため、zero123のような最近の研究は、特に事前訓練された拡散モデルを用いて生成的モデリングによってこの問題を解決しようとする。
この戦略は、ニューラルラディアンス場に基づく手法と比較して、新しいシーンによく当てはまるが、柔軟性は低い。
例えば、複数の入力画像を提供する現実的なアプリケーションにもかかわらず、シングルビューイメージのみを入力として受け入れることができる。
これは、ソースビュー画像と対応するポーズが別々に処理され、異なる段階でモデルに注入されるためである。
したがって、モデルが利用可能になったら、モデルをマルチビューソースイメージに一般化することは簡単ではない。
この問題を解決するために、各ポーズ画像ペアを別々に処理し、それらを統一された視覚表現として融合させ、モデルに注入してターゲットビューで画像合成を誘導する。
しかし、入力元ビュー画像の数が増えるにつれて、矛盾や計算コストが増大する。
これらの問題を解決するために,可変長入力データを固定サイズ出力データにマップするマルチビュークロスプレジデントモジュールを提案する。
2段階のトレーニング戦略を導入し、トレーニング時間の効率をさらに向上させる。
複数のデータセットに対する定性的,定量的な評価は,提案手法の有効性を示す。
コードは受け入れに応じてリリースされます。 Novel View Synthesis (NVS), which tries to produce a realistic image at the target view given source view images and their corresponding poses, is a fundamental problem in 3D Vision. As this task is heavily under-constrained, some recent work, like Zero123, tries to solve this problem with generative modeling, specifically using pre-trained diffusion models. Although this strategy generalizes well to new scenes, compared to neural radiance field-based methods, it offers low levels of flexibility. For example, it can only accept a single-view image as input, despite realistic applications often offering multiple input images. This is because the source-view images and corresponding poses are processed separately and injected into the model at different stages. Thus it is not trivial to generalize the model into multi-view source images, once they are available. To solve this issue, we try to process each pose image pair separately and then fuse them as a unified visual representation which will be injected into the model to guide image synthesis at the target-views. However, inconsistency and computation costs increase as the number of input source-view images increases. To solve these issues, the Multi-view Cross Former module is proposed which maps variable-length input data to fix-size output data. A two-stage training strategy is introduced to further improve the efficiency during training time. Qualitative and quantitative evaluation over multiple datasets demonstrates the effectiveness of the proposed method against previous approaches. The code will be released according to the acceptance. | 翻訳日:2023-12-15 22:11:46 公開日:2023-12-14 |
# 大規模制約による高次元ベイズ最適化 -エアロ弾性テーラーへの応用- High-Dimensional Bayesian Optimisation with Large-Scale Constraints -- An Application to Aeroelastic Tailoring ( http://arxiv.org/abs/2312.08891v1 ) ライセンス: Link先を確認 | Hauke Maathuis, Roeland De Breuker, Saullo G. P. Castro | (参考訳) 設計の最適化は、環境影響の少ない軽量航空機構造につながる可能性がある。
設計変数や制約の多さから、これらの問題はグラデーションベースの最適化手法で通常解かれ、グローバル空間が無視されている間に設計空間の局所解が導かれる。
ベイズ最適化は確率的サロゲートモデルに基づくサンプル効率のよいグローバル最適化への有望な道である。
ベイズ最適化法は設計変数の少ない問題に対して強みを示してきたが、大規模制約を組み込んだ高次元問題へのスケーラビリティはまだ不足している。
特に, 航空機の構造設計に指向性剛性特性を具現化し, 空気弾性変形を制御し, 空力・構造性能を向上させる場合, 異なる解析分野の制約を伴って, システムの安全運転を確保する必要がある。
したがって、グローバルなデザイン空間の探索はさらに困難になる。
本研究では,高次元ベイズ最適化と次元還元法を併用してエアロ弾性調整における最適問題の解法を試み,大規模制約を伴う高次元問題に対する新しいアプローチを提案する。
ブラックボックス制約のあるよく知られたベンチマークケースの実験は、提案手法が大規模制約を組み込むことができることを示している。 Design optimisation potentially leads to lightweight aircraft structures with lower environmental impact. Due to the high number of design variables and constraints, these problems are ordinarily solved using gradient-based optimisation methods, leading to a local solution in the design space while the global space is neglected. Bayesian Optimisation is a promising path towards sample-efficient, global optimisation based on probabilistic surrogate models. While Bayesian optimisation methods have demonstrated their strength for problems with a low number of design variables, the scalability to high-dimensional problems while incorporating large-scale constraints is still lacking. Especially in aeroelastic tailoring where directional stiffness properties are embodied into the structural design of aircraft, to control aeroelastic deformations and to increase the aerodynamic and structural performance, the safe operation of the system needs to be ensured by involving constraints resulting from different analysis disciplines. Hence, a global design space search becomes even more challenging. The present study attempts to tackle the problem by using high-dimensional Bayesian Optimisation in combination with a dimensionality reduction approach to solve the optimisation problem occurring in aeroelastic tailoring, presenting a novel approach for high-dimensional problems with large-scale constraints. Experiments on well-known benchmark cases with black-box constraints show that the proposed approach can incorporate large-scale constraints. | 翻訳日:2023-12-15 22:11:23 公開日:2023-12-14 |
# UCMCTrack: 一様カメラモーション補償による多目的追跡 UCMCTrack: Multi-Object Tracking with Uniform Camera Motion Compensation ( http://arxiv.org/abs/2312.08952v1 ) ライセンス: Link先を確認 | Kefu Yi, Kai Luo, Xiaolei Luo, Jiangui Huang, Hao Wu, Rongdong Hu, Wei Hao | (参考訳) ビデオシーケンスにおけるマルチオブジェクトトラッキング(MOT)は、特にカメラの動きが著しいシナリオにおいて、依然として困難な課題である。
これは、ターゲットが画像平面上でかなりドリフトし、誤った追跡結果につながるためである。
このような課題に対処するには、通常補足的な外観の手がかりまたはカメラモーション補償(CMC)が必要である。
これらの戦略は有効であるが、リアルタイムMOTの課題を提起する、かなりの計算負担も伴う。
そこで,本研究では,カメラの動きにロバストな新しいモーションモデルベースのトラッカーucmctrackを提案する。
フレーム単位で補償パラメータを計算する従来のCMCとは異なり、UCMCTrackはビデオシーケンスを通して同じ補償パラメータを一貫して適用する。
基底平面上のカルマンフィルタを使用し、伝統的な結合距離測度(iou)の代替としてマッピングされたマハラノビス距離(mmd)を導入する。
提案手法は, 平面上の予測された確率分布を利用して, 動きパターンを効率的に捕捉し, ホモグラフィー投影による不確かさを適切に管理する。
注目すべきなのは、UCMCTrackはモーションキューのみに依存しており、MOT17、MOT20、DanceTrack、KITTIなど、さまざまな課題のあるデータセットに対して、単一のCPU上で1,000FPSを超える例外的な速度で、最先端のパフォーマンスを実現していることだ。
詳細とコードはhttps://github.com/corfyi/UCMCTrackで確認できる。 Multi-object tracking (MOT) in video sequences remains a challenging task, especially in scenarios with significant camera movements. This is because targets can drift considerably on the image plane, leading to erroneous tracking outcomes. Addressing such challenges typically requires supplementary appearance cues or Camera Motion Compensation (CMC). While these strategies are effective, they also introduce a considerable computational burden, posing challenges for real-time MOT. In response to this, we introduce UCMCTrack, a novel motion model-based tracker robust to camera movements. Unlike conventional CMC that computes compensation parameters frame-by-frame, UCMCTrack consistently applies the same compensation parameters throughout a video sequence. It employs a Kalman filter on the ground plane and introduces the Mapped Mahalanobis Distance (MMD) as an alternative to the traditional Intersection over Union (IoU) distance measure. By leveraging projected probability distributions on the ground plane, our approach efficiently captures motion patterns and adeptly manages uncertainties introduced by homography projections. Remarkably, UCMCTrack, relying solely on motion cues, achieves state-of-the-art performance across a variety of challenging datasets, including MOT17, MOT20, DanceTrack and KITTI, with an exceptional speed of over 1000 FPS on a single CPU. More details and code are available at https://github.com/corfyi/UCMCTrack | 翻訳日:2023-12-15 22:04:36 公開日:2023-12-14 |
# 複数物体追跡のための複合ノードを用いた多段一般化軌道グラフ解法 Multi-Scene Generalized Trajectory Global Graph Solver with Composite Nodes for Multiple Object Tracking ( http://arxiv.org/abs/2312.08951v1 ) ライセンス: Link先を確認 | Yan Gao, Haojun Xu, Nannan Wang, Jie Li, Xinbo Gao | (参考訳) global multi-object tracking (mot) システムは、長いビデオで効果的なオブジェクト追跡を確保するために、インタラクション、オクルージョン、その他の 'visual blur'' シナリオを考慮できる。
中でもグラフベースのトラッキング・バイ・検出パラダイムは驚くべきパフォーマンスを実現している。
しかし、その完全接続性は、長いビデオを扱うアルゴリズムに挑戦するストレージ空間要件をもたらす。
現在、一般的に使用される手法は、フレームにまたがって一方向の関連を構築することによって、まだ生成される軌道である。
一階類似情報の指導のもとに作成されたこのようなマッチは、長期的な観点からは最適ではない。
さらに、それらはしばしばミスマッチを修正するエンドツーエンドのスキームを欠いている。
本稿では,超長フレーム情報を関連付けるためのマルチシーン汎用フレームワークである複合ノードメッセージパッシングネットワーク(CoNo-Link)を提案する。
CoNo-Linkのソリューションは制約付き連結グラフを構築するための低ストレージオーバーヘッド手法である。
オブジェクトをノードとして扱う従来の方法に加えて、情報インタラクションのためのノードとしてオブジェクトトラジェクトリを革新的に扱うことにより、グラフニューラルネットワークの特徴表現能力が改善されている。
具体的には、いくつかの信頼できるオブジェクトや軌跡に対するトップk選択タスクとしてグラフ構築問題を定式化する。
我々のモデルは複合ノードを追加することで、より長いスケールでより良い予測を学べる。
その結果,本手法はいくつかの一般的なデータセットにおいて最先端の手法よりも優れていた。 The global multi-object tracking (MOT) system can consider interaction, occlusion, and other ``visual blur'' scenarios to ensure effective object tracking in long videos. Among them, graph-based tracking-by-detection paradigms achieve surprising performance. However, their fully-connected nature poses storage space requirements that challenge algorithm handling long videos. Currently, commonly used methods are still generated trajectories by building one-forward associations across frames. Such matches produced under the guidance of first-order similarity information may not be optimal from a longer-time perspective. Moreover, they often lack an end-to-end scheme for correcting mismatches. This paper proposes the Composite Node Message Passing Network (CoNo-Link), a multi-scene generalized framework for modeling ultra-long frames information for association. CoNo-Link's solution is a low-storage overhead method for building constrained connected graphs. In addition to the previous method of treating objects as nodes, the network innovatively treats object trajectories as nodes for information interaction, improving the graph neural network's feature representation capability. Specifically, we formulate the graph-building problem as a top-k selection task for some reliable objects or trajectories. Our model can learn better predictions on longer-time scales by adding composite nodes. As a result, our method outperforms the state-of-the-art in several commonly used datasets. | 翻訳日:2023-12-15 22:04:14 公開日:2023-12-14 |
# 英国道路における車両型死亡者のlstmネットワーク解析 LSTM Network Analysis of Vehicle-Type Fatalities on Great Britain's Roads ( http://arxiv.org/abs/2312.08948v1 ) ライセンス: Link先を確認 | Abiodun Finbarrs Oketunji, James Hanify, Salter Heffron-Smith | (参考訳) 本研究は、長期短期記憶(lstm)ネットワークの予測能力を利用して、イギリスにおける交通事故の分析と予測を行う。
効果的な予防策を考案する上で最重要となる交通事故予測の課題に対処している。
運輸省(DfT)が1926年から2022年まで実施した事故,損害,車両の関与に関する広範なデータセットを利用した。
データは、欠落した値を修正し、特徴を正規化し、堅牢なLSTMネットワーク入力を保証するために、厳密な処理が行われた。 This study harnesses the predictive capabilities of Long Short-Term Memory (LSTM) networks to analyse and predict road traffic accidents in Great Britain. It addresses the challenge of traffic accident forecasting, which is paramount for devising effective preventive measures. We utilised an extensive dataset encompassing reported collisions, casualties, and vehicles involvements from 1926 to 2022, provided by the Department for Transport (DfT). The data underwent stringent processing to rectify missing values and normalise features, ensuring robust LSTM network input. | 翻訳日:2023-12-15 22:03:56 公開日:2023-12-14 |
# プロキシとダイヤモンドパターンのガスコスト分析:evmブロックチェーンにおける信頼できるスマートコントラクトエンジニアリングに向けて Gas Cost Analysis of Proxy and Diamond Patterns: Towards Trusted Smart Contract Engineering in EVM Blockchains ( http://arxiv.org/abs/2312.08945v1 ) ライセンス: Link先を確認 | Benedetti Anto, Henry Tiphaine, Tucci-Piergiovanni Sara | (参考訳) ブロックチェーンアプリケーションは急速に進化し、アップグレード可能なスマートコントラクトを統合する必要がある。
アップグレード可能なスマートコントラクトのベストプラクティスを要約するソフトウェアパターンが提案されている。
しかし、これらのアップグレード可能なスマートコントラクトパターンの比較、特に展開と実行に関連するガスコストについての研究が欠けている。
本研究の目的は,アップグレード可能なスマートコントラクトパターンであるプロキシとダイヤモンドパターンの2つに関連するガスコストの詳細な分析を行うことである。
Proxyパターンはロジックコントラクトを指すProxyを使用し、ダイアモンドパターンは、Proxyが複数のロジックコントラクトを指すことを可能にする。
従来の非アップグレード型スマートコントラクトとは対照的に,両パターンのガスコストの比較分析を行う。
この分析から、2つの統合ブロックチェーンパターンと対応する決定モデルという形での理論的な貢献を得た。
そうすることで、アップグレード可能なスマートコントラクトパターンのより広範な理解に貢献したいと考えています。 Blockchain applications are witnessing rapid evolution, necessitating the integration of upgradeable smart contracts. Software patterns have been proposed to summarize upgradeable smart contract best practices. However, research is missing on the comparison of these upgradeable smart contract patterns, especially regarding gas costs related to deployment and execution. This study aims to provide an in-depth analysis of gas costs associated with two prevalent upgradeable smart contract patterns: the Proxy and diamond patterns. The Proxy pattern utilizes a Proxy pointing to a logic contract, while the diamond pattern enables a Proxy to point to multiple logic contracts. We conduct a comparative analysis of gas costs for both patterns in contrast to a traditional non-upgradeable smart contract. We derive from this analysis a theoretical contribution in the form of two consolidated blockchain patterns and a corresponding decision model. By so doing we hope to contribute to the broader understanding of upgradeable smart contract patterns. | 翻訳日:2023-12-15 22:03:45 公開日:2023-12-14 |
# 次は何だ?
ベクトル場の離散観測によるハミルトンダイナミクスの予測 What's Next? Predicting Hamiltonian Dynamics from Discrete Observations of a Vector Field ( http://arxiv.org/abs/2312.08944v1 ) ライセンス: Link先を確認 | Zi-Yu Khoo, Delong Zhang, St\'ephane Bressan | (参考訳) ベクトル場の離散的観測からハミルトニアン系のダイナミクスを予測するいくつかの方法を提案する。
各メソッドは、ハミルトニアンプロパティのインフォームドまたはアンフォームのいずれかである。
提案手法を実証的かつ相対的に評価し,システムがハミルトニアンであるという情報を効果的に把握し,異なる手法が異なる力学系に対する効率性と有効性の間のトレードオフを犯すことを観察する。 We present several methods for predicting the dynamics of Hamiltonian systems from discrete observations of their vector field. Each method is either informed or uninformed of the Hamiltonian property. We empirically and comparatively evaluate the methods and observe that information that the system is Hamiltonian can be effectively informed, and that different methods strike different trade-offs between efficiency and effectiveness for different dynamical systems. | 翻訳日:2023-12-15 22:03:32 公開日:2023-12-14 |
# 高調波発生による電子相関誘起光非古典性 Electron-correlation induced nonclassicallity of light from high-harmonic generation ( http://arxiv.org/abs/2312.08942v1 ) ライセンス: Link先を確認 | Christian Saugbjerg Lange, Thomas Hansen, Lars Bojer Madsen | (参考訳) 高調波発生(HHG)から放射される光の量子状態に及ぼす電子-電子相関の影響について検討する。
発光された光の量子状態は、光学モードと電子系の両方の完全な量子力学的記述を用いて得られる。
これは、電子標的系を量子的にのみ扱うHHGの通常の半古典的記述とは異なる。
一般のフェルミ・ハバードモデルを用いて、電子-電子相関の強さをパラメータとして扱うことができ、完全に非相関な相と相関的なモット絶縁相の2つの制限ケースを調べることができる。
完全に無相関なフェーズでは、このモデルは、バンド内電流のみがスペクトルに寄与するシングルバンドタイト結合モデルに還元される。
この極限では、放射された光が古典的なコヒーレント状態にあることを解析的に見つける。
モット絶縁相では、光子統計と放出されたフォトニック状態のスクイーズを考慮すると、ハバードサブバンド間電流が非古典光を生成することを示している。
この意味では、電子-電子相関が光の非古典状態の発生を誘導できることを示す。 We study the effect of electron-electron correlations on the quantum state of the light emitted from high-harmonic generation (HHG). The quantum state of the emitted light is obtained by using a fully quantum mechanical description of both the optical modes as well as the electronic system. This is different from the usual semiclassical description of HHG, which only treats the electronic target system quantum mechanically. Using the generic Fermi-Hubbard model, the strength of the electron-electron correlation can be treated as a parameter enabling us to investigate the two limiting cases of a completely uncorrelated phase and a correlated Mott-insulating phase. In the completely uncorrelated phase, the model reduces to a single-band tight-binding model in which only intraband currents contribute to the spectrum. In this limit, we analytically find that the emitted light is in a classical coherent state. In the Mott-insulating phase, a consideration of the photon statistics and squeezing of the emitted photonic state shows that the inter-Hubbard-subband current generates nonclassical light. In this sense, we show that electron-electron correlation can induce the generation of nonclassical states of light. | 翻訳日:2023-12-15 22:03:23 公開日:2023-12-14 |
# EAT: 長期のアウト・オブ・ディストリビューション検出に向けて EAT: Towards Long-Tailed Out-of-Distribution Detection ( http://arxiv.org/abs/2312.08939v1 ) ライセンス: Link先を確認 | Tong Wei, Bo-Lin Wang, Min-Ling Zhang | (参考訳) 最近のout-of-distribution(ood)検出の進歩にもかかわらず、現在のほとんどの研究は、クラス均衡な分散内トレーニングデータセットを想定している。
本稿では,長い尾を持つOOD検出の課題に対処し,分布内データが長い尾を持つクラス分布に従う。
主な課題は、OOD インスタンスを検出する分類器の能力は、その分布内クラスにおける精度と強く相関しないため、尾クラスに属するサンプルと OOD データを区別することである。
この問題を克服するために,(1)複数のアブステンションクラスを導入することで分散クラス空間を拡大する,という2つの簡単なアイデアを提案する。
このアプローチにより,仮想ラベルを用いたOODデータのトレーニングにより,明確な決定境界を持つ検出器を構築することができる。
2)コンテキストリッチなOODデータに画像をオーバーレイすることで、コンテキスト制限付きテールクラスを拡大する。
この手法はモデルにテールクラスの識別的特徴にもっと注意を払うように促す。
勾配雑音を解析し, 分布とoodデータを分離する手掛かりを提供する。
広範な実験により,本手法は様々なベンチマークデータセットにおいて,最先端の手法よりも優れていることを示す。
さらに,本手法は,既存のロングテール学習手法のアドオンとして使用できるため,ood検出性能が大幅に向上する。
コードは、https://github.com/Stomach-ache/Long-Tailed-OOD-Detectionで入手できる。 Despite recent advancements in out-of-distribution (OOD) detection, most current studies assume a class-balanced in-distribution training dataset, which is rarely the case in real-world scenarios. This paper addresses the challenging task of long-tailed OOD detection, where the in-distribution data follows a long-tailed class distribution. The main difficulty lies in distinguishing OOD data from samples belonging to the tail classes, as the ability of a classifier to detect OOD instances is not strongly correlated with its accuracy on the in-distribution classes. To overcome this issue, we propose two simple ideas: (1) Expanding the in-distribution class space by introducing multiple abstention classes. This approach allows us to build a detector with clear decision boundaries by training on OOD data using virtual labels. (2) Augmenting the context-limited tail classes by overlaying images onto the context-rich OOD data. This technique encourages the model to pay more attention to the discriminative features of the tail classes. We provide a clue for separating in-distribution and OOD data by analyzing gradient noise. Through extensive experiments, we demonstrate that our method outperforms the current state-of-the-art on various benchmark datasets. Moreover, our method can be used as an add-on for existing long-tail learning approaches, significantly enhancing their OOD detection performance. Code is available at: https://github.com/Stomach-ache/Long-Tailed-OOD-Detection . | 翻訳日:2023-12-15 22:03:04 公開日:2023-12-14 |
# BiPFT:二元化残留多項式の低ランク推定による二元化事前学習ファンデーショントランス BiPFT: Binary Pre-trained Foundation Transformer with Low-rank Estimation of Binarization Residual Polynomials ( http://arxiv.org/abs/2312.08937v1 ) ライセンス: Link先を確認 | Xingrun Xing, Li Du, Xinyuan Wang, Xianlin Zeng, Yequan Wang, Zheng Zhang, Jiajun Zhang | (参考訳) トレーニング済みの基礎モデルは、人工知能にアクセスする最も潜在的なテクニックの1つである、幅広い下流タスクにかなりのメリットを提供する。
しかし、最大タスクに依存しない知識のための基盤トランスフォーマーのスケールアップは、特にモバイルのようなリソース制限されたデバイスにおいて、計算上の課題をもたらした。
本研究は、自然言語理解(nlu)タスクのための最初のバイナリプリトレーニング基盤トランスフォーマ(bipft)を提案し、56回の操作と28回のメモリを著しく節約する。
従来のタスク固有のバイナリトランスフォーマーとは対照的に、BiPFTはバイナリニューラルネットワーク(BNN)の学習能力を大幅に向上させ、BNNを事前トレーニングの時代に促進している。
広範な事前トレーニングデータの恩恵を受け,データ駆動二元化法も提案する。
具体的には,まず自己アテンション演算における二元化誤差を分析し,二元化誤差の多項式を導出する。
完全精度自己追尾をシミュレートするために,二元化誤差を二元化残差多項式として定義し,これらの多項式をモデル化するために低階推定器を導入する。
大規模な実験は、GLUEベンチマークでタスク固有のベースラインを15.4%上回るBiPFTの有効性を検証する。
BiPFTはまた、ハイパーパラメータの変更に対するロバスト性の向上、最適化効率の向上、下流蒸留への依存の低減など、様々なNLUタスクを一般化し、BNNの下流パイプラインを簡素化する。
私たちのコードと事前訓練されたモデルはhttps://github.com/Xingrun-Xing/BiPFT.comで公開されています。 Pretrained foundation models offer substantial benefits for a wide range of downstream tasks, which can be one of the most potential techniques to access artificial general intelligence. However, scaling up foundation transformers for maximal task-agnostic knowledge has brought about computational challenges, especially on resource-limited devices such as mobiles. This work proposes the first Binary Pretrained Foundation Transformer (BiPFT) for natural language understanding (NLU) tasks, which remarkably saves 56 times operations and 28 times memory. In contrast to previous task-specific binary transformers, BiPFT exhibits a substantial enhancement in the learning capabilities of binary neural networks (BNNs), promoting BNNs into the era of pre-training. Benefiting from extensive pretraining data, we further propose a data-driven binarization method. Specifically, we first analyze the binarization error in self-attention operations and derive the polynomials of binarization error. To simulate full-precision self-attention, we define binarization error as binarization residual polynomials, and then introduce low-rank estimators to model these polynomials. Extensive experiments validate the effectiveness of BiPFTs, surpassing task-specific baseline by 15.4% average performance on the GLUE benchmark. BiPFT also demonstrates improved robustness to hyperparameter changes, improved optimization efficiency, and reduced reliance on downstream distillation, which consequently generalize on various NLU tasks and simplify the downstream pipeline of BNNs. Our code and pretrained models are publicly available at https://github.com/Xingrun-Xing/BiPFT. | 翻訳日:2023-12-15 22:02:42 公開日:2023-12-14 |
# 数学的推論におけるLLM用ラベルフリーステップバイステップ検証器 Math-Shepherd: A Label-Free Step-by-Step Verifier for LLMs in Mathematical Reasoning ( http://arxiv.org/abs/2312.08935v1 ) ライセンス: Link先を確認 | Peiyi Wang and Lei Li and Zhihong Shao and R.X. Xu and Damai Dai and Yifei Li and Deli Chen and Y.Wu and Zhifang Sui | (参考訳) 大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
しかし、LLaMAファミリーモデルのような最も先進的なオープンソース LLM でさえ、複雑な多段階数学的問題を正確に解決する上ではまだ課題に直面している。
本稿では, LLMの算数問題における出力の各ステップに報酬スコアを割り当てる, 革新的プロセス指向の算数検証器「textbf{Math-Shepherd}」を提案する。
自動構築されたプロセス単位での監督データを用いて数学シェファードの訓練を行い、既存の作業における手動アノテーションに重きを置くボトルネックを打ち破る。
Math-Shepherd の指導により、オープンソースの LLM シリーズは例外的な性能を示した。
このうち、DeepSeek 67B \citep{DeepSeek-llm} は GSM8K データセットで93.3\%、MATH データセットで48.1\% の精度をツール使用などの外部拡張なしで達成することで際立っている。
私たちのMath-Shepherdは自己整合性法や既存の検証モデルよりも優れています。
我々は,LLMの今後の発展に,自動プロセス監視が大きな可能性を秘めていると考えている。 Large language models (LLMs) have demonstrated remarkable capabilities across a wide range of tasks. However, even the most advanced open-source LLMs, such as the LLaMA family models, still face challenges when it comes to accurately solving complex multi-step mathematical problems. In this paper, we present an innovative process-oriented math verifier called \textbf{Math-Shepherd}, which assigns a reward score to each step of the LLM's outputs on math problems. The training of Math-Shepherd is achieved using automatically constructed process-wise supervision data, breaking the bottleneck of heavy reliance on manual annotation in existing work. With the guidance of Math-Shepherd, a series of open-source LLMs demonstrate exceptional performance. Among them, DeepSeek 67B \citep{DeepSeek-llm} stands out by achieving accuracy rates of 93.3\% on the GSM8K dataset and 48.1\% on the MATH dataset, without external enhancement such as tool usage. Our Math-Shepherd also outperforms the self-consistency method and other existing verification models. We believe that automatic process supervision holds significant potential for the future evolution of LLMs. | 翻訳日:2023-12-15 22:02:14 公開日:2023-12-14 |
# マルチモーダル学習による高分解能空間風速場の再構成 Multi-Modal Learning-based Reconstruction of High-Resolution Spatial Wind Speed Fields ( http://arxiv.org/abs/2312.08933v1 ) ライセンス: Link先を確認 | Matteo Zambra, Nicolas Farrugia, Dorian Cazau, Alexandre Gensse, Ronan Fablet | (参考訳) 海面での風速は、様々な科学的応用と人間の活動にとって重要な量である。
この現象の非線形性のため、そのような変数の完全な記述は、小さなスケールと大きな空間範囲の両方で実現できない。
データ同化技術に依存する手法は, 数値気象予測の最先端技術であるにもかかわらず, 衛星画像と競合する空間分解能は得られない。
本研究では,変動データ同化とディープラーニングの概念に基づくフレームワークを提案する。
この枠組みは、海面風速に関する高解像度のリッチインタイムを回復するために応用される。
我々は,高分解能かつ低分解能な原データに対して,合成風データと異なるサンプリングスキームを用いて実験を設計し,時空間不均質観測の現実シナリオをエミュレートした。
低分解能と高分解能の風の影響を体系的に評価し, モデル再構成性能に対するその場観察を行った。
より高次分解能のその場観察がモデル再構成性能の付加価値を示すことを示す。
本稿では,利用可能な観測の多様性をモデルに明示的に知らせるマルチモーダルアプローチにより,空間的および局所的視点データにおける補完的情報を活用し,復元作業を改善する方法を示す。
結論として,低分解能データにおける位相遅延と振幅バイアス,および評価時のその場観測供給の中断に対する選択されたフレームワークの堅牢性を評価するための分析法を提案する。 Wind speed at sea surface is a key quantity for a variety of scientific applications and human activities. Due to the non-linearity of the phenomenon, a complete description of such variable is made infeasible on both the small scale and large spatial extents. Methods relying on Data Assimilation techniques, despite being the state-of-the-art for Numerical Weather Prediction, can not provide the reconstructions with a spatial resolution that can compete with satellite imagery. In this work we propose a framework based on Variational Data Assimilation and Deep Learning concepts. This framework is applied to recover rich-in-time, high-resolution information on sea surface wind speed. We design our experiments using synthetic wind data and different sampling schemes for high-resolution and low-resolution versions of original data to emulate the real-world scenario of spatio-temporally heterogeneous observations. Extensive numerical experiments are performed to assess systematically the impact of low and high-resolution wind fields and in-situ observations on the model reconstruction performance. We show that in-situ observations with richer temporal resolution represent an added value in terms of the model reconstruction performance. We show how a multi-modal approach, that explicitly informs the model about the heterogeneity of the available observations, can improve the reconstruction task by exploiting the complementary information in spatial and local point-wise data. To conclude, we propose an analysis to test the robustness of the chosen framework against phase delay and amplitude biases in low-resolution data and against interruptions of in-situ observations supply at evaluation time | 翻訳日:2023-12-15 22:01:50 公開日:2023-12-14 |
# 短軸心MRI領域分割のためのSegment Anything Model(SAM)に対するプロンプト戦略の影響 Influence of Prompting Strategies on Segment Anything Model (SAM) for Short-axis Cardiac MRI segmentation ( http://arxiv.org/abs/2312.08932v1 ) ライセンス: Link先を確認 | Josh Stein, Maxime Di Folco, Julia A. Schnabel | (参考訳) Segment Anything Model (SAM)は、最近、基礎モデルにおいて重要なブレークスルーとして現れ、オブジェクトセグメンテーションタスクにおいて顕著なゼロショットのパフォーマンスを示している。
SAMは一般化のために設計されているが、微細構造セグメンテーションや正確な境界を必要とする特定の医療画像タスクの処理に制限がある。
本稿では,SAM基礎モデルを用いた心磁気共鳴画像(cMRI)短軸視分割の課題に焦点をあてる。
我々は,セグメント化性能に及ぼす異なるプロンプト戦略(境界ボックス,正点,負点,それらの組合せを含む)の影響を包括的に調査する。
2つの公開データセットをベースラインモデルとモデルを用いて評価し、限られたボリューム数から完全に注釈付きデータセットまで、様々な量の注釈付きデータを微調整した。
以上の結果から,プロンプト戦略がセグメンテーション性能に大きく影響することが示唆された。
正の点とバウンディングボックスまたは負の点を組み合わせることはかなりの利益をもたらすが、同時に結合した場合の利点はほとんどない。
さらに,いくつかの注釈付きボリュームを持つ微調整SAMは,適切な誘導を行うとセグメンテーション性能が向上することを示した。
特に、バウンディングボックスの微調整はポジティブな影響を与えるが、バウンドボックスを使わない微調整はベースラインよりも悪い結果をもたらす。 The Segment Anything Model (SAM) has recently emerged as a significant breakthrough in foundation models, demonstrating remarkable zero-shot performance in object segmentation tasks. While SAM is designed for generalization, it exhibits limitations in handling specific medical imaging tasks that require fine-structure segmentation or precise boundaries. In this paper, we focus on the task of cardiac magnetic resonance imaging (cMRI) short-axis view segmentation using the SAM foundation model. We conduct a comprehensive investigation of the impact of different prompting strategies (including bounding boxes, positive points, negative points, and their combinations) on segmentation performance. We evaluate on two public datasets using the baseline model and models fine-tuned with varying amounts of annotated data, ranging from a limited number of volumes to a fully annotated dataset. Our findings indicate that prompting strategies significantly influence segmentation performance. Combining positive points with either bounding boxes or negative points shows substantial benefits, but little to no benefit when combined simultaneously. We further observe that fine-tuning SAM with a few annotated volumes improves segmentation performance when properly prompted. Specifically, fine-tuning with bounding boxes has a positive impact, while fine-tuning without bounding boxes leads to worse results compared to baseline. | 翻訳日:2023-12-15 22:01:23 公開日:2023-12-14 |
# 大規模言語モデルに基づくMathAgentによる複雑な数学的推論のモデル化 Modeling Complex Mathematical Reasoning via Large Language Model based MathAgent ( http://arxiv.org/abs/2312.08926v1 ) ライセンス: Link先を確認 | Haoran Liao, Qinyi Du, Shaohua Hu, Hao He, Yanyan Xu, Jidong Tian, Yaohui Jin | (参考訳) 大規模言語モデル(LLM)は、文を解析し、ドメイン知識を関連づけ、複雑な論理的推論を行い、中間的論理的理性を統合するために包括的な能力を必要とする複雑な数学的問題の解決に直面する。
これらの問題に一度に対処することはLLMにとって困難であり、世代によって混乱を招いた。
本研究では, 数学的推論過程の精密な分解とモデリングにより, LLMをエージェントで拡張する可能性について検討する。
具体的には、数学的解法を形式的に記述し、エージェントベースのゼロショットフレームワークである$\bf{P}$lanner-$\bf{R}$easoner-$\bf{E}$xecutor-$\bf{R}$eflector (PRER) で拡張する。
MathAgent-MはLSMに適応し、MathAgent-Hは人間と協調する。
miniF2F と MATH の実験では PreR と MathAgents の有効性を実証し、MiniF2F 上の $112.3\%$($53.9\%\xrightarrow{}66.2\%$)、MATH 上の 9.2\%$$$$49.8\%\xrightarrow{}59.0\%$)、GPT-4 に対する MATH のレベル5問題に対する $13.2\%$($23.2\%\xrightarrow{}35.4\%$) を達成している。
さらなる分析結果は、LSMの挙動をエージェントとして活用する上で、より洞察に富む視点を提供する。 Large language models (LLMs) face challenges in solving complex mathematical problems that require comprehensive capacities to parse the statements, associate domain knowledge, perform compound logical reasoning, and integrate the intermediate rationales. Tackling all these problems once could be arduous for LLMs, thus leading to confusion in generation. In this work, we explore the potential of enhancing LLMs with agents by meticulous decomposition and modeling of mathematical reasoning process. Specifically, we propose a formal description of the mathematical solving and extend LLMs with an agent-based zero-shot framework named $\bf{P}$lanner-$\bf{R}$easoner-$\bf{E}$xecutor-$\bf{R}$eflector (PRER). We further provide and implement two MathAgents that define the logical forms and inherent relations via a pool of actions in different grains and orientations: MathAgent-M adapts its actions to LLMs, while MathAgent-H aligns with humankind. Experiments on miniF2F and MATH have demonstrated the effectiveness of PRER and proposed MathAgents, achieving an increase of $12.3\%$($53.9\%\xrightarrow{}66.2\%$) on the MiniF2F, $9.2\%$ ($49.8\%\xrightarrow{}59.0\%$) on MATH, and $13.2\%$($23.2\%\xrightarrow{}35.4\%$) for level-5 problems of MATH against GPT-4. Further analytical results provide more insightful perspectives on exploiting the behaviors of LLMs as agents. | 翻訳日:2023-12-15 22:00:36 公開日:2023-12-14 |
# 局所概念再構成によるゼロショット合成画像検索 Training-free Zero-shot Composed Image Retrieval with Local Concept Reranking ( http://arxiv.org/abs/2312.08924v1 ) ライセンス: Link先を確認 | Shitong Sun, Fanghua Ye, Shaogang Gong | (参考訳) 合成画像検索は、参照画像と対応する修正テキストの合成クエリを通して、ギャラリー画像から興味のある画像を検索しようとする。
近年,情報に富んだ画像と簡潔な言語が協調して,対象画像の要求を正確に表現することで注目を集めている。
既存の構成画像検索手法の多くは教師付き学習パラダイムに従って、参照画像、修正テキスト、対応するターゲット画像からなるコストのかかる3重データセットでトレーニングを行う。
ラベル付き三重項データの要求を緩和するため,近年では,人間のラベル付き三重項の監督なしに対象画像を検索することを目的としたゼロショット合成画像検索(zs-cir)が提案されている。
しかし、これらの手法は、暗黙的なクエリ埋め込みによって画像とテキストの相互作用が実行されると仮定して、訓練の必要から計算効率が悪く、理解し難い。
本稿では,問合せを明示的な人間理解可能なテキストに翻訳する,訓練不要なゼロショット合成画像検索法(tfcir)を提案する。
これは基礎モデルの一般化を維持しながら計算効率を向上させるのに役立つ。
さらに,修正した命令から抽出した識別的局所情報に焦点をあてるローカル概念再構成(LCR)機構を導入する。
3つのZS-CIRベンチマークの大規模な実験により、提案手法は最先端の手法で同等のパフォーマンスを達成でき、オープンドメインデータセット、CIRR、CIRCO、およびファッションドメインデータセットであるFashionIQにおいて、他のトレーニング不要メソッドよりも大幅に優れていることが示されている。 Composed image retrieval attempts to retrieve an image of interest from gallery images through a composed query of a reference image and its corresponding modified text. It has recently attracted attention due to the collaboration of information-rich images and concise language to precisely express the requirements of target images. Most of the existing composed image retrieval methods follow a supervised learning paradigm to perform training on a costly triplet dataset composed of a reference image, modified text, and a corresponding target image. To alleviate the demand for difficult-to-obtain labeled triplet data, recent methods have introduced zero-shot composed image retrieval (ZS-CIR), which aims to retrieve the target image without the supervision of human-labeled triplets but instead relies on image-text pairs or self-generated triplets. However, these methods are less computationally efficient due to the requirement of training and also less understandable, assuming that the interaction between image and text is conducted with implicit query embedding. In this work, we present a new Training-Free zero-shot Composed Image Retrieval (TFCIR) method which translates the query into explicit human-understandable text. This helps improve computation efficiency while maintaining the generalization of foundation models. Further, we introduce a Local Concept Reranking (LCR) mechanism to focus on discriminative local information extracted from the modified instruction. Extensive experiments on three ZS-CIR benchmarks show that the proposed approach can achieve comparable performances with state-of-the-art methods and significantly outperforms other training-free methods on the open domain datasets, CIRR and CIRCO, as well as the fashion domain dataset, FashionIQ. | 翻訳日:2023-12-15 21:59:48 公開日:2023-12-14 |
# 量子スピン系における状態伝達のユニバーサルショートカット法 A universal shortcut method for state transfer in quantum spin systems ( http://arxiv.org/abs/2312.08920v1 ) ライセンス: Link先を確認 | Jian Xu, Feng Mei and Yan-Qing Zhu | (参考訳) 高速で堅牢な量子状態転送の必要性は、スケーラブルな量子情報処理において不可欠な要素であり、断熱的な量子プロトコルを高速化するための近道への関心が広まる。
しかしながら、いくつかのレベルを持つシステムの短絡は、理論上は計算が困難であり、しばしば実験で実装することが困難である。
本研究では,多状態ランドウ・ゼナー法とより厳格な断熱条件を用いて,断熱への近道を構築するプロトコルを開発した。
重要なことは、我々のプロトコルはエネルギースペクトルに関する情報のみを必要とし、システムの進化速度を調整し、理論モデルには汎用的であり、実験的な実装には親和性がある。
例えば、本プロトコルを非エルミートsu-schrieffer-heeger(ssh)モデルとトポロジカルthouless pumpモデルにおける状態伝達に適用し、ハミルトン誤差に頑健なまま操作速度を高速化できることを確認した。
さらに,現在の技術を用いることにより,多体システム,散逸ケース,フロッケプロセスに拡張できる可能性が示唆された。
提案したショートカットプロトコルは、量子状態転送プロトコルの効率性と信頼性を高めるための有望な道を提供する。 The need for fast and robust quantum state transfer is an essential element in scalable quantum information processing, leading to widespread interest in shortcuts to adiabaticity for speeding up adiabatic quantum protocols. However, shortcuts to adiabaticity for systems with more than a few levels is occasionally challenging to compute in theory and frequently difficult to implement in experiments. In this work, we develop a protocol for constructing shortcuts to adiabaticity through the multi-state Landau-Zener approach and a stricter adiabatic condition. Importantly, our protocol only requires a few pieces of information about the energy spectrum and adjusts the evolutionary rate of the system, making it both generic for theoretical models and friendly for experimental implementation. As examples, we apply our protocol to state transfer in the non-Hermitian Su-Schrieffer-Heeger (SSH) model and the topological Thouless pump models and find that it can speed up the manipulation speed while remaining robust to Hamiltonian errors. Furthermore, our findings can be realized using current technology and could potentially be extended to many-body systems, dissipation cases, or Floquet processes. Overall, the proposed shortcut protocol offers a promising avenue for enhancing the efficiency and reliability of quantum state transfer protocols. | 翻訳日:2023-12-15 21:59:18 公開日:2023-12-14 |
# 複数のビアーゼの合成による導出の証明 Proving Conjectures Acquired by Composing Multiple Biases ( http://arxiv.org/abs/2312.08990v1 ) ライセンス: Link先を確認 | Jovial Cheukam-Ngouonou, Ramiz Gindullin, Nicolas Beldiceanu, R\'emi Douence, Claude-Guy Quimper | (参考訳) 本稿では,2024 aaai会議の議事録 [1] で公表された論文で言及される予想の証明と,同論文で提示された分解法によって発見された予想について述べる。 We present the proofs of the conjectures mentioned in the paper published in the proceedings of the 2024 AAAI conference [1], and discovered by the decomposition methods presented in the same paper. | 翻訳日:2023-12-15 21:52:18 公開日:2023-12-14 |
# 深層タンパク質言語モデルを用いた生体非依存的高感度シグナルペプチド予測 Unbiased organism-agnostic and highly sensitive signal peptide predictor with deep protein language model ( http://arxiv.org/abs/2312.08987v1 ) ライセンス: Link先を確認 | Junbo Shen, Qinze Yu, Shenyang Chen, Qingxiong Tan, Jingcheng Li, Yu Li | (参考訳) シグナルペプチド(Signal peptide、SP)は、タンパク質のN末端に位置する短いペプチドである。
トランス膜と分泌タンパク質を標的とし、正しい位置に移すことが不可欠である。
シグナルペプチドを同定する従来の実験手法と比較すると、計算手法はより高速で効率的であり、特にメッサージノミクスデータにおいて数千から数百万のタンパク質配列を解析するのにより実用的なものである。
本稿では,タンパク質言語モデルを利用した信号ペプチド分類および切断部位予測深層学習手法であるunbiased Organism-Agnostic Signal Peptide Network (USPNet)を提案する。
本研究では,データ不均衡問題に対処するためにラベル分布認識マージン損失を応用し,タンパク質の進化的情報を用いて,種情報依存を克服する手法を提案する。 Signal peptide (SP) is a short peptide located in the N-terminus of proteins. It is essential to target and transfer transmembrane and secreted proteins to correct positions. Compared with traditional experimental methods to identify signal peptides, computational methods are faster and more efficient, which are more practical for analyzing thousands or even millions of protein sequences, especially for metagenomic data. Here we present Unbiased Organism-agnostic Signal Peptide Network (USPNet), a signal peptide classification and cleavage site prediction deep learning method that takes advantage of protein language models. We propose to apply label distribution-aware margin loss to handle data imbalance problems and use evolutionary information of protein to enrich representation and overcome species information dependence. | 翻訳日:2023-12-15 21:52:13 公開日:2023-12-14 |
# OMG:コントローラの混合によるオープン語彙運動生成を目指して OMG: Towards Open-vocabulary Motion Generation via Mixture of Controllers ( http://arxiv.org/abs/2312.08985v1 ) ライセンス: Link先を確認 | Han Liang, Jiacheng Bao, Ruichi Zhang, Sihan Ren, Yuecheng Xu, Sibei Yang, Xin Chen, Jingyi Yu, Lan Xu | (参考訳) 最近、現実的なテキスト・モーション生成が著しく進歩しています。
しかし、既存の手法は、目に見えないテキスト入力で、しばしば失敗または不可解な動作を生成し、アプリケーションを制限する。
本稿では、ゼロショットオープン語彙テキストプロンプトから魅力的な動き生成を可能にする新しいフレームワークOMGを提案する。
私たちの重要なアイデアは、事前トレーナー(pretrain-then-finetune)パラダイムを、テキストからモーション生成に慎重に調整することです。
事前学習段階では,豊富なドメイン外固有運動特性を学習することにより,生成能力を向上させる。
この目的のために,最大1bパラメータまでの大規模無条件拡散モデルをスケールアップし,2000万以上のモーションインスタンスの大規模非ラベル動作データを活用する。
その後の微調整段階では,事前学習したモデルの学習可能なコピーと提案する新しいmixed-of-controllers (moc)ブロックを用いて,テキストプロンプトを条件情報として組み込むモーションコントロールネットを導入する。
mocブロックはクロスアテンション機構を用いてサブモーションの様々な範囲を適応的に認識し、テキストトケンの専門家と個別に処理する。
このような設計は、テキストプロンプトのCLIPトークンの埋め込みを、様々なコンパクトかつ表現力のあるモーション特徴に効果的に調整する。
広汎な実験により、OMGはゼロショットテキスト・モーション生成における最先端手法よりも大幅に改善されていることが示された。
プロジェクトページ: https://tr3e.github.io/omg-page We have recently seen tremendous progress in realistic text-to-motion generation. Yet, the existing methods often fail or produce implausible motions with unseen text inputs, which limits the applications. In this paper, we present OMG, a novel framework, which enables compelling motion generation from zero-shot open-vocabulary text prompts. Our key idea is to carefully tailor the pretrain-then-finetune paradigm into the text-to-motion generation. At the pre-training stage, our model improves the generation ability by learning the rich out-of-domain inherent motion traits. To this end, we scale up a large unconditional diffusion model up to 1B parameters, so as to utilize the massive unlabeled motion data up to over 20M motion instances. At the subsequent fine-tuning stage, we introduce motion ControlNet, which incorporates text prompts as conditioning information, through a trainable copy of the pre-trained model and the proposed novel Mixture-of-Controllers (MoC) block. MoC block adaptively recognizes various ranges of the sub-motions with a cross-attention mechanism and processes them separately with the text-token-specific experts. Such a design effectively aligns the CLIP token embeddings of text prompts to various ranges of compact and expressive motion features. Extensive experiments demonstrate that our OMG achieves significant improvements over the state-of-the-art methods on zero-shot text-to-motion generation. Project page: https://tr3e.github.io/omg-page. | 翻訳日:2023-12-15 21:52:00 公開日:2023-12-14 |
# cl2cm: 言語間知識伝達による言語間クロスモーダル検索の改善 CL2CM: Improving Cross-Lingual Cross-Modal Retrieval via Cross-Lingual Knowledge Transfer ( http://arxiv.org/abs/2312.08984v1 ) ライセンス: Link先を確認 | Yabing Wang and Fan Wang and Jianfeng Dong and Hao Luo | (参考訳) 近年,注釈付きV-Tデータペアを使わずに,視覚と対象言語(V-T)のアライメントの実現を目指す言語間クロスモーダル検索が注目されている。
現在の手法では、機械翻訳(MT)を用いて擬似並列データペアを構築し、視覚的および対象言語表現を整列する多言語および多モーダルな埋め込み空間を学習するために使用される。
しかし、視覚とテキストの間の大きな不均一なギャップと、対象言語翻訳に存在する雑音は、それらの表現を効果的に整列させる上で大きな課題となる。
これらの課題に対処するために,言語間移動を用いた視覚と対象言語との整合性を改善する汎用フレームワークCL2CMを提案する。
このアプローチにより、マルチ言語で事前訓練されたモデル(mBERTなど)の利点と、同じモダリティ構造、すなわち小さなギャップの利点を十分に活用し、クロスモーダルネットワークに対する信頼性と包括的なセマンティック対応(知識)を提供することができる。
提案手法はMulti30KとMSCOCOの2つの多言語画像テキストデータセットとビデオテキストデータセットVATEXである。
その結果,提案手法の有効性と大規模検索の可能性を明らかにした。 Cross-lingual cross-modal retrieval has garnered increasing attention recently, which aims to achieve the alignment between vision and target language (V-T) without using any annotated V-T data pairs. Current methods employ machine translation (MT) to construct pseudo-parallel data pairs, which are then used to learn a multi-lingual and multi-modal embedding space that aligns visual and target-language representations. However, the large heterogeneous gap between vision and text, along with the noise present in target language translations, poses significant challenges in effectively aligning their representations. To address these challenges, we propose a general framework, Cross-Lingual to Cross-Modal (CL2CM), which improves the alignment between vision and target language using cross-lingual transfer. This approach allows us to fully leverage the merits of multi-lingual pre-trained models (e.g., mBERT) and the benefits of the same modality structure, i.e., smaller gap, to provide reliable and comprehensive semantic correspondence (knowledge) for the cross-modal network. We evaluate our proposed approach on two multilingual image-text datasets, Multi30K and MSCOCO, and one video-text dataset, VATEX. The results clearly demonstrate the effectiveness of our proposed method and its high potential for large-scale retrieval. | 翻訳日:2023-12-15 21:51:36 公開日:2023-12-14 |
# 対話型ヒューマノイド:社会標準化と予測を用いたオンラインフルボディモーション反応合成 Interactive Humanoid: Online Full-Body Motion Reaction Synthesis with Social Affordance Canonicalization and Forecasting ( http://arxiv.org/abs/2312.08983v1 ) ライセンス: Link先を確認 | Yunze Liu, Changxi Chen, Li Yi | (参考訳) 対象物との人間-ヒューマノイド相互作用タスクを任意に重視する。
そこで本研究では,ヒトアクターの動きに基づいてヒューマノイド反応を生成するオンラインフルボディモーション反応合成法を提案する。
前回の研究は、物体のない人間の相互作用にのみ焦点をあて、手なしで身体反応を発生させる。
また,このタスクをオンライン環境とはみなさないため,現実的な状況下での情報観測が不可能である。
このタスクを支援するために,HHIとCoChairという2つのデータセットを構築し,統一的な手法を提案する。
具体的には,社会的アプライアンス表現の構築を提案する。
まず、ソーシャル・アプライアンス・キャリアを選択し、SE(3)-Equivariant Neural Networksを用いてローカル・フレームを学習し、ソーシャル・アプライアンス・キャリアを標準化する。
また, 想定される未来に基づいて, 原子炉を予測できる社会的な余裕予測手法を提案する。
実験により,HHIとCoChairの高次反応を効果的に生成できることが示された。
さらに,既存の人間間相互作用データセット,Chi3Dについても検証を行った。 We focus on the human-humanoid interaction task optionally with an object. We propose a new task named online full-body motion reaction synthesis, which generates humanoid reactions based on the human actor's motions. The previous work only focuses on human interaction without objects and generates body reactions without hand. Besides, they also do not consider the task as an online setting, which means the inability to observe information beyond the current moment in practical situations. To support this task, we construct two datasets named HHI and CoChair and propose a unified method. Specifically, we propose to construct a social affordance representation. We first select a social affordance carrier and use SE(3)-Equivariant Neural Networks to learn the local frame for the carrier, then we canonicalize the social affordance. Besides, we propose a social affordance forecasting scheme to enable the reactor to predict based on the imagined future. Experiments demonstrate that our approach can effectively generate high-quality reactions on HHI and CoChair. Furthermore, we also validate our method on existing human interaction datasets Interhuman and Chi3D. | 翻訳日:2023-12-15 21:51:11 公開日:2023-12-14 |
# 数理物理学におけるランダム問題 Random Problems in Mathematical Physics ( http://arxiv.org/abs/2312.08980v1 ) ライセンス: Link先を確認 | Frederik Ravn Klausen | (参考訳) この博士論文は、確率論的側面を持つ共通スレッドを持つ数学物理学における様々な問題を扱う。
問題は、すべて統計物理学および量子物理学における格子系の数学的研究に由来するが、それ以外は、具体的な問題の選択はある程度任意である。
この論文は序論と7つの論文からなる。 This PhD thesis deals with a number of different problems in mathematical physics with the common thread that they have probabilistic aspects. The problems all stem from mathematical studies of lattice systems in statistical and quantum physics; however beyond that, the selection of the concrete problems is to a certain extent arbitrary. This thesis consists of an introduction and seven papers. | 翻訳日:2023-12-15 21:50:53 公開日:2023-12-14 |
# 重み付きアンサンブルモデルは強い連続学習者である Weighted Ensemble Models Are Strong Continual Learners ( http://arxiv.org/abs/2312.08977v1 ) ライセンス: Link先を確認 | Imad Eddine Marouf, Subhankar Roy, Enzo Tartaglione, St\'ephane Lathuili\`ere | (参考訳) 本研究では,現在のタスクデータから学習しながら,前回のタスクからのデータが使用不能になるような,一連のタスクのモデル学習を目標とする連続学習問題(cl)について検討する。
CLは基本的に、新しいタスク(可塑性)で学習できることと、以前に学んだ概念(安定性)のパフォーマンスを維持することのバランスをとる行為である。
安定性と塑性のトレードオフに対処するため,これまでの課題と現在の課題のモデルパラメータを重み付けする手法を提案する。
連続モデル平均化(continual model averaging, coma)と呼ぶこのウェイトセンブルモデルでは,従来のウェイト構成から遠ざからず,安定性を確保しながら,可塑性を利用して現在のタスクにおいて高い精度を実現している。
また、モデル重みのフィッシャー情報を活用することにより、重みアンサンブル内の各パラメータを選択的に重み付けする改良型CoMA(Continuous Fisher-weighted Model Averaging, CoFiMA)を提案する。
どちらも概念的にはシンプルで実装が容易であり、いくつかの標準clベンチマークで最先端のパフォーマンスを達成するのに効果的である。 In this work, we study the problem of continual learning (CL) where the goal is to learn a model on a sequence of tasks, such that the data from the previous tasks becomes unavailable while learning on the current task data. CL is essentially a balancing act between being able to learn on the new task (i.e., plasticity) and maintaining the performance on the previously learned concepts (i.e., stability). With an aim to address the stability-plasticity trade-off, we propose to perform weight-ensembling of the model parameters of the previous and current task. This weight-ensembled model, which we call Continual Model Averaging (or CoMA), attains high accuracy on the current task by leveraging plasticity, while not deviating too far from the previous weight configuration, ensuring stability. We also propose an improved variant of CoMA, named Continual Fisher-weighted Model Averaging (or CoFiMA), that selectively weighs each parameter in the weight ensemble by leveraging the Fisher information of the weights of the model. Both the variants are conceptually simple, easy to implement, and effective in attaining state-of-the-art performance on several standard CL benchmarks. | 翻訳日:2023-12-15 21:50:48 公開日:2023-12-14 |
# entity-augmented コード生成 Entity-Augmented Code Generation ( http://arxiv.org/abs/2312.08976v1 ) ライセンス: Link先を確認 | Anton Shapkin, Denis Litvinov, Timofey Bryksin | (参考訳) 現在の最先端の大規模言語モデル(LLM)は、高品質なテキストを生成し、幅広い世界の知識をカプセル化するのに有効である。
しかし、これらのモデルは世代ごとに幻覚を起こし、外部情報ソースを利用するように設計されていない。
知識基盤と呼ばれる外部知識ベースへの要求を可能にするため、検索強化LLMを導入した。
今のところ、彼らのアプリケーションには、Open Domain Question Answering、Abstractive Question Answeringなどが含まれる。
本稿では,外部エンティティを用いたコード生成という新たなタスクを考案することで,検索拡張 LLM の範囲を広げる。
このタスクのために、私たちはプロジェクトレベルのコード生成のための新しいデータセットを収集して公開します。
我々が示すように、既存の検索拡張LDMは類似エンティティ名間の関連スコアを割り当てず、それを緩和するために、エンティティ名を記述コンテキストで拡張し、入力に付加する。
実際には、コンテキストサイズが制限されているため、プロジェクト全体の無期限に大きなコンテキストに対応できない。
そこで本研究では,LSMデコーダに直接注入されるスケーラブルなエンティティレトリバーを備えた,エンドツーエンドのトレーニング可能な新しいアーキテクチャを提案する。
私たちのモデルは、プロジェクトレベルのコード生成やBashやSQLスクリプティングなど、いくつかのシナリオで共通ベースラインを上回ります。 The current state-of-the-art large language models (LLMs) are effective in generating high-quality text and encapsulating a broad spectrum of world knowledge. However, these models often hallucinate during generation and are not designed to utilize external information sources. To enable requests to the external knowledge bases, also called knowledge grounding, retrieval-augmented LLMs were introduced. For now, their applications have largely involved Open Domain Question Answering, Abstractive Question Answering, and such. In this paper, we broaden the scope of retrieval-augmented LLMs by venturing into a new task - code generation using external entities. For this task, we collect and publish a new dataset for project-level code generation, where the model should reuse functions defined in the project during generation. As we show, existing retrieval-augmented LLMs fail to assign relevance scores between similar entity names, and to mitigate it, they expand entity names with description context and append it to the input. In practice, due to the limited context size they can not accommodate the indefinitely large context of the whole project. To solve this issue, we propose a novel end-to-end trainable architecture with an scalable entity retriever injected directly into the LLM decoder. We demonstrate that our model can outperform common baselines in several scenarios, including project-level code generation, as well as Bash and SQL scripting. | 翻訳日:2023-12-15 21:50:26 公開日:2023-12-14 |
# 認識支援によるマスク型イメージセットデセンシタイズについて On Mask-based Image Set Desensitization with Recognition Support ( http://arxiv.org/abs/2312.08975v1 ) ライセンス: Link先を確認 | Qilong Li and Ji Liu and Yifan Sun and Chongsheng Zhang and Dejing Dou | (参考訳) 近年,画像認識の実用的な手法としてディープニューラルネットワーク(DNN)が登場している。
センシティブな情報を含む生データは、一般的にトレーニングプロセス内で活用される。
しかしながら、トレーニングプロセスがサードパーティ組織にアウトソースされると、機密情報を保護するために転送される前に、生データをデセンシタイズする必要がある。
マスクは重要な機密情報を隠蔽するために広く応用されているが、マスクされた画像の塗布を防ぐことが重要であり、機密情報を復元する可能性がある。
画像の脱感化による認識タスクや分類タスクのパフォーマンス低下を軽減するため、マスク画像に対して対応するモデルを調整する必要がある。
本稿では,認識を補助しながらマスクによる画像脱感作手法を提案する。
このアプローチはマスク生成アルゴリズムとモデル調整方法で構成されている。
本稿では,マスク生成アルゴリズムにおいて,認識タスクの重要な情報を維持するための解釈アルゴリズムを提案する。
また,マスク画像に基づく性能を向上させるためのモデル調整手法として,特徴選択マスクネットを提案する。
複数の画像データセットに基づく大規模な実験結果から、認識をサポートしながら画像の脱感作を行うアプローチの利点(精度は最大9.34%)が明らかとなった。 In recent years, Deep Neural Networks (DNN) have emerged as a practical method for image recognition. The raw data, which contain sensitive information, are generally exploited within the training process. However, when the training process is outsourced to a third-party organization, the raw data should be desensitized before being transferred to protect sensitive information. Although masks are widely applied to hide important sensitive information, preventing inpainting masked images is critical, which may restore the sensitive information. The corresponding models should be adjusted for the masked images to reduce the degradation of the performance for recognition or classification tasks due to the desensitization of images. In this paper, we propose a mask-based image desensitization approach while supporting recognition. This approach consists of a mask generation algorithm and a model adjustment method. We propose exploiting an interpretation algorithm to maintain critical information for the recognition task in the mask generation algorithm. In addition, we propose a feature selection masknet as the model adjustment method to improve the performance based on the masked images. Extensive experimentation results based on multiple image datasets reveal significant advantages (up to 9.34% in terms of accuracy) of our approach for image desensitization while supporting recognition. | 翻訳日:2023-12-15 21:50:01 公開日:2023-12-14 |
# ロシアソーシャルメディアにおける価値表現テキストポストの検出 Detecting value-expressive text posts in Russian social media ( http://arxiv.org/abs/2312.08968v1 ) ライセンス: Link先を確認 | Maria Milkova, Maksim Rudnev, Lidia Okolskaya | (参考訳) 基本的な価値観は、望ましい終末状態と超越的な特定の状況に関する概念や信念である。
ソーシャルメディアにおける個人的価値の研究は、特に調査のような刺激に基づく手法が非効率的である場合、特に社会的な価値がどのように進化するかを照らすことができる。
一方、ユーザ生成コンテンツは、個人価値の正確な表現ではなく、ステレオタイプで文化的に定義された音声構成の大量使用によって駆動される。
我々は、ロシアのソーシャルメディアVKontakteで価値表現ポストを正確に検出できるモデルを見つけることを目的とした。
5,035ポストのトレーニングデータセットは、3人の専門家、304人のクラウドワーカー、ChatGPTによって注釈付けされた。
集団労働者と専門家は、ポストの分類に関して、適度な合意しか示さなかった。
ChatGPTはより一貫性があったが、スパム検出に苦労した。
アクティブ・ラーニング・アプローチを含む人間とaiによるアノテーションのアンサンブルを適用し,いくつかのllmを訓練し,事前学習したrubert-tiny2からの埋め込みに基づくモデルを選択し,f1 = 0.75 (f1-macro = 0.80) で高い品質の値検出に到達した。
このモデルは、ロシアのソーシャルメディアユーザー間の価値を研究する上で重要なステップとなる。 Basic values are concepts or beliefs which pertain to desirable end-states and transcend specific situations. Studying personal values in social media can illuminate how and why societal values evolve especially when the stimuli-based methods, such as surveys, are inefficient, for instance, in hard-to-reach populations. On the other hand, user-generated content is driven by the massive use of stereotyped, culturally defined speech constructions rather than authentic expressions of personal values. We aimed to find a model that can accurately detect value-expressive posts in Russian social media VKontakte. A training dataset of 5,035 posts was annotated by three experts, 304 crowd-workers and ChatGPT. Crowd-workers and experts showed only moderate agreement in categorizing posts. ChatGPT was more consistent but struggled with spam detection. We applied an ensemble of human- and AI-assisted annotation involving active learning approach, subsequently trained several LLMs and selected a model based on embeddings from pre-trained fine-tuned rubert-tiny2, and reached a high quality of value detection with F1 = 0.75 (F1-macro = 0.80). This model provides a crucial step to a study of values within and between Russian social media users. | 翻訳日:2023-12-15 21:49:46 公開日:2023-12-14 |
# サブメガヘルツ線幅を有するナノダイヤモンド中のシリコン空洞中心の強結合スピン Strongly Coupled Spins of Silicon-Vacancy Centers Inside a Nanodiamond with Sub-Megahertz Linewidth ( http://arxiv.org/abs/2312.08967v1 ) ライセンス: Link先を確認 | Marco Klotz, Richard Waltrich, Niklas Lettner, Viatcheslav Agafonov, Alexander Kubanek | (参考訳) 空飛ぶ量子ビットと効率的にインターフェースできる長寿命の量子メモリの探索は、長年続いている。
可能な1つの解決策は、ダイヤモンドのカラーセンターの電子スピンを使用して、長寿命の核スピンと光子の間の相互作用を仲介することである。
これをナノダイアモンドで実現することで、フォトニックデバイスへの統合をさらに促進し、量子メモリにアクセス可能なハイブリッド量子システムの実現を可能にする。
そこで, ナノダイヤモンド中の負電荷のシリコン空洞中心のスピン環境を調査し, 電子スピンのデコヒーレンス速度が1mhz以下であるのに対し, 電子スピンの強い結合を示す。
さらに,マルチスピン結合とナノダイアモンドにおける量子メモリレジスタの確立の可能性を示す。 The search for long-lived quantum memories, which can be efficiently interfaced with flying qubits is longstanding. One possible solution is to use the electron spin of a color center in diamond to mediate interaction between a long-lived nuclear spin and a photon. Realizing this in a nanodiamond furthermore facilitates the integration into photonic devices and enables the realization of hybrid quantum systems with access to quantum memories. Here, we investigated the spin environment of negatively-charged Silicon-Vacancy centers in a nanodiamond and demonstrate strong coupling of its electron spin, while the electron spin's decoherence rate remained below 1 MHz. We furthermore demonstrate multi-spin coupling with the potential to establish registers of quantum memories in nanodiamonds. | 翻訳日:2023-12-15 21:49:25 公開日:2023-12-14 |
# LEMON:2次元画像から3Dオブジェクトインタラクションを学習する LEMON: Learning 3D Human-Object Interaction Relation from 2D Images ( http://arxiv.org/abs/2312.08963v1 ) ライセンス: Link先を確認 | Yuhang Yang, Wei Zhai, Hongchen Luo, Yang Cao, Zheng-Jun Zha | (参考訳) 人間と物体の相互作用関係の学習は、AIと相互作用モデリングの具体化に重要である。
既存のほとんどの手法は、主に人間または物体の観点から、人間の接触、物価、人間と対象の空間関係などの孤立した相互作用要素を予測することを学ぶことで目標にアプローチする。
相互作用(人間と物体)の間の特定の相関関係を過小評価し、相互作用の不確実性に対処するのに苦労する。
実際、物体の機能は人間の相互作用意図に影響を与え、相互作用が何であるかを明らかにする。
一方、相互作用する人間と物体は一致する幾何学構造を示し、相互作用の仕方を示す。
そこで本稿では,これらの相互作用の相関を利用して不確かさを緩和し,上記の3次元空間における相互作用要素を共同で予測する。
そこで本研究では,相手の対話意図をマイニングし,幾何学的相関関係の抽出を導くために曲率を用いる統一モデルであるlemon(learning 3d human-object interaction relation)を提案する。
また、3dインタラクション関係データセット(3dir)を収集して、トレーニングおよび評価のためのテストベッドとする。
広範な実験により、各元素を分離して推定する手法よりもレモンが優れていることが示されている。 Learning 3D human-object interaction relation is pivotal to embodied AI and interaction modeling. Most existing methods approach the goal by learning to predict isolated interaction elements, e.g., human contact, object affordance, and human-object spatial relation, primarily from the perspective of either the human or the object. Which underexploit certain correlations between the interaction counterparts (human and object), and struggle to address the uncertainty in interactions. Actually, objects' functionalities potentially affect humans' interaction intentions, which reveals what the interaction is. Meanwhile, the interacting humans and objects exhibit matching geometric structures, which presents how to interact. In light of this, we propose harnessing these inherent correlations between interaction counterparts to mitigate the uncertainty and jointly anticipate the above interaction elements in 3D space. To achieve this, we present LEMON (LEarning 3D huMan-Object iNteraction relation), a unified model that mines interaction intentions of the counterparts and employs curvatures to guide the extraction of geometric correlations, combining them to anticipate the interaction elements. Besides, the 3D Interaction Relation dataset (3DIR) is collected to serve as the test bed for training and evaluation. Extensive experiments demonstrate the superiority of LEMON over methods estimating each element in isolation. | 翻訳日:2023-12-15 21:49:12 公開日:2023-12-14 |
# スコアを超えたDepicting:マルチモーダル言語モデルによる画像品質評価の改善 Depicting Beyond Scores: Advancing Image Quality Assessment through Multi-modal Language Models ( http://arxiv.org/abs/2312.08962v1 ) ライセンス: Link先を確認 | Zhiyuan You, Zheyuan Li, Jinjin Gu, Zhenfei Yin, Tianfan Xue, Chao Dong | (参考訳) 本稿では,従来のスコアベースアプローチの制約を克服するDepicted Image Quality Assessment法(DepictQA)を提案する。
DepictQAはMLLM(Multi-modal Large Language Models)を活用し、詳細な言語ベースの人間の画像品質評価を可能にする。
従来の画像品質評価法(IQA)とは異なり、DepictQAは画像の内容と歪みを記述的かつ相対的に解釈し、人間の推論プロセスと密接に一致させる。
DepictQAモデルを構築するために,階層型タスクフレームワークを構築し,M-BAPPSというマルチモーダルIQAトレーニングデータセットを収集する。
限られたトレーニングデータと複数の画像の処理における課題をナビゲートするために,マルチソーストレーニングデータと特殊な画像タグを使用することを提案する。
我々のDepictQAはBAPPSベンチマークのスコアベースの手法よりも優れたパフォーマンスを示している。
さらに、一般的なMLLMと比較して、私たちのDepictQAは記述言語をより正確に推論できる。
本研究は,言語ベースのIQA手法が個人の好みに合わせてカスタマイズできる可能性を示唆している。
データセットとコードは公開されます。 We introduce a Depicted image Quality Assessment method (DepictQA), overcoming the constraints of traditional score-based approaches. DepictQA leverages Multi-modal Large Language Models (MLLMs), allowing for detailed, language-based, human-like evaluation of image quality. Unlike conventional Image Quality Assessment (IQA) methods relying on scores, DepictQA interprets image content and distortions descriptively and comparatively, aligning closely with humans' reasoning process. To build the DepictQA model, we establish a hierarchical task framework, and collect a multi-modal IQA training dataset, named M-BAPPS. To navigate the challenges in limited training data and processing multiple images, we propose to use multi-source training data and specialized image tags. Our DepictQA demonstrates a better performance than score-based methods on the BAPPS benchmark. Moreover, compared with general MLLMs, our DepictQA can generate more accurate reasoning descriptive languages. Our research indicates that language-based IQA methods have the potential to be customized for individual preferences. Datasets and codes will be released publicly. | 翻訳日:2023-12-15 21:48:49 公開日:2023-12-14 |
# LiFT:教師としての基盤モデルによる教師なし強化学習 LiFT: Unsupervised Reinforcement Learning with Foundation Models as Teachers ( http://arxiv.org/abs/2312.08958v1 ) ライセンス: Link先を確認 | Taewook Nam, Juyong Lee, Jesse Zhang, Sung Ju Hwang, Joseph J. Lim, Karl Pertsch | (参考訳) 本稿では,基礎モデルを教師として活用する枠組みを提案し,強化学習エージェントに,人間フィードバックを伴わずに意味的に意味のある行動を得るように指導する。
私たちのフレームワークでは、エージェントは大きな言語モデルからトレーニング環境に基礎を置いたタスク命令を受け取ります。
そして、視覚言語モデルにより、報酬フィードバックを提供することでマルチタスク言語条件ポリシーを学ぶエージェントをガイドする。
提案手法は,事前教師なしのスキル発見手法が苦闘しながら,オープン・エンド・ミネドジョ環境において意味的に有意義なスキルを学習できることを実証する。
さらに,市販の基礎モデルを教師として活用する上での課題とその解決に向けた取り組みについて考察した。 We propose a framework that leverages foundation models as teachers, guiding a reinforcement learning agent to acquire semantically meaningful behavior without human feedback. In our framework, the agent receives task instructions grounded in a training environment from large language models. Then, a vision-language model guides the agent in learning the multi-task language-conditioned policy by providing reward feedback. We demonstrate that our method can learn semantically meaningful skills in a challenging open-ended MineDojo environment while prior unsupervised skill discovery methods struggle. Additionally, we discuss observed challenges of using off-the-shelf foundation models as teachers and our efforts to address them. | 翻訳日:2023-12-15 21:48:19 公開日:2023-12-14 |
# 人力航空機設計に着目した単目的・多目的ベンチマーク問題 Single and Multi-Objective Benchmark Problems Focusing on Human-Powered Aircraft Design ( http://arxiv.org/abs/2312.08953v1 ) ライセンス: Link先を確認 | Nobuo Namura | (参考訳) 本稿では,人力航空機(HPA)の設計に特化して,単目的・多目的の最適化の研究を進めるための新しいベンチマーク問題を提案する。
これらのベンチマーク問題は、流体力学や物質力学のような実世界設計の考察を取り入れ、エンジニアリング設計最適化のより現実的なシミュレーションを提供するという点でユニークである。
そこで本研究では,これらの問題に対して3つの難易度レベルと翼分節パラメータを提案する。
これらの問題は計算量的に合理的に設計され、短い評価時間を確保しながら、エンジニアリング設計の問題の適度なマルチモーダリティを捉えている。
多目的問題に対する一般的な進化アルゴリズムを用いた広範な実験により,提案するベンチマークが,凸,線形,凹凸,縮退形といった実世界の問題で観測されるパレートフロント形状を効果的に再現できることが証明された。
ベンチマークとそのpythonソースコードは、最適化研究コミュニティで広く利用するために公開されています。 This paper introduces a novel set of benchmark problems aimed at advancing research in both single and multi-objective optimization, with a specific focus on the design of human-powered aircraft (HPA). These benchmark problems are unique in that they incorporate real-world design considerations such as fluid dynamics and material mechanics, providing a more realistic simulation of engineering design optimization. We propose three difficulty levels and a wing segmentation parameter in these problems, allowing for scalable complexity to suit various research needs. The problems are designed to be computationally reasonable, ensuring short evaluation times, while still capturing the moderate multimodality of engineering design problems. Our extensive experiments using popular evolutionary algorithms for multi-objective problems demonstrate that the proposed benchmarks effectively replicate the diverse Pareto front shapes observed in real-world problems, including convex, linear, concave, and degenerated forms. The benchmarks and their Python source codes are made publicly available for broader use in the optimization research community. | 翻訳日:2023-12-15 21:48:00 公開日:2023-12-14 |
# 対称性の破れと等変ニューラルネットワーク Symmetry Breaking and Equivariant Neural Networks ( http://arxiv.org/abs/2312.09016v1 ) ライセンス: Link先を確認 | S\'ekou-Oumar Kaba, Siamak Ravanbakhsh | (参考訳) ディープラーニングにおける帰納バイアスとして対称性を用いることは、サンプル効率の良いモデル設計の原則的なアプローチであることが証明されている。
しかし、ニューラルネットワークにおける対称性と等価性の命令の関係は必ずしも明確ではない。
ここでは、同変関数において生じる重要な制限について分析する: 個々のデータサンプルのレベルで対称性を壊す能力の欠如。
これに対し、この制限を回避できる「緩和同値」という新しい概念を導入する。
さらに、この緩和を同変多層パーセプトロン(E-MLP)に組み込む方法を示し、ノイズ注入法に代わる方法を提案する。
対称性の破れの関連性は、物理学、グラフ表現学習、組合せ最適化、同変復号など様々な応用領域で議論される。 Using symmetry as an inductive bias in deep learning has been proven to be a principled approach for sample-efficient model design. However, the relationship between symmetry and the imperative for equivariance in neural networks is not always obvious. Here, we analyze a key limitation that arises in equivariant functions: their incapacity to break symmetry at the level of individual data samples. In response, we introduce a novel notion of 'relaxed equivariance' that circumvents this limitation. We further demonstrate how to incorporate this relaxation into equivariant multilayer perceptrons (E-MLPs), offering an alternative to the noise-injection method. The relevance of symmetry breaking is then discussed in various application domains: physics, graph representation learning, combinatorial optimization and equivariant decoding. | 翻訳日:2023-12-15 21:40:33 公開日:2023-12-14 |
# GNN学習評価の不確実性:GNNコミュニティ検出におけるランダム性の定量化方法の比較 Uncertainty in GNN Learning Evaluations: A Comparison Between Measures for Quantifying Randomness in GNN Community Detection ( http://arxiv.org/abs/2312.09015v1 ) ライセンス: Link先を確認 | William Leeney and Ryan McConville | (参考訳) 1) クラスタノードの教師なしコミュニティ検出におけるグラフニューラルネットワーク(GNN)の強化能力は,グラフの接続性と特徴情報空間の両方を符号化する能力に起因している。
潜在コミュニティの同定は、社会ネットワークからゲノム学まで、様々な分野において実用的な意味を持っている。
現在の実世界のパフォーマンスベンチマークは、このタスクに対するGNN評価に影響を与える多くの決定により、混乱している。
2) ランダム性の有無でアルゴリズムランキングの整合性を評価するために3つの指標を比較した。
デフォルトのハイパーパラメータとのハイパーパラメータ最適化による結果の一貫性とパフォーマンスの質を評価した。
3)ハイパーパラメータの最適化とデフォルトのハイパーパラメータを比較し,ハイパーパラメータの調査を無視した場合の大幅な性能低下が確認された。
メトリクスの比較は、ランクの結びつきがランダムネスの定量化を著しく変更できることを示している。
(4)同一評価基準の遵守を確保することは、このタスクのメソッドの報告性能に顕著な違いをもたらす可能性がある。
w$ のランダム性係数は、wasserstein距離に基づいており、最もロバストなランダム性評価を提供すると見なされている。 (1) The enhanced capability of Graph Neural Networks (GNNs) in unsupervised community detection of clustered nodes is attributed to their capacity to encode both the connectivity and feature information spaces of graphs. The identification of latent communities holds practical significance in various domains, from social networks to genomics. Current real-world performance benchmarks are perplexing due to the multitude of decisions influencing GNN evaluations for this task. (2) Three metrics are compared to assess the consistency of algorithm rankings in the presence of randomness. The consistency and quality of performance between the results under a hyperparameter optimisation with the default hyperparameters is evaluated. (3) The results compare hyperparameter optimisation with default hyperparameters, revealing a significant performance loss when neglecting hyperparameter investigation. A comparison of metrics indicates that ties in ranks can substantially alter the quantification of randomness. (4) Ensuring adherence to the same evaluation criteria may result in notable differences in the reported performance of methods for this task. The $W$ Randomness coefficient, based on the Wasserstein distance, is identified as providing the most robust assessment of randomness. | 翻訳日:2023-12-15 21:40:20 公開日:2023-12-14 |
# マルチエージェント強化学習のための適応パラメータ共有 Adaptive parameter sharing for multi-agent reinforcement learning ( http://arxiv.org/abs/2312.09009v1 ) ライセンス: Link先を確認 | Dapeng Li, Na Lou, Bin Zhang, Zhiwei Xu, Guoliang Fan | (参考訳) パラメータ共有はマルチエージェントシステムにおいて重要な手法であり、大規模エージェント問題のスケーラビリティを効果的に解決することができる。
しかし,パラメータ共有の有効性は環境設定に大きく依存する。
エージェントが異なるアイデンティティやタスクを持つ場合、単純パラメータ共有はエージェントの十分な差別化戦略を生成するのを難しくする。
生物学における脳に関する研究から着想を得て,新しいパラメータ共有法を提案する。
エージェントのそれぞれのタイプを、そのアイデンティティに基づいて共有ネットワーク内の異なるリージョンにマッピングし、結果として異なるサブネットワークとなる。
したがって,新たな訓練パラメータを導入することなく,異なるエージェント間の戦略の多様性を高めることができる。
複数の環境で行った実験により,本手法は他のパラメータ共有手法よりも優れた性能を示した。 Parameter sharing, as an important technique in multi-agent systems, can effectively solve the scalability issue in large-scale agent problems. However, the effectiveness of parameter sharing largely depends on the environment setting. When agents have different identities or tasks, naive parameter sharing makes it difficult to generate sufficiently differentiated strategies for agents. Inspired by research pertaining to the brain in biology, we propose a novel parameter sharing method. It maps each type of agent to different regions within a shared network based on their identity, resulting in distinct subnetworks. Therefore, our method can increase the diversity of strategies among different agents without introducing additional training parameters. Through experiments conducted in multiple environments, our method has shown better performance than other parameter sharing methods. | 翻訳日:2023-12-15 21:40:01 公開日:2023-12-14 |
# LLMind: 複雑なタスク実行のためのLLMによるAIとIoTのオーケストレーション LLMind: Orchestrating AI and IoT with LLMs for Complex Task Execution ( http://arxiv.org/abs/2312.09007v1 ) ライセンス: Link先を確認 | Hongwei Cui and Yuyang Du and Qun Yang and Yulin Shao and Soung Chang Liew | (参考訳) 本稿では,大規模な言語モデル(LLM)を中央オーケストレータとして利用する,革新的なAIフレームワークであるLLMindを紹介する。
このフレームワークはLLMとドメイン固有のAIモジュールを統合し、複雑なタスクの実行においてIoTデバイスが効果的に協力できるようにする。
LLMは有限状態マシン(FSM)に基づいて、信頼性が高く正確な言語コード変換アプローチを用いて、計画と制御スクリプトを生成する。
llmはユーザとの自然な会話に関わり、ロールプレイング技術を使ってコンテキスト的に適切な応答を生成する。
さらに、ユーザーはユーザーフレンドリーなソーシャルメディアプラットフォームを介してAIエージェントと簡単に対話できる。
フレームワークにはセマンティック分析と応答最適化技術も組み込まれ、スピードと効率性を高めている。
最終的にこのフレームワークは、IoTデバイスコントロールの革新とユーザエクスペリエンスの強化だけでなく、ユーザとマシンのインタラクションの継続を通じて進化し、より高度なものとなる、インテリジェントで統合されたIoTデバイスエコシステムを育むように設計されている。 In this article, we introduce LLMind, an innovative AI framework that utilizes large language models (LLMs) as a central orchestrator. The framework integrates LLMs with domain-specific AI modules, enabling IoT devices to collaborate effectively in executing complex tasks. The LLM performs planning and generates control scripts using a reliable and precise language-code transformation approach based on finite state machines (FSMs). The LLM engages in natural conversations with users, employing role-playing techniques to generate contextually appropriate responses. Additionally, users can interact easily with the AI agent via a user-friendly social media platform. The framework also incorporates semantic analysis and response optimization techniques to enhance speed and effectiveness. Ultimately, this framework is designed not only to innovate IoT device control and enrich user experiences but also to foster an intelligent and integrated IoT device ecosystem that evolves and becomes more sophisticated through continuing user and machine interactions. | 翻訳日:2023-12-15 21:39:30 公開日:2023-12-14 |
# fedssa: 効率的なモデルヘテロジェンス個別化学習のための意味的類似性に基づくアグリゲーション FedSSA: Semantic Similarity-based Aggregation for Efficient Model-Heterogeneous Personalized Federated Learning ( http://arxiv.org/abs/2312.09006v1 ) ライセンス: Link先を確認 | Liping Yi, Han Yu, Zhuan Shi, Gang Wang, Xiaoguang Liu | (参考訳) フェデレートラーニング(Federated Learning, FL)は、プライバシー保護のための機械学習パラダイムである。
従来のFLでは、すべてのデータ所有者(FLクライアント)が同じローカルモデルをトレーニングする必要がある。
この設計は、データやシステムの不均一性を伴うシナリオには適していない。
MHPFL(Model-Heterogeneous Personalized FL)がこの課題に対処するために登場した。
既存のMHPFLアプローチは、学習タスクと同じ性質の公開データセットを持つこと、あるいは高い計算と通信コストを発生させることにしばしば依存する。
これらの制約に対処するため,FedSSA(Federated Semantic similarity Aggregation)アプローチを提案し,各クライアントのモデルを異種(構造差)特徴抽出器と均質(構造相)分類ヘッダに分割する。
意味的類似性に基づくヘッダパラメータアグリゲーションを通じて、グローバル知識転送を実行する。
さらに、各クライアントの最新のグローバルヘッダーと過去のローカルヘッダーの目に見えるパラメータを融合させる適応パラメータ安定化戦略により、グローバルからローカルへの知識伝達を実現する。
このように、FedSSAは公開データセットに依存せず、部分的なヘッダパラメータ送信のみを必要とする(節約コスト)。
理論的解析はFedSSAの収束を証明している。
大規模な実験により、FedSSAは3.62 \times\%$高い精度、15.54$高い通信効率、15.52 \times$高い計算効率を、最先端の7つのMHPFLベースラインと比較して達成した。 Federated learning (FL) is a privacy-preserving collaboratively machine learning paradigm. Traditional FL requires all data owners (a.k.a. FL clients) to train the same local model. This design is not well-suited for scenarios involving data and/or system heterogeneity. Model-Heterogeneous Personalized FL (MHPFL) has emerged to address this challenge. Existing MHPFL approaches often rely on having a public dataset with the same nature of the learning task, or incur high computation and communication costs. To address these limitations, we propose the Federated Semantic Similarity Aggregation (FedSSA) approach, which splits each client's model into a heterogeneous (structure-different) feature extractor and a homogeneous (structure-same) classification header. It performs local-to-global knowledge transfer via semantic similarity-based header parameter aggregation. In addition, global-to-local knowledge transfer is achieved via an adaptive parameter stabilization strategy which fuses the seen-class parameters of historical local headers with that of the latest global header for each client. In this way, FedSSA does not rely on public datasets, while only requiring partial header parameter transmission (thereby saving costs). Theoretical analysis proves the convergence of FedSSA. Extensive experiments demonstrate that FedSSA achieves up to $3.62 \times\%$ higher accuracy, $15.54$ times higher communication efficiency, and $15.52 \times$ higher computational efficiency compared to 7 state-of-the-art MHPFL baselines. | 翻訳日:2023-12-15 21:39:13 公開日:2023-12-14 |
# 散乱媒質中のシーン3次元再構成システム Scene 3-D Reconstruction System in Scattering Medium ( http://arxiv.org/abs/2312.09005v1 ) ライセンス: Link先を確認 | Zhuoyifan Zhang, Lu Zhang, Liang Wang, Haoming Wu | (参考訳) 新しいビュー合成のための神経放射場の研究は、新しいモデルや拡張の開発で爆発的な成長を経験した。
水中のシーンや散乱媒体に適したNERFアルゴリズムも進化している。
既存の水中3D再構築システムは、訓練時間やレンダリング効率の低下といった課題に直面している。
本稿では,これらの課題に対処し,高速かつ高品質な3d再構成を実現するための改良型水中3d再構成システムを提案する。まず,単眼カメラで撮影された水中映像を改良し,隣接するフレーム間の拡張の一貫性を確保しつつ,水媒体の物性に起因する画質の悪さを補正する。
その後,映像フレーム上でキーフレーム選択を行い,資源利用を最適化し,動的オブジェクトの復元結果への影響を解消する。
選択されたキーフレームは、colmapを用いたポーズ推定の後、モデル構築とレンダリングのためのマルチレゾリューションハッシュ符号化に基づいて、ニューラルネットワークを用いた3次元再構成改善プロセスを行う。 The research on neural radiance fields for new view synthesis has experienced explosive growth with the development of new models and extensions. The NERF algorithm, suitable for underwater scenes or scattering media, is also evolving. Existing underwater 3D reconstruction systems still face challenges such as extensive training time and low rendering efficiency. This paper proposes an improved underwater 3D reconstruction system to address these issues and achieve rapid, high-quality 3D reconstruction.To begin with, we enhance underwater videos captured by a monocular camera to correct the poor image quality caused by the physical properties of the water medium while ensuring consistency in enhancement across adjacent frames. Subsequently, we perform keyframe selection on the video frames to optimize resource utilization and eliminate the impact of dynamic objects on the reconstruction results. The selected keyframes, after pose estimation using COLMAP, undergo a three-dimensional reconstruction improvement process using neural radiance fields based on multi-resolution hash coding for model construction and rendering. | 翻訳日:2023-12-15 21:38:46 公開日:2023-12-14 |
# 反応予測モデルにおける落とし穴の全体化学評価 Holistic chemical evaluation reveals pitfalls in reaction prediction models ( http://arxiv.org/abs/2312.09004v1 ) ライセンス: Link先を確認 | Victor Sabanza Gil, Andres M. Bran, Malte Franke, Remi Schlama, Jeremy S. Luterbacher, Philippe Schwaller | (参考訳) 近年、化学反応の予測は、その複雑さと化学における重要な応用により、機械学習コミュニティで大きな関心を集めている。
しかし、このタスクのモデル評価は、主にトップk精度のような単純なメトリクスに限られており、モデルの制限の詳細な詳細を曖昧にしている。
他の分野の進歩に触発されて、より総合的な評価に向けて、現在のアプローチの上に構築する新しい評価手法を提案する。
CHORISOは、化学的に関係のあるシナリオを再現するための複数の調整された分割を伴う、キュレートされたデータセットであり、モデルの利点と制限の全体像を提供するメトリクスの集合である。
この手法の最先端モデルへの応用は、特に立体選択性と化学分布の一般化において重要な違いを示す。
私たちの研究は、最終的に化学発見を加速できる堅牢な予測モデルへの道を開いた。 The prediction of chemical reactions has gained significant interest within the machine learning community in recent years, owing to its complexity and crucial applications in chemistry. However, model evaluation for this task has been mostly limited to simple metrics like top-k accuracy, which obfuscates fine details of a model's limitations. Inspired by progress in other fields, we propose a new assessment scheme that builds on top of current approaches, steering towards a more holistic evaluation. We introduce the following key components for this goal: CHORISO, a curated dataset along with multiple tailored splits to recreate chemically relevant scenarios, and a collection of metrics that provide a holistic view of a model's advantages and limitations. Application of this method to state-of-the-art models reveals important differences on sensitive fronts, especially stereoselectivity and chemical out-of-distribution generalization. Our work paves the way towards robust prediction models that can ultimately accelerate chemical discovery. | 翻訳日:2023-12-15 21:38:31 公開日:2023-12-14 |
# 再構成可能なインテリジェントサーフェスによる局所化:アクティブセンシングアプローチ Localization with Reconfigurable Intelligent Surface: An Active Sensing Approach ( http://arxiv.org/abs/2312.09002v1 ) ライセンス: Link先を確認 | Zhongze Zhang and Tao Jiang and Wei Yu | (参考訳) 本稿では,基地局 (BS) が,構成変更可能なインテリジェントサーフェス (RIS) の助けを借りて遠隔地ユーザを見つけることを目的としたアップリンクローカライズ問題に対処する。
本稿では、パイロットを順次送信し、BSビームフォーミングベクターと複数のRIS反射係数を含むセンサベクトルを、既に達成された観測に基づいて適応的に調整し、最終的に推定されたユーザ位置を生成する戦略を提案する。
これは、最適な解を見つけるには、測定数で次元が増加する複雑な機能空間を探索することを伴う、挑戦的なアクティブセンシング問題である。
その結果,long short-term memory (lstm) ネットワークは,測定値間の潜在時間相関を利用してスケーラブルな状態ベクトルを自動構築できることがわかった。
その後、状態ベクトルは、ディープニューラルネットワーク(dnn)を介して、次の時間フレームのセンシングベクトルにマッピングされる。
最終dnnは、状態ベクトルを推定ユーザ位置にマッピングするために使用される。
その結果, 非アクティブセンシング法と比較して, アクティブセンシング設計の利点が示された。
提案する解は、解釈可能な結果を生成し、センシング段階の数で一般化する。
注目すべきは、ひとつのBSと複数のRISを持つネットワークが、複数のBSで同等な設定を達成できることである。 This paper addresses an uplink localization problem in which a base station (BS) aims to locate a remote user with the help of reconfigurable intelligent surfaces (RISs). We propose a strategy in which the user transmits pilots sequentially and the BS adaptively adjusts the sensing vectors, including the BS beamforming vector and multiple RIS reflection coefficients based on the observations already made, to eventually produce an estimated user position. This is a challenging active sensing problem for which finding an optimal solution involves searching through a complicated functional space whose dimension increases with the number of measurements. We show that the long short-term memory (LSTM) network can be used to exploit the latent temporal correlation between measurements to automatically construct scalable state vectors. Subsequently, the state vector is mapped to the sensing vectors for the next time frame via a deep neural network (DNN). A final DNN is used to map the state vector to the estimated user position. Numerical result illustrates the advantage of the active sensing design as compared to non-active sensing methods. The proposed solution produces interpretable results and is generalizable in the number of sensing stages. Remarkably, we show that a network with one BS and multiple RISs can outperform a comparable setting with multiple BSs. | 翻訳日:2023-12-15 21:38:15 公開日:2023-12-14 |
# comom at vlsp 2023: ベトナムの比較意見マイニングのためのbertologyとunified multi-task命令チューニングモデルを備えたデュアルステージフレームワーク ComOM at VLSP 2023: A Dual-Stage Framework with BERTology and Unified Multi-Task Instruction Tuning Model for Vietnamese Comparative Opinion Mining ( http://arxiv.org/abs/2312.09000v1 ) ライセンス: Link先を確認 | Dang Van Thin, Duong Ngoc Hao, Ngan Luu-Thuy Nguyen | (参考訳) ComOM共有タスクは、ベトナム語の製品レビューから比較意見を抽出することを目的としている。
1)比較文識別(CSI)と(2)比較要素抽出(CEE)の2つのサブタスクがある。
第1のタスクは、入力が比較レビューであるかどうかを識別し、第2のタスクは比較レビューで言及されているクインタプレットを抽出することである。
この課題に対処するために,本研究では,csiタスクのbertologyモデルとceeタスクの統一マルチタスク命令チューニングを微調整した2段階システムを提案する。
さらに,この単純なデータ拡張手法を適用して,第2段階でモデルをトレーニングするためのデータセットのサイズを拡大する。
実験の結果,我々のアプローチは他の競争相手よりも優れており,公式プライベートテストでトップスコアを獲得していることがわかった。 The ComOM shared task aims to extract comparative opinions from product reviews in Vietnamese language. There are two sub-tasks, including (1) Comparative Sentence Identification (CSI) and (2) Comparative Element Extraction (CEE). The first task is to identify whether the input is a comparative review, and the purpose of the second task is to extract the quintuplets mentioned in the comparative review. To address this task, our team proposes a two-stage system based on fine-tuning a BERTology model for the CSI task and unified multi-task instruction tuning for the CEE task. Besides, we apply the simple data augmentation technique to increase the size of the dataset for training our model in the second stage. Experimental results show that our approach outperforms the other competitors and has achieved the top score on the official private test. | 翻訳日:2023-12-15 21:37:52 公開日:2023-12-14 |
# 統計的品質保証による共形データ合成 Conformalised data synthesis with statistical quality guarantees ( http://arxiv.org/abs/2312.08999v1 ) ライセンス: Link先を確認 | Julia A. Meister, Khuong An Nguyen | (参考訳) より複雑なディープラーニングアーキテクチャの普及に伴い、データ合成はデータハングリーモデルの需要に対処するための非常に有望な技術である。
しかし、「合成器」モデルの出力の質を確実に評価することは、高リスク領域に対する重大なリスクを伴うオープンな研究課題である。
この課題に対処するために,コンフォーマル予測フレームワークの新たな拡張により,統計的信頼性を保証するユニークな自信データ合成アルゴリズムを設計した。
提案アルゴリズムは理論的証明と5つのベンチマークデータセットの広範な実験的評価により支援する。
ユビキタスな実世界の課題に対する我々のアプローチの汎用性を示すために、データセットは、サンプル数、クラス不均衡、非分離性、プライバシに敏感なデータといった、さまざまな難しい特性のために慎重に選択されました。
すべての試験では、自信ある合成データによってトレーニングセットが拡張され、少なくともオリジナルのデータと同様に実行され、Deep Learningのパフォーマンスが最大で65%向上しました。 With the proliferation of ever more complicated Deep Learning architectures, data synthesis is a highly promising technique to address the demand of data-hungry models. However, reliably assessing the quality of a 'synthesiser' model's output is an open research question with significant associated risks for high-stake domains. To address this challenge, we have designed a unique confident data synthesis algorithm that introduces statistical confidence guarantees through a novel extension of the Conformal Prediction framework. We support our proposed algorithm with theoretical proofs and an extensive empirical evaluation of five benchmark datasets. To show our approach's versatility on ubiquitous real-world challenges, the datasets were carefully selected for their variety of difficult characteristics: low sample count, class imbalance and non-separability, and privacy-sensitive data. In all trials, training sets extended with our confident synthesised data performed at least as well as the original, and frequently significantly improved Deep Learning performance by up to +65% F1-score. | 翻訳日:2023-12-15 21:37:31 公開日:2023-12-14 |
# 感情的マルチモーダル病理学的音声データベースの設計・構築・評価 Design, construction and evaluation of emotional multimodal pathological speech database ( http://arxiv.org/abs/2312.08998v1 ) ライセンス: Link先を確認 | Ting Zhu, Shufei Duan, Huizhi Liang, Wei Zhang | (参考訳) 利用可能な感情病理データベースの欠如は、不整脈患者の感情表現状態を研究する上で重要な障害の1つである。
本稿では,マルチパースペクティブ情報を含む最初の中国語マルチモーダル感情病的音声データベースについて述べる。
29のコントロールと39の患者が、幸せ、悲しみ、怒り、中立的な感情を表現している。
全感情音声は,WeChatのミニプログラムにより,インテリジェンス,タイプ,離散次元感情にラベル付けされた。
主観的分析は,感情識別精度,発話明瞭度,ヴァレンス・覚醒空間分布,scl-90と疾患重症度との相関から正当化される。
音声と声門データを用いた自動認識では, 平均精度78%, 音声の60%, コントロール51%, 声門データ38%で, 感情表現への影響が示唆された。 The lack of an available emotion pathology database is one of the key obstacles in studying the emotion expression status of patients with dysarthria. The first Chinese multimodal emotional pathological speech database containing multi-perspective information is constructed in this paper. It includes 29 controls and 39 patients with different degrees of motor dysarthria, expressing happy, sad, angry and neutral emotions. All emotional speech was labeled for intelligibility, types and discrete dimensional emotions by developed WeChat mini-program. The subjective analysis justifies from emotion discrimination accuracy, speech intelligibility, valence-arousal spatial distribution, and correlation between SCL-90 and disease severity. The automatic recognition tested on speech and glottal data, with average accuracy of 78% for controls and 60% for patients in audio, while 51% for controls and 38% for patients in glottal data, indicating an influence of the disease on emotional expression. | 翻訳日:2023-12-15 21:37:13 公開日:2023-12-14 |
# FrameFinder:ニュース見出しからの探索的マルチパースペクティブ・フラーミング抽出 FrameFinder: Explorative Multi-Perspective Framing Extraction from News Headlines ( http://arxiv.org/abs/2312.08995v1 ) ライセンス: Link先を確認 | Markus Reiter-Haas, Beate Kl\"osch, Markus Hadler, Elisabeth Lex | (参考訳) ニュース記事のフレーミングは、情報検索や検索において、無視される重要な課題である。
本研究では,テキストデータからフレームを抽出・解析するオープンツールであるFrameFinderを提案する。
FrameFinderは3つの視点からテキストのフレームを視覚的に表現する。
(i)フレームラベル、
(ii)フレーム寸法、及び
(iii)フレーム構造。
確立された銃暴力フレームコーパスを分析し,社会科学研究を支援するためのソリューションのメリットを実証し,その後の情報インタラクションへの統合を求める。 Revealing the framing of news articles is an important yet neglected task in information seeking and retrieval. In the present work, we present FrameFinder, an open tool for extracting and analyzing frames in textual data. FrameFinder visually represents the frames of text from three perspectives, i.e., (i) frame labels, (ii) frame dimensions, and (iii) frame structure. By analyzing the well-established gun violence frame corpus, we demonstrate the merits of our proposed solution to support social science research and call for subsequent integration into information interactions. | 翻訳日:2023-12-15 21:36:57 公開日:2023-12-14 |
# PANDA: 分析と機械学習の統合によるアーキテクチャレベルのパワー評価 PANDA: Architecture-Level Power Evaluation by Unifying Analytical and Machine Learning Solutions ( http://arxiv.org/abs/2312.08994v1 ) ライセンス: Link先を確認 | Qijun Zhang, Shiyu Li, Guanglei Zhou, Jingyu Pan, Chen-Chia Chang, Yiran Chen, Zhiyao Xie | (参考訳) 電力効率は現代のマイクロプロセッサ設計において重要な設計目標である。
アーキテクチャレベルの設計決定の影響を評価するには、正確かつ効率的なアーキテクチャレベルの電力モデルが望まれる。
しかし、McPATやWattchのような広く採用されているデータ非依存の分析パワーモデルは、信頼性の低い精度で批判されている。
アーキテクチャレベルのパワーモデリングには機械学習(ML)手法が提案されているが、トレーニングに十分な既知の設計に依存しており、利用可能な設計の数が限られている場合、性能が良くない。
本研究では、既存のアーキテクチャレベルのパワーモデルを統一する一般的な定式化を導出する。
この定式化に基づいて,解析モデルとMLパワーモデルの利点を組み合わせた,革新的なアーキテクチャレベルのソリューションであるPANDAを提案する。
これは、訓練のための非常に限られた設計であっても、未知の新しい設計に対して前例のない高い精度を達成する。
優れたパワーモデルであるだけでなく、面積、性能、エネルギーを正確に予測することができる。
PANDAは未知の新しい技術ノードの電力予測もサポートする。
実験では、PANDAの優れた性能と幅広い機能を検証することに加えて、PANDAが電力制約を課した高性能な設計構成を特定することを証明するアプリケーションシナリオも提案した。 Power efficiency is a critical design objective in modern microprocessor design. To evaluate the impact of architectural-level design decisions, an accurate yet efficient architecture-level power model is desired. However, widely adopted data-independent analytical power models like McPAT and Wattch have been criticized for their unreliable accuracy. While some machine learning (ML) methods have been proposed for architecture-level power modeling, they rely on sufficient known designs for training and perform poorly when the number of available designs is limited, which is typically the case in realistic scenarios. In this work, we derive a general formulation that unifies existing architecture-level power models. Based on the formulation, we propose PANDA, an innovative architecture-level solution that combines the advantages of analytical and ML power models. It achieves unprecedented high accuracy on unknown new designs even when there are very limited designs for training, which is a common challenge in practice. Besides being an excellent power model, it can predict area, performance, and energy accurately. PANDA further supports power prediction for unknown new technology nodes. In our experiments, besides validating the superior performance and the wide range of functionalities of PANDA, we also propose an application scenario, where PANDA proves to identify high-performance design configurations given a power constraint. | 翻訳日:2023-12-15 21:36:49 公開日:2023-12-14 |
# スピンクビットゲートベースリードアウトにおける固有SNRのモデル化と実験的検証とそのリードアウトエレクトロニクスへの影響 Modeling and Experimental Validation of the Intrinsic SNR in Spin Qubit Gate-Based Readout and Its Impacts on Readout Electronics ( http://arxiv.org/abs/2312.08993v1 ) ライセンス: Link先を確認 | Bagas Prabowo, Jurgen Dijkema, Xiao Xue, Fabio Sebastiano, Lieven M. K. Vandersypen, Masoud Babaie | (参考訳) 半導体スピン量子ビット(qubits)では、無線周波数(rf)ゲートベースの読み出しは、高速で周波数多重化された読み出しアーキテクチャを可能にするため、将来の大規模統合にとって有望なソリューションである。
本稿では,rfゲートを用いた読み出しシステムにおいて,読み出しプローブパワー,読み出しチェーンのノイズ性能,本質的な読み出し信号対雑音比(snr)に対する積分時間など様々なパラメータの影響を評価するための理論的枠組みを提案する。
読み出し中のスピン量子ビットの物理を解析することにより、上記のパラメータ間のトレードオフを評価する方法として、量子ビットの量子力学的特性を考慮した量子ビット読み出しモデルを提案する。
本モデルの有効性は,シミュレーションと実験結果を比較して評価する。
提案した解析手法, 開発モデル, 実験結果により, 設計者はリードアウトチェーン全体を効果的に最適化することができ, より高速で低消費電力のリードアウトシステムを実現することができる。 In semiconductor spin quantum bits (qubits), the radio-frequency (RF) gate-based readout is a promising solution for future large-scale integration, as it allows for a fast, frequency-multiplexed readout architecture, enabling multiple qubits to be read out simultaneously. This paper introduces a theoretical framework to evaluate the effect of various parameters, such as the readout probe power, readout chain's noise performance, and integration time on the intrinsic readout signal-to-noise ratio (SNR), and thus readout fidelity of RF gate-based readout systems. By analyzing the underlying physics of spin qubits during readout, this work proposes a qubit readout model that takes into account the qubit's quantum mechanical properties, providing a way to evaluate the trade-offs among the aforementioned parameters. The validity of the proposed model is evaluated by comparing the simulation and experimental results. The proposed analytical approach, the developed model, and the experimental results enable designers to optimize the entire readout chain effectively, thus leading to a faster, lower-power readout system with integrated cryogenic electronics. | 翻訳日:2023-12-15 21:36:31 公開日:2023-12-14 |
# cmose: 高品質ラベルを用いた総合的マルチモダリティオンライン学生エンゲージメントデータセット CMOSE: Comprehensive Multi-Modality Online Student Engagement Dataset with High-Quality Labels ( http://arxiv.org/abs/2312.09066v1 ) ライセンス: Link先を確認 | Chi-hsuan Wu, Shih-yang Liu, Xijie Huang, Xingbo Wang, Rong Zhang, Luca Minciullo, Wong Kai Yiu, Kenny Kwan, Kwang-Ting Cheng | (参考訳) オンライン学習はその利便性のために急速に成長している産業だ。
しかし、オンライン学習における大きな課題は、学生が対面クラスに通っているかどうかである。
エンゲージメント認識システムは、オンライン授業における学習体験を大幅に改善することができる。
現在のエンゲージメント検出の課題は、データセットのラベル品質の低下、クラス内変異、極端なデータ不均衡などである。
これらの問題に対処するため,心理アドバイスに基づき,様々なエンゲージメントレベルの大量のデータと高品質なラベルを含むCMOSEデータセットを提案する。
他のエンゲージメントデータセットにおけるモデルパフォーマンスを分析することで、転送可能性の利点を実証する。
また,クラス内変動,クラス間の順序関係,データ不均衡問題を扱うためのトレーニング機構であるMocoRankを開発した。
MocoRankは、前回のエンゲージメント検出損失を上回っ、全体的な精度が1.32%向上し、平均精度が5.05%向上した。
さらに,事前学習した映像特徴量,高レベル顔特徴量,音声特徴量などの特徴についてアブレーション研究を行い,マルチモダリティの有効性を実証する。 Online learning is a rapidly growing industry due to its convenience. However, a major challenge in online learning is whether students are as engaged as they are in face-to-face classes. An engagement recognition system can significantly improve the learning experience in online classes. Current challenges in engagement detection involve poor label quality in the dataset, intra-class variation, and extreme data imbalance. To address these problems, we present the CMOSE dataset, which contains a large number of data in different engagement levels and high-quality labels generated according to the psychological advice. We demonstrate the advantage of transferability by analyzing the model performance on other engagement datasets. We also developed a training mechanism, MocoRank, to handle the intra-class variation, the ordinal relationship between different classes, and the data imbalance problem. MocoRank outperforms prior engagement detection losses, achieving a 1.32% enhancement in overall accuracy and 5.05% improvement in average accuracy. We further demonstrate the effectiveness of multi-modality by conducting ablation studies on features such as pre-trained video features, high-level facial features, and audio features. | 翻訳日:2023-12-15 21:29:06 公開日:2023-12-14 |
# 感情分類におけるトピックバイアス Topic Bias in Emotion Classification ( http://arxiv.org/abs/2312.09043v1 ) ライセンス: Link先を確認 | Maximilian Wegge and Roman Klinger | (参考訳) 感情コーパスは通常、キーワード/ハッシュタグ検索や研究参加者にテキストインスタンスの生成を依頼することでサンプル化される。
いずれにしても、これらのコーパスはドメイン全体を表す一様なサンプルではない。
私たちは、このデータ取得のプラクティスが、モデルの一般化可能性に影響を与えるコーパスの過剰なトピック間の非現実的な相関をもたらすと仮定する。
このような話題のバイアスは、"i organized the service for my aunt's funeral"(おばさんの葬儀のサービスを組織した)のような例の誤った予測につながる可能性がある。
本稿では,このトピックのバイアスについて,データとモデリングの観点から検討する。
まず、トピックモデリングを通して感情コーパスを自動的にラベル付けし、実際に感情が特定のトピックと相関していることを示す。
さらに,感情分類器は,そのような話題が組み合わさっている。
最後に,勾配反転による逆補正の確立したデバイアス手法がこの問題を緩和することを示す。
本研究は、既存の感情コーパスの問題と、感情概念をテキストから予測するモデルの公平な評価により多くの代表的リソースが必要であることを指摘する。 Emotion corpora are typically sampled based on keyword/hashtag search or by asking study participants to generate textual instances. In any case, these corpora are not uniform samples representing the entirety of a domain. We hypothesize that this practice of data acquisition leads to unrealistic correlations between overrepresented topics in these corpora that harm the generalizability of models. Such topic bias could lead to wrong predictions for instances like "I organized the service for my aunt's funeral." when funeral events are over-represented for instances labeled with sadness, despite the emotion of pride being more appropriate here. In this paper, we study this topic bias both from the data and the modeling perspective. We first label a set of emotion corpora automatically via topic modeling and show that emotions in fact correlate with specific topics. Further, we see that emotion classifiers are confounded by such topics. Finally, we show that the established debiasing method of adversarial correction via gradient reversal mitigates the issue. Our work points out issues with existing emotion corpora and that more representative resources are required for fair evaluation of models predicting affective concepts from text. | 翻訳日:2023-12-15 21:28:48 公開日:2023-12-14 |
# スペクトルフィルタリングを多用したグラフニューラルネットワーク Graph Neural Networks with Diverse Spectral Filtering ( http://arxiv.org/abs/2312.09041v1 ) ライセンス: Link先を確認 | Jingwei Guo, Kaizhu Huang, Xinping Yi, Rui Zhang | (参考訳) スペクトルグラフニューラルネットワーク(GNN)はグラフ機械学習において大きな成功を収めており、グラフ畳み込みに多項式フィルタを適用している。
この成功にもかかわらず、既存のスペクトルGNNは、現実世界のネットワークで通常見られるような局所的な不均一性を無視した均一なスペクトルフィルタリング設定のため、複雑なネットワーク(例えばWWW)を扱うことができない。
そこで本研究では,ノード固有のフィルタ重み付けを自動的に学習し,局所構造を適切に活用する,新しいスペクトルフィルタリング(DSF)フレームワークを提案する。
特に、多様性のあるフィルタの重みは、すべてのノード間で共有されるグローバルなコンポーネントと、異なるグラフ部分から生じるノードの差を反映するためにネットワークエッジに沿って変化するローカルなコンポーネントの2つから成り立っている。
したがって、グローバルグラフの特徴をキャプチャできるだけでなく、異なるノードの位置を認識することで、多様なローカルパターンを発掘することができる。
興味深いことに、我々は多様なフィルタの学習を支援するために新しい最適化問題を定式化し、また、DSFフレームワークでスペクトルGNNを拡張できます。
本稿では,GPR-GNN,BernNet,JacobiConvの3つの最先端技術に関するフレームワークを紹介する。
10のベンチマークデータセットに対する大規模な実験により、我々のフレームワークは、ノード分類タスクにおいて最大4.92%のモデル性能を継続的に向上し、解釈可能性を高めた多様なフィルタを作成できることを示した。
コードは \url{https://github.com/jingweio/DSF} で入手できる。 Spectral Graph Neural Networks (GNNs) have achieved tremendous success in graph machine learning, with polynomial filters applied for graph convolutions, where all nodes share the identical filter weights to mine their local contexts. Despite the success, existing spectral GNNs usually fail to deal with complex networks (e.g., WWW) due to such homogeneous spectral filtering setting that ignores the regional heterogeneity as typically seen in real-world networks. To tackle this issue, we propose a novel diverse spectral filtering (DSF) framework, which automatically learns node-specific filter weights to exploit the varying local structure properly. Particularly, the diverse filter weights consist of two components -- A global one shared among all nodes, and a local one that varies along network edges to reflect node difference arising from distinct graph parts -- to balance between local and global information. As such, not only can the global graph characteristics be captured, but also the diverse local patterns can be mined with awareness of different node positions. Interestingly, we formulate a novel optimization problem to assist in learning diverse filters, which also enables us to enhance any spectral GNNs with our DSF framework. We showcase the proposed framework on three state-of-the-arts including GPR-GNN, BernNet, and JacobiConv. Extensive experiments over 10 benchmark datasets demonstrate that our framework can consistently boost model performance by up to 4.92% in node classification tasks, producing diverse filters with enhanced interpretability. Code is available at \url{https://github.com/jingweio/DSF}. | 翻訳日:2023-12-15 21:28:29 公開日:2023-12-14 |
# STaR:軽量音声自己監督学習モデルのための音声時間関係の蒸留 STaR: Distilling Speech Temporal Relation for Lightweight Speech Self-Supervised Learning Models ( http://arxiv.org/abs/2312.09040v1 ) ライセンス: Link先を確認 | Kangwook Jang and Sungnyun Kim and Hoirin Kim | (参考訳) Transformerベースの音声自己教師学習(SSL)モデルの優れた性能にもかかわらず、その大きなパラメータサイズと計算コストは、それらを利用するのが好ましくない。
本研究では,音声時間関係(STaR)を蒸留して音声SSLモデルを圧縮することを提案する。
従来の音声フレームの表現と直接一致する従来の研究とは異なり、STaR蒸留は音声フレーム間の時間的関係を伝達する。
3つのSTaR蒸留目標を探索し、最終STaR損失として最適な組み合わせを選択する。
HuBERT BASE から抽出したモデルは SUPERB ベンチマークで 79.8 の総合スコアを達成し,最大2700万のパラメータを持つモデルの中で最高の性能を示した。
提案手法は,異なる音声SSLモデルに適用可能であり,より少ないパラメータで頑健な性能を維持できることを示す。 Albeit great performance of Transformer-based speech selfsupervised learning (SSL) models, their large parameter size and computational cost make them unfavorable to utilize. In this study, we propose to compress the speech SSL models by distilling speech temporal relation (STaR). Unlike previous works that directly match the representation for each speech frame, STaR distillation transfers temporal relation between speech frames, which is more suitable for lightweight student with limited capacity. We explore three STaR distillation objectives and select the best combination as the final STaR loss. Our model distilled from HuBERT BASE achieves an overall score of 79.8 on SUPERB benchmark, the best performance among models with up to 27 million parameters. We show that our method is applicable across different speech SSL models and maintains robust performance with further reduced parameters. | 翻訳日:2023-12-15 21:28:02 公開日:2023-12-14 |
# tap4llm: 大言語モデル推論のための半構造化データのサンプリング、拡張、パッキングに関するテーブルプロバイダ TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning ( http://arxiv.org/abs/2312.09039v1 ) ライセンス: Link先を確認 | Yuan Sui, Jiaru Zou, Mengyu Zhou, Xinyi He, Lun Du, Shi Han, Dongmei Zhang | (参考訳) テーブル推論は、幅広いテーブルベースのタスクで著しく進歩している。
これらの困難なタスクは、自由形式自然言語(NL)質問と半構造化表データの両方を推論する必要がある。
しかし、以前の表推論ソリューションは、"huge"テーブルのパフォーマンスが著しく低下する。
さらに、既存のほとんどの手法は、重要な情報がない、あるいは異なる場所に散らばっているため、複雑な問題を理解するのに苦労している。
これらの課題を緩和するために,多用途なサンプリング,拡張,パッキングの手法であるtap4llmを利用して,大規模言語モデル(llm)を用いた効果的な半構造化データ推論を実現する。
1) 規則又は意味的類似性に基づいて,原表を特定の行又は列でサブテーブルに分解する。
2) 信頼に値する知識ソース(例えば、Wolfram Alpha, Wikipedia)から関連知識を取得しつつ、生の表から意味的・統計的メタデータを抽出し、テーブル情報を強化する。
3) トークン割り当てトレードオフのバランスを保ちながら、サンプルテーブルを拡張知識でLCMの推論のシーケンスプロンプトに詰め込む。
我々は,TAP4LLMがプラグインとして異なるコンポーネントを可能にすることを示し,多様な表処理における構造化データに対するLLMsの理解を高めた。 Table reasoning has shown remarkable progress in a wide range of table-based tasks. These challenging tasks require reasoning over both free-form natural language (NL) questions and semi-structured tabular data. However, previous table reasoning solutions suffer from significant performance degradation on "huge" tables. In addition, most existing methods struggle to reason over complex questions since they lack essential information or they are scattered in different places. To alleviate these challenges, we exploit a table provider, namely TAP4LLM, on versatile sampling, augmentation, and packing methods to achieve effective semi-structured data reasoning using large language models (LLMs), which 1) decompose raw tables into sub-tables with specific rows or columns based on the rules or semantic similarity; 2) augment table information by extracting semantic and statistical metadata from raw tables while retrieving relevant knowledge from trustworthy knowledge sources (e.g., Wolfram Alpha, Wikipedia); 3) pack sampled tables with augmented knowledge into sequence prompts for LLMs reasoning while balancing the token allocation trade-off. We show that TAP4LLM allows for different components as plug-ins, enhancing LLMs' understanding of structured data in diverse tabular tasks. | 翻訳日:2023-12-15 21:27:47 公開日:2023-12-14 |
# 比較リファインメントフレームワークを用いた科学文書からの物体認識 Object Recognition from Scientific Document based on Compartment Refinement Framework ( http://arxiv.org/abs/2312.09038v1 ) ライセンス: Link先を確認 | Jinghong Li, Wen Gu, Koichi Ota, Shinobu Hasegawa | (参考訳) 過去10年間のインターネットの急速な発展とともに、膨大な資源から価値ある情報を効率的に抽出することがますます重要になってきており、特に調査や理解の文脈において、包括的なデジタルエコシステムを確立する上で重要である。
これらのタスクの基礎は、堅牢なデータ基盤を構築するのに不可欠である科学文書からのデータの正確な抽出と深層採掘に焦点を当てている。
しかしながら、生データを解析したり、複雑な科学文書からデータを抽出することは、現在進行中の課題である。
現在の科学文書のデータ抽出方法は、典型的にはルールベース(rb)または機械学習(ml)アプローチを用いる。
しかし、ルールベースの方法を用いることで、複雑な型付けを持つ記事に対して高いコーディングコストを発生させることができる。
逆に、機械学習メソッドのみに依存することは、科学文書内の複雑なコンテンツタイプに対するアノテーション処理を必要とする。
さらに、科学的文書内の階層配置を徹底的に定義・検討した研究は少ない。
文書の内部構造と要素の包括的定義の欠如は、テキスト分類とオブジェクト認識タスクの精度に間接的に影響を及ぼす。
特定出版物における標準レイアウトとタイプセットの分析の観点から,CTBR(Compartment & Text Blocks Refinement)と呼ばれる新しい文書レイアウト分析フレームワークを提案する。
まず、科学文書をベースドメイン、コンパートメント、テキストブロックという階層的な区分に定義する。
次に,テキストブロックの意味の詳細な探索と分類を行う。
最後に,規則に基づく区画分割に基づく科学的文書内のオブジェクト認識を実現するために,テキストブロック分類の結果を利用する。 With the rapid development of the internet in the past decade, it has become increasingly important to extract valuable information from vast resources efficiently, which is crucial for establishing a comprehensive digital ecosystem, particularly in the context of research surveys and comprehension. The foundation of these tasks focuses on accurate extraction and deep mining of data from scientific documents, which are essential for building a robust data infrastructure. However, parsing raw data or extracting data from complex scientific documents have been ongoing challenges. Current data extraction methods for scientific documents typically use rule-based (RB) or machine learning (ML) approaches. However, using rule-based methods can incur high coding costs for articles with intricate typesetting. Conversely, relying solely on machine learning methods necessitates annotation work for complex content types within the scientific document, which can be costly. Additionally, few studies have thoroughly defined and explored the hierarchical layout within scientific documents. The lack of a comprehensive definition of the internal structure and elements of the documents indirectly impacts the accuracy of text classification and object recognition tasks. From the perspective of analyzing the standard layout and typesetting used in the specified publication, we propose a new document layout analysis framework called CTBR(Compartment & Text Blocks Refinement). Firstly, we define scientific documents into hierarchical divisions: base domain, compartment, and text blocks. Next, we conduct an in-depth exploration and classification of the meanings of text blocks. Finally, we utilize the results of text block classification to implement object recognition within scientific documents based on rule-based compartment segmentation. | 翻訳日:2023-12-15 21:27:24 公開日:2023-12-14 |
# 筆跡認識における真理品質の影響 Impact of Ground Truth Quality on Handwriting Recognition ( http://arxiv.org/abs/2312.09037v1 ) ライセンス: Link先を確認 | Michael Jungo, Lars V\"ogtlin, Atefeh Fakhari, Nathan Wegmann, Rolf Ingold, Andreas Fischer, Anna Scius-Bertrand | (参考訳) 筆跡認識は古写本のコンテンツにアクセスするための重要な技術であり、文化遺産の保存に役立つ。
ディープラーニングは、この課題の解決において印象的なパフォーマンスを示している。
しかし、その可能性を最大限に発揮するには大量のラベル付きデータが必要であり、古代の言語やスクリプトでは入手が困難である。
多くの場合、最近導入されたbullingerデータベースのように、根拠となる真実の量と品質の間でトレードオフが行われなければならない。
既存のページレベルの書き起こしをテキスト行イメージに自動的に調整することによって得られた、ほとんどが前近代ドイツ語とラテン文字の10万以上のラベル付きテキスト行イメージが含まれている。
しかし、アライメントプロセスは、間違ったハイフン付き単語のような体系的な誤りをもたらす。
本稿では,このような誤りがトレーニングや評価に与える影響を調査し,典型的なアライメント誤りの検出と修正手段を提案する。 Handwriting recognition is a key technology for accessing the content of old manuscripts, helping to preserve cultural heritage. Deep learning shows an impressive performance in solving this task. However, to achieve its full potential, it requires a large amount of labeled data, which is difficult to obtain for ancient languages and scripts. Often, a trade-off has to be made between ground truth quantity and quality, as is the case for the recently introduced Bullinger database. It contains an impressive amount of over a hundred thousand labeled text line images of mostly premodern German and Latin texts that were obtained by automatically aligning existing page-level transcriptions with text line images. However, the alignment process introduces systematic errors, such as wrongly hyphenated words. In this paper, we investigate the impact of such errors on training and evaluation and suggest means to detect and correct typical alignment errors. | 翻訳日:2023-12-15 21:27:01 公開日:2023-12-14 |
# 空間離散化における量子改善 Quantum improvement in Spatial Discretization ( http://arxiv.org/abs/2312.09036v1 ) ライセンス: Link先を確認 | Saul Gonzalez and Parfait Atchade-Adelomou | (参考訳) 量子アルゴリズムは、いくつかの計算分野において古典的なアルゴリズムを超え始めているが、ハードウェアやソフトウェアに制限があるため、実用的な応用は依然として難しい。
本稿では,これらの制約の中で空間的離散化を2次的に改善する量子アルゴリズムを提案する。
量子ソフトウェアライブラリpennylaneに実装されたこのアルゴリズムは、理論モデルから有形量子回路へのギャップを埋める。
このアプローチは量子空間解析における効率性の向上を約束し、シミュレーションとハードウェア実験がその可能性を検証する。 Quantum algorithms have begun to surpass classical ones in several computation fields, yet practical application remains challenging due to hardware and software limitations. Here, we introduce a quantum algorithm that quadratically improves spatial discretization within these constraints. Implemented in the quantum software library Pennylane, our algorithm bridges the gap from theoretical models to tangible quantum circuitry. The approach promises enhanced efficiency in quantum spatial analysis, with simulations and hardware experiments validating its potential. | 翻訳日:2023-12-15 21:26:46 公開日:2023-12-14 |
# 自律意思決定における能力評価のためのサプライズ指標の利用 Using Surprise Index for Competency Assessment in Autonomous Decision-Making ( http://arxiv.org/abs/2312.09033v1 ) ライセンス: Link先を確認 | Akash Ratheesh, Ofer Dagan, Nisar R. Ahmed, Natasha Bosanac, Jay McMahon | (参考訳) 本稿では,特に動的かつ不確実な環境での作業において,自律システムのタスク遂行能力を評価する問題について考察する。
マシンラーニングモデルの本質的な不透明さは、ユーザの視点からすると、しばしば‘ブラックボックス’と表現されるため、課題となる。
そこで,本研究では,利用可能な測定データを利用して,動的システムが期待通りに動作するかどうかを定量化するサプライズ指標を提案する。
確率モデルにおいて観測されたエビデンスが多変量ガウス周縁分布に従う場合、サプライズ指数は動的系の閉形式で計算できることを示した。
次に、非線形宇宙船の操作問題に適用し、強化学習エージェントによって行動が選択され、軌道が要求される軌道にどれだけうまく従うかを示す。 This paper considers the problem of evaluating an autonomous system's competency in performing a task, particularly when working in dynamic and uncertain environments. The inherent opacity of machine learning models, from the perspective of the user, often described as a `black box', poses a challenge. To overcome this, we propose using a measure called the Surprise index, which leverages available measurement data to quantify whether the dynamic system performs as expected. We show that the surprise index can be computed in closed form for dynamic systems when observed evidence in a probabilistic model if the joint distribution for that evidence follows a multivariate Gaussian marginal distribution. We then apply it to a nonlinear spacecraft maneuver problem, where actions are chosen by a reinforcement learning agent and show it can indicate how well the trajectory follows the required orbit. | 翻訳日:2023-12-15 21:26:39 公開日:2023-12-14 |
# iComMa: 比較とマッチングによるカメラポーズ推定のための3Dガウススプレイティングの反転 iComMa: Inverting 3D Gaussians Splatting for Camera Pose Estimation via Comparing and Matching ( http://arxiv.org/abs/2312.09031v1 ) ライセンス: Link先を確認 | Yuan Sun, Xuan Wang, Yunfan Zhang, Jie Zhang, Caigui Jiang, Yu Guo, Fei Wang | (参考訳) コンピュータビジョンにおける6次元ポーズ推定問題に対処するため,iComMaという手法を提案する。
従来のポーズ推定手法は、通常、ターゲットのCADモデルに依存するか、特定のオブジェクトクラスに合わせた特定のネットワークトレーニングを必要とする。
既存の手法では、前述の制約を克服することを目的として、NeRF(Neural Radiance Field)の反転を利用してメッシュフリーの6Dポーズ推定に対処している。
しかし、それでも悪質な初期化に苦しむ。
対照的に、ポーズ推定は、3次元ガウススティング(3DGS)を比較損失と整合損失の両方で逆転する問題としてモデル化する。
より詳しくは、ポーズの正確な推定にレンダリング・アンド・コンペア戦略を採用する。
さらに、マッチングモジュールは、2dキーポイント間の距離を最小化することで、悪質な初期化に対するモデルのロバスト性を高めるように設計されている。
このフレームワークは、render-and-compareとmatching-basedアプローチの特徴的な特徴と固有の理論的根拠を体系的に取り入れている。
この包括的考察は、高いレベルの予測精度を維持しながら、かなり角度のずれのあるインスタンスを含む、より広範囲の複雑で困難なシナリオに効果的に対処するためのフレームワークを提供する。
実験により, 課題シナリオにおける複合現実データの評価において, 提案手法の精度とロバスト性について検討した。 We present a method named iComMa to address the 6D pose estimation problem in computer vision. The conventional pose estimation methods typically rely on the target's CAD model or necessitate specific network training tailored to particular object classes. Some existing methods address mesh-free 6D pose estimation by employing the inversion of a Neural Radiance Field (NeRF), aiming to overcome the aforementioned constraints. However, it still suffers from adverse initializations. By contrast, we model the pose estimation as the problem of inverting the 3D Gaussian Splatting (3DGS) with both the comparing and matching loss. In detail, a render-and-compare strategy is adopted for the precise estimation of poses. Additionally, a matching module is designed to enhance the model's robustness against adverse initializations by minimizing the distances between 2D keypoints. This framework systematically incorporates the distinctive characteristics and inherent rationale of render-and-compare and matching-based approaches. This comprehensive consideration equips the framework to effectively address a broader range of intricate and challenging scenarios, including instances with substantial angular deviations, all while maintaining a high level of prediction accuracy. Experimental results demonstrate the superior precision and robustness of our proposed jointly optimized framework when evaluated on synthetic and complex real-world data in challenging scenarios. | 翻訳日:2023-12-15 21:26:25 公開日:2023-12-14 |
# 正確な印刷数式認識に向けたデュアルブランチネットワーク Dual Branch Network Towards Accurate Printed Mathematical Expression Recognition ( http://arxiv.org/abs/2312.09030v1 ) ライセンス: Link先を確認 | Yuqing Wang, Zhenyu Weng, Zhaokun Zhou, Shuaijian Ji, Zhongjie Ye, Yuesheng Zhu | (参考訳) 近年,PMER(Printed Mathematical Expression Recognition)が急速に進展している。
しかし、畳み込みニューラルネットワークが捉えた文脈情報が不十分なため、いくつかの数学的シンボルは誤って認識されるか、見逃される可能性がある。
そこで,本稿では,ローカルとグローバルの両方の文脈情報から正確なpmerを学習するために,dual branch transformer-based network (dbn)を提案する。
dbnでは,局所的特徴とグローバル的特徴を同時に抽出し,グローバルコンテキストとローカルコンテキスト間の機能を補完するコンテキスト結合モジュール(ccm)を開発した。
CCMは、各表現記号に結合した文脈ヒントが高い相関関係を持つように、対話的な方法を採用する。
さらに、シンボルカテゴリ間の類似性を合理的なラベル生成に活用するための動的ソフトターゲット(DST)戦略を設計する。
実験の結果,dbnは数学的表現を正確に認識でき,最先端の性能を達成できた。 Over the past years, Printed Mathematical Expression Recognition (PMER) has progressed rapidly. However, due to the insufficient context information captured by Convolutional Neural Networks, some mathematical symbols might be incorrectly recognized or missed. To tackle this problem, in this paper, a Dual Branch transformer-based Network (DBN) is proposed to learn both local and global context information for accurate PMER. In our DBN, local and global features are extracted simultaneously, and a Context Coupling Module (CCM) is developed to complement the features between the global and local contexts. CCM adopts an interactive manner so that the coupled context clues are highly correlated to each expression symbol. Additionally, we design a Dynamic Soft Target (DST) strategy to utilize the similarities among symbol categories for reasonable label generation. Our experimental results have demonstrated that DBN can accurately recognize mathematical expressions and has achieved state-of-the-art performance. | 翻訳日:2023-12-15 21:26:00 公開日:2023-12-14 |
# 視覚位置認識のための低ビット量子化ニューラルネットワークの設計空間探索 Design Space Exploration of Low-Bit Quantized Neural Networks for Visual Place Recognition ( http://arxiv.org/abs/2312.09028v1 ) ライセンス: Link先を確認 | Oliver Grainge, Michael Milford, Indu Bodala, Sarvapali D. Ramchurn and Shoaib Ehsan | (参考訳) 視覚的位置認識(VPR)は、視覚認識システムにおいて、グローバルな再局在を行うための重要なタスクである。
照明、咬合、外観、視点などのバリエーションによって、以前訪れた場所を正確に認識する能力が必要となる。
ロボットシステムと拡張現実の場合、展開対象のデバイスはバッテリー駆動のエッジデバイスである。
したがって、VPR法の精度は重要であり、メモリ消費と遅延も重要である。
近年,リソース利用に限定したパフォーマンス指標としてrecall@1メトリックが注目されている。
これにより、低出力エッジデバイスにデプロイするには、ディープラーニングモデルを使用する方法が大きすぎる。
これらのモデルは非常に過パラメータ化されており、高いリコール性能を維持しながら低出力の組込みシステムの制約を満たすように最適化できると仮定する。
本研究は,完全精度と混合精度のポストトレーニング量子化を併用したコンパクト畳み込みネットワーク設計がVPR性能に及ぼす影響を考察する。
重要なのは、recall@1スコアによるパフォーマンス測定だけでなく、メモリ消費とレイテンシの測定も行います。
本稿では、メモリ、レイテンシ、リコールスコアに関する設計上の意味を特徴付け、これらのリソース制限下でのVPRシステムの設計勧告を多数提供する。 Visual Place Recognition (VPR) is a critical task for performing global re-localization in visual perception systems. It requires the ability to accurately recognize a previously visited location under variations such as illumination, occlusion, appearance and viewpoint. In the case of robotic systems and augmented reality, the target devices for deployment are battery powered edge devices. Therefore whilst the accuracy of VPR methods is important so too is memory consumption and latency. Recently new works have focused on the recall@1 metric as a performance measure with limited focus on resource utilization. This has resulted in methods that use deep learning models too large to deploy on low powered edge devices. We hypothesize that these large models are highly over-parameterized and can be optimized to satisfy the constraints of a low powered embedded system whilst maintaining high recall performance. Our work studies the impact of compact convolutional network architecture design in combination with full-precision and mixed-precision post-training quantization on VPR performance. Importantly we not only measure performance via the recall@1 score but also measure memory consumption and latency. We characterize the design implications on memory, latency and recall scores and provide a number of design recommendations for VPR systems under these resource limitations. | 翻訳日:2023-12-15 21:25:42 公開日:2023-12-14 |
# 連合コミュニティ検出のための枠組み A Framework for Exploring Federated Community Detection ( http://arxiv.org/abs/2312.09023v1 ) ライセンス: Link先を確認 | William Leeney and Ryan McConville | (参考訳) フェデレーション学習(federated learning)は、データのレジデンシやプライバシの制約を維持しながら、クライアントネットワークのコンテキストにおけるマシンラーニングである。
コミュニティ検出は、グラフ構造化データ内のノードのクラスタの教師なし発見である。
この2つの分野の交わりは、多くの機会を露呈するが、挑戦でもある。
例えば、プライベートに保持されたグラフ間の接続情報が欠如しているため、複雑さが増す。
本研究では,分散データによってもたらされるパフォーマンスのギャップを示す,既存のデータセットをまたいだ初期実験を行うことで,連合コミュニティ検出の可能性を検討する。
分離されたモデルは、このドメイン内の課題を調査するためのフレームワークを確立することのメリットを実証します。
これらの研究フロンティアの複雑さは、これらの問題に対する提案された解決策と共に議論される。 Federated Learning is machine learning in the context of a network of clients whilst maintaining data residency and/or privacy constraints. Community detection is the unsupervised discovery of clusters of nodes within graph-structured data. The intersection of these two fields uncovers much opportunity, but also challenge. For example, it adds complexity due to missing connectivity information between privately held graphs. In this work, we explore the potential of federated community detection by conducting initial experiments across a range of existing datasets that showcase the gap in performance introduced by the distributed data. We demonstrate that isolated models would benefit from collaboration establishing a framework for investigating challenges within this domain. The intricacies of these research frontiers are discussed alongside proposed solutions to these issues. | 翻訳日:2023-12-15 21:25:23 公開日:2023-12-14 |
# MCI因果解析のための階層変換器を用いた脳ディフューザ Brain Diffuser with Hierarchical Transformer for MCI Causality Analysis ( http://arxiv.org/abs/2312.09022v1 ) ライセンス: Link先を確認 | Qiankun Zuo, Ling Chen, Shuqiang Wang | (参考訳) 効果的な接続推定は、異なる脳領域間の相互作用と情報の流れを理解する上で重要な役割を果たす。
しかし、有効濃度を推定するために用いられる関数時系列は、パラメータ設定が異なるため大きな計算誤差を生じさせ、脳領域間の複雑な因果関係をモデル化する能力が低下する可能性がある特定のソフトウェアから導かれる。
本稿では, 階層型トランスフォーマー(BDHT)を用いた脳ディフューザを提案し, 軽度認知障害(MCI)解析に有効な接続性を推定した。
我々の知る限り、提案した脳拡散器は、マルチモーダル脳ネットワークの生成と解析の応用に拡散モデルを適用する最初の生成モデルである。
具体的には、BDHTは構造接続を利用して、逆プロセスの効率的な誘導を行う。
これにより、ノイズ処理の信頼性が向上し、効果的なコネクティビティ推定精度が保証される。
位相空間におけるマルチスケール特徴を学習するために,階層的デノージングトランスが設計されている。
さらに、GraphConFormerブロックは、グローバルおよび隣接接続情報の両方に集中することができる。
マルチヘッドアテンションとグラフ畳み込みネットワークを積み重ねることで,提案モデルにより構造関数相補性が向上し,雑音推定能力が向上する。
消音拡散モデルの実験的評価は, 有効接続率の推定に有効性を示す。
本手法は,既存手法と比較して精度と堅牢性において優れた性能を実現する。
脳領域間の一方向および双方向の相互作用を捉えることができ、脳の情報処理機構の包括的理解を提供する。 Effective connectivity estimation plays a crucial role in understanding the interactions and information flow between different brain regions. However, the functional time series used for estimating effective connentivity is derived from certain software, which may lead to large computing errors because of different parameter settings and degrade the ability to model complex causal relationships between brain regions. In this paper, a brain diffuser with hierarchical transformer (BDHT) is proposed to estimate effective connectivity for mild cognitive impairment (MCI) analysis. To our best knowledge, the proposed brain diffuer is the first generative model to apply diffusion models in the application of generating and analyzing multimodal brain networks. Specifically, the BDHT leverages the structural connectivity to guide the reverse processes in an efficient way. It makes the denoising process more reliable and guarantees effective connectivity estimation accuracy. To improve denoising quality, the hierarchical denoising transformer is designed to learn multi-scale features in topological space. Furthermore, the GraphConFormer block can concentrate on both global and adjacent connectivity information. By stacking the multi-head attention and graph convolutional network, the proposed model enhances structure-function complementarity and improves the ability in noise estimation. Experimental evaluations of the denoising diffusion model demonstrate its effectiveness in estimating effective connectivity. The method achieves superior performance in terms of accuracy and robustness compared to existing approaches. It can captures both unidirectal and bidirectional interactions between brain regions, providing a comprehensive understanding of the brain's information processing mechanisms. | 翻訳日:2023-12-15 21:25:13 公開日:2023-12-14 |
# ランダム化平滑化のための移動性探索 Exploring Transferability for Randomized Smoothing ( http://arxiv.org/abs/2312.09020v1 ) ライセンス: Link先を確認 | Kai Qiu, Huishuai Zhang, Zhirong Wu, Stephen Lin | (参考訳) 広範なデータセットに関する基礎モデルのトレーニングと、特定のタスクに関する微調整が、人工知能における主流的アプローチとして現れています。
しかし、安全性にとって重要な側面であるモデル堅牢性は、事前訓練段階ではなく、特定のタスクごとに最適化されることが多い。
本稿では,特定のタスクに適応するために容易に微調整できる頑健なモデルを事前学習する手法を提案する。
重要な課題は、セマンティック学習と堅牢性の間の妥協に対処することだ。
我々は,事前学習データ分散の大幅な拡大に基づく,単純かつ高効率な戦略でこの問題に対処し,下流タスクの微調整に大いに寄与することを示した。
クリーン画像とさまざまなノイズ画像の混合を事前学習することで,クリーン画像のみを微調整しても驚くほど強力な認証精度が得られることがわかった。
さらに、この戦略は、様々なノイズレベルを扱うために1つのモデルだけを必要とするため、従来の複数のモデルを用いた計算コストを大幅に削減する。
1つのモデルのみを使用しても、既存のマルチモデルメソッドと同等か、それ以上に優れている結果が得られる。 Training foundation models on extensive datasets and then finetuning them on specific tasks has emerged as the mainstream approach in artificial intelligence. However, the model robustness, which is a critical aspect for safety, is often optimized for each specific task rather than at the pretraining stage. In this paper, we propose a method for pretraining certifiably robust models that can be readily finetuned for adaptation to a particular task. A key challenge is dealing with the compromise between semantic learning and robustness. We address this with a simple yet highly effective strategy based on significantly broadening the pretraining data distribution, which is shown to greatly benefit finetuning for downstream tasks. Through pretraining on a mixture of clean and various noisy images, we find that surprisingly strong certified accuracy can be achieved even when finetuning on only clean images. Furthermore, this strategy requires just a single model to deal with various noise levels, thus substantially reducing computational costs in relation to previous works that employ multiple models. Despite using just one model, our method can still yield results that are on par with, or even superior to, existing multi-model methods. | 翻訳日:2023-12-15 21:24:49 公開日:2023-12-14 |
# 学習型衝突場における有限フーリエ系列を用いた最適運動計画 Optimal Motion Planning using Finite Fourier Series in a Learning-based Collision Field ( http://arxiv.org/abs/2312.09073v1 ) ライセンス: Link先を確認 | Feng Yichang and Wang Jin and Lu Guodong | (参考訳) 本稿では,有限フーリエ級数を用いて時間連続運動を表現し,各マニピュレータ関節の運動調和を調整する新しい計画法を提案する。
主に、衝突検出のためのポテンシャルエネルギーと運動エネルギーを和算し、マニピュレータ運動調和のハミルトニアンを計算する。
適応型内点法は, 有限周波数領域の高調波を補正するために設計されているが, 衝突場の非凸性のため, 依然として局所最小値に遭遇する。
このようにして、高凸のガウス核を持つ支持ベクトルマシンを通して衝突場を学習する。
学習に基づく衝突場をハミルトニアンに適用し,提案手法の信頼性と効率性を示す実験結果を得た。 This paper utilizes finite Fourier series to represent a time-continuous motion and proposes a novel planning method that adjusts the motion harmonics of each manipulator joint. Primarily, we sum the potential energy for collision detection and the kinetic energy up to calculate the Hamiltonian of the manipulator motion harmonics. Though the adaptive interior-point method is designed to modify the harmonics in its finite frequency domain, we still encounter the local minima due to the non-convexity of the collision field. In this way, we learn the collision field through a support vector machine with a Gaussian kernel, which is highly convex. The learning-based collision field is applied for Hamiltonian, and the experiment results show our method's high reliability and efficiency. | 翻訳日:2023-12-15 21:18:15 公開日:2023-12-14 |
# 多変量量子信号処理の変種とその特性について On variants of multivariate quantum signal processing and their characterizations ( http://arxiv.org/abs/2312.09072v1 ) ライセンス: Link先を確認 | Bal\'azs N\'emeth, Blanka K\"ov\'er, Bogl\'arka Kulcs\'ar, Roland Botond Mikl\'osi, Andr\'as Gily\'en | (参考訳) 量子信号処理(QSP)は量子コンピューティングにおいて非常に成功したアルゴリズムプリミティブであり、量子線形代数のブロック符号化フレームワークを用いて概念的にシンプルで効率的な量子アルゴリズムを生み出す。
量子信号処理(MQSP)の多変量変種は、多変量(行列)多項式を実装することで、初期の結果を拡張するための貴重なツールとなり得る。
しかし、MQSPは「達成可能な」多変量多項式の明確な特徴を欠いた単変量型よりも理解しにくい。
一般単変量QSPの特性は、等質二変量(交換)量子信号処理に拡張可能であることを示す。
また, 1 つの変数の次数が 1 以上の場合,別の不均質な変種についても同様の結果を示すが,両変数が次数 2 を持つ逆例を構築し,rossi と chuang が関連する制限された mqsp のクラスに対して提案した/予想を反論する。
最後に、ヨルダン的な分解に依存した初期の2次元処理から切り離された同種多変量(非可換)QSP変種を記述し、最終的には新しい量子アルゴリズムの開発につながる可能性がある。 Quantum signal processing (QSP) is a highly successful algorithmic primitive in quantum computing which leads to conceptually simple and efficient quantum algorithms using the block-encoding framework of quantum linear algebra. Multivariate variants of quantum signal processing (MQSP) could be a valuable tool in extending earlier results via implementing multivariate (matrix) polynomials. However, MQSP remains much less understood than its single-variate version lacking a clear characterization of "achievable" multivariate polynomials. We show that Haah's characterization of general univariate QSP can be extended to homogeneous bivariate (commuting) quantum signal processing. We also show a similar result for an alternative inhomogeneous variant when the degree in one of the variables is at most 1, but construct a counterexample where both variables have degree 2, which in turn refutes an earlier characterization proposed / conjectured by Rossi and Chuang for a related restricted class of MQSP. Finally, we describe homogeneous multivariate (non-commuting) QSP variants that break away from the earlier two-dimensional treatment limited by its reliance on Jordan-like decompositions, and might ultimately lead to the development of novel quantum algorithms. | 翻訳日:2023-12-15 21:17:52 公開日:2023-12-14 |
# 量子エミッタからの絡み合った資源状態のフォトニック融合 Photonic fusion of entangled resource states from a quantum emitter ( http://arxiv.org/abs/2312.09070v1 ) ライセンス: Link先を確認 | Yijian Meng, Carlos F.D. Faurby, Ming Lai Chan, Patrik I. Sund, Zhe Liu, Ying Wang, Nikolai Bart, Andreas D. Wieck, Arne Ludwig, Leonardo Midolo, Anders S. S{\o}rensen, Stefano Paesani, Peter Lodahl | (参考訳) 核融合に基づくフォトニック量子コンピューティングアーキテクチャは2つのプリミティブに依存している。
一 一定サイズの絡み合った状態のほぼ決定論的生成及び制御
二 絡み合う状態間の確率的絡み合いの測定(光子融合ゲート)
本稿では,固体スピン光子界面を用いて決定論的に生成する資源状態を用いて,これらの重要な機能を示す。
ソースの繰り返し操作はシーケンシャルな絡み合い生成につながり、2つの異なるインスタンスで同じスピンの量子状態の間の奇妙な絡み合いが生成される。
このようなフォトニックエンタングルメントの時間多重化は、光子で多体エンタングルドシステムをスケールするための資源効率の高い経路を提供する。 Fusion-based photonic quantum computing architectures rely on two primitives: i) near-deterministic generation and control of constant-size entangled states and ii) probabilistic entangling measurements (photonic fusion gates) between entangled states. Here, we demonstrate these key functionalities by fusing resource states deterministically generated using a solid-state spin-photon interface. Repetitive operation of the source leads to sequential entanglement generation, whereby curiously entanglement is created between the quantum states of the same spin at two different instances in time. Such temporal multiplexing of photonic entanglement provides a resource-efficient route to scaling many-body entangled systems with photons. | 翻訳日:2023-12-15 21:17:16 公開日:2023-12-14 |
# pi3d:疑似画像拡散を用いた効率的なテキスト対3d生成 PI3D: Efficient Text-to-3D Generation with Pseudo-Image Diffusion ( http://arxiv.org/abs/2312.09069v1 ) ライセンス: Link先を確認 | Ying-Tian Liu, Guan Luo, Heyi Sun, Wei Yin, Yuan-Chen Guo, Song-Hai Zhang | (参考訳) 本稿では,事前学習したテキスト-画像拡散モデルを用いて,高品質な3D形状を数分で生成する,新しい,効率的なフレームワークPI3Dを紹介する。
一方、事前学習した2次元拡散モデルを3次元拡散モデルに微調整し、3次元生成能力と2次元モデルからの一般化を可能にする。
また,2次元拡散モデルを用いたスコア蒸留法を用いて,試料3次元形状の品質を迅速に向上する。
PI3Dは、イメージからトリプレーン生成への知識の移動を可能にする。
我々は,擬似画像と実画像を用いたハイブリッドトレーニングを実現するために,事前学習モデルのモジュールを適応させる。
PI3Dの効率は、様々な3Dモデルを数秒でサンプリングし、数分で精錬する能力によって強調される。
実験により, 3次元拡散モデルと2次元拡散モデルのいずれかに基づく既存手法に比べて, PI3Dの利点が確認された。
提案したPI3Dは,テキスト・ツー・3D生成分野における有望な進歩であり,2Dデータと3Dデータの両方の知識を活用した3D生成のさらなる研究を期待する。 In this paper, we introduce PI3D, a novel and efficient framework that utilizes the pre-trained text-to-image diffusion models to generate high-quality 3D shapes in minutes. On the one hand, it fine-tunes a pre-trained 2D diffusion model into a 3D diffusion model, enabling both 3D generative capabilities and generalization derived from the 2D model. On the other, it utilizes score distillation sampling of 2D diffusion models to quickly improve the quality of the sampled 3D shapes. PI3D enables the migration of knowledge from image to triplane generation by treating it as a set of pseudo-images. We adapt the modules in the pre-training model to enable hybrid training using pseudo and real images, which has proved to be a well-established strategy for improving generalizability. The efficiency of PI3D is highlighted by its ability to sample diverse 3D models in seconds and refine them in minutes. The experimental results confirm the advantages of PI3D over existing methods based on either 3D diffusion models or lifting 2D diffusion models in terms of fast generation of 3D consistent and high-quality models. The proposed PI3D stands as a promising advancement in the field of text-to-3D generation, and we hope it will inspire more research into 3D generation leveraging the knowledge in both 2D and 3D data. | 翻訳日:2023-12-15 21:16:40 公開日:2023-12-14 |
# holodeck: 3次元具体化ai環境の言語誘導生成 Holodeck: Language Guided Generation of 3D Embodied AI Environments ( http://arxiv.org/abs/2312.09067v1 ) ライセンス: Link先を確認 | Yue Yang, Fan-Yun Sun, Luca Weihs, Eli VanderBilt, Alvaro Herrasti, Winson Han, Jiajun Wu, Nick Haber, Ranjay Krishna, Lingjie Liu, Chris Callison-Burch, Mark Yatskar, Aniruddha Kembhavi, Christopher Clark | (参考訳) 3Dシミュレーション環境は、Embodied AIにおいて重要な役割を果たすが、その創造には専門知識と広範な手作業が必要であり、多様性とスコープを制限する。
この制限を緩和するために,ユーザが提供するプロンプトを完全自動化する3D環境を生成するシステムであるHolodeckを提案する。
ホロデックは、アーケード、スパ、博物館などの多様なシーンを生成し、スタイルのデザインを調整し、「猫を持つ研究者のためのアパート」や「スター・ウォーズのファンである教授のオフィス」のような複雑なクエリのセマンティクスをキャプチャすることができる。
Holodeckは大きな言語モデル(GPT-4)を利用して、シーンがどのようなものかという常識的な知識を提供し、Objaverseから大量の3Dアセットを収集して、シーンを多様なオブジェクトで表示している。
オブジェクトの位置決めの課題に対処するため,GPT-4にオブジェクト間の空間的関係制約を生成し,それらの制約を満たすためにレイアウトを最適化する。
大規模人格評価の結果,アノテーション作成者は住宅シーンにおける手作業で設計した手続きベースラインよりもholodeckを好み,多様なシーンタイプに対して高品質なアウトプットを生成できることがわかった。
また、Embodied AIにおけるHolodeckのエキサイティングな応用、音楽室や保育所のような新しい場面で人間構築データなしでナビゲートする訓練エージェント、そして汎用的なエンボディエージェントの開発において大きな前進を示す。 3D simulated environments play a critical role in Embodied AI, but their creation requires expertise and extensive manual effort, restricting their diversity and scope. To mitigate this limitation, we present Holodeck, a system that generates 3D environments to match a user-supplied prompt fully automatedly. Holodeck can generate diverse scenes, e.g., arcades, spas, and museums, adjust the designs for styles, and can capture the semantics of complex queries such as "apartment for a researcher with a cat" and "office of a professor who is a fan of Star Wars". Holodeck leverages a large language model (GPT-4) for common sense knowledge about what the scene might look like and uses a large collection of 3D assets from Objaverse to populate the scene with diverse objects. To address the challenge of positioning objects correctly, we prompt GPT-4 to generate spatial relational constraints between objects and then optimize the layout to satisfy those constraints. Our large-scale human evaluation shows that annotators prefer Holodeck over manually designed procedural baselines in residential scenes and that Holodeck can produce high-quality outputs for diverse scene types. We also demonstrate an exciting application of Holodeck in Embodied AI, training agents to navigate in novel scenes like music rooms and daycares without human-constructed data, which is a significant step forward in developing general-purpose embodied agents. | 翻訳日:2023-12-15 21:15:52 公開日:2023-12-14 |
# RAW領域とsRGB領域における画像復号化 Image Demoireing in RAW and sRGB Domains ( http://arxiv.org/abs/2312.09063v1 ) ライセンス: Link先を確認 | Shuning Xu, Binbin Song, Xiangyu Chen, Jiantao Zhou | (参考訳) moir\'eパターンは、スマートフォンやカメラでスクリーンを撮影するときに頻繁に現れ、画質を損なう可能性がある。
これまでの研究では、RAWドメインのmoir\'eパターンの除去は、sRGBドメインのdesignir\'eingよりも効率が良いことが示唆されている。
しかし,画像信号処理装置(isp)による色補正に必要な必須情報がないため,画像復調のための生データのみに頼るだけではカラーキャストの緩和が不十分である。
本稿では,スマートフォンとデジタルカメラの両方でアクセス可能なRAWデータとsRGBデータ(RRID)を同時利用した画像復号処理を提案する。
我々は,raw と srgb の機能の効率良く効果的な demoir\'eing のために,skip-connection を組み込んだscdm (skip-connection-based demoir\'eing module) を開発した。
次に,RGB Guided Image Signal Processor (RGISP) を提案する。
以上の結果より,PSNRでは0.62dB,SSIMでは0.003Bであり,モアレパターン除去とカラーキャスト補正の両面で優れた性能を示した。 Moir\'e patterns frequently appear when capturing screens with smartphones or cameras, potentially compromising image quality. Previous studies suggest that moir\'e pattern elimination in the RAW domain offers greater efficiency compared to demoir\'eing in the sRGB domain. Nevertheless, relying solely on raw data for image demoir\'eing is insufficient in mitigating color cast due to the absence of essential information required for color correction by the Image Signal Processor (ISP). In this paper, we propose perform Image Demoir\'eing concurrently utilizing both RAW and sRGB data (RRID), which is readily accessible in both smartphones and digital cameras. We develop Skip-Connection-based Demoir\'eing Module (SCDM) with specific modules embeded in skip-connections for the efficient and effective demoir\'eing of RAW and sRGB features, respectively. Subsequently, we propose RGB Guided Image Signal Processor (RGISP) to incorporate color information from coarsely demoir\'ed sRGB features during the ISP stage, assisting the process of color recovery. Extensive experiments demonstrate that our RRID outperforms state-of-the-art approaches by 0.62dB in PSNR and 0.003 in SSIM, exhibiting superior performance both in moir\'e pattern removal and color cast correction. | 翻訳日:2023-12-15 21:15:22 公開日:2023-12-14 |
# 公正なクラスタリング: 因果的視点 Fair Clustering: A Causal Perspective ( http://arxiv.org/abs/2312.09061v1 ) ライセンス: Link先を確認 | Fritz Bayer, Drago Plecko, Niko Beerenwinkel, Jack Kuipers | (参考訳) クラスタリングアルゴリズムは意図せず既存の格差を広めるか強化し、不公平な表現や偏った意思決定につながる可能性がある。
現在の公正クラスタリング法は、基礎となる因果的メカニズムに関する情報を捉えない公平性の概念に依存している。
非因果的公平性概念の最適化は因果的観点から直接的差別的効果をパラドックス的に誘発する。
我々は,教師なし学習における公平性に対するよりニュアンス的なアプローチを提供するために,因果的公平性指標を組み込んだクラスタリングアプローチを提案する。
我々のアプローチは、最小化すべき因果フェアネスメトリクスの仕様を可能にする。
我々は,不公平なバイアスを回避できるデータセットを用いた手法の有効性を示す。 Clustering algorithms may unintentionally propagate or intensify existing disparities, leading to unfair representations or biased decision-making. Current fair clustering methods rely on notions of fairness that do not capture any information on the underlying causal mechanisms. We show that optimising for non-causal fairness notions can paradoxically induce direct discriminatory effects from a causal standpoint. We present a clustering approach that incorporates causal fairness metrics to provide a more nuanced approach to fairness in unsupervised learning. Our approach enables the specification of the causal fairness metrics that should be minimised. We demonstrate the efficacy of our methodology using datasets known to harbour unfair biases. | 翻訳日:2023-12-15 21:14:57 公開日:2023-12-14 |
# Auto-Prox: 自動プロキシディスカバリによるトレーニングフリービジョントランスフォーマーアーキテクチャ検索 Auto-Prox: Training-Free Vision Transformer Architecture Search via Automatic Proxy Discovery ( http://arxiv.org/abs/2312.09059v1 ) ライセンス: Link先を確認 | Zimian Wei, Lujun Li, Peijie Dong, Zheng Hui, Anggeng Li, Menglong Lu, Hengyue Pan, Zhiliang Tian, Dongsheng Li | (参考訳) コンピュータビジョンタスクにおけるビジョントランスフォーマー(ViT)のかなりの成功は主にアーキテクチャ設計によるものである。
これにより、より良いvitを自動設計するための効率的なアーキテクチャ検索の必要性が高まる。
トレーニングベースのアーキテクチャ探索手法は計算集約的な手法であるため、ゼロコストプロキシを用いてViTをスコアするトレーニングフリー手法への関心が高まっている。
しかし、既存のトレーニングフリーアプローチでは、特定のゼロコストプロキシを手作業で設計する必要がある。
さらに、これらのゼロコストプロキシは、様々な領域にまたがる一般化の限界を示す。
本稿では,自動プロキシ検出フレームワークであるAuto-Proxを紹介し,この問題に対処する。
まず、異なるViT候補と実際の複数のデータセットのパフォーマンスを含むViT-Bench-101を構築します。
ViT-Bench-101を用いて,スコアと精度の相関に基づいて,ゼロコストプロキシを評価する。
次に、ゼロコストプロキシを計算グラフで表現し、vit統計とプリミティブ演算でゼロコストプロキシ検索空間を整理する。
汎用的なゼロコストプロキシを発見するために,異なるゼロコストプロキシ候補を進化・変異させる共同相関指標を提案する。
本研究では, 探索効率向上のためのエリート主義保存戦略を導入する。
検出したゼロコストプロキシに基づいて、トレーニング不要な方法でViTアーキテクチャ検索を行う。
大規模な実験により,本手法は異なるデータセットに対してよく一般化され,相関関係と最終的な精度の両方で最先端の結果が得られた。
コードはhttps://github.com/lilujunai/Auto-Prox-AAAI24で見ることができる。 The substantial success of Vision Transformer (ViT) in computer vision tasks is largely attributed to the architecture design. This underscores the necessity of efficient architecture search for designing better ViTs automatically. As training-based architecture search methods are computationally intensive, there is a growing interest in training-free methods that use zero-cost proxies to score ViTs. However, existing training-free approaches require expert knowledge to manually design specific zero-cost proxies. Moreover, these zero-cost proxies exhibit limitations to generalize across diverse domains. In this paper, we introduce Auto-Prox, an automatic proxy discovery framework, to address the problem. First, we build the ViT-Bench-101, which involves different ViT candidates and their actual performance on multiple datasets. Utilizing ViT-Bench-101, we can evaluate zero-cost proxies based on their score-accuracy correlation. Then, we represent zero-cost proxies with computation graphs and organize the zero-cost proxy search space with ViT statistics and primitive operations. To discover generic zero-cost proxies, we propose a joint correlation metric to evolve and mutate different zero-cost proxy candidates. We introduce an elitism-preserve strategy for search efficiency to achieve a better trade-off between exploitation and exploration. Based on the discovered zero-cost proxy, we conduct a ViT architecture search in a training-free manner. Extensive experiments demonstrate that our method generalizes well to different datasets and achieves state-of-the-art results both in ranking correlation and final accuracy. Codes can be found at https://github.com/lilujunai/Auto-Prox-AAAI24. | 翻訳日:2023-12-15 21:14:47 公開日:2023-12-14 |
# バックドア攻撃に対するコントラスト学習の防御の難しさについて On the Difficulty of Defending Contrastive Learning against Backdoor Attacks ( http://arxiv.org/abs/2312.09057v1 ) ライセンス: Link先を確認 | Changjiang Li, Ren Pang, Bochuan Cao, Zhaohan Xi, Jinghui Chen, Shouling Ji, Ting Wang | (参考訳) 近年の研究では、教師付き学習のような対照的な学習は、特定のトリガーによってのみ活性化される悪意のある機能をターゲットモデルに注入するバックドア攻撃に対して非常に脆弱であることが示されている。
しかし、これまでのところ、バックドア攻撃が監督対象と根本的に異なるかは未解明であり、新興脅威に対する効果的な防御の開発を妨げている。
この研究は、この批判的な質問に答えるための確固たる一歩である。
具体的には、教師付きバックドア攻撃とコントラスト付きバックドア攻撃の両方を含む統合フレームワークTRLを定義する。
TRLのレンズを通して、これらの2種類の攻撃は、教師付き攻撃において、良性タスクとバックドアタスクの学習は独立して起こる傾向にあり、対照的な攻撃では、これらの2つのタスクは、表現と学習過程の両方において深く絡み合っている。
この区別は、教師付き攻撃と対比攻撃の異なる学習ダイナミクスと特徴分布をもたらす。
より重要なことは、対照的なバックドア攻撃の特異性が防衛の観点から重要な意味を持っていることを明らかにすることである。
いくつかの代替防衛策も検討し、潜在的な課題について議論する。
本研究は,バックドア攻撃の特異性に合わせた防御の必要性を浮き彫りにしており,今後の研究の方向性を示唆する。 Recent studies have shown that contrastive learning, like supervised learning, is highly vulnerable to backdoor attacks wherein malicious functions are injected into target models, only to be activated by specific triggers. However, thus far it remains under-explored how contrastive backdoor attacks fundamentally differ from their supervised counterparts, which impedes the development of effective defenses against the emerging threat. This work represents a solid step toward answering this critical question. Specifically, we define TRL, a unified framework that encompasses both supervised and contrastive backdoor attacks. Through the lens of TRL, we uncover that the two types of attacks operate through distinctive mechanisms: in supervised attacks, the learning of benign and backdoor tasks tends to occur independently, while in contrastive attacks, the two tasks are deeply intertwined both in their representations and throughout their learning processes. This distinction leads to the disparate learning dynamics and feature distributions of supervised and contrastive attacks. More importantly, we reveal that the specificities of contrastive backdoor attacks entail important implications from a defense perspective: existing defenses for supervised attacks are often inadequate and not easily retrofitted to contrastive attacks. We also explore several alternative defenses and discuss their potential challenges. Our findings highlight the need for defenses tailored to the specificities of contrastive backdoor attacks, pointing to promising directions for future research. | 翻訳日:2023-12-15 21:14:23 公開日:2023-12-14 |
# ReCoRe: 世界モデルの正規化コントラスト表現学習 ReCoRe: Regularized Contrastive Representation Learning of World Model ( http://arxiv.org/abs/2312.09056v1 ) ライセンス: Link先を確認 | Rudra P.K. Poudel, Harit Pandya, Stephan Liwicki, Roberto Cipolla | (参考訳) 近年のモデルフリー強化学習(RL)手法はゲーム環境における人間レベルの有効性を示したが、視覚ナビゲーションのような日常的なタスクにおける成功は制限されており、特に顕著な外観変化が見られた。
この制限は
(i)サンプル効率が悪くて
(ii)訓練シナリオへの過度な適合。
これらの課題に対処するために、不変特徴を学習する世界モデルを提案する。
(i)対照的無監督学習及び
(ii)介入不変正則化器
世界モデルの明示的な表現、すなわち世界モデルの学習は、サンプル効率を改善し、対照的な学習は暗黙的に不変の特徴の学習を強制し、一般化を改善する。
しかし、世界モデルに基づくrlメソッドは表現学習とエージェントポリシーを独立に最適化するため、視覚エンコーダに対する監督信号の欠如により、世界モデルとの対照的な損失のナイーブな統合は失敗する。
この問題を克服するため,我々は,スタイル干渉に対する不変性を明示的に強制する奥行き予測や画像デノイジングなどの補助タスクの形で,介入不変正規化器を提案する。
本手法は,現在のモデルベースおよびモデルフリーのrl法を上回り,igibsonベンチマークで評価した分散点ナビゲーションタスクに著しく依存する。
さらに,視覚的観察のみによる我々のアプローチは,限られた計算能力を持つロボットへの展開に不可欠であるポイントナビゲーションの言語誘導基盤モデルよりも優れていることを示す。
最後に,提案モデルがgibsonベンチマークにおける知覚モジュールのsim-to-real転送に優れていることを示す。 While recent model-free Reinforcement Learning (RL) methods have demonstrated human-level effectiveness in gaming environments, their success in everyday tasks like visual navigation has been limited, particularly under significant appearance variations. This limitation arises from (i) poor sample efficiency and (ii) over-fitting to training scenarios. To address these challenges, we present a world model that learns invariant features using (i) contrastive unsupervised learning and (ii) an intervention-invariant regularizer. Learning an explicit representation of the world dynamics i.e. a world model, improves sample efficiency while contrastive learning implicitly enforces learning of invariant features, which improves generalization. However, the naive integration of contrastive loss to world models fails due to a lack of supervisory signals to the visual encoder, as world-model-based RL methods independently optimize representation learning and agent policy. To overcome this issue, we propose an intervention-invariant regularizer in the form of an auxiliary task such as depth prediction, image denoising, etc., that explicitly enforces invariance to style-interventions. Our method outperforms current state-of-the-art model-based and model-free RL methods and significantly on out-of-distribution point navigation task evaluated on the iGibson benchmark. We further demonstrate that our approach, with only visual observations, outperforms recent language-guided foundation models for point navigation, which is essential for deployment on robots with limited computation capabilities. Finally, we demonstrate that our proposed model excels at the sim-to-real transfer of its perception module on Gibson benchmark. | 翻訳日:2023-12-15 21:14:00 公開日:2023-12-14 |
# ビデオゲームにおけるグリーンコンピューティングに関する調査 : グリーンビデオゲームの夜明け A Survey on Green Computing in Video Games: The Dawn of Green Video Games ( http://arxiv.org/abs/2312.09053v1 ) ライセンス: Link先を確認 | Carlos P\'erez, Ana C. Marc\'en, Javier Ver\'on, Carlos Cetina | (参考訳) 今日、多くのプレイヤーとビデオゲームの計算能力の要求は、グリーンビデオゲームの研究を動機付けている。
本稿では,この最近の研究領域について概観する。
合計2,637の論文がレビューされ、69の論文がさらなる分析のための主要な研究として選ばれた。
結果の詳細な分析を通じて,本研究のモチベーション,デバイス,レイヤに基づいて,グリーンゲーム問題を定義する新しい方法を提案する。
そこで我々は,様々な応用手法,証拠の限界とレベル,およびビデオゲームの特定の側面を分析した。 Today, the large number of players and the high computational requirements of video games have motivated research on Green Video Games. We present a survey that provides an overview of this recent research area. A total of 2,637 papers were reviewed, selecting 69 papers as primary studies for further analysis. Through a detailed analysis of the results, we propose a new way to define the Green Video Game issues based on motivation, device, and layer of the primary studies. Then, we analyze the different applied techniques, the limitations and levels of evidence, and specific aspects of video games. | 翻訳日:2023-12-15 21:13:30 公開日:2023-12-14 |
# トラヒックフロー予測のための補助情報を考慮した分散クロス注意型グラフ畳み込みネットワーク A Sparse Cross Attention-based Graph Convolution Network with Auxiliary Information Awareness for Traffic Flow Prediction ( http://arxiv.org/abs/2312.09050v1 ) ライセンス: Link先を確認 | Lingqiang Chen, Qinglin Zhao, Guanghui Li, Mengchu Zhou, Chenglong Dai, and Yiming Feng | (参考訳) ディープグラフ畳み込みネットワーク(GCN)は,最近,交通予測タスクにおいて優れた性能を示した。
しかし、いくつかの課題に直面している。
まず、気象や休日といった補助的な情報の影響を考慮するモデルはほとんどなく、交通データの空間的時間的ダイナミクスの把握が不十分になる可能性がある。
第二に、動的隣接行列の構築と正規グラフ畳み込み演算は2次計算の複雑さを持ち、GCNベースのモデルのスケーラビリティを制限する。
このような課題に対処するため、AIMSANというディープエンコーダデコーダモデルを提案する。
補助情報認識モジュール(AIM)とスパースクロスアテンションベースのグラフ畳み込みネットワーク(SAN)を含んでいる。
前者は多属性補助情報を学び、異なる時間ウィンドウサイズの組込みプレゼンテーションを取得する。
後者は、トラヒックデータと組込み補助データを用いて動的に隣接する行列を構築するためにクロスアテンション機構を使用する。
次に、SANは交通データに拡散GCNを適用し、豊かな時空間ダイナミクスをマイニングする。
さらに、AIMSANは2次計算の複雑さを低減するために、トラフィックノードの空間スパース性を考慮して利用する。
3つのパブリックトラヒックデータセットの実験結果は、提案手法が様々なパフォーマンス指標で他の手法よりも優れていることを示している。
具体的には、最先端アルゴリズムと競合する性能を持つが、gpuメモリ使用量の35.74%、トレーニング時間42.25%、検証時間45.51%を節約できる。 Deep graph convolution networks (GCNs) have recently shown excellent performance in traffic prediction tasks. However, they face some challenges. First, few existing models consider the influence of auxiliary information, i.e., weather and holidays, which may result in a poor grasp of spatial-temporal dynamics of traffic data. Second, both the construction of a dynamic adjacent matrix and regular graph convolution operations have quadratic computation complexity, which restricts the scalability of GCN-based models. To address such challenges, this work proposes a deep encoder-decoder model entitled AIMSAN. It contains an auxiliary information-aware module (AIM) and sparse cross attention-based graph convolution network (SAN). The former learns multi-attribute auxiliary information and obtains its embedded presentation of different time-window sizes. The latter uses a cross-attention mechanism to construct dynamic adjacent matrices by fusing traffic data and embedded auxiliary data. Then, SAN applies diffusion GCN on traffic data to mine rich spatial-temporal dynamics. Furthermore, AIMSAN considers and uses the spatial sparseness of traffic nodes to reduce the quadratic computation complexity. Experimental results on three public traffic datasets demonstrate that the proposed method outperforms other counterparts in terms of various performance indices. Specifically, the proposed method has competitive performance with the state-of-the-art algorithms but saves 35.74% of GPU memory usage, 42.25% of training time, and 45.51% of validation time on average. | 翻訳日:2023-12-15 21:13:21 公開日:2023-12-14 |
# リカレントニューラルカスケードの表現性について On The Expressivity of Recurrent Neural Cascades ( http://arxiv.org/abs/2312.09048v1 ) ライセンス: Link先を確認 | Nadezda Alexandrovna Knorozova, Alessandro Ronca | (参考訳) リカレントニューラルカスケード(Recurrent Neural Cascades、RNC)は、リカレントニューラルネットワークであり、リカレントニューロン間で循環的依存を持たない。
この種のリカレントネットワークは、実際に多くの注目を集めている。
バックプロパゲーションのような固定されたアーキテクチャのトレーニング方法に加えて、カスケードアーキテクチャは自然に構築的な学習方法を可能にする。
さらに、非巡回性は、同じ数のニューロンであっても、完全に連結されたアーキテクチャに比べてより好ましいサンプル複雑性をもたらす構造的先行性を持つ。
中心となる疑問は、カスケードアーキテクチャの利点が表現力の低下のコストによってもたらされるかどうかである。
私たちはこの質問に新しい洞察を与えます。
正の繰り返し重みを持つrncとtanhによって捕獲された正規言語は星のない正規言語であることを示す。
そこで我々は,1つのニューロンがどのセミグループやグループを実装できるかを分析することによって,RCCの能力にアクセス可能な新しいフレームワークを開発した。
我々のフレームワークの顕著な意味は、RCNがグループを実装可能なニューロンを導入することで、すべての正規言語の表現性を達成できるということである。 Recurrent Neural Cascades (RNCs) are the recurrent neural networks with no cyclic dependencies among recurrent neurons. This class of recurrent networks has received a lot of attention in practice. Besides training methods for a fixed architecture such as backpropagation, the cascade architecture naturally allows for constructive learning methods, where recurrent nodes are added incrementally one at a time, often yielding smaller networks. Furthermore, acyclicity amounts to a structural prior that even for the same number of neurons yields a more favourable sample complexity compared to a fully-connected architecture. A central question is whether the advantages of the cascade architecture come at the cost of a reduced expressivity. We provide new insights into this question. We show that the regular languages captured by RNCs with sign and tanh activation with positive recurrent weights are the star-free regular languages. In order to establish our results we developed a novel framework where capabilities of RNCs are accessed by analysing which semigroups and groups a single neuron is able to implement. A notable implication of our framework is that RNCs can achieve the expressivity of all regular languages by introducing neurons that can implement groups. | 翻訳日:2023-12-15 21:12:56 公開日:2023-12-14 |
# 空間の動的真空圧縮性 Dynamical Vacuum Compressibility of Space ( http://arxiv.org/abs/2312.09047v1 ) ライセンス: Link先を確認 | Yu-Cun Xie, Jen-Tsung Hsiang, Bei-Lok Hu | (参考訳) 本稿では、大質量および無質量共役量子場を含む様々な動的時空の真空圧縮性を導出することにより、空間の量子熱力学特性に関するarXiv:2204.08634の研究を継続する。
ここで研究されている量子過程は、粒子生成、カシミール効果、トレース異常である。
空間は、所定の時間進化を持つ$S^2, S^3$, $T^3$, $S^1$を含む。
真空圧縮性は、1970年にZel'dovichによって提唱された真空粒子生成が初期の宇宙の力学に与える影響を捉えるための概念である真空粘性(英語版)と同じ量子熱力学/機械的応答関数のグループに属し、その後10年間に多くの著者による厳密な研究によって、曲面時空法における量子場理論と半古典重力理論を用いてバックレアクション効果を治療した。
量子場の起源の真空エネルギーの挙動, 負圧, 動的圧縮性の新たな複雑な特徴について, 様々な微妙な考察を行った。 This paper continues the investigation initiated in arXiv:2204.08634 into the quantum thermodynamic properties of space by deriving the vacuum compressibility of a variety of dynamical spacetimes containing massive and massless conformally coupled quantum fields. The quantum processes studied here include particle creation, Casimir effect, and the trace anomaly. The spaces include $S^2, S^3$, and $T^3$ with prescribed time evolution and $S^1$, where the temporal developments are backreaction determined. Vacuum compressibility belongs to the same group of quantum thermodynamic / mechanical response functions as vacuum viscosity, a concept first proposed in 1970 by Zel'dovich for capturing the effects of vacuum particle production on the dynamics of the early universe, made precise by rigorous work of many authors in the following decade using quantum field theory in curved spacetime methodologies and semiclassical gravity theory for treating backreaction effects. Various subtleties in understanding the behavior of the vacuum energies of quantum field origins, negative pressures and novel complicated features of dynamical compressibility are discussed. | 翻訳日:2023-12-15 21:12:37 公開日:2023-12-14 |
# バレンプラトーの欠如は古典的シミュラビリティを示唆するか?
あるいは、なぜ変分量子コンピューティングを再考する必要があるのか? Does provable absence of barren plateaus imply classical simulability? Or, why we need to rethink variational quantum computing ( http://arxiv.org/abs/2312.09121v1 ) ライセンス: Link先を確認 | M. Cerezo, Martin Larocca, Diego Garc\'ia-Mart\'in, N. L. Diaz, Paolo Braccia, Enrico Fontana, Manuel S. Rudolph, Pablo Bermejo, Aroosa Ijaz, Supanut Thanasilp, Eric R. Anschuetz, Zo\"e Holmes | (参考訳) 近年,バレン高原現象の解明に多大な努力が払われている。
このパースペクティブな記事では、部屋の中でますます大きな象に直面し、多くの人にほのめかされたが明示されていない質問に答える: 不毛の台地を避けることができる構造も活用して、古典的な損失を効率的にシミュレートできるだろうか?
我々は、初期データ取得フェーズにおいて量子デバイスから古典的なデータを収集できることを前提として、バレン高原の証明可能なモデルが古典的にシミュレート可能であることを示す。
これは、不毛の高原が次元性の呪いによって生じること、そしてそれらを解決するための現在のアプローチが、問題をいくつかの小さく古典的にシミュレート可能な部分空間にエンコードする、という観察から導かれる。
これは、不毛高原フリーランドスケープのためのパラメトリ化された量子回路の情報処理能力の非古典性と、量子ハードウェア上でそれを実行することによる超多項的利点に深刻な疑問を投げかける。
最後に、議論における注意点、スマートイニシャライズの役割、そして私たちの視点が生み出す新しい機会を強調することで締めくくります。 A large amount of effort has recently been put into understanding the barren plateau phenomenon. In this perspective article, we face the increasingly loud elephant in the room and ask a question that has been hinted at by many but not explicitly addressed: Can the structure that allows one to avoid barren plateaus also be leveraged to efficiently simulate the loss classically? We present strong evidence that commonly used models with provable absence of barren plateaus are also classically simulable, provided that one can collect some classical data from quantum devices during an initial data acquisition phase. This follows from the observation that barren plateaus result from a curse of dimensionality, and that current approaches for solving them end up encoding the problem into some small, classically simulable, subspaces. This sheds serious doubt on the non-classicality of the information processing capabilities of parametrized quantum circuits for barren plateau-free landscapes and on the possibility of superpolynomial advantages from running them on quantum hardware. We end by discussing caveats in our arguments, the role of smart initializations, and by highlighting new opportunities that our perspective raises. | 翻訳日:2023-12-15 21:05:35 公開日:2023-12-14 |
# less is more -- マルチタスク強化学習のためのdispatcher/executor原則 Less is more -- the Dispatcher/ Executor principle for multi-task Reinforcement Learning ( http://arxiv.org/abs/2312.09120v1 ) ライセンス: Link先を確認 | Martin Riedmiller, Tim Hertweck, Roland Hafner | (参考訳) 人間は、予期せぬバリエーションのある環境で複雑な意思決定問題を解決するために、詳細を無視する方法を本能的に知っている。
この抽象化プロセスは、ほとんどの生物学的システムにとって重要な性質であり、不要な詳細を「取り除き」一般化を促進するのに役立つ。
本稿では,マルチタスク強化学習コントローラの設計のためのdispatcher/executor原則を提案する。
コントローラを2つのエンティティに分割することを提案する。ひとつはタスク(ディスパッチ)を理解し、もうひとつは特定のデバイス(executor)のコントロールを計算し、これら2つを強正規化通信チャネルで接続すること。
本研究の背景にある基本的な根拠は,構造と設計原則の変更が一般化特性を改善し,データ効率を劇的に向上できる点にある。
それはある意味では、大量のデータに基づいてトレーニングされた巨大なニューラルネットワークを使用し、新たな一般化特性に賭けるという現在のトレンドに対する、"yes, and ..."応答である。
スケーリングのパワー – Sutton氏の‘ビット・レッスン’という意味では – には同意していますが,構造を考慮し,設計原則を追加することは,データが豊富で無限ではなく,貴重なリソースである場合に,特に重要かつ重要なコンポーネントである,という証拠をいくつか与えます。 Humans instinctively know how to neglect details when it comes to solve complex decision making problems in environments with unforeseeable variations. This abstraction process seems to be a vital property for most biological systems and helps to 'abstract away' unnecessary details and boost generalisation. In this work we introduce the dispatcher/ executor principle for the design of multi-task Reinforcement Learning controllers. It suggests to partition the controller in two entities, one that understands the task (the dispatcher) and one that computes the controls for the specific device (the executor) - and to connect these two by a strongly regularizing communication channel. The core rationale behind this position paper is that changes in structure and design principles can improve generalisation properties and drastically enforce data-efficiency. It is in some sense a 'yes, and ...' response to the current trend of using large neural networks trained on vast amounts of data and bet on emerging generalisation properties. While we agree on the power of scaling - in the sense of Sutton's 'bitter lesson' - we will give some evidence, that considering structure and adding design principles can be a valuable and critical component in particular when data is not abundant and infinite, but is a precious resource. | 翻訳日:2023-12-15 21:05:14 公開日:2023-12-14 |
# 再構成可能な原子配列を持つ非クリフォードゲートの効率的な耐故障性実装 Efficient fault-tolerant implementations of non-Clifford gates with reconfigurable atom arrays ( http://arxiv.org/abs/2312.09111v1 ) ライセンス: Link先を確認 | Yi-Fei Wang, Yixu Wang, Yu-An Chen, Wenjun Zhang, Tao Zhang, Jiazhong Hu, Wenlan Chen, Yingfei Gu, Zi-Wen Liu | (参考訳) スケーラブルな普遍量子コンピューティングを実現するためには、論理ゲートの普遍的な集合をフォールトトレラントに実装する必要がある。
再構成可能なatom配列プラットフォームのいくつかの特徴は、この重要な課題に対処するのに本質的に適しており、信頼性と効率の面で大きなアドバンテージをもたらす可能性があることを実証する。
具体的には、マジック状態蒸留、連結コード配列、フォールトトレラント論理マルチコントロールゲートなど、非ローカル接続、並列ゲートアクション、集団移動、ネイティブマルチコントロールのz$ゲートといった重要なプラットフォーム機能を活用する一連の戦略を検討する。
本解析は,論理ゲートの効率的な実験実現に関する貴重な知見を提供し,再構成可能なアトムアレイを用いたフォールトトレラント量子計算のフルサイクルデモンストレーションのガイドとなる。 To achieve scalable universal quantum computing, we need to implement a universal set of logical gates fault-tolerantly, for which the main difficulty lies with non-Clifford gates. We demonstrate that several characteristic features of the reconfigurable atom array platform are inherently well-suited for addressing this key challenge, potentially leading to significant advantages in fidelity and efficiency. Specifically, we consider a series of different strategies including magic state distillation, concatenated code array, and fault-tolerant logical multi-controlled-$Z$ gates, leveraging key platform features such as non-local connectivity, parallel gate action, collective mobility, and native multi-controlled-$Z$ gates. Our analysis provides valuable insights into the efficient experimental realization of logical gates, serving as a guide for the full-cycle demonstration of fault-tolerant quantum computation with reconfigurable atom arrays. | 翻訳日:2023-12-15 21:04:48 公開日:2023-12-14 |
# VideoLCM:ビデオ遅延一貫性モデル VideoLCM: Video Latent Consistency Model ( http://arxiv.org/abs/2312.09109v1 ) ライセンス: Link先を確認 | Xiang Wang, Shiwei Zhang, Han Zhang, Yu Liu, Yingya Zhang, Changxin Gao, Nong Sang | (参考訳) 一貫性モデルは効率的な画像生成において強力な能力を示しており、数回のサンプリングステップで合成が可能であり、拡散モデルにおける高い計算コストを軽減している。
しかし、より困難でリソースを消費するビデオ生成における一貫性モデルは、まだ研究されていない。
本稿では,このギャップを埋めるために,画像生成から一貫性モデルの概念を活用し,高品質を維持しつつ,最小限のステップで映像を効率的に合成するvideolcmフレームワークを提案する。
VideoLCMは、既存の遅延ビデオ拡散モデルの上に構築され、遅延一貫性モデルをトレーニングするための一貫性蒸留技術が組み込まれている。
実験の結果, 計算効率, 忠実度, 時間的一貫性の観点からビデオlcmの有効性が示された。
特に、videolcmは4つのサンプリングステップで高忠実度で滑らかなビデオ合成を実現し、リアルタイム合成の可能性を示している。
videolcmが今後の研究のベースラインとして、シンプルで効果的なものになることを願っています。
ソースコードとモデルは公開される予定だ。 Consistency models have demonstrated powerful capability in efficient image generation and allowed synthesis within a few sampling steps, alleviating the high computational cost in diffusion models. However, the consistency model in the more challenging and resource-consuming video generation is still less explored. In this report, we present the VideoLCM framework to fill this gap, which leverages the concept of consistency models from image generation to efficiently synthesize videos with minimal steps while maintaining high quality. VideoLCM builds upon existing latent video diffusion models and incorporates consistency distillation techniques for training the latent consistency model. Experimental results reveal the effectiveness of our VideoLCM in terms of computational efficiency, fidelity and temporal consistency. Notably, VideoLCM achieves high-fidelity and smooth video synthesis with only four sampling steps, showcasing the potential for real-time synthesis. We hope that VideoLCM can serve as a simple yet effective baseline for subsequent research. The source code and models will be publicly available. | 翻訳日:2023-12-15 21:04:31 公開日:2023-12-14 |
# コミュニケーション効率のよい連合学習のための欲深いシャプリークライアント選択 Greedy Shapley Client Selection for Communication-Efficient Federated Learning ( http://arxiv.org/abs/2312.09108v1 ) ライセンス: Link先を確認 | Pranava Singhal, Shashi Raj Pandey, Petar Popovski | (参考訳) フェデレートラーニング(FL)の標準的なクライアント選択アルゴリズムは、しばしばバイアスがなく、クライアントのランダムなサンプリングを含む。
これは、データ分散と計算とクライアント間の通信リソースが著しく異質であることに特徴付けられる、実用的な環境での高速収束に最適であることが証明されている。
通信機会の制限によるタイミング制約のあるアプリケーションにとって、クライアントの選択戦略は、通信ラウンドの固定予算内でモデルトレーニングを完了させるのに不可欠である。
この問題に対処するため、各通信ラウンドで最も貢献するクライアントを特定し、優しく選択する、バイアスのあるクライアント選択戦略であるGreedyFedを開発した。
この手法はパラメータサーバ(PS)におけるShapley値の高速近似アルゴリズムに基づいており、多くのクライアントを持つ現実世界のアプリケーションで計算が実行可能である。
複数の実世界のデータセット上のさまざまなクライアント選択戦略と比較して、GreedyFedは、タイミング制約下での高速で安定した収束と、データ分散、システム制約、プライバシ要件の高度な均一性を示す。 The standard client selection algorithms for Federated Learning (FL) are often unbiased and involve uniform random sampling of clients. This has been proven sub-optimal for fast convergence under practical settings characterized by significant heterogeneity in data distribution and computing and communication resources across clients. For applications having timing constraints due to limited communication opportunities, the client selection strategy is critical to complete model training within the fixed budget of communication rounds. To address this, we develop a biased client selection strategy, GreedyFed that identifies and greedily selects the most contributing clients in each communication round. This method builds on a fast approximation algorithm for the Shapley Value at the parameter server (PS), making the computation tractable for real-world applications with many clients. Compared to various client selection strategies on several real-world datasets, GreedyFed demonstrates fast and stable convergence with high accuracy under timing constraints and a higher degree of heterogeneity in data distribution, systems constraints, and privacy requirements. | 翻訳日:2023-12-15 21:04:18 公開日:2023-12-14 |
# ColNeRF: 一般化可能なスパース入力ニューラルラジアンス場のためのコラボレーション ColNeRF: Collaboration for Generalizable Sparse Input Neural Radiance Field ( http://arxiv.org/abs/2312.09095v1 ) ライセンス: Link先を確認 | Zhangkai Ni, Peiqi Yang, Wenhan Yang, Lin Ma, Sam Kwong | (参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、高密度入力から新しいビューを合成する素晴らしい可能性を示しているが、その効果はスパース入力を扱う際には困難である。
追加の深みや意味的な監督を含む既存のアプローチは、この問題をある程度緩和することができる。
しかし、監視収集のプロセスはコストがかかるだけでなく、潜在的に不正確であり、様々なシナリオにおけるパフォーマンスと一般化能力の低下につながる。
本研究では,スパース入力で動作するように設計されたColNeRF(Collaborative Neural Radiance Fields)という新しいモデルを紹介する。
ColNeRFにおける協調には、スパース入力画像間の協調と、神経放射場の出力間の協調の両方が含まれる。
そこで我々は,様々な視点からの情報の整合化と,幾何学的・外観的整合性を確保するための自己監督的制約を課する,新しい協調モジュールを構築した。
複雑な咬合を捉え、暗黙的に物体の空間的位置を推測するために、ccvi(collaborative cross-view volume integration module)が提案されている。
さらに、隣接領域における幾何的および色調の整合性を確保するため、複数の方向を投影する目標線を自己監督する。
ColNeRFは、入力および出力終了時の協調によって、よりリッチでより一般化されたシーン表現をキャプチャし、新しいビュー合成の高品質な結果を容易にする。
大規模な実験により、ColNeRFは最先端のスパース入力一般化可能なNeRF法より優れていた。
さらに,本手法は,計算コストを著しく削減しつつ,シーンごとの最適化したnrf法と比較して,新たなシーンへの適応に向けた微調整において優れた性能を示す。
私たちのコードは、https://github.com/eezkni/ColNeRF.comで利用可能です。 Neural Radiance Fields (NeRF) have demonstrated impressive potential in synthesizing novel views from dense input, however, their effectiveness is challenged when dealing with sparse input. Existing approaches that incorporate additional depth or semantic supervision can alleviate this issue to an extent. However, the process of supervision collection is not only costly but also potentially inaccurate, leading to poor performance and generalization ability in diverse scenarios. In our work, we introduce a novel model: the Collaborative Neural Radiance Fields (ColNeRF) designed to work with sparse input. The collaboration in ColNeRF includes both the cooperation between sparse input images and the cooperation between the output of the neural radiation field. Through this, we construct a novel collaborative module that aligns information from various views and meanwhile imposes self-supervised constraints to ensure multi-view consistency in both geometry and appearance. A Collaborative Cross-View Volume Integration module (CCVI) is proposed to capture complex occlusions and implicitly infer the spatial location of objects. Moreover, we introduce self-supervision of target rays projected in multiple directions to ensure geometric and color consistency in adjacent regions. Benefiting from the collaboration at the input and output ends, ColNeRF is capable of capturing richer and more generalized scene representation, thereby facilitating higher-quality results of the novel view synthesis. Extensive experiments demonstrate that ColNeRF outperforms state-of-the-art sparse input generalizable NeRF methods. Furthermore, our approach exhibits superiority in fine-tuning towards adapting to new scenes, achieving competitive performance compared to per-scene optimized NeRF-based methods while significantly reducing computational costs. Our code is available at: https://github.com/eezkni/ColNeRF. | 翻訳日:2023-12-15 21:04:00 公開日:2023-12-14 |
# Aleth-NeRF:電場推定による照度適応型NeRF Aleth-NeRF: Illumination Adaptive NeRF with Concealing Field Assumption ( http://arxiv.org/abs/2312.09093v1 ) ライセンス: Link先を確認 | Ziteng Cui, Lin Gu, Xiao Sun, Xianzheng Ma, Yu Qiao, Tatsuya Harada | (参考訳) 標準的なニューラル・ラジアンス・フィールド(nerf)パラダイムは、照明と物質反射の側面を3dポイントのみから放出するビューア中心の方法論を採用している。
この簡易なレンダリングアプローチは、低照度や過剰露光といった悪照明条件下で撮影された画像を正確にモデル化する際の課題を示す。
眼から放射される光の結果として視覚知覚を仮定する古代ギリシアの放射理論に動機づけられ、従来のnerfフレームワークをわずかに洗練し、挑戦的な光条件下でnerfを訓練し、教師なしのノーマル・ライト条件の斬新なビューを生成する。
照明効果を考慮し,周囲の空気に透過値を割り当てる「コンセリングフィールド」の概念を導入する。
暗いシナリオでは、オブジェクトの排出は標準的な照明レベルを維持するが、レンダリングプロセス中に空気を横切ると減衰する、と仮定する。
コンセリングフィールドは、暗く照らされた状況でも、NeRFに適切な密度と色の推定を学ばせるように強制する。
同様に、隠蔽フィールドはレンダリング段階で過剰に放出される排出を緩和することができる。
さらに,評価に難渋する照明条件下での総合的な多視点データセットを提案する。
私たちのコードとデータセットはhttps://github.com/cuiziteng/aleth-nerfで利用可能です。 The standard Neural Radiance Fields (NeRF) paradigm employs a viewer-centered methodology, entangling the aspects of illumination and material reflectance into emission solely from 3D points. This simplified rendering approach presents challenges in accurately modeling images captured under adverse lighting conditions, such as low light or over-exposure. Motivated by the ancient Greek emission theory that posits visual perception as a result of rays emanating from the eyes, we slightly refine the conventional NeRF framework to train NeRF under challenging light conditions and generate normal-light condition novel views unsupervised. We introduce the concept of a "Concealing Field," which assigns transmittance values to the surrounding air to account for illumination effects. In dark scenarios, we assume that object emissions maintain a standard lighting level but are attenuated as they traverse the air during the rendering process. Concealing Field thus compel NeRF to learn reasonable density and colour estimations for objects even in dimly lit situations. Similarly, the Concealing Field can mitigate over-exposed emissions during the rendering stage. Furthermore, we present a comprehensive multi-view dataset captured under challenging illumination conditions for evaluation. Our code and dataset available at https://github.com/cuiziteng/Aleth-NeRF | 翻訳日:2023-12-15 21:03:30 公開日:2023-12-14 |
# COMBHelper: グラフコンビネーション問題に対する検索スペース削減のためのニューラルネットワーク COMBHelper: A Neural Approach to Reduce Search Space for Graph Combinatorial Problems ( http://arxiv.org/abs/2312.09086v1 ) ライセンス: Link先を確認 | Hao Tian, Sourav Medya, Wei Ye | (参考訳) グラフに対する組合せ最適化(CO)問題は、トラフィックの最適化、ソーシャルネットワークにおけるバイラルマーケティング、ジョブ割り当てのマッチングなど、多くのアプリケーションで日常的に発生する。
組み合わせの性質のため、これらの問題はしばしばNPハードである。
既存の近似アルゴリズムとヒューリスティックスは探索空間に頼って解を見つけ出し、この空間が大きくなると時間がかかる。
本論文では,この空間を削減し,ノード選択に基づく従来のCOアルゴリズムの効率を向上させるために,COMBHelperと呼ばれるニューラル手法を設計する。
具体的には、グラフニューラルネットワーク(GNN)を使用して、ソリューションセットの有望なノードを特定する。
この刈り取られた探索空間は、従来のcoアルゴリズムに供給される。
COMBHelperはまた、知識蒸留(KD)モジュールと問題固有のブースティングモジュールを使用して、さらなる効率性と有効性をもたらす。
実験の結果,COMBHelperを用いた従来のCOアルゴリズムは,従来のバージョンに比べて少なくとも2倍高速であることがわかった。 Combinatorial Optimization (CO) problems over graphs appear routinely in many applications such as in optimizing traffic, viral marketing in social networks, and matching for job allocation. Due to their combinatorial nature, these problems are often NP-hard. Existing approximation algorithms and heuristics rely on the search space to find the solutions and become time-consuming when this space is large. In this paper, we design a neural method called COMBHelper to reduce this space and thus improve the efficiency of the traditional CO algorithms based on node selection. Specifically, it employs a Graph Neural Network (GNN) to identify promising nodes for the solution set. This pruned search space is then fed to the traditional CO algorithms. COMBHelper also uses a Knowledge Distillation (KD) module and a problem-specific boosting module to bring further efficiency and efficacy. Our extensive experiments show that the traditional CO algorithms with COMBHelper are at least 2 times faster than their original versions. | 翻訳日:2023-12-15 21:03:06 公開日:2023-12-14 |
# 地球は平らである:―説得的会話を通してLLMの誤報に対する信念を調査する The Earth is Flat because...: Investigating LLMs' Belief towards Misinformation via Persuasive Conversation ( http://arxiv.org/abs/2312.09085v1 ) ライセンス: Link先を確認 | Rongwu Xu, Brian S. Lin, Shujian Yang, Tianqi Zhang, Weiyan Shi, Tianwei Zhang, Zhixuan Fang, Wei Xu, Han Qiu | (参考訳) 大きな言語モデル(LLM)は膨大な量の知識をカプセル化するが、それでも外部の誤情報に弱いままである。
既存の研究は主に、この感受性の挙動を単一ターンで研究している。
しかし、信念は多面的な会話、特に説得力のある会話の間に変化する可能性がある。
そこで本研究では,llmの説得的会話に対する感受性,特に正解できる事実的質問について考察する。
我々はまず、体系的に生成された説得的誤報と組み合わせた事実質問を含むFact to Misinformデータセット(Fact to Misinform)をキュレートする。
そこで我々は,llmsの信念変化を説得力のある対話で追跡するテストフレームワークを開発した。
広範にわたる実験により,LLMの事実知識に対する正しい信念は,様々な説得戦略によって容易に操作できることがわかった。 Large Language Models (LLMs) encapsulate vast amounts of knowledge but still remain vulnerable to external misinformation. Existing research mainly studied this susceptibility behavior in a single-turn setting. However, belief can change during a multi-turn conversation, especially a persuasive one. Therefore, in this study, we delve into LLMs' susceptibility to persuasive conversations, particularly on factual questions that they can answer correctly. We first curate the Farm (i.e., Fact to Misinform) dataset, which contains factual questions paired with systematically generated persuasive misinformation. Then, we develop a testing framework to track LLMs' belief changes in a persuasive dialogue. Through extensive experiments, we find that LLMs' correct beliefs on factual knowledge can be easily manipulated by various persuasive strategies. | 翻訳日:2023-12-15 21:02:48 公開日:2023-12-14 |
# スピンナカー2型ニューロモルフィックチップの言語モデル Language Modeling on a SpiNNaker 2 Neuromorphic Chip ( http://arxiv.org/abs/2312.09084v1 ) ライセンス: Link先を確認 | Khaleelulla Khan Nazeer, Mark Sch\"one, Rishav Mukherji, Christian Mayr, David Kappel, Anand Subramoney | (参考訳) 大きな言語モデルが急速にスケールし続けるにつれて、それらを実行するのに必要な計算能力も向上する。
ニューロモルフィックデバイス上のイベントベースのネットワークは、推論のエネルギー消費を大幅に削減する潜在的方法を提供する。
しかし、これまでのところ、スパイクニューラルネットワーク(SNN)を含むニューロモルフィックなハードウェア上で動作可能なイベントベースのネットワークのほとんどは、言語モデリングのLSTMモデルと同等のタスク性能を達成できていない。
その結果、ニューロモルフィックデバイス上での言語モデリングは、遠い未来に思えた。
本稿では,ニューロモルフィックデバイス,特に最近発表されたイベントベースアーキテクチャであるEGRUをベースにしたSpiNNaker 2チップ上での言語モデルの実装を実演する。
SpiNNaker 2は大規模非同期処理用に設計された多コアニューロモルフィックチップであり、EGRUは競争力のあるタスク性能を維持しながら、これらのハードウェアを効率的に活用するように設計されている。
この実装は、ニューロモルフィック言語モデルがLSTMと初めて一致し、タスクパフォーマンスを大きな言語モデルのレベルに引き上げるためのステージを設定する。
また,dvsカメラからの入力に基づいてジェスチャ認識タスクの結果を示す。
全体として,このニューロインスパイアされたニューラルネットワークのハードウェアにおける実現可能性を示し,単一バッチ推論の一般的なユースケースにおいて,従来のハードウェアに比べてエネルギー効率が大幅に向上していることを強調した。 As large language models continue to scale in size rapidly, so too does the computational power required to run them. Event-based networks on neuromorphic devices offer a potential way to reduce energy consumption for inference significantly. However, to date, most event-based networks that can run on neuromorphic hardware, including spiking neural networks (SNNs), have not achieved task performance even on par with LSTM models for language modeling. As a result, language modeling on neuromorphic devices has seemed a distant prospect. In this work, we demonstrate the first-ever implementation of a language model on a neuromorphic device - specifically the SpiNNaker 2 chip - based on a recently published event-based architecture called the EGRU. SpiNNaker 2 is a many-core neuromorphic chip designed for large-scale asynchronous processing, while the EGRU is architected to leverage such hardware efficiently while maintaining competitive task performance. This implementation marks the first time a neuromorphic language model matches LSTMs, setting the stage for taking task performance to the level of large language models. We also demonstrate results on a gesture recognition task based on inputs from a DVS camera. Overall, our results showcase the feasibility of this neuro-inspired neural network in hardware, highlighting significant gains versus conventional hardware in energy efficiency for the common use case of single batch inference. | 翻訳日:2023-12-15 21:02:34 公開日:2023-12-14 |
# learned fusion:キャリブレーションフリー変圧器機能融合を用いた3次元物体検出 Learned Fusion: 3D Object Detection using Calibration-Free Transformer Feature Fusion ( http://arxiv.org/abs/2312.09082v1 ) ライセンス: Link先を確認 | Michael F\"urst, Rahul Jakkamsetty, Ren\'e Schuster, Didier Stricker | (参考訳) センサ融合を用いた3次元物体検出の現状は、キャリブレーションの品質に大きく依存しており、実験室外の大規模展開では維持が困難である。
3次元物体検出のための最初のキャリブレーションフリーアプローチを提案する。
したがって、複雑でコストのかかる校正手順を不要にする。
我々のアプローチでは、トランスフォーマーを使用して、異なるセンサーの複数のビュー間の機能を複数の抽象化レベルでマッピングする。
物体検出の広範な評価において、我々のアプローチが単一のモード設定よりもbevマップで14.1%上回るだけでなく、トランスフォーマーがマッピングを実際に学習していることを示す。
センサ融合にはキャリブレーションは不要であることを示すことで,キャリブレーションフリー融合の方向性に従って,他の研究者にモチベーションを与えたいと思っています。
さらに、結果として生じるアプローチは、回転や翻訳の変化に対して実質的なレジリエンスを持つ。 The state of the art in 3D object detection using sensor fusion heavily relies on calibration quality, which is difficult to maintain in large scale deployment outside a lab environment. We present the first calibration-free approach for 3D object detection. Thus, eliminating the need for complex and costly calibration procedures. Our approach uses transformers to map the features between multiple views of different sensors at multiple abstraction levels. In an extensive evaluation for object detection, we not only show that our approach outperforms single modal setups by 14.1% in BEV mAP, but also that the transformer indeed learns mapping. By showing calibration is not necessary for sensor fusion, we hope to motivate other researchers following the direction of calibration-free fusion. Additionally, resulting approaches have a substantial resilience against rotation and translation changes. | 翻訳日:2023-12-15 21:02:11 公開日:2023-12-14 |
# ミニマックスレグレットに基づくロバスト決定木構築のための進化的アルゴリズム Coevolutionary Algorithm for Building Robust Decision Trees under Minimax Regret ( http://arxiv.org/abs/2312.09078v1 ) ライセンス: Link先を確認 | Adam \.Zychowski, Andrew Perrault, Jacek Ma\'ndziuk | (参考訳) 近年、最も広く採用され、効率的かつ解釈可能なMLアルゴリズム決定木(DT)を含む、敵攻撃に耐えられる堅牢な機械学習(ML)モデルの開発への関心が高まっている。
本稿では,雑音の多い高次元データを逆文脈で処理可能なロバストdtを生成するための新しい共進化アルゴリズム(coevordt)を提案する。
従来のDTアルゴリズムの制限により、適応的共進化を利用してDTを進化させ、摂動入力データとの相互作用から学習する。
CoEvoRDTは競合するDTと摂動特性を交互に進化させ、所望の特性を持つDTの構築を可能にする。
CoEvoRDTは、様々なターゲットメトリクスに容易に適応でき、minimax regretのような調整された堅牢性基準を使用することができる。
さらに、CoEvoRDTは、その成果(DT)を初期集団に組み込んで、共進化の過程でそれらを最適化することで、他の最先端手法の結果を改善する可能性がある。
ゲーム理論に触発されて、CoEvoRDTは混合ナッシュ平衡を利用して収束を高める。
この方法は20の一般的なデータセットでテストされ、4つの最先端アルゴリズムよりも優れたパフォーマンスを示している。
これは、逆精度の指標を持つ13のデータセットと、ミニマックスの後悔を持つ20のデータセットで競合するすべてのメソッドを上回った。
強力な実験結果とエラー測定値の選択の柔軟性により、coevordtは実世界のアプリケーションで堅牢なdtsを構築するための有望なアプローチとなる。 In recent years, there has been growing interest in developing robust machine learning (ML) models that can withstand adversarial attacks, including one of the most widely adopted, efficient, and interpretable ML algorithms-decision trees (DTs). This paper proposes a novel coevolutionary algorithm (CoEvoRDT) designed to create robust DTs capable of handling noisy high-dimensional data in adversarial contexts. Motivated by the limitations of traditional DT algorithms, we leverage adaptive coevolution to allow DTs to evolve and learn from interactions with perturbed input data. CoEvoRDT alternately evolves competing populations of DTs and perturbed features, enabling construction of DTs with desired properties. CoEvoRDT is easily adaptable to various target metrics, allowing the use of tailored robustness criteria such as minimax regret. Furthermore, CoEvoRDT has potential to improve the results of other state-of-the-art methods by incorporating their outcomes (DTs they produce) into the initial population and optimize them in the process of coevolution. Inspired by the game theory, CoEvoRDT utilizes mixed Nash equilibrium to enhance convergence. The method is tested on 20 popular datasets and shows superior performance compared to 4 state-of-the-art algorithms. It outperformed all competing methods on 13 datasets with adversarial accuracy metrics, and on all 20 considered datasets with minimax regret. Strong experimental results and flexibility in choosing the error measure make CoEvoRDT a promising approach for constructing robust DTs in real-world applications. | 翻訳日:2023-12-15 21:01:55 公開日:2023-12-14 |
# ProSGNeRF: 都市景観における周波数変調オートエンコーダを用いたプログレッシブ・ニューラルシーングラフ ProSGNeRF: Progressive Dynamic Neural Scene Graph with Frequency Modulated Auto-Encoder in Urban Scenes ( http://arxiv.org/abs/2312.09076v1 ) ライセンス: Link先を確認 | Tianchen Deng, Siyang Liu, Xuan Wang, Yejia Liu, Danwei Wang, Weidong Chen | (参考訳) 暗黙の神経表現は、大きく複雑なシーンのビュー合成において有望な結果を示している。
しかし、既存のアプローチでは、高速に動くオブジェクトをキャプチャできないか、カメラのエゴモーションなしでシーングラフを構築する必要があるため、シーンの低品質な合成ビューに繋がる。
我々は,より実用的で困難な大規模都市景観と高速移動車両の視点合成問題を共同で解決することを目指している。
この目的のために、まずグラフ構造を利用して、動的オブジェクトと背景の局所的なシーン表現を学習する。
そして,時間的ウィンドウ内でフレームで訓練された新しいローカルシーングラフを動的に割り当てるプログレッシブ・スキームを設計し,任意の大きさのシーンに表現を拡大する。
また,都市景観のトレーニング視点は比較的疎いため,動的物体の復元精度は著しく低下する。
そこで我々は,動的オブジェクトの表現を強化し,スパース画像入力問題に対処するために,潜在コードを符号化し,オブジェクトの周波数範囲を定式化する周波数自動エンコーダネットワークを設計した。
さらに,大規模都市景観における幾何整合性を維持するためにライダー・ポイント・プロジェクションを用いる。
実験により,本手法は現状のビュー合成精度,オブジェクト操作,シーンローミング能力を実現していることが示された。
コードは、紙が受け入れられるとオープンソースになる。 Implicit neural representation has demonstrated promising results in view synthesis for large and complex scenes. However, existing approaches either fail to capture the fast-moving objects or need to build the scene graph without camera ego-motions, leading to low-quality synthesized views of the scene. We aim to jointly solve the view synthesis problem of large-scale urban scenes and fast-moving vehicles, which is more practical and challenging. To this end, we first leverage a graph structure to learn the local scene representations of dynamic objects and the background. Then, we design a progressive scheme that dynamically allocates a new local scene graph trained with frames within a temporal window, allowing us to scale up the representation to an arbitrarily large scene. Besides, the training views of urban scenes are relatively sparse, which leads to a significant decline in reconstruction accuracy for dynamic objects. Therefore, we design a frequency auto-encoder network to encode the latent code and regularize the frequency range of objects, which can enhance the representation of dynamic objects and address the issue of sparse image inputs. Additionally, we employ lidar point projection to maintain geometry consistency in large-scale urban scenes. Experimental results demonstrate that our method achieves state-of-the-art view synthesis accuracy, object manipulation, and scene roaming ability. The code will be open-sourced upon paper acceptance. | 翻訳日:2023-12-15 21:01:28 公開日:2023-12-14 |
# 進化する記憶と自己反射を伴う検証可能なテキスト生成に向けて Towards Verifiable Text Generation with Evolving Memory and Self-Reflection ( http://arxiv.org/abs/2312.09075v1 ) ライセンス: Link先を確認 | Hao Sun, Hengyi Cai, Bo Wang, Yingyan Hou, Xiaochi Wei, Shuaiqiang Wang, Yan Zhang, Dawei Yin | (参考訳) 大規模言語モデル(LLM)は、幻覚として知られる誤った出力を生成する傾向など、いくつかの課題に直面している。
有効な解決策は、検証可能なテキスト生成であり、LCMは、正確な検証のために引用付きコンテンツを生成する。
しかし、フォーカスシフト現象、文書検索における精度と範囲のジレンマ、クレームと引用の関係を識別するために必要とされる複雑な推論などにより、検証可能なテキスト生成は自明ではない。
本稿では、記憶と自己回帰を進化させる検証可能なテキスト生成のための革新的なアプローチであるVTGを提案する。
VTGは、価値あるドキュメントと最新のドキュメントの両方を保持するために、長期記憶の進化を維持している。
能動的検索と多様なクエリ生成は、検索された文書の精度と範囲を高めるために利用される。
さらに、vtgは2層検証器と証拠発見器を備えており、クレームと引用の関係を再考し、反映することができる。
3つの知識集約型タスクにまたがる5つのデータセットについて広範な実験を行い,vtgが既存のベースラインを大きく上回ることを示した。 Large Language Models (LLMs) face several challenges, including the tendency to produce incorrect outputs, known as hallucination. An effective solution is verifiable text generation, which prompts LLMs to generate content with citations for accuracy verification. However, verifiable text generation is non-trivial due to the focus-shifting phenomenon, the dilemma between the precision and scope in document retrieval, and the intricate reasoning required to discern the relationship between the claim and citations. In this paper, we present VTG, an innovative approach for Verifiable Text Generation with evolving memory and self-reflection. VTG maintains evolving long short-term memory to retain both valuable documents and up-to-date documents. Active retrieval and diverse query generation are utilized to enhance both the precision and scope of the retrieved documents. Furthermore, VTG features a two-tier verifier and an evidence finder, enabling rethinking and reflection on the relationship between the claim and citations. We conduct extensive experiments on five datasets across three knowledge-intensive tasks and the results reveal that VTG significantly outperforms existing baselines. | 翻訳日:2023-12-15 21:01:02 公開日:2023-12-14 |
# 平均対称性の異常:絡み合いと開量子系 Anomalies of Average Symmetries: Entanglement and Open Quantum Systems ( http://arxiv.org/abs/2312.09074v1 ) ライセンス: Link先を確認 | Po-Shen Hsin, Zhu-Xi Luo, Hao-Yu Sun | (参考訳) 対称性とその異常は量子システムを理解するための強力なツールである。
しかし、現実的なシステムは、しばしば障害、消散、脱コヒーレンスに悩まされる。
多くの場合、対称性は正確ではなく平均でのみ存在する。
本研究は、非可換平均対称性から生じる混合状態の制約を考察する。
平均対称性生成器の可換関係が非自明な位相によって破られる場合に注目し、そのような平均対称性異常を呼ぶ。
異常平均対称性は密度行列固有値の退化を暗示し、xy鎖、ハイゼンベルク鎖、変形トーリック符号モデルなど平均対称性を持ついくつかの格子例を示す。
ある場合には、結果は密度行列の縮小にさらに拡張され、エントロピーのエントロピーに新たな下界がもたらされる。
我々は,多くの体局在,量子チャネル,絡み合い相転移の文脈におけるいくつかの応用について論じるとともに,開量子系のリンドブラジアン進化に新たな制約を与える。 Symmetries and their anomalies are powerful tools for understanding quantum systems. However, realistic systems are often subject to disorders, dissipation and decoherence. In many circumstances, symmetries are not exact but only on average. This work investigates the constraints on mixed states resulting from non-commuting average symmetries. We will focus on the cases where the commutation relations of the average symmetry generators are violated by nontrivial phases, and call such average symmetry anomalous. We show that anomalous average symmetry implies degeneracy in the density matrix eigenvalues, and present several lattice examples with average symmetries, including XY chain, Heisenberg chain, and deformed toric code models. In certain cases, the results can be further extended to reduced density matrices, leading to a new lower bound on the entanglement entropy. We discuss several applications in the contexts of many body localization, quantum channels, entanglement phase transitions and also derive new constraints on the Lindbladian evolution of open quantum systems. | 翻訳日:2023-12-15 21:00:42 公開日:2023-12-14 |
# WIT-UAS: 空中から宇宙船の集合を検知する赤外線熱データセット WIT-UAS: A Wildland-fire Infrared Thermal Dataset to Detect Crew Assets From Aerial Views ( http://arxiv.org/abs/2312.09159v1 ) ライセンス: Link先を確認 | Andrew Jong, Mukai Yu, Devansh Dhrafani, Siva Kailas, Brady Moon, Katia Sycara, Sebastian Scherer | (参考訳) 我々は、所定の森林火災環境下での乗組員および車両資産の長距離赤外検知のためのWildland-fire Infrared Thermal (WIT-UAS)データセットを提示する。
このようなデータセットは、山火事のアプリケーションにおける安全監視に不可欠であるが、著者の意識には、火災に近い資産に焦点を当てたデータセットは公開されていない。
これは、消防隊員との共同作業の参入障壁によるものと思われる。
WIT-UAS-ROSは、火災上におけるUAS飛行のセンサデータとロボットデータを含むROSバッグファイルと、WIT-UAS-ROSから抽出されたハンドラベル長波赤外(LWIR)画像を含むWIT-UAS-ROSである。
当社のデータセットは、森林火災環境におけるアセット検出に焦点を当てた最初のものです。
火災データ無しで訓練された熱検出モデルは,火を人間として分類することにより誤検出を頻繁に行う。
トレーニングにデータセットを追加することで、偽陽性率が大幅に減少することを示す。
しかし、森林火災環境における資産検出は、密集した樹木、より熱の変化、火災の熱信号の過大さにより、都市環境における検出よりもはるかに難しい。
私たちはこのデータセットを公開し、コミュニティがこの挑戦的な環境に取り組むために、より高度なモデルの研究を奨励します。
データセット、コード、事前トレーニングされたモデルは、 \url{https://github.com/castacks/WIT-UAS-Dataset}で利用できる。 We present the Wildland-fire Infrared Thermal (WIT-UAS) dataset for long-wave infrared sensing of crew and vehicle assets amidst prescribed wildland fire environments. While such a dataset is crucial for safety monitoring in wildland fire applications, to the authors' awareness, no such dataset focusing on assets near fire is publicly available. Presumably, this is due to the barrier to entry of collaborating with fire management personnel. We present two related data subsets: WIT-UAS-ROS consists of full ROS bag files containing sensor and robot data of UAS flight over the fire, and WIT-UAS-Image contains hand-labeled long-wave infrared (LWIR) images extracted from WIT-UAS-ROS. Our dataset is the first to focus on asset detection in a wildland fire environment. We show that thermal detection models trained without fire data frequently detect false positives by classifying fire as people. By adding our dataset to training, we show that the false positive rate is reduced significantly. Yet asset detection in wildland fire environments is still significantly more challenging than detection in urban environments, due to dense obscuring trees, greater heat variation, and overbearing thermal signal of the fire. We publicize this dataset to encourage the community to study more advanced models to tackle this challenging environment. The dataset, code and pretrained models are available at \url{https://github.com/castacks/WIT-UAS-Dataset}. | 翻訳日:2023-12-15 20:55:23 公開日:2023-12-14 |
# 大規模画像と映像のための汎用オブジェクトファウンデーションモデル General Object Foundation Model for Images and Videos at Scale ( http://arxiv.org/abs/2312.09158v1 ) ライセンス: Link先を確認 | Junfeng Wu, Yi Jiang, Qihao Liu, Zehuan Yuan, Xiang Bai, Song Bai | (参考訳) 本研究では,画像やビデオ中の物体の位置と識別のためのオブジェクトレベルの基盤モデルであるGLEEについて述べる。
統一されたフレームワークを通じて、GLEEは様々なオブジェクト認識タスクのためのオープンワールドシナリオにおける任意のオブジェクトの検出、セグメンテーション、追跡、グラウンド化、識別を達成する。
一貫性のある学習戦略を採用することで、GLEEはさまざまなデータソースから知識を取得し、汎用オブジェクト表現を定式化し、新しいデータやタスクへのゼロショット転送に優れる。
具体的には、画像エンコーダ、テキストエンコーダ、視覚プロンプトを用いてマルチモーダル入力を処理し、最先端性能を維持しつつ、様々なオブジェクト中心の下流タスクを同時に解決する。
さまざまなベンチマークから500万以上のイメージを広範囲にトレーニングすることで、GLEEは優れた汎用性と一般化性能を示し、タスク固有の適応を必要とせずに、下流タスクに効率的に対処する。
大量のラベル付きデータを統合することで、そのゼロショット一般化能力をさらに高めます。
さらに、GLEEはLarge Language Modelsに統合され、マルチモーダルタスクのための普遍的なオブジェクトレベル情報を提供する基盤モデルとして機能する。
提案手法の汎用性と普遍性は,AGIシステムのための効率的な視覚基盤モデルの開発において重要なステップとなることを期待する。
モデルとコードはhttps://glee-vision.github.ioでリリースされる。 We present GLEE in this work, an object-level foundation model for locating and identifying objects in images and videos. Through a unified framework, GLEE accomplishes detection, segmentation, tracking, grounding, and identification of arbitrary objects in the open world scenario for various object perception tasks. Adopting a cohesive learning strategy, GLEE acquires knowledge from diverse data sources with varying supervision levels to formulate general object representations, excelling in zero-shot transfer to new data and tasks. Specifically, we employ an image encoder, text encoder, and visual prompter to handle multi-modal inputs, enabling to simultaneously solve various object-centric downstream tasks while maintaining state-of-the-art performance. Demonstrated through extensive training on over five million images from diverse benchmarks, GLEE exhibits remarkable versatility and improved generalization performance, efficiently tackling downstream tasks without the need for task-specific adaptation. By integrating large volumes of automatically labeled data, we further enhance its zero-shot generalization capabilities. Additionally, GLEE is capable of being integrated into Large Language Models, serving as a foundational model to provide universal object-level information for multi-modal tasks. We hope that the versatility and universality of our method will mark a significant step in the development of efficient visual foundation models for AGI systems. The model and code will be released at https://glee-vision.github.io . | 翻訳日:2023-12-15 20:54:56 公開日:2023-12-14 |
# CMG-Net: Chamfer normal Distance と Multi-scale Geometry による点雲のロバスト正規推定 CMG-Net: Robust Normal Estimation for Point Clouds via Chamfer Normal Distance and Multi-scale Geometry ( http://arxiv.org/abs/2312.09154v1 ) ライセンス: Link先を確認 | Yingrui Wu, Mingyang Zhao, Keqiang Li, Weize Quan, Tianqi Yu, Jianfeng Yang, Xiaohong Jia, Dong-Ming Yan | (参考訳) この研究は、点雲から正規度を推定するための正確で堅牢な方法を示す。
注釈付き正規値と予測正規値との偏差を最小化して方向の不整合をもたらす従来の手法とは対照的に,我々はまずこの問題に対処するための新しい計量であるシャンファー正規距離(Chamfer Normal Distance)を提案する。
これにより、課題を軽減するだけでなく、ネットワークトレーニングも容易になり、ノイズに対するネットワークロバスト性が大幅に向上する。
その後,マルチスケールな局所的特徴集約と階層的幾何情報融合を含む革新的なアーキテクチャを考案する。
この設計により、ネットワークは複雑な幾何学的詳細をより効果的に捉え、スケール選択の曖昧さを軽減することができる。
広範な実験により,本手法は合成データと実世界データの両方において,特にノイズによって汚染されたシナリオにおいて最先端のパフォーマンスを達成できることが証明された。
私たちの実装はhttps://github.com/yingruiwoo/cmg-net_pytorchで利用可能です。 This work presents an accurate and robust method for estimating normals from point clouds. In contrast to predecessor approaches that minimize the deviations between the annotated and the predicted normals directly, leading to direction inconsistency, we first propose a new metric termed Chamfer Normal Distance to address this issue. This not only mitigates the challenge but also facilitates network training and substantially enhances the network robustness against noise. Subsequently, we devise an innovative architecture that encompasses Multi-scale Local Feature Aggregation and Hierarchical Geometric Information Fusion. This design empowers the network to capture intricate geometric details more effectively and alleviate the ambiguity in scale selection. Extensive experiments demonstrate that our method achieves the state-of-the-art performance on both synthetic and real-world datasets, particularly in scenarios contaminated by noise. Our implementation is available at https://github.com/YingruiWoo/CMG-Net_Pytorch. | 翻訳日:2023-12-15 20:54:34 公開日:2023-12-14 |
# 観測可能なエンタングルメント Observable-enriched entanglement ( http://arxiv.org/abs/2312.09153v1 ) ライセンス: Link先を確認 | Joe H. Winter, Reyhan Ay, Bernd Braunecker, A. M. Cook | (参考訳) 本稿では,オブザーバブル作用素の行列表現によってエンタングルメント測度が強化されるエンタングルメントを特徴付ける手法を提案する。
これらの可観測作用素行列表現は、系の自由度のサブセット上の部分的トレースを豊かにすることができ、様々なエンタングルメントの測度を計算するのに有用な密度行列が得られる。
本稿では,これらの手法を可観測エンタングルメントスペクトルの計算に応用し,位相的空洞相に対する正準四バンドモデルの新たなバルク境界対応と,より単純なバルク境界対応への接続について述べる。
量子多体系の研究において、エンタングルメントシグネチャとオブザーバブルが果たす基本的な役割を考えると、オブザーバブルエンタングルメントは量子力学の無数の問題に広く適用できる。 We introduce methods of characterizing entanglement, in which entanglement measures are enriched by the matrix representations of operators for observables. These observable operator matrix representations can enrich the partial trace over subsets of a system's degrees of freedom, yielding reduced density matrices useful in computing various measures of entanglement, which also preserve the observable expectation value. We focus here on applying these methods to compute observable-enriched entanglement spectra, unveiling new bulk-boundary correspondences of canonical four-band models for topological skyrmion phases and their connection to simpler forms of bulk-boundary correspondence. Given the fundamental roles entanglement signatures and observables play in study of quantum many body systems, observable-enriched entanglement is broadly applicable to myriad problems of quantum mechanics. | 翻訳日:2023-12-15 20:54:16 公開日:2023-12-14 |
# スプリット・アンサンブル:タスクとモデル分割による効率的なOOD認識アンサンブル Split-Ensemble: Efficient OOD-aware Ensemble via Task and Model Splitting ( http://arxiv.org/abs/2312.09148v1 ) ライセンス: Link先を確認 | Anthony Chen, Huanrui Yang, Yulu Gan, Denis A Gudovskiy, Zhen Dong, Haofan Wang, Tomoyuki Okuno, Yohei Nakata, Shanghang Zhang, Kurt Keutzer | (参考訳) 不確実性推定は、機械学習モデルがout-of-distribution (ood)入力を検出するために不可欠である。
しかし,従来の識別型深層学習分類器は,OODデータに対する未分類閉集合予測を生成する。
不確実性推定を持つより堅牢な分類器は、通常、アウトレイラ露光訓練のための潜在的に利用できないOODデータセット、あるいはアンサンブルモデルを構築するためにかなりの量のメモリと計算を必要とする。
本研究では,代替の Split-Ensemble 法を用いたOODデータや追加の推論コストを使わずに不確実性推定を改善する。
具体的には,共通クラス分類タスクを複数の補完サブタスクに分割する,新しいサブタスク分割アンサンブル学習目標を提案する。
次に、各サブタスクのトレーニングデータは、他のサブタスクに対するOODとみなすことができる。
したがって、様々なサブモデルはOODを意識した目的で各サブタスクで訓練することができる。
subtask-splitting の目的は、パラメータや計算オーバーヘッドを避けるために、サブモデル間で低レベルの機能を共有できることです。
特に,各ブランチがサブタスクに対応するサブモデルとして機能する共有バックボーンモデルから繰り返し分割およびプルーニングを行うことにより,ツリーライクなSplit-Ensembleアーキテクチャを構築する。
これにより、固定アンサンブル計算予算の下で、サブモデル全体の精度と不確実性推定が向上する。
resnet-18 backboneを用いた実証研究では、計算コストを増すことなく、cifar-10、cifar-100、tiny-imagenetでそれぞれ0.8%、1.8%、25.5%の精度向上を示した。
同じバックボーンと分布内データセットのOOD検出は、AUROCの平均2.2%、8.1%、29.6%で単一のモデルベースラインを超える。
コードはhttps://antonioo-c.github.io/projects/split-ensembleで公開される。 Uncertainty estimation is crucial for machine learning models to detect out-of-distribution (OOD) inputs. However, the conventional discriminative deep learning classifiers produce uncalibrated closed-set predictions for OOD data. A more robust classifiers with the uncertainty estimation typically require a potentially unavailable OOD dataset for outlier exposure training, or a considerable amount of additional memory and compute to build ensemble models. In this work, we improve on uncertainty estimation without extra OOD data or additional inference costs using an alternative Split-Ensemble method. Specifically, we propose a novel subtask-splitting ensemble training objective, where a common multiclass classification task is split into several complementary subtasks. Then, each subtask's training data can be considered as OOD to the other subtasks. Diverse submodels can therefore be trained on each subtask with OOD-aware objectives. The subtask-splitting objective enables us to share low-level features across submodels to avoid parameter and computational overheads. In particular, we build a tree-like Split-Ensemble architecture by performing iterative splitting and pruning from a shared backbone model, where each branch serves as a submodel corresponding to a subtask. This leads to improved accuracy and uncertainty estimation across submodels under a fixed ensemble computation budget. Empirical study with ResNet-18 backbone shows Split-Ensemble, without additional computation cost, improves accuracy over a single model by 0.8%, 1.8%, and 25.5% on CIFAR-10, CIFAR-100, and Tiny-ImageNet, respectively. OOD detection for the same backbone and in-distribution datasets surpasses a single model baseline by, correspondingly, 2.2%, 8.1%, and 29.6% mean AUROC. Codes will be publicly available at https://antonioo-c.github.io/projects/split-ensemble | 翻訳日:2023-12-15 20:53:57 公開日:2023-12-14 |
# TriplaneがGussian Splattingを発表:高速で汎用的なトランスフォーマーによるシングルビュー3D再構成 Triplane Meets Gaussian Splatting: Fast and Generalizable Single-View 3D Reconstruction with Transformers ( http://arxiv.org/abs/2312.09147v1 ) ライセンス: Link先を確認 | Zi-Xin Zou, Zhipeng Yu, Yuan-Chen Guo, Yangguang Li, Ding Liang, Yan-Pei Cao and Song-Hai Zhang | (参考訳) 単一画像からの3次元再構成の最近の進歩は、生成モデルの進化によって引き起こされている。
代表的なものは、スコア蒸留サンプリング(SDS)に基づく手法と、3D領域における拡散モデルの適応である。
それらの進歩にもかかわらず、これらの技術は、遅い最適化やレンダリングプロセスのためにしばしば制限に直面する。
本稿では,フィードフォワード推論を用いて,単一画像から3次元モデルを効率的に生成する一視点再構成手法を提案する。
提案手法では,2つのトランスフォーマーネットワーク,すなわちポイントデコーダとトリプレーンデコーダを用いて,ハイブリッドトリプレーン・ガウス中間表現を用いて3次元オブジェクトを再構成する。
このハイブリッド表現は、暗黙の表現よりも高速なレンダリング速度を実現すると同時に、明示的な表現よりも優れたレンダリング品質を提供する。
ポイントデコーダは単一画像から点雲を生成するように設計されており、各点のガウス的特徴を問うためにトリプレーンデコーダによって使用される明示的な表現を提供する。
この設計選択は、その非構造的性質を特徴とする明示的な3次元ガウス特性を直接回帰する問題に対処する。
その後、3dガウスはmlpでデコードされ、スプラッティングによる高速レンダリングを可能にする。
どちらのデコーダもスケーラブルでトランスフォーマーベースのアーキテクチャ上に構築されており、大規模な3Dデータセットで効率的にトレーニングされている。
合成データセットと実世界画像の両方で実施した評価結果から,本手法は高品質なだけでなく,従来の最先端技術よりも高速なランタイムを実現する。
プロジェクトページはhttps://zouzx.github.io/TriplaneGaussian/。 Recent advancements in 3D reconstruction from single images have been driven by the evolution of generative models. Prominent among these are methods based on Score Distillation Sampling (SDS) and the adaptation of diffusion models in the 3D domain. Despite their progress, these techniques often face limitations due to slow optimization or rendering processes, leading to extensive training and optimization times. In this paper, we introduce a novel approach for single-view reconstruction that efficiently generates a 3D model from a single image via feed-forward inference. Our method utilizes two transformer-based networks, namely a point decoder and a triplane decoder, to reconstruct 3D objects using a hybrid Triplane-Gaussian intermediate representation. This hybrid representation strikes a balance, achieving a faster rendering speed compared to implicit representations while simultaneously delivering superior rendering quality than explicit representations. The point decoder is designed for generating point clouds from single images, offering an explicit representation which is then utilized by the triplane decoder to query Gaussian features for each point. This design choice addresses the challenges associated with directly regressing explicit 3D Gaussian attributes characterized by their non-structural nature. Subsequently, the 3D Gaussians are decoded by an MLP to enable rapid rendering through splatting. Both decoders are built upon a scalable, transformer-based architecture and have been efficiently trained on large-scale 3D datasets. The evaluations conducted on both synthetic datasets and real-world images demonstrate that our method not only achieves higher quality but also ensures a faster runtime in comparison to previous state-of-the-art techniques. Please see our project page at https://zouzx.github.io/TriplaneGaussian/. | 翻訳日:2023-12-15 20:53:24 公開日:2023-12-14 |
# クープマンモード分解機能 Featuring Koopman Mode Decomposition ( http://arxiv.org/abs/2312.09146v1 ) ライセンス: Link先を確認 | David Aristoff, Jeremy Copperman, Nathan Mankovich, and Alexander Davies | (参考訳) 本稿では、時間埋め込みとMahalanobisスケーリングを用いて高次元力学系の解析と予測を強化する、高度なクープマンモード分解(KMD)技術(Featurized Koopman Mode Decomposition(FKMD))を紹介する。
時間埋め込みは観測空間を拡大して基礎となる多様体構造をよりよく捉え、マハラノビススケーリングはカーネルやランダムなフーリエ特徴に適用され、システムのダイナミクスに基づいて観測を調整する。
これは、優れた特徴が知られていない場合にkmdを実現するのに役立つ。
本手法は,高次元ローレンツ誘導器のKMD予測と,がん研究からの細胞シグナル伝達問題を改善する。 This article introduces an advanced Koopman mode decomposition (KMD) technique -- coined Featurized Koopman Mode Decomposition (FKMD) -- that uses time embedding and Mahalanobis scaling to enhance analysis and prediction of high dimensional dynamical systems. The time embedding expands the observation space to better capture underlying manifold structure, while the Mahalanobis scaling, applied to kernel or random Fourier features, adjusts observations based on the system's dynamics. This aids in featurizing KMD in cases where good features are not a priori known. We show that our method improves KMD predictions for a high dimensional Lorenz attractor and for a cell signaling problem from cancer research. | 翻訳日:2023-12-15 20:52:53 公開日:2023-12-14 |
# インクリメンタルオブジェクト検出のためのクラスワイズバッファ管理:効果的なバッファトレーニング戦略 Class-Wise Buffer Management for Incremental Object Detection: An Effective Buffer Training Strategy ( http://arxiv.org/abs/2312.09139v1 ) ライセンス: Link先を確認 | Junsu Kim, Sumin Hong, Chanwoo Kim, Jihyeon Kim, Yihalem Yimolal Tiruneh, Jeongwan On, Jihyun Song, Sunhwa Choi, Seungryul Baek | (参考訳) クラスインクリメンタルラーニングは、既存のモデルに目に見えないクラスインスタンスを継続的に追加する際に発生する問題を解決することを目的としている。このアプローチは画像分類の文脈で広く研究されているが、オブジェクト検出への適用性はまだ十分に確立されていない。
リプレイメソッドを使用する既存のフレームワークは、トレーニング対象のモデルを考慮せずにリプレイデータを収集し、各サンプルのランダム性やラベル数に依存する傾向がある。
また、リプレイの有効性にもかかわらず、オブジェクト検出タスクにはまだ最適化されていない。
本稿では,オブジェクト検出に最適化されたリプレイバッファを生成する効果的なバッファトレーニング戦略(eBTS)を提案する。
提案手法は,トレーニングモデルにカスタマイズされたバッファを確立するために,最小かつ階層的なサンプリングを実現する。
%の方法により,事前知識の効果的な検索が容易になる。
さらに,循環経験リプレイトレーニングを用いて,蓄積バッファデータを最適に活用する。
MS COCOデータセットの実験は、既存のリプレイ方式と比較して、我々のeBTSが最先端のパフォーマンスを達成することを示した。 Class incremental learning aims to solve a problem that arises when continuously adding unseen class instances to an existing model This approach has been extensively studied in the context of image classification; however its applicability to object detection is not well established yet. Existing frameworks using replay methods mainly collect replay data without considering the model being trained and tend to rely on randomness or the number of labels of each sample. Also, despite the effectiveness of the replay, it was not yet optimized for the object detection task. In this paper, we introduce an effective buffer training strategy (eBTS) that creates the optimized replay buffer on object detection. Our approach incorporates guarantee minimum and hierarchical sampling to establish the buffer customized to the trained model. %These methods can facilitate effective retrieval of prior knowledge. Furthermore, we use the circular experience replay training to optimally utilize the accumulated buffer data. Experiments on the MS COCO dataset demonstrate that our eBTS achieves state-of-the-art performance compared to the existing replay schemes. | 翻訳日:2023-12-15 20:52:40 公開日:2023-12-14 |
# リビングシーン:3次元環境変化における多物体再局在化と再構成 Living Scenes: Multi-object Relocalization and Reconstruction in Changing 3D Environments ( http://arxiv.org/abs/2312.09138v1 ) ライセンス: Link先を確認 | Liyuan Zhu and Shengyu Huang and Konrad Schindler and Iro Armeni | (参考訳) 動的3Dシーン理解の研究は、主に密集した観測から短期的な変化追跡に焦点が当てられているが、スパース観測による長期的変化にはほとんど注目されていない。
このギャップを、進化する環境における多目的再局在化と再構成のための新しいアプローチであるMoREで解決する。
これらの環境を「生活シーン」として捉え,異なる地点で撮影されたスキャンを,時間とともに精度と完全性が増大する物体インスタンスの3次元再構築に転換する問題を考える。
本手法のコアとなるのは, 合成データに基づいて訓練された単一エンコーダデコーダネットワークにおけるSE(3)-等価表現である。
この表現により、インスタンスマッチング、登録、再構築をシームレスに行うことができます。
また,同じインスタンスから発生した点雲の蓄積を,異なる時点の複数のスキャンで容易に行えるような共同最適化アルゴリズムを導入する。
本手法を総合的および実世界のデータで検証し、エンドツーエンド性能と個々のサブタスクの両方において最先端の性能を示す。 Research into dynamic 3D scene understanding has primarily focused on short-term change tracking from dense observations, while little attention has been paid to long-term changes with sparse observations. We address this gap with MoRE, a novel approach for multi-object relocalization and reconstruction in evolving environments. We view these environments as "living scenes" and consider the problem of transforming scans taken at different points in time into a 3D reconstruction of the object instances, whose accuracy and completeness increase over time. At the core of our method lies an SE(3)-equivariant representation in a single encoder-decoder network, trained on synthetic data. This representation enables us to seamlessly tackle instance matching, registration, and reconstruction. We also introduce a joint optimization algorithm that facilitates the accumulation of point clouds originating from the same instance across multiple scans taken at different points in time. We validate our method on synthetic and real-world data and demonstrate state-of-the-art performance in both end-to-end performance and individual subtasks. | 翻訳日:2023-12-15 20:52:23 公開日:2023-12-14 |
# ハイブリッド変分量子回路における計測誘起景観遷移 Measurement-induced landscape transitions in hybrid variational quantum circuits ( http://arxiv.org/abs/2312.09135v1 ) ライセンス: Link先を確認 | Sonny Rappaport, Gaurav Gyawali, Tiago Sereno, Michael J. Lawler | (参考訳) エンタングルメント誘起バレンプラトー現象は、変分量子アルゴリズム(VQA)の使用を制限するシステムサイズによるパラメータ勾配の指数関数的消滅である。
近年,不毛高原から不毛高原への景観変化が,選抜後の計測値を加えることで,絡み合いの体積則成長が抑制された場合に起こることが観測された。
この抑制は測定誘起相転移(MIPT)と一致しており、測定は監視回路で起こることが知られている。
情報理論の観点からは、これらは異なる遷移であると主張する。
この仮説は,ハイブリッド変分量子回路のコストランドスケープを数値的に研究し,選択後および非選択後のコスト勾配変動の挙動,特定の局所量子回路に対する最適化の直接可視化,MIPT研究における絡み合い対策の導入と比較を行った。
具体的には,異なるvqaアンサットにまたがって普遍的に出現し,測定確率が低いように見える計測誘起景観遷移 (milt) と,測定確率が高くアンサッツ特定の場所に出現するmiptの2つの遷移があることを示した。
最後に, 最適化のためのmiltの利点を享受するため, 数値シミュレーションにより, 測定結果の選択後の必要性が示唆された。 The entanglement-induced barren plateau phenomenon is an exponential vanishing of the parameter gradients with system size that limits the use of variational quantum algorithms(VQA). Recently, it was observed that a landscape transition from a barren plateau to no barren plateau occurs if the volume-law growth of entanglement is suppressed by adding measurements with post-selection. This suppression appears to coincide with a measurement-induced phase transition (MIPT) that measurements are known to cause in monitored circuits. From an information theory perspective, we argue that these are different transitions. We back this hypothesis with a numerical study of the cost landscape of such hybrid variational quantum circuits with extensive results on the behavior of cost-gradient variances with and without post-selection, direct visualizations of optimization runs for specific local quantum circuits, and a mutual information measure we introduce and compare with entanglement measures used in the study of MIPT. Specifically, our results show there are two transitions, a measurement-induced landscape transition (MILT) that seems universal across different VQA ansatzes and appears at a lower probability of measurements, and the MIPT that appears at a higher probability of measurements and appears at an ansatz specific location. Finally, to reap the benefits of MILT for optimization, our numerical simulations suggest the necessity of post-selecting measurement outcomes. | 翻訳日:2023-12-15 20:51:52 公開日:2023-12-14 |
# 物理に変形したニューラルネットワークlyapunov関数--pdeのキャラクタリゼーション、学習、検証 Physics-Informed Neural Network Lyapunov Functions: PDE Characterization, Learning, and Verification ( http://arxiv.org/abs/2312.09131v1 ) ライセンス: Link先を確認 | Jun Liu and Yiming Meng and Maxwell Fitzsimmons and Ruikun Zhou | (参考訳) 本稿では,Lyapunov関数の計算に物理インフォームドニューラルネットワークを用いる方法を提案する。
我々は、Lyapunov条件を偏微分方程式(PDE)としてエンコードし、これをニューラルネットワークLyapunov関数のトレーニングに使用する。
Lyapunov および Zubov PDE に対する解の解析的性質を解析した。
特に、神経リアプノフ関数の訓練にzubov方程式を用いると、真のアトラクション領域に近いアトラクション領域が近似的に得られることが示されている。
次に,学習した神経リアプノフ関数に対して十分条件を与え,smtソルバによって容易に検証可能とし,局所安定性解析と大規模領域抽出推定の両方の形式的検証を可能にした。
低次元から高次元まで、多くの非線形例を通して、提案フレームワークは半定値プログラミング(SDP)を用いて得られる従来の和(SOS)リャプノフ関数より優れていることを示した。 We provide a systematic investigation of using physics-informed neural networks to compute Lyapunov functions. We encode Lyapunov conditions as a partial differential equation (PDE) and use this for training neural network Lyapunov functions. We analyze the analytical properties of the solutions to the Lyapunov and Zubov PDEs. In particular, we show that employing the Zubov equation in training neural Lyapunov functions can lead to approximate regions of attraction close to the true domain of attraction. We then provide sufficient conditions for the learned neural Lyapunov functions that can be readily verified by satisfiability modulo theories (SMT) solvers, enabling formal verification of both local stability analysis and region-of-attraction estimates in the large. Through a number of nonlinear examples, ranging from low to high dimensions, we demonstrate that the proposed framework can outperform traditional sums-of-squares (SOS) Lyapunov functions obtained using semidefinite programming (SDP). | 翻訳日:2023-12-15 20:51:13 公開日:2023-12-14 |
# ノードの地理的分布をもつ量子ネットワークの統計的性質と反復率 Statistical properties and repetition rates for a quantum network with geographical distribution of nodes ( http://arxiv.org/abs/2312.09130v1 ) ライセンス: Link先を確認 | Rute Oliveira, Raabe Oliveira, Nadja K. Bernardes, Rafael Chaves | (参考訳) 静的な技術進歩と、大陸間量子通信や中規模量子ネットワークの最初の実装のような最近のマイルストーンは、量子チャネルで相互接続されたノードのネットワークである量子インターネットの確立の道を開いた。
ここでは,光ファイバーに基づく量子ネットワークの最近のモデルを構築し,ブラジルの連邦州の人口統計データに基づいて,一様でないノード分布の影響を考察する。
我々は、このより現実的なネットワークの統計的特性を計算し、その特徴を以前のモデルと比較するだけでなく、量子リピータに基づく量子通信の必須プロトコルである絡み合い交換の反復率を計算するためにそれを利用する。 Steady technological advances and recent milestones such as intercontinental quantum communication and the first implementation of medium-scale quantum networks are paving the way for the establishment of the quantum internet, a network of nodes interconnected by quantum channels. Here we build upon recent models for quantum networks based on optical fibers by considering the effect of a non-uniform distribution of nodes, more specifically based on the demographic data of the federal states in Brazil. We not only compute the statistical properties of this more realistic network, comparing its features with previous models but also employ it to compute the repetition rates for entanglement swapping, an essential protocol for quantum communication based on quantum repeaters. | 翻訳日:2023-12-15 20:50:45 公開日:2023-12-14 |
# プロンプティングによるものごとのトークン化 Tokenize Anything via Prompting ( http://arxiv.org/abs/2312.09128v1 ) ライセンス: Link先を確認 | Ting Pan, Lulu Tang, Xinlong Wang, Shiguang Shan | (参考訳) 我々は,同時セグメント化,認識,キャプション化が可能な統一的,即効性のあるモデルを提案する。
SAMと異なり、視覚的なプロンプトによって、野生に多目的な領域表現を構築することを目指している。
これを実現するために、50億のパラメータを持つ事前学習されたCLIPモデルから、SA-1Bマスクなどの巨大なセグメンテーションマスクを用いた一般化可能なモデルをトレーニングする。
具体的には,各マスクトークンに意味トークンを追加することで,プロンプト可能な画像デコーダを構築する。
セマンティックトークンは、事前に定義された概念空間におけるセマンティックな事前学習に責任がある。
マスクトークンのセグメンテーションとセマンティックトークンの概念予測を共同で最適化することにより,強力な地域認識と局所化能力を示す。
例えば、スクラッチからトレーニングされた38Mパラメータの因果テキストデコーダは、Visual Genome領域のキャプションタスクでCIDErスコアが150.7の新たなレコードを設定する。
このモデルは,広い範囲の知覚タスクに対して汎用領域コンテキストを符号化できる,多目的領域レベルの画像トークン化器として利用できると考えている。
コードとモデルはhttps://github.com/baaivision/tokenize-anythingで入手できる。 We present a unified, promptable model capable of simultaneously segmenting, recognizing, and captioning anything. Unlike SAM, we aim to build a versatile region representation in the wild via visual prompting. To achieve this, we train a generalizable model with massive segmentation masks, e.g., SA-1B masks, and semantic priors from a pre-trained CLIP model with 5 billion parameters. Specifically, we construct a promptable image decoder by adding a semantic token to each mask token. The semantic token is responsible for learning the semantic priors in a predefined concept space. Through joint optimization of segmentation on mask tokens and concept prediction on semantic tokens, our model exhibits strong regional recognition and localization capabilities. For example, an additional 38M-parameter causal text decoder trained from scratch sets a new record with a CIDEr score of 150.7 on the Visual Genome region captioning task. We believe this model can be a versatile region-level image tokenizer, capable of encoding general-purpose region context for a broad range of perception tasks. Code and models are available at https://github.com/baaivision/tokenize-anything. | 翻訳日:2023-12-15 20:50:09 公開日:2023-12-14 |
# 中間膜光学系と構造周波数 Membrane-in-the-middle optomechanical system and structural frequencies ( http://arxiv.org/abs/2312.09127v1 ) ライセンス: Link先を確認 | Luis Pedro Lara, Ricardo Weder, and Luis Octavio Casta\~nos-Cervantes | (参考訳) 2つの固定された完璧な鏡と、その間に一定の電気感受性を持つ移動誘電体膜からなるキャビティの1次元膜インザミドルモデルを考える。
我々は、構造角周波数と呼ばれる正確な空洞角周波数の列を示し、空洞内の膜の位置から独立しているという顕著な特性を持つ。
さらに、角周波数及びキャビティのモードについて、薄膜の場合を考慮し、簡便で、近似し、正確な式を得る。
最後に、空洞電磁ポテンシャルを数値計算し、複数のスケールの解析解が正確な近似であることを示す。 We consider a one-dimensional membrane-in-the-middle model for a cavity that consists of two fixed, perfect mirrors and a mobile dielectric membrane between them that has a constant electric susceptibility. We present a sequence of exact cavity angular frequencies that we call {\it structural angular frequencies} and that have the remarkable property that they are independent of the position of the membrane inside the cavity. Furthermore, the case of a thin membrane is considered and simple, approximate, and accurate formulae for the angular frequencies and for the modes of the cavity are obtained. Finally, the cavity electromagnetic potential is numerically calculated and it is found that a multiple scales, analytic solution is an accurate approximation. | 翻訳日:2023-12-15 20:49:43 公開日:2023-12-14 |
# 信頼できるAIソフトウェア開発支援に向けて Towards Trustworthy AI Software Development Assistance ( http://arxiv.org/abs/2312.09126v1 ) ライセンス: Link先を確認 | Daniel Maninger, Krishna Narasimhan, Mira Mezini | (参考訳) 近い将来、AIソフトウェア開発アシスタントがソフトウェア産業において重要な役割を果たすことが期待されている。
しかし、現在のソフトウェア開発アシスタントは信頼できない傾向にあり、しばしば誤った、安全でない、あるいは品質の低いコードを生成する。
我々は、信頼できるAIソフトウェア開発アシスタントの構築、トレーニング、使用のための全体的アーキテクチャを導入することで、これらの問題を解決することを目指している。
アーキテクチャの中心には、現実世界のコーディングシナリオと複雑なソフトウェアアーキテクチャを表すデータセットでトレーニングされた基礎的なllmがあり、正確性を超えたコード品質基準に微調整されています。
LLMは、高度な意味理解のためにグラフベースのコード表現を利用する。
我々は,システムに統合された知識グラフを想定し,最新の背景知識を提供し,アシスタントが適切な説明を行えるようにする。
最後に、制約付きデコードのためのモジュラーフレームワークは、特定の保証(例えば、正確性とセキュリティ)が生成されたコードを保持することを保証します。 It is expected that in the near future, AI software development assistants will play an important role in the software industry. However, current software development assistants tend to be unreliable, often producing incorrect, unsafe, or low-quality code. We seek to resolve these issues by introducing a holistic architecture for constructing, training, and using trustworthy AI software development assistants. In the center of the architecture, there is a foundational LLM trained on datasets representative of real-world coding scenarios and complex software architectures, and fine-tuned on code quality criteria beyond correctness. The LLM will make use of graph-based code representations for advanced semantic comprehension. We envision a knowledge graph integrated into the system to provide up-to-date background knowledge and to enable the assistant to provide appropriate explanations. Finally, a modular framework for constrained decoding will ensure that certain guarantees (e.g., for correctness and security) hold for the generated code. | 翻訳日:2023-12-15 20:49:07 公開日:2023-12-14 |
# 豪華な利点:3次元局所雑音量子回路がファンイン古典回路を破る A colossal advantage: 3D-local noisy shallow quantum circuits defeat unbounded fan-in classical circuits ( http://arxiv.org/abs/2312.09209v1 ) ライセンス: Link先を確認 | Libor Caha, Xavier Coiteux-Roy, Robert Koenig | (参考訳) 以下の性質を持つ計算問題を示す。
(i)各インスタンスは、ノイズによって実装が破損しても、3次元において最も近い隣り合うゲートのみを用いて、一定の深さの量子回路でほぼ確実性で解ける。
二 非有界ファンイン、又はゲート、すなわちある部分指数よりも小さい大きさのac0回路からなる一定の深さの古典回路は、ある定数よりも大きい確率で一様ランダムなインスタンスを解こうとしない。
このようなファンイン古典回路に対する利点は、以前はノイズフリーの場合や局所性制約のない場合にのみ知られていた。
これらの制限を克服し、実験的な実現が可能な量子優位性実証を提案する。
サブ指数回路-複素性 下界は伝統的に指数的と呼ばれる。
フォールトトレラントな3Dアーキテクチャは、あるローマの記念碑に似ているからです。 We present a computational problem with the following properties: (i) Every instance can be solved with near-certainty by a constant-depth quantum circuit using only nearest-neighbor gates in 3D even when its implementation is corrupted by noise. (ii) Any constant-depth classical circuit composed of unbounded fan-in AND, OR, as well as NOT gates, i.e., an AC0-circuit, of size smaller than a certain subexponential, fails to solve a uniformly random instance with probability greater than a certain constant. Such an advantage against unbounded fan-in classical circuits was previously only known in the noise-free case or without locality constraints. We overcome these limitations, proposing a quantum advantage demonstration amenable to experimental realizations. Subexponential circuit-complexity lower bounds have traditionally been referred to as exponential. We use the term colossal since our fault-tolerant 3D architecture resembles a certain Roman monument. | 翻訳日:2023-12-15 20:41:28 公開日:2023-12-14 |
# WikiMuTe:音楽オーディオのセマンティック記述のWebソースデータセット WikiMuTe: A web-sourced dataset of semantic descriptions for music audio ( http://arxiv.org/abs/2312.09207v1 ) ライセンス: Link先を確認 | Benno Weck, Holger Kirchhoff, Peter Grosche and Xavier Serra | (参考訳) 音楽情報検索(MIR)分野において,音楽と自由形式のテキストをマッチングするためのマルチモーダル深層学習技術が有望な成果を示した。
以前の作業は多くの場合、大規模なプロプライエタリなデータに基づいており、公開データセットは少なくて小さい。
本研究では,音楽の豊かな意味記述を含む新しいオープンデータセットWikiMuTeを提案する。
データは、音楽作品を扱うウィキペディアの豊富なカタログから引用されている。
専用のテキストマイニングパイプラインを用いて,ジャンル,スタイル,ムード,インスツルメンテーション,テンポなど,音楽コンテンツに関する幅広い話題をカバーする長文と短文の双方を抽出した。
このデータの使い方を示すために,テキストと音声の表現を共同で学習し,クロスモーダル検索を行うモデルを訓練する。
このモデルはタグベースの音楽検索と自動タグ付けの2つのタスクで評価される。
その結果,我々のアプローチは複数のタスクにおいて最先端のパフォーマンスを持つが,トレーニングに使用するデータによっては性能の差を観測できることがわかった。 Multi-modal deep learning techniques for matching free-form text with music have shown promising results in the field of Music Information Retrieval (MIR). Prior work is often based on large proprietary data while publicly available datasets are few and small in size. In this study, we present WikiMuTe, a new and open dataset containing rich semantic descriptions of music. The data is sourced from Wikipedia's rich catalogue of articles covering musical works. Using a dedicated text-mining pipeline, we extract both long and short-form descriptions covering a wide range of topics related to music content such as genre, style, mood, instrumentation, and tempo. To show the use of this data, we train a model that jointly learns text and audio representations and performs cross-modal retrieval. The model is evaluated on two tasks: tag-based music retrieval and music auto-tagging. The results show that while our approach has state-of-the-art performance on multiple tasks, but still observe a difference in performance depending on the data used for training. | 翻訳日:2023-12-15 20:41:13 公開日:2023-12-14 |
# サブセット状態からの擬似性 Pseudorandomness from Subset States ( http://arxiv.org/abs/2312.09206v1 ) ライセンス: Link先を確認 | Tudor Giurgica-Tiron (Stanford University) and Adam Bouland (Stanford University) | (参考訳) 我々は、無作為な部分集合の状態から量子擬乱数と疑似絡み合い(つまり、弦の (pseudo) ランダム部分集合上の等しい重ね合わせである量子状態)を得ることができることを示す。
これはAaronsonらのオープンな質問に答える。
擬似ランダム位相による同様の構造を考案した[arXiv:2211.00747]。
我々の結果は、ランダムな部分集合状態の$t$コピーとハール測度の間のトレース距離を対称群の表現論を通して直接計算することによる。
微量な部分集合が大きすぎても小さすぎない適切な大きさである限り、トレース距離は無視できるほど小さいことを示す。
特に、対称部分空間上の基底置換の作用を解析し、最大の成分がジョンソンスキームによって記述されることを示す: 対称群 $\mathbb{S}_N$ の双対集合は部分群 $\mathbb{S}_t \times \mathbb{S}_{N-t}$ である。
この設定のゲルファント対の性質は、行列固有基底が対称群既約ブロックと一致し、最大の固有ブロックがハール平均に漸近的に近づくことを意味する。
この結果の直接の帰結は、量子擬乱数と疑似エンタングル状態アンサンブルが相対位相を必要としないことである。 We show it is possible to obtain quantum pseudorandomness and pseudoentanglement from random subset states -- i.e. quantum states which are equal superpositions over (pseudo)random subsets of strings. This answers an open question of Aaronson et al. [arXiv:2211.00747], who devised a similar construction augmented by pseudorandom phases. Our result follows from a direct calculation of the trace distance between $t$ copies of random subset states and the Haar measure, via the representation theory of the symmetric group. We show that the trace distance is negligibly small, as long as the subsets are of an appropriate size which is neither too big nor too small. In particular, we analyze the action of basis permutations on the symmetric subspace, and show that the largest component is described by the Johnson scheme: the double-cosets of the symmetric group $\mathbb{S}_N$ by the subgroup $\mathbb{S}_t \times \mathbb{S}_{N-t}$. The Gelfand pair property of this setting implies that the matrix eigenbasis coincides with the symmetric group irreducible blocks, with the largest eigenblock asymptotically approaching the Haar average. An immediate corollary of our result is that quantum pseudorandom and pseudoentangled state ensembles do not require relative phases. | 翻訳日:2023-12-15 20:40:56 公開日:2023-12-14 |
# LLM時代の計測:イデオロギースケーリングへの応用 Measurement in the Age of LLMs: An Application to Ideological Scaling ( http://arxiv.org/abs/2312.09203v1 ) ライセンス: Link先を確認 | Sean O'Hagan and Aaron Schein | (参考訳) 社会科学の多くは「イデオロギー」や「パワー」といった用語を中心にしており、これは一般的に正確な定義を欠き、文脈的な意味が周囲の言語に閉じ込められている。
本稿では,大規模言語モデル(LLM)を用いて,社会科学的測定タスクに固有の概念的クラッタを柔軟にナビゲートする方法について検討する。
我々は, LLMの顕著な言語的流布に依拠し, 確立された方法と我々の判断に密接に合致する, 立法者およびテキストのイデオロギー的尺度を導出する。
このアプローチの重要な側面は、そのようなスコアを直接引き出すことで、LSMに数値スコア自体を付与するように指示することです。
このアプローチは、さまざまなケーススタディを通じて紹介する、多くの柔軟性を提供します。
以上の結果から,LLMはテキスト中の政治的イデオロギーの極めて微妙で拡散した表現を特徴付けることができることが示唆された。 Much of social science is centered around terms like ``ideology'' or ``power'', which generally elude precise definition, and whose contextual meanings are trapped in surrounding language. This paper explores the use of large language models (LLMs) to flexibly navigate the conceptual clutter inherent to social scientific measurement tasks. We rely on LLMs' remarkable linguistic fluency to elicit ideological scales of both legislators and text, which accord closely to established methods and our own judgement. A key aspect of our approach is that we elicit such scores directly, instructing the LLM to furnish numeric scores itself. This approach affords a great deal of flexibility, which we showcase through a variety of different case studies. Our results suggest that LLMs can be used to characterize highly subtle and diffuse manifestations of political ideology in text. | 翻訳日:2023-12-15 20:40:28 公開日:2023-12-14 |
# GPTによる正義の織り方:LLMによる対話型法務アプリケーションの自動起草 Weaving Pathways for Justice with GPT: LLM-driven automated drafting of interactive legal applications ( http://arxiv.org/abs/2312.09198v1 ) ライセンス: Link先を確認 | Quinten Steenhuis, David Colarusso, Bryce Willey | (参考訳) 生成aiは、自己表現された訴訟人を助けるツールの作成をスピードアップできるだろうか?
本稿では,GPT-3を用いて質問に対して反復的に回答を促す生成的AIアプローチ,GPT-4-turboを用いて人間のレビュー対象の質問のドラフトを生成する制約付きテンプレート駆動アプローチ,ハイブリッド手法の3つのアプローチについて述べる。
3つの実験すべてにオープンソースのdocassembleプラットフォームを使用し、suffolk university law school(suffolk university law school)で assembly line weaver(アセンブリラインウィーバー)というツールを作成しました。
ヒューマンレビューによる制約付き自動ドラフトのハイブリッドモデルは,ガイド付き面接の作成に最も適していると結論づけた。 Can generative AI help us speed up the authoring of tools to help self-represented litigants? In this paper, we describe 3 approaches to automating the completion of court forms: a generative AI approach that uses GPT-3 to iteratively prompt the user to answer questions, a constrained template-driven approach that uses GPT-4-turbo to generate a draft of questions that are subject to human review, and a hybrid method. We use the open source Docassemble platform in all 3 experiments, together with a tool created at Suffolk University Law School called the Assembly Line Weaver. We conclude that the hybrid model of constrained automated drafting with human review is best suited to the task of authoring guided interviews. | 翻訳日:2023-12-15 20:40:09 公開日:2023-12-14 |
# DIRECT:不均衡とラベルノイズ下での深層能動学習 DIRECT: Deep Active Learning under Imbalance and Label Noise ( http://arxiv.org/abs/2312.09196v1 ) ライセンス: Link先を確認 | Shyam Nuggehalli, Jifan Zhang, Lalit Jain, Robert Nowak | (参考訳) クラス不均衡は、実世界の機械学習アプリケーションにおいて一般的な問題であり、希少クラスや少数クラスのパフォーマンスが低下する。
ワイルドなラベル付きデータの豊富さによって、アクティブラーニングは、おそらくその根底にある問題を解決する最も効果的なテクニックである。
本研究では,まずクラス分離しきい値を特定し,分離しきい値に近いマイノリティクラスから最も不確実な例に注釈を付ける新しいアルゴリズムを提案する。
DIRECTは,一次元アクティブラーニングへの新たな削減を通じて,古典的なアクティブラーニング文献を活用し,バッチラベリングやラベルノイズに対する耐性といった問題に対処することができる。
既存のアルゴリズムと比較して,本アルゴリズムは,最先端アクティブラーニングアルゴリズムと比較して,アノテーション予算の15%以上を節約し,アノテーション予算の90%以上をランダムサンプリングと比較した。 Class imbalance is a prevalent issue in real world machine learning applications, often leading to poor performance in rare and minority classes. With an abundance of wild unlabeled data, active learning is perhaps the most effective technique in solving the problem at its root -- collecting a more balanced and informative set of labeled examples during annotation. In this work, we propose a novel algorithm that first identifies the class separation threshold and then annotate the most uncertain examples from the minority classes, close to the separation threshold. Through a novel reduction to one-dimensional active learning, our algorithm DIRECT is able to leverage the classic active learning literature to address issues such as batch labeling and tolerance towards label noise. Compared to existing algorithms, our algorithm saves more than 15\% of the annotation budget compared to state-of-art active learning algorithm and more than 90\% of annotation budget compared to random sampling. | 翻訳日:2023-12-15 20:39:53 公開日:2023-12-14 |
# 離散拡散モデルに対する非ランダム化による高速サンプリング Fast Sampling via De-randomization for Discrete Diffusion Models ( http://arxiv.org/abs/2312.09193v1 ) ライセンス: Link先を確認 | Zixiang Chen and Huizhuo Yuan and Yongqian Li and Yiwen Kou and Junkai Zhang and Quanquan Gu | (参考訳) 拡散モデルは画像生成などの高品質なデータ生成のための強力なツールとして登場した。
連続空間での成功にもかかわらず、テキストや自然言語などの領域に適用される離散拡散モデルは未研究のままであり、しばしば生成速度の低下に悩まされる。
本稿では,分散拡散モデルのための高速化アルゴリズムを導出する新しい非ランダム拡散法を提案する。
提案手法は, ニューラルネットワークに対する関数評価の回数を大幅に削減し, サンプリング処理を高速化する。
さらに,連続時間(すなわち無限ステップ)サンプリングアルゴリズムを導入し,離散時間(有限ステップ)よりも優れたサンプル品質を提供する。
自然言語生成タスクと機械翻訳タスクに関する広範な実験は, 分散拡散モデルにおける既存手法よりも, 生成速度とサンプル品質の両方において, 優れた性能を示す。 Diffusion models have emerged as powerful tools for high-quality data generation, such as image generation. Despite its success in continuous spaces, discrete diffusion models, which apply to domains such as texts and natural languages, remain under-studied and often suffer from slow generation speed. In this paper, we propose a novel de-randomized diffusion process, which leads to an accelerated algorithm for discrete diffusion models. Our technique significantly reduces the number of function evaluations (i.e., calls to the neural network), making the sampling process much faster. Furthermore, we introduce a continuous-time (i.e., infinite-step) sampling algorithm that can provide even better sample qualities than its discrete-time (finite-step) counterpart. Extensive experiments on natural language generation and machine translation tasks demonstrate the superior performance of our method in terms of both generation speed and sample quality over existing methods for discrete diffusion models. | 翻訳日:2023-12-15 20:39:37 公開日:2023-12-14 |
# 無限次元非有界集合におけるschr\"odinger方程式に対するシンプレクティックなアプローチ A symplectic approach to Schr\"odinger equations in the infinite-dimensional unbounded setting ( http://arxiv.org/abs/2312.09192v1 ) ライセンス: Link先を確認 | Javier de Lucas, Julia Lange, and Xavier Rivas | (参考訳) ノルム空間をモデル化した解析ベクトルと多様体の理論を用いることで、技術的条件を満たす非有界な$t$依存の自己随伴ハミルトン多様体によって決定される分離可能(おそらく無限次元)ヒルベルト空間上のシュルンガー方程式に対する厳密なシンプレクティックな微分幾何学的アプローチを提供する。
応用として、上述の$t$-dependent Schr\odinger 方程式を射影空間に写像するためにマースデン・ワインスタイン還元法が用いられる。
物理的および数学的関連性の他の応用も分析されている。 By using the theory of analytic vectors and manifolds modelled on normed spaces, we provide a rigorous symplectic differential geometric approach to $t$-dependent Schr\"odinger equations on separable (possibly infinite-dimensional) Hilbert spaces determined by unbounded $t$-dependent self-adjoint Hamiltonians satisfying a technical condition. As an application, the Marsden--Weinstein reduction procedure is employed to map above-mentioned $t$-dependent Schr\"odinger equations onto their projective spaces. Other applications of physical and mathematical relevance are also analysed. | 翻訳日:2023-12-15 20:39:24 公開日:2023-12-14 |
# 報酬源としての視覚言語モデル Vision-Language Models as a Source of Rewards ( http://arxiv.org/abs/2312.09187v1 ) ライセンス: Link先を確認 | Kate Baumli, Satinder Baveja, Feryal Behbahani, Harris Chan, Gheorghe Comanici, Sebastian Flennerhag, Maxime Gazeau, Kristian Holsheimer, Dan Horgan, Michael Laskin, Clare Lyle, Hussain Masoom, Kay McKinney, Volodymyr Mnih, Alexander Neitz, Fabio Pardo, Jack Parker-Holder, John Quan, Tim Rockt\"aschel, Himanshu Sahni, Tom Schaul, Yannick Schroecker, Stephen Spencer, Richie Steigerwald, Luyu Wang, Lei Zhang | (参考訳) 豊かなオープンエンド環境で多くの目標を達成できる汎用エージェントの構築は、強化学習のための研究フロンティアの1つである。
RLを用いた一般エージェント構築の鍵となる制限要因は、異なる目標を達成するために多数の報酬関数が必要であることである。
本研究は,市販の視覚言語モデル(vlms)を強化学習エージェントの報酬源として利用する可能性を検討する。
様々な言語目標の視覚的達成に対する報酬は、CLIPファミリーのモデルから導き出すことができ、様々な言語目標を達成するためのRLエージェントの訓練に使用されることを示す。
このアプローチを2つの異なる視覚領域で示し、より大きなVLMが視覚目標達成に対してより正確な報酬をもたらすかを示すスケーリング傾向を示し、それによってより有能なRLエージェントを生成する。 Building generalist agents that can accomplish many goals in rich open-ended environments is one of the research frontiers for reinforcement learning. A key limiting factor for building generalist agents with RL has been the need for a large number of reward functions for achieving different goals. We investigate the feasibility of using off-the-shelf vision-language models, or VLMs, as sources of rewards for reinforcement learning agents. We show how rewards for visual achievement of a variety of language goals can be derived from the CLIP family of models, and used to train RL agents that can achieve a variety of language goals. We showcase this approach in two distinct visual domains and present a scaling trend showing how larger VLMs lead to more accurate rewards for visual goal achievement, which in turn produces more capable RL agents. | 翻訳日:2023-12-15 20:39:07 公開日:2023-12-14 |
# ねじれた原子の理論的考察 Theoretical consideration of a twisted atom ( http://arxiv.org/abs/2312.09182v1 ) ライセンス: Link先を確認 | P.K. Maslennikov and A.V. Volotka and S.S. Batuirn | (参考訳) 本研究では、原子のねじれた状態と、そのような状態が原子内の電子遷移の結果放出される光子の特性に与える影響について検討する。
まず、ツイスト原子状態を記述するための枠組みを提案し、次いで、ツイスト原子における核反動効果と平面波原子との相違について検討する。
我々は、初期原子状態がねじれている場合、ある観測スキームにおいて、放出された光子の分布におけるこのねじれの特徴を、m/m$ のゼロオーダーで検出することができると結論づける。 We investigate the twisted state of an atom and the possible effect of such a state on the properties of the photons emitted as a result of the electron transition in that atom. We first propose a framework for describing the twisted atomic state, and then explore possible differences in the nuclear recoil effects in the twisted atom compared to those in the plane-wave atom. We conclude that if the initial atomic state is twisted, then in a certain observation scheme one can detect a feature of this twist in the distribution of the emitted photons, even in the zero order in $m/M$. | 翻訳日:2023-12-15 20:38:53 公開日:2023-12-14 |
# マルチステージフレームワークと階層型マルチデコーダアーキテクチャによる拡散モデルの効率化 Improving Efficiency of Diffusion Models via Multi-Stage Framework and Tailored Multi-Decoder Architectures ( http://arxiv.org/abs/2312.09181v1 ) ライセンス: Link先を確認 | Huijie Zhang, Yifu Lu, Ismail Alkhouri, Saiprasad Ravishankar, Dogyoon Song and Qing Qu | (参考訳) 強力な深層生成ツールとして出現する拡散モデルは、様々なアプリケーションにおいて優れている。
トレーニングサンプルにノイズを導入すると、ランダムノイズを新しいサンプル(画像など)に変換するモデルを採用する。
しかし、その顕著な生成性能は、遅いトレーニングとサンプリングによって妨げられている。
これは、広範囲の前方および逆拡散軌道を追跡し、複数の時間ステップ(すなわちノイズレベル)にまたがる多数のパラメータを持つ大きなモデルを採用する必要があるためである。
これらの課題に取り組むために,我々は経験的知見に触発された多段階フレームワークを提案する。
これらの観察は、全ての時間ステップで共有される普遍的なパラメータを保持しながら、各時間ステップに合わせた異なるパラメータを使用する利点を示している。
このアプローチでは、時間依存モデルと普遍的に共有されるエンコーダをブレンドするカスタムマルチデコーダU-netアーキテクチャを用いて、時間間隔を複数のステージに分割する。
本フレームワークは,計算資源の効率的な分散を可能にし,ステージ間干渉を軽減し,トレーニング効率を大幅に向上させる。
大規模な潜伏拡散モデルを含む3つの最先端拡散モデルに対して,本フレームワークの有効性を実証し,大幅なトレーニングとサンプリング効率の向上を図った。
さらに, アブレーション研究は, フレームワークにおける2つの重要な要素の影響を明らかにした。
(i)ステージ分割のための新しい時間ステップクラスタリングアルゴリズム
(II) ユニバーサルおよびカスタマイズされたハイパーパラメータをシームレスに統合した,革新的なマルチデコーダU-netアーキテクチャ。 Diffusion models, emerging as powerful deep generative tools, excel in various applications. They operate through a two-steps process: introducing noise into training samples and then employing a model to convert random noise into new samples (e.g., images). However, their remarkable generative performance is hindered by slow training and sampling. This is due to the necessity of tracking extensive forward and reverse diffusion trajectories, and employing a large model with numerous parameters across multiple timesteps (i.e., noise levels). To tackle these challenges, we present a multi-stage framework inspired by our empirical findings. These observations indicate the advantages of employing distinct parameters tailored to each timestep while retaining universal parameters shared across all time steps. Our approach involves segmenting the time interval into multiple stages where we employ custom multi-decoder U-net architecture that blends time-dependent models with a universally shared encoder. Our framework enables the efficient distribution of computational resources and mitigates inter-stage interference, which substantially improves training efficiency. Extensive numerical experiments affirm the effectiveness of our framework, showcasing significant training and sampling efficiency enhancements on three state-of-the-art diffusion models, including large-scale latent diffusion models. Furthermore, our ablation studies illustrate the impact of two important components in our framework: (i) a novel timestep clustering algorithm for stage division, and (ii) an innovative multi-decoder U-net architecture, seamlessly integrating universal and customized hyperparameters. | 翻訳日:2023-12-15 20:38:43 公開日:2023-12-14 |
# スパースセンシングによるフィールドの再構成:微分センサ配置による一般化 Reconstruction of Fields from Sparse Sensing: Differentiable Sensor Placement Enhances Generalization ( http://arxiv.org/abs/2312.09176v1 ) ライセンス: Link先を確認 | Agnese Marcato, Daniel O'Malley, Hari Viswanathan, Eric Guiltinan, Javier E. Santos | (参考訳) 限られたデータポイントから複雑な高次元のグローバルフィールドを再現することは、様々な科学分野や産業分野において大きな課題である。
特殊なセンサーの禁止コストとドメインの特定の領域の頻繁なアクセシビリティを考えると、全領域をカバーすることは不可能である。
したがって、センサ配置をインテリジェントに改善するアルゴリズムの開発には大きな価値がある。
本研究では,ニューラルネットワークモデルのトレーニングにおけるセンサ配置を生かしてフィールド再構成を改善するために,微分プログラミングを用いた一般的な手法を提案する。
本手法は2つの異なるデータセットを用いて評価し,本手法がテストスコアを改善したことを示す。
最終的に、当社の異なる配置戦略の手法は、データ収集効率を大幅に向上し、面積を網羅し、センサ配置の冗長性を低減できる可能性がある。 Recreating complex, high-dimensional global fields from limited data points is a grand challenge across various scientific and industrial domains. Given the prohibitive costs of specialized sensors and the frequent inaccessibility of certain regions of the domain, achieving full field coverage is typically not feasible. Therefore, the development of algorithms that intelligently improve sensor placement is of significant value. In this study, we introduce a general approach that employs differentiable programming to exploit sensor placement within the training of a neural network model in order to improve field reconstruction. We evaluated our method using two distinct datasets; the results show that our approach improved test scores. Ultimately, our method of differentiable placement strategies has the potential to significantly increase data collection efficiency, enable more thorough area coverage, and reduce redundancy in sensor deployment. | 翻訳日:2023-12-15 20:38:20 公開日:2023-12-14 |
# 量子異常検出の効率化に向けて:可変サブサンプリングとランダム化測定を用いた一級SVM Towards Efficient Quantum Anomaly Detection: One-Class SVMs using Variable Subsampling and Randomized Measurements ( http://arxiv.org/abs/2312.09174v1 ) ライセンス: Link先を確認 | Michael K\"olle, Afrae Ahouzi, Pascal Debus, Robert M\"uller, Danielle Schuman, Claudia Linnhoff-Popien | (参考訳) 量子コンピューティングは、様々な機械学習タスクを強化する可能性を秘めており、カーネル計算とモデルの精度を大幅に向上させる。
古典的に挑戦的な表現能力で知られる量子カーネルと共に1クラスサポートベクターマシンを利用することで、従来の研究と比較して平均精度が著しく向上した。
しかし、これらのカーネルの従来の計算はデータサイズに関する二次時間複雑性を示し、実用上の課題となっている。
これを軽減するために,量子カーネルの評価にランダム化計測を利用する方法と,線形時間複雑性をターゲットとした可変サブサンプリングアンサンブル法を提案する。
実験により, これらの手法を用いて, トレーニング時間と推論時間を最大95%, 推論時間を最大25%削減した。
不安定ではあるが、ランダム化測定の平均精度は古典的ラジアル基底関数カーネルのそれを上回っており、機械学習におけるスケーラブルで効率的な量子コンピューティング応用のさらなる研究の有望な方向を示唆している。 Quantum computing, with its potential to enhance various machine learning tasks, allows significant advancements in kernel calculation and model precision. Utilizing the one-class Support Vector Machine alongside a quantum kernel, known for its classically challenging representational capacity, notable improvements in average precision compared to classical counterparts were observed in previous studies. Conventional calculations of these kernels, however, present a quadratic time complexity concerning data size, posing challenges in practical applications. To mitigate this, we explore two distinct approaches: utilizing randomized measurements to evaluate the quantum kernel and implementing the variable subsampling ensemble method, both targeting linear time complexity. Experimental results demonstrate a substantial reduction in training and inference times by up to 95\% and 25\% respectively, employing these methods. Although unstable, the average precision of randomized measurements discernibly surpasses that of the classical Radial Basis Function kernel, suggesting a promising direction for further research in scalable, efficient quantum computing applications in machine learning. | 翻訳日:2023-12-15 20:38:06 公開日:2023-12-14 |
# DiffusionLight:Chromeのボールにペンキを塗って無料の光プローブ DiffusionLight: Light Probes for Free by Painting a Chrome Ball ( http://arxiv.org/abs/2312.09168v1 ) ライセンス: Link先を確認 | Pakkapon Phongthawee, Worameth Chinchuthakun, Nontaphat Sinsunthithet, Amit Raj, Varun Jampani, Pramook Khungurn, Supasorn Suwajanakorn | (参考訳) 本稿では,単一入力画像における照明推定のための簡易かつ効果的な手法を提案する。
現在の技術は、HDRパノラマデータセットに大きく依存して、ニューラルネットワークをトレーニングし、視野の限られた入力をフル環境マップに回帰する。
しかしながら、これらのアプローチは、データセットの多様性とサイズが限られているため、実世界の制御不能な設定に苦しむことが多い。
この問題に対処するため、我々は数十億の標準画像でトレーニングされた拡散モデルを利用して、chromeボールが入力画像にレンダリングされる。
拡散モデルはしばしば不正確なオブジェクトや一貫性のないオブジェクトを挿入し、hdr形式では簡単に画像を生成することができない。
我々の研究は、クロムボールの出現と初期拡散ノイズマップとの驚くべき関係を解明し、高品質なクロムボールの連続生成に利用した。
さらに、LDR拡散モデル(Stable Diffusion XL)をLoRAで微調整し、HDR光推定のための露光ブラケットを行う。
提案手法は,様々な設定にまたがる説得力のある光推定を行い,現場シナリオに優れた一般化を示す。 We present a simple yet effective technique to estimate lighting in a single input image. Current techniques rely heavily on HDR panorama datasets to train neural networks to regress an input with limited field-of-view to a full environment map. However, these approaches often struggle with real-world, uncontrolled settings due to the limited diversity and size of their datasets. To address this problem, we leverage diffusion models trained on billions of standard images to render a chrome ball into the input image. Despite its simplicity, this task remains challenging: the diffusion models often insert incorrect or inconsistent objects and cannot readily generate images in HDR format. Our research uncovers a surprising relationship between the appearance of chrome balls and the initial diffusion noise map, which we utilize to consistently generate high-quality chrome balls. We further fine-tune an LDR difusion model (Stable Diffusion XL) with LoRA, enabling it to perform exposure bracketing for HDR light estimation. Our method produces convincing light estimates across diverse settings and demonstrates superior generalization to in-the-wild scenarios. | 翻訳日:2023-12-15 20:37:47 公開日:2023-12-14 |
# CP-Netを用いた参照集約のための近似アルゴリズム Approximation Algorithms for Preference Aggregation Using CP-Nets ( http://arxiv.org/abs/2312.09162v1 ) ライセンス: Link先を確認 | Abu Mohammmad Hammad Ali, Boting Yang, Sandra Zilles | (参考訳) 本稿では,コンディショナル・プライス・ネットワーク(CP-nets)を用いて,組合せ領域を優先する近似アルゴリズムの設計と解析を行う。
その焦点は、いわゆる \emph{swaps} に対する選好を集約することであり、そこでは一般に最適解は既に指数的大きさであることが知られている。
まず,与えられた入力選好の最大値を単純に出力する自明な2近似アルゴリズムを解析し,このアルゴリズムの近似比を4/3$に改善する構造条件を定式化する。
次に,提案する多項式時間近似アルゴリズムにより,出力は自明なアルゴリズムよりも確実に悪いが,より優れている。
改良されたアルゴリズムが最適解を生成する問題インスタンス群を提示する一方、任意の$\varepsilon$に対して、自明なアルゴリズム can\emph{not}\/ は$(2-\varepsilon)$-approximation を達成する。
これらの結果は、近似比が2ドル以上のスワップに対するCP-net集約問題を解く最初の多項式時間近似アルゴリズムにつながるかもしれない。 This paper studies the design and analysis of approximation algorithms for aggregating preferences over combinatorial domains, represented using Conditional Preference Networks (CP-nets). Its focus is on aggregating preferences over so-called \emph{swaps}, for which optimal solutions in general are already known to be of exponential size. We first analyze a trivial 2-approximation algorithm that simply outputs the best of the given input preferences, and establish a structural condition under which the approximation ratio of this algorithm is improved to $4/3$. We then propose a polynomial-time approximation algorithm whose outputs are provably no worse than those of the trivial algorithm, but often substantially better. A family of problem instances is presented for which our improved algorithm produces optimal solutions, while, for any $\varepsilon$, the trivial algorithm can\emph{not}\/ attain a $(2-\varepsilon)$-approximation. These results may lead to the first polynomial-time approximation algorithm that solves the CP-net aggregation problem for swaps with an approximation ratio substantially better than $2$. | 翻訳日:2023-12-15 20:37:28 公開日:2023-12-14 |
# Auto MC-Reward:Minecraft用の大規模言語モデルによるDense Reward設計 Auto MC-Reward: Automated Dense Reward Design with Large Language Models for Minecraft ( http://arxiv.org/abs/2312.09238v1 ) ライセンス: Link先を確認 | Hao Li, Xue Yang, Zhaokai Wang, Xizhou Zhu, Jie Zhou, Yu Qiao, Xiaogang Wang, Hongsheng Li, Lewei Lu, Jifeng Dai | (参考訳) 従来の強化学習ベースのエージェントは、しばしばタスクの完了や失敗を示すためにバイナリ値のみを使用するスパース報酬に依存している。
探索効率の課題は、minecraftで複雑なタスクを効果的に学ぶのを難しくする。
そこで本稿では,大規模言語モデル(LLM)を利用して高次報酬関数を自動設計し,学習効率を向上させる,Auto MC-Rewardという高度な学習システムを提案する。
Auto MC-RewardはReward Designer、Reward Critic、Trjectory Analyzerの3つの重要なコンポーネントで構成されている。
環境情報とタスク記述が与えられると、報酬デザイナーは事前に定義された観察入力で実行可能なpython関数をコーディングして報酬関数を最初に設計する。
そして、Reward Criticはコードを検証し、コードが自己一貫性があり、シンタックスやセマンティックエラーがないかどうかをチェックします。
さらに、トラクタアナライザは、起こりうる障害原因を要約し、収集された軌跡に応じて改善提案を提供する。
次のラウンドでは、Reward Designerはさらに洗練され、フィードバックに基づいて報酬関数を反復する。
実験により,マインクラフトの複雑な作業において,溶岩を効果的に回避できるダイヤモンドの取得や,平原のバイオムに乏しい木や動物を効率的に探索するなど,エージェントの成功率と学習効率が著しく向上することが示された。 Traditional reinforcement-learning-based agents rely on sparse rewards that often only use binary values to indicate task completion or failure. The challenge in exploration efficiency makes it difficult to effectively learn complex tasks in Minecraft. To address this, this paper introduces an advanced learning system, named Auto MC-Reward, that leverages Large Language Models (LLMs) to automatically design dense reward functions, thereby enhancing the learning efficiency. Auto MC-Reward consists of three important components: Reward Designer, Reward Critic, and Trajectory Analyzer. Given the environment information and task descriptions, the Reward Designer first design the reward function by coding an executable Python function with predefined observation inputs. Then, our Reward Critic will be responsible for verifying the code, checking whether the code is self-consistent and free of syntax and semantic errors. Further, the Trajectory Analyzer summarizes possible failure causes and provides refinement suggestions according to collected trajectories. In the next round, Reward Designer will take further refine and iterate the dense reward function based on feedback. Experiments demonstrate a significant improvement in the success rate and learning efficiency of our agents in complex tasks in Minecraft, such as obtaining diamond with the efficient ability to avoid lava, and efficiently explore trees and animals that are sparse on the plains biome. | 翻訳日:2023-12-15 20:31:14 公開日:2023-12-14 |
# ピクセル指向言語モデル Pixel Aligned Language Models ( http://arxiv.org/abs/2312.09237v1 ) ライセンス: Link先を確認 | Jiarui Xu, Xingyi Zhou, Shen Yan, Xiuye Gu, Anurag Arnab, Chen Sun, Xiaolong Wang, Cordelia Schmid | (参考訳) 大規模言語モデルは、ビジョンの変種と同様に、近年で大きな成功を収めている。
既存の視覚言語モデルは自然言語で画像を記述したり、視覚に関連する質問に答えたり、画像に関する複雑な推論を行うことができる。
しかし,大きな言語モデルを用いて,単語の接頭や参照の局所化といった局所化タスクをどのように行うことができるのかは,まだ分かっていない。
本研究の目的は,例えば点やボックスの集合を入力や出力として位置を取ることができる視覚言語モデルを開発することである。
位置を入力として取ると、モデルが位置条件付きキャプションを実行し、指定対象または領域のキャプションを生成する。
出力として位置を生成する場合、言語モデルによって生成された各出力語に対する画素座標を回帰し、高密度な単語グラウンドを行う。
本モデルでは,人間の注意を反映した画素単語対応キャプションを含むLocalized Narrative データセットを事前学習する。
位置対応視覚言語タスクには,位置対応キャプション,高密度オブジェクトキャプション,RefCOCOとVisual Genomeの最先端パフォーマンスのアーカイブなど,様々なタスクが適用可能であることを示す。
プロジェクトページ: https://jerryxu.net/PixelLLM 。 Large language models have achieved great success in recent years, so as their variants in vision. Existing vision-language models can describe images in natural languages, answer visual-related questions, or perform complex reasoning about the image. However, it is yet unclear how localization tasks, such as word grounding or referring localization, can be performed using large language models. In this work, we aim to develop a vision-language model that can take locations, for example, a set of points or boxes, as either inputs or outputs. When taking locations as inputs, the model performs location-conditioned captioning, which generates captions for the indicated object or region. When generating locations as outputs, our model regresses pixel coordinates for each output word generated by the language model, and thus performs dense word grounding. Our model is pre-trained on the Localized Narrative dataset, which contains pixel-word-aligned captioning from human attention. We show our model can be applied to various location-aware vision-language tasks, including referring localization, location-conditioned captioning, and dense object captioning, archiving state-of-the-art performance on RefCOCO and Visual Genome. Project page: https://jerryxu.net/PixelLLM . | 翻訳日:2023-12-15 20:30:49 公開日:2023-12-14 |
# 条件拡散モデリングのためのフレームワークとタンパク質設計のためのモチーフ足場への応用 A framework for conditional diffusion modelling with applications in motif scaffolding for protein design ( http://arxiv.org/abs/2312.09236v1 ) ライセンス: Link先を確認 | Kieran Didi, Francisco Vargas, Simon V Mathis, Vincent Dutordoir, Emile Mathieu, Urszula J Komorowska, Pietro Lio | (参考訳) バインダーや酵素設計のような多くのタンパク質設計用途では、構造的モチーフを高精度に構築する必要がある。
微分拡散過程に基づく生成的モデリングパラダイムは、このモチーフ足場問題に対処する主要な候補として現れ、いくつかのケースで初期の実験的な成功を示している。
拡散パラダイムでは、モチーフスキャフォールディングは条件生成タスクとして扱われ、コンピュータビジョン文献からいくつかの条件生成プロトコルが提案または輸入された。
しかし、これらのプロトコルのほとんどがヒューリスティックな動機付けであり、例えばランジュバンダイナミクスへの類似性を通じて、異なるアプローチ間の接続を阻害する統一フレームワークが欠如している。
本研究では,数学的によく理解されたDoobのh-transformに基づいて,条件付きトレーニングと条件付きサンプリング手順を統合する。
この新たな視点は、既存のメソッド間の接続を描画し、既存の条件付きトレーニングプロトコルに新しいバリエーションを提案する。
我々は,この新たなプロトコルの有効性を,画像オーバーペイントとモチーフスキャフォールディングの両方において説明し,標準手法よりも優れていることを示す。 Many protein design applications, such as binder or enzyme design, require scaffolding a structural motif with high precision. Generative modelling paradigms based on denoising diffusion processes emerged as a leading candidate to address this motif scaffolding problem and have shown early experimental success in some cases. In the diffusion paradigm, motif scaffolding is treated as a conditional generation task, and several conditional generation protocols were proposed or imported from the Computer Vision literature. However, most of these protocols are motivated heuristically, e.g. via analogies to Langevin dynamics, and lack a unifying framework, obscuring connections between the different approaches. In this work, we unify conditional training and conditional sampling procedures under one common framework based on the mathematically well-understood Doob's h-transform. This new perspective allows us to draw connections between existing methods and propose a new variation on existing conditional training protocols. We illustrate the effectiveness of this new protocol in both, image outpainting and motif scaffolding and find that it outperforms standard methods. | 翻訳日:2023-12-15 20:30:25 公開日:2023-12-14 |
# 時間-ワープ-アテンド:力学系の位相不変量を学ぶ Let's do the time-warp-attend: Learning topological invariants of dynamical systems ( http://arxiv.org/abs/2312.09234v1 ) ライセンス: Link先を確認 | Noa Moriel, Matthew Ricci, Mor Nitzan | (参考訳) 電気回路から生態ネットワークまで、科学全体にわたる力学系は、基礎となるパラメータがしきい値を越えると、定性的かつしばしば破滅的な行動変化が起こる。
既存の方法は、個々のシステムで起こる災害を予測するが、主に時系列に基づいており、様々なシステムにまたがる定性的な動的体制を分類し、実際のデータに一般化するのに苦労する。
この課題に対処するため,データ駆動型物理インフォームド深層学習フレームワークを提案し,トポロジ的不変な特徴の抽出に基づいて動的状態の分類と分岐境界のキャラクタリゼーションを行う。
超臨界ホップ分岐のパラダイム的ケースに焦点をあて、幅広い応用の周期的ダイナミクスをモデル化するために使用される。
コンボリューショナルアテンション法は, 観測不能なシステムにおける分岐境界の検出や, 振動性遺伝子制御ネットワークなどの生物学的システムのモデルの設計に使用できるトポロジ的不変量の学習を促進するデータ強化を用いて訓練される。
さらに,単細胞データに基づく遺伝子発現空間における膵内分泌過程の異なる増殖および分化動態を回復させることにより,実データ解析における本手法の利用を実証する。
本手法は,幅広い力学系の定性的・長期的挙動に関する貴重な知見を提供し,大規模物理・生物系の分岐や破滅的な遷移を検出する。 Dynamical systems across the sciences, from electrical circuits to ecological networks, undergo qualitative and often catastrophic changes in behavior, called bifurcations, when their underlying parameters cross a threshold. Existing methods predict oncoming catastrophes in individual systems but are primarily time-series-based and struggle both to categorize qualitative dynamical regimes across diverse systems and to generalize to real data. To address this challenge, we propose a data-driven, physically-informed deep-learning framework for classifying dynamical regimes and characterizing bifurcation boundaries based on the extraction of topologically invariant features. We focus on the paradigmatic case of the supercritical Hopf bifurcation, which is used to model periodic dynamics across a wide range of applications. Our convolutional attention method is trained with data augmentations that encourage the learning of topological invariants which can be used to detect bifurcation boundaries in unseen systems and to design models of biological systems like oscillatory gene regulatory networks. We further demonstrate our method's use in analyzing real data by recovering distinct proliferation and differentiation dynamics along pancreatic endocrinogenesis trajectory in gene expression space based on single-cell data. Our method provides valuable insights into the qualitative, long-term behavior of a wide range of dynamical systems, and can detect bifurcations or catastrophic transitions in large-scale physical and biological systems. | 翻訳日:2023-12-15 20:30:03 公開日:2023-12-14 |
# DVQI:電子部品製造における自動視覚検査のためのマルチタスク・ハードウェア統合人工知能システム DVQI: A Multi-task, Hardware-integrated Artificial Intelligence System for Automated Visual Inspection in Electronics Manufacturing ( http://arxiv.org/abs/2312.09232v1 ) ライセンス: Link先を確認 | Audrey Chung, Francis Li, Jeremy Ward, Andrew Hryniowski, and Alexander Wong | (参考訳) サプライチェーンや労働力不足に苦しむ中、電子機器メーカーは生産効率向上への圧力に直面しているが、多くのプリント回路基板(pcba)メーカーは競争力を維持するために自動化と技術革新に投資し始めている。
そのような方法の1つは、人工知能(AI)を活用し、既存の製造プロセスを大幅に強化することである。
本稿では,電子機器製造環境におけるプリント基板組立欠陥の自動検査のためのハードウェア統合型人工知能システムであるdarwinai visual quality inspection (dvqi)システムを提案する。
DVQIシステムは、手動検査と比較してサイクル時間を改善しつつ、最小限のプログラミングと製造技術者のセットアップによるマルチタスク検査を可能にする。
また,DVQIシステムの性能とトップエレクトロニクスメーカーへの影響について事例研究を行った。 As electronics manufacturers continue to face pressure to increase production efficiency amid difficulties with supply chains and labour shortages, many printed circuit board assembly (PCBA) manufacturers have begun to invest in automation and technological innovations to remain competitive. One such method is to leverage artificial intelligence (AI) to greatly augment existing manufacturing processes. In this paper, we present the DarwinAI Visual Quality Inspection (DVQI) system, a hardware-integration artificial intelligence system for the automated inspection of printed circuit board assembly defects in an electronics manufacturing environment. The DVQI system enables multi-task inspection via minimal programming and setup for manufacturing engineers while improving cycle time relative to manual inspection. We also present a case study of the deployed DVQI system's performance and impact for a top electronics manufacturer. | 翻訳日:2023-12-15 20:29:36 公開日:2023-12-14 |
# セマンティックセグメンテーションにおける信頼性:合成データの利用は可能か? Reliability in Semantic Segmentation: Can We Use Synthetic Data? ( http://arxiv.org/abs/2312.09231v1 ) ライセンス: Link先を確認 | Thibaut Loiseau, Tuan-Hung Vu, Mickael Chen, Patrick P\'erez and Matthieu Cord | (参考訳) 知覚モデルの信頼性を評価することは、自動運転車のような安全クリティカルな応用のために重要である。
しかし、タスクの性質上、関連するデータは収集や注釈が難しい。
本稿では,セマンティクスセグメンテーションにおける信頼性評価のためのデータを自動合成するために,最先端生成モデルに挑戦する。
安定拡散を微調整することにより、OODドメインやOODオブジェクトに塗布された合成データのゼロショット生成を行う。
合成データは、事前訓練されたセグメンタの初期評価を提供することで、実際のエッジケースに直面した際のパフォーマンスに関する洞察を提供する。
大規模な実験を通じて,合成データの性能と実OODデータの性能との間に高い相関関係を示し,妥当性を示す。
さらに,セグメンタのキャリブレーションとOOD検出能力を高めるために,合成データを利用する方法についても述べる。 Assessing the reliability of perception models to covariate shifts and out-of-distribution (OOD) detection is crucial for safety-critical applications such as autonomous vehicles. By nature of the task, however, the relevant data is difficult to collect and annotate. In this paper, we challenge cutting-edge generative models to automatically synthesize data for assessing reliability in semantic segmentation. By fine-tuning Stable Diffusion, we perform zero-shot generation of synthetic data in OOD domains or inpainted with OOD objects. Synthetic data is employed to provide an initial assessment of pretrained segmenters, thereby offering insights into their performance when confronted with real edge cases. Through extensive experiments, we demonstrate a high correlation between the performance on synthetic data and the performance on real OOD data, showing the validity approach. Furthermore, we illustrate how synthetic data can be utilized to enhance the calibration and OOD detection capabilities of segmenters. | 翻訳日:2023-12-15 20:29:22 公開日:2023-12-14 |
# 後継の頭:繰り返し、解釈可能な注意の頭 Successor Heads: Recurring, Interpretable Attention Heads In The Wild ( http://arxiv.org/abs/2312.09230v1 ) ライセンス: Link先を確認 | Rhys Gould, Euan Ong, George Ogden, Arthur Conmy | (参考訳) この作業では、後継のヘッド – 数、月、日といった自然な順序でトークンを増量するアテンションヘッド – を提示します。
例えば、後継の当主は「月日」を「月日」に増やす。
モデルが人間の理解可能な言葉でタスクを完遂する方法を説明するための分野である機械的解釈可能性に根ざしたアプローチで,後継の頭部行動を説明する。
この領域における既存の研究は、小さな玩具モデルで解釈可能な言語モデルコンポーネントを発見した。
しかし、おもちゃ模型の結果はまだフロンティア模型の内部構造を説明する洞察に至らず、大きな言語模型の内部操作についてはほとんど理解されていない。
本稿では,大規模言語モデル(llms)における後継者の振る舞いを分析し,異なるアーキテクチャに共通する抽象表現を実装していることを示す。
彼らは最大3300万のパラメータと少なくとも120億のパラメータ(GPT-2、Pythia、Llama-2)を持つLLMで形成されている。
アーキテクチャやサイズにまたがるLLMにおいて,後継がいかに増加するかを示す,一連の"mod-10機能"が見つかる。
これらの特徴を用いてベクトル演算を行い,頭部の挙動を編集し,llm内の数値表現に対する洞察を与える。
さらに,自然言語データに対する後継頭部の挙動を解析し,pythia後継頭部における解釈可能な多意味性を特定する。 In this work we present successor heads: attention heads that increment tokens with a natural ordering, such as numbers, months, and days. For example, successor heads increment 'Monday' into 'Tuesday'. We explain the successor head behavior with an approach rooted in mechanistic interpretability, the field that aims to explain how models complete tasks in human-understandable terms. Existing research in this area has found interpretable language model components in small toy models. However, results in toy models have not yet led to insights that explain the internals of frontier models and little is currently understood about the internal operations of large language models. In this paper, we analyze the behavior of successor heads in large language models (LLMs) and find that they implement abstract representations that are common to different architectures. They form in LLMs with as few as 31 million parameters, and at least as many as 12 billion parameters, such as GPT-2, Pythia, and Llama-2. We find a set of 'mod-10 features' that underlie how successor heads increment in LLMs across different architectures and sizes. We perform vector arithmetic with these features to edit head behavior and provide insights into numeric representations within LLMs. Additionally, we study the behavior of successor heads on natural language data, identifying interpretable polysemanticity in a Pythia successor head. | 翻訳日:2023-12-15 20:29:07 公開日:2023-12-14 |
# 3DGS-アバター:変形可能な3Dガウススプレイティングによるアニマタブルアバター 3DGS-Avatar: Animatable Avatars via Deformable 3D Gaussian Splatting ( http://arxiv.org/abs/2312.09228v1 ) ライセンス: Link先を確認 | Zhiyin Qian, Shaofei Wang, Marko Mihajlovic, Andreas Geiger and Siyu Tang | (参考訳) モノクロビデオからアニマタブルな人間のアバターを3Dガウススプラッティング(3DGS)を用いて生成する手法を提案する。
ニューラルレイディアンス場(NeRF)に基づく既存の手法は、高品質なノベルビュー/ノーベル目的画像合成を実現するが、しばしばトレーニングの日数を必要とし、推論時に非常に遅い。
近年,布地アバターの効率的な訓練のための高速グリッド構造が検討されている。
トレーニングは非常に高速だが、これらの手法は15fpsのインタラクティブなレンダリングフレームレートをほとんど達成できない。
本稿では,3次元ガウス型スプレートを用いて非剛性変形ネットワークを学習し,30分以内で訓練でき,リアルタイムフレームレート(50fps)でレンダリングできるアバターを再現する。
表現の明示的な性質を考えると、ガウス平均ベクトルと共分散行列の両面に等距離可測正規化を導入し、高度に調音された未知のポーズに対する我々のモデルの一般化を強化する。
実験結果から,本手法は単分子入力によるアニマタブルアバター生成に対する最先端手法と比較して,それぞれ400倍,250倍の高速化を実現していることがわかった。 We introduce an approach that creates animatable human avatars from monocular videos using 3D Gaussian Splatting (3DGS). Existing methods based on neural radiance fields (NeRFs) achieve high-quality novel-view/novel-pose image synthesis but often require days of training, and are extremely slow at inference time. Recently, the community has explored fast grid structures for efficient training of clothed avatars. Albeit being extremely fast at training, these methods can barely achieve an interactive rendering frame rate with around 15 FPS. In this paper, we use 3D Gaussian Splatting and learn a non-rigid deformation network to reconstruct animatable clothed human avatars that can be trained within 30 minutes and rendered at real-time frame rates (50+ FPS). Given the explicit nature of our representation, we further introduce as-isometric-as-possible regularizations on both the Gaussian mean vectors and the covariance matrices, enhancing the generalization of our model on highly articulated unseen poses. Experimental results show that our method achieves comparable and even better performance compared to state-of-the-art approaches on animatable avatar creation from a monocular input, while being 400x and 250x faster in training and inference, respectively. | 翻訳日:2023-12-15 20:28:42 公開日:2023-12-14 |
# 計算量および認識的誤特定下におけるガウス過程の回帰 Gaussian Process Regression under Computational and Epistemic Misspecification ( http://arxiv.org/abs/2312.09225v1 ) ライセンス: Link先を確認 | Daniel Sanz-Alonso and Ruiyi Yang | (参考訳) ガウス過程回帰は関数推定とデータ補間のための古典的なカーネル法である。
大規模データアプリケーションでは、カーネルの低ランクあるいはスパース近似を用いて計算コストを削減できる。
本稿では,そのようなカーネル近似が補間誤差に与える影響について検討する。
本稿では,低ランクカーネル近似を生じるKarhunen-Lo\eve展開,共分散行列におけるスパーシティを誘導するマルチスケールウェーブレット展開,精度行列におけるスパーシティを誘導する有限要素表現について,ガウス過程の回帰分析を行う統一的枠組みを導入する。
我々の理論は、カーネルパラメータの選択における疫学的なミス種別も考慮している。 Gaussian process regression is a classical kernel method for function estimation and data interpolation. In large data applications, computational costs can be reduced using low-rank or sparse approximations of the kernel. This paper investigates the effect of such kernel approximations on the interpolation error. We introduce a unified framework to analyze Gaussian process regression under important classes of computational misspecification: Karhunen-Lo\`eve expansions that result in low-rank kernel approximations, multiscale wavelet expansions that induce sparsity in the covariance matrix, and finite element representations that induce sparsity in the precision matrix. Our theory also accounts for epistemic misspecification in the choice of kernel parameters. | 翻訳日:2023-12-15 20:28:16 公開日:2023-12-14 |
# 3次元生成モデルのためのモザイクSDF Mosaic-SDF for 3D Generative Models ( http://arxiv.org/abs/2312.09222v1 ) ライセンス: Link先を確認 | Lior Yariv, Omri Puny, Natalia Neverova, Oran Gafni, Yaron Lipman | (参考訳) 現在の3次元形状の拡散または流れに基づく生成モデルは、蒸留2次元拡散モデルと3次元形状を直接訓練する2つのモデルに分けられる。
拡散や流れのモデルを3次元形状で訓練する場合、重要な設計選択は形状表現である。
効果的な形状表現は、3つの設計原則に従う必要がある: 大きな3Dデータセットを表現形式に効率的に変換すること; 近似パワーとパラメータの数との良好なトレードオフを提供すること; 既存の強力なニューラルネットワークアーキテクチャと互換性のある単純なテンソル形式を持つこと。
体積格子や点雲のような標準的な3次元形状表現はこれらすべての原則を同時に従わないが、本稿では新しい表現を提唱する。
モーザイクSDF(M-SDF: Mosaic-SDF)は、形状境界付近に広がる局所格子を用いて、与えられた形状の符号距離関数(SDF)を近似した単純な3次元形状表現である。
m-sdf表現は各形状の計算が高速であり、並列化が容易であり、形状の境界の周りの空間のみをカバーするためパラメータ効率が良く、トランスフォーマーベースのアーキテクチャと互換性のある単純な行列形式を持つ。
3dウェアハウスデータセットを用いたクラスコンディショニング生成を含む3d生成フローモデルと,約600kキャプション型ペアのデータセットを用いたテキストから3d生成を訓練することにより,m-sdf表現の有効性を示す。 Current diffusion or flow-based generative models for 3D shapes divide to two: distilling pre-trained 2D image diffusion models, and training directly on 3D shapes. When training a diffusion or flow models on 3D shapes a crucial design choice is the shape representation. An effective shape representation needs to adhere three design principles: it should allow an efficient conversion of large 3D datasets to the representation form; it should provide a good tradeoff of approximation power versus number of parameters; and it should have a simple tensorial form that is compatible with existing powerful neural architectures. While standard 3D shape representations such as volumetric grids and point clouds do not adhere to all these principles simultaneously, we advocate in this paper a new representation that does. We introduce Mosaic-SDF (M-SDF): a simple 3D shape representation that approximates the Signed Distance Function (SDF) of a given shape by using a set of local grids spread near the shape's boundary. The M-SDF representation is fast to compute for each shape individually making it readily parallelizable; it is parameter efficient as it only covers the space around the shape's boundary; and it has a simple matrix form, compatible with Transformer-based architectures. We demonstrate the efficacy of the M-SDF representation by using it to train a 3D generative flow model including class-conditioned generation with the 3D Warehouse dataset, and text-to-3D generation using a dataset of about 600k caption-shape pairs. | 翻訳日:2023-12-15 20:28:04 公開日:2023-12-14 |
# NestE:知識グラフ推論のためのネスト関係構造モデリング NestE: Modeling Nested Relational Structures for Knowledge Graph Reasoning ( http://arxiv.org/abs/2312.09219v1 ) ライセンス: Link先を確認 | Bo Xiong, Mojtaba Nayyeri, Linhao Luo, Zihao Wang, Shirui Pan, Steffen Staab | (参考訳) 知識グラフ(KGs)との推論は、主に三つ組の事実に焦点を当てている。
ハイパーリレーショナルな事実のようなより強力な表現を取り入れることで、これらの事実のセマンティクスを強化するために最近の進歩が研究されている。
しかしながら、これらのアプローチは情報の一片を記述する「emph{atomic facts}」に限られる。
この論文は \emph{atomic facts} を超えて展開され、対象と対象が自身を三重項とする三重項(例: ((\emph{BarackObama}, \emph{holds\_position}, \emph{President}), \emph{succeed\_by}, (\emph{DonaldTrump}, \emph{holds\_position}, \emph{President})で表現される。
これらのネストされた事実は、時間とともに \emph{situations} や、実体や関係に関する \emph{logical pattern} のような複雑な意味論を表現できる。
そこで我々は,原子とネストした事実知識の両方の意味を捉える新しいKG埋め込み手法であるNestEを紹介する。
NestEは、それぞれの原子事実を1\times3$行列として表現し、それぞれのネストされた関係は3\times3$行列としてモデル化される。
行列の各要素は(球面的)四元数、双曲四元数、分割四元数を含む一般化された四次元双複素空間の複素数として表される。
徹底的な分析を通じて,ネストした事実よりも多様な論理パターンを捉え,一階述語論理的な表現の限界を超える組込みの有効性を実証する。
実験結果から,NestEは三重予測と条件付きリンク予測において,現在のベースラインよりも顕著な性能向上を示した。
コードと事前訓練されたモデルはhttps://github.com/xiongbo010/NestEで公開されている。 Reasoning with knowledge graphs (KGs) has primarily focused on triple-shaped facts. Recent advancements have been explored to enhance the semantics of these facts by incorporating more potent representations, such as hyper-relational facts. However, these approaches are limited to \emph{atomic facts}, which describe a single piece of information. This paper extends beyond \emph{atomic facts} and delves into \emph{nested facts}, represented by quoted triples where subjects and objects are triples themselves (e.g., ((\emph{BarackObama}, \emph{holds\_position}, \emph{President}), \emph{succeed\_by}, (\emph{DonaldTrump}, \emph{holds\_position}, \emph{President}))). These nested facts enable the expression of complex semantics like \emph{situations} over time and \emph{logical patterns} over entities and relations. In response, we introduce NestE, a novel KG embedding approach that captures the semantics of both atomic and nested factual knowledge. NestE represents each atomic fact as a $1\times3$ matrix, and each nested relation is modeled as a $3\times3$ matrix that rotates the $1\times3$ atomic fact matrix through matrix multiplication. Each element of the matrix is represented as a complex number in the generalized 4D hypercomplex space, including (spherical) quaternions, hyperbolic quaternions, and split-quaternions. Through thorough analysis, we demonstrate the embedding's efficacy in capturing diverse logical patterns over nested facts, surpassing the confines of first-order logic-like expressions. Our experimental results showcase NestE's significant performance gains over current baselines in triple prediction and conditional link prediction. The code and pre-trained models are open available at https://github.com/xiongbo010/NestE. | 翻訳日:2023-12-15 20:27:34 公開日:2023-12-14 |
# quditを有する2量子ゲートの速度制限 Speed limits of two-qubit gates with qudits ( http://arxiv.org/abs/2312.09218v1 ) ライセンス: Link先を確認 | Bora Basyildiz, Casey Jameson, and Zhexuan Gong | (参考訳) 基本量子ゲートの速度は、最終的に量子回路が動作可能な速度の限界を設定する。
2つのキュービット間の一定の物理的相互作用強度では、任意の2キュービットゲートの速度は任意に速いシングルキュービットゲートでも制限される。
本研究では,マルチレベル原子やアンハーモニック発振器で符号化された量子ビットに対して実験的に関連する量子ビット部分空間の外側に計算空間を広げることで,そのような限界を超えた2量子ビットゲートの高速化の可能性を検討する。
有界な相互作用強度と任意に高速な単一量子ゲートを持つ2つのquditを用いて、2量子ビットゲートの速度限界に対する最適理論バウンドを同定する。
さらに,この理論速度限界を非自明な方法で達成する2つのパラメトリック結合超伝導トランスモンを用いた実験的に実現可能なプロトコルを見出した。
また,シングルクイット駆動強度とオフ共振遷移が制限された実用的なシナリオも検討する。
このようなシナリオのために、我々はオープンソースの機械学習支援量子最適制御アルゴリズムを開発し、ほぼ完全なゲート忠実性を持つ理論上の限界に近いスピードアップを達成する。
この研究は、キュービット間の物理的相互作用強度を増大させることができず、キュービット部分空間の外側の余分な状態が十分に制御できる場合に、2キュービットゲートを高速化する新たな道を開く。 The speed of elementary quantum gates ultimately sets the limit on the speed at which quantum circuits can operate. For a fixed physical interaction strength between two qubits, the speed of any two-qubit gate is limited even with arbitrarily fast single-qubit gates. In this work, we explore the possibilities of speeding up two-qubit gates beyond such a limit by expanding our computational space outside the qubit subspace, which is experimentally relevant for qubits encoded in multi-level atoms or anharmonic oscillators. We identify an optimal theoretical bound for the speed limit of a two-qubit gate achieved using two qudits with a bounded interaction strength and arbitrarily fast single-qudit gates. In addition, we find an experimentally feasible protocol using two parametrically coupled superconducting transmons that achieves this theoretical speed limit in a non-trivial way. We also consider practical scenarios with limited single-qudit drive strengths and off-resonant transitions. For such scenarios, we develop an open-source, machine learning assisted, quantum optimal control algorithm that can achieve a speedup close to the theoretical limit with near-perfect gate fidelity. This work opens up a new avenue to speed up two-qubit gates when the physical interaction strength between qubits cannot be easily increased while extra states outside the qubit subspace can be well controlled. | 翻訳日:2023-12-15 20:26:51 公開日:2023-12-14 |
# 監視量子回路のランダム行列モデル Random-matrix models of monitored quantum circuits ( http://arxiv.org/abs/2312.09216v1 ) ライセンス: Link先を確認 | Vir B. Bulchandani, S. L. Sondhi, J. T. Chalker | (参考訳) 量子ビットの非構造系に対するハールランダムユニタリ力学と測定の競合について検討する。
プロジェクティブな測定のために、Kraus演算子の統計アンサンブルの様々な特性を解析的に導き出し、浄化時間とボルン確率の分布を導出する。
後者は、ランダムユニタリ回路のポーター・トーマス分布をモニターされた設定に一般化し、長期にわたって対数正規である。
また、アイデンティティ量子チャネルと射影測度を補間する弱い測度も検討する。
この設定では、乱れた量子ワイヤをモデル化するドロホフ・メロ・ペレイラ・クマール(DMPK)方程式に類似した、クラウス作用素の特異値の結合分布を正確に解けるフォッカー・プランク方程式を導出する。
これらの単純な系のために確立したクラウス作用素の統計特性は、より一般に観察された量子系の絡み合い位相のモデルとして機能することを期待する。 We study the competition between Haar-random unitary dynamics and measurements for unstructured systems of qubits. For projective measurements, we derive various properties of the statistical ensemble of Kraus operators analytically, including the purification time and the distribution of Born probabilities. The latter generalizes the Porter-Thomas distribution for random unitary circuits to the monitored setting and is log-normal at long times. We also consider weak measurements that interpolate between identity quantum channels and projective measurements. In this setting, we derive an exactly solvable Fokker-Planck equation for the joint distribution of singular values of Kraus operators, analogous to the Dorokhov-Mello-Pereyra-Kumar (DMPK) equation modelling disordered quantum wires. We expect that the statistical properties of Kraus operators we have established for these simple systems will serve as a model for the entangling phase of monitored quantum systems more generally. | 翻訳日:2023-12-15 20:26:29 公開日:2023-12-14 |
# 物理インフォームド量子機械学習による偏微分方程式の解法 Physics-Informed Quantum Machine Learning for Solving Partial Differential Equations ( http://arxiv.org/abs/2312.09215v1 ) ライセンス: Link先を確認 | Abhishek Setty, Rasul Abdusalamov, Mikhail Itskov | (参考訳) 本研究では,量子チェビシェフ特徴写像を用いて微分方程式を解く。
本研究では,パウリZ演算子の和に対するテンソル積を測定可観測値の変化として提案し,フローティング境界処理による初期値問題に対する精度の向上と計算時間短縮を実現した。
このアイデアは、リッカティ方程式の複素力学や微分方程式の系を解くために試されてきた。
さらに, 2次微分方程式について検討し, 変動パラメータを増大させることなく, エンタングル層を追加して精度を向上させることを提案する。
さらに,多目的損失関数のバランスをとるために,物理形ニューラルネットワークの修正自己適応アプローチが組み込まれている。
最後に、2次元ポアソン方程式の解法で検証された多変数関数を近似する新しい量子回路構造を提案する。 In this work, we solve differential equations using quantum Chebyshev feature maps. We propose a tensor product over a summation of Pauli-Z operators as a change in the measurement observables resulting in improved accuracy and reduced computation time for initial value problems processed by floating boundary handling. This idea has been tested on solving the complex dynamics of a Riccati equation as well as on a system of differential equations. Furthermore, a second-order differential equation is investigated in which we propose adding entangling layers to improve accuracy without increasing the variational parameters. Additionally, a modified self-adaptivity approach of physics-informed neural networks is incorporated to balance the multi-objective loss function. Finally, a new quantum circuit structure is proposed to approximate multivariable functions, tested on solving a 2D Poisson's equation. | 翻訳日:2023-12-15 20:26:13 公開日:2023-12-14 |
# 言語モデルの低精度微調整における外部アクティベーションの緩和 Mitigating Outlier Activations in Low-Precision Fine-Tuning of Language Models ( http://arxiv.org/abs/2312.09211v1 ) ライセンス: Link先を確認 | Alireza Ghaffari, Justin Yu, Mahsa Ghazvini Nejad, Masoud Asgharian, Boxing Chen, Vahid Partovi Nia | (参考訳) 大規模モデルを様々なアプリケーションに展開するためのコスト効率とエネルギー効率のアプローチとして,低精度な言語モデルの微調整が注目されている。
しかし、このアプローチはアクティベーションにおける外れ値の存在に影響を受けやすい。
アクティベーションにおける外れ値が、スケーリング係数に影響を及ぼすため、低精度システムにおける微調整言語モデルの性能に悪影響を及ぼし、より小さな値を表現することが難しくなる。
本稿では,言語モデルの低精度整数微調整において,外れ値の活性化を緩和する手法について検討する。
提案手法により,浮動小数点値 (fp16) の代わりに8ビット整数の外れ値を表すことができる。
外れ値に整数を用いる利点は、演算子タイリングを使って16ビット整数行列の乗算を回避し、この問題を効果的に解決できる点である。
我々は,低精度の微調整言語モデルの堅牢性と性能を向上させるための手法の有効性を理論的解析および支援実験で実証する。 Low-precision fine-tuning of language models has gained prominence as a cost-effective and energy-efficient approach to deploying large-scale models in various applications. However, this approach is susceptible to the existence of outlier values in activation. The outlier values in the activation can negatively affect the performance of fine-tuning language models in the low-precision regime since they affect the scaling factor and thus make representing smaller values harder. This paper investigates techniques for mitigating outlier activation in low-precision integer fine-tuning of the language models. Our proposed novel approach enables us to represent the outlier activation values in 8-bit integers instead of floating-point (FP16) values. The benefit of using integers for outlier values is that it enables us to use operator tiling to avoid performing 16-bit integer matrix multiplication to address this problem effectively. We provide theoretical analysis and supporting experiments to demonstrate the effectiveness of our approach in improving the robustness and performance of low-precision fine-tuned language models. | 翻訳日:2023-12-15 20:25:59 公開日:2023-12-14 |
# LIME:拡散モデルにおける注意規則化による局所画像編集 LIME: Localized Image Editing via Attention Regularization in Diffusion Models ( http://arxiv.org/abs/2312.09256v1 ) ライセンス: Link先を確認 | Enis Simsar and Alessio Tonioni and Yongqin Xian and Thomas Hofmann and Federico Tombari | (参考訳) 拡散モデル(DM)は,テキスト・画像生成の進歩とともに,高品質で多様な画像を生成する能力によって注目されている。
研究の焦点はdmsの制御可能性に移り変わりつつある。
この領域における重要な課題はローカライズ編集であり、画像の特定の領域はコンテンツの他の部分に影響を与えずに変更される。
本稿では,ユーザ特定領域(roi)や追加テキスト入力を必要としない拡散モデルにおける局所画像編集のためのlimeを提案する。
本手法では,事前学習した手法と単純なクラスタリング手法を用いて,正確なセマンティックセグメンテーションマップを得る。
次に、クロスアテンションマップを利用することで、これらのセグメントを局所的な編集のために洗練する。
最後に,特定段階におけるRoIの非関係な相互注意スコアをペナライズし,局所的な編集を確実にするクロスアテンション正規化手法を提案する。
提案手法は,再学習や微調整を伴わずに,様々な編集ベンチマークにおける既存手法の性能を継続的に改善する。 Diffusion models (DMs) have gained prominence due to their ability to generate high-quality, varied images, with recent advancements in text-to-image generation. The research focus is now shifting towards the controllability of DMs. A significant challenge within this domain is localized editing, where specific areas of an image are modified without affecting the rest of the content. This paper introduces LIME for localized image editing in diffusion models that do not require user-specified regions of interest (RoI) or additional text input. Our method employs features from pre-trained methods and a simple clustering technique to obtain precise semantic segmentation maps. Then, by leveraging cross-attention maps, it refines these segments for localized edits. Finally, we propose a novel cross-attention regularization technique that penalizes unrelated cross-attention scores in the RoI during the denoising steps, ensuring localized edits. Our approach, without re-training and fine-tuning, consistently improves the performance of existing methods in various editing benchmarks. | 翻訳日:2023-12-15 20:18:24 公開日:2023-12-14 |
# クロスドメイン一般化のためのステレオマッチング視点からの奥行き完全度の再検討 Revisiting Depth Completion from a Stereo Matching Perspective for Cross-domain Generalization ( http://arxiv.org/abs/2312.09254v1 ) ライセンス: Link先を確認 | Luca Bartolomei, Matteo Poggi, Andrea Conti, Fabio Tosi, Stefano Mattoccia | (参考訳) 本稿では、ドメインシフト問題に対して堅牢な深度補完のための新しいフレームワークを提案する。
仮想パターン投影パラダイムによって得られた架空のステレオペアを処理し、現代のステレオネットワークの一般化機能を活用し、深度を完備する。
ステレオネットワークや従来のステレオマーカは,私たちのフレームワークにシームレスに接続することが可能です。
クロスドメイン一般化に関する実証実験は、我々の主張を支持する。
したがって、当社のフレームワークは、新しいデプロイメントシナリオに到達するためのディープ・コンプリートに役立ちます。 This paper proposes a new framework for depth completion robust against domain-shifting issues. It exploits the generalization capability of modern stereo networks to face depth completion, by processing fictitious stereo pairs obtained through a virtual pattern projection paradigm. Any stereo network or traditional stereo matcher can be seamlessly plugged into our framework, allowing for the deployment of a virtual stereo setup that is future-proof against advancement in the stereo field. Exhaustive experiments on cross-domain generalization support our claims. Hence, we argue that our framework can help depth completion to reach new deployment scenarios. | 翻訳日:2023-12-15 20:18:06 公開日:2023-12-14 |
# 量子多体系におけるロバスト状態形成のためのベイズ最適化 Bayesian Optimization for Robust State Preparation in Quantum Many-Body Systems ( http://arxiv.org/abs/2312.09253v1 ) ライセンス: Link先を確認 | Tizian Blatz, Joyce Kwan, Julian L\'eonard, and Annabelle Bohrdt | (参考訳) 次世代の超低温原子実験は、最適制御問題に対する効率的な解の需要を継続的に高めている。
本稿では,超原子系で最近実装された状態準備プロトコルを改善するためにベイズ最適化を適用し,2粒子分数量子ホール状態を実現する。
手動のランプ設計と比較すると、数値シミュレーションにおいて、我々の最適化アプローチの優れた性能を実証する - 実験的に現実的なシステム障害のレベルを考慮しても、同じ忠実度で10倍の速度のプロトコルを実現する。
我々は,ロバスト性に関する疑問と数値シミュレーションと実験実現の関係,および最適化中に訓練されたサロゲートモデルの最適利用について広く分析し,議論する。
シミュレーションにより,最も基礎的な移動学習手法であっても,実施すべき実験の数を大幅に削減することが期待できる。
提案されたプロトコルとワークフローは、実験でより複雑な多体量子状態を実現する道を開くだろう。 New generations of ultracold-atom experiments are continually raising the demand for efficient solutions to optimal control problems. Here, we apply Bayesian optimization to improve a state-preparation protocol recently implemented in an ultracold-atom system to realize a two-particle fractional quantum Hall state. Compared to manual ramp design, we demonstrate the superior performance of our optimization approach in a numerical simulation - resulting in a protocol that is 10x faster at the same fidelity, even when taking into account experimentally realistic levels of disorder in the system. We extensively analyze and discuss questions of robustness and the relationship between numerical simulation and experimental realization, and how to make the best use of the surrogate model trained during optimization. We find that numerical simulation can be expected to substantially reduce the number of experiments that need to be performed with even the most basic transfer learning techniques. The proposed protocol and workflow will pave the way toward the realization of more complex many-body quantum states in experiments. | 翻訳日:2023-12-15 20:17:56 公開日:2023-12-14 |
# FineControlNet:空間配向テキスト制御注入による画像生成のための微細レベルテキスト制御 FineControlNet: Fine-level Text Control for Image Generation with Spatially Aligned Text Control Injection ( http://arxiv.org/abs/2312.09252v1 ) ライセンス: Link先を確認 | Hongsuk Choi, Isaac Kasahara, Selim Engin, Moritz Graule, Nikhil Chavan-Dafle, and Volkan Isler | (参考訳) 最近導入されたcontrolnetは、人間の2dポーズやエッジ機能などの幾何学的な入力でテキスト駆動画像生成プロセスを制御できる。
controlnetは生成された画像のインスタンスの幾何形式の制御を提供するが、各インスタンスの視覚的な外観を決定する機能は欠落している。
正確なポーズ制御能力を維持しつつ,各インスタンスの外観を細かく制御するFinControlNetを提案する。
具体的には,人間のポーズ画像による幾何学的制御と,インスタンスレベルのテキストプロンプトによる出現制御を備えたファインコントロールネットを開発し,実演する。
インスタンス固有のテキストプロンプトと2Dポーズの空間的アライメントは、FinControlNetの細かい制御機能を実現する。
我々はFinControlNetの性能を最先端のポーズ-条件付きテキスト-画像拡散モデルと厳密な比較で評価した。
finecontrolnetは、ユーザが提供するインスタンス固有のテキストプロンプトに従って画像を生成することで、既存の方法と比較して優れたパフォーマンスを実現する。
プロジェクトWebページ:https://samsunglabs.github.io/FineControlNet-project-page Recently introduced ControlNet has the ability to steer the text-driven image generation process with geometric input such as human 2D pose, or edge features. While ControlNet provides control over the geometric form of the instances in the generated image, it lacks the capability to dictate the visual appearance of each instance. We present FineControlNet to provide fine control over each instance's appearance while maintaining the precise pose control capability. Specifically, we develop and demonstrate FineControlNet with geometric control via human pose images and appearance control via instance-level text prompts. The spatial alignment of instance-specific text prompts and 2D poses in latent space enables the fine control capabilities of FineControlNet. We evaluate the performance of FineControlNet with rigorous comparison against state-of-the-art pose-conditioned text-to-image diffusion models. FineControlNet achieves superior performance in generating images that follow the user-provided instance-specific text prompts and poses compared with existing methods. Project webpage: https://samsunglabs.github.io/FineControlNet-project-page | 翻訳日:2023-12-15 20:17:41 公開日:2023-12-14 |
# VL-GPT:視覚・言語理解・生成のための生成事前学習型変換器 VL-GPT: A Generative Pre-trained Transformer for Vision and Language Understanding and Generation ( http://arxiv.org/abs/2312.09251v1 ) ライセンス: Link先を確認 | Jinguo Zhu, Xiaohan Ding, Yixiao Ge, Yuying Ge, Sijie Zhao, Hengshuang Zhao, Xiaohua Wang, Ying Shan | (参考訳) 本研究では,視覚・言語データの同時認識・生成に長けたトランスモデルであるVL-GPT(Vision-Language Generative Pre-Traited Transformer)を紹介する。
VL-GPTは、単純で自己回帰的な目的を生かして、画像とテキストのモダリティを統一した事前学習アプローチを実現し、言語モデルがテキストを処理するように、画像とテキストをシームレスに処理できるようにする。
そこで本稿では,視覚データのための画像トークン化・デトケナイザフレームワークを提案する。
このフレームワークは、既存のテキストトークンとデトケナイザを組み合わせることで、インターリーブされた画像テキストデータをマルチモーダルシーケンスに符号化し、変換器モデルに入力することができる。
これにより、VL-GPTは、統合された自己回帰的目標(すなわち次トーケン予測)を利用して、マルチモーダルコーパス上で大規模な事前訓練を行うことができる。
事前トレーニングが完了すると、VL-GPTは画像キャプション、視覚的質問応答、テキスト・ツー・イメージ生成など、様々な視覚・言語理解および生成タスクにおいて、目覚ましいゼロショットと少数ショットのパフォーマンスを示す。
さらに、事前訓練されたモデルは、マルチモーダルプロンプトを備えた場合、コンテキスト内学習機能を再訓練する。
我々は、VL-GPTの命令チューニングをさらに実施し、マルチモーダル・アシストの可能性を強調した。
ソースコード及びモデルの重み付けは、リリースする。 In this work, we introduce Vision-Language Generative Pre-trained Transformer (VL-GPT), a transformer model proficient at concurrently perceiving and generating visual and linguistic data. VL-GPT achieves a unified pre-training approach for both image and text modalities by employing a straightforward auto-regressive objective, thereby enabling the model to process image and text as seamlessly as a language model processes text. To accomplish this, we initially propose a novel image tokenizer-detokenizer framework for visual data, specifically designed to transform raw images into a sequence of continuous embeddings and reconstruct them accordingly. In combination with the existing text tokenizer and detokenizer, this framework allows for the encoding of interleaved image-text data into a multimodal sequence, which can subsequently be fed into the transformer model. Consequently, VL-GPT can perform large-scale pre-training on multimodal corpora utilizing a unified auto-regressive objective (i.e., next-token prediction). Upon completion of pre-training, VL-GPT exhibits remarkable zero-shot and few-shot performance across a diverse range of vision and language understanding and generation tasks, including image captioning, visual question answering, text-to-image generation, and more. Additionally, the pre-trained model retrains in-context learning capabilities when provided with multimodal prompts. We further conduct instruction tuning on our VL-GPT, highlighting its exceptional potential for multimodal assistance. The source code and model weights shall be released. | 翻訳日:2023-12-15 20:17:25 公開日:2023-12-14 |
# テクスチャ生成のためのフィールドレイトを用いた単一メッシュ拡散モデル Single Mesh Diffusion Models with Field Latents for Texture Generation ( http://arxiv.org/abs/2312.09250v1 ) ライセンス: Link先を確認 | Thomas W. Mitchel, Carlos Esteves, Ameesh Makadia | (参考訳) 高品質なテクスチャを合成することを目的として、3次元形状の表面に直接作用する固有潜在拡散モデルの枠組みを導入する。
メッシュ頂点上の離散ベクトル場としてテクスチャをエンコードする潜在表現であるfield latentsと、表面上の学習された潜在空間における拡散過程を無声化することを学ぶfield latent diffusion modelである。
モデルは、メッシュ上の所定のテクスチャのバリエーションを生成するようにトレーニングされます。
合成テクスチャは,既存の単一テクスチャ・メシュ生成モデルと比較すると,優れた忠実度を示す。
我々のモデルは、インペイントやラベル誘導生成などのユーザ制御編集タスクにも適応できる。
提案手法の有効性は, アイソメトリー下でのフレームワークの等価性に起因し, 局所的に類似した領域の細部をシームレスに再現し, 生成的テクスチャ伝達の概念への扉を開くことができる。 We introduce a framework for intrinsic latent diffusion models operating directly on the surfaces of 3D shapes, with the goal of synthesizing high-quality textures. Our approach is underpinned by two contributions: field latents, a latent representation encoding textures as discrete vector fields on the mesh vertices, and field latent diffusion models, which learn to denoise a diffusion process in the learned latent space on the surface. We consider a single-textured-mesh paradigm, where our models are trained to generate variations of a given texture on a mesh. We show the synthesized textures are of superior fidelity compared those from existing single-textured-mesh generative models. Our models can also be adapted for user-controlled editing tasks such as inpainting and label-guided generation. The efficacy of our approach is due in part to the equivariance of our proposed framework under isometries, allowing our models to seamlessly reproduce details across locally similar regions and opening the door to a notion of generative texture transfer. | 翻訳日:2023-12-15 20:16:54 公開日:2023-12-14 |
# ZeroRF: Zero Pretraining を用いた高速スパースビュー 360{\deg} 再構成 ZeroRF: Fast Sparse View 360{\deg} Reconstruction with Zero Pretraining ( http://arxiv.org/abs/2312.09249v1 ) ライセンス: Link先を確認 | Ruoxi Shi, Xinyue Wei, Cheng Wang, Hao Su | (参考訳) ニューラルネットワーク表現におけるスパースビュー360{\deg}再構成の課題に対処する新しいシーンごとの最適化手法であるZeroRFを提案する。
Neural Radiance Fields (NeRF)のような現在のブレークスルーは、高忠実度画像合成を実証しているが、スパース入力ビューに苦慮している。
Generalizable NeRFsやSceneごとの最適化アプローチのような既存の手法では、データ依存、計算コスト、様々なシナリオにおける一般化の制限に直面している。
これらの課題を克服するため、我々はZeroRFを提案し、その鍵となるアイデアは、カスタマイズされたDeep Image Priorを係数化されたNeRF表現に統合することである。
従来の方法とは異なり、ZeroRFはニューラルネットワークジェネレータでフィーチャーグリッドをパラメトリズし、事前トレーニングや追加の正規化なしに効率的なスパースビュー360{\deg}再構成を可能にする。
大規模な実験では、ZeroRFの質とスピードの両面での汎用性と優位性を示し、ベンチマークデータセットで最先端の結果を達成する。
ZeroRFの意義は、3Dコンテンツ生成と編集の応用にまで及ぶ。
プロジェクトページ: https://sarahweiii.github.io/zerorf/ We present ZeroRF, a novel per-scene optimization method addressing the challenge of sparse view 360{\deg} reconstruction in neural field representations. Current breakthroughs like Neural Radiance Fields (NeRF) have demonstrated high-fidelity image synthesis but struggle with sparse input views. Existing methods, such as Generalizable NeRFs and per-scene optimization approaches, face limitations in data dependency, computational cost, and generalization across diverse scenarios. To overcome these challenges, we propose ZeroRF, whose key idea is to integrate a tailored Deep Image Prior into a factorized NeRF representation. Unlike traditional methods, ZeroRF parametrizes feature grids with a neural network generator, enabling efficient sparse view 360{\deg} reconstruction without any pretraining or additional regularization. Extensive experiments showcase ZeroRF's versatility and superiority in terms of both quality and speed, achieving state-of-the-art results on benchmark datasets. ZeroRF's significance extends to applications in 3D content generation and editing. Project page: https://sarahweiii.github.io/zerorf/ | 翻訳日:2023-12-15 20:16:33 公開日:2023-12-14 |
# 同質な2次元ボースガスにおける普遍的粗大化 Universal Coarsening in a Homogeneous Two-Dimensional Bose Gas ( http://arxiv.org/abs/2312.09248v1 ) ライセンス: Link先を確認 | Martin Gazo, Andrey Karailiev, Tanish Satoor, Christoph Eigen, Maciej Ga{\l}ka, Zoran Hadzibabic | (参考訳) 孤立した非平衡量子系の粗大化は、準核から宇宙論的な長さスケールに関係し、普遍的な動的スケーリングを特徴とするパラダイム的な多体現象である。
ここでは、同質な2次元ボース気体の粗大化における普遍的なスケーリングを、解析的予測に一致する指数で観測する。
異なる初期状態に対して、初期状態に依存した事前スケーリング効果の解明と説明により、実験的にアクセス可能な有限時間力学における普遍的なスケーリングを明らかにする。
私たちが導入した手法は、平衡から遠い普遍性の定量的研究に適用できる。 Coarsening of an isolated far-from-equilibrium quantum system is a paradigmatic many-body phenomenon, relevant from subnuclear to cosmological lengthscales, and predicted to feature universal dynamic scaling. Here, we observe universal scaling in the coarsening of a homogeneous two-dimensional Bose gas, with exponents that match analytical predictions. For different initial states, we reveal universal scaling in the experimentally accessible finite-time dynamics by elucidating and accounting for the initial-state-dependent prescaling effects. The methods we introduce are applicable to any quantitative study of universality far from equilibrium. | 翻訳日:2023-12-15 20:16:13 公開日:2023-12-14 |
# SHAP-EDITOR:命令誘導3D編集 SHAP-EDITOR: Instruction-guided Latent 3D Editing in Seconds ( http://arxiv.org/abs/2312.09246v1 ) ライセンス: Link先を確認 | Minghao Chen, Junyu Xie, Iro Laina, Andrea Vedaldi | (参考訳) shap-editorと呼ばれる新しいフィードフォワード3d編集フレームワークを提案する。
従来の3Dオブジェクトの編集は、市販の2D画像編集ネットワークを活用して、個々のオブジェクトの編集に集中していた。
これは蒸留と呼ばれるプロセスによって実現され、2Dネットワークから3D資産に知識を伝達する。
蒸留は、十分な編集結果を得るために1資産につき少なくとも10分必要であり、あまり実用的ではない。
対照的に、3d編集はフィードフォワードネットワークによって直接実施可能か、テスト時間最適化を回避できるかを問う。
特に,まず適切な潜在空間に3dオブジェクトをエンコードすることで編集を大幅に単純化できると仮定する。
この仮説をShap-Eの潜在空間上に構築することで検証する。
編集1秒あたり1秒程度しか必要としないフィードフォワードエディタネットワークを構築することで,この空間での直接3D編集が可能かつ効率的であることを示す。
実験の結果,Shap-Editorは,各編集インスタンスに対してテスト時間最適化を行う手法を用いて,異なるプロンプトで,分布内および分布外の両方の3Dアセットを一般化することがわかった。 We propose a novel feed-forward 3D editing framework called Shap-Editor. Prior research on editing 3D objects primarily concentrated on editing individual objects by leveraging off-the-shelf 2D image editing networks. This is achieved via a process called distillation, which transfers knowledge from the 2D network to 3D assets. Distillation necessitates at least tens of minutes per asset to attain satisfactory editing results, and is thus not very practical. In contrast, we ask whether 3D editing can be carried out directly by a feed-forward network, eschewing test-time optimisation. In particular, we hypothesise that editing can be greatly simplified by first encoding 3D objects in a suitable latent space. We validate this hypothesis by building upon the latent space of Shap-E. We demonstrate that direct 3D editing in this space is possible and efficient by building a feed-forward editor network that only requires approximately one second per edit. Our experiments show that Shap-Editor generalises well to both in-distribution and out-of-distribution 3D assets with different prompts, exhibiting comparable performance with methods that carry out test-time optimisation for each edited instance. | 翻訳日:2023-12-15 20:16:02 公開日:2023-12-14 |
# DriveMLM: 自律運転のための行動計画条件付き多モード大言語モデルのアラインメント DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral Planning States for Autonomous Driving ( http://arxiv.org/abs/2312.09245v1 ) ライセンス: Link先を確認 | Wenhai Wang, Jiangwei Xie, ChuanYang Hu, Haoming Zou, Jianan Fan, Wenwen Tong, Yang Wen, Silei Wu, Hanming Deng, Zhiqi Li, Hao Tian, Lewei Lu, Xizhou Zhu, Xiaogang Wang, Yu Qiao, Jifeng Dai | (参考訳) 大きな言語モデル(LLM)は、人間のような思考と認知能力を持つインテリジェントエージェントの新しい可能性を開く。
本研究では,自動運転(AD)における大規模言語モデル(LLM)の可能性を探究する。
我々は、現実のシミュレータでクローズループの自動運転を実行できるllmベースの広告フレームワークであるdrivemlmを紹介する。
この目的のために,(1)既成の移動計画モジュールに従って決定状態を標準化することにより,言語決定と車両制御コマンドのギャップを埋める。
2)マルチモーダルLCM(MLLM)を用いてモジュールADシステムの動作計画モジュールをモデル化し,各種センサ(例えばカメラ,ライダー)からの動作ルール,ユーザコマンド,入力を入力として使用し,運転決定を行い,説明を提供する。
(3)モデルトレーニングと評価のための決定状態とそれに対応する説明アノテーションを含むデータセットを収集する有効なデータエンジンを設計する。
広範な実験を行い,本モデルがcarla town05の運転スコア76.1を達成し,同じ条件下でアポロのベースラインを4.7ポイント上回り,本モデルの有効性を実証した。
LLMによる自動運転のベースラインとして機能することを願っている。
コードとモデルはhttps://github.com/OpenGVLab/DriveMLMで公開される。 Large language models (LLMs) have opened up new possibilities for intelligent agents, endowing them with human-like thinking and cognitive abilities. In this work, we delve into the potential of large language models (LLMs) in autonomous driving (AD). We introduce DriveMLM, an LLM-based AD framework that can perform close-loop autonomous driving in realistic simulators. To this end, (1) we bridge the gap between the language decisions and the vehicle control commands by standardizing the decision states according to the off-the-shelf motion planning module. (2) We employ a multi-modal LLM (MLLM) to model the behavior planning module of a module AD system, which uses driving rules, user commands, and inputs from various sensors (e.g., camera, lidar) as input and makes driving decisions and provide explanations; This model can plug-and-play in existing AD systems such as Apollo for close-loop driving. (3) We design an effective data engine to collect a dataset that includes decision state and corresponding explanation annotation for model training and evaluation. We conduct extensive experiments and show that our model achieves 76.1 driving score on the CARLA Town05 Long, and surpasses the Apollo baseline by 4.7 points under the same settings, demonstrating the effectiveness of our model. We hope this work can serve as a baseline for autonomous driving with LLMs. Code and models shall be released at https://github.com/OpenGVLab/DriveMLM. | 翻訳日:2023-12-15 20:15:40 公開日:2023-12-14 |
# 助けか 牧畜か?
Reward ModelはMitigateをアンサンブルするが、Rewardハッキングを排除しない Helping or Herding? Reward Model Ensembles Mitigate but do not Eliminate Reward Hacking ( http://arxiv.org/abs/2312.09244v1 ) ライセンス: Link先を確認 | Jacob Eisenstein and Chirag Nagpal and Alekh Agarwal and Ahmad Beirami and Alex D'Amour and DJ Dvijotham and Adam Fisch and Katherine Heller and Stephen Pfohl and Deepak Ramachandran and Peter Shaw and Jonathan Berant | (参考訳) リワードモデルは、言語モデルアプリケーションを人間の好みに合わせる上で重要な役割を果たす。
しかし、この設定は、高い推定報酬を達成するために報酬モデルにおけるエラーを利用する言語モデルにインセンティブを与え、これはしばしば「emph{reward hacking}」と呼ばれる現象である。
自然な緩和は、報酬モデルのアンサンブルを訓練し、モデル出力を集約し、よりロバストな報酬推定を得ることである。
トレーニング時間(強化学習)と推論時間(再評価)の両方でアライメントに報酬アンサンブルを適用する方法について検討する。
まず、報酬モデルが \emph{underspecified} であることが示される: 分布シフトによってアライメントで使用する場合、同様に分配される報酬モデルは非常に異なる報酬が得られる。
第二に、過度に最適化され、ある報酬モデルにアライメントしても、同じデータで訓練された別の報酬モデルによって測定された報酬が改善されない。
第三に、過剰最適化は報奨アンサンブルの使用によって緩和され、その種によって異なるアンサンブルは、それぞれの報奨モデルよりも優れていて、それらの種によってのみ異なるアンサンブルよりもより良い一般化をもたらす。
しかし、プリトレーニング報酬アンサンブルであっても、報酬ハッキングは排除されない:アンサンブル内のすべての報酬モデルが同じようなエラーパターンを示すため、センシングによって軽減されないいくつかの質的報酬ハッキング現象を示す。 Reward models play a key role in aligning language model applications towards human preferences. However, this setup creates an incentive for the language model to exploit errors in the reward model to achieve high estimated reward, a phenomenon often termed \emph{reward hacking}. A natural mitigation is to train an ensemble of reward models, aggregating over model outputs to obtain a more robust reward estimate. We explore the application of reward ensembles to alignment at both training time (through reinforcement learning) and inference time (through reranking). First, we show that reward models are \emph{underspecified}: reward models that perform similarly in-distribution can yield very different rewards when used in alignment, due to distribution shift. Second, underspecification results in overoptimization, where alignment to one reward model does not improve reward as measured by another reward model trained on the same data. Third, overoptimization is mitigated by the use of reward ensembles, and ensembles that vary by their \emph{pretraining} seeds lead to better generalization than ensembles that differ only by their \emph{fine-tuning} seeds, with both outperforming individual reward models. However, even pretrain reward ensembles do not eliminate reward hacking: we show several qualitative reward hacking phenomena that are not mitigated by ensembling because all reward models in the ensemble exhibit similar error patterns. | 翻訳日:2023-12-15 20:15:16 公開日:2023-12-14 |
# OccNeRF:ニューラルラジアンス場を用いた自己監督型マルチカメラ動作予測 OccNeRF: Self-Supervised Multi-Camera Occupancy Prediction with Neural Radiance Fields ( http://arxiv.org/abs/2312.09243v1 ) ライセンス: Link先を確認 | Chubin Zhang, Juncheng Yan, Yi Wei, Jiaxin Li, Li Liu, Yansong Tang, Yueqi Duan, Jiwen Lu | (参考訳) 視覚に基づく知覚の基本課題として、3次元占有予測は周囲環境の3次元構造を再構築する。
自動運転計画とナビゲーションに関する詳細な情報を提供する。
しかし、既存の手法の多くはlidar point cloudに強く依存し、視覚ベースのシステムでは利用できない占有率基底真理を生成する。
本稿では,OccNeRF法による自己監督型マルチカメラ占有予測を提案する。
有界3Dの占有ラベルと異なり、未有界シーンを生画像監視で検討する必要がある。
この問題を解決するために,再構成された占有場をパラメータ化し,サンプリング戦略を再編成する。
ニューラルネットワークのレンダリングは、占有フィールドをマルチカメラ深度マップに変換し、マルチフレームフォトメトリック一貫性によって監督する。
さらに,semantic occupancy predictionのために,事前学習したオープンボカブラリー2次元セグメンテーションモデルのプロンプトを洗練し,出力をフィルタリングする手法をいくつか設計する。
nuScenesデータセット上での自己教師付き深度推定とセマンティック占有予測の両タスクに対する大規模な実験により,本手法の有効性が示された。 As a fundamental task of vision-based perception, 3D occupancy prediction reconstructs 3D structures of surrounding environments. It provides detailed information for autonomous driving planning and navigation. However, most existing methods heavily rely on the LiDAR point clouds to generate occupancy ground truth, which is not available in the vision-based system. In this paper, we propose an OccNeRF method for self-supervised multi-camera occupancy prediction. Different from bounded 3D occupancy labels, we need to consider unbounded scenes with raw image supervision. To solve the issue, we parameterize the reconstructed occupancy fields and reorganize the sampling strategy. The neural rendering is adopted to convert occupancy fields to multi-camera depth maps, supervised by multi-frame photometric consistency. Moreover, for semantic occupancy prediction, we design several strategies to polish the prompts and filter the outputs of a pretrained open-vocabulary 2D segmentation model. Extensive experiments for both self-supervised depth estimation and semantic occupancy prediction tasks on nuScenes dataset demonstrate the effectiveness of our method. | 翻訳日:2023-12-15 20:14:47 公開日:2023-12-14 |
# text2immersion: 3d gaussianによる生成的没入シーン Text2Immersion: Generative Immersive Scene with 3D Gaussians ( http://arxiv.org/abs/2312.09242v1 ) ライセンス: Link先を確認 | Hao Ouyang, Kathryn Heal, Stephen Lombardi, Tiancheng Sun | (参考訳) テキストプロンプトから高品質な3d没入シーンを生成するエレガントな方法であるtext2immersionを紹介する。
提案するパイプラインは,事前学習した2次元拡散と深さ推定モデルを用いてガウス雲を漸進的に生成することで開始する。
この後、ガウス雲の精錬段階が進み、それを補間して精錬し、生成されたシーンの詳細が強化される。
一つの物体や屋内シーンに焦点をあてたり、ズームアウトトラジェクトリを使ったりといった一般的な手法とは違って、われわれの手法は様々な物体を持つ多様なシーンを生成する。
その結果、text2immersionは、仮想現実、ゲーム開発、自動コンテンツ作成など、さまざまなアプリケーションに対して幅広い意味を持つことができる。
広範な評価により,本システムは他の手法よりも精度と多様性の面で優れており,さらにテキスト駆動3dシーン生成への進歩が示された。
ソースコードはプロジェクトのページから公開します。 We introduce Text2Immersion, an elegant method for producing high-quality 3D immersive scenes from text prompts. Our proposed pipeline initiates by progressively generating a Gaussian cloud using pre-trained 2D diffusion and depth estimation models. This is followed by a refining stage on the Gaussian cloud, interpolating and refining it to enhance the details of the generated scene. Distinct from prevalent methods that focus on single object or indoor scenes, or employ zoom-out trajectories, our approach generates diverse scenes with various objects, even extending to the creation of imaginary scenes. Consequently, Text2Immersion can have wide-ranging implications for various applications such as virtual reality, game development, and automated content creation. Extensive evaluations demonstrate that our system surpasses other methods in rendering quality and diversity, further progressing towards text-driven 3D scene generation. We will make the source code publicly accessible at the project page. | 翻訳日:2023-12-15 20:14:29 公開日:2023-12-14 |
# TinyGSM: 小さな言語モデルでGSM8kで80%達成 TinyGSM: achieving >80% on GSM8k with small language models ( http://arxiv.org/abs/2312.09241v1 ) ライセンス: Link先を確認 | Bingbin Liu, Sebastien Bubeck, Ronen Eldan, Janardhan Kulkarni, Yuanzhi Li, Anh Nguyen, Rachel Ward, Yi Zhang | (参考訳) 小規模モデルには様々な計算上の利点があるが、問題解決能力にどの程度の大きさが重要であるかは未解決のままである。
特に小学校の数学を解くために、GSM8Kベンチマークの80%の障壁を破るのに必要なモデルサイズは、まだ34Bである。
我々の研究は,小言語モデルが数学的推論を得るためにいかに高品質なデータセットが鍵となるかを研究する。
GPT-3.5で完全に生成されるPythonソリューションと組み合わせた123Mの小学校数学問題の合成データセットである \texttt{TinyGSM} を紹介する。
texttt{TinyGSM} を微調整した結果,1.3B 生成モデルと1.3B 検証モデルの2つが 81.5\% の精度を達成できることがわかった。
これはまた、モデルのトレーニングデータを生成するgpt-3.5 ``teacher''モデル(77.4\%)のパフォーマンスにも匹敵する。
私たちのアプローチはシンプルで、2つの重要なコンポーネントがあります。
1) 高品質データセット \texttt{TinyGSM}
2) 複数の候補世代から最終的な出力を選択する検証器の使用。 Small-scale models offer various computational advantages, and yet to which extent size is critical for problem-solving abilities remains an open question. Specifically for solving grade school math, the smallest model size so far required to break the 80\% barrier on the GSM8K benchmark remains to be 34B. Our work studies how high-quality datasets may be the key for small language models to acquire mathematical reasoning. We introduce \texttt{TinyGSM}, a synthetic dataset of 12.3M grade school math problems paired with Python solutions, generated fully by GPT-3.5. After finetuning on \texttt{TinyGSM}, we find that a duo of a 1.3B generation model and a 1.3B verifier model can achieve 81.5\% accuracy, outperforming existing models that are orders of magnitude larger. This also rivals the performance of the GPT-3.5 ``teacher'' model (77.4\%), from which our model's training data is generated. Our approach is simple and has two key components: 1) the high-quality dataset \texttt{TinyGSM}, 2) the use of a verifier, which selects the final outputs from multiple candidate generations. | 翻訳日:2023-12-15 20:14:12 公開日:2023-12-14 |
# パラメトリック近似を超えて:マクロ下降変換におけるポンプの枯渇、絡み合い、スクイーズ Beyond the parametric approximation: pump depletion, entanglement and squeezing in macroscopic down-conversion ( http://arxiv.org/abs/2312.09239v1 ) ライセンス: Link先を確認 | Karthik Chinni, Nicol\'as Quesada | (参考訳) 本研究では, 累積展開法, 摂動理論, ポンプ平均光子数最大10万の系のフル数値シミュレーションを用いて, ダウンコンバージョンハミルトニアンにおけるポンプモードの力学について検討した。
特に,ポンプモードがコヒーレント状態で初期化される実験的に関連する初期状態に対して,ポンプモードの枯渇,絡み合い,スクイーズなどの特性に注目する。
この分析により, パラメトリック近似では理解できないような, 様々な量の短時間の挙動と, 上記の特徴が系の起源となる時間尺度を得ることができた。
また,ポンプモードの絡み合いを捉えることができるボソニックオペレータのモーメントを含む絡み合い証人を提供する。
最後に,ポンプと信号/アイドラーモードの光子数統計を解析し,これらのモードの一般挙動を実験的に関連する時間スケールで理解する。 We study the dynamics of the pump mode in the down-conversion Hamiltonian using the cumulant expansion method, perturbation theory, and the full numerical simulation of systems with a pump mean photon number of up to one hundred thousand. We particularly focus on the properties of the pump-mode such as depletion, entanglement, and squeezing for an experimentally relevant initial state in which the pump mode is initialized in a coherent state. Through this analysis, we obtain the short-time behaviour of various quantities and derive timescales at which the above-mentioned features, which cannot be understood through the parametric approximation, originate in the system. We also provide an entanglement witness involving moments of bosonic operators that can capture the entanglement of the pump mode. Finally, we study the photon-number statistics of the pump and the signal/idler modes to understand the general behaviour of these modes for experimentally relevant time scales. | 翻訳日:2023-12-15 20:13:50 公開日:2023-12-14 |
# ThinkBot: 思考連鎖推論による身体的指導 ThinkBot: Embodied Instruction Following with Thought Chain Reasoning ( http://arxiv.org/abs/2312.07062v2 ) ライセンス: Link先を確認 | Guanxing Lu, Ziwei Wang, Changliu Liu, Jiwen Lu, Yansong Tang | (参考訳) EIF(Embodied Instruction following)は、複雑な環境下でオブジェクトを相互作用させることで、エージェントが人間の指示を完了させる。
従来の手法では、エージェントのアクションプランを生成するための粗末な人間の指示を直接考慮しており、通常はアクション記述における命令の不整合のため、人間の目標達成に失敗する。
それとは対照的に,ThinkBotでは,人間の指示における思考連鎖が欠落した行動記述を復元し,エージェントが一貫性のある指示に従うことで人間の目標を達成できるようにする。
具体的には,まず大規模言語モデルに基づくインストラクションコンプタの設計を行い,インストラクションコンプタに知覚された環境と完結したサブゴールが考慮される連続したヒューマンインストラクション間の対話オブジェクトとの動作の欠如を復元する。
部分観察されたシーンセマンティックマップに基づいて,エージェントが複雑な目標を達成するために対話対象の位置を推定するオブジェクトローカライザを提案する。
シミュレーション環境における大規模な実験により、ThinkBotは成功率と実行効率の両面で、最先端のEIF手法よりも優れた性能を示した。 Embodied Instruction Following (EIF) requires agents to complete human instruction by interacting objects in complicated surrounding environments. Conventional methods directly consider the sparse human instruction to generate action plans for agents, which usually fail to achieve human goals because of the instruction incoherence in action descriptions. On the contrary, we propose ThinkBot that reasons the thought chain in human instruction to recover the missing action descriptions, so that the agent can successfully complete human goals by following the coherent instruction. Specifically, we first design an instruction completer based on large language models to recover the missing actions with interacted objects between consecutive human instruction, where the perceived surrounding environments and the completed sub-goals are considered for instruction completion. Based on the partially observed scene semantic maps, we present an object localizer to infer the position of interacted objects for agents to achieve complex human goals. Extensive experiments in the simulated environment show that our ThinkBot outperforms the state-of-the-art EIF methods by a sizable margin in both success rate and execution efficiency. | 翻訳日:2023-12-15 11:59:32 公開日:2023-12-14 |
# aiコンペティションとベンチマーク:ポストチャレンジ論文、ベンチマーク、その他の普及行動による影響のある課題に向けて AI Competitions and Benchmarks: towards impactful challenges with post-challenge papers, benchmarks and other dissemination actions ( http://arxiv.org/abs/2312.06036v3 ) ライセンス: Link先を確認 | Antoine Marot, David Rousseau, Zhen Xu | (参考訳) AIチャレンジの組織化は最終イベントに終止符を打たない。
長期的な影響も組織化する必要がある。
この章は、チャレンジが正式に完了した後の様々な活動を取り上げている。
異なるアフターチャレンジ活動のターゲットオーディエンスを特定した。
チャレンジのさまざまなアウトプットは、それらを収集する手段でリストされる。
章の主部は典型的なポストカレンゲ紙のテンプレートであり、グラフや、チャレンジを長期のベンチマークに変換する方法についてのアドバイスを含んでいる。 Organising an AI challenge does not end with the final event. The long-lasting impact also needs to be organised. This chapter covers the various activities after the challenge is formally finished. The target audience of different post-challenge activities is identified. The various outputs of the challenge are listed with the means to collect them. The main part of the chapter is a template for a typical post-challenge paper, including possible graphs as well as advice on how to turn the challenge into a long-lasting benchmark. | 翻訳日:2023-12-15 11:59:12 公開日:2023-12-14 |
# フライ上の微分可能な粒子フィルタの学習 Learning Differentiable Particle Filter on the Fly ( http://arxiv.org/abs/2312.05955v2 ) ライセンス: Link先を確認 | Jiaxi Li, Xiongjie Chen, Yunpeng Li | (参考訳) 微分可能な粒子フィルタは、ニューラルネットワークを用いて状態空間モデルに成分を構成するシーケンシャルベイズ推論技術の新たなクラスである。
既存のアプローチは、主にオフラインの教師付きトレーニング戦略に基づいている。
これにより、モデルデプロイメントの遅延が発生し、得られたフィルタはテスト時間データの分散シフトに影響を受けやすい。
本稿では,データ到着時にモデルパラメータを更新できるように,微分可能な粒子フィルタのためのオンライン学習フレームワークを提案する。
技術的な制約は、オンライン推論設定に既知の真理状態情報がないことである。
我々は、オンラインモデル更新手順を構築するために、教師なしの損失を採用することで、この問題に対処する。
提案手法の有効性を実証的に評価し,多変量線形ガウス状態空間モデルと擬似物体追跡実験を含むシミュレーション設定における教師付き学習手法と比較した。 Differentiable particle filters are an emerging class of sequential Bayesian inference techniques that use neural networks to construct components in state space models. Existing approaches are mostly based on offline supervised training strategies. This leads to the delay of the model deployment and the obtained filters are susceptible to distribution shift of test-time data. In this paper, we propose an online learning framework for differentiable particle filters so that model parameters can be updated as data arrive. The technical constraint is that there is no known ground truth state information in the online inference setting. We address this by adopting an unsupervised loss to construct the online model updating procedure, which involves a sequence of filtering operations for online maximum likelihood-based parameter estimation. We empirically evaluate the effectiveness of the proposed method, and compare it with supervised learning methods in simulation settings including a multivariate linear Gaussian state-space model and a simulated object tracking experiment. | 翻訳日:2023-12-15 11:59:05 公開日:2023-12-14 |
# 歴史問題:大規模言語モデルにおける時間的知識編集 History Matters: Temporal Knowledge Editing in Large Language Model ( http://arxiv.org/abs/2312.05497v3 ) ライセンス: Link先を確認 | Xunjian Yin, Jin Jiang, Liming Yang, Xiaojun Wan | (参考訳) 大規模な言語モデルに格納されている知識を修正または更新するという命令的なタスクは、2つの異なるソースから生じます。
モデル編集における主要な取り組みは、異なる理由から生じる2つの異なるカテゴリの編集を詳述し、モデルの本来の知識を直接新しい知識に修正する。
しかし,モデルの本来の知識の保存は依然として適切である。
特に、世界力学の進化によってモデルの知識が時代遅れになった場合、新しい知識を統合しつつ、歴史的知識の記憶を保たなければならない。
本稿では,時間的知識編集(TKE)の課題を紹介し,現在のモデル編集手法を評価するためのベンチマークATOKe(Assessment of Temporal Knowledge Editing)を確立する。
既存のモデル編集手法はモデルに新しい知識を思い出させるのに有効であるが、そのモデル編集は歴史的知識を壊滅的に忘れてしまう。
そこで,本稿では,歴史的知識と新たな知識を同時に編集し,各事実の時間に対するモデルの予測を最適化する既存の編集モデルを強化するための,時間目標付きマルチ編集(meto)という,単純で汎用的なフレームワークを提案する。
評価の結果、ATOKeはまだ難しいが、METOは新たな知識の学習の有効性を維持し、また、履歴知識の活用における編集モデルの性能を大幅に向上させる。 The imperative task of revising or updating the knowledge stored within large language models arises from two distinct sources: intrinsic errors inherent in the model which should be corrected and outdated knowledge due to external shifts in the real world which should be updated. Prevailing efforts in model editing conflate these two distinct categories of edits arising from distinct reasons and directly modify the original knowledge in models into new knowledge. However, we argue that preserving the model's original knowledge remains pertinent. Specifically, if a model's knowledge becomes outdated due to evolving worldly dynamics, it should retain recollection of the historical knowledge while integrating the newfound knowledge. In this work, we introduce the task of Temporal Knowledge Editing (TKE) and establish a benchmark AToKe (Assessment of TempOral Knowledge Editing) to evaluate current model editing methods. We find that while existing model editing methods are effective at making models remember new knowledge, the edited model catastrophically forgets historical knowledge. To address this gap, we propose a simple and general framework termed Multi-Editing with Time Objective (METO) for enhancing existing editing models, which edits both historical and new knowledge concurrently and optimizes the model's prediction for the time of each fact. Our assessments demonstrate that while AToKe is still difficult, METO maintains the effectiveness of learning new knowledge and meanwhile substantially improves the performance of edited models on utilizing historical knowledge. | 翻訳日:2023-12-15 11:58:50 公開日:2023-12-14 |
# HGPROMPT:Few-shot Prompt Learningのための均質グラフと不均質グラフ HGPROMPT: Bridging Homogeneous and Heterogeneous Graphs for Few-shot Prompt Learning ( http://arxiv.org/abs/2312.01878v3 ) ライセンス: Link先を確認 | Xingtong Yu, Yuan Fang, Zemin Liu, Xinming Zhang | (参考訳) グラフニューラルネットワーク(GNN)とヘテロジニアスグラフニューラルネットワーク(HGNN)は、同質で異質なグラフ表現学習において顕著なテクニックであるが、エンドツーエンドの監視フレームワークにおけるパフォーマンスは、タスク固有の監視の可用性に大きく依存している。
ラベル付けコストを削減するため、自己教師付きプレテキストタスクの事前学習は一般的なパラダイムとなっているが、事前訓練されたモデルと下流タスクの間には、目的の相違から生じるギャップがしばしばある。
ギャップを埋めるために、特に数ショット設定では、事前訓練されたモデルを完全に微調整することなく、迅速な学習が有望な方向として上昇している。
グラフ上でのプロンプトベースの学習に関する初期の研究はあったが、主に同質グラフを扱っており、下流のアプリケーションでよく見られる不均一グラフを無視している。
本稿では,HGPROMPTを提案する。HGPROMPTは,事前学習タスクと下流タスクだけでなく,二重テンプレート設計による均質かつ異質なグラフを統一する新しい学習促進フレームワークである。
さらに,hgpromptのデュアルプロンプトを提案することで,特徴のばらつきだけでなく,タスク間の異種性の違いによって引き起こされるギャップを橋渡しする前に,下流タスクが最も重要視されるよう支援する。
最後に,HGPROMPTを3つの公開データセットの広範な実験により徹底的に評価・解析する。 Graph neural networks (GNNs) and heterogeneous graph neural networks (HGNNs) are prominent techniques for homogeneous and heterogeneous graph representation learning, yet their performance in an end-to-end supervised framework greatly depends on the availability of task-specific supervision. To reduce the labeling cost, pre-training on self-supervised pretext tasks has become a popular paradigm,but there is often a gap between the pre-trained model and downstream tasks, stemming from the divergence in their objectives. To bridge the gap, prompt learning has risen as a promising direction especially in few-shot settings, without the need to fully fine-tune the pre-trained model. While there has been some early exploration of prompt-based learning on graphs, they primarily deal with homogeneous graphs, ignoring the heterogeneous graphs that are prevalent in downstream applications. In this paper, we propose HGPROMPT, a novel pre-training and prompting framework to unify not only pre-training and downstream tasks but also homogeneous and heterogeneous graphs via a dual-template design. Moreover, we propose dual-prompt in HGPROMPT to assist a downstream task in locating the most relevant prior to bridge the gaps caused by not only feature variations but also heterogeneity differences across tasks. Finally, we thoroughly evaluate and analyze HGPROMPT through extensive experiments on three public datasets. | 翻訳日:2023-12-15 11:58:24 公開日:2023-12-14 |
# 問合せ型オブジェクト検出のための局所領域に着目して Focus on Local Regions for Query-based Object Detection ( http://arxiv.org/abs/2310.06470v3 ) ライセンス: Link先を確認 | Hongbin Xu, Yamei Xia, Shuai Zhao, Bo Cheng | (参考訳) クエリベースの手法は、先駆的なクエリベースの検出器であるDETRの出現以来、オブジェクト検出に大きな注目を集めてきた。
しかし、これらの手法は低収束や準最適性能といった課題に直面している。
特に、オブジェクト検出における自己着脱は、そのグローバルな焦点によって収束を阻害することが多い。
これらの問題に対処するために,デコーダのみを有するトランスフォーマーのようなアーキテクチャであるFoLRを提案する。
我々は、グローバル領域ではなく、地域に集中させる無関係なオブジェクト間の接続を分離することで、自己着脱を改善する。
また,特徴マップからクエリの局所領域に基づく効果的な特徴を抽出する適応的サンプリング手法を設計する。
さらに、デコーダが以前の情報を保持するためのルックバック戦略と、機能とクエリを融合するfeature mixerモジュールを採用しています。
クエリベースの検出器におけるFoLRの最先端性能を実証し,収束速度と計算効率に優れていた。
索引項:局所領域、注意機構、オブジェクト検出 Query-based methods have garnered significant attention in object detection since the advent of DETR, the pioneering query-based detector. However, these methods face challenges like slow convergence and suboptimal performance. Notably, self-attention in object detection often hampers convergence due to its global focus. To address these issues, we propose FoLR, a transformer-like architecture with only decoders. We improve the self-attention by isolating connections between irrelevant objects that makes it focus on local regions but not global regions. We also design the adaptive sampling method to extract effective features based on queries' local regions from feature maps. Additionally, we employ a look-back strategy for decoders to retain previous information, followed by the Feature Mixer module to fuse features and queries. Experimental results demonstrate FoLR's state-of-the-art performance in query-based detectors, excelling in convergence speed and computational efficiency. Index Terms: Local regions, Attention mechanism, Object detection | 翻訳日:2023-12-15 11:57:56 公開日:2023-12-14 |
# 量子スピン鎖の作業統計:量子相転移の特徴付け、ベンチマーク時間進化、量子状態の通過率の検討 Work statistics for Quantum Spin Chains: characterizing quantum phase transitions, benchmarking time evolution, and examining passivity of quantum states ( http://arxiv.org/abs/2308.13366v3 ) ライセンス: Link先を確認 | Feng-Li Lin and Ching-Yu Huang | (参考訳) 量子スピン鎖のゆらぎ定理の文脈における作業統計の3つの側面を行列積状態に基づく数値的手法により検討する。
まず,スピンチェーン上で急速クエンチによる研究が量子相転移(qpt)を特徴付けるのに有効であることを詳述する。
さらに,Ising 鎖やHaldane 鎖のような位相型といったランダウ・ギンズブルグ型およびランドウ・ギンズブルグ型のQPTを特徴付ける能力を示す数値結果を得る。
第2に,実時間コリレータと熱分割関数の比を関連付けるjarzynskiの等式のようなゆらぎ定理を,数値的実時間発展手法のベンチマーク指標として用いることを提案する。
第三に、いくつかの周期的インパルス過程下での量子スピン鎖の基底状態と熱状態の通過率について研究する。
エルミタン作用下での熱状態と基底状態の通過性はそれぞれ第2の法則と変分原理によって保証され、数値計算により検証されることを示す。
さらに、変分原理が適用できない非エルミート作用の下での基底状態の受動性についても考察する。
それにもかかわらず、イジング様鎖とハルダン様鎖の両方で考慮されるすべての場合において、数値的な結果からパッシリティの違反は見当たらない。 We study three aspects of work statistics in the context of the fluctuation theorem for the quantum spin chains by numerical methods based on matrix-product states. First, we elaborate that the work done on the spin-chain by a sudden quench can be used to characterize the quantum phase transitions (QPT). We further obtain the numerical results to demonstrate its capability of characterizing the QPT of both Landau-Ginzbrug types, such as the Ising chain, or topological types, such as the Haldane chain. Second, we propose to use the fluctuation theorem, such as Jarzynski's equality, which relates the real-time correlator to the ratio of the thermal partition functions, as a benchmark indicator for the numerical real-time evolving methods. Third, we study the passivity of ground and thermal states of quantum spin chains under some cyclic impulse processes. We show that the passivity of thermal states and ground states under the hermitian actions are ensured by the second laws and variational principles, respectively, and also verify it by numerical calculations. Besides, we also consider the passivity of ground states under non-hermitian actions, for which the variational principle cannot be applied. Despite that, we find no violation of passivity from our numerical results for all the cases considered in both Ising-like and Haldane-like chains. | 翻訳日:2023-12-15 11:57:41 公開日:2023-12-14 |
# v2a-mapper:基盤モデル接続による視覚-聴覚生成のための軽量ソリューション V2A-Mapper: A Lightweight Solution for Vision-to-Audio Generation by Connecting Foundation Models ( http://arxiv.org/abs/2308.09300v4 ) ライセンス: Link先を確認 | Heng Wang, Jianbo Ma, Santiago Pascual, Richard Cartwright, Weidong Cai | (参考訳) 基礎モデル(FM)の上に人工知能(AI)システムを構築することは、AI研究における新たなパラダイムになりつつある。
膨大なデータから学習した代表的および生成能力は、スクラッチから余分なトレーニングをすることなく、容易に適応し、幅広い下流タスクに移行することができる。
しかし、音声モダリティが関与する場合、クロスモーダル生成におけるFMの活用は未検討のままである。
一方,視覚入力から意味的関連音を自動生成することは,モーダル・ジェネレーション研究において重要な課題である。
このvision-to-audio(v2a)生成問題を解決するために、既存の手法では、小さなデータセットを使って複雑なシステムをスクラッチから設計し構築する傾向がある。
本稿では,基礎モデル,特にCLIP,CLAP,AudioLDMを活用することで,この問題に対する軽量な解決策を提案する。
まず視覚的CLIPの潜在空間と聴覚的CLAPモデルとの領域ギャップについて検討する。
次に,CLIP と CLAP 空間間の視覚的入力を変換することで,領域ギャップを埋めるシンプルなマッパー機構 (V2A-Mapper) を提案する。
変換されたCLAP埋め込みを条件に、事前訓練された音声生成FM AudioLDMを採用し、高忠実で視覚的に整合した音を生成する。
従来の手法と比較して,本手法ではV2A-Mapperの迅速な訓練しか必要としない。
さらに、V2A-Mapperの選択に関する広範な実験を行い、生成マッパーが忠実度と可変性(FD)に優れ、レグレッションマッパーが相対性(CS)に若干優れていることを示す。
2つのV2Aデータセットの客観的評価と主観評価は、現在の最先端手法と比較して、提案手法の優位性を示し、パラメータは86%少なく、FDとCSは53%、CSは19%改善した。 Building artificial intelligence (AI) systems on top of a set of foundation models (FMs) is becoming a new paradigm in AI research. Their representative and generative abilities learnt from vast amounts of data can be easily adapted and transferred to a wide range of downstream tasks without extra training from scratch. However, leveraging FMs in cross-modal generation remains under-researched when audio modality is involved. On the other hand, automatically generating semantically-relevant sound from visual input is an important problem in cross-modal generation studies. To solve this vision-to-audio (V2A) generation problem, existing methods tend to design and build complex systems from scratch using modestly sized datasets. In this paper, we propose a lightweight solution to this problem by leveraging foundation models, specifically CLIP, CLAP, and AudioLDM. We first investigate the domain gap between the latent space of the visual CLIP and the auditory CLAP models. Then we propose a simple yet effective mapper mechanism (V2A-Mapper) to bridge the domain gap by translating the visual input between CLIP and CLAP spaces. Conditioned on the translated CLAP embedding, pretrained audio generative FM AudioLDM is adopted to produce high-fidelity and visually-aligned sound. Compared to previous approaches, our method only requires a quick training of the V2A-Mapper. We further analyze and conduct extensive experiments on the choice of the V2A-Mapper and show that a generative mapper is better at fidelity and variability (FD) while a regression mapper is slightly better at relevance (CS). Both objective and subjective evaluation on two V2A datasets demonstrate the superiority of our proposed method compared to current state-of-the-art approaches - trained with 86% fewer parameters but achieving 53% and 19% improvement in FD and CS, respectively. | 翻訳日:2023-12-15 11:57:18 公開日:2023-12-14 |
# ビッグデータ - 予測のためのサプライチェーン管理フレームワーク: データ前処理と機械学習技術 Big Data - Supply Chain Management Framework for Forecasting: Data Preprocessing and Machine Learning Techniques ( http://arxiv.org/abs/2307.12971v3 ) ライセンス: Link先を確認 | Md Abrar Jahin, Md Sakib Hossain Shovon, Jungpil Shin, Istiyaque Ahmed Ridoy, Yoichi Tomioka, and M. F. Mridha | (参考訳) 本稿は,最先端サプライチェーン(sc)の予測戦略と技術を体系的に同定し,比較分析することを目的とする。
sc管理(problem identification, data sources, exploratory data analysis, machine-learning model training, hyperparameter tuning, performance evaluation, and optimization)にビッグデータ分析(problem identification, data sources, exploratory data analysis, machine-learning model training, hyperparameter tuning, performance evaluation, and optimization)を組み込んだ新しいフレームワークが提案されている。
当初、sc戦略に従ってデータを収集する必要性と収集方法が議論されてきた。
本稿は、期間やSCの目的に応じて異なるタイプの予測の必要性について論じる。
SC KPIとエラー測定システムは、最高性能モデルを最適化するために推奨されている。
モデル性能パラメータの決定と運用管理,透明性,計画効率の向上のために,ファントム在庫の予測および管理決定のSC KPIへの依存に対する悪影響を概説した。
フレームワーク内の循環接続は、プロセス後KPIに基づいて前処理の最適化を導入し、全体的な制御プロセス(発明的管理、労働決定、コスト、生産、容量計画)を最適化する。
この研究の貢献は、標準のSCプロセスフレームワークの提案、予測データ分析の推奨、SCパフォーマンスの予測効果、機械学習アルゴリズムの最適化、そして将来の研究への光の遮蔽にある。 This article intends to systematically identify and comparatively analyze state-of-the-art supply chain (SC) forecasting strategies and technologies. A novel framework has been proposed incorporating Big Data Analytics in SC Management (problem identification, data sources, exploratory data analysis, machine-learning model training, hyperparameter tuning, performance evaluation, and optimization), forecasting effects on human-workforce, inventory, and overall SC. Initially, the need to collect data according to SC strategy and how to collect them has been discussed. The article discusses the need for different types of forecasting according to the period or SC objective. The SC KPIs and the error-measurement systems have been recommended to optimize the top-performing model. The adverse effects of phantom inventory on forecasting and the dependence of managerial decisions on the SC KPIs for determining model performance parameters and improving operations management, transparency, and planning efficiency have been illustrated. The cyclic connection within the framework introduces preprocessing optimization based on the post-process KPIs, optimizing the overall control process (inventory management, workforce determination, cost, production and capacity planning). The contribution of this research lies in the standard SC process framework proposal, recommended forecasting data analysis, forecasting effects on SC performance, machine learning algorithms optimization followed, and in shedding light on future research. | 翻訳日:2023-12-15 11:56:46 公開日:2023-12-14 |
# 非ラベルデータを用いたコントローラ誘導部分ラベル一貫性規則化 Controller-Guided Partial Label Consistency Regularization with Unlabeled Data ( http://arxiv.org/abs/2210.11194v3 ) ライセンス: Link先を確認 | Qian-Wei Wang, Bowen Zhao, Mingyan Zhu, Tianxiang Li, Zimo Liu, Shu-Tao Xia | (参考訳) 部分ラベル学習(PLL)は、複数の候補ラベルに関連付けられたトレーニング例から学習する。
近年, 曖昧な監視処理能力と, 最新のデータ拡張手法の推進力により, 整合性正規化に基づくPLL法が成功し, 主流になってきた。
しかし、部分アノテーションが不十分になると、パフォーマンスは大幅に低下する。
本稿では,ラベルの整合性の部分的正則化を容易にするために,アクセスし易いラベルなし例を利用する。
部分的教師付き損失に加えて,ラベル付きデータの助けを借りて,ラベルレベルと表現レベルの両方でコントローラ誘導整合正則化を行う。
初期教師付きモデルの欠点を最小限に抑えるため,制御器を用いて各予測の信頼度を推定し,その後の整合性正規化を導出する。
さらに, 信頼度閾値を動的に調整し, 整合正則化に参加する各クラスの標本数が大まかに等しいようにし, クラス不均衡の問題を緩和する。
実験により,本手法はより実用的な状況で十分な性能を得られ,既存のpll法にもモジュールを適用できることを示した。 Partial label learning (PLL) learns from training examples each associated with multiple candidate labels, among which only one is valid. In recent years, benefiting from the strong capability of dealing with ambiguous supervision and the impetus of modern data augmentation methods, consistency regularization-based PLL methods have achieved a series of successes and become mainstream. However, as the partial annotation becomes insufficient, their performances drop significantly. In this paper, we leverage easily accessible unlabeled examples to facilitate the partial label consistency regularization. In addition to a partial supervised loss, our method performs a controller-guided consistency regularization at both the label-level and representation-level with the help of unlabeled data. To minimize the disadvantages of insufficient capabilities of the initial supervised model, we use the controller to estimate the confidence of each current prediction to guide the subsequent consistency regularization. Furthermore, we dynamically adjust the confidence thresholds so that the number of samples of each class participating in consistency regularization remains roughly equal to alleviate the problem of class-imbalance. Experiments show that our method achieves satisfactory performances in more practical situations, and its modules can be applied to existing PLL methods to enhance their capabilities. | 翻訳日:2023-12-15 11:55:52 公開日:2023-12-14 |
# MammoFL:Federated Learningを用いたマンモグラフィ乳房密度推定 MammoFL: Mammographic Breast Density Estimation using Federated Learning ( http://arxiv.org/abs/2206.05575v5 ) ライセンス: Link先を確認 | Ramya Muthukrishnan, Angelina Heyler, Keshava Katti, Sarthak Pati, Walter Mankowski, Aprupa Alahari, Michael Sanborn, Emily F. Conant, Christopher Scott, Stacey Winham, Celine Vachon, Pratik Chaudhari, Despina Kontos, Spyridon Bakas | (参考訳) 本研究では,ニューラルネットワークを用いた定量的乳房密度推定を自動化し,多施設データセット上でのフェデレート学習の強力なユースケースであることを示す。
対象は,2施設のCC-viewとMLO-viewのマンモグラフィー画像であった。
2つのU-Netは、これらの画像から乳腺と高密度組織のセグメンテーションを行い、次いで乳腺密度(PD)を計算するために、アルゴリズムによって生成されたラベルで別々に訓練された。
ネットワークは、フェデレーション学習でトレーニングされ、3つの非フェデレーションベースラインと比較して、1つはシングルインスティテュートデータセットで、もう1つは集約されたマルチインスティテュートデータセットでトレーニングされた。
アルゴリズムの一般化には,多施設データセットのトレーニングが不可欠であることを示す。
さらに,多施設データセットにおけるフェデレーション学習は,多施設データセットの集中型トレーニングとほぼ同レベルの非知覚データに対するモデル一般化を改善し,この手法にフェデレーション学習を適用し,患者のプライバシを保ちながらアルゴリズムの一般化性を向上させることができることを示した。 In this study, we automate quantitative mammographic breast density estimation with neural networks and show that this tool is a strong use case for federated learning on multi-institutional datasets. Our dataset included bilateral CC-view and MLO-view mammographic images from two separate institutions. Two U-Nets were separately trained on algorithm-generated labels to perform segmentation of the breast and dense tissue from these images and subsequently calculate breast percent density (PD). The networks were trained with federated learning and compared to three non-federated baselines, one trained on each single-institution dataset and one trained on the aggregated multi-institution dataset. We demonstrate that training on multi-institution datasets is critical to algorithm generalizability. We further show that federated learning on multi-institutional datasets improves model generalization to unseen data at nearly the same level as centralized training on multi-institutional datasets, indicating that federated learning can be applied to our method to improve algorithm generalizability while maintaining patient privacy. | 翻訳日:2023-12-15 11:54:54 公開日:2023-12-14 |
# 測定による量子時計 Quantum clocks driven by measurement ( http://arxiv.org/abs/2109.05390v5 ) ライセンス: Link先を確認 | A. A. Gangat and G. J. Milburn | (参考訳) 古典物理学では、時計は熱平衡から駆動される開放散逸系であり、必然的に熱雑音を受ける。
エントロピー低減により駆動される量子クロックを計測により記述する。
この機構は、開放型共平面共振器に結合した超伝導トランスモン量子ビットからなる。
キャビティとキュービットはコヒーレントフィールドによって駆動され、キャビティ出力はホモダイン検出によって監視される。
測定自体が条件モーメントの変動周期とともにコヒーレント振動を誘導することを示す。
観測された測定電流からクロック信号を抽出し、分析してノイズ性能を決定する。
このモデルはゼロ温度での時計の基本原理を示しており、良い時計は高いエネルギー散逸率とエントロピー生成を必要とする。 In classical physics, clocks are open dissipative systems driven from thermal equilibrium and necessarily subject to thermal noise. We describe a quantum clock driven by entropy reduction through measurement. The mechanism consists of a superconducting transmon qubit coupled to an open co-planar resonator. The cavity and qubit are driven by coherent fields and the cavity output is monitored with homodyne detection. We show that the measurement itself induces coherent oscillations, with fluctuating period, in the conditional moments. The clock signal can be extracted from the observed measurement currents and analysed to determine the noise performance. The model demonstrates a fundamental principle of clocks at zero temperature: good clocks require high rates of energy dissipation and consequently entropy generation. | 翻訳日:2023-12-15 11:54:34 公開日:2023-12-14 |
# 医用画像におけるCLIP : 包括的調査 CLIP in Medical Imaging: A Comprehensive Survey ( http://arxiv.org/abs/2312.07353v2 ) ライセンス: Link先を確認 | Zihao Zhao, Yuxiao Liu, Han Wu, Yonghao Li, Sheng Wang, Lin Teng, Disheng Liu, Zhiming Cui, Qian Wang, Dinggang Shen | (参考訳) Contrastive Language-Image Pre-Training (CLIP) は、シンプルだが効果的な事前学習パラダイムであり、視覚モデルにテキスト管理を導入することに成功した。
様々なタスクにおいて有望な結果を示しており、その一般化性と解釈可能性に起因する。
CLIPの使用は最近、医療画像領域への関心が高まり、医療ビジョンと言語を調整するための事前訓練パラダイムとして機能し、多様な臨床タスクにおいて重要な要素となっている。
この将来性のある方向性をより深く理解することを目的として、この調査は、CLIP事前トレーニングとCLIP駆動アプリケーションの両方に関して、医療画像領域におけるCLIPパラダイムの詳細な調査を提供する。
本研究は,(1)クリップ方法論の基礎を簡潔に紹介することから始める。
2) 医療領域におけるCLIP事前訓練の適応について検討し, 医用画像の特徴と報告のCLIPの最適化方法について検討した。
3)さらに,クリップ事前学習モデルの分類,高密度予測,クロスモーダルタスクなど,様々なタスクにおける実用化について検討する。
(4) 医用画像領域におけるCLIPの限界について考察し, 医用画像領域の要求に対処するための前方視方向を提案する。
この包括的調査は、CLIPパラダイムの全体的理解と、その潜在的な影響を、医学画像分析の分野の研究者に提供することを期待する。
プロジェクトのページはhttps://github.com/zhaozh10/Awesome-CLIP-in-Medical-Imagingにある。 Contrastive Language-Image Pre-training (CLIP), a simple yet effective pre-training paradigm, successfully introduces text supervision to vision models. It has shown promising results across various tasks, attributable to its generalizability and interpretability. The use of CLIP has recently gained increasing interest in the medical imaging domain, serving both as a pre-training paradigm for aligning medical vision and language, and as a critical component in diverse clinical tasks. With the aim of facilitating a deeper understanding of this promising direction, this survey offers an in-depth exploration of the CLIP paradigm within the domain of medical imaging, regarding both refined CLIP pre-training and CLIP-driven applications. In this study, We (1) start with a brief introduction to the fundamentals of CLIP methodology. (2) Then, we investigate the adaptation of CLIP pre-training in the medical domain, focusing on how to optimize CLIP given characteristics of medical images and reports. (3) Furthermore, we explore the practical utilization of CLIP pre-trained models in various tasks, including classification, dense prediction, and cross-modal tasks. (4) Finally, we discuss existing limitations of CLIP in the context of medical imaging and propose forward-looking directions to address the demands of medical imaging domain. We expect that this comprehensive survey will provide researchers in the field of medical image analysis with a holistic understanding of the CLIP paradigm and its potential implications. The project page can be found on https://github.com/zhaozh10/Awesome-CLIP-in-Medical-Imaging. | 翻訳日:2023-12-15 11:37:33 公開日:2023-12-14 |
# マルチプロトコル協調型QKDネットワーク方式 A Practical Multi-Protocol Collaborative QKD Networking Scheme ( http://arxiv.org/abs/2312.07201v2 ) ライセンス: Link先を確認 | Jia-Meng Yao, Qiong Li, Hao-Kun Mao, Ahmed A. Abd El-Latif | (参考訳) 量子コンピューティングの進歩により、公開鍵暗号のセキュリティは深刻な脅威にさらされている。
量子時代のセキュリティを保証するため、量子鍵分布は競争的ソリューションとなっている。
qkdネットワークは測定デバイス依存ネットワークと測定デバイス非依存ネットワークに分類される。
計測デバイスに依存したネットワークでは、信頼できるリレーがすべて利用できる。
つまり、信頼できるリレーはすべて、厳格な制御を必要とする信頼性の高いリレーである。
この問題に対処するため、測定デバイス非依存ネットワークは信頼できないリレーを導入することで、信頼性の高いリレーノードの割合を減少させる。
しかし、短距離での計測デバイス依存プロトコルのキーレートが高いため、計測デバイス依存ネットワークの通信能力は測定デバイス依存ネットワークに比べて低下する。
したがって,QKDネットワークの信頼性の高い中継装置への依存度を大幅に低下させる方法が,QKDネットワークの実用化プロセスにおいて大きな問題となっている。
そこで本稿では,本稿で提案するマルチプロトコル協調ネットワークセルを提案する。
MPCネットワークセルによって構築されたQKDネットワークは、2つのプロトコルを組み合わせて信頼性の弱いリレーを導入し、高い通信容量を維持しながら、信頼性の高いリレーへの依存を低減する。
さらに,QKDネットワーク全体の性能向上を図るため,提案したフローベース数理モデルと最適化手法を用いて最適トポロジ設計手法を提案する。
シミュレーションの結果,提案手法は通信能力の大幅な低下を伴わず,信頼性の高い中継への依存を低減し,QKDネットワークの実用化に大きく貢献することを示す。 With the advancement of quantum computing, the security of public key cryptography is under serious threat. To guarantee security in the quantum era, Quantum Key Distribution has become a competitive solution. QKD networks can be classified into measurement-device-dependent network and measurement-device-independent network. In measurement-device-dependent networks, the information is available for all trusted relays. This means that all trusted relays are strongly trusted relays that require strict control, which is difficult to realize. To address this issue, measurement-device-independent networks reduce the proportion of strongly trusted relay nodes by introducing untrusted relays. However, due to the higher key rate of measurement-device-dependent protocols over short distances, the communication capability of measurement-device-independent networks has a degradation compared to measurement-device-dependent networks. Therefore, how to reduce the dependence of QKD networks on strong trusted relays without significantly affecting the communication capability has become a major issue in the practicalization process of QKD networks. To address this issue, a novel Multi-Protocol Collaborative networking cell is proposed in this paper. The QKD network built by the MPC networking cell reduces the dependence on strongly trusted relays by combining the two protocols to introduce weak trusted relays while maintaining the high communication capacity. What's more, to further enhance the overall performance of the QKD network, an optimal topology design method is presented via the proposed flow-based mathematical model and optimization method. The simulation results show that the proposed scheme reduces the dependence on strongly trusted relays without a significant reduction in communication capability, our work holds great significance in promoting the practicalization of QKD networks. | 翻訳日:2023-12-15 11:37:08 公開日:2023-12-14 |
# 効率的なオプティカルフロー推定のためのコンテキストアウェア・イテレーション・ポリシーネットワーク Context-Aware Iteration Policy Network for Efficient Optical Flow Estimation ( http://arxiv.org/abs/2312.07180v3 ) ライセンス: Link先を確認 | Ri Cheng, Ruian He, Xuhao Jiang, Shili Zhou, Weimin Tan, Bo Yan | (参考訳) 既存のリカレント光フロー推定ネットワークは、各サンプルのフローフィールドを更新するために固定された多数のイテレーションを使用するため、計算コストが高い。
効率的なネットワークは、フロー改善が制限されたときにイテレーションをスキップすべきである。
本稿では,サンプルあたりの最適イテレーション数を決定する効率的な光フロー推定のための文脈認識型イテレーションポリシーネットワークを開発した。
ポリシーネットワークは、コンテキスト情報を学習して、フロー改善がボトルネックになっているか、最小限であるかを認識する。
一方で、過去のイテレーション情報を含むイテレーション埋め込みと歴史的な隠れたセルを使用して、フローが以前のイテレーションからどのように変わったかを伝える。
一方で、ポリシーネットワークにインクリメンタルな損失を利用して、その後のイテレーションにおける光フロー改善の大きさを暗黙的に認識します。
さらに、我々の動的ネットワークにおける計算複雑性は制御可能であり、単一の訓練されたモデルで様々なリソースの選好を満たすことができる。
我々のポリシネットワークは、最先端の光フローネットワークに容易に統合できる。
Sintel/KITTIデータセットのFLOPを約40%/20%削減しながら,本手法が性能を維持することを示す。 Existing recurrent optical flow estimation networks are computationally expensive since they use a fixed large number of iterations to update the flow field for each sample. An efficient network should skip iterations when the flow improvement is limited. In this paper, we develop a Context-Aware Iteration Policy Network for efficient optical flow estimation, which determines the optimal number of iterations per sample. The policy network achieves this by learning contextual information to realize whether flow improvement is bottlenecked or minimal. On the one hand, we use iteration embedding and historical hidden cell, which include previous iterations information, to convey how flow has changed from previous iterations. On the other hand, we use the incremental loss to make the policy network implicitly perceive the magnitude of optical flow improvement in the subsequent iteration. Furthermore, the computational complexity in our dynamic network is controllable, allowing us to satisfy various resource preferences with a single trained model. Our policy network can be easily integrated into state-of-the-art optical flow networks. Extensive experiments show that our method maintains performance while reducing FLOPs by about 40%/20% for the Sintel/KITTI datasets. | 翻訳日:2023-12-15 11:36:42 公開日:2023-12-14 |
# MWSIS: 自律運転のための2Dボックスアノテーション付きマルチモーダル弱修正インスタンスセグメンテーション MWSIS: Multimodal Weakly Supervised Instance Segmentation with 2D Box Annotations for Autonomous Driving ( http://arxiv.org/abs/2312.06988v3 ) ライセンス: Link先を確認 | Guangfeng Jiang, Jun Liu, Yuzhi Wu, Wenlong Liao, Tao He, Pai Peng | (参考訳) インスタンス分割はコンピュータビジョン、特に自動運転における基本的な研究である。
しかし、インスタンスセグメンテーションのための手動マスクアノテーションはかなり時間がかかり、コストがかかる。
この問題に対処するために、いくつかの先行研究は2dまたは3dボックスを探索することで、弱い監督の方法を適用しようとする。
しかし、誰も2Dボックスアノテーションだけで2Dと3Dのインスタンスを同時に分割することに成功していないため、アノテーションのコストは桁違いに削減できる。
そこで,本稿では,mwsis(multimodal weakly supervised instance segmentation)と呼ばれる新しいフレームワークを提案する。このフレームワークは,疑似ラベルの品質を向上させるために,様々な細粒度ラベル生成および修正モジュールを2dおよび3dモダリティの両方に組み込んで,一貫性スパースクロスモーダル監督(consistency sparse cross-modal supervisor, cscs)という新しい手法とともに,応答蒸留によるマルチモーダル予測の不一致を低減する。
特に、3dバックボーンを下流タスクに移すと、3d検出器の性能が向上するだけでなく、5%の完全教師付きアノテーションで完全に教師付きインスタンスセグメンテーションを上回ってしまう。
Waymoデータセットでは、提案されたフレームワークがベースラインを大幅に改善し、特に2Dと3Dのインスタンスセグメンテーションタスクで2.59%のmAPと12.75%のmAPを達成した。
コードはhttps://github.com/jiangxb98/mwsis-pluginで入手できる。 Instance segmentation is a fundamental research in computer vision, especially in autonomous driving. However, manual mask annotation for instance segmentation is quite time-consuming and costly. To address this problem, some prior works attempt to apply weakly supervised manner by exploring 2D or 3D boxes. However, no one has ever successfully segmented 2D and 3D instances simultaneously by only using 2D box annotations, which could further reduce the annotation cost by an order of magnitude. Thus, we propose a novel framework called Multimodal Weakly Supervised Instance Segmentation (MWSIS), which incorporates various fine-grained label generation and correction modules for both 2D and 3D modalities to improve the quality of pseudo labels, along with a new multimodal cross-supervision approach, named Consistency Sparse Cross-modal Supervision (CSCS), to reduce the inconsistency of multimodal predictions by response distillation. Particularly, transferring the 3D backbone to downstream tasks not only improves the performance of the 3D detectors, but also outperforms fully supervised instance segmentation with only 5% fully supervised annotations. On the Waymo dataset, the proposed framework demonstrates significant improvements over the baseline, especially achieving 2.59% mAP and 12.75% mAP increases for 2D and 3D instance segmentation tasks, respectively. The code is available at https://github.com/jiangxb98/mwsis-plugin. | 翻訳日:2023-12-15 11:36:23 公開日:2023-12-14 |
# エンタングルの代替特性といくつかの応用 Alternative Characterization of Entanglers and Some Applications ( http://arxiv.org/abs/2312.06944v2 ) ライセンス: Link先を確認 | Isaac Dobes and Naihuan Jing | (参考訳) 本稿では,局所クビットゲートを随伴作用により特殊直交行列に変換するユニタリ行列であるエンタングルの代替的特徴付けについて述べる。
我々の代替キャラクタリゼーションは、様々な応用があることを示す「逆ドット積のアイデンティティ」と呼ばれる特性を起動する。
特に、逆ドット積の恒等式を用いて、基底行列が計算基底からベルジェム(ベル基底の提唱された一般化)への変化が絡み合っていることを証明し、また、逆ドット積の恒等式とn$-タングルとの密接な関係を明らかにし、これを用いて混合状態がスピン不変である場合の十分条件を与える。 In this paper we provide an alternative characterization of entanglers, which are unitary matries that transform local qubit gates into special orthogonal matrices via the adjoint action. Our alternative characterization invovles a property which we refer to as the "reverse dot product identity," which we show has various applications. In particular, we use the reverse dot product identity to prove that the change of basis matrix from the computational basis to the Bell gems (a proposed generaliztion of the Bell basis), are entanglers, and we also reveal a close connection between the reverse dot product identity to the $n$-tangle and use this to provide sufficient conditions for when a mixed state is spin-invariant. | 翻訳日:2023-12-15 11:35:17 公開日:2023-12-14 |
# 変換器はカルマンフィルタを表現できるか? Can a Transformer Represent a Kalman Filter? ( http://arxiv.org/abs/2312.06937v2 ) ライセンス: Link先を確認 | Gautam Goel, Peter Bartlett | (参考訳) Transformersは、さまざまなビジョン、言語、ロボット工学タスクで最先端のパフォーマンスを達成した、自己回帰的なディープラーニングアーキテクチャのクラスである。
線形力学系におけるカルマンフィルタの問題を再検討し、変換器がカルマンフィルタを強い意味で近似できることを示す。
具体的には、任意の観測可能なltiシステムに対して、カルマンフィルタを実装した明示的な因果的変換器を構築し、時間的に一様に境界付けられた小さな加算誤差まで構成する。
我々の建設は2段階の削減に基づいている。
まず,ソフトマックス自着ブロックがガウス核の平滑化推定器を正確に表現できることを示す。
次に、この推定器がカルマンフィルタに近似していることを示す。
また, トランスフィルタを計測・フィードバック制御に利用し, 得られた非線形コントローラがlqgコントローラなどの標準最適制御ポリシの性能に密接に近似していることを証明する。 Transformers are a class of autoregressive deep learning architectures which have recently achieved state-of-the-art performance in various vision, language, and robotics tasks. We revisit the problem of Kalman Filtering in linear dynamical systems and show that Transformers can approximate the Kalman Filter in a strong sense. Specifically, for any observable LTI system we construct an explicit causally-masked Transformer which implements the Kalman Filter, up to a small additive error which is bounded uniformly in time; we call our construction the Transformer Filter. Our construction is based on a two-step reduction. We first show that a softmax self-attention block can exactly represent a certain Gaussian kernel smoothing estimator. We then show that this estimator closely approximates the Kalman Filter. We also investigate how the Transformer Filter can be used for measurement-feedback control and prove that the resulting nonlinear controllers closely approximate the performance of standard optimal control policies such as the LQG controller. | 翻訳日:2023-12-15 11:35:01 公開日:2023-12-14 |
# ニューラルネットワークの学習段階の理解と活用 Understanding and Leveraging the Learning Phases of Neural Networks ( http://arxiv.org/abs/2312.06887v2 ) ライセンス: Link先を確認 | Johannes Schneider and Mohit Prabhushankar | (参考訳) 深層ニューラルネットワークの学習力学はよく理解されていない。
情報ボトルネック(IB)理論は、別々のフィッティングと圧縮フェーズを宣言した。
しかしその後、議論が激しくなった。
学習中のパラメータの進化に基づいて、入力および予測性能の層再構成能力を調査し、学習ダイナミクスを総合的に解析する。
ResNetやVGGといった共通データセットやアーキテクチャを使って,3つのフェーズの存在を実証的に示す。
(i) ほぼ一定の再建損失
(ii)減少、及び
(iii)増加。
また,経験的接地データモデルを導出し,単層ネットワークにおける位相の存在を証明する。
技術的には、我々のアプローチは古典的複雑性分析を利用する。
IBとの違いは、中間層や入力に関する情報を関連付ける情報理論ではなく、再構成損失を測定することである。
我々の研究は、トランスファーラーニングの新たなベストプラクティスを示唆している:我々は、分類器の事前学習が、その性能が最適になる前に、うまく止まることを実証的に示している。 The learning dynamics of deep neural networks are not well understood. The information bottleneck (IB) theory proclaimed separate fitting and compression phases. But they have since been heavily debated. We comprehensively analyze the learning dynamics by investigating a layer's reconstruction ability of the input and prediction performance based on the evolution of parameters during training. We empirically show the existence of three phases using common datasets and architectures such as ResNet and VGG: (i) near constant reconstruction loss, (ii) decrease, and (iii) increase. We also derive an empirically grounded data model and prove the existence of phases for single-layer networks. Technically, our approach leverages classical complexity analysis. It differs from IB by relying on measuring reconstruction loss rather than information theoretic measures to relate information of intermediate layers and inputs. Our work implies a new best practice for transfer learning: We show empirically that the pre-training of a classifier should stop well before its performance is optimal. | 翻訳日:2023-12-15 11:34:44 公開日:2023-12-14 |
# TULIP: LiDAR Point Cloudのアップサンプリング用トランスフォーマー TULIP: Transformer for Upsampling of LiDAR Point Cloud ( http://arxiv.org/abs/2312.06733v2 ) ライセンス: Link先を確認 | Bin Yang, Patrick Pfreundschuh, Roland Siegwart, Marco Hutter, Peyman Moghadam, Vaishakh Patil | (参考訳) LiDAR Upsamplingは、大規模なシーンコンテキストのスパースで不規則な構造のため、ロボットや自動運転車の認識システムにとって困難なタスクである。
近年,lidarデータを3次元ユークリッド空間から2次元画像空間における画像超解像問題に変換する手法が提案されている。
これらの手法は細かな詳細で高解像度のレンジ画像を生成することができるが、3Dポイントの雲は詳細を曖昧にし、無効な点を予測する。
本稿では,低分解能LiDAR入力から高分解能LiDAR点雲を再構成する新しい方法であるTULIPを提案する。
また、範囲画像に基づくアプローチも踏襲するが、範囲画像の特性に適合するように、スウィントランスフォーマベースのネットワークのパッチとウィンドウジオメトリを特に修正する。
3つの異なる実世界とシミュレーションデータセットについて,いくつかの実験を行った。
TULIPはすべての関連するメトリクスにおいて最先端の手法より優れており、以前の作業よりも堅牢で現実的な点雲を生成する。 LiDAR Upsampling is a challenging task for the perception systems of robots and autonomous vehicles, due to the sparse and irregular structure of large-scale scene contexts. Recent works propose to solve this problem by converting LiDAR data from 3D Euclidean space into an image super-resolution problem in 2D image space. Although their methods can generate high-resolution range images with fine-grained details, the resulting 3D point clouds often blur out details and predict invalid points. In this paper, we propose TULIP, a new method to reconstruct high-resolution LiDAR point clouds from low-resolution LiDAR input. We also follow a range image-based approach but specifically modify the patch and window geometries of a Swin-Transformer-based network to better fit the characteristics of range images. We conducted several experiments on three different public real-world and simulated datasets. TULIP outperforms state-of-the-art methods in all relevant metrics and generates robust and more realistic point clouds than prior works. | 翻訳日:2023-12-15 11:34:30 公開日:2023-12-14 |
# 非Linear関数を文脈で学習するトランスフォーマーによる機能的グラディエントDescentの実現 Transformers Implement Functional Gradient Descent to Learn Non-Linear Functions In Context ( http://arxiv.org/abs/2312.06528v2 ) ライセンス: Link先を確認 | Xiang Cheng, Yuxin Chen, Suvrit Sra | (参考訳) 多くのニューラルネットワークアーキテクチャがチューリング完全であることが示されており、任意のアルゴリズムを実装することができる。
しかし、トランスフォーマーは勾配に基づく学習アルゴリズム \emph{under simple parameter configurations} を実装できるという点でユニークである。
最近の一連の研究は、線形回帰学習タスクで訓練された場合、線形変圧器は自然に勾配降下(gd)を実装することを学ぶことを示している。
しかし、線形性仮定(トランスフォーマーアーキテクチャや学習タスクの場合)は、非線形アクティベーションがトランスフォーマーが複雑な非線形関数を学べるような現実的な設定とは程遠い。
本稿では,非線形トランスフォーマーが,文脈で非線形関数を学習するための学習アルゴリズムの実装を学習できることを理論的,実証的に証明する。
この結果は非線形アーキテクチャと非線形インコンテキスト学習タスクの幅広い組み合わせに適用できる。
興味深いことに、非線形活性化の最適選択は、学習課題の非線形性に依存している。 Many neural network architectures have been shown to be Turing Complete, and can thus implement arbitrary algorithms. However, Transformers are unique in that they can implement gradient-based learning algorithms \emph{under simple parameter configurations}. A line of recent work shows that linear Transformers naturally learn to implement gradient descent (GD) when trained on a linear regression in-context learning task. But the linearity assumption (either in the Transformer architecture or in the learning task) is far from realistic settings where non-linear activations crucially enable Transformers to learn complicated non-linear functions. In this paper, we provide theoretical and empirical evidence that non-linear Transformers can, and \emph{in fact do}, learn to implement learning algorithms to learn non-linear functions in context. Our results apply to a broad class of combinations of non-linear architectures, and non-linear in-context learning tasks. Interestingly, we show that the optimal choice of non-linear activation depends in a natural way on the non-linearity of the learning task. | 翻訳日:2023-12-15 11:32:55 公開日:2023-12-14 |
# 大規模言語モデルを用いた半構造化Web記事の高スループットバイオメディカルリレーション抽出 High-throughput Biomedical Relation Extraction for Semi-Structured Web Articles Empowered by Large Language Models ( http://arxiv.org/abs/2312.08274v2 ) ライセンス: Link先を確認 | Songchi Zhou, Sheng Yu | (参考訳) 目的:大規模言語モデル(llms)の読解能力と生物医学的世界知識をスケーラブルかつ実証的に活用した高スループットな生物医学的関係抽出システムを開発すること。
方法:ChatGPTのような大規模言語モデルの単純なバイナリ分類問題として関係抽出タスクを定式化する。
具体的には、llmは、外部コーパスとその世界知識に基づいて意思決定を行い、事実検証への判断の理由を与える。
本手法は, 主タイトルをテールエンティティとして指定し, コンテキストに明示的に組み込む半構造化 Web 記事に適合し, バイオメディカルシソーラスに基づいて潜在的ヘッドエンティティをマッチングする。
さらに、長い内容はテキストチャンクに分割して埋め込み、追加の埋め込みモデルで検索し、利用可能なオープンソースLCMのコンテキストウィンドウサイズ制約との互換性を確保する。
結果: オープンソースのLCMを用いて, 4つのバイオメディカルウェブサイトから, 3つの異なる関係型の304315の関連トリプレットを抽出した。
バイオメディカルな関係抽出に使用する基本パイプラインの有効性を評価するため,医用専門家がアノテートしたベンチマークデータセットをキュレートした。
評価の結果,パイプラインはGPT-4に匹敵する性能を示した。
半構造化ウェブ記事のバイオメディカルリレーション抽出の文脈において、現代LLMが直面する課題をさらに明らかにするケーススタディ。
結論: 提案手法は, LLMの強度を高出力バイオメディカルな関係抽出に有効であることを示す。
多様な半構造化生物医学ウェブサイトにシームレスに拡張でき、様々な生物医学関係の抽出を容易にするので、適応性は明らかである。 Objective: To develop a high-throughput biomedical relation extraction system that takes advantage of the large language models' (LLMs) reading comprehension ability and biomedical world knowledge in a scalable and evidential manner. Methods: We formulate the relation extraction task as a simple binary classification problem for large language models such as ChatGPT. Specifically, LLMs make the decision based on the external corpus and its world knowledge, giving the reason for the judgment to factual verification. This method is tailored for semi-structured web articles, wherein we designate the main title as the tail entity and explicitly incorporate it into the context, and the potential head entities are matched based on a biomedical thesaurus. Moreover, lengthy contents are sliced into text chunks, embedded, and retrieved with additional embedding models, ensuring compatibility with the context window size constraints of available open-source LLMs. Results: Using an open-source LLM, we extracted 304315 relation triplets of three distinct relation types from four reputable biomedical websites. To assess the efficacy of the basic pipeline employed for biomedical relation extraction, we curated a benchmark dataset annotated by a medical expert. Evaluation results indicate that the pipeline exhibits performance comparable to that of GPT-4. Case studies further illuminate challenges faced by contemporary LLMs in the context of biomedical relation extraction for semi-structured web articles. Conclusion: The proposed method has demonstrated its effectiveness in leveraging the strengths of LLMs for high-throughput biomedical relation extraction. Its adaptability is evident, as it can be seamlessly extended to diverse semi-structured biomedical websites, facilitating the extraction of various types of biomedical relations with ease. | 翻訳日:2023-12-15 11:23:31 公開日:2023-12-14 |
# 深層gnnにおける残差ソフトアンソトロピック正規化のカリキュラム化 Curriculum-Enhanced Residual Soft An-Isotropic Normalization for Over-smoothness in Deep GNNs ( http://arxiv.org/abs/2312.08221v2 ) ライセンス: Link先を確認 | Jin Li, Qirong Zhang, Shuling Xu, Xinlong Chen, Longkun Guo, Yang-Geng Fu | (参考訳) グラフニューラルネットワークは、様々なグラフ関連下流タスクにおける多くの古典的テクニックよりも顕著なパフォーマンス向上を達成しているが、その成功は過度な滑らかさや最適化の難しさなど、浅いモデルに制限されている。
本稿では,過密化問題を軽減するために,ノード埋め込みの多様性を保ち,過密化による差別を防止するソフトグラフ正規化法を提案する。
残差接続と組み合わせることで,ディープネットワークにおいても,入力グラフ構造とノード特徴の両方の知識を効果的に取得できる理由を解析する。
さらに,難解な例を学習するカリキュラム学習に触発されて,補助グラフ内のラベルを反復的に平滑化し,複雑化する知識を抽出し,ノードを徐々に粗いものから細かいものへと識別する多くの段階的非スムースタスクを構築する,深層gnnの最適化を強化するための新しいラベルスムーシング学習フレームワークを提案する。
この方法は、オーバーフィッティングのリスクを低減し、より良い結果を一般化する。
最後に,実世界12ノード分類ベンチマークにおける最先端手法を含む既存12のベースラインとの比較により,提案モデルと学習フレームワークの有効性と可能性を示すために,広範な実験を行った。 Despite Graph neural networks' significant performance gain over many classic techniques in various graph-related downstream tasks, their successes are restricted in shallow models due to over-smoothness and the difficulties of optimizations among many other issues. In this paper, to alleviate the over-smoothing issue, we propose a soft graph normalization method to preserve the diversities of node embeddings and prevent indiscrimination due to possible over-closeness. Combined with residual connections, we analyze the reason why the method can effectively capture the knowledge in both input graph structures and node features even with deep networks. Additionally, inspired by Curriculum Learning that learns easy examples before the hard ones, we propose a novel label-smoothing-based learning framework to enhance the optimization of deep GNNs, which iteratively smooths labels in an auxiliary graph and constructs many gradual non-smooth tasks for extracting increasingly complex knowledge and gradually discriminating nodes from coarse to fine. The method arguably reduces the risk of overfitting and generalizes better results. Finally, extensive experiments are carried out to demonstrate the effectiveness and potential of the proposed model and learning framework through comparison with twelve existing baselines including the state-of-the-art methods on twelve real-world node classification benchmarks. | 翻訳日:2023-12-15 11:23:02 公開日:2023-12-14 |
# 医用画像における細粒度画像-テキストアライメントによる周期的画像レポート生成 Fine-Grained Image-Text Alignment in Medical Imaging Enables Cyclic Image-Report Generation ( http://arxiv.org/abs/2312.08078v2 ) ライセンス: Link先を確認 | Wenting Chen, Xiang Li, Linlin Shen, Yixuan Yuan | (参考訳) 本稿では,胸部x線(cxr)画像領域を医療報告書中の単語に関連付ける適応パッチワードマッチング(adamatch)モデルを提案し,それをcxrレポート生成に適用し,生成過程の説明可能性を提供する。
AdaMatchは、適応パッチと単語のきめ細かい関係を利用して、対応する単語で特定の画像領域の説明を提供する。
異なるサイズと位置の異常領域をキャプチャするために、適応パッチ抽出(adapatch)モジュールを導入し、これらの領域に対する適応パッチを適応的に取得する。
本稿では,CXR-Report生成タスクの明示的な説明性を提供するために,CXR-Report生成のためのAdaMatchベースの双方向大言語モデルを提案する。
adamatchを使用して、cxrイメージのキーワードを取得し、医療レポートの‘keypatches’を、cxrレポート生成のヒントとして使用する。
利用可能な2つのCXRデータセットに対する大規模な実験により,提案手法の有効性と既存手法よりも優れた性能が証明された。 To address these issues, we propose a novel Adaptive patch-word Matching (AdaMatch) model to correlate chest X-ray (CXR) image regions with words in medical reports and apply it to CXR-report generation to provide explainability for the generation process. AdaMatch exploits the fine-grained relation between adaptive patches and words to provide explanations of specific image regions with corresponding words. To capture the abnormal regions of varying sizes and positions, we introduce the Adaptive Patch extraction (AdaPatch) module to acquire the adaptive patches for these regions adaptively. In order to provide explicit explainability for CXR-report generation task, we propose an AdaMatch-based bidirectional large language model for Cyclic CXR-report generation (AdaMatch-Cyclic). It employs the AdaMatch to obtain the keywords for CXR images and `keypatches' for medical reports as hints to guide CXR-report generation. Extensive experiments on two publicly available CXR datasets prove the effectiveness of our method and its superior performance to existing methods. | 翻訳日:2023-12-15 11:22:37 公開日:2023-12-14 |
# rydberg原子を用いたハバード物理:量子スピンシミュレータを用いて強フェルミオン相関をシミュレートする Hubbard physics with Rydberg atoms: using a quantum spin simulator to simulate strong fermionic correlations ( http://arxiv.org/abs/2312.08065v2 ) ライセンス: Link先を確認 | Antoine Michel, Lo\"ic Henriet, Christophe Domain, Antoine Browaeys, and Thomas Ayral | (参考訳) 本研究では, 強相関フェルミオン模型とスピン系量子プロセッサの平衡物理学とダイナミクスを研究するためのハイブリッド量子古典法を提案する。
本提案は, 自相関自由フェルミオンとスピンハミルトニアンの和に元のハミルトニアンを近似できるスレーブスピン法を用いて, フェルミオン-スピン写像の通常の落とし穴を回避する。
相互作用するスピンモデルを解くためのrydbergベースのアナログ量子プロセッサの例を挙げると、変動アルゴリズムやロータライズ手法の課題を避ける。
本手法の実験的不完全性に対するロバスト性について, 平衡内外方格子上の半充填単軌道ハバードモデルに適用して検討する。
我々は,現行のRydbergプロセッサの現実的な数値シミュレーションを通じて,不完全性が存在する場合でも定量的に実現可能な結果が得られることを示した。
この方法では、古典的なプロセッサで探索することが難しい物理状態(平衡外、ドープ、多軌道)の研究の道を開くことができる。 We propose a hybrid quantum-classical method to investigate the equilibrium physics and the dynamics of strongly correlated fermionic models with spin-based quantum processors. Our proposal avoids the usual pitfalls of fermion-to-spin mappings thanks to a slave-spin method which allows to approximate the original Hamiltonian into a sum of self-correlated free-fermions and spin Hamiltonians. Taking as an example a Rydberg-based analog quantum processor to solve the interacting spin model, we avoid the challenges of variational algorithms or Trotterization methods. We explore the robustness of the method to experimental imperfections by applying it to the half-filled, single-orbital Hubbard model on the square lattice in and out of equilibrium. We show, through realistic numerical simulations of current Rydberg processors, that the method yields quantitatively viable results even in the presence of imperfections: it allows to gain insights into equilibrium Mott physics as well as the dynamics under interaction quenches. This method thus paves the way to the investigation of physical regimes -- whether out-of-equilibrium, doped, or multiorbital -- that are difficult to explore with classical processors. | 翻訳日:2023-12-15 11:22:15 公開日:2023-12-14 |
# 安定拡散モデルの組成インバージョン Compositional Inversion for Stable Diffusion Models ( http://arxiv.org/abs/2312.08048v2 ) ライセンス: Link先を確認 | Xu-Lu Zhang, Xiao-Yong Wei, Jin-Lin Wu, Tian-Yi Zhang, Zhaoxiang Zhang, Zhen Lei, Qing Li | (参考訳) テキストインバージョンのようなインバージョンメソッドは、ユーザイメージが提供する関心の概念を取り入れてパーソナライズされたイメージを生成する。
しかし、既存の方法はしばしば過度に適合する問題に悩まされ、倒立概念の存在が他の望ましい概念の欠如につながっている。
インバージョンの間、ユーザイメージの無関係なセマンティクスもエンコードされ、インバージョンされた概念は埋め込み空間のコア分布から遠く離れた場所を占有せざるを得ないという事実に起因している。
この問題に対処するために,コンポジション埋め込みのためのコア分布への反転過程を導出する手法を提案する。
さらに,集合する概念に対する注意のバランスをとるための空間正規化手法を提案する。
本手法はトレーニング後のアプローチとして設計され,他のインバージョン手法とシームレスに統合することができる。
実験の結果,提案手法は,過剰フィッティング問題を緩和し,合成画像における概念のより多様でバランスの取れた構成を生成する際に有効であることが示された。
ソースコードはhttps://github.com/zhangxulu1996/compositional-inversionで入手できる。 Inversion methods, such as Textual Inversion, generate personalized images by incorporating concepts of interest provided by user images. However, existing methods often suffer from overfitting issues, where the dominant presence of inverted concepts leads to the absence of other desired concepts. It stems from the fact that during inversion, the irrelevant semantics in the user images are also encoded, forcing the inverted concepts to occupy locations far from the core distribution in the embedding space. To address this issue, we propose a method that guides the inversion process towards the core distribution for compositional embeddings. Additionally, we introduce a spatial regularization approach to balance the attention on the concepts being composed. Our method is designed as a post-training approach and can be seamlessly integrated with other inversion methods. Experimental results demonstrate the effectiveness of our proposed approach in mitigating the overfitting problem and generating more diverse and balanced compositions of concepts in the synthesized images. The source code is available at https://github.com/zhangxulu1996/Compositional-Inversion. | 翻訳日:2023-12-15 11:21:52 公開日:2023-12-14 |
# 擬似ラベル再生とBEVMixを用いた半教師付きクラス非依存動作予測 Semi-Supervised Class-Agnostic Motion Prediction with Pseudo Label Regeneration and BEVMix ( http://arxiv.org/abs/2312.08009v2 ) ライセンス: Link先を確認 | Kewei Wang, Yizheng Wu, Zhiyu Pan, Xingyi Li, Ke Xian, Zhe Wang, Zhiguo Cao, Guosheng Lin | (参考訳) クラス非依存な動作予測手法は、オープンワールドシナリオにおける動きの理解を目標とし、自律運転システムにおける重要性を保っている。
しかし、完全に監督された方法でハイパフォーマンスモデルをトレーニングするには、常にかなりの量の手作業による注釈データが必要である。
この課題に対処するため,本研究では,クラス非依存動作予測のための半教師付き学習(ssl)の可能性を検討する。
SSLフレームワークは一貫性に基づく自己学習パラダイムを採用しており、テスト時間推論を通じて擬似ラベルを生成することにより、ラベルのないデータからモデルを学習することができる。
擬似ラベルの品質を向上させるため,新たなモーション選択・再生成モジュールを提案する。
このモジュールは信頼できる擬似ラベルを効果的に選択し、信頼性の低いラベルを再生成する。
さらに,時間的サンプリングとbevmixの2つのデータ拡張戦略を提案する。
これらの戦略はSSLにおける一貫性の規則化を促進する。
nuScenesで行った実験では,少数のラベル付きデータを活用することで,SSL手法が自己管理アプローチをはるかに超えることを示した。
さらに,本手法は弱く,完全に監視された手法に匹敵する性能を示す。
これらの結果から,アノテーションのコストと性能のバランスが良好であることを示す。
コードはhttps://github.com/kwwcv/ssmpで入手できる。 Class-agnostic motion prediction methods aim to comprehend motion within open-world scenarios, holding significance for autonomous driving systems. However, training a high-performance model in a fully-supervised manner always requires substantial amounts of manually annotated data, which can be both expensive and time-consuming to obtain. To address this challenge, our study explores the potential of semi-supervised learning (SSL) for class-agnostic motion prediction. Our SSL framework adopts a consistency-based self-training paradigm, enabling the model to learn from unlabeled data by generating pseudo labels through test-time inference. To improve the quality of pseudo labels, we propose a novel motion selection and re-generation module. This module effectively selects reliable pseudo labels and re-generates unreliable ones. Furthermore, we propose two data augmentation strategies: temporal sampling and BEVMix. These strategies facilitate consistency regularization in SSL. Experiments conducted on nuScenes demonstrate that our SSL method can surpass the self-supervised approach by a large margin by utilizing only a tiny fraction of labeled data. Furthermore, our method exhibits comparable performance to weakly and some fully supervised methods. These results highlight the ability of our method to strike a favorable balance between annotation costs and performance. Code will be available at https://github.com/kwwcv/SSMP. | 翻訳日:2023-12-15 11:21:35 公開日:2023-12-14 |
# SwitchHead: 専門知識の混成によるトランスフォーマーの高速化 SwitchHead: Accelerating Transformers with Mixture-of-Experts Attention ( http://arxiv.org/abs/2312.07987v2 ) ライセンス: Link先を確認 | R\'obert Csord\'as, Piotr Pi\k{e}kos, Kazuki Irie, J\"urgen Schmidhuber | (参考訳) 現代のトランスフォーマーの高コストな自己アテンション層は、メモリとシーケンス長の2次計算を必要とする。
既存の近似法は通常、性能が低く、実際はかなりのスピードアップを得られない。
本稿では,ベースライントランスフォーマの言語モデル性能を同じパラメータの予算と一致させながら,計算量とメモリの要求量の両方を削減し,ウォールクロックの高速化を実現する新しい方法であるswitchheadを提案する。
SwitchHeadは値と出力のプロジェクションにMixture-of-Experts (MoE) レイヤを使用し、標準のTransformerの4~8倍の注意行列を必要とする。
我々の新しい注目は、MoE MLP層と組み合わせることができるので、効率の良い完全MoE "SwitchAll"変換モデルが得られる。
私たちのコードは公開されています。 The costly self-attention layers in modern Transformers require memory and compute quadratic in sequence length. Existing approximation methods usually underperform and fail to obtain significant speedups in practice. Here we present SwitchHead - a novel method that reduces both compute and memory requirements and achieves wall-clock speedup, while matching the language modeling performance of baseline Transformers with the same parameter budget. SwitchHead uses Mixture-of-Experts (MoE) layers for the value and output projections and requires 4 to 8 times fewer attention matrices than standard Transformers. Our novel attention can also be combined with MoE MLP layers, resulting in an efficient fully-MoE "SwitchAll" Transformer model. Our code is public. | 翻訳日:2023-12-15 11:21:15 公開日:2023-12-14 |
# 極豪雨におけるオブジェクト検出用YOLOシリーズの課題:CALRAシミュレータによる総合評価データセット Challenges of YOLO Series for Object Detection in Extremely Heavy Rain: CALRA Simulator based Synthetic Evaluation Dataset ( http://arxiv.org/abs/2312.07976v2 ) ライセンス: Link先を確認 | T. Kim, H. Jeon, Y. Lim | (参考訳) 近年,4段階と5段階の自動運転車の研究が盛んに行われており,自動運転車の3つの主要な側面である認識・意思決定・制御技術の進歩への関心が高まっている。
自動運転車の信頼性の高い操作を実現する知覚技術については、さまざまなセンサ(lidar、レーダー、カメラなど)による物体検出を優先する必要がある。
これらのセンサーは、多様な気象条件下で物体を正確に素早く検出する必要があるが、雨や雪、霧といった悪天候条件下で物体を一貫して検出することは困難である。
そこで本研究では, 降水条件から得られた雨滴データに基づいて, CARLAシミュレータを用いて種々の降水条件における多様なネットワークモデルをテストする新しいデータセットを構築した。
その結果, 1段検出装置であるYOLOシリーズを用いて, 降雨条件の異なる降雨条件下での物体検出性能の低下を定量的に検証した。 Recently, as many studies of autonomous vehicles have been achieved for levels 4 and 5, there has been also increasing interest in the advancement of perception, decision, and control technologies, which are the three major aspects of autonomous vehicles. As for the perception technologies achieving reliable maneuvering of autonomous vehicles, object detection by using diverse sensors (e.g., LiDAR, radar, and camera) should be prioritized. These sensors require to detect objects accurately and quickly in diverse weather conditions, but they tend to have challenges to consistently detect objects in bad weather conditions with rain, snow, or fog. Thus, in this study, based on the experimentally obtained raindrop data from precipitation conditions, we constructed a novel dataset that could test diverse network model in various precipitation conditions through the CARLA simulator. Consequently, based on our novel dataset, YOLO series, a one-stage-detector, was used to quantitatively verify how much object detection performance could be decreased under various precipitation conditions from normal to extreme heavy rain situations. | 翻訳日:2023-12-15 11:20:59 公開日:2023-12-14 |
# ロボットナビゲーションの強化:単目的および多目的強化学習戦略の評価 Enhancing Robotic Navigation: An Evaluation of Single and Multi-Objective Reinforcement Learning Strategies ( http://arxiv.org/abs/2312.07953v2 ) ライセンス: Link先を確認 | Vicki Young, Jumman Hossain, Nirmalya Roy | (参考訳) 本研究では,ロボットが障害を効果的に回避しつつ,目標に向かって効果的に移動できるように訓練するための単目的・多目的強化学習法の比較分析を行った。
従来の強化学習技術であるDeep Q-Network(DQN)、Deep Deterministic Policy Gradient(DDPG)、Twin Delayed DDPG(TD3)は、ランダムゴールやロボット開始位置などのパラメータを持つ様々な環境下でGazeboシミュレーションフレームワークを用いて評価されている。
これらの方法はロボットに数値的な報酬を与え、目標に関連する行動品質の指標を提供する。
しかし、それらの制限は、複数の、潜在的に矛盾する目標が存在する複雑な設定で明らかになる。
そこで本研究では,多目的強化学習(morl)を用いた手法を提案する。
報酬関数を変更して報酬のベクターを返却し、それぞれ異なる目的に関連付けることで、ロボットは、パレート最適解を達成するために、それぞれの目標を効果的にバランスさせるポリシーを学ぶ。
この比較研究は、複雑な動的ロボットナビゲーションタスクにおけるMORLの可能性を強調し、より適応性があり堅牢なロボットの動作に関する将来の研究の舞台となる。 This study presents a comparative analysis between single-objective and multi-objective reinforcement learning methods for training a robot to navigate effectively to an end goal while efficiently avoiding obstacles. Traditional reinforcement learning techniques, namely Deep Q-Network (DQN), Deep Deterministic Policy Gradient (DDPG), and Twin Delayed DDPG (TD3), have been evaluated using the Gazebo simulation framework in a variety of environments with parameters such as random goal and robot starting locations. These methods provide a numerical reward to the robot, offering an indication of action quality in relation to the goal. However, their limitations become apparent in complex settings where multiple, potentially conflicting, objectives are present. To address these limitations, we propose an approach employing Multi-Objective Reinforcement Learning (MORL). By modifying the reward function to return a vector of rewards, each pertaining to a distinct objective, the robot learns a policy that effectively balances the different goals, aiming to achieve a Pareto optimal solution. This comparative study highlights the potential for MORL in complex, dynamic robotic navigation tasks, setting the stage for future investigations into more adaptable and robust robotic behaviors. | 翻訳日:2023-12-15 11:20:26 公開日:2023-12-14 |
# MLNet:Universal Domain Adaptationのための近隣不変性を持つ相互学習ネットワーク MLNet: Mutual Learning Network with Neighborhood Invariance for Universal Domain Adaptation ( http://arxiv.org/abs/2312.07871v2 ) ライセンス: Link先を確認 | Yanzuo Lu, Meng Shen, Andy J Ma, Xiaohua Xie, Jian-Huang Lai | (参考訳) ユニバーサルドメイン適応(UniDA)は、ソースとターゲットドメインの関係に関する情報を知識伝達のために与えない、実用的だが困難な問題である。
既存のUniDAメソッドは、ターゲットドメイン内のドメイン内変異を見落としている問題と、同様の既知のクラスと未知のクラスを分離することが困難である。
これらの課題に対処するために,UniDA の近傍不変性を考慮した新しい相互学習ネットワーク (MLNet) を提案する。
本手法では,自己適応的近傍選択を用いた信頼誘導型不変特徴学習により,より一般化可能な特徴表現のための領域内変動を低減する。
未知クラス識別を改善するためにクロスドメインミックスアップスキームを用いることにより、提案手法は、クローズドセットとオープンセットの分類器間の相互学習により、誤識別された既知のクラスエラーを補償する。
一般に公開されている3つのベンチマークの大規模な実験により、我々の手法は、ほとんどの場合において最先端の手法と比較して最高の結果が得られることが示され、UniDAの4つの設定のベースラインをはるかに上回る結果となった。
コードはhttps://github.com/YanzuoLu/MLNetで入手できる。 Universal domain adaptation (UniDA) is a practical but challenging problem, in which information about the relation between the source and the target domains is not given for knowledge transfer. Existing UniDA methods may suffer from the problems of overlooking intra-domain variations in the target domain and difficulty in separating between the similar known and unknown class. To address these issues, we propose a novel Mutual Learning Network (MLNet) with neighborhood invariance for UniDA. In our method, confidence-guided invariant feature learning with self-adaptive neighbor selection is designed to reduce the intra-domain variations for more generalizable feature representation. By using the cross-domain mixup scheme for better unknown-class identification, the proposed method compensates for the misidentified known-class errors by mutual learning between the closed-set and open-set classifiers. Extensive experiments on three publicly available benchmarks demonstrate that our method achieves the best results compared to the state-of-the-arts in most cases and significantly outperforms the baseline across all the four settings in UniDA. Code is available at https://github.com/YanzuoLu/MLNet. | 翻訳日:2023-12-15 11:20:00 公開日:2023-12-14 |
# 可視赤外人物再同定のための高次構造に基づく中機能学習 High-Order Structure Based Middle-Feature Learning for Visible-Infrared Person Re-Identification ( http://arxiv.org/abs/2312.07853v2 ) ライセンス: Link先を確認 | Liuxiang Qiu, Si Chen, Yan Yan, Jing-Hao Xue, Da-Han Wang, Shunzhi Zhu | (参考訳) Visible-Infrared person re-identification (VI-ReID) は、可視光(VIS)と赤外線(IR)カメラで捉えた人物の画像を取得することを目的としている。
既存のVI-ReID法は、VIS画像とIR画像の間に大きな相違があるため、合理的な共通特徴空間の学習が比較的困難でありながら、特徴の高次構造情報を無視する。
上記の問題に対処するために,新しい高次構造に基づく中高次学習ネットワーク(HOS-Net)を提案する。
具体的には,まず,短距離特徴抽出(sle)モジュールを用いて,短距離特徴と長距離特徴の両方を有効に活用した。
そこで,提案するhsl(high-order structure learning)モジュールは,白字ハイパーグラフネットワークに基づいて各人物画像の異なる局所的特徴間の高次関係をうまくモデル化し,モデルの崩壊を軽減し,特徴表現を向上させる。
最後に,異なるモダリティと範囲から特徴を整列させて生成した中間特徴に基づいて,識別的かつ合理的な共通特徴空間を学習するための共通特徴空間学習(CFL)モジュールを開発する。
特に, vis, ir, および中間特徴間の距離を減少させ, 訓練過程を円滑化するために, モダリティレンジid-center contrastive (mric) 損失が提案されている。
SYSU-MM01, RegDB, LLCMデータセットの大規模な実験は、我々のHOS-Netが最先端のパフォーマンスを達成することを示す。
私たちのコードは \url{https://github.com/Jaulaucoeng/HOS-Net} で利用可能です。 Visible-infrared person re-identification (VI-ReID) aims to retrieve images of the same persons captured by visible (VIS) and infrared (IR) cameras. Existing VI-ReID methods ignore high-order structure information of features while being relatively difficult to learn a reasonable common feature space due to the large modality discrepancy between VIS and IR images. To address the above problems, we propose a novel high-order structure based middle-feature learning network (HOS-Net) for effective VI-ReID. Specifically, we first leverage a short- and long-range feature extraction (SLE) module to effectively exploit both short-range and long-range features. Then, we propose a high-order structure learning (HSL) module to successfully model the high-order relationship across different local features of each person image based on a whitened hypergraph network.This greatly alleviates model collapse and enhances feature representations. Finally, we develop a common feature space learning (CFL) module to learn a discriminative and reasonable common feature space based on middle features generated by aligning features from different modalities and ranges. In particular, a modality-range identity-center contrastive (MRIC) loss is proposed to reduce the distances between the VIS, IR, and middle features, smoothing the training process. Extensive experiments on the SYSU-MM01, RegDB, and LLCM datasets show that our HOS-Net achieves superior state-of-the-art performance. Our code is available at \url{https://github.com/Jaulaucoeng/HOS-Net}. | 翻訳日:2023-12-15 11:19:39 公開日:2023-12-14 |
# 逆過程における雑音は拡散モデルの近似能力を改善する Noise in the reverse process improves the approximation capabilities of diffusion models ( http://arxiv.org/abs/2312.07851v2 ) ライセンス: Link先を確認 | Karthik Elamvazhuthi and Samet Oymak and Fabio Pasqualetti | (参考訳) Score based Generative Modeling (SGMs) では、確率的逆過程は決定論的過程よりも優れていることが知られている。
本稿では,ニューラル常微分方程式 (ODE) とニューラル確率微分方程式 (SDE) を逆過程として比較し,この現象の核を掘り下げる。
逆過程の近似を軌道追跡問題として定式化することにより,制御論的視点を用いる。
我々は,Fokker-Planck方程式の軌跡を近似するニューラルSDEの能力を解析し,確率性の利点を明らかにする。
第一に、ニューラルSDEは強力な正規化効果を示し、参照ベクトル場やスコア関数がリプシッツでない場合でも、類似条件下でのニューラルODEによって達成されるワッサーシュタイン計量近似を超えるノルム軌道近似を可能にする。
この結果を用いて,sgmsにおけるスコアマッチングを用いてサンプルできる分布のクラスを確立し,既存の文献におけるデータ分布の勾配に対するリプシッツ要件を緩和する。
第2に、ネットワーク幅がネットワークの入力次元に制限された場合、この近似特性が保存されることを示す。
この限定幅の場合、重みは制御入力として作用し、確率密度空間における神経sdesの制御可能性問題として解析を相補する。
これにより、ノイズがシステムの望ましい解への制御にどのように役立つかが明らかになり、生成的モデリングにおける確率性の実証的な成功を照らします。 In Score based Generative Modeling (SGMs), the state-of-the-art in generative modeling, stochastic reverse processes are known to perform better than their deterministic counterparts. This paper delves into the heart of this phenomenon, comparing neural ordinary differential equations (ODEs) and neural stochastic differential equations (SDEs) as reverse processes. We use a control theoretic perspective by posing the approximation of the reverse process as a trajectory tracking problem. We analyze the ability of neural SDEs to approximate trajectories of the Fokker-Planck equation, revealing the advantages of stochasticity. First, neural SDEs exhibit a powerful regularizing effect, enabling $L^2$ norm trajectory approximation surpassing the Wasserstein metric approximation achieved by neural ODEs under similar conditions, even when the reference vector field or score function is not Lipschitz. Applying this result, we establish the class of distributions that can be sampled using score matching in SGMs, relaxing the Lipschitz requirement on the gradient of the data distribution in existing literature. Second, we show that this approximation property is preserved when network width is limited to the input dimension of the network. In this limited width case, the weights act as control inputs, framing our analysis as a controllability problem for neural SDEs in probability density space. This sheds light on how noise helps to steer the system towards the desired solution and illuminates the empirical success of stochasticity in generative modeling. | 翻訳日:2023-12-15 11:19:10 公開日:2023-12-14 |
# 超低温原子における誤差補正状態 Error Correcting States in Ultracold Atoms ( http://arxiv.org/abs/2312.07746v2 ) ライセンス: Link先を確認 | Harry C. P. Kendell and Giacomo Ferranti and Carrie A. Weidner | (参考訳) 深部光学格子の個々の部位に閉じ込められた単一超低温原子を用いたGKP(Gottesman-Kitaev-Preskill)誤り訂正量子ビットの符号化法を示す。
量子最適制御プロトコルを用いて、10dBのスクイーズによるGKP量子ビット状態の生成を実証する。
状態は個々の格子サイトの振動レベルに符号化され、格子ポテンシャルの位相変調によって生成される。
最後に、これらの状態を実現するための実現可能な実験プロトコルを提供する。
我々のプロトコルは、連続可変量子情報に対して、原子GKP状態の大規模な配列を生成する可能性を開く。 We demonstrate a method for encoding Gottesman-Kitaev-Preskill (GKP) error-correcting qubits with single ultracold atoms trapped in individual sites of a deep optical lattice. Using quantum optimal control protocols, we demonstrate the generation of GKP qubit states with 10 dB squeezing, which is the current minimum allowable squeezing level for use in surface code error correction. States are encoded in the vibrational levels of the individual lattice sites and generated via phase modulation of the lattice potential. Finally, we provide a feasible experimental protocol for the realization of these states. Our protocol opens up possibilities for generating large arrays of atomic GKP states for continuous-variable quantum information. | 翻訳日:2023-12-15 11:18:39 公開日:2023-12-14 |
# 数学的言語モデル:サーベイ Mathematical Language Models: A Survey ( http://arxiv.org/abs/2312.07622v2 ) ライセンス: Link先を確認 | Wentao Liu, Hanglei Hu, Jie Zhou, Yuyang Ding, Junsong Li, Jiayi Zeng, Mengliang He, Qin Chen, Bo Jiang, Aimin Zhou and Liang He | (参考訳) 近年,Language Models (LM) の活用が目覚ましい進歩を遂げており,数学分野においてPLM (Pre-trained Language Models) とLLM (Large-scale Language Models) を包含している。
本稿では,2つの異なる視点 – タスクと方法論 – から重要な研究成果を体系的に分類する,数学的 LM の総合的な調査を行う。
ランドスケープでは、多くの数学的LLMが提案されており、さらに命令学習、ツールベースの手法、基本的なCoT技術、高度なCoT方法論に展開されている。
さらに,トレーニングデータセット,ベンチマークデータセット,拡張データセットなど,60以上の数学的データセットのコンパイルも行った。
この調査は、数学のlms分野における主要な課題と将来の軌跡を整理し、この領域の発展に投資した研究者の間で将来のイノベーションを促進・促進するための貴重な資源として位置づけられている。 In recent years, there has been remarkable progress in leveraging Language Models (LMs), encompassing Pre-trained Language Models (PLMs) and Large-scale Language Models (LLMs), within the domain of mathematics. This paper conducts a comprehensive survey of mathematical LMs, systematically categorizing pivotal research endeavors from two distinct perspectives: tasks and methodologies. The landscape reveals a large number of proposed mathematical LLMs, which are further delineated into instruction learning, tool-based methods, fundamental CoT techniques, and advanced CoT methodologies. In addition, our survey entails the compilation of over 60 mathematical datasets, including training datasets, benchmark datasets, and augmented datasets. Addressing the primary challenges and delineating future trajectories within the field of mathematical LMs, this survey is positioned as a valuable resource, poised to facilitate and inspire future innovation among researchers invested in advancing this domain. | 翻訳日:2023-12-15 11:18:27 公開日:2023-12-14 |
# VILA:ビジュアル言語モデルの事前トレーニングについて VILA: On Pre-training for Visual Language Models ( http://arxiv.org/abs/2312.07533v2 ) ライセンス: Link先を確認 | Ji Lin, Hongxu Yin, Wei Ping, Yao Lu, Pavlo Molchanov, Andrew Tao, Huizi Mao, Jan Kautz, Mohammad Shoeybi, Song Han | (参考訳) ビジュアル言語モデル(vlms)は、最近大きな言語モデルの成功とともに急速に進歩した。
視覚的インプットでLLMを拡張するための視覚的インストラクションチューニングへの取り組みが増えているが、両モードで共同モデリングを行うことを学ぶ視覚言語事前学習プロセスの詳細な研究は欠如している。
本研究では, ステップバイステップ制御可能な比較により, LLM を VLM へ拡張することで, VLM の事前学習のための設計オプションを検討する。
1) 事前学習中のLLMの凍結は,ゼロショット性能が向上するが,LLMの凍結を必要とする非コンテキスト学習能力が欠如していること,(2) インターリーブされた事前学習データが有用であるのに対して,画像とテキストのペアだけでは最適ではないこと,(3) 微調整時に画像テキストデータにテキストのみの命令データを再解釈することで,テキストのみのタスクの劣化を軽減できるだけでなく,VLMタスクの精度も向上する,という3つの主な結果を紹介した。
強化された事前トレーニングレシピでは、Visual LanguageモデルファミリであるVILAを構築し、ベルやホイッスルを使わずに主要なベンチマークで最先端のモデル、例えばLLaVA-1.5を一貫して上回ります。
マルチモーダル事前学習は、マルチイメージ推論、強化されたコンテキスト内学習、より良い世界知識を含む、VILAの魅力的な特性を明らかにするのに役立つ。 Visual language models (VLMs) rapidly progressed with the recent success of large language models. There have been growing efforts on visual instruction tuning to extend the LLM with visual inputs, but lacks an in-depth study of the visual language pre-training process, where the model learns to perform joint modeling on both modalities. In this work, we examine the design options for VLM pre-training by augmenting LLM towards VLM through step-by-step controllable comparisons. We introduce three main findings: (1) freezing LLMs during pre-training can achieve decent zero-shot performance, but lack in-context learning capability, which requires unfreezing the LLM; (2) interleaved pre-training data is beneficial whereas image-text pairs alone are not optimal; (3) re-blending text-only instruction data to image-text data during instruction fine-tuning not only remedies the degradation of text-only tasks, but also boosts VLM task accuracy. With an enhanced pre-training recipe we build VILA, a Visual Language model family that consistently outperforms the state-of-the-art models, e.g., LLaVA-1.5, across main benchmarks without bells and whistles. Multi-modal pre-training also helps unveil appealing properties of VILA, including multi-image reasoning, enhanced in-context learning, and better world knowledge. | 翻訳日:2023-12-15 11:18:08 公開日:2023-12-14 |