このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20241014となっている論文です。

PDF登録状況(公開日: 20241014)

TitleAuthorsAbstract論文公表日・翻訳日
# 多項ロジスティック関数近似を用いた無限水平強化学習

Infinite-Horizon Reinforcement Learning with Multinomial Logistic Function Approximation ( http://arxiv.org/abs/2406.13633v2 )

ライセンス: Link先を確認
Jaehyun Park, Junyeop Kwon, Dabeen Lee, (参考訳) マルコフ決定過程(MDP)の遷移関数がMNLモデルによって与えられる非線形関数近似を用いたモデルベース強化学習について検討した。 本研究では,無限水平平均逆法と割引逆法の両方に有効である確率効率のよい値反復型アルゴリズムを開発した。 平均逆通信 MDP に対して、このアルゴリズムは、$d$ は特徴写像の次元、$D$ は基礎となる MDP の直径、$T$ は地平線であるような後悔の上限 $\tilde{\mathcal{O}}(dD\sqrt{T})$ を保証する。 割引逆 MDP に対して、我々のアルゴリズムは$\tilde{\mathcal{O}}(d(1-\gamma)^{-2}\sqrt{T})$ regret ここで$\gamma$は割引係数である。 すると、これらの上界を補うために、いくつかの後悔の少ない下界を与える。 我々は、直径$D$の通信MDPを学習するための$\Omega(d\sqrt{DT})$と、割引係数$\gamma$の割引MDPを学習するための$\Omega(d(1-\gamma)^{3/2}\sqrt{T})$を証明した。 最後に,MNL関数近似を用いた$H$-horizon episodic MDPsを学習するための$\Omega(dH^{3/2}\sqrt{K})$の残差下限を示す。

We study model-based reinforcement learning with non-linear function approximation where the transition function of the underlying Markov decision process (MDP) is given by a multinomial logistic (MNL) model. We develop a provably efficient discounted value iteration-based algorithm that works for both infinite-horizon average-reward and discounted-reward settings. For average-reward communicating MDPs, the algorithm guarantees a regret upper bound of $\tilde{\mathcal{O}}(dD\sqrt{T})$ where $d$ is the dimension of feature mapping, $D$ is the diameter of the underlying MDP, and $T$ is the horizon. For discounted-reward MDPs, our algorithm achieves $\tilde{\mathcal{O}}(d(1-\gamma)^{-2}\sqrt{T})$ regret where $\gamma$ is the discount factor. Then we complement these upper bounds by providing several regret lower bounds. We prove a lower bound of $\Omega(d\sqrt{DT})$ for learning communicating MDPs of diameter $D$ and a lower bound of $\Omega(d(1-\gamma)^{3/2}\sqrt{T})$ for learning discounted-reward MDPs with discount factor $\gamma$. Lastly, we show a regret lower bound of $\Omega(dH^{3/2}\sqrt{K})$ for learning $H$-horizon episodic MDPs with MNL function approximation where $K$ is the number of episodes, which improves upon the best-known lower bound for the finite-horizon setting.
翻訳日:2024-11-09 01:22:29 公開日:2024-10-14
# セキュア・高速伝送のための自動符号化画像圧縮

Autoencoded Image Compression for Secure and Fast Transmission ( http://arxiv.org/abs/2407.03990v2 )

ライセンス: Link先を確認
Aryan Kashyap Naveen, Sunil Thunga, Anuhya Murki, Mahati A Kalale, Shriya Anil, (参考訳) デジタル画像データの利用が指数関数的に増大するにつれ、効率的な伝送方法の必要性が高まっている。 従来の画像圧縮技術は、ファイルサイズを減らすために画像の忠実さを犠牲にし、品質と効率の維持に挑戦する。 また、セキュリティを侵害し、中間者攻撃のような脅威に弱いイメージを残している。 本稿では,画像圧縮のためのオートエンコーダアーキテクチャを提案する。 また, 復元損失と残留損失を組み合わせた複合損失関数を導入し, 性能改善を行った。 オートエンコーダアーキテクチャは、送信または記憶中の圧縮データを保護しながら、最適な寸法の低減と再生精度を達成するように設計されている。 オートエンコーダによって再生される画像は, 画像転送時の復元品質, 圧縮率, 片方向遅延の3つの重要な指標に対して評価される。 実験の結果, 提案アーキテクチャは再生画像に対して97.5%のSSIMを実現し, 平均遅延率87.5%のSSIMを実現し, 圧縮画像転送の安全かつ効率的なソリューションとしての有効性を示した。

With exponential growth in the use of digital image data, the need for efficient transmission methods has become imperative. Traditional image compression techniques often sacrifice image fidelity for reduced file sizes, challenging maintaining quality and efficiency. They also compromise security, leaving images vulnerable to threats such as man-in-the-middle attacks. This paper proposes an autoencoder architecture for image compression to not only help in dimensionality reduction but also inherently encrypt the images. The paper also introduces a composite loss function that combines reconstruction loss and residual loss for improved performance. The autoencoder architecture is designed to achieve optimal dimensionality reduction and regeneration accuracy while safeguarding the compressed data during transmission or storage. Images regenerated by the autoencoder are evaluated against three key metrics: reconstruction quality, compression ratio, and one-way delay during image transfer. The experiments reveal that the proposed architecture achieves an SSIM of 97.5% over the regenerated images and an average latency reduction of 87.5%, indicating its effectiveness as a secure and efficient solution for compressed image transfer.
翻訳日:2024-11-08 23:57:53 公開日:2024-10-14
# リンドブラッド方程式のランダム化法と熱状態生成

A Randomized Method for Simulating Lindblad Equations and Thermal State Preparation ( http://arxiv.org/abs/2407.06594v2 )

ライセンス: Link先を確認
Hongrui Chen, Bowen Li, Jianfeng Lu, Lexing Ying, (参考訳) 我々は、ジェネレータをリンドブラディアンのアンサンブルに分解してリンドブラディアン力学をシミュレートするqDRIFT型ランダム化法、$\mathcal{L} = \sum_{a \in \mathcal{A}} \mathcal{L}_a$について検討する。 ハミルトンの進化に効率的な量子シミュレーションが利用できると仮定すると、確率分布$\mu$ over the ensemble $\{\mathcal{L}_a\}_{a \in \mathcal{A}}$に従って、ランダムにサンプリングされた$\mathcal{L}_a$を各時間ステップで実装する。 この戦略はリンドブラッド力学をシミュレートする量子コストを減らし、特に大きなあるいは無限のジャンプ演算子を持つ量子多体系においてである。 私たちの貢献は2倍です。 まず,提案手法の詳細な収束解析を行い,平均的および典型的なアルゴリズム的実現を網羅する。 この分析により、無作為な積公式の既知の結果が閉系から開系へと拡張され、厳密な性能保証が保証される。 第二に、ランダムな積近似に基づいて、クリフォードランダム回路からサンプリングされたジャンプ演算子を利用する新しい量子ギブスサンプリングアルゴリズムを導出する。 この発電機 i) をランダム化アルゴリズムを用いて効率的に実装し, (ii) ハミルトニアンのスペクトルに依存するスペクトルギャップ下界を示す。 本結果は,量子ギブスサンプリングアルゴリズムを用いて熱状態を効率的に生成できるハミルトン系の新しい例を示す。

We study a qDRIFT-type randomized method to simulate Lindblad dynamics by decomposing its generator into an ensemble of Lindbladians, $\mathcal{L} = \sum_{a \in \mathcal{A}} \mathcal{L}_a$, where each $\mathcal{L}_a$ involves only a single jump operator. Assuming an efficient quantum simulation is available for the Hamiltonian evolution $e^{t\mathcal{L}_a}$, we implement a randomly sampled $\mathcal{L}_a$ at each time step according to a probability distribution $\mu$ over the ensemble $\{\mathcal{L}_a\}_{a \in \mathcal{A}}$. This strategy reduces the quantum cost of simulating Lindblad dynamics, especially in quantum many-body systems with a large or even infinite number of jump operators. Our contributions are two-fold. First, we provide a detailed convergence analysis of the proposed randomized method, covering both average and typical algorithmic realizations. This analysis extends the known results for the random product formula from closed systems to open systems, ensuring rigorous performance guarantees. Second, based on the random product approximation, we derive a new quantum Gibbs sampler algorithm that utilizes jump operators sampled from a Clifford-random circuit. This generator (i) can be efficiently implemented using our randomized algorithm, and (ii) exhibits a spectral gap lower bound that depends on the spectrum of the Hamiltonian. Our results present a new instance of a class of Hamiltonians for which the thermal state can be efficiently prepared using a quantum Gibbs sampling algorithm.
翻訳日:2024-11-08 23:02:19 公開日:2024-10-14
# インコンテキスト学習におけるパターンマッチングの基本メカニズムとしての誘導頭部

Induction Heads as an Essential Mechanism for Pattern Matching in In-context Learning ( http://arxiv.org/abs/2407.07011v2 )

ライセンス: Link先を確認
Joy Crosbie, Ekaterina Shutova, (参考訳) 大規模言語モデル (LLM) は、文脈内学習 (ICL) を通じて複雑なタスクを学習し、実行することが可能である。 しかし、その内部機構に関する包括的な理解はいまだに欠如している。 本稿では,数発のICL設定における誘導頭部の役割について検討する。 Llama-3-8B と InternLM2-20B の2つの最先端モデルを抽象パターン認識と NLP タスクで解析する。 以上の結果から,インダクションヘッドのアブレーションが最小限であっても,抽象パターン認識タスクのICL性能は最大32%低下し,乱数に近い結果が得られた。 NLPタスクの場合、このアブレーションはモデルがサンプルから恩恵を受ける能力を大幅に低下させ、ゼロショットプロンプトに近い数ショットのICLパフォーマンスをもたらす。 さらに注意ノックアウトを用いて、特定の誘導パターンを無効にし、ICLにおいて誘導機構が果たす役割の詳細な証拠を提示する。

Large language models (LLMs) have shown a remarkable ability to learn and perform complex tasks through in-context learning (ICL). However, a comprehensive understanding of its internal mechanisms is still lacking. This paper explores the role of induction heads in a few-shot ICL setting. We analyse two state-of-the-art models, Llama-3-8B and InternLM2-20B on abstract pattern recognition and NLP tasks. Our results show that even a minimal ablation of induction heads leads to ICL performance decreases of up to ~32% for abstract pattern recognition tasks, bringing the performance close to random. For NLP tasks, this ablation substantially decreases the model's ability to benefit from examples, bringing few-shot ICL performance close to that of zero-shot prompts. We further use attention knockout to disable specific induction patterns, and present fine-grained evidence for the role that the induction mechanism plays in ICL.
翻訳日:2024-11-08 22:51:20 公開日:2024-10-14
# LLMにおける変圧器ブロック結合と一般化との関係

Transformer Block Coupling and its Correlation with Generalization in LLMs ( http://arxiv.org/abs/2407.07810v2 )

ライセンス: Link先を確認
Murdock Aubry, Haoming Meng, Anton Sugolov, Vardan Papyan, (参考訳) 大規模言語モデル(LLM)は自然言語処理において大きな進歩を遂げており、その成功を導く内部メカニズムの正確な理解が不可欠である。 本研究では,各トークンが変圧器ブロックを通過するときに,個々のトークンの軌跡を辿り,ジャコビアン行列を通じてこれらの軌跡に沿って系を線形化する。 これらのヤコビアン間の関係を調べることで、トークンと深さをまたいだ最高特異ベクトルのカップリングを特徴とする、様々な LLM において $\textbf{transformer block coupling}$ 現象が発見された。 以上の結果から,$\textit{ positively correlates}$とモデル性能の関係が明らかとなり,パラメータ予算,モデル深さ,埋め込み次元など,他のハイパーパラメータよりも強いことが示唆された。 さらに,これらの特性の出現について,結合の発達,およびトークン軌道の線形性および層ワイド指数的成長の増大について考察する。 これらの集合的な洞察は、トークンの埋め込み間の相互作用に関する新しい視点を与え、LLMのトレーニングと一般化を研究するためのさらなるアプローチを促す。

Large Language Models (LLMs) have made significant strides in natural language processing, and a precise understanding of the internal mechanisms driving their success is essential. In this work, we trace the trajectories of individual tokens as they pass through transformer blocks, and linearize the system along these trajectories through their Jacobian matrices. By examining the relationships between these Jacobians, we uncover a $\textbf{transformer block coupling}$ phenomenon in a variety of LLMs, characterized by the coupling of their top singular vectors across tokens and depth. Our findings reveal that coupling $\textit{positively correlates}$ with model performance, and that this relationship is stronger than with other hyperparameters, namely parameter budget, model depth, and embedding dimension. We further investigate the emergence of these properties through training, noting the development of coupling, as well as an increase in linearity and layer-wise exponential growth in the token trajectories. These collective insights provide a novel perspective on the interactions between token embeddings, and prompt further approaches to study training and generalization in LLMs.
翻訳日:2024-11-08 22:40:08 公開日:2024-10-14
# 収束パラダイム: LLMを利用した自律エージェントにおけるシンボリックAIとコネクショナリズムAIの相乗効果

Converging Paradigms: The Synergy of Symbolic and Connectionist AI in LLM-Empowered Autonomous Agents ( http://arxiv.org/abs/2407.08516v5 )

ライセンス: Link先を確認
Haoyi Xiong, Zhiyuan Wang, Xuhong Li, Jiang Bian, Zeke Xie, Shahid Mumtaz, Anwer Al-Dulaimi, Laura E. Barnes, (参考訳) 本稿では,コネクショナリズムと象徴的人工知能(AI)の融合について,歴史的議論から現代的進歩まで検討する。 従来は異なるパラダイムと考えられてきたが、コネクショナリストAIはニューラルネットワークに焦点を当てており、シンボリックAIはシンボリック表現と論理を強調している。 大型言語モデル(LLM)の最近の進歩は、ChatGPTとGPT-4によって実証されたものであり、人間の言語をシンボルとして扱う際のコネクショナリストアーキテクチャの可能性を強調している。 この研究は、LLMを利用した自律エージェント(LAA)がこのパラダイムの収束を具現化していると主張している。 LLMをテキストベースの知識モデリングと表現に活用することにより、LAAはニューロシンボリックAIの原則を統合し、推論と意思決定能力の向上を示す。 ニューロシンボリックAIのテーマの中で、LAAと知識グラフを比較することは、人間のような推論プロセスの模倣、大規模なデータセットの効果的スケーリング、明示的な再トレーニングなしにコンテキスト内サンプルを活用することにおける、LAAのユニークな強みを強調している。 この研究は、LAA機能をさらに強化することを目的とした、ニューロ・ベクター・シンボリック統合、命令エンコーディング、暗黙の推論における有望な進路を裏付けている。 ニューロシンボリックAIの進歩を探求し、将来の研究軌道を提案することにより、この研究はAI技術の理解と開発を前進させる。

This article explores the convergence of connectionist and symbolic artificial intelligence (AI), from historical debates to contemporary advancements. Traditionally considered distinct paradigms, connectionist AI focuses on neural networks, while symbolic AI emphasizes symbolic representation and logic. Recent advancements in large language models (LLMs), exemplified by ChatGPT and GPT-4, highlight the potential of connectionist architectures in handling human language as a form of symbols. The study argues that LLM-empowered Autonomous Agents (LAAs) embody this paradigm convergence. By utilizing LLMs for text-based knowledge modeling and representation, LAAs integrate neuro-symbolic AI principles, showcasing enhanced reasoning and decision-making capabilities. Comparing LAAs with Knowledge Graphs within the neuro-symbolic AI theme highlights the unique strengths of LAAs in mimicking human-like reasoning processes, scaling effectively with large datasets, and leveraging in-context samples without explicit re-training. The research underscores promising avenues in neuro-vector-symbolic integration, instructional encoding, and implicit reasoning, aimed at further enhancing LAA capabilities. By exploring the progression of neuro-symbolic AI and proposing future research trajectories, this work advances the understanding and development of AI technologies.
翻訳日:2024-11-08 22:17:54 公開日:2024-10-14
# CompAct: 質問応答のために検索した文書をアクティブに圧縮する

CompAct: Compressing Retrieved Documents Actively for Question Answering ( http://arxiv.org/abs/2407.09014v3 )

ライセンス: Link先を確認
Chanwoong Yoon, Taewhoo Lee, Hyeon Hwang, Minbyul Jeong, Jaewoo Kang, (参考訳) Retrieval-augmented Generationは、言語モデルをサポートし、外部コンテキストを提供することで、実際の基盤を強化する。 しかし、言語モデルは、広範囲な情報を与えるとしばしば課題に直面し、問題の解決においての有効性を低下させる。 コンテキスト圧縮は、無関係な情報をフィルタリングすることでこの問題に対処するが、現在の手法は、単一ステップのアプローチで重要な情報をキャプチャできない現実的なシナリオで依然として苦労している。 この制限を克服するために、キー情報を失うことなく広範囲の文書を凝縮するアクティブな戦略を取り入れた新しいフレームワークCompActを紹介する。 実験により,マルチホップ質問応答ベンチマークにおいて,CompActは性能と圧縮率に大きな改善をもたらすことが示された。 CompActは、様々なオフザシェルフレトリバーやリーダーを備えたコスト効率のよいプラグインモジュールとして柔軟に動作し、非常に高い圧縮率(47倍)を達成する。

Retrieval-augmented generation supports language models to strengthen their factual groundings by providing external contexts. However, language models often face challenges when given extensive information, diminishing their effectiveness in solving questions. Context compression tackles this issue by filtering out irrelevant information, but current methods still struggle in realistic scenarios where crucial information cannot be captured with a single-step approach. To overcome this limitation, we introduce CompAct, a novel framework that employs an active strategy to condense extensive documents without losing key information. Our experiments demonstrate that CompAct brings significant improvements in both performance and compression rate on multi-hop question-answering benchmarks. CompAct flexibly operates as a cost-efficient plug-in module with various off-the-shelf retrievers or readers, achieving exceptionally high compression rates (47x).
翻訳日:2024-11-08 22:17:54 公開日:2024-10-14
# 拡散型後方サンプリングによるゼロショット画像圧縮

Zero-Shot Image Compression with Diffusion-Based Posterior Sampling ( http://arxiv.org/abs/2407.09896v2 )

ライセンス: Link先を確認
Noam Elata, Tomer Michaeli, Michael Elad, (参考訳) 拡散モデルは画像生成の分野を支配しているが、画像圧縮の分野ではまだ大きなブレークスルーを起こさない。 実際、事前訓練された拡散モデルは、様々な下流タスクにうまく適応しているが、拡散に基づく画像圧縮における既存の作業はタスク固有のモデルトレーニングを必要としており、これは煩雑で制限的である。 本研究は、既存の事前学習拡散モデルで学習された画像を利用して、損失画像圧縮の課題を解決することで、このギャップに対処する。 これにより、さまざまなパブリックモデルの使用が可能になり、トレーニングや微調整の必要がなくなる。 PSC (Posterior Sampling-based Compression) は, ゼロショット拡散を用いた後部サンプルを用いた。 能動的取得技術である「Adasense」にインスパイアされた新たなシーケンシャルなプロセスにより、画像の情報的計測を蓄積する。 この戦略は、再構成された画像の不確実性を最小化し、エンコーダとデコーダの両方で調整された画像適応変換の構築を可能にする。 PSCは、実用的で簡単に実装できるプログレッシブ圧縮スキームを提供する。 最小限のチューニングと単純な量子化とエントロピー符号化にもかかわらず、PSCは確立された手法と比較して競合的な結果を達成し、事前訓練された拡散モデルと画像圧縮のための後部サンプルのさらなる探索の道を開く。

Diffusion models dominate the field of image generation, however they have yet to make major breakthroughs in the field of image compression. Indeed, while pre-trained diffusion models have been successfully adapted to a wide variety of downstream tasks, existing work in diffusion-based image compression require task specific model training, which can be both cumbersome and limiting. This work addresses this gap by harnessing the image prior learned by existing pre-trained diffusion models for solving the task of lossy image compression. This enables the use of the wide variety of publicly-available models, and avoids the need for training or fine-tuning. Our method, PSC (Posterior Sampling-based Compression), utilizes zero-shot diffusion-based posterior samplers. It does so through a novel sequential process inspired by the active acquisition technique "Adasense" to accumulate informative measurements of the image. This strategy minimizes uncertainty in the reconstructed image and allows for construction of an image-adaptive transform coordinated between both the encoder and decoder. PSC offers a progressive compression scheme that is both practical and simple to implement. Despite minimal tuning, and a simple quantization and entropy coding, PSC achieves competitive results compared to established methods, paving the way for further exploration of pre-trained diffusion models and posterior samplers for image compression.
翻訳日:2024-11-08 21:43:45 公開日:2024-10-14
# データポジショニングとバックドアアタックに対する(グラフ)ニューラルネットワークのロバスト性

Provable Robustness of (Graph) Neural Networks Against Data Poisoning and Backdoor Attacks ( http://arxiv.org/abs/2407.10867v2 )

ライセンス: Link先を確認
Lukas Gosch, Mahalakshmi Sabanayagam, Debarghya Ghoshdastidar, Stephan Günnemann, (参考訳) 機械学習モデルの一般化は、トレーニングデータに敵対的変化を適用する場合、データ中毒によって著しく損なわれる可能性がある。 この脆弱性は、そのような変化がテスト予測に影響を与えないことの証明(すなわち、証明)に興味を向けている。 バックドアを含む有害な攻撃に対して、グラフニューラルネットワーク(GNN)を初めて認証し、特定のグラフのノード機能をターゲットにしています。 私たちの証明書はホワイトボックスで$をベースとしています (i)十分に広いネットワークのトレーニングダイナミクスを特徴付けるニューラルタンジェントカーネル$ (II)混合整数線形プログラムとして有毒を記述した二段階最適化問題の新たな再検討。 その結果,コンボリューションベースのGNNとPageRankベースのGNNの最悪のロバスト性行動におけるグラフ構造の役割とその接続性に関する基本的な知見を提供するために,我々のフレームワークを活用している。 我々のフレームワークはより一般的であり、グラフ関連のタスク以外にも独立した関心を持つことができるNNのホワイトボックス中毒証明書を導出する最初のアプローチとなっていることに留意する。

Generalization of machine learning models can be severely compromised by data poisoning, where adversarial changes are applied to the training data. This vulnerability has led to interest in certifying (i.e., proving) that such changes up to a certain magnitude do not affect test predictions. We, for the first time, certify Graph Neural Networks (GNNs) against poisoning attacks, including backdoors, targeting the node features of a given graph. Our certificates are white-box and based upon $(i)$ the neural tangent kernel, which characterizes the training dynamics of sufficiently wide networks; and $(ii)$ a novel reformulation of the bilevel optimization problem describing poisoning as a mixed-integer linear program. Consequently, we leverage our framework to provide fundamental insights into the role of graph structure and its connectivity on the worst-case robustness behavior of convolution-based and PageRank-based GNNs. We note that our framework is more general and constitutes the first approach to derive white-box poisoning certificates for NNs, which can be of independent interest beyond graph-related tasks.
翻訳日:2024-11-08 21:32:38 公開日:2024-10-14
# 文化理解のための視覚言語モデルのベンチマーク

Benchmarking Vision Language Models for Cultural Understanding ( http://arxiv.org/abs/2407.10920v3 )

ライセンス: Link先を確認
Shravan Nayak, Kanishk Jain, Rabiul Awal, Siva Reddy, Sjoerd van Steenkiste, Lisa Anne Hendricks, Karolina Stańczak, Aishwarya Agrawal, (参考訳) 基礎モデルと視覚言語事前訓練は、視覚および言語データのマルチモーダル処理を可能にする高度なビジョン言語モデル(VLM)を備えている。 しかし、そのパフォーマンスは一般的に、文化的な理解よりも、一般的な場面理解(物体、属性、行動を認識すること)に基づいて評価されてきた。 本稿では,VLMの地理的多様性の文化的理解を評価するための視覚的質問応答ベンチマークであるCulturalVQAを紹介する。 我々は,5大陸11カ国の文化を表わす質問毎の回答が1~5である2,378枚の画像検索ペアのコレクションをキュレートした。 質問は、衣服、食べ物、飲み物、儀式、伝統など、様々な文化の側面の理解を調査する。 GPT-4V や Gemini など文化VQA に関する VLM のベンチマークでは,北米の文化理解能力は高いが,アフリカにおける文化理解能力は著しく低下している。 私たちは、衣服、儀式、伝統によって、食事や飲み物よりも高いパフォーマンスを示す文化的な面でも、彼らのパフォーマンスの格差を観察します。 これらの格差は、VLMが文化的理解を欠いている地域を識別し、VLMの多様性を理解するための総合的な評価セットとしてカルチャーVQAの可能性を示すのに役立つ。

Foundation models and vision-language pre-training have notably advanced Vision Language Models (VLMs), enabling multimodal processing of visual and linguistic data. However, their performance has been typically assessed on general scene understanding - recognizing objects, attributes, and actions - rather than cultural comprehension. This study introduces CulturalVQA, a visual question-answering benchmark aimed at assessing VLM's geo-diverse cultural understanding. We curate a collection of 2,378 image-question pairs with 1-5 answers per question representing cultures from 11 countries across 5 continents. The questions probe understanding of various facets of culture such as clothing, food, drinks, rituals, and traditions. Benchmarking VLMs on CulturalVQA, including GPT-4V and Gemini, reveals disparity in their level of cultural understanding across regions, with strong cultural understanding capabilities for North America while significantly lower performance for Africa. We observe disparity in their performance across cultural facets too, with clothing, rituals, and traditions seeing higher performances than food and drink. These disparities help us identify areas where VLMs lack cultural understanding and demonstrate the potential of CulturalVQA as a comprehensive evaluation set for gauging VLM progress in understanding diverse cultures.
翻訳日:2024-11-08 21:32:38 公開日:2024-10-14
# 大規模言語モデルによる慣性閉じ込め融合予測

Inertial Confinement Fusion Forecasting via Large Language Models ( http://arxiv.org/abs/2407.11098v3 )

ライセンス: Link先を確認
Mingkai Chen, Taowen Wang, Shihui Cao, James Chenhao Liang, Chuan Liu, Chunshu Wu, Qifan Wang, Ying Nian Wu, Michael Huang, Chuang Ren, Ang Li, Tong Geng, Dongfang Liu, (参考訳) 制御された核融合エネルギーは、人類の文明の発展の鍵であると考えられている。 本稿では,従来の貯水池の計算パラダイムとLarge Language Models(LLM)の新たな統合である$\textbf{LPI-LLM}$,レーザープラズマ不安定性(\texttt{LPI}$),慣性閉じ込め核融合(\texttt{ICF}$)を紹介する。 まず、$\textit{LLM-anchored Reservoir}$, augmented with a $\textit{Fusion-specific Prompt}$, possible accurate forecasting of $\texttt{LPI}$- generated-hot electron dynamics during implosion。 次に、時空間的にドライバーレーザー強度を時空間的に記述するために、$\textit{Signal-Digesting Channels}$を開発し、$\textt{ICF}$入力のユニークな特性をキャプチャする。 最後に、予測の信頼性レベルを定量化するために$\textit{Confidence Scanner}$を設計します。 CAE 1.90, 0.14 $\textt{top-1}$ MAE, 0.11 $\textt{top-5}$ MAE in predicting Hard X-ray ($\texttt{HXR}$) energies in $\texttt{ICF}$ implosions。 さらに、物理実験に基づく最初の$\texttt{LPI}$ベンチマークである$\textbf{LPI4AI}$を提示し、科学探査におけるLLMの研究と活用の促進を目的とした。 全体として、我々の研究は、融合エネルギーの進歩のためにAIと$\texttt{ICF}$の間の革新的なシナジーを築こうとしている。

Controlled fusion energy is deemed pivotal for the advancement of human civilization. In this study, we introduce $\textbf{LPI-LLM}$, a novel integration of Large Language Models (LLMs) with classical reservoir computing paradigms tailored to address a critical challenge, Laser-Plasma Instabilities ($\texttt{LPI}$), in Inertial Confinement Fusion ($\texttt{ICF}$). Our approach offers several key contributions: Firstly, we propose the $\textit{LLM-anchored Reservoir}$, augmented with a $\textit{Fusion-specific Prompt}$, enabling accurate forecasting of $\texttt{LPI}$-generated-hot electron dynamics during implosion. Secondly, we develop $\textit{Signal-Digesting Channels}$ to temporally and spatially describe the driver laser intensity across time, capturing the unique characteristics of $\texttt{ICF}$ inputs. Lastly, we design the $\textit{Confidence Scanner}$ to quantify the confidence level in forecasting, providing valuable insights for domain experts to design the $\texttt{ICF}$ process. Extensive experiments demonstrate the superior performance of our method, achieving 1.90 CAE, 0.14 $\texttt{top-1}$ MAE, and 0.11 $\texttt{top-5}$ MAE in predicting Hard X-ray ($\texttt{HXR}$) energies emitted by the hot electrons in $\texttt{ICF}$ implosions, which presents state-of-the-art comparisons against concurrent best systems. Additionally, we present $\textbf{LPI4AI}$, the first $\texttt{LPI}$ benchmark based on physical experiments, aimed at fostering novel ideas in $\texttt{LPI}$ research and enhancing the utility of LLMs in scientific exploration. Overall, our work strives to forge an innovative synergy between AI and $\texttt{ICF}$ for advancing fusion energy.
翻訳日:2024-11-08 21:21:36 公開日:2024-10-14
# ParCon:マルチモジュール並列接続によるノイズ・ロバスト協調知覚

ParCon: Noise-Robust Collaborative Perception via Multi-module Parallel Connection ( http://arxiv.org/abs/2407.11546v2 )

ライセンス: Link先を確認
Hyunchul Bae, Minhee Kang, Heejin Ahn, (参考訳) 本稿では、他の車両や道路インフラとの通信による自動運転車の認識性能の向上について検討する。 そこで本研究では,複数のモジュールを並列に接続するParConという新しい協調認識アーキテクチャを提案する。 広範な実験を通して、ParConが並列接続の利点を継承していることを示す。 ParConは、並列アーキテクチャにより、各モジュールが独立してノイズを管理し、他のモジュールの制限を補完できるため、ノイズに対して堅牢である。 その結果、ParConは最先端の精度、特に現実世界のデータセットのようなノイズの多い環境で達成され、検出精度は6.91%向上した。 さらに、ParConは計算効率が高く、浮動小数点演算(FLOP)を11.46%削減する。

In this paper, we investigate improving the perception performance of autonomous vehicles through communication with other vehicles and road infrastructures. To this end, we introduce a novel collaborative perception architecture, called ParCon, which connects multiple modules in parallel, as opposed to the sequential connections used in most other collaborative perception methods. Through extensive experiments, we demonstrate that ParCon inherits the advantages of parallel connection. Specifically, ParCon is robust to noise, as the parallel architecture allows each module to manage noise independently and complement the limitations of other modules. As a result, ParCon achieves state-of-the-art accuracy, particularly in noisy environments, such as real-world datasets, increasing detection accuracy by 6.91%. Additionally, ParCon is computationally efficient, reducing floating-point operations (FLOPs) by 11.46%.
翻訳日:2024-11-08 21:10:26 公開日:2024-10-14
# JointDreamer:ジョイントスコア蒸留によるテキスト間3次元生成における幾何整合性とテキスト整合性の確保

JointDreamer: Ensuring Geometry Consistency and Text Congruence in Text-to-3D Generation via Joint Score Distillation ( http://arxiv.org/abs/2407.12291v2 )

ライセンス: Link先を確認
Chenhan Jiang, Yihan Zeng, Tianyang Hu, Songcun Xu, Wei Zhang, Hang Xu, Dit-Yan Yeung, (参考訳) 十分に訓練された2次元拡散モデルによるSDS(Score Distillation Sampling)は、テキストから3次元生成において大きな可能性を示している。 しかし、このパラダイムは、ビュー間のコヒーレンスを見越し、世代ごとに3Dの不整合をもたらす、各ビューに対する3D表現のレンダリング分布に、ビューに依存しない2D画像分布を蒸留する。 本研究では,コヒーレントな3D世代を保証する新しいパラダイムである,textbf{J}oint \textbf{S}core \textbf{D}istillation (JSD)を提案する。 具体的には,拡散モデルからデノナイズド画像間のコヒーレンスを捕捉するエネルギー関数を導入するジョイントイメージ分布をモデル化する。 次に,SDSの単一ビューとは対照的に,複数の3次元表現のレンダリングビュー上でのジョイントスコア蒸留を導出する。 さらに、3つのユニバーサルビューアウェアモデルをエネルギー関数としてインスタンス化し、JSDとの互換性を示す。 経験的に、JSDはテキストの一貫性を維持しながら、SDSにおける3Dの不整合問題を著しく軽減する。 さらに,ジェネリックディテールを高めるため,幾何ファディングスキームと分類自由誘導(CFG)スイッチング戦略を導入する。 われわれのフレームワークであるJointDreamerはテキストから3D生成の新しいベンチマークを確立し、88.5\%のCLIP R-Precisionと27.7\%のCLIPスコアで優れた結果を得た。 これらの指標は、並外れたテキストの一貫性とテクスチャの忠実さを示すとともに、顕著な幾何学的整合性とテクスチャの忠実さを示す。

Score Distillation Sampling (SDS) by well-trained 2D diffusion models has shown great promise in text-to-3D generation. However, this paradigm distills view-agnostic 2D image distributions into the rendering distribution of 3D representation for each view independently, overlooking the coherence across views and yielding 3D inconsistency in generations. In this work, we propose \textbf{J}oint \textbf{S}core \textbf{D}istillation (JSD), a new paradigm that ensures coherent 3D generations. Specifically, we model the joint image distribution, which introduces an energy function to capture the coherence among denoised images from the diffusion model. We then derive the joint score distillation on multiple rendered views of the 3D representation, as opposed to a single view in SDS. In addition, we instantiate three universal view-aware models as energy functions, demonstrating compatibility with JSD. Empirically, JSD significantly mitigates the 3D inconsistency problem in SDS, while maintaining text congruence. Moreover, we introduce the Geometry Fading scheme and Classifier-Free Guidance (CFG) Switching strategy to enhance generative details. Our framework, JointDreamer, establishes a new benchmark in text-to-3D generation, achieving outstanding results with an 88.5\% CLIP R-Precision and 27.7\% CLIP Score. These metrics demonstrate exceptional text congruence, as well as remarkable geometric consistency and texture fidelity.
翻訳日:2024-11-08 20:48:00 公開日:2024-10-14
# 雑音量子回路のための多項式時間古典アルゴリズム

A polynomial-time classical algorithm for noisy quantum circuits ( http://arxiv.org/abs/2407.12768v2 )

ライセンス: Link先を確認
Thomas Schuster, Chao Yin, Xun Gao, Norman Y. Yao, (参考訳) 雑音量子回路のための多項式時間古典アルゴリズムを提案する。 アルゴリズムは、アンサンブル(例えば計算ベース)から引き出された入力状態に対する平均誤差を小さくして、任意の回路で観測可能な任意の期待値を算出する。 我々のアプローチは、雑音が局所的相関に対して指数関数的に非局所的相関を減衰するという直感に基づいている。 これにより、局所的な量子情報のダイナミクスを追跡するだけで、ノイズの多い量子回路を古典的にシミュレートすることができる。 また,回路の出力分布を準多項式時間でサンプリングすることができる。 多くの入力状態において誤差低減が効率的である任意の量子回路は、ほとんどの入力状態においても古典的にシミュレート可能である。

We provide a polynomial-time classical algorithm for noisy quantum circuits. The algorithm computes the expectation value of any observable for any circuit, with a small average error over input states drawn from an ensemble (e.g. the computational basis). Our approach is based upon the intuition that noise exponentially damps non-local correlations relative to local correlations. This enables one to classically simulate a noisy quantum circuit by only keeping track of the dynamics of local quantum information. Our algorithm also enables sampling from the output distribution of a circuit in quasi-polynomial time, so long as the distribution anti-concentrates. A number of practical implications are discussed, including a fundamental limit on the efficacy of noise mitigation strategies: for constant noise rates, any quantum circuit for which error mitigation is efficient on most input states, is also classically simulable on most input states.
翻訳日:2024-11-08 20:36:48 公開日:2024-10-14
# 投射探索指標の評価と最適化選択の導出のための新しい指標

New Metrics for Assessing Projection Pursuit Indexes, and Guiding Optimisation Choices ( http://arxiv.org/abs/2407.13663v2 )

ライセンス: Link先を確認
H. Sherry Zhang, Dianne Cook, Nicolas Langrené, Jessica Wai Yin Leung, (参考訳) プロジェクション追跡(PP)ガイド付きツアーは、PPインデックスとして知られる基準関数をインタラクティブに最適化し、興味深いプロジェクションを明らかにすることで高次元データを探索する。 PP指数の最適化は非滑らかな関数であれば非自明でもよいし、最適関数は近接してのみ検出できる小さな「スキント角」を持つ。 これらの課題に対処するため,最近導入されたSwarmベースのアルゴリズムであるJellyfish Search Optimiser(JSO)の性能について検討した。 データを可視化するためのJSOの性能は、様々なハイパーパラメータ設定で評価され、既存のオプティマイザと比較される。 さらに, PP指数の滑らかさとスキンタビリティ特性の計算法を提案する。 PP指数複素数の存在下でのオプティマイザ性能を評価するために用いられる。 シミュレーション研究は、JSOとガイド付きツアーで利用可能な既存の最適化手法を比較するために、これらのパフォーマンスメトリクスの使用を例示する。 JSOアルゴリズムはRパッケージである `tourr" に実装されており、"ferrn"パッケージでは滑らかさと特異性を計算する関数が利用可能である。

The projection pursuit (PP) guided tour interactively optimises a criterion function known as the PP index, to explore high-dimensional data by revealing interesting projections. Optimisation of some PP indexes can be non-trivial, if they are non-smooth functions, or the optimum has a small "squint angle", detectable only from close proximity. To address these challenges, this study investigates the performance of a recently introduced swarm-based algorithm, Jellyfish Search Optimiser (JSO), for optimising PP indexes. The performance of JSO for visualising data is evaluated across various hyper-parameter settings and compared with existing optimisers. Additionally, methods for calculating the smoothness and squintability properties of the PP index are proposed. They are used to assess the optimiser performance in the presence of PP index complexities. A simulation study illustrates the use of these performance metrics to compare the JSO with existing optimisation methods available for the guided tour. The JSO algorithm has been implemented in the R package, `tourr`, and functions to calculate smoothness and squintability are available in the `ferrn` package.
翻訳日:2024-11-08 20:14:30 公開日:2024-10-14
# mGTE:多言語テキスト検索のための一般化長文表現と階調モデル

mGTE: Generalized Long-Context Text Representation and Reranking Models for Multilingual Text Retrieval ( http://arxiv.org/abs/2407.19669v2 )

ライセンス: Link先を確認
Xin Zhang, Yanzhao Zhang, Dingkun Long, Wen Xie, Ziqi Dai, Jialong Tang, Huan Lin, Baosong Yang, Pengjun Xie, Fei Huang, Meishan Zhang, Wenjie Li, Min Zhang, (参考訳) 長文多言語テキスト表現モデル(TRM)と再ランカをスクラッチから構築し,テキスト検索を行う。 テキストエンコーダ(ベースサイズ)をRoPEとアンパディングで拡張し,ネイティブな8192-tokenコンテキスト(以前の多言語エンコーダの512以上)で事前訓練した。 そして、コントラスト学習によりハイブリッドTRMとクロスエンコーダ・リランカを構築する。 評価の結果,テキストエンコーダは従来と同じ大きさのXLM-Rよりも優れていた。 一方,我々のTRMとリランカは大規模BGE-M3モデルの性能に適合し,長期コンテキスト検索ベンチマークでより良い結果が得られる。 さらに分析した結果,提案モデルでは,トレーニングと推論の双方において,高い効率性を示すことがわかった。 その効率性と有効性は、様々な研究や工業的応用に役立つと信じている。

We present systematic efforts in building long-context multilingual text representation model (TRM) and reranker from scratch for text retrieval. We first introduce a text encoder (base size) enhanced with RoPE and unpadding, pre-trained in a native 8192-token context (longer than 512 of previous multilingual encoders). Then we construct a hybrid TRM and a cross-encoder reranker by contrastive learning. Evaluations show that our text encoder outperforms the same-sized previous state-of-the-art XLM-R. Meanwhile, our TRM and reranker match the performance of large-sized state-of-the-art BGE-M3 models and achieve better results on long-context retrieval benchmarks. Further analysis demonstrate that our proposed models exhibit higher efficiency during both training and inference. We believe their efficiency and effectiveness could benefit various researches and industrial applications.
翻訳日:2024-11-08 14:27:29 公開日:2024-10-14
# Barlow Twins Deep Neural Network for Advanced 1D Drug-Target Interaction Prediction

Barlow Twins Deep Neural Network for Advanced 1D Drug-Target Interaction Prediction ( http://arxiv.org/abs/2408.00040v3 )

ライセンス: Link先を確認
Maximilian G. Schuh, Davide Boldini, Annkathrin I. Bohne, Stephan A. Sieber, (参考訳) 薬物と標的の相互作用の正確な予測は、薬物発見を促進するために重要である。 時間とコストを削減することによって、機械学習とディープラーニングは、この面倒な発見プロセスを加速することができる。 新たなアプローチであるBarlowDTIでは、ターゲットタンパク質の構造を考慮しつつ、強力なBarlow Twinsアーキテクチャを特徴抽出に活用する。 提案手法は,1次元の入力のみを用いて,複数のベンチマークに対して最先端の予測性能を実現する。 勾配推力機械を基礎となる予測装置として用いることで、計算資源を十分に必要とせず、高速かつ効率的な予測が可能になる。 また、個別のトレーニングサンプルに基づいて、モデルがどのように決定に達するかについても検討する。 共結晶構造を比較することで,BarlowDTIは触媒活性および安定化残基を効果的に利用し,一次元入力データからモデルを一般化する能力を強調した。 さらに、既存のメソッドに対して新たなベースラインをベンチマークする。 これらのイノベーションは、薬物と標的の相互作用予測の効率と効果を改善し、薬物開発を加速し、分子間相互作用の理解を深めるための堅牢なツールを提供する。 したがって、私たちはhttps://www.bio.nat.tum.de/oc2/barlowdtiで自由にアクセスできる使いやすいWebインターフェースを提供しています。

Accurate prediction of drug-target interactions is critical for advancing drug discovery. By reducing time and cost, machine learning and deep learning can accelerate this laborious discovery process. In a novel approach, BarlowDTI, we utilise the powerful Barlow Twins architecture for feature-extraction while considering the structure of the target protein. Our method achieves state-of-the-art predictive performance against multiple established benchmarks using only one-dimensional input. The use of gradient boosting machine as the underlying predictor ensures fast and efficient predictions without the need for substantial computational resources. We also investigate how the model reaches its decision based on individual training samples. By comparing co-crystal structures, we find that BarlowDTI effectively exploits catalytically active and stabilising residues, highlighting the model's ability to generalise from one-dimensional input data. In addition, we further benchmark new baselines against existing methods. Together, these innovations improve the efficiency and effectiveness of drug-target interaction predictions, providing robust tools for accelerating drug development and deepening the understanding of molecular interactions. Therefore, we provide an easy-to-use web interface that can be freely accessed at https://www.bio.nat.tum.de/oc2/barlowdti .
翻訳日:2024-11-08 13:40:32 公開日:2024-10-14
# 推論スケーリング法則:言語モデルを用いた問題解決のための計算最適推論の実証分析

Inference Scaling Laws: An Empirical Analysis of Compute-Optimal Inference for Problem-Solving with Language Models ( http://arxiv.org/abs/2408.00724v2 )

ライセンス: Link先を確認
Yangzhen Wu, Zhiqing Sun, Shanda Li, Sean Welleck, Yiming Yang, (参考訳) 大規模言語モデル(LLM)訓練のスケーリング法則は広く研究されているが、LLMの最適推論構成はいまだ未定である。 モデルサイズ間のトレードオフに着目し、異なる推論戦略で追加トークンを生成することに焦点を当て、推論スケーリング法則と計算最適推論について検討する。 計算最適推論手法の理解と設計に向けた第一歩として、モデルサイズと計算予算の異なる2種類の木探索アルゴリズムを用いて、グリージー検索、多数決投票、ベスト・オブ・nドル、重み付き投票などの推論戦略のコストパフォーマンストレードオフについて検討した。 以上の結果から,Llemma-7Bは計算予算が同じである場合,より小さなモデル(例えば,Llemma-7B)はより大きなモデルよりも優れ,より小さなモデルと高度な推論アルゴリズムを組み合わせれば,パレート最適コスト性能のトレードオフが得られることがわかった。 例えば、新しい木探索アルゴリズムを備えたLlemma-7Bモデルは、すべてのFLOPの予算でMATHベンチマークで標準的な多数決でLlemma-34Bを一貫して上回ります。 これらの知見がLLMの推論スケーリング法則のより広範な理解に寄与することを願っている。

While the scaling laws of large language models (LLMs) training have been extensively studied, optimal inference configurations of LLMs remain underexplored. We study inference scaling laws and compute-optimal inference, focusing on the trade-offs between model sizes and generating additional tokens with different inference strategies. As a first step towards understanding and designing compute-optimal inference methods, we studied cost-performance trade-offs for inference strategies such as greedy search, majority voting, best-of-$n$, weighted voting, and two different tree search algorithms, using different model sizes and compute budgets. Our findings indicate smaller models (e.g., Llemma-7B) can outperform larger models given the same computation budgets, and that smaller models paired with advanced inference algorithms yield Pareto-optimal cost-performance trade-offs. For instance, the Llemma-7B model, equipped with our novel tree search algorithm, consistently outperforms Llemma-34B with standard majority voting on the MATH benchmark across all FLOPs budgets. We hope these findings contribute to a broader understanding of inference scaling laws for LLMs.
翻訳日:2024-11-08 13:29:21 公開日:2024-10-14
# 長距離量子多体状態に対するペッツ写像の復元

Petz map recovery for long-range entangled quantum many-body states ( http://arxiv.org/abs/2408.00857v3 )

ライセンス: Link先を確認
Yangrui Hu, Yijian Zou, (参考訳) A,B,C$上の三部分量子状態と$C$上の消去チャネルが与えられたとき、回転されたペッツマップは、消去された量子情報を回復するために$B$に作用する回復チャネルである。 最良の回復の不完全性は条件付き相互情報(CMI)によって上界される。 本研究では、いくつかの物理的に関連のある長距離量子状態におけるペッツ写像の不完全性について研究する。 具体的には、量子相の3つのクラスについて研究する。 一 測定誘起相転移の定常状態 (二)局地的測定による臨界地盤状態、及び 三 局地的な測定によるキラル状態 ペッツ写像復元の平均的不完全性は、3つのクラスを鋭く区別する。 (i)および (ii)CMIとの不整合のスケーリングと区別される 三) 回転パラメータの不忠実性の非対称性を特徴とする。 また, トポロジ的順序に対するペッツ写像の復元について検討し, トポロジ的絡み合いエントロピーの操作的解釈を求める。 その結果,ペッツ写像の回復忠実度は物質の量子位相の有用な診断法であることが示唆された。

Given a tripartite quantum state on $A,B,C$ and the erasure channel on $C$, the rotated Petz map is a recovery channel that acts on $B$ to recover the erased quantum information. The infidelity of the best recovery is upper-bounded by the conditional mutual information (CMI). In this work, we study the infidelity of the rotated Petz map on several physically-relevant long-range entangled quantum states. Specifically, we study three classes of quantum phases: (i) steady states of measurement-induced phase transitions, (ii) critical ground state under local measurements, and (iii) chiral states under local measurements. We find that the averaged infidelity of the Petz map recovery sharply distinguishes the three classes: (i) and (ii) are distinguished by the scaling of the infidelity with CMI and (iii) is characterized by an asymmetry of the infidelity with the rotation parameter. We also study Petz map recovery for topological order and find an operational interpretation of the topological entanglement entropy. Our result indicates that recovery fidelity of the Petz map is a useful diagnostic of quantum phases of matter.
翻訳日:2024-11-08 13:29:21 公開日:2024-10-14
# 自由に話しましょうか?大言語モデルの性能に及ぼすフォーマット制限の影響に関する研究

Let Me Speak Freely? A Study on the Impact of Format Restrictions on Performance of Large Language Models ( http://arxiv.org/abs/2408.02442v2 )

ライセンス: Link先を確認
Zhi Rui Tam, Cheng-Kuang Wu, Yi-Lin Tsai, Chieh-Yen Lin, Hung-yi Lee, Yun-Nung Chen, (参考訳) JSONやXMLのような標準化されたフォーマットでコンテンツを生成する構造化生成は、大規模言語モデル(LLM)から重要な出力情報を抽出するために、現実世界のアプリケーションで広く利用されている。 本研究では,ジェネレーション空間の制約が推論やドメイン知識の理解など,LLMの能力に影響を及ぼすかどうかを検討する。 具体的には、様々な共通タスクに対して自由形式の応答を生成するよりも、構造化形式に順応することを制限された場合のLLMの性能を評価する。 意外なことに、フォーマット制限下でのLCMの推論能力は大幅に低下している。 さらに、より厳密なフォーマット制約は、一般的に推論タスクのパフォーマンス低下を引き起こす。

Structured generation, the process of producing content in standardized formats like JSON and XML, is widely utilized in real-world applications to extract key output information from large language models (LLMs). This study investigates whether such constraints on generation space impact LLMs abilities, including reasoning and domain knowledge comprehension. Specifically, we evaluate LLMs performance when restricted to adhere to structured formats versus generating free-form responses across various common tasks. Surprisingly, we observe a significant decline in LLMs reasoning abilities under format restrictions. Furthermore, we find that stricter format constraints generally lead to greater performance degradation in reasoning tasks.
翻訳日:2024-11-08 12:55:50 公開日:2024-10-14
# 自由に話しましょうか?大言語モデルの性能に及ぼすフォーマット制限の影響に関する研究

Let Me Speak Freely? A Study on the Impact of Format Restrictions on Performance of Large Language Models ( http://arxiv.org/abs/2408.02442v3 )

ライセンス: Link先を確認
Zhi Rui Tam, Cheng-Kuang Wu, Yi-Lin Tsai, Chieh-Yen Lin, Hung-yi Lee, Yun-Nung Chen, (参考訳) JSONやXMLのような標準化されたフォーマットでコンテンツを生成する構造化生成は、大規模言語モデル(LLM)から重要な出力情報を抽出するために、現実世界のアプリケーションで広く利用されている。 本研究では,ジェネレーション空間の制約が推論やドメイン知識の理解など,LLMの能力に影響を及ぼすかどうかを検討する。 具体的には、様々な共通タスクに対して自由形式の応答を生成するよりも、構造化形式に順応することを制限された場合のLLMの性能を評価する。 意外なことに、フォーマット制限下でのLCMの推論能力は大幅に低下している。 さらに、より厳密なフォーマット制約は、一般的に推論タスクのパフォーマンス低下を引き起こす。

Structured generation, the process of producing content in standardized formats like JSON and XML, is widely utilized in real-world applications to extract key output information from large language models (LLMs). This study investigates whether such constraints on generation space impact LLMs abilities, including reasoning and domain knowledge comprehension. Specifically, we evaluate LLMs performance when restricted to adhere to structured formats versus generating free-form responses across various common tasks. Surprisingly, we observe a significant decline in LLMs reasoning abilities under format restrictions. Furthermore, we find that stricter format constraints generally lead to greater performance degradation in reasoning tasks.
翻訳日:2024-11-08 12:55:50 公開日:2024-10-14
# 強化学習のための高能率自己適応型逆方向整形

Highly Efficient Self-Adaptive Reward Shaping for Reinforcement Learning ( http://arxiv.org/abs/2408.03029v3 )

ライセンス: Link先を確認
Haozhe Ma, Zhengding Luo, Thanh Vinh Vo, Kuankuan Sima, Tze-Yun Leong, (参考訳) リワードシェーピング(Reward shaping)は、より頻繁で情報的な報酬を提供することで、スパース・リワード問題に対処する強化学習の技法である。 歴史的経験から得られた成功率を形づくりの報酬として組み込んだ自己適応的かつ高効率な報酬形成機構を導入する。 成功率は、データが蓄積されるにつれて、不確実な値から信頼できる値へと動的に進化するベータディストリビューションからサンプリングされる。 当初は、形状の報酬は探索を促進するためによりランダム性を示すが、時間が経つにつれ、確実性は搾取を強化し、自然に探究と搾取のバランスを取る。 提案手法では,KDEとRandom Fourier Features(RFF)を組み合わせてベータ分布を導出し,高次元連続状態空間に対する計算効率,非パラメトリック,学習自由な解を提供する。 提案手法は, 各種タスクにおいて, 極めて少ない報奨で検証され, サンプル効率と収束安定性の顕著な向上が示された。

Reward shaping is a technique in reinforcement learning that addresses the sparse-reward problem by providing more frequent and informative rewards. We introduce a self-adaptive and highly efficient reward shaping mechanism that incorporates success rates derived from historical experiences as shaped rewards. The success rates are sampled from Beta distributions, which dynamically evolve from uncertain to reliable values as data accumulates. Initially, the shaped rewards exhibit more randomness to encourage exploration, while over time, the increasing certainty enhances exploitation, naturally balancing exploration and exploitation. Our approach employs Kernel Density Estimation (KDE) combined with Random Fourier Features (RFF) to derive the Beta distributions, providing a computationally efficient, non-parametric, and learning-free solution for high-dimensional continuous state spaces. Our method is validated on various tasks with extremely sparse rewards, demonstrating notable improvements in sample efficiency and convergence stability over relevant baselines.
翻訳日:2024-11-08 12:44:50 公開日:2024-10-14
# オンデバイスビジョンタスクのための超高効率CNNの設計

Designing Extremely Memory-Efficient CNNs for On-device Vision Tasks ( http://arxiv.org/abs/2408.03663v2 )

ライセンス: Link先を確認
Jaewook Lee, Yoel Park, Seulki Lee, (参考訳) 本稿では、メモリ効率のよいCNN(畳み込みニューラルネットワーク)を導入し、画像分類やオブジェクト検出などのデバイス上でのビジョンタスク、すなわち、画像Net分類において63KBしか使用できないような、リソース制約のあるローエンドの組込みおよびIoTデバイスを実現する。 MobileNetのボトルネックブロックに基づいて、CNNのピークメモリ使用量を大幅に削減し、ローエンドデバイスの限られたKBメモリに適合させる3つの設計原則を提案する。 まず、「入力セグメンテーション」は、入力画像を他の部分と重なり合う中央パッチを含む一連のパッチに分割し、大きな入力画像のサイズ(およびメモリ要求)を小さくする。 第2に、"パッチトンネリング"は、パッチ毎に複数のボトルネックブロックで構成される独立したトンネルのようなパスを構築し、入力パッチからネットワークの最後の層へモデル全体を通して浸透し、ネットワーク全体の軽量メモリ使用率を維持する。 最後に、'bottleneck reordering' はボトルネックブロック内での畳み込み操作の実行順序を再構成し、畳み込み出力チャネルのサイズに関わらずメモリ使用量が一定となるようにする。 実験の結果,提案したネットワークは,競合するトップ1の精度(61.58\%)を達成しつつ,極めて低いメモリ(63KB)でImageNetを分類した。 我々の知る限りでは、提案したネットワークのメモリ使用量は最先端のメモリ効率ネットワーク、すなわちMobileNet(5.6MB)とMCUNet(196KB)の最大89倍と3.1倍にはるかに小さい。

In this paper, we introduce a memory-efficient CNN (convolutional neural network), which enables resource-constrained low-end embedded and IoT devices to perform on-device vision tasks, such as image classification and object detection, using extremely low memory, i.e., only 63 KB on ImageNet classification. Based on the bottleneck block of MobileNet, we propose three design principles that significantly curtail the peak memory usage of a CNN so that it can fit the limited KB memory of the low-end device. First, 'input segmentation' divides an input image into a set of patches, including the central patch overlapped with the others, reducing the size (and memory requirement) of a large input image. Second, 'patch tunneling' builds independent tunnel-like paths consisting of multiple bottleneck blocks per patch, penetrating through the entire model from an input patch to the last layer of the network, maintaining lightweight memory usage throughout the whole network. Lastly, 'bottleneck reordering' rearranges the execution order of convolution operations inside the bottleneck block such that the memory usage remains constant regardless of the size of the convolution output channels. The experiment result shows that the proposed network classifies ImageNet with extremely low memory (i.e., 63 KB) while achieving competitive top-1 accuracy (i.e., 61.58\%). To the best of our knowledge, the memory usage of the proposed network is far smaller than state-of-the-art memory-efficient networks, i.e., up to 89x and 3.1x smaller than MobileNet (i.e., 5.6 MB) and MCUNet (i.e., 196 KB), respectively.
翻訳日:2024-11-08 12:33:46 公開日:2024-10-14
# BA-LoRA:大規模言語モデルにおける破滅的継承緩和のためのバイアス緩和低ランク適応

BA-LoRA: Bias-Alleviating Low-Rank Adaptation to Mitigate Catastrophic Inheritance in Large Language Models ( http://arxiv.org/abs/2408.04556v2 )

ライセンス: Link先を確認
Yupeng Chang, Yi Chang, Yuan Wu, (参考訳) 大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて顕著な習熟性を示している。 しかし、下流アプリケーションにLLMを適用するには、計算集約的でメモリ要求の微調整の手順が必要となる。 これらの負担を軽減するため、パラメータ効率のよい微調整(PEFT)技術が計算オーバーヘッドを最小限に抑えるための有望なアプローチとして登場した。 PEFT法はかなりの利点があるが、事前学習データからのバイアス伝搬の広汎な問題に完全には対処していない。 この研究は、バイアス継承に対抗するために設計された新しいPEFT法であるBias-Alleviating Low-Rank Adaptation (BA-LoRA)を導入している。 BA-LoRAは、(1)整合正則化器、(2)多様性正則化器、(3)特異値分解正則化器の3つの異なる正則化項を含む。 これらの正規化器は、微調整中にモデルの一貫性、多様性、一般化能力を高めることを目的としている。 自然言語理解(NLU)および自然言語生成(NLG)タスクについて,LLaMA,Mistral,Gemmaなどの著名なLLMを用いて広範な実験を行った。 その結果、BA-LoRAはLoRAとその最先端の変種よりも優れていた。 さらに,本手法は,事前学習バイアスの悪影響を効果的に軽減し,より信頼性が高くロバストなモデル出力をもたらす。 コードはhttps://github.com/cyp-jlu-ai/BA-LoRAで公開されている。

Large language models (LLMs) have demonstrated remarkable proficiency across various natural language processing (NLP) tasks. However, adapting LLMs to downstream applications requires computationally intensive and memory-demanding fine-tuning procedures. To alleviate these burdens, parameter-efficient fine-tuning (PEFT) techniques have emerged as a promising approach to tailor LLMs with minimal computational overhead. While PEFT methods offer substantial advantages, they do not fully address the pervasive issue of bias propagation from pre-training data. This work introduces Bias-Alleviating Low-Rank Adaptation (BA-LoRA), a novel PEFT method designed to counteract bias inheritance. BA-LoRA incorporates three distinct regularization terms: (1) a consistency regularizer, (2) a diversity regularizer, and (3) a singular value decomposition regularizer. These regularizers aim to enhance the models' consistency, diversity, and generalization capabilities during fine-tuning. We conduct extensive experiments on natural language understanding (NLU) and natural language generation (NLG) tasks using prominent LLMs such as LLaMA, Mistral, and Gemma. The results demonstrate that BA-LoRA outperforms LoRA and its state-of-the-art variants. Moreover, our method effectively mitigates the adverse effects of pre-training bias, leading to more reliable and robust model outputs. The code is available at https://github.com/cyp-jlu-ai/BA-LoRA.
翻訳日:2024-11-08 12:11:36 公開日:2024-10-14
# 量子ウォーク不変量における絡み合いのロバスト性と古典的プロキシ

Robustness and classical proxy of entanglement in variants of quantum walk ( http://arxiv.org/abs/2408.05597v2 )

ライセンス: Link先を確認
Christopher Mastandrea, Chih-Chun Chien, (参考訳) 量子ウォーク(QW)は内部の量子状態を利用して変位を決定するため、内部と位置の自由度の間に単一粒子の絡み合いを導入する。 QWの3つの変種を、古典的ランダム性の有無にかかわらず古典的ランダム性を持つ、対称的で分割的な翻訳演算子でシミュレートすることにより、この絡み合いは時間的および空間的ランダム性の両方に対して堅牢であり、QWの局所化遷移を引き起こす可能性があることを示す。 本稿では,絡み合いの代用として,内部状態の確率分布の重なりを文字通り測定する古典的量呼重み付けを提案する。 重なり合いは、内部空間における還元密度行列の対角線外項と関連付けられ、その純度を反映する。 したがって、重なり合いは、ほとんどの場合、絡み合いエントロピーの逆挙動を捉えている。 我々は、内部状態間で高い人口不均衡を持つ特別なケースを構築して、重複を無視することによって、古典的プロキシの制限をテストする。 可能性と実験的測定についても論じる。

Quantum walk (QW) utilizes its internal quantum states to decide the displacement, thereby introducing single-particle entanglement between the internal and positional degrees of freedom. By simulating three variants of QW with the conventional, symmetric, and split-step translation operators with or without classical randomness in the coin operator, we show the entanglement is robust against both time- and spatially- dependent randomness, which can cause localization transitions of QW. We propose a classical quantity call overlap, which literally measures the overlap between the probability distributions of the internal states, as a proxy of entanglement. The overlap is associated with the off-diagonal terms of the reduced density matrix in the internal space, which then reflects its purity. Therefore, the overlap captures the inverse behavior of the entanglement entropy in most cases. We test the limitation of the classical proxy by constructing a special case with high population imbalance between the internal states to blind the overlap. Possible implications and experimental measurements are also discussed.
翻訳日:2024-11-08 11:49:24 公開日:2024-10-14
# 境界を定義する: 大規模言語モデルにおけるタスク実現可能性のスペクトル

Defining Boundaries: A Spectrum of Task Feasibility for Large Language Models ( http://arxiv.org/abs/2408.05873v2 )

ライセンス: Link先を確認
Wenbo Zhang, Zihang Xu, Hengrui Cai, (参考訳) 大規模言語モデル(LLM)は、様々なタスクにおいて顕著なパフォーマンスを示しているが、その知識や能力を超えるクエリを処理できない場合が多いため、誤ったあるいは偽造された応答につながる。 本稿では,LLMが能力を超えるために必要なスキルのために,実用不可能なタスクを認識し,拒否する必要性に対処する。 まず, LLMの非実用的課題を概念化し, 既存の文献にまつわる幻覚のスペクトルをカバーする分類を提供する。 我々は,多種多様な実用性タスクと実用性タスクからなる新しいデータセットを開発し,評価し,実用性のあるタスクを拒否する複数のLCMの能力を評価する。 さらに, 微調整によるLCMの拒絶機能向上の可能性についても検討した。 実アプリケーションにおける LLM の運用境界を改良するための有望な方向を提供するため, トレーニングモデルの有効性を検証する実験を行った。

Large language models (LLMs) have shown remarkable performance in various tasks but often fail to handle queries that exceed their knowledge and capabilities, leading to incorrect or fabricated responses. This paper addresses the need for LLMs to recognize and refuse infeasible tasks due to the required skills surpassing their capabilities. We first conceptualize infeasible tasks for LLMs and provide categorizations that cover a spectrum of related hallucinations over existing literature. We develop and benchmark a new dataset comprising diverse infeasible and feasible tasks to evaluate multiple LLMs' abilities to reject infeasible tasks. Furthermore, we explore the potential of increasing LLMs' refusal capabilities with fine-tuning. Experiments validate the effectiveness of our trained models, offering promising directions for refining the operational boundaries of LLMs in real applications.
翻訳日:2024-11-08 11:49:24 公開日:2024-10-14
# 微細不整合によるオーディオ・ビジュアルディープフェイクの検出

Detecting Audio-Visual Deepfakes with Fine-Grained Inconsistencies ( http://arxiv.org/abs/2408.06753v3 )

ライセンス: Link先を確認
Marcella Astrid, Enjie Ghorbel, Djamila Aouada, (参考訳) オーディオ・ビジュアル・ディープフェイク検出における既存の手法は、主に音声と視覚データの不整合をモデル化するための高レベルな特徴に焦点を当てている。 結果として、これらのアプローチは通常、ディープフェイクに固有の、より微細なオーディオ視覚アーチファクトを見落としている。 本稿では,空間領域と時間領域の両方において微妙なアーティファクトを検出するためのきめ細かいメカニズムを提案する。 まず,音声との不整合が生じやすい小さな空間領域を撮影できる局所視覚モデルを提案する。 その目的のために、アテンションモジュールと結合された空間的局所距離に基づくきめ細かいメカニズムを採用する。 第2に、トレーニングセットに微妙な時間的不整合を取り入れたサンプルを含む、時間的に局所的な擬似フェイク増強を導入する。 DFDC と FakeAVCeleb データセットを用いた実験により,提案手法の一般化における優位性を示した。

Existing methods on audio-visual deepfake detection mainly focus on high-level features for modeling inconsistencies between audio and visual data. As a result, these approaches usually overlook finer audio-visual artifacts, which are inherent to deepfakes. Herein, we propose the introduction of fine-grained mechanisms for detecting subtle artifacts in both spatial and temporal domains. First, we introduce a local audio-visual model capable of capturing small spatial regions that are prone to inconsistencies with audio. For that purpose, a fine-grained mechanism based on a spatially-local distance coupled with an attention module is adopted. Second, we introduce a temporally-local pseudo-fake augmentation to include samples incorporating subtle temporal inconsistencies in our training set. Experiments on the DFDC and the FakeAVCeleb datasets demonstrate the superiority of the proposed method in terms of generalization as compared to the state-of-the-art under both in-dataset and cross-dataset settings.
翻訳日:2024-11-08 11:26:46 公開日:2024-10-14
# 深層学習に基づく機械条件診断のためのウェーブレット変換の探索

Exploring Wavelet Transformations for Deep Learning-based Machine Condition Diagnosis ( http://arxiv.org/abs/2408.09644v2 )

ライセンス: Link先を確認
Eduardo Jr Piedad, Christian Ainsley Del Rosario, Eduardo Prieto-Araujo, Oriol Gomis-Bellmunt, (参考訳) 深層学習(DL)戦略は、モータ位相電流信号を単純に分析することでモータ故障の診断に利用され、より安価で非侵襲的な振動センサの代替手段を提供する。 本研究では、これらの時系列電流信号をウェーブレット変換(WT)を介して時間周波数2D表現に変換する。 モータ電流信号のデータセットは、5つのカテゴリにまたがる3,750のデータポイントを含み、1つは正常な状態を表し、4つは人工的に誘発された断層を表し、それぞれ0、25、50、75、100%の5つの異なる負荷条件の下で表現される。 この研究はWT-Amor、WT-Bump、WT-Morse、WSST-Amor、WSST-Bumpの5つの技術を用いている。 その後、従来の畳み込みニューラルネットワーク(CNN)アーキテクチャを採用した5つのDLモデルを開発し、各手法から変換された2Dプロットを用いて検証した。 WT-Amor、WT-Bump、WT-MorseのDLモデルは、それぞれ90.93、89.20、93.73%のピークモデル精度で顕著な効果を示した。 特にWT-Morseのアプローチは、これまでで最も高いML手法をわずかに上回り、93.20%の精度を達成した。 しかし,同期シーズ技術を利用した2つのWSST法は,モータ故障を正確に分類することが困難であった。 Waveletベースのディープラーニング手法のパフォーマンスは、マシン条件監視の魅力的な代替手段を提供する。

Deep learning (DL) strategies have recently been utilized to diagnose motor faults by simply analyzing motor phase current signals, offering a less costly and non-intrusive alternative to vibration sensors. This research transforms these time-series current signals into time-frequency 2D representations via Wavelet Transform (WT). The dataset for motor current signals includes 3,750 data points across five categories: one representing normal conditions and four representing artificially induced faults, each under five different load conditions: 0, 25, 50, 75, and 100%. The study employs five WT-based techniques: WT-Amor, WT-Bump, WT-Morse, WSST-Amor, and WSST-Bump. Subsequently, five DL models adopting prior Convolutional Neural Network (CNN) architecture were developed and tested using the transformed 2D plots from each method. The DL models for WT-Amor, WT-Bump, and WT-Morse showed remarkable effectiveness with peak model accuracy of 90.93, 89.20, and 93.73%, respectively, surpassing previous 2D-image-based methods that recorded accuracy of 80.25, 74.80, and 82.80% respectively using the identical dataset and validation protocol. Notably, the WT-Morse approach slightly exceeded the formerly highest ML technique, achieving a 93.20% accuracy. However, the two WSST methods that utilized synchrosqueezing techniques faced difficulty accurately classifying motor faults. The performance of Wavelet-based deep learning methods offers a compelling alternative for machine condition monitoring.
翻訳日:2024-11-08 06:55:48 公開日:2024-10-14
# 短時間フーリエ変換変数を用いたディープラーニングに基づく機械条件診断

Deep Learning-based Machine Condition Diagnosis using Short-time Fourier Transformation Variants ( http://arxiv.org/abs/2408.09649v2 )

ライセンス: Link先を確認
Eduardo Jr Piedad, Zherish Galvin Mayordo, Eduardo Prieto-Araujo, Oriol Gomis-Bellmunt, (参考訳) 運動条件診断において、電流シグネチャは、より高価で侵襲的な方法である振動に基づくセンサデータに代わる特徴として機能する。 機械学習(ML)技術は、モータ位相電流信号のみを用いた運動条件の診断において出現している。 本研究では,短時間フーリエ変換(STFT)法を用いた時系列モータ電流信号を時間周波数2Dプロットに変換する。 モータ電流信号データセットは、3750個のサンプルポイントと5つのクラス – 1つの健康状態と4つの合成適用モーター故障条件,および5つの負荷条件 – 0, 25, 50, 75, 75, 100% – から構成されている。 データセットには、非オーバーラップ、重複STFT、非オーバーラップ、重複STFT、同期STFTの5つの変換方法が使用されている。 次に、従来の畳み込みニューラルネットワーク(CNN)アーキテクチャに基づくディープラーニング(DL)モデルを訓練し、各手法の生成されたプロットから検証する。 重複STFT、重複R-STFT、非オーバーラップSTFT、非オーバーラップR-STFT、シンクロスキーズSTFTのDLモデルは、それぞれ97.65、96.03、96.08、96.32、88.27%の平均精度で例外的に実行された。 4つの手法が93.20%の精度で過去の最高のML手法を上回り、5つの手法は、それぞれ80.25、74.80、82.80%の精度で、同じデータセット、同じDLアーキテクチャ、検証ステップを使用して以前の2Dプロットベースの手法を上回りました。

In motor condition diagnosis, electrical current signature serves as an alternative feature to vibration-based sensor data, which is a more expensive and invasive method. Machine learning (ML) techniques have been emerging in diagnosing motor conditions using only motor phase current signals. This study converts time-series motor current signals to time-frequency 2D plots using Short-time Fourier Transform (STFT) methods. The motor current signal dataset consists of 3,750 sample points with five classes - one healthy and four synthetically-applied motor fault conditions, and with five loading conditions: 0, 25, 50, 75, and 100%. Five transformation methods are used on the dataset: non-overlap and overlap STFTs, non-overlap and overlap realigned STFTs, and synchrosqueezed STFT. Then, deep learning (DL) models based on the previous Convolutional Neural Network (CNN) architecture are trained and validated from generated plots of each method. The DL models of overlap-STFT, overlap R-STFT, non-overlap STFT, non-overlap R-STFT, and synchrosqueezed-STFT performed exceptionally with an average accuracy of 97.65, 96.03, 96.08, 96.32, and 88.27%, respectively. Four methods outperformed the previous best ML method with 93.20% accuracy, while all five outperformed previous 2D-plot-based methods with accuracy of 80.25, 74.80, and 82.80%, respectively, using the same dataset, same DL architecture, and validation steps.
翻訳日:2024-11-08 06:55:48 公開日:2024-10-14
# 多段階パイプラインによる長期規制文書の要約

Summarizing long regulatory documents with a multi-step pipeline ( http://arxiv.org/abs/2408.09777v2 )

ライセンス: Link先を確認
Mika Sie, Ruby Beek, Michiel Bots, Sjaak Brinkkemper, Albert Gatt, (参考訳) その長さと複雑さのため、長い規制文書を要約することは困難である。 これを解決するために, 長期規制文書をより効果的に扱うために, 多段階抽出・拡張アーキテクチャを提案する。 本稿では,長い規則文を要約するための2段階アーキテクチャの有効性が,使用するモデルによって大きく異なることを示す。 具体的には、2段階アーキテクチャによりデコーダのみの性能が向上する。 コンテクスト長の短い抽象エンコーダ・デコーダモデルでは抽出ステップの有効性が異なるが、長文エンコーダ・デコーダモデルでは抽出ステップが性能を悪化させる。 この研究は、人や自動評価と異なる結果によって証明されるように、生成されたテキストを評価することの課題も強調する。 とりわけ人間による評価では、法的テキストで事前訓練された言語モデルが好まれ、自動化されたメトリクスは汎用言語モデルよりも上位にランクされた。 その結果、モデルアーキテクチャとコンテキスト長に基づいて、適切な要約戦略を選択することの重要性が浮き彫りになった。

Due to their length and complexity, long regulatory texts are challenging to summarize. To address this, a multi-step extractive-abstractive architecture is proposed to handle lengthy regulatory documents more effectively. In this paper, we show that the effectiveness of a two-step architecture for summarizing long regulatory texts varies significantly depending on the model used. Specifically, the two-step architecture improves the performance of decoder-only models. For abstractive encoder-decoder models with short context lengths, the effectiveness of an extractive step varies, whereas for long-context encoder-decoder models, the extractive step worsens their performance. This research also highlights the challenges of evaluating generated texts, as evidenced by the differing results from human and automated evaluations. Most notably, human evaluations favoured language models pretrained on legal text, while automated metrics rank general-purpose language models higher. The results underscore the importance of selecting the appropriate summarization strategy based on model architecture and context length.
翻訳日:2024-11-08 06:55:48 公開日:2024-10-14
# 可逆CCZゲートを用いた良二元量子符号

Good binary quantum codes with transversal CCZ gate ( http://arxiv.org/abs/2408.10140v2 )

ライセンス: Link先を確認
Quynh T. Nguyen, (参考訳) 量子CSS符号のシンプレクティックなファミリを,全論理量子ビット上の並列論理CCZは,物理量子ビット上の(サブセットの)並列物理CCZによって実行される。 この構成は、乗算特性を満たす任意の古典的コードは、超逆(量子)CCZを持つ量子CSSコードを構築するのに使用できるという観察に基づいている。 定数レートと線形距離の族を得るには、この構造を古典的な代数幾何学符号の古典的なファミリで、非バイナリだが定数サイズのアルファベットでインスタンス化する。 最後に、算術秘密共有文献からの技法を用いて、アルファベットを二進数に減らした。 概要として、構築されたコードファミリーは、一定の空間オーバーヘッドを持つマジック状態蒸留スキームを提供する。

We give an asymptotically good family of quantum CSS codes on qubits with a transversal CCZ gate, meaning that the parallel logical CCZ on all logical qubits is performed by parallel physical CCZs on (a subset of) physical qubits. The construction is based on the observation that any classical code satisfying a multiplication property can be used to construct a quantum CSS code with transversal (qudit) CCZ. To obtain a constant-rate and linear-distance family, we then instantiate this construction with a classical good family of algebraic-geometry codes on a non-binary, but constant-sized, alphabet. Finally, we use a technique from the arithmetic secret sharing literature to reduce the alphabet to binary. As a corollary, the constructed code family provides a magic state distillation scheme with constant space overhead.
翻訳日:2024-11-08 06:44:48 公開日:2024-10-14
# SceneDreamer360:パノラマガウススプレイティングによるテキスト駆動型3D連続シーン生成

SceneDreamer360: Text-Driven 3D-Consistent Scene Generation with Panoramic Gaussian Splatting ( http://arxiv.org/abs/2408.13711v2 )

ライセンス: Link先を確認
Wenrui Li, Fucheng Cai, Yapeng Mi, Zhe Yang, Wangmeng Zuo, Xingtao Wang, Xiaopeng Fan, (参考訳) テキスト駆動の3Dシーン生成は、最近大きな進歩を遂げている。 しかし、既存のほとんどの手法は、生成モデルを用いて単一ビュー画像を生成し、それらを3次元空間で縫い合わせる。 それぞれのビューに対するこの独立した生成は、しばしば3Dシーンにおける空間的不整合と不確実性をもたらす。 そこで本研究では,テキスト駆動型3D連続シーン生成モデルであるSceneDreamer360を提案する。 提案手法では,テキスト駆動パノラマ画像生成モデルを3次元シーン生成の先行モデルとして活用し,多視点パノラマ画像間の整合性を確保するために3次元ガウススプラッティング(3DGS)を用いる。 具体的には、SceneDreamer360は3段階のパノラマ拡張で微調整されたパノラマ生成装置を強化し、高解像度でディテールに富んだパノラマ画像を生成する。 3Dシーン構築中に、高品質で空間的に一貫した点雲を生成する新しい点雲融合初期化法が用いられる。 SceneDreamer360とパノラマ画像生成と3DGSは、他の手法と比較して、より高品質で空間的に整合性があり、視覚的に魅力的な3Dシーンをテキストプロンプトから生成できることを示す。 我々のコードは \url{https://github.com/liwrui/SceneDreamer360} で利用可能です。

Text-driven 3D scene generation has seen significant advancements recently. However, most existing methods generate single-view images using generative models and then stitch them together in 3D space. This independent generation for each view often results in spatial inconsistency and implausibility in the 3D scenes. To address this challenge, we proposed a novel text-driven 3D-consistent scene generation model: SceneDreamer360. Our proposed method leverages a text-driven panoramic image generation model as a prior for 3D scene generation and employs 3D Gaussian Splatting (3DGS) to ensure consistency across multi-view panoramic images. Specifically, SceneDreamer360 enhances the fine-tuned Panfusion generator with a three-stage panoramic enhancement, enabling the generation of high-resolution, detail-rich panoramic images. During the 3D scene construction, a novel point cloud fusion initialization method is used, producing higher quality and spatially consistent point clouds. Our extensive experiments demonstrate that compared to other methods, SceneDreamer360 with its panoramic image generation and 3DGS can produce higher quality, spatially consistent, and visually appealing 3D scenes from any text prompt. Our codes are available at \url{https://github.com/liwrui/SceneDreamer360}.
翻訳日:2024-11-08 05:15:13 公開日:2024-10-14
# NPM生態系の破壊的変化の理解向上に向けて

Towards Better Comprehension of Breaking Changes in the NPM Ecosystem ( http://arxiv.org/abs/2408.14431v2 )

ライセンス: Link先を確認
Dezhen Kong, Jiakun Liu, Lingfeng Bao, David Lo, (参考訳) 下流の開発者は、破壊的な変更に適応する必要があるし、上流の開発者はそれらを識別し、文書化する責任がある。 NPMエコシステムでは、頻繁なコード変更と破壊的な変更に対する高い耐性によって特徴づけられるが、その労力は大きい。 NPMエコシステムの破壊的変化の理解を深め,破壊的変化検出ツールを強化するため,我々はNPMエコシステムの破壊的変化を大規模に調査する。 我々は381のNPMプロジェクトから明示的に文書化された破壊的変更のデータセットを構築した。 検出された破壊的な変更の95.4%は開発者のドキュメントでカバーでき、破壊的な変更の約19%は回帰テストでは検出できない。 次に、収集した破壊的変化のソースコードを調べる過程で、JavaScriptとTypeScript固有の構文的破壊的変化の分類と、主要な行動的破壊的変化の分類が得られる。 さらに、開発者がNPMの破壊的な変更を行う理由を調査し、コードの冗長性を減らし、識別子名を改善し、API設計を改善する3つの主な理由を見つけ、それぞれのカテゴリにはいくつかのサブ項目が含まれている。 例えば、JavaScriptプロジェクトでは、識別子名を改善するために自動命名とリネーム技術が適用されるべきであり、将来の研究では、より多くのタイプの行動破壊的な変更を検出することができる。 本発表では,自動改名および変更検出手法の弱点についても論じる。

Breaking changes cause a lot of effort to both downstream and upstream developers: downstream developers need to adapt to breaking changes and upstream developers are responsible for identifying and documenting them. In the NPM ecosystem, characterized by frequent code changes and a high tolerance for making breaking changes, the effort is larger. For better comprehension of breaking changes in the NPM ecosystem and to enhance breaking change detection tools, we conduct a large-scale empirical study to investigate breaking changes in the NPM ecosystem. We construct a dataset of explicitly documented breaking changes from 381 popular NPM projects. We find that 95.4% of the detected breaking changes can be covered by developers' documentation, and about 19% of the breaking changes cannot be detected by regression testing. Then in the process of investigating source code of our collected breaking changes, we yield a taxonomy of JavaScript and TypeScript-specific syntactic breaking changes and a taxonomy of major types of behavioral breaking changes. Additionally, we investigate the reasons why developers make breaking changes in NPM and find three major reasons, i.e., to reduce code redundancy, to improve identifier name, and to improve API design, and each category contains several sub-items. We provide actionable implications for future research, e.g., automatic naming and renaming techniques should be applied in JavaScript projects to improve identifier names, future research can try to detect more types of behavioral breaking changes. By presenting the implications, we also discuss the weakness of automatic renaming and breaking change detection approaches.
翻訳日:2024-11-08 05:04:12 公開日:2024-10-14
# レビュー:Multi-Body Systemsによる量子メトロロジーとセンシング

Review: Quantum Metrology and Sensing with Many-Body Systems ( http://arxiv.org/abs/2408.15323v2 )

ライセンス: Link先を確認
Victor Montenegro, Chiranjib Mukhopadhyay, Rozhin Yousefjani, Saubhik Sarkar, Utkarsh Mishra, Matteo G. A. Paris, Abolfazl Bayat, (参考訳) 量子センサーの主動力は、プローブが複数の粒子で構成されているときに達成される。 この状況では、絡み合いのような量子的特徴は、古典的なセンサーの容量を超えて量子センサーの精度を高めるのに寄与する。 当初、量子センシングは、最大エンタングル状態の特別な形で調製される非相互作用粒子に対して定式化された。 これらのプローブはデコヒーレンスに非常に敏感であり、粒子間の相互作用はそれらの性能に有害である。 量子センシングのための別のフレームワークが、粒子間の相互作用が重要な役割を果たす量子多体系を利用して開発されている。 本稿では,量子力学とセンシングにおける後者のアプローチの異なる側面について検討する。 多体プローブは平衡と非平衡の両方のシナリオで用いられている。 量子臨界は、両方のシナリオにおいて量子強化感度を達成するためのリソースとして特定されている。 平衡では、第1次、第2次、トポロジカル、局在化相転移などの様々な臨界が知覚目的のために利用されてきた。 非平衡のシナリオでは、Floquet、散逸性、および時間結晶相転移に対する量子増強感度が発見された。 これらの臨界にはそれぞれの特性があるが、1つの特徴の存在は量子増強感度(エネルギー/準エネルギーギャップ閉鎖)を達成するのに不可欠である。 非平衡量子センシングでは、時間はプローブの感度に影響を与える別のパラメータである。 通常、感度はプローブが時間の経過とともに向上する。 一般に、非平衡量子センサーのリソースのより完全な理解は急速に進化している。 本稿では,近年の量子気象学の進歩と多体システムを用いたセンシングについて概説する。

The main power of quantum sensors is achieved when the probe is composed of several particles. In this situation, quantum features such as entanglement contribute in enhancing the precision of quantum sensors beyond the capacity of classical sensors. Originally, quantum sensing was formulated for non-interacting particles which are prepared in a special form of maximally entangled states. These probes are extremely sensitive to decoherence and any interaction between particles is detrimental to their performance. An alternative framework for quantum sensing has been developed exploiting quantum many-body systems, where the interaction between particles plays a crucial role. In this review, we investigate different aspects of the latter approach for quantum metrology and sensing. Many-body probes have been used in both equilibrium and non-equilibrium scenarios. Quantum criticality has been identified as a resource for achieving quantum enhanced sensitivity in both scenarios. In equilibrium, various types of criticalities, such as first order, second order, topological, and localization phase transitions have been exploited for sensing purposes. In non-equilibrium scenarios, quantum enhanced sensitivity has been discovered for Floquet, dissipative, and time crystal phase transitions. While each type of these criticalities has its own characteristics, the presence of one feature is crucial for achieving quantum enhanced sensitivity: the energy/quasi-energy gap closing. In non-equilibrium quantum sensing, time is another parameter which can affect the sensitivity of the probe. Typically, the sensitivity enhances as the probe evolves in time. In general, a more complete understanding of resources for non-equilibrium quantum sensors is now rapidly evolving. In this review, we provide an overview of recent progress in quantum metrology and sensing using many-body systems.
翻訳日:2024-11-08 04:41:58 公開日:2024-10-14
# スピン依存エキゾチック相互作用

Spin-dependent exotic interactions ( http://arxiv.org/abs/2408.15691v3 )

ライセンス: Link先を確認
Lei Cong, Wei Ji, Pavel Fadeev, Filip Ficek, Min Jiang, Victor V. Flambaum, Haosen Guan, Derek F. Jackson Kimball, Mikhail G. Kozlov, Yevgeny V. Stadnik, Dmitry Budker, (参考訳) 自然界における4つの既知の基本的な力(電磁力、重力力、強い力、弱い相互作用)を超えた新しい相互作用は、「5番目の力」として表される標準モデルを超えた「新しい物理学」によって生じる可能性がある。 このレビューでは、スピン-0軸索や軸索状粒子、スピン-1 Z'ボソン、ダーク光子、パラフォトンなどのエキゾチックなボソンを介するスピン依存第5の力に焦点を当てている。 これらのエキゾチックなボソンの多くはダークマターとダークエネルギーの性質を説明する候補であり、それらの相互作用は基本的な対称性に反する可能性がある。 エキゾチックボソンの交換によって媒介されるフェルミオン間のスピン依存的な相互作用は、様々な実験、特に低エネルギーフロンティアにおいて研究されている。 原子磁気センサ、トーションバランス、窒素空きスピンセンサー、精密原子・分子分光法などの異種スピン依存相互作用を探索するために用いられる実験方法とツールについて述べる。 最小の仮定を持つ量子場理論に基づいて導かれる相互作用ポテンシャルの完全な集合を、結合定数の減少という観点で特徴づける。 エキゾチックなスピン依存相互作用に関する既存の実験的および観察的な制約を包括的に要約し、現在の研究状況と今後の研究の有望な方向性を説明する。

Novel interactions beyond the four known fundamental forces in nature (electromagnetic, gravitational, strong and weak interactions), may arise due to "new physics" beyond the standard model, manifesting as a "fifth force". This review is focused on spin-dependent fifth forces mediated by exotic bosons such as spin-0 axions and axionlike particles and spin-1 Z' bosons, dark photons, or paraphotons. Many of these exotic bosons are candidates to explain the nature of dark matter and dark energy, and their interactions may violate fundamental symmetries. Spin-dependent interactions between fermions mediated by the exchange of exotic bosons have been investigated in a variety of experiments, particularly at the low-energy frontier. Experimental methods and tools used to search for exotic spin-dependent interactions, such as atomic comagnetometers, torsion balances, nitrogen-vacancy spin sensors, and precision atomic and molecular spectroscopy, are described. A complete set of interaction potentials, derived based on quantum field theory with minimal assumptions and characterized in terms of reduced coupling constants, are presented. A comprehensive summary of existing experimental and observational constraints on exotic spin-dependent interactions is given, illustrating the current research landscape and promising directions of further research.
翻訳日:2024-11-08 04:30:58 公開日:2024-10-14
# ポリレーション:LCM評価のための費用効果・バイアス認識評価システム

Polyrating: A Cost-Effective and Bias-Aware Rating System for LLM Evaluation ( http://arxiv.org/abs/2409.00696v2 )

ライセンス: Link先を確認
Jasper Dekoninck, Maximilian Baader, Martin Vechev, (参考訳) レーティングに基づく人間評価は,大規模言語モデル(LLM)の印象的な性能を正確に評価するための重要なツールとなっている。 しかし、現在のレーティングシステムにはいくつかの重要な制限がある: 第一に、評価結果に大きな影響を及ぼすバイアスを考慮できないこと、第二に、正確なレーティングを得るために大規模で高価な選好データセットを必要とすること、第三に、異なるタスク間でのモデルレーティングの有意義な比較を促進すること、である。 これらの問題に対処するために, モデル性能のよりきめ細やかな解析を低コストで行えるような, 最大余剰推定に基づく表現的かつ柔軟な評価システムであるPolyratingを導入する。 ポリケーションは人間の嗜好に影響を与えるバイアスを検出し定量化し、より公平なモデル比較を保証する。 さらに、Polyratingは、既存のベンチマークスコアを活用することで、新しいモデルで最大411\%、新しいタスクで最大77\%の人的評価コストを削減できる。 最後に、Polyratingは異なるタスク間でのレーティングの直接比較を可能にし、異なるアプリケーション間でのLLMの強み、弱点、相対的なパフォーマンスの包括的な理解を提供する。

Rating-based human evaluation has become an essential tool to accurately evaluate the impressive performance of large language models (LLMs). However, current rating systems suffer from several important limitations: first, they fail to account for biases that significantly influence evaluation results, second, they require large and expensive preference datasets to obtain accurate ratings, and third, they do not facilitate meaningful comparisons of model ratings across different tasks. To address these issues, we introduce Polyrating, an expressive and flexible rating system based on maximum a posteriori estimation that enables a more nuanced and thorough analysis of model performance at lower costs. Polyrating can detect and quantify biases affecting human preferences, ensuring fairer model comparisons. Further, Polyrating can reduce the cost of human evaluations by up to $41\%$ for new models and up to $77\%$ for new tasks by leveraging existing benchmark scores. Lastly, Polyrating enables direct comparisons of ratings across different tasks, providing a comprehensive understanding of an LLMs' strengths, weaknesses, and relative performance across different applications.
翻訳日:2024-11-08 03:46:24 公開日:2024-10-14
# FC-KAN:Kolmogorov-Arnoldネットワークにおける機能結合

FC-KAN: Function Combinations in Kolmogorov-Arnold Networks ( http://arxiv.org/abs/2409.01763v2 )

ライセンス: Link先を確認
Hoang-Thang Ta, Duy-Quy Thai, Abu Bakar Siddiqur Rahman, Grigori Sidorov, Alexander Gelbukh, (参考訳) 本稿では,B-スプライン,ウェーブレット,ラジアル基底関数といった一般的な数学的関数を,要素演算による低次元データ上で組み合わせた,コルモゴロフ・アルノルドネットワーク(KAN)について紹介する。 これらの関数の出力を和、要素積、和と要素積の追加、二次関数表現、連結などを組み合わせるためのいくつかの方法を検討する。 実験では,MNISTデータセットとFashion-MNISTデータセットを用いて,FC-KANとBSRBF-KAN,EfficientKAN,FastKAN,FasterKANなどの既存のKANとを比較した。 B-スプラインからの出力とガウス差分(DoG)を2次関数の形で組み合わせたFC-KANの変種は、5つの独立したトレーニングランの平均で他のモデルよりも優れていた。 我々は,FC-KANが機能の組み合わせを利用して将来のkanを設計できることを期待している。 私たちのリポジトリは、https://github.com/hoangthangta/FC_KAN.comで公開されています。

In this paper, we introduce FC-KAN, a Kolmogorov-Arnold Network (KAN) that leverages combinations of popular mathematical functions such as B-splines, wavelets, and radial basis functions on low-dimensional data through element-wise operations. We explore several methods for combining the outputs of these functions, including sum, element-wise product, the addition of sum and element-wise product, quadratic function representation, and concatenation. In our experiments, we compare FC-KAN with multi-layer perceptron network (MLP) and other existing KANs, such as BSRBF-KAN, EfficientKAN, FastKAN, and FasterKAN, on the MNIST and Fashion-MNIST datasets. A variant of FC-KAN, which uses a combination of outputs from B-splines and Difference of Gaussians (DoG) in the form of a quadratic function, outperformed all other models on the average of 5 independent training runs. We expect that FC-KAN can leverage function combinations to design future KANs. Our repository is publicly available at: https://github.com/hoangthangta/FC_KAN.
翻訳日:2024-11-08 03:23:46 公開日:2024-10-14
# 自己計算とゼロ知識検証による電子決済

Private Electronic Payments with Self-Custody and Zero-Knowledge Verified Reissuance ( http://arxiv.org/abs/2409.01958v2 )

ライセンス: Link先を確認
Daniele Friolo, Geoffrey Goodell, Dann Toliver, Hazem Danny Nakib, (参考訳) この記事では、Goodell氏、Toliver氏、Nakib氏が説明したデジタルトランスファーのプロトコルに基づいています。 我々は,再発行された資産が,発行者以外の者による新規資産の発行を禁じる規則に従って作成されたことの確認を可能にするため,当該資産が作成されている状況に関する情報を公開せずに,当該資産が発行者を特定することができるようにプロトコルを拡張した。 修正されたプロトコルは、監査ログとゼロ知識証明を組み合わせることで、どのエントリがどのエントリであるかを特定することなく、アセットに関連付けられた監査ログに有効なエントリが存在することを示すことができる。 この資産は、システムオペレーターが原発行者の制御範囲に関与することなく、システム内で再発行される資金を許容する手段として重要である。 また、プライバシを尊重する電子決済の重要な性質として、ある取引から次の取引まで秘密を保管する必要がなくなり、デジタル資産の保管に対するセキュリティ要件と、脅迫や強制のリスクを、支払い履歴に関する情報を流出させる手段として、この性質が不可欠であると主張する。 我々は、当社のプロトコルの設計は、支払い取引に関する支払者の匿名性を強く保護すると同時に、原発行者以外の当事者による資産の創出を、同等の価値の資産を破壊することなく防止すると主張している。

This article builds upon the protocol for digital transfers described by Goodell, Toliver, and Nakib, which combines privacy by design for consumers with strong compliance enforcement for recipients of payments and self-validating assets that carry their own verifiable provenance information. We extend the protocol to allow for the verification that reissued assets were created in accordance with rules prohibiting the creation of new assets by anyone but the issuer, without exposing information about the circumstances in which the assets were created that could be used to identify the payer. The modified protocol combines an audit log with zero-knowledge proofs, so that a consumer spending an asset can demonstrate that there exists a valid entry on the audit log that is associated with the asset, without specifying which entry it is. This property is important as a means to allow money to be reissued within the system without the involvement of system operators within the zone of control of the original issuer. Additionally, we identify a key property of privacy-respecting electronic payments, wherein the payer is not required to retain secrets arising from one transaction until the following transaction, and argue that this property is essential to framing security requirements for storage of digital assets and the risk of blackmail or coercion as a way to exfiltrate information about payment history. We claim that the design of our protocol strongly protects the anonymity of payers with respect to their payment transactions, while preventing the creation of assets by any party other than the original issuer without destroying assets of equal value.
翻訳日:2024-11-07 23:56:04 公開日:2024-10-14
# 言語モデルを用いたディジタル生物学

Language Model Powered Digital Biology ( http://arxiv.org/abs/2409.02864v2 )

ライセンス: Link先を確認
Joshua Pickard, Marc Andrew Choi, Natalie Oliven, Cooper Stansbury, Jillian Cwycyshyn, Nicholas Galioto, Alex Gorodetsky, Alvaro Velasquez, Indika Rajapakse, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、生物学、コンピュータ科学、その他多くの研究分野を変革し、日常生活に影響を与えている。 トランスフォーマーベースの技術は現在生物学で展開されているが、バイオインフォマティクスのワークフローに取り組むためのエージェントシステムは開発されていない。 本稿では,バイオインフォマティクス検索データ(BRAD)デジタルアシスタントのプロトタイプについて述べる。 BRADは、コード実行からオンライン検索まで、バイオインフォマティクスタスクを処理する一連のツールを統合するチャットボットとエージェントシステムである。 我々は,(1)検索拡張生成(RAG)による質問・回答の改善,(2)複雑なソフトウェアパイプラインの実行能力,(3)エージェントワークフローにおけるタスクの整理・配布能力を通じて,その能力を実証する。 我々は、BRADを使って、遺伝子富化やアーカイブ検索から、バイオマーカー識別パイプラインを実行するための自動コード生成まで、タスクを自動化します。 BRADは、デジタル生物学のための自動運転ラボへの一歩だ。

Recent advancements in Large Language Models (LLMs) are transforming biology, computer science, and many other research fields, as well as impacting everyday life. While transformer-based technologies are currently being deployed in biology, no available agentic system has been developed to tackle bioinformatics workflows. We present a prototype Bioinformatics Retrieval Augmented Data (BRAD) digital assistant. BRAD is a chatbot and agentic system that integrates a suite of tools to handle bioinformatics tasks, from code execution to online search. We demonstrate its capabilities through (1) improved question-and-answering with retrieval augmented generation (RAG), (2) the ability to run complex software pipelines, and (3) the ability to organize and distribute tasks in agentic workflows. We use BRAD for automation, performing tasks ranging from gene enrichment and searching the archive to automatic code generation for running biomarker identification pipelines. BRAD is a step toward autonomous, self-driving labs for digital biology.
翻訳日:2024-11-07 23:34:03 公開日:2024-10-14
# 補間・補間・補間・補間:新しい次元への一般化

Interpolation, Extrapolation, Hyperpolation: Generalising into new dimensions ( http://arxiv.org/abs/2409.05513v2 )

ライセンス: Link先を確認
Toby Ord, (参考訳) 本稿では、補間と外挿というより馴染み深い概念に匹敵する、限られたデータポイントから一般化する方法であるハイパーポーリングの概念を紹介する。 ハイパーポーレーション(英: Hyperpolation)とは、既存のデータの部分空間(または多様体)の外側にある新しい位置における関数の値を推定するタスクである。 ハイパーポーレーションは可能であり、芸術や科学における創造性との関係を探求する。 また、機械学習におけるハイパーポーラレーションの役割についても検討し、現在のAIシステムにおける基本的な創造性の欠如が、ハイパーポーラレーションの限られた能力と深く結びついていることを示唆する。

This paper introduces the concept of hyperpolation: a way of generalising from a limited set of data points that is a peer to the more familiar concepts of interpolation and extrapolation. Hyperpolation is the task of estimating the value of a function at new locations that lie outside the subspace (or manifold) of the existing data. We shall see that hyperpolation is possible and explore its links to creativity in the arts and sciences. We will also examine the role of hyperpolation in machine learning and suggest that the lack of fundamental creativity in current AI systems is deeply connected to their limited ability to hyperpolate.
翻訳日:2024-11-07 22:27:40 公開日:2024-10-14
# 逆レジリエント学習ブルームフィルタ

Adversary Resilient Learned Bloom Filters ( http://arxiv.org/abs/2409.06556v2 )

ライセンス: Link先を確認
Allison Bishop, Hayder Tirmazi, (参考訳) 証明可能な保証付き学習ブルームフィルタの逆レジリエントな構築を作成することは、オープンな問題である。 本研究では,学習ブルームフィルタの強敵対モデルを定義する。 我々の逆数モデルは、従来の作業により古典的(すなわち ``Learned'' ではない)ブルームフィルタのために設計された既存の逆数モデルを拡張し、確率多項式時間(PPT)で実行される計算的に有界な逆数を考える。 本稿では,本モデルを用いて,ボデガ中心街フィルタと呼ばれる学習ブルームフィルタの逆レジリエントな変種を構築した。 擬似ランダム置換が存在する場合、逆レジリエント学習ブルームフィルタは2\lambda$余分なメモリと、クリティカルパス内の少なくとも1つの擬似ランダム置換で構築できる。 クエリのワークロードのごく一部が相手によって選択される場合のハイブリッド逆数モデルを構築する。 ボデガ中心街フィルタを用いた場合、このハイブリッドモデルでは代替手法に比べて性能保証が優れているという現実的なシナリオを示す。

Creating an adversary resilient construction of the Learned Bloom Filter with provable guarantees is an open problem. We define a strong adversarial model for the Learned Bloom Filter. Our adversarial model extends an existing adversarial model designed for the Classical (i.e not ``Learned'') Bloom Filter by prior work and considers computationally bounded adversaries that run in probabilistic polynomial time (PPT). Using our model, we construct an adversary resilient variant of the Learned Bloom Filter called the Downtown Bodega Filter. We show that: if pseudo-random permutations exist, then an Adversary Resilient Learned Bloom Filter may be constructed with $2\lambda$ extra bits of memory and at most one extra pseudo-random permutation in the critical path. We construct a hybrid adversarial model for the case where a fraction of the query workload is chosen by an adversary. We show realistic scenarios where using the Downtown Bodega Filter gives better performance guarantees compared to alternative approaches in this hybrid model.
翻訳日:2024-11-07 22:16:23 公開日:2024-10-14
# 逆レジリエント学習ブルームフィルタ

Adversary Resilient Learned Bloom Filters ( http://arxiv.org/abs/2409.06556v3 )

ライセンス: Link先を確認
Allison Bishop, Hayder Tirmazi, (参考訳) 証明可能な保証付き学習ブルームフィルタの逆レジリエントな構築を作成することは、オープンな問題である。 本研究では,学習ブルームフィルタの強敵対モデルを定義する。 我々の逆数モデルは、従来の作業により古典的(すなわち ``Learned'' ではない)ブルームフィルタのために設計された既存の逆数モデルを拡張し、確率多項式時間(PPT)で実行される計算的に有界な逆数を考える。 本稿では,本モデルを用いて,ボデガ中心街フィルタと呼ばれる学習ブルームフィルタの逆レジリエントな変種を構築した。 擬似ランダム置換が存在する場合、逆レジリエント学習ブルームフィルタは2\lambda$余分なメモリと、クリティカルパス内の少なくとも1つの擬似ランダム置換で構築できる。 クエリのワークロードのごく一部が相手によって選択される場合のハイブリッド逆数モデルを構築する。 ボデガ中心街フィルタを用いた場合、このハイブリッドモデルでは代替手法に比べて性能保証が優れているという現実的なシナリオを示す。

Creating an adversary resilient construction of the Learned Bloom Filter with provable guarantees is an open problem. We define a strong adversarial model for the Learned Bloom Filter. Our adversarial model extends an existing adversarial model designed for the Classical (i.e not ``Learned'') Bloom Filter by prior work and considers computationally bounded adversaries that run in probabilistic polynomial time (PPT). Using our model, we construct an adversary resilient variant of the Learned Bloom Filter called the Downtown Bodega Filter. We show that: if pseudo-random permutations exist, then an Adversary Resilient Learned Bloom Filter may be constructed with $2\lambda$ extra bits of memory and at most one extra pseudo-random permutation in the critical path. We construct a hybrid adversarial model for the case where a fraction of the query workload is chosen by an adversary. We show realistic scenarios where using the Downtown Bodega Filter gives better performance guarantees compared to alternative approaches in this hybrid model.
翻訳日:2024-11-07 22:05:05 公開日:2024-10-14
# MLP, XGBoost, Kan, TDNN, LSTM-GRU Hybrid RNN : SPXおよびNDX European Calltion Pricingへの留意

MLP, XGBoost, KAN, TDNN, and LSTM-GRU Hybrid RNN with Attention for SPX and NDX European Call Option Pricing ( http://arxiv.org/abs/2409.06724v3 )

ライセンス: Link先を確認
Boris Ter-Avanesov, Homayoon Beigi, (参考訳) マルチ層パーセプトロン(MLP)、コルモゴロフ・アルノルドネットワーク(KAN)、LSTM-GRUハイブリッド再帰ニューラルネットワーク(RNN)モデル、ヨーロッパでのコールオプションの価格設定のための時間遅延ニューラルネットワーク(TDNN)など、さまざまなニューラルネットワークアーキテクチャの性能について検討する。 本研究では,ANN,KANSA,勾配型決定木などの教師付き学習手法を用いて,過去の市場データに基づいてオプション価格を調整するために,複雑な多変量関数を近似する手法を提案する。 ANNとkansを使う動機は、それぞれUniversal Approximation TheoremとKolmogorov-Arnold Representation Theoremである。 具体的には、2015~2023年に取引されたS\&P 500(SPX)とNASDAQ 100(NDX)インデックスオプションを15日から4年以上にわたって使用しています(OptionMetrics IvyDB USデータセット)。 Black \&Scholes's (BS) PDE \cite{Black1973} モデルでは、実際のデータと同等の価格設定がベンチマークとして使用される。 このモデルは強い仮定に依存しており、実際のデータは予測と一致しないという文献で観察され議論されている。 このモデルのいくつかの制限により、オプション価格を調整するための代替手段として、教師付き学習法が広く用いられている。 我々の実験では、BSモデルは他のすべてのモデルと比較して性能が劣る。 また、最良のTDNNモデルは、すべてのエラーメトリクスで最高のMLPモデルよりも優れています。 我々は、RNNモデルを強化し、その性能を大幅に向上させる、シンプルな自己認識機構を実装した。 全体として最高の性能モデルはLSTM-GRUハイブリッドRNNモデルである。 また、kanモデルはTDNNおよびMLPモデルよりも優れている。 我々は,すべてのモデルの性能を,ティッカー,金銭性カテゴリ,過/過/過/誤価格の比率で分析する。

We explore the performance of various artificial neural network architectures, including a multilayer perceptron (MLP), Kolmogorov-Arnold network (KAN), LSTM-GRU hybrid recursive neural network (RNN) models, and a time-delay neural network (TDNN) for pricing European call options. In this study, we attempt to leverage the ability of supervised learning methods, such as ANNs, KANs, and gradient-boosted decision trees, to approximate complex multivariate functions in order to calibrate option prices based on past market data. The motivation for using ANNs and KANs is the Universal Approximation Theorem and Kolmogorov-Arnold Representation Theorem, respectively. Specifically, we use S\&P 500 (SPX) and NASDAQ 100 (NDX) index options traded during 2015-2023 with times to maturity ranging from 15 days to over 4 years (OptionMetrics IvyDB US dataset). Black \& Scholes's (BS) PDE \cite{Black1973} model's performance in pricing the same options compared to real data is used as a benchmark. This model relies on strong assumptions, and it has been observed and discussed in the literature that real data does not match its predictions. Supervised learning methods are widely used as an alternative for calibrating option prices due to some of the limitations of this model. In our experiments, the BS model underperforms compared to all of the others. Also, the best TDNN model outperforms the best MLP model on all error metrics. We implement a simple self-attention mechanism to enhance the RNN models, significantly improving their performance. The best-performing model overall is the LSTM-GRU hybrid RNN model with attention. Also, the KAN model outperforms the TDNN and MLP models. We analyze the performance of all models by ticker, moneyness category, and over/under/correctly-priced percentage.
翻訳日:2024-11-07 22:05:05 公開日:2024-10-14
# ローカライズされたシュレーディンガー橋サンプリング機

Localized Schrödinger Bridge Sampler ( http://arxiv.org/abs/2409.07968v2 )

ライセンス: Link先を確認
Georg A. Gottwald, Sebastian Reich, (参考訳) 十分な数のトレーニングサンプルしか入手できない未知の分布からサンプリングする際の生成的問題を考察する。 本稿では、Schr\\odinger BridgesとLangevin dynamicsを組み合わせた以前の研究に基づいて構築する。 このアプローチの鍵となるボトルネックは、環境状態空間の次元$d$における必要なトレーニングサンプルの指数関数的依存である。 条件付き期待値の条件付き独立性を利用した局所化戦略を提案する。 したがって、ローカライゼーションは単一の高次元シュリンガーブリッジ問題を、利用可能なトレーニングサンプルよりも$d$低次元シュリンガーブリッジ問題に置き換える。 この文脈では、マルチヘッドセルフアテンション・トランスフォーマーアーキテクチャとの接続が確立される。 元のSchr\"odinger bridge sample(英語版)アプローチでは、局所的なサンプリングは安定で幾何学的エルゴディックである。 サンプルは自然に条件付きサンプリングやベイズ推論にも拡張される。 本研究では,次元の増大を伴うガウス問題,時間的確率過程,確率的サブグリッドスケールパラメトリゼーション条件付きサンプリング問題において,提案手法の性能を実証する。

We consider the generative problem of sampling from an unknown distribution for which only a sufficiently large number of training samples are available. In this paper, we build on previous work combining Schr\"odinger bridges and Langevin dynamics. A key bottleneck of this approach is the exponential dependence of the required training samples on the dimension, $d$, of the ambient state space. We propose a localization strategy which exploits conditional independence of conditional expectation values. Localization thus replaces a single high-dimensional Schr\"odinger bridge problem by $d$ low-dimensional Schr\"odinger bridge problems over the available training samples. In this context, a connection to multi-head self attention transformer architectures is established. As for the original Schr\"odinger bridge sampling approach, the localized sampler is stable and geometric ergodic. The sampler also naturally extends to conditional sampling and to Bayesian inference. We demonstrate the performance of our proposed scheme through experiments on a Gaussian problem with increasing dimensions, on a temporal stochastic process, and on a stochastic subgrid-scale parametrization conditional sampling problem.
翻訳日:2024-11-07 21:31:36 公開日:2024-10-14
# MedSegMamba:脳セグメンテーションのための3D CNN-Mambaハイブリッドアーキテクチャ

MedSegMamba: 3D CNN-Mamba Hybrid Architecture for Brain Segmentation ( http://arxiv.org/abs/2409.08307v2 )

ライセンス: Link先を確認
Aaron Cao, Zongyu Li, Jia Guo, (参考訳) 皮質下脳のセグメンテーションに広く使われている伝統的なパイプラインは、特に大規模なデータセットを処理する際には、しばしば非効率で遅い。 さらに、ディープラーニングモデルは、MRI画像の高解像度化と多くの解剖学的クラスが関与しているため、課題に直面している。 これらの制約に対処するため,Mambaの選択的スキャンアルゴリズムを利用した3次元パッチベースハイブリッドCNN-Mambaモデルを開発した。 この振り返り調査では、1784個のT1強調MRIスキャンを、健康な人の多地点データセットから利用した。 データセットは1076/345/363の分割でトレーニング、検証、テストセットに分割された。 スキャンは1.5Tと3TのMRIマシンから得られた。 我々のモデルの性能は、FreeSurfer生成した基底真理を用いて、他のCNN-Mamba、CNN-Transformer、純粋なCNNネットワークを含むいくつかのベンチマークで検証された。 評価指標としてDice similarity Coefficient (DSC), Volume similarity (VS), Average Symmetric Surface Distance (ASSD) を用いた。 統計的意義は、P < 0.05の閾値を持つウィルコクソン符号ランク試験を用いて決定された。 提案したモデルは全指標(DSC 0.88383; VS 0.97076; ASSD 0.33604)で最高性能を達成し、非マンバ系モデル(P < 0.001)を著しく上回った。 このモデルは、他のMambaモデル(P値0.114と0.425)に比べてDSCやVSの大幅な改善は見られなかったが、ASSD(P < 0.001)では約20%少ないパラメータで大幅に向上した。 結論として,提案するハイブリッドCNN-Mambaアーキテクチャは3次元皮質下脳セグメンテーションに対して効率的かつ正確なアプローチを提供し,既存の手法に対する潜在的な優位性を示す。

Widely used traditional pipelines for subcortical brain segmentation are often inefficient and slow, particularly when processing large datasets. Furthermore, deep learning models face challenges due to the high resolution of MRI images and the large number of anatomical classes involved. To address these limitations, we developed a 3D patch-based hybrid CNN-Mamba model that leverages Mamba's selective scan algorithm, thereby enhancing segmentation accuracy and efficiency for 3D inputs. This retrospective study utilized 1784 T1-weighted MRI scans from a diverse, multi-site dataset of healthy individuals. The dataset was divided into training, validation, and testing sets with a 1076/345/363 split. The scans were obtained from 1.5T and 3T MRI machines. Our model's performance was validated against several benchmarks, including other CNN-Mamba, CNN-Transformer, and pure CNN networks, using FreeSurfer-generated ground truths. We employed the Dice Similarity Coefficient (DSC), Volume Similarity (VS), and Average Symmetric Surface Distance (ASSD) as evaluation metrics. Statistical significance was determined using the Wilcoxon signed-rank test with a threshold of P < 0.05. The proposed model achieved the highest overall performance across all metrics (DSC 0.88383; VS 0.97076; ASSD 0.33604), significantly outperforming all non-Mamba-based models (P < 0.001). While the model did not show significant improvement in DSC or VS compared to another Mamba-based model (P-values of 0.114 and 0.425), it demonstrated a significant enhancement in ASSD (P < 0.001) with approximately 20% fewer parameters. In conclusion, our proposed hybrid CNN-Mamba architecture offers an efficient and accurate approach for 3D subcortical brain segmentation, demonstrating potential advantages over existing methods.
翻訳日:2024-11-07 21:20:36 公開日:2024-10-14
# MedSegMamba:脳セグメンテーションのための3D CNN-Mambaハイブリッドアーキテクチャ

MedSegMamba: 3D CNN-Mamba Hybrid Architecture for Brain Segmentation ( http://arxiv.org/abs/2409.08307v3 )

ライセンス: Link先を確認
Aaron Cao, Zongyu Li, Jordan Jomsky, Andrew F. Laine, Jia Guo, (参考訳) 皮質下脳のセグメンテーションに広く使われている伝統的なパイプラインは、特に大規模なデータセットを処理する際には、しばしば非効率で遅い。 さらに、ディープラーニングモデルは、MRI画像の高解像度化と多くの解剖学的クラスが関与しているため、課題に直面している。 これらの制約に対処するため,Mambaの選択的スキャンアルゴリズムを利用した3次元パッチベースハイブリッドCNN-Mambaモデルを開発した。 この振り返り調査では、1784個のT1強調MRIスキャンを、健康な人の多地点データセットから利用した。 データセットは1076/345/363の分割でトレーニング、検証、テストセットに分割された。 スキャンは1.5Tと3TのMRIマシンから得られた。 我々のモデルの性能は、FreeSurfer生成した基底真理を用いて、他のCNN-Mamba、CNN-Transformer、純粋なCNNネットワークを含むいくつかのベンチマークで検証された。 評価指標としてDice similarity Coefficient (DSC), Volume similarity (VS), Average Symmetric Surface Distance (ASSD) を用いた。 統計的意義は、P < 0.05の閾値を持つウィルコクソン符号ランク試験を用いて決定された。 提案したモデルは全指標(DSC 0.88383; VS 0.97076; ASSD 0.33604)で最高性能を達成し、非マンバ系モデル(P < 0.001)を著しく上回った。 このモデルは、他のMambaモデル(P値0.114と0.425)に比べてDSCやVSの大幅な改善は見られなかったが、ASSD(P < 0.001)では約20%少ないパラメータで大幅に向上した。 結論として,提案するハイブリッドCNN-Mambaアーキテクチャは3次元皮質下脳セグメンテーションに対して効率的かつ正確なアプローチを提供し,既存の手法に対する潜在的な優位性を示す。 コードは、https://github.com/aaroncao06/MedSegMamba.comで入手できる。

Widely used traditional pipelines for subcortical brain segmentation are often inefficient and slow, particularly when processing large datasets. Furthermore, deep learning models face challenges due to the high resolution of MRI images and the large number of anatomical classes involved. To address these limitations, we developed a 3D patch-based hybrid CNN-Mamba model that leverages Mamba's selective scan algorithm, thereby enhancing segmentation accuracy and efficiency for 3D inputs. This retrospective study utilized 1784 T1-weighted MRI scans from a diverse, multi-site dataset of healthy individuals. The dataset was divided into training, validation, and testing sets with a 1076/345/363 split. The scans were obtained from 1.5T and 3T MRI machines. Our model's performance was validated against several benchmarks, including other CNN-Mamba, CNN-Transformer, and pure CNN networks, using FreeSurfer-generated ground truths. We employed the Dice Similarity Coefficient (DSC), Volume Similarity (VS), and Average Symmetric Surface Distance (ASSD) as evaluation metrics. Statistical significance was determined using the Wilcoxon signed-rank test with a threshold of P < 0.05. The proposed model achieved the highest overall performance across all metrics (DSC 0.88383; VS 0.97076; ASSD 0.33604), significantly outperforming all non-Mamba-based models (P < 0.001). While the model did not show significant improvement in DSC or VS compared to another Mamba-based model (P-values of 0.114 and 0.425), it demonstrated a significant enhancement in ASSD (P < 0.001) with approximately 20% fewer parameters. In conclusion, our proposed hybrid CNN-Mamba architecture offers an efficient and accurate approach for 3D subcortical brain segmentation, demonstrating potential advantages over existing methods. Code is available at: https://github.com/aaroncao06/MedSegMamba.
翻訳日:2024-11-07 21:20:36 公開日:2024-10-14
# many‐boody Open Quantum Systems

Many-Body Open Quantum Systems ( http://arxiv.org/abs/2409.10300v2 )

ライセンス: Link先を確認
Rosario Fazio, Jonathan Keeling, Leonardo Mazza, Marco Schirò, (参考訳) これらの講義ノートは、散逸性およびコヒーレントなプロセスの両方を高次に調整・制御できるプラットフォームにおけるオープン量子多体物理学の理解における最近の理論的進歩について論じている。 まず、オープンな量子多体システムを記述するための理論的枠組みと手法の見直しから始める。 次に,多体定常状態を所望の特性で構築するための散逸過程の利用と,コヒーレントな進化と散逸の競合から生じる散逸相転移の出現について議論する。 熱や多体損失などの相関した多体散逸過程の存在下でのオープン量子多体系のダイナミクスを概観する。 最後に、環境が監視装置を表す場合と関連する確率的量子軌跡と関連する測定誘起相転移を考察することにより、オープン量子多体系に対する異なる視点を提供する。

These Lecture Notes discuss the recent theoretical advances in the understanding of open quantum many-body physics in platforms where both dissipative and coherent processes can be tuned and controlled to a high degree. We start by reviewing the theoretical frameworks and methods used to describe and tackle open quantum many-body systems. We then discuss the use of dissipative processes to engineer many-body stationary states with desired properties and the emergence of dissipative phase transitions arising out of the competition between coherent evolution and dissipation. We review the dynamics of open quantum many body systems in the presence of correlated many-body dissipative processes, such as heating and many-body losses. Finally we provide a different perspective on open quantum many-body systems by looking at stochastic quantum trajectories, relevant for the case in which the environment represents a monitoring device, and the associated measurement-induced phase transitions.
翻訳日:2024-11-07 20:35:12 公開日:2024-10-14
# SAGED: カスタマイズ可能なフェアネス校正を備えた言語モデルのための全体論的なバイアスベンチマークパイプライン

SAGED: A Holistic Bias-Benchmarking Pipeline for Language Models with Customisable Fairness Calibration ( http://arxiv.org/abs/2409.11149v2 )

ライセンス: Link先を確認
Xin Guan, Nathaniel Demchak, Saloni Gupta, Ze Wang, Ediz Ertekin Jr., Adriano Koshiyama, Emre Kazim, Zekun Wu, (参考訳) バイアスのない大規模言語モデルの開発は極めて重要であると広く認識されているが、既存のベンチマークはスコープの制限、汚染、公平性基準の欠如によるバイアスの検出に不足している。 SAGED(-Bias)はこれらの問題に対処する最初の総合的なベンチマークパイプラインである。 パイプラインは、スクレイピング材料、ベンチマークの組み立て、レスポンスの生成、数値的な特徴の抽出、異質なメトリクスの診断の5つのコアステージを含んでいる。 SAGEDには、インパクト比やマックスZスコアなどのバイアス集中といった最大差のメトリクスが含まれている。 SAGEDは、プロンプトにおける評価ツールのバイアスと文脈バイアスが評価を歪ませる可能性があることに気付き、修正のためのデファクトブランチとベースラインキャリブレーションを実装している。 デモでは、Gemma2、Llama3.1、Mistral、Qwen2など、人気のある8bレベルのモデルでG20諸国でSAGEDを使用します。 感情分析により、MistralとQwen2はGemma2やLlama3.1よりも最大差とバイアス濃度が低いが、すべてのモデルがロシアや(Qwen2を除く)中国に偏っていることが判明した。 ロールプレイングの米国大統領をモデルとするさらなる実験により、偏見は不均一な方向に増幅しシフトする。 さらに、Qwen2 と Mistral はロールプレイングには関与せず、Llama3.1 と Gemma2 のロールプレイング・トランプはビデンやハリスよりも特に集中しており、これらのモデルにおけるロールプレイングのパフォーマンスバイアスを示している。

The development of unbiased large language models is widely recognized as crucial, yet existing benchmarks fall short in detecting biases due to limited scope, contamination, and lack of a fairness baseline. SAGED(-Bias) is the first holistic benchmarking pipeline to address these problems. The pipeline encompasses five core stages: scraping materials, assembling benchmarks, generating responses, extracting numeric features, and diagnosing with disparity metrics. SAGED includes metrics for max disparity, such as impact ratio, and bias concentration, such as Max Z-scores. Noticing that assessment tool bias and contextual bias in prompts can distort evaluation, SAGED implements counterfactual branching and baseline calibration for mitigation. For demonstration, we use SAGED on G20 Countries with popular 8b-level models including Gemma2, Llama3.1, Mistral, and Qwen2. With sentiment analysis, we find that while Mistral and Qwen2 show lower max disparity and higher bias concentration than Gemma2 and Llama3.1, all models are notably biased against countries like Russia and (except for Qwen2) China. With further experiments to have models role-playing U.S. (vice-/former-) presidents, we see bias amplifies and shifts in heterogeneous directions. Moreover, we see Qwen2 and Mistral not engage in role-playing, while Llama3.1 and Gemma2 role-play Trump notably more intensively than Biden and Harris, indicating role-playing performance bias in these models.
翻訳日:2024-11-07 20:13:03 公開日:2024-10-14
# 長い散逸量子力学のための変圧器に基づくモデル

A short trajectory is all you need: A transformer-based model for long-time dissipative quantum dynamics ( http://arxiv.org/abs/2409.11320v2 )

ライセンス: Link先を確認
Luis E. Herrera Rodríguez, Alexei A. Kananenka, (参考訳) このコミュニケーションでは,自己注意層を持つトランスフォーマーアーキテクチャに基づく深層人工ニューラルネットワークが,システムの短時間の人口動態が知られているような散逸環境に結合した量子システムの長時間の人口動態を予測できることを実証する。 この研究で開発されたトランスフォーマーニューラルネットワークモデルは、弱いシステムバス結合から強結合非マルコフ状態に至るまで、スピンボソンモデルの長時間のダイナミクスを効率よく、非常に正確に予測する。 我々のモデルは、リカレントニューラルネットワークのような古典的な予測モデルよりも正確であり、カーネルリッジ回帰に基づく量子散逸系の力学をシミュレーションするための最先端モデルに匹敵する。

In this communication we demonstrate that a deep artificial neural network based on a transformer architecture with self-attention layers can predict the long-time population dynamics of a quantum system coupled to a dissipative environment provided that the short-time population dynamics of the system is known. The transformer neural network model developed in this work predicts the long-time dynamics of spin-boson model efficiently and very accurately across different regimes, from weak system-bath coupling to strong coupling non-Markovian regimes. Our model is more accurate than classical forecasting models, such as recurrent neural networks and is comparable to the state-of-the-art models for simulating the dynamics of quantum dissipative systems based on kernel ridge regression.
翻訳日:2024-11-07 20:01:55 公開日:2024-10-14
# FedNE: 寸法低減のためのサロゲート補助隣人埋め込み

FedNE: Surrogate-Assisted Federated Neighbor Embedding for Dimensionality Reduction ( http://arxiv.org/abs/2409.11509v2 )

ライセンス: Link先を確認
Ziwei Li, Xiaoqi Wang, Hong-You Chen, Han-Wei Shen, Wei-Lun Chao, (参考訳) フェデレートラーニング(FL)は、ローカルデータを交換することなく、分散参加者間で協調的なモデルトレーニングを可能にする、有望なパラダイムとして急速に進化してきた。 コンピュータビジョン、グラフ学習、自然言語処理などの分野に広く応用されているにもかかわらず、FLのコンテキストでデータを視覚化するのに効果的に使用できるデータプロジェクションモデルの開発は極めて重要であり、まだ過小評価されている。 近接埋め込み(NE)は複雑な高次元データの可視化に不可欠な手法であるが,共同学習は困難である。 NEのような効果的な視覚化アルゴリズムは、ペアのデータ間での計算損失関数を必要とするため、主な課題は目的関数にある。 本稿では,共有可能なデータを必要としない,対照的な NE 技術と \textsc{FedAvg} フレームワークを統合した新しいアプローチである \textsc{FedNE} を紹介する。 グローバルな埋め込み空間におけるアライメントに不可欠なクライアント間反発の欠如に対処するため,各クライアントが学習し,共有するサロゲート損失関数を開発した。 さらに、ローカルなデータを増やすためのデータ混合戦略を提案し、ローカルな$k$NNグラフによって構築された見えない隣人や偽の隣人の問題を緩和することを目的としている。 我々は、合成データセットと実世界のデータセットの両方について包括的な実験を行う。 その結果,我々の<textsc{FedNE} は近傍のデータ構造を効果的に保存し,グローバルな埋め込み空間のアライメントを向上させることができることを示した。

Federated learning (FL) has rapidly evolved as a promising paradigm that enables collaborative model training across distributed participants without exchanging their local data. Despite its broad applications in fields such as computer vision, graph learning, and natural language processing, the development of a data projection model that can be effectively used to visualize data in the context of FL is crucial yet remains heavily under-explored. Neighbor embedding (NE) is an essential technique for visualizing complex high-dimensional data, but collaboratively learning a joint NE model is difficult. The key challenge lies in the objective function, as effective visualization algorithms like NE require computing loss functions among pairs of data. In this paper, we introduce \textsc{FedNE}, a novel approach that integrates the \textsc{FedAvg} framework with the contrastive NE technique, without any requirements of shareable data. To address the lack of inter-client repulsion which is crucial for the alignment in the global embedding space, we develop a surrogate loss function that each client learns and shares with each other. Additionally, we propose a data-mixing strategy to augment the local data, aiming to relax the problems of invisible neighbors and false neighbors constructed by the local $k$NN graphs. We conduct comprehensive experiments on both synthetic and real-world datasets. The results demonstrate that our \textsc{FedNE} can effectively preserve the neighborhood data structures and enhance the alignment in the global embedding space compared to several baseline methods.
翻訳日:2024-11-07 20:01:55 公開日:2024-10-14
# 人工知能で仮想細胞を作る方法:優先事項と機会

How to Build the Virtual Cell with Artificial Intelligence: Priorities and Opportunities ( http://arxiv.org/abs/2409.11654v2 )

ライセンス: Link先を確認
Charlotte Bunne, Yusuf Roohani, Yanay Rosen, Ankit Gupta, Xikun Zhang, Marcel Roed, Theo Alexandrov, Mohammed AlQuraishi, Patricia Brennan, Daniel B. Burkhardt, Andrea Califano, Jonah Cool, Abby F. Dernburg, Kirsty Ewing, Emily B. Fox, Matthias Haury, Amy E. Herr, Eric Horvitz, Patrick D. Hsu, Viren Jain, Gregory R. Johnson, Thomas Kalil, David R. Kelley, Shana O. Kelley, Anna Kreshuk, Tim Mitchison, Stephani Otte, Jay Shendure, Nicholas J. Sofroniew, Fabian Theis, Christina V. Theodoris, Srigokul Upadhyayula, Marc Valer, Bo Wang, Eric Xing, Serena Yeung-Levy, Marinka Zitnik, Theofanis Karaletsos, Aviv Regev, Emma Lundberg, Jure Leskovec, Stephen R. Quake, (参考訳) 細胞は間違いなく生命の最も基本的な単位であり、生物学の理解の中心である。 細胞の正確なモデリングは、病気の根本原因を決定するだけでなく、この理解にも重要である。 人工知能(AI)の最近の進歩は、大規模な実験データを生成する能力と相まって、細胞をモデル化する新たな機会を提供する。 本稿では,AIの進歩を活用して仮想細胞を構築するというビジョンを提案する。 このようなAI仮想セルの望ましい機能について論じる。例えば、スケールにわたって生物学的実体の普遍的な表現を生成し、シリコ実験で解釈し、仮想機器を用いてそれらの振る舞いを予測し理解することを容易にする。 さらに、このビジョンを実現するための課題、機会、要件、例えば、データの要求、評価戦略、および、生物学的精度と幅広い実用性を保証するためのコミュニティ標準とエンゲージメントに対処する。 我々は、AI仮想細胞が新しい薬物標的を特定し、摂動に対する細胞反応を予測し、スケール仮説を探索する未来を想像する。 学術、慈善、バイオファーマ、AI産業を含むバイオメディカルエコシステム全体にわたるオープンサイエンスのコラボレーションによって、細胞機構と相互作用に関する包括的な予測的理解が到達した。

The cell is arguably the most fundamental unit of life and is central to understanding biology. Accurate modeling of cells is important for this understanding as well as for determining the root causes of disease. Recent advances in artificial intelligence (AI), combined with the ability to generate large-scale experimental data, present novel opportunities to model cells. Here we propose a vision of leveraging advances in AI to construct virtual cells, high-fidelity simulations of cells and cellular systems under different conditions that are directly learned from biological data across measurements and scales. We discuss desired capabilities of such AI Virtual Cells, including generating universal representations of biological entities across scales, and facilitating interpretable in silico experiments to predict and understand their behavior using virtual instruments. We further address the challenges, opportunities and requirements to realize this vision including data needs, evaluation strategies, and community standards and engagement to ensure biological accuracy and broad utility. We envision a future where AI Virtual Cells help identify new drug targets, predict cellular responses to perturbations, as well as scale hypothesis exploration. With open science collaborations across the biomedical ecosystem that includes academia, philanthropy, and the biopharma and AI industries, a comprehensive predictive understanding of cell mechanisms and interactions has come into reach.
翻訳日:2024-11-07 19:50:48 公開日:2024-10-14
# ScaleFlow++:ビデオからの3Dモーションのロバストで正確な推定

ScaleFlow++: Robust and Accurate Estimation of 3D Motion from Video ( http://arxiv.org/abs/2409.12202v1 )

ライセンス: Link先を確認
Han Ling, Yinghui Sun, Quansen Sun, Yuhui Zheng, (参考訳) 3Dモーションの知覚と理解は、自律運転、ロボット、動き予測といった分野における中核的な技術である。 本稿では,3次元モーション認識手法であるScaleFlow++を提案する。 たった1対のRGBイメージで、ScaleFlow++は光学フローとモーションインディープス(MID)を強く見積もることができる。 既存のほとんどの手法は、2つのRGBフレームまたは光学フローから直接MIDを回帰し、不正確な不安定な結果をもたらす。 我々の重要な洞察は、クロススケールマッチングであり、異なるスケールの画像のペアでオブジェクトをマッチングすることで、深い動きの手がかりを抽出する。 従来の方法とは異なり、ScaleFlow++は光学フローとMID推定を統一アーキテクチャに統合し、特徴マッチングに基づいて光学フローとMIDのエンドツーエンドを推定する。 さらに,グローバル初期化ネットワーク,グローバルイテレーティブオプティマイザ,ハイブリッドトレーニングパイプラインなどのモジュールも提案した。 KITTIでは、ScaleFlow++は、SF-allを6.21から5.79に削減し、最高のモノクロシーンフロー推定性能を達成した。 MIDの評価はRGBDベースの手法を超えている。 さらに、ScaleFlow++は、厳密なシーンと非厳密なシーンの両方において、驚くべきゼロショットの一般化パフォーマンスを達成した。 コードは \url{https://github.com/HanLingsgjk/CSCV} で入手できる。

Perceiving and understanding 3D motion is a core technology in fields such as autonomous driving, robots, and motion prediction. This paper proposes a 3D motion perception method called ScaleFlow++ that is easy to generalize. With just a pair of RGB images, ScaleFlow++ can robustly estimate optical flow and motion-in-depth (MID). Most existing methods directly regress MID from two RGB frames or optical flow, resulting in inaccurate and unstable results. Our key insight is cross-scale matching, which extracts deep motion clues by matching objects in pairs of images at different scales. Unlike previous methods, ScaleFlow++ integrates optical flow and MID estimation into a unified architecture, estimating optical flow and MID end-to-end based on feature matching. Moreover, we also proposed modules such as global initialization network, global iterative optimizer, and hybrid training pipeline to integrate global motion information, reduce the number of iterations, and prevent overfitting during training. On KITTI, ScaleFlow++ achieved the best monocular scene flow estimation performance, reducing SF-all from 6.21 to 5.79. The evaluation of MID even surpasses RGBD-based methods. In addition, ScaleFlow++ has achieved stunning zero-shot generalization performance in both rigid and nonrigid scenes. Code is available at \url{https://github.com/HanLingsgjk/CSCV}.
翻訳日:2024-11-07 15:49:40 公開日:2024-10-14
# ScaleFlow++:ビデオからの3Dモーションのロバストで正確な推定

ScaleFlow++: Robust and Accurate Estimation of 3D Motion from Video ( http://arxiv.org/abs/2409.12202v2 )

ライセンス: Link先を確認
Han Ling, Yinghui Sun, Quansen Sun, Yuhui Zheng, (参考訳) 3Dモーションの知覚と理解は、自律運転、ロボット、動き予測といった分野における中核的な技術である。 本稿では,3次元モーション認識手法であるScaleFlow++を提案する。 たった1対のRGBイメージで、ScaleFlow++は光学フローとモーションインディープス(MID)を強く見積もることができる。 既存のほとんどの手法は、2つのRGBフレームまたは光学フローから直接MIDを回帰し、不正確な不安定な結果をもたらす。 我々の重要な洞察は、クロススケールマッチングであり、異なるスケールの画像のペアでオブジェクトをマッチングすることで、深い動きの手がかりを抽出する。 従来の方法とは異なり、ScaleFlow++は光学フローとMID推定を統一アーキテクチャに統合し、特徴マッチングに基づいて光学フローとMIDのエンドツーエンドを推定する。 さらに,グローバル初期化ネットワーク,グローバルイテレーティブオプティマイザ,ハイブリッドトレーニングパイプラインなどのモジュールも提案した。 KITTIでは、ScaleFlow++は、SF-allを6.21から5.79に削減し、最高のモノクロシーンフロー推定性能を達成した。 MIDの評価はRGBDベースの手法を超えている。 さらに、ScaleFlow++は、厳密なシーンと非厳密なシーンの両方において、驚くべきゼロショットの一般化パフォーマンスを達成した。 コードは \url{https://github.com/HanLingsgjk/CSCV} で入手できる。

Perceiving and understanding 3D motion is a core technology in fields such as autonomous driving, robots, and motion prediction. This paper proposes a 3D motion perception method called ScaleFlow++ that is easy to generalize. With just a pair of RGB images, ScaleFlow++ can robustly estimate optical flow and motion-in-depth (MID). Most existing methods directly regress MID from two RGB frames or optical flow, resulting in inaccurate and unstable results. Our key insight is cross-scale matching, which extracts deep motion clues by matching objects in pairs of images at different scales. Unlike previous methods, ScaleFlow++ integrates optical flow and MID estimation into a unified architecture, estimating optical flow and MID end-to-end based on feature matching. Moreover, we also proposed modules such as global initialization network, global iterative optimizer, and hybrid training pipeline to integrate global motion information, reduce the number of iterations, and prevent overfitting during training. On KITTI, ScaleFlow++ achieved the best monocular scene flow estimation performance, reducing SF-all from 6.21 to 5.79. The evaluation of MID even surpasses RGBD-based methods. In addition, ScaleFlow++ has achieved stunning zero-shot generalization performance in both rigid and nonrigid scenes. Code is available at \url{https://github.com/HanLingsgjk/CSCV}.
翻訳日:2024-11-07 15:49:40 公開日:2024-10-14
# 分散量子コンピューティング相互接続ネットワークにおけるリソース割り当て

Resource Allocation in Distributed Quantum Computing Interconnect Networks ( http://arxiv.org/abs/2409.12675v1 )

ライセンス: Link先を確認
Sima Bahrani, Romerson D. Oliveira, Juan Parra-Ullauri, Rui Wang, Dimitra Simeonidou, (参考訳) 分散量子コンピューティング(DQC)は、モノリシック量子プロセッサのスケーラビリティの限界を計算能力の観点から克服する、有望なアプローチとして登場した。 しかし、DQCの完全な可能性を実現するには、効果的なリソース割り当てが必要である。 これは、各回路を量子処理ユニットの最適サブセット(QPU)に割り当てることによって、その計算能力や接続性などの要因に基づいて、ネットワーク全体に量子回路を効率よく分散することを含む。 任意のトポロジと非同一QPUを持つ異種DQCネットワークでは、リソース割り当てが複雑になる。 本稿では,このようなネットワークにおける資源割り当ての問題に対処し,量子ファーム環境における資源管理に焦点をあてる。 本稿では、キュービットデコヒーレンスによるQPU間通信遅延による劣化を最小化し、同時に割り当て可能な量子回路の数を最大化することを目的とした、最適QPU割り当てのための多目的最適化アルゴリズムを提案する。 このアルゴリズムは、ネットワークトポロジ、QPU特性、量子回路構造など、いくつかの重要な要素を考慮に入れ、効率的なアロケーション決定を行う。 混合整数線形プログラムとして最適化問題を定式化し、標準最適化ツールを用いて解決する。 シミュレーションの結果は,提案アルゴリズムの通信コストの最小化と資源利用の改善に有効であることを示す。 提案手法を補完するため,量子回路スケジューリングモデルも提案する。 我々の研究は、DQCシステムの資源配分戦略に関する貴重な洞察を提供し、量子コンピューティングのための効率的な実行管理フレームワークの開発に貢献する。

Distributed quantum computing (DQC) has emerged as a promising approach to overcome the scalability limitations of monolithic quantum processors in terms of computing capability. However, realising the full potential of DQC requires effective resource allocation. This involves efficiently distributing quantum circuits across the network by assigning each circuit to an optimal subset of quantum processing units (QPUs), based on factors such as their computational power and connectivity. In heterogeneous DQC networks with arbitrary topologies and non-identical QPUs, resource allocation becomes a complex challenge. This paper addresses the problem of resource allocation in such networks, focusing on computing resource management in a quantum farm setting. We propose a multi-objective optimisation algorithm for optimal QPU allocation that aims to minimise the degradation caused by inter-QPU communication latencies due to qubit decoherence, while maximising the number of concurrently assignable quantum circuits. The algorithm takes into account several key factors, including the network topology, QPU characteristics, and quantum circuit structure, to make efficient allocation decisions. We formulate the optimisation problem as a mixed-integer linear program and solve it using standard optimisation tools. Simulation results demonstrate the effectiveness of the proposed algorithm in minimising communication costs and improving resource utilisation compared to a benchmark greedy allocation approach. To complement our proposed QPU allocation method, we also present a compatible quantum circuit scheduling model. Our work provides valuable insights into resource allocation strategies for DQC systems and contributes to the development of efficient execution management frameworks for quantum computing.
翻訳日:2024-11-07 13:56:59 公開日:2024-10-14
# 分散量子コンピューティングインターコネクションネットワークのためのリソース管理と回路スケジューリング

Resource Management and Circuit Scheduling for Distributed Quantum Computing Interconnect Networks ( http://arxiv.org/abs/2409.12675v2 )

ライセンス: Link先を確認
Sima Bahrani, Romerson D. Oliveira, Juan Marcelo Parra-Ullauri, Rui Wang, Dimitra Simeonidou, (参考訳) 分散量子コンピューティング(DQC)は、モノリシック量子プロセッサのスケーラビリティの限界を計算能力の観点から克服する、有望なアプローチとして登場した。 しかし、DQCの完全な可能性を実現するには、効果的なリソース割り当てが必要である。 これは、各回路を量子処理ユニットの最適サブセット(QPU)に割り当てることによって、その計算能力や接続性などの要因に基づいて、ネットワーク全体に量子回路を効率よく分散することを含む。 任意のトポロジと非同一QPUを持つ異種DQCネットワークでは、リソース割り当てが複雑になる。 本稿では,このようなネットワークにおける資源配分の問題に対処し,量子ファーム環境における資源管理に焦点をあてる。 本稿では、キュービットデコヒーレンスによるQPU間通信遅延による劣化を最小化し、同時に割り当て可能な量子回路の数を最大化することを目的とした、最適QPU割り当てのための多目的最適化アルゴリズムを提案する。 このアルゴリズムは、ネットワークトポロジ、QPU特性、量子回路構造など、いくつかの重要な要素を考慮に入れ、効率的なアロケーション決定を行う。 我々はこの最適化問題を解決するために混合整数線形計画法を用いる。 シミュレーションの結果は,提案アルゴリズムの通信コストの最小化と資源利用の改善に有効であることを示す。 特に、QPU当たりの単一回路分割を仮定すると、量子回路割り当ての成功率は5.25%-13.75%向上する。 提案手法を補完するため,量子回路スケジューリングモデルも提案する。 我々の研究は、DQCシステムの資源配分戦略に関する貴重な洞察を提供し、量子コンピューティングのための効率的な実行管理フレームワークの開発に貢献する。

Distributed quantum computing (DQC) has emerged as a promising approach to overcome the scalability limitations of monolithic quantum processors in terms of computing capability. However, realising the full potential of DQC requires effective resource allocation. This involves efficiently distributing quantum circuits across the network by assigning each circuit to an optimal subset of quantum processing units (QPUs), based on factors such as their computational power and connectivity. In heterogeneous DQC networks with arbitrary topologies and non-identical QPUs, resource allocation becomes a complex challenge. This paper addresses the problem of resource allocation in such networks, focusing on computing resource management in a quantum farm setting. We propose a multi-objective optimisation algorithm for optimal QPU allocation that aims to minimise the degradation caused by inter-QPU communication latencies due to qubit decoherence, while maximising the number of concurrently assignable quantum circuits. The algorithm takes into account several key factors, including the network topology, QPU characteristics, and quantum circuit structure, to make efficient allocation decisions. We employ mixed integer linear programming to solve this optimisation problem. Simulation results demonstrate the effectiveness of the proposed algorithm in minimising communication costs and improving resource utilisation compared to a benchmark greedy allocation approach. Notably, assuming a single circuit partition per QPU, the success rate of quantum circuit assignments improves by 5.25%-13.75%. To complement our proposed QPU allocation method, we also present a compatible quantum circuit scheduling model. Our work provides valuable insights into resource allocation strategies for DQC systems and contributes to the development of efficient execution management frameworks for quantum computing.
翻訳日:2024-11-07 13:56:59 公開日:2024-10-14
# 4種類の白血球画像の分類

Classification of 4 types of White blood cell images ( http://arxiv.org/abs/2409.13442v1 )

ライセンス: Link先を確認
Rabia Asghar, Arslan Shaukat, Usman Akram, Rimsha Tariq, (参考訳) ヒト免疫系には、細菌感染症、エイズ、がん、脾臓など多くの疾患の指標となる白血球(WBC)が含まれる。 白血球は、その核、形状、細胞質に基づいて、単球、リンパ球、好酸球、好中球の4つのタイプに分類されている。 伝統的に、実験室では、病理学者や血液学者が顕微鏡で血液細胞を分析し、手動で分類する。 この手動のプロセスは時間がかかり、ヒューマンエラーの可能性が高まる。 したがって、このプロセスを自動化する必要がある。 本稿ではまず,ResNet-50,InceptionV3,VGG16,MobileNetV2などのCNNプレトレインモデルを用いて,白血球の自動分類を行った。 これらのプレトレインモデルは、顕微鏡画像のKaggleデータセットに適用される。 92~95%の範囲で妥当な精度を達成したが、それでも性能を向上させる必要がある。 したがって、これらのアーキテクチャに触発されて、4種類の白血球を精度良く自動的に分類する枠組みが提案されている。 本研究の目的は、適切な一般化能力を備えた畳み込みニューラルネットワーク(CNN)に基づく分類システムを開発することである。 提案したCNNモデルは、KaggleとLISCデータセットからの白血球画像でテストされている。 それぞれのデータセットの精度は99.57%と98.67%である。 提案する畳み込みニューラルネットワークモデルでは,文献で報告した結果と比較して,競争性能が向上する。

Human immune system contains white blood cells (WBC) that are good indicator of many diseases like bacterial infections, AIDS, cancer, spleen, etc. White blood cells have been sub classified into four types: monocytes, lymphocytes, eosinophils and neutrophils on the basis of their nucleus, shape and cytoplasm. Traditionally in laboratories, pathologists and hematologists analyze these blood cells through microscope and then classify them manually. This manual process takes more time and increases the chance of human error. Hence, there is a need to automate this process. In this paper, first we have used different CNN pre-train models such as ResNet-50, InceptionV3, VGG16 and MobileNetV2 to automatically classify the white blood cells. These pre-train models are applied on Kaggle dataset of microscopic images. Although we achieved reasonable accuracy ranging between 92 to 95%, still there is need to enhance the performance. Hence, inspired by these architectures, a framework has been proposed to automatically categorize the four kinds of white blood cells with increased accuracy. The aim is to develop a convolution neural network (CNN) based classification system with decent generalization ability. The proposed CNN model has been tested on white blood cells images from Kaggle and LISC datasets. Accuracy achieved is 99.57% and 98.67% for both datasets respectively. Our proposed convolutional neural network-based model provides competitive performance as compared to previous results reported in literature.
翻訳日:2024-11-07 07:17:49 公開日:2024-10-14
# 畳み込みニューラルネットワークを用いた白血球画像の自動分類

Automatic Classification of White Blood Cell Images using Convolutional Neural Network ( http://arxiv.org/abs/2409.13442v2 )

ライセンス: Link先を確認
Rabia Asghar, Arslan Shaukat, Usman Akram, Rimsha Tariq, (参考訳) ヒト免疫系には、細菌感染症、エイズ、がん、脾臓など多くの疾患の指標となる白血球(WBC)が含まれる。 白血球は、その核、形状、細胞質に基づいて、単球、リンパ球、好酸球、好中球の4つのタイプに分類されている。 伝統的に、実験室では、病理学者や血液学者が顕微鏡で血液細胞を分析し、手動で分類する。 この手動のプロセスは時間がかかり、ヒューマンエラーの可能性が高まる。 したがって、このプロセスを自動化する必要がある。 本稿ではまず,ResNet-50,InceptionV3,VGG16,MobileNetV2などのCNNプレトレインモデルを用いて,白血球の自動分類を行った。 これらのプレトレインモデルは、顕微鏡画像のKaggleデータセットに適用される。 92~95%の範囲で妥当な精度を達成したが、それでも性能を向上させる必要がある。 したがって、これらのアーキテクチャに触発されて、4種類の白血球を精度良く自動的に分類する枠組みが提案されている。 本研究の目的は、適切な一般化能力を備えた畳み込みニューラルネットワーク(CNN)に基づく分類システムを開発することである。 提案したCNNモデルは、KaggleとLISCデータセットからの白血球画像でテストされている。 それぞれのデータセットの精度は99.57%と98.67%である。 提案する畳み込みニューラルネットワークモデルでは,文献で報告した結果と比較して,競争性能が向上する。

Human immune system contains white blood cells (WBC) that are good indicator of many diseases like bacterial infections, AIDS, cancer, spleen, etc. White blood cells have been sub classified into four types: monocytes, lymphocytes, eosinophils and neutrophils on the basis of their nucleus, shape and cytoplasm. Traditionally in laboratories, pathologists and hematologists analyze these blood cells through microscope and then classify them manually. This manual process takes more time and increases the chance of human error. Hence, there is a need to automate this process. In this paper, first we have used different CNN pre-train models such as ResNet-50, InceptionV3, VGG16 and MobileNetV2 to automatically classify the white blood cells. These pre-train models are applied on Kaggle dataset of microscopic images. Although we achieved reasonable accuracy ranging between 92 to 95%, still there is need to enhance the performance. Hence, inspired by these architectures, a framework has been proposed to automatically categorize the four kinds of white blood cells with increased accuracy. The aim is to develop a convolution neural network (CNN) based classification system with decent generalization ability. The proposed CNN model has been tested on white blood cells images from Kaggle and LISC datasets. Accuracy achieved is 99.57% and 98.67% for both datasets respectively. Our proposed convolutional neural network-based model provides competitive performance as compared to previous results reported in literature.
翻訳日:2024-11-07 07:17:49 公開日:2024-10-14
# 畳み込みニューラルネットワーク(CNN)を用いた白血球画像の自動分類

Automatic Classification of White Blood Cell Images using Convolutional Neural Network (CNN) ( http://arxiv.org/abs/2409.13442v3 )

ライセンス: Link先を確認
Rabia Asghar, Arslan Shaukat, Usman Akram, Rimsha Tariq, (参考訳) ヒト免疫系には、細菌感染症、エイズ、がん、脾臓など多くの疾患の指標となる白血球(WBC)が含まれる。 白血球は、その核、形状、細胞質に基づいて、単球、リンパ球、好酸球、好中球の4つのタイプに分類されている。 伝統的に、実験室では、病理学者や血液学者が顕微鏡で血液細胞を分析し、手動で分類する。 この手動のプロセスは時間がかかり、ヒューマンエラーの可能性が高まる。 したがって、このプロセスを自動化する必要がある。 本稿ではまず,ResNet-50,InceptionV3,VGG16,MobileNetV2などのCNNプレトレインモデルを用いて,白血球の自動分類を行った。 これらのプレトレインモデルは、顕微鏡画像のKaggleデータセットに適用される。 92~95%の範囲で妥当な精度を達成したが、それでも性能を向上させる必要がある。 したがって、これらのアーキテクチャに触発されて、4種類の白血球を精度良く自動的に分類する枠組みが提案されている。 本研究の目的は、適切な一般化能力を備えた畳み込みニューラルネットワーク(CNN)に基づく分類システムを開発することである。 提案したCNNモデルは、KaggleとLISCデータセットからの白血球画像でテストされている。 それぞれのデータセットの精度は99.57%と98.67%である。 提案する畳み込みニューラルネットワークモデルでは,文献で報告した結果と比較して,競争性能が向上する。

Human immune system contains white blood cells (WBC) that are good indicator of many diseases like bacterial infections, AIDS, cancer, spleen, etc. White blood cells have been sub classified into four types: monocytes, lymphocytes, eosinophils and neutrophils on the basis of their nucleus, shape and cytoplasm. Traditionally in laboratories, pathologists and hematologists analyze these blood cells through microscope and then classify them manually. This manual process takes more time and increases the chance of human error. Hence, there is a need to automate this process. In this paper, first we have used different CNN pre-train models such as ResNet-50, InceptionV3, VGG16 and MobileNetV2 to automatically classify the white blood cells. These pre-train models are applied on Kaggle dataset of microscopic images. Although we achieved reasonable accuracy ranging between 92 to 95%, still there is need to enhance the performance. Hence, inspired by these architectures, a framework has been proposed to automatically categorize the four kinds of white blood cells with increased accuracy. The aim is to develop a convolution neural network (CNN) based classification system with decent generalization ability. The proposed CNN model has been tested on white blood cells images from Kaggle and LISC datasets. Accuracy achieved is 99.57% and 98.67% for both datasets respectively. Our proposed convolutional neural network-based model provides competitive performance as compared to previous results reported in literature.
翻訳日:2024-11-07 07:17:49 公開日:2024-10-14
# 畳み込みニューラルネットワークを用いた白血球画像の自動分類

Automatic Classification of White Blood Cell Images using Convolutional Neural Network ( http://arxiv.org/abs/2409.13442v4 )

ライセンス: Link先を確認
Rabia Asghar, Arslan Shaukat, Usman Akram, Rimsha Tariq, (参考訳) ヒト免疫系には、細菌感染症、エイズ、がん、脾臓など多くの疾患の指標となる白血球(WBC)が含まれる。 白血球は、その核、形状、細胞質に基づいて、単球、リンパ球、好酸球、好中球の4つのタイプに分類されている。 伝統的に、実験室では、病理学者や血液学者が顕微鏡で血液細胞を分析し、手動で分類する。 この手動のプロセスは時間がかかり、ヒューマンエラーの可能性が高まる。 したがって、このプロセスを自動化する必要がある。 本稿ではまず,ResNet-50,InceptionV3,VGG16,MobileNetV2などのCNNプレトレインモデルを用いて,白血球の自動分類を行った。 これらのプレトレインモデルは、顕微鏡画像のKaggleデータセットに適用される。 92~95%の範囲で妥当な精度を達成したが、それでも性能を向上させる必要がある。 したがって、これらのアーキテクチャに触発されて、4種類の白血球を精度良く自動的に分類する枠組みが提案されている。 本研究の目的は、適切な一般化能力を備えた畳み込みニューラルネットワーク(CNN)に基づく分類システムを開発することである。 提案したCNNモデルは、KaggleとLISCデータセットからの白血球画像でテストされている。 それぞれのデータセットの精度は99.57%と98.67%である。 提案する畳み込みニューラルネットワークモデルでは,文献で報告した結果と比較して,競争性能が向上する。

Human immune system contains white blood cells (WBC) that are good indicator of many diseases like bacterial infections, AIDS, cancer, spleen, etc. White blood cells have been sub classified into four types: monocytes, lymphocytes, eosinophils and neutrophils on the basis of their nucleus, shape and cytoplasm. Traditionally in laboratories, pathologists and hematologists analyze these blood cells through microscope and then classify them manually. This manual process takes more time and increases the chance of human error. Hence, there is a need to automate this process. In this paper, first we have used different CNN pre-train models such as ResNet-50, InceptionV3, VGG16 and MobileNetV2 to automatically classify the white blood cells. These pre-train models are applied on Kaggle dataset of microscopic images. Although we achieved reasonable accuracy ranging between 92 to 95%, still there is need to enhance the performance. Hence, inspired by these architectures, a framework has been proposed to automatically categorize the four kinds of white blood cells with increased accuracy. The aim is to develop a convolution neural network (CNN) based classification system with decent generalization ability. The proposed CNN model has been tested on white blood cells images from Kaggle and LISC datasets. Accuracy achieved is 99.57% and 98.67% for both datasets respectively. Our proposed convolutional neural network-based model provides competitive performance as compared to previous results reported in literature.
翻訳日:2024-11-07 07:04:14 公開日:2024-10-14
# サンプル効率の良い強化学習のための爆発的外生構造

Exploiting Exogenous Structure for Sample-Efficient Reinforcement Learning ( http://arxiv.org/abs/2409.14557v1 )

ライセンス: Link先を確認
Jia Wan, Sean R. Sinclair, Devavrat Shah, Martin J. Wainwright, (参考訳) 状態空間を2つの成分に分割することで特徴付けられるExo-MDP(Exo-MDPs)として知られる構造化マルコフ決定過程(MDPs)のクラスについて検討する。 外因性状態はエージェントの行動に影響されない方法で確率的に進化し、内因性状態はアクションに影響され、外因性状態に対して決定論的で既知の方法で進化する。 Exo-MDPは、在庫管理、金融、電力システム、ライドシェアリングなど、様々な応用の自然なモデルである。 制限的なように見えるが、この研究は任意の離散MDPをExo-MDPとして表現できることを証明している。 さらに、Exo-MDPは遷移と報酬ダイナミクスの自然な表現を外生状態分布の線形関数として導き出す。 この線形表現は、内因性状態と作用空間のサイズによらず、外因性状態空間$d$の(有効)サイズでのみスケーリングが保証されるような、ほぼ最適アルゴリズムにつながる。 具体的には、外因性状態が完全に観察されると、単純なプラグインアプローチは、$O(H^{3/2}\sqrt{dK})$の後悔の上界を達成し、$H$は地平線を表し、$K$はエピソードの総数を表す。 外因性状態が観測されないとき、線型表現は、後悔の上限である$O(H^{3/2}d\sqrt{K})$に導く。 また、無観測系に対して$\Omega(Hd\sqrt{K})$のほぼ一致する最小境界を確立する。 本研究は,在庫管理問題に関する実験的研究により理論的知見を補完するものである。

We study a class of structured Markov Decision Processes (MDPs) known as Exo-MDPs, characterized by a partition of the state space into two components. The exogenous states evolve stochastically in a manner not affected by the agent's actions, whereas the endogenous states are affected by the actions, and evolve in a deterministic and known way conditional on the exogenous states. Exo-MDPs are a natural model for various applications including inventory control, finance, power systems, ride sharing, among others. Despite seeming restrictive, this work establishes that any discrete MDP can be represented as an Exo-MDP. Further, Exo-MDPs induce a natural representation of the transition and reward dynamics as linear functions of the exogenous state distribution. This linear representation leads to near-optimal algorithms with regret guarantees scaling only with the (effective) size of the exogenous state space $d$, independent of the sizes of the endogenous state and action spaces. Specifically, when the exogenous state is fully observed, a simple plug-in approach achieves a regret upper bound of $O(H^{3/2}\sqrt{dK})$, where $H$ denotes the horizon and $K$ denotes the total number of episodes. When the exogenous state is unobserved, the linear representation leads to a regret upper bound of $O(H^{3/2}d\sqrt{K})$. We also establish a nearly matching regret lower bound of $\Omega(Hd\sqrt{K})$ for the no observation regime. We complement our theoretical findings with an experimental study on inventory control problems.
翻訳日:2024-11-06 22:08:18 公開日:2024-10-14
# サンプル効率の良い強化学習のための爆発的外生構造

Exploiting Exogenous Structure for Sample-Efficient Reinforcement Learning ( http://arxiv.org/abs/2409.14557v2 )

ライセンス: Link先を確認
Jia Wan, Sean R. Sinclair, Devavrat Shah, Martin J. Wainwright, (参考訳) 本研究では,Exo-MDPsとして知られる構造化マルコフ決定過程(MDPs)のクラスについて検討する。 内因性状態はエージェントの行動に影響されない方法で確率的に進化し、内因性状態は行動に影響されうるが、内因性状態と外因性状態の両方を含む決定論的ダイナミクスに従って進化する。 Exo-MDPは、在庫管理、ポートフォリオ管理、電力システム、ライドシェアリングなど、さまざまなアプリケーションに自然なモデルを提供する。 表面上は限定的であるように思われるが、最初の結果は、任意の離散MDPをExo-MDPとして表現できることを証明した。 基礎となる議論は、遷移力学と報酬力学を外因性状態分布の線形関数として記述し、Exo-MDPが線形混合MDPのインスタンスであることを示す。 Exo-MDP と線形混合 MDP との接続は、たとえ外因性状態が観測されていないとしても、内因性状態と行動空間のサイズによらず、外因性状態空間の(有効)サイズでスケールすることを後悔する、サンプル最適に近いアルゴリズムをもたらす。 外因性状態が観測されないとき、後悔の上限は$O(H^{3/2}d\sqrt{K})$で、地平線は$K$ trajectories of horizon $H$ and unobserved exogenous state of dimension $d$である。 また、非定常 Exo-MDP に対して $\Omega(H^{3/2}d\sqrt{K})$ と、定常 Exo-MDP に対して $\Omega(Hd\sqrt{K})$ と一致する最小境界を確立する。 本研究は,在庫管理問題に関する実験的研究により理論的知見を補完するものである。

We study a class of structured Markov Decision Processes (MDPs) known as Exo-MDPs. They are characterized by a partition of the state space into two components: the exogenous states evolve stochastically in a manner not affected by the agent's actions, whereas the endogenous states can be affected by actions, and evolve according to deterministic dynamics involving both the endogenous and exogenous states. Exo-MDPs provide a natural model for various applications, including inventory control, portfolio management, power systems, and ride-sharing, among others. While seemingly restrictive on the surface, our first result establishes that any discrete MDP can be represented as an Exo-MDP. The underlying argument reveals how transition and reward dynamics can be written as linear functions of the exogenous state distribution, showing how Exo-MDPs are instances of linear mixture MDPs, thereby showing a representational equivalence between discrete MDPs, Exo-MDPs, and linear mixture MDPs. The connection between Exo-MDPs and linear mixture MDPs leads to algorithms that are near sample-optimal, with regret guarantees scaling with the (effective) size of the exogenous state space $d$, independent of the sizes of the endogenous state and action spaces, even when the exogenous state is {\em unobserved}. When the exogenous state is unobserved, we establish a regret upper bound of $O(H^{3/2}d\sqrt{K})$ with $K$ trajectories of horizon $H$ and unobserved exogenous state of dimension $d$. We also establish a matching regret lower bound of $\Omega(H^{3/2}d\sqrt{K})$ for non-stationary Exo-MDPs and a lower bound of $\Omega(Hd\sqrt{K})$ for stationary Exo-MDPs. We complement our theoretical findings with an experimental study on inventory control problems.
翻訳日:2024-11-06 22:08:18 公開日:2024-10-14
# SpikeGS: 継続的スパイクストリームから3Dガウス場を学ぶ

SpikeGS: Learning 3D Gaussian Fields from Continuous Spike Stream ( http://arxiv.org/abs/2409.15176v2 )

ライセンス: Link先を確認
Jinze Yu, Xi Peng, Zhengda Lu, Laurent Kneip, Yiqun Wang, (参考訳) スパイクカメラは、従来のフレームカメラと比較して、高時間分解能や高ダイナミックレンジなどの利点を提供する特殊な高速視覚センサである。 これらの機能は、多くのコンピュータビジョンタスクにおいて、カメラに大きなアドバンテージを提供する。 しかし、スパイクカメラに基づく3次元再構成と新しいビュー合成の課題は未開発のままである。 スパイクストリームからニューラルラディアンスフィールドを学習する方法は存在するが、非常にノイズの多い低品質の照明条件では堅牢性が欠如しているか、あるいはニューラルラディアンスフィールドで使用されるディープ完全連結ニューラルネットワークとレイマーチングレンダリング戦略により、高い計算複雑性に悩まされているため、きめ細かいテクスチャの詳細を回復することは困難である。 対照的に、3DGSの最新の進歩は、点雲表現をガウス楕円体に最適化することで、高品質なリアルタイムレンダリングを実現している。 これに基づいて,スパイクストリームのみから3次元ガウス場を学習する最初の方法であるSpikeGSを紹介する。 ノイズ埋め込みとスパイクニューロンを組み込んだ3DGSに基づく差別化可能なスパイクストリームレンダリングフレームワークを設計した。 3DGSのマルチビュー一貫性とタイルベースのマルチスレッド並列レンダリング機構を利用して,高品質なリアルタイムレンダリング結果を得た。 さらに、様々な照明条件下で一般化するスパイクレンダリング損失関数を導入した。 提案手法は, 移動型スパイクカメラで捉えた連続的なスパイクストリームから, 極めてノイズの多い低照度シナリオにおいて高いロバスト性を示しながら, 微視的なテクスチャ情報を用いて, ビュー合成結果を再構成することができる。 実データと合成データの両方に対する実験結果から,本手法はレンダリング品質と速度の面で既存の手法を超越していることが示された。 私たちのコードはhttps://github.com/520jz/SpikeGS.comで公開されます。

A spike camera is a specialized high-speed visual sensor that offers advantages such as high temporal resolution and high dynamic range compared to conventional frame cameras. These features provide the camera with significant advantages in many computer vision tasks. However, the tasks of 3D reconstruction and novel view synthesis based on spike cameras remain underdeveloped. Although there are existing methods for learning neural radiance fields from spike stream, they either lack robustness in extremely noisy, low-quality lighting conditions or suffer from high computational complexity due to the deep fully connected neural networks and ray marching rendering strategies used in neural radiance fields, making it difficult to recover fine texture details. In contrast, the latest advancements in 3DGS have achieved high-quality real-time rendering by optimizing the point cloud representation into Gaussian ellipsoids. Building on this, we introduce SpikeGS, the first method to learn 3D Gaussian fields solely from spike stream. We designed a differentiable spike stream rendering framework based on 3DGS, incorporating noise embedding and spiking neurons. By leveraging the multi-view consistency of 3DGS and the tile-based multi-threaded parallel rendering mechanism, we achieved high-quality real-time rendering results. Additionally, we introduced a spike rendering loss function that generalizes under varying illumination conditions. Our method can reconstruct view synthesis results with fine texture details from a continuous spike stream captured by a moving spike camera, while demonstrating high robustness in extremely noisy low-light scenarios. Experimental results on both real and synthetic datasets demonstrate that our method surpasses existing approaches in terms of rendering quality and speed. Our code will be available at https://github.com/520jz/SpikeGS.
翻訳日:2024-11-06 20:27:58 公開日:2024-10-14
# SpikeGS: 継続的スパイクストリームから3Dガウス場を学ぶ

SpikeGS: Learning 3D Gaussian Fields from Continuous Spike Stream ( http://arxiv.org/abs/2409.15176v3 )

ライセンス: Link先を確認
Jinze Yu, Xin Peng, Zhengda Lu, Laurent Kneip, Yiqun Wang, (参考訳) スパイクカメラは、従来のフレームカメラと比較して、高時間分解能や高ダイナミックレンジなどの利点を提供する特殊な高速視覚センサである。 これらの機能は、多くのコンピュータビジョンタスクにおいて、カメラに大きなアドバンテージを提供する。 しかし、スパイクカメラに基づく3次元再構成と新しいビュー合成の課題は未開発のままである。 スパイクストリームからニューラルラディアンスフィールドを学習する方法は存在するが、非常にノイズの多い低品質の照明条件では堅牢性が欠如しているか、深い完全連結ニューラルネットワークとニューラルラディアンスフィールドで使用されるレイマーキングレンダリング戦略により、高い計算複雑性に悩まされているため、きめ細かいテクスチャの詳細を回復することは困難である。 対照的に、3DGSの最新の進歩は、点雲表現をガウス楕円体に最適化することで、高品質なリアルタイムレンダリングを実現している。 これに基づいて,スパイクストリームのみから3次元ガウス場を学習するSpikeGSを導入する。 ノイズ埋め込みとスパイクニューロンを組み込んだ3DGSに基づく差別化可能なスパイクストリームレンダリングフレームワークを設計した。 3DGSのマルチビュー一貫性とタイルベースのマルチスレッド並列レンダリング機構を利用して,高品質なリアルタイムレンダリング結果を得た。 さらに、様々な照明条件下で一般化するスパイクレンダリング損失関数を導入した。 提案手法は, 移動型スパイクカメラで捉えた連続的なスパイクストリームから, 極めてノイズの多い低照度シナリオにおいて高いロバスト性を示しながら, 微視的なテクスチャ情報を用いて, ビュー合成結果を再構成することができる。 実データと合成データの両方に対する実験結果から,本手法はレンダリング品質と速度の面で既存の手法を超越していることが示された。 私たちのコードはhttps://github.com/520jz/SpikeGS.comで公開されます。

A spike camera is a specialized high-speed visual sensor that offers advantages such as high temporal resolution and high dynamic range compared to conventional frame cameras. These features provide the camera with significant advantages in many computer vision tasks. However, the tasks of 3D reconstruction and novel view synthesis based on spike cameras remain underdeveloped. Although there are existing methods for learning neural radiance fields from spike stream, they either lack robustness in extremely noisy, low-quality lighting conditions or suffer from high computational complexity due to the deep fully connected neural networks and ray marching rendering strategies used in neural radiance fields, making it difficult to recover fine texture details. In contrast, the latest advancements in 3DGS have achieved high-quality real-time rendering by optimizing the point cloud representation into Gaussian ellipsoids. Building on this, we introduce SpikeGS, the method to learn 3D Gaussian fields solely from spike stream. We designed a differentiable spike stream rendering framework based on 3DGS, incorporating noise embedding and spiking neurons. By leveraging the multi-view consistency of 3DGS and the tile-based multi-threaded parallel rendering mechanism, we achieved high-quality real-time rendering results. Additionally, we introduced a spike rendering loss function that generalizes under varying illumination conditions. Our method can reconstruct view synthesis results with fine texture details from a continuous spike stream captured by a moving spike camera, while demonstrating high robustness in extremely noisy low-light scenarios. Experimental results on both real and synthetic datasets demonstrate that our method surpasses existing approaches in terms of rendering quality and speed. Our code will be available at https://github.com/520jz/SpikeGS.
翻訳日:2024-11-06 20:27:58 公開日:2024-10-14
# SpikeGS: 継続的スパイクストリームから3Dガウス場を学ぶ

SpikeGS: Learning 3D Gaussian Fields from Continuous Spike Stream ( http://arxiv.org/abs/2409.15176v4 )

ライセンス: Link先を確認
Jinze Yu, Xin Peng, Zhengda Lu, Laurent Kneip, Yiqun Wang, (参考訳) スパイクカメラは、従来のフレームカメラに比べて高時間分解能と高ダイナミックレンジなどの利点を提供する特殊な高速視覚センサであり、これらの特徴は、多くのコンピュータビジョンタスクにおいて大きな利点をもたらす。 しかし、スパイクカメラに基づく新しいビュー合成の課題はまだ未開発である。 スパイクストリームからニューラルラディアンスフィールドを学習する方法は存在するが、非常にノイズの多い低品質の照明条件では堅牢性が欠如しているか、あるいはニューラルラディアンスフィールドで使用されるディープ完全連結ニューラルネットワークとレイマーチングレンダリング戦略により、高い計算複雑性に悩まされているため、きめ細かいテクスチャの詳細を回復することは困難である。 対照的に、3DGSの最新の進歩は、点雲表現をガウス楕円体に最適化することで、高品質なリアルタイムレンダリングを実現している。 これに基づいて,スパイクストリームのみから3次元ガウス場を学習するSpikeGSを導入する。 ノイズ埋め込みとスパイクニューロンを組み込んだ3DGSに基づく差別化可能なスパイクストリームレンダリングフレームワークを設計した。 3DGSのマルチビュー一貫性とタイルベースのマルチスレッド並列レンダリング機構を利用して,高品質なリアルタイムレンダリング結果を得た。 さらに、様々な照明条件下で一般化するスパイクレンダリング損失関数を導入した。 提案手法は, 移動型スパイクカメラで捉えた連続的なスパイクストリームから, 極めてノイズの多い低照度シナリオにおいて高いロバスト性を示しながら, 微視的なテクスチャ情報を用いて, ビュー合成結果を再構成することができる。 実データと合成データの両方に対する実験結果から,本手法はレンダリング品質と速度の面で既存の手法を超越していることが示された。 私たちのコードはhttps://github.com/520jz/SpikeGS.comで公開されます。

A spike camera is a specialized high-speed visual sensor that offers advantages such as high temporal resolution and high dynamic range compared to conventional frame cameras.These features provide the camera with significant advantages in many computer vision tasks. However, the tasks of novel view synthesis based on spike cameras remain underdeveloped. Although there are existing methods for learning neural radiance fields from spike stream, they either lack robustness in extremely noisy, low-quality lighting conditions or suffer from high computational complexity due to the deep fully connected neural networks and ray marching rendering strategies used in neural radiance fields, making it difficult to recover fine texture details. In contrast, the latest advancements in 3DGS have achieved high-quality real-time rendering by optimizing the point cloud representation into Gaussian ellipsoids. Building on this, we introduce SpikeGS, the method to learn 3D Gaussian fields solely from spike stream. We designed a differentiable spike stream rendering framework based on 3DGS, incorporating noise embedding and spiking neurons. By leveraging the multi-view consistency of 3DGS and the tile-based multi-threaded parallel rendering mechanism, we achieved high-quality real-time rendering results. Additionally, we introduced a spike rendering loss function that generalizes under varying illumination conditions. Our method can reconstruct view synthesis results with fine texture details from a continuous spike stream captured by a moving spike camera, while demonstrating high robustness in extremely noisy low-light scenarios. Experimental results on both real and synthetic datasets demonstrate that our method surpasses existing approaches in terms of rendering quality and speed. Our code will be available at https://github.com/520jz/SpikeGS.
翻訳日:2024-11-06 20:27:58 公開日:2024-10-14
# SpikeGS: 継続的スパイクストリームから3Dガウス場を学ぶ

SpikeGS: Learning 3D Gaussian Fields from Continuous Spike Stream ( http://arxiv.org/abs/2409.15176v5 )

ライセンス: Link先を確認
Jinze Yu, Xin Peng, Zhengda Lu, Laurent Kneip, Yiqun Wang, (参考訳) スパイクカメラは、従来のフレームカメラと比較して、高時間分解能や高ダイナミックレンジなどの利点を提供する特殊な高速視覚センサである。 これらの機能は、多くのコンピュータビジョンタスクにおいて、カメラに大きなアドバンテージを提供する。 しかし、スパイクカメラに基づく新しいビュー合成の課題はまだ未開発である。 スパイクストリームからニューラルラディアンスフィールドを学習する方法は存在するが、非常にノイズの多い低品質の照明条件では堅牢性が欠如しているか、深い完全連結ニューラルネットワークとニューラルラディアンスフィールドで使用されるレイマーキングレンダリング戦略により、高い計算複雑性に悩まされているため、きめ細かいテクスチャの詳細を回復することは困難である。 対照的に、3DGSの最新の進歩は、点雲表現をガウス楕円体に最適化することで、高品質なリアルタイムレンダリングを実現している。 これに基づいて,スパイクストリームのみから3次元ガウス場を学習するSpikeGSを導入する。 ノイズ埋め込みとスパイクニューロンを組み込んだ3DGSに基づく差別化可能なスパイクストリームレンダリングフレームワークを設計した。 3DGSのマルチビュー一貫性とタイルベースのマルチスレッド並列レンダリング機構を利用して,高品質なリアルタイムレンダリング結果を得た。 さらに、様々な照明条件下で一般化するスパイクレンダリング損失関数を導入した。 提案手法は, 移動型スパイクカメラで捉えた連続的なスパイクストリームから, 極めてノイズの多い低照度シナリオにおいて高いロバスト性を示しながら, 微視的なテクスチャ情報を用いて, ビュー合成結果を再構成することができる。 実データと合成データの両方に対する実験結果から,本手法はレンダリング品質と速度の面で既存の手法を超越していることが示された。 私たちのコードはhttps://github.com/520jz/SpikeGS.comで公開されます。

A spike camera is a specialized high-speed visual sensor that offers advantages such as high temporal resolution and high dynamic range compared to conventional frame cameras. These features provide the camera with significant advantages in many computer vision tasks. However, the tasks of novel view synthesis based on spike cameras remain underdeveloped. Although there are existing methods for learning neural radiance fields from spike stream, they either lack robustness in extremely noisy, low-quality lighting conditions or suffer from high computational complexity due to the deep fully connected neural networks and ray marching rendering strategies used in neural radiance fields, making it difficult to recover fine texture details. In contrast, the latest advancements in 3DGS have achieved high-quality real-time rendering by optimizing the point cloud representation into Gaussian ellipsoids. Building on this, we introduce SpikeGS, the method to learn 3D Gaussian fields solely from spike stream. We designed a differentiable spike stream rendering framework based on 3DGS, incorporating noise embedding and spiking neurons. By leveraging the multi-view consistency of 3DGS and the tile-based multi-threaded parallel rendering mechanism, we achieved high-quality real-time rendering results. Additionally, we introduced a spike rendering loss function that generalizes under varying illumination conditions. Our method can reconstruct view synthesis results with fine texture details from a continuous spike stream captured by a moving spike camera, while demonstrating high robustness in extremely noisy low-light scenarios. Experimental results on both real and synthetic datasets demonstrate that our method surpasses existing approaches in terms of rendering quality and speed. Our code will be available at https://github.com/520jz/SpikeGS.
翻訳日:2024-11-06 20:27:58 公開日:2024-10-14
# MCTrack: 自動運転のための統合された3D多目的追跡フレームワーク

MCTrack: A Unified 3D Multi-Object Tracking Framework for Autonomous Driving ( http://arxiv.org/abs/2409.16149v2 )

ライセンス: Link先を確認
Xiyang Wang, Shouzheng Qi, Jieyou Zhao, Hangning Zhou, Siyu Zhang, Guoan Wang, Kai Tu, Songlin Guo, Jianbo Zhao, Jian Li, Mu Yang, (参考訳) 本稿では,KITTI, nuScenes, Waymoデータセット間でのSOTA(State-of-the-art)性能を実現する新しい3Dマルチオブジェクトトラッキング手法であるMCTrackを紹介する。 特定のデータセットでよく機能するが、一般化性に欠ける既存のトラッキングパラダイムのギャップに対処するため、MCTrackは統合されたソリューションを提供する。 さらに、BaseVersionと呼ばれる様々なデータセットにまたがる知覚結果のフォーマットを標準化し、マルチオブジェクトトラッキング(MOT)分野の研究者が、データ前処理の負担を伴わずに、コアアルゴリズム開発に集中できるようにしました。 最後に、現在の評価指標の限界を認識し、下流タスクに不可欠な速度や加速度などの運動情報出力を評価する新しいセットを提案する。 提案されたメソッドのソースコードはこのリンクで入手できる。 https://github.com/megvii-research/MCTrack}{https://github.com/megvii-research/MCTrack

This paper introduces MCTrack, a new 3D multi-object tracking method that achieves state-of-the-art (SOTA) performance across KITTI, nuScenes, and Waymo datasets. Addressing the gap in existing tracking paradigms, which often perform well on specific datasets but lack generalizability, MCTrack offers a unified solution. Additionally, we have standardized the format of perceptual results across various datasets, termed BaseVersion, facilitating researchers in the field of multi-object tracking (MOT) to concentrate on the core algorithmic development without the undue burden of data preprocessing. Finally, recognizing the limitations of current evaluation metrics, we propose a novel set that assesses motion information output, such as velocity and acceleration, crucial for downstream tasks. The source codes of the proposed method are available at this link: https://github.com/megvii-research/MCTrack}{https://github.com/megvii-research/MCTrack
翻訳日:2024-11-06 17:52:35 公開日:2024-10-14
# 欲しがることを言う: 自己回帰型のオンライン推論最適化

Just Say What You Want: Only-prompting Self-rewarding Online Preference Optimization ( http://arxiv.org/abs/2409.17534v2 )

ライセンス: Link先を確認
Ruijie Xu, Zhihan Liu, Yongfei Liu, Shipeng Yan, Zhaoran Wang, Zhi Zhang, Xuming He, (参考訳) 本稿では,自己回帰的アライメントに着目したオンライン強化学習(RLHF)の課題に対処する。 オンラインRLHFでは、フィードバックを得るためには環境とのインタラクションが必要であり、追加の報酬モデルやGPT-4 APIを使用する場合にはコストがかかる。 現在の自己回帰アプローチは、大規模なモデルでは有効だが、より小さなモデルへの移行が困難である判別器の判断能力に大きく依存している。 これらの制約に対処するため,判断能力に頼らずに嗜好データセットを生成する,新たな自己回帰型オンラインアルゴリズムを提案する。 さらに、正と負のサンプル間の最適性ギャップに対して微粒な算術制御を用い、トレーニングの後半でより硬い負を発生させ、モデルが微妙な人間の嗜好をよりよく捉えるのに役立つ。 最後に,Mistral-7BとMistral-Instruct-7Bの2つのベースモデルについて広範な実験を行った。

We address the challenge of online Reinforcement Learning from Human Feedback (RLHF) with a focus on self-rewarding alignment methods. In online RLHF, obtaining feedback requires interaction with the environment, which can be costly when using additional reward models or the GPT-4 API. Current self-rewarding approaches rely heavily on the discriminator's judgment capabilities, which are effective for large-scale models but challenging to transfer to smaller ones. To address these limitations, we propose a novel, only-prompting self-rewarding online algorithm that generates preference datasets without relying on judgment capabilities. Additionally, we employ fine-grained arithmetic control over the optimality gap between positive and negative examples, generating more hard negatives in the later stages of training to help the model better capture subtle human preferences. Finally, we conduct extensive experiments on two base models, Mistral-7B and Mistral-Instruct-7B, which significantly bootstrap the performance of the reference model, achieving 34.5% in the Length-controlled Win Rates of AlpacaEval 2.0.
翻訳日:2024-11-06 16:20:44 公開日:2024-10-14
# ノイジーポアソン核融合による自己蒸留深部微細化

Self-Distilled Depth Refinement with Noisy Poisson Fusion ( http://arxiv.org/abs/2409.17880v2 )

ライセンス: Link先を確認
Jiaqi Li, Yiran Wang, Jinghong Zheng, Zihao Huang, Ke Xian, Zhiguo Cao, Jianming Zhang, (参考訳) 深度補正は、細粒度と細部で高分解能深度を推定し、深度推定モデルの低分解能結果を精査することを目的としている。 一般的な方法は、多くのパッチをマージすることでタイルベースの方法を採用するが、効率が悪く、一貫性がない。 また、前身芸術はファジィな奥行き境界と限定的な一般化性に悩まされている。 これらの制約の根本的な理由を解析し、局所的不整合とエッジ変形雑音を伴うノイズの多いポアソン融合問題として深度補正をモデル化する。 本稿では,奥行き表現とエッジベースガイダンスを主成分とする自己蒸留深度微細化(SDDR)フレームワークを提案する。 入力として雑音深度予測を用いると、SDDRは粗大な自己蒸留により擬似ラベルとして低雑音深度エッジ表現を生成する。 エッジ誘導勾配損失とエッジベース融合損失を用いたエッジベース誘導は、ポアソン核融合と同等の最適化目標となる。 ディープマップが改良されると、ラベルもノイズフリーになる。 提案モデルでは,5つのベンチマークにおいて,精度,エッジ品質,効率,一般化性の大幅な向上を達成できる。 さらに,SDDRが生成するエッジラベルを用いて,他のモデルを直接トレーニングすることで改良がもたらされ,今後の作業において堅牢なリファインメントモデルのトレーニングに役立つ可能性が示唆された。

Depth refinement aims to infer high-resolution depth with fine-grained edges and details, refining low-resolution results of depth estimation models. The prevailing methods adopt tile-based manners by merging numerous patches, which lacks efficiency and produces inconsistency. Besides, prior arts suffer from fuzzy depth boundaries and limited generalizability. Analyzing the fundamental reasons for these limitations, we model depth refinement as a noisy Poisson fusion problem with local inconsistency and edge deformation noises. We propose the Self-distilled Depth Refinement (SDDR) framework to enforce robustness against the noises, which mainly consists of depth edge representation and edge-based guidance. With noisy depth predictions as input, SDDR generates low-noise depth edge representations as pseudo-labels by coarse-to-fine self-distillation. Edge-based guidance with edge-guided gradient loss and edge-based fusion loss serves as the optimization objective equivalent to Poisson fusion. When depth maps are better refined, the labels also become more noise-free. Our model can acquire strong robustness to the noises, achieving significant improvements in accuracy, edge quality, efficiency, and generalizability on five different benchmarks. Moreover, directly training another model with edge labels produced by SDDR brings improvements, suggesting that our method could help with training robust refinement models in future works.
翻訳日:2024-11-06 16:00:56 公開日:2024-10-14
# OpenAIのo1モデルの計画能力について:可能性、最適性、一般化可能性

On The Planning Abilities of OpenAI's o1 Models: Feasibility, Optimality, and Generalizability ( http://arxiv.org/abs/2409.19924v1 )

ライセンス: Link先を確認
Kevin Wang, Junbo Li, Neel P. Bhatt, Yihan Xi, Qiang Liu, Ufuk Topcu, Zhangyang Wang, (参考訳) 近年のLarge Language Models (LLMs) の進歩は、複雑な推論タスクを実行する能力を示したが、計画におけるその有効性は未解明のままである。 本研究では,OpenAIのo1モデルの様々なベンチマークタスクにおける計画能力を評価し,実現可能性,最適性,一般化性という3つの重要な側面に注目した。 制約重大タスク(例: $\textit{Barman}$, $\textit{Tyreworld}$)と空間的に複雑な環境(例: $\textit{Termes}$, $\textit{Floortile}$)に関する実証的な評価を通じて、自己評価と制約追従におけるo1-previewの強みを強調しながら、意思決定やメモリ管理におけるボトルネックを識別する。 その結果,o1-preview は GPT-4 よりもタスク制約に順応し,構造化環境における状態遷移を管理するのに優れていた。 しかし、モデルはしばしば冗長な動作を伴う最適下解を生成し、空間的に複雑なタスクにおいて効果的に一般化するのに苦労する。 このパイロット研究は、LCMの計画限界に関する基礎的な洞察を提供し、LCMベースの計画におけるメモリ管理、意思決定、一般化に関する今後の研究の鍵となる方向性を提供する。

Recent advancements in Large Language Models (LLMs) have showcased their ability to perform complex reasoning tasks, but their effectiveness in planning remains underexplored. In this study, we evaluate the planning capabilities of OpenAI's o1 models across a variety of benchmark tasks, focusing on three key aspects: feasibility, optimality, and generalizability. Through empirical evaluations on constraint-heavy tasks (e.g., $\textit{Barman}$, $\textit{Tyreworld}$) and spatially complex environments (e.g., $\textit{Termes}$, $\textit{Floortile}$), we highlight o1-preview's strengths in self-evaluation and constraint-following, while also identifying bottlenecks in decision-making and memory management, particularly in tasks requiring robust spatial reasoning. Our results reveal that o1-preview outperforms GPT-4 in adhering to task constraints and managing state transitions in structured environments. However, the model often generates suboptimal solutions with redundant actions and struggles to generalize effectively in spatially complex tasks. This pilot study provides foundational insights into the planning limitations of LLMs, offering key directions for future research on improving memory management, decision-making, and generalization in LLM-based planning.
翻訳日:2024-11-05 16:57:15 公開日:2024-10-14
# OpenAIのo1モデルの計画能力について:可能性、最適性、一般化可能性

On The Planning Abilities of OpenAI's o1 Models: Feasibility, Optimality, and Generalizability ( http://arxiv.org/abs/2409.19924v2 )

ライセンス: Link先を確認
Kevin Wang, Junbo Li, Neel P. Bhatt, Yihan Xi, Qiang Liu, Ufuk Topcu, Zhangyang Wang, (参考訳) 近年のLarge Language Models (LLMs) の進歩は、複雑な推論タスクを実行する能力を示したが、計画におけるその有効性は未解明のままである。 本研究では,OpenAIのo1モデルの様々なベンチマークタスクにおける計画能力を評価し,実現可能性,最適性,一般化性という3つの重要な側面に注目した。 制約重大タスク(例: $\textit{Barman}$, $\textit{Tyreworld}$)と空間的に複雑な環境(例: $\textit{Termes}$, $\textit{Floortile}$)に関する実証的な評価を通じて、自己評価と制約追従におけるo1-previewの強みを強調しながら、意思決定やメモリ管理におけるボトルネックを識別する。 その結果,o1-preview は GPT-4 よりもタスク制約に順応し,構造化環境における状態遷移を管理するのに優れていた。 しかし、モデルはしばしば冗長な動作を伴う最適下解を生成し、空間的に複雑なタスクにおいて効果的に一般化するのに苦労する。 このパイロット研究は、LCMの計画限界に関する基礎的な洞察を提供し、LCMベースの計画におけるメモリ管理、意思決定、一般化に関する今後の研究の鍵となる方向性を提供する。

Recent advancements in Large Language Models (LLMs) have showcased their ability to perform complex reasoning tasks, but their effectiveness in planning remains underexplored. In this study, we evaluate the planning capabilities of OpenAI's o1 models across a variety of benchmark tasks, focusing on three key aspects: feasibility, optimality, and generalizability. Through empirical evaluations on constraint-heavy tasks (e.g., $\textit{Barman}$, $\textit{Tyreworld}$) and spatially complex environments (e.g., $\textit{Termes}$, $\textit{Floortile}$), we highlight o1-preview's strengths in self-evaluation and constraint-following, while also identifying bottlenecks in decision-making and memory management, particularly in tasks requiring robust spatial reasoning. Our results reveal that o1-preview outperforms GPT-4 in adhering to task constraints and managing state transitions in structured environments. However, the model often generates suboptimal solutions with redundant actions and struggles to generalize effectively in spatially complex tasks. This pilot study provides foundational insights into the planning limitations of LLMs, offering key directions for future research on improving memory management, decision-making, and generalization in LLM-based planning.
翻訳日:2024-11-05 16:47:30 公開日:2024-10-14
# OpenAIのo1モデルの計画能力について:可能性、最適性、一般化可能性

On The Planning Abilities of OpenAI's o1 Models: Feasibility, Optimality, and Generalizability ( http://arxiv.org/abs/2409.19924v3 )

ライセンス: Link先を確認
Kevin Wang, Junbo Li, Neel P. Bhatt, Yihan Xi, Qiang Liu, Ufuk Topcu, Zhangyang Wang, (参考訳) 近年のLarge Language Models (LLMs) の進歩は、複雑な推論タスクを実行する能力を示したが、計画におけるその有効性は未解明のままである。 本研究では,OpenAIのo1モデルの様々なベンチマークタスクにおける計画能力を評価し,実現可能性,最適性,一般化性という3つの重要な側面に注目した。 制約重大タスク(例: $\textit{Barman}$, $\textit{Tyreworld}$)と空間的に複雑な環境(例: $\textit{Termes}$, $\textit{Floortile}$)に関する実証的な評価を通じて、自己評価と制約追従におけるo1-previewの強みを強調しながら、意思決定やメモリ管理におけるボトルネックを識別する。 その結果,o1-preview は GPT-4 よりもタスク制約に順応し,構造化環境における状態遷移を管理するのに優れていた。 しかし、モデルはしばしば冗長な動作を伴う最適下解を生成し、空間的に複雑なタスクにおいて効果的に一般化するのに苦労する。 このパイロット研究は、LCMの計画限界に関する基礎的な洞察を提供し、LCMベースの計画におけるメモリ管理、意思決定、一般化に関する今後の研究の鍵となる方向性を提供する。 コードは以下の通り。 $\href{https://github.com/VITA-Group/o1-planning}{\text{https://github.com/VITA-Group/o1-planning}}$

Recent advancements in Large Language Models (LLMs) have showcased their ability to perform complex reasoning tasks, but their effectiveness in planning remains underexplored. In this study, we evaluate the planning capabilities of OpenAI's o1 models across a variety of benchmark tasks, focusing on three key aspects: feasibility, optimality, and generalizability. Through empirical evaluations on constraint-heavy tasks (e.g., $\textit{Barman}$, $\textit{Tyreworld}$) and spatially complex environments (e.g., $\textit{Termes}$, $\textit{Floortile}$), we highlight o1-preview's strengths in self-evaluation and constraint-following, while also identifying bottlenecks in decision-making and memory management, particularly in tasks requiring robust spatial reasoning. Our results reveal that o1-preview outperforms GPT-4 in adhering to task constraints and managing state transitions in structured environments. However, the model often generates suboptimal solutions with redundant actions and struggles to generalize effectively in spatially complex tasks. This pilot study provides foundational insights into the planning limitations of LLMs, offering key directions for future research on improving memory management, decision-making, and generalization in LLM-based planning. Code available at: $\href{https://github.com/VITA-Group/o1-planning}{\text{https://github.com/VITA-Group/o1-planning}}$.
翻訳日:2024-11-05 16:47:30 公開日:2024-10-14
# OpenAIのo1モデルの計画能力について:可能性、最適性、一般化可能性

On The Planning Abilities of OpenAI's o1 Models: Feasibility, Optimality, and Generalizability ( http://arxiv.org/abs/2409.19924v4 )

ライセンス: Link先を確認
Kevin Wang, Junbo Li, Neel P. Bhatt, Yihan Xi, Qiang Liu, Ufuk Topcu, Zhangyang Wang, (参考訳) 近年のLarge Language Models (LLMs) の進歩は、複雑な推論タスクを実行する能力を示したが、計画におけるその有効性は未解明のままである。 本研究では,OpenAIのo1モデルの様々なベンチマークタスクにおける計画能力を評価し,実現可能性,最適性,一般化性という3つの重要な側面に注目した。 制約重大タスク(例: $\textit{Barman}$, $\textit{Tyreworld}$)と空間的に複雑な環境(例: $\textit{Termes}$, $\textit{Floortile}$)に関する実証的な評価を通じて、自己評価と制約追従におけるo1-previewの強みを強調しながら、意思決定やメモリ管理におけるボトルネックを識別する。 その結果,o1-preview は GPT-4 よりもタスク制約に順応し,構造化環境における状態遷移を管理するのに優れていた。 しかし、モデルはしばしば冗長な動作を伴う最適下解を生成し、空間的に複雑なタスクにおいて効果的に一般化するのに苦労する。 このパイロット研究は、LCMの計画限界に関する基礎的な洞察を提供し、LCMベースの計画におけるメモリ管理、意思決定、一般化に関する今後の研究の鍵となる方向性を提供する。 コードはhttps://github.com/VITA-Group/o1-planningで公開されている。

Recent advancements in Large Language Models (LLMs) have showcased their ability to perform complex reasoning tasks, but their effectiveness in planning remains underexplored. In this study, we evaluate the planning capabilities of OpenAI's o1 models across a variety of benchmark tasks, focusing on three key aspects: feasibility, optimality, and generalizability. Through empirical evaluations on constraint-heavy tasks (e.g., $\textit{Barman}$, $\textit{Tyreworld}$) and spatially complex environments (e.g., $\textit{Termes}$, $\textit{Floortile}$), we highlight o1-preview's strengths in self-evaluation and constraint-following, while also identifying bottlenecks in decision-making and memory management, particularly in tasks requiring robust spatial reasoning. Our results reveal that o1-preview outperforms GPT-4 in adhering to task constraints and managing state transitions in structured environments. However, the model often generates suboptimal solutions with redundant actions and struggles to generalize effectively in spatially complex tasks. This pilot study provides foundational insights into the planning limitations of LLMs, offering key directions for future research on improving memory management, decision-making, and generalization in LLM-based planning. Code available at https://github.com/VITA-Group/o1-planning.
翻訳日:2024-11-05 16:47:30 公開日:2024-10-14
# アルミノシリケート融解粘度の一般機械学習モデルとその乾燥溶岩惑星の表面特性への応用

A general machine learning model of aluminosilicate melt viscosity and its application to the surface properties of dry lava planets ( http://arxiv.org/abs/2409.20235v2 )

ライセンス: Link先を確認
Charles Le Losq, Clément Ferraina, Paolo A. Sossi, Charles-Édouard Boukaré, (参考訳) K2-141 bのような超短周期の太陽系外惑星は、日中はマグマの海があり、惑星内の熱を再分配するのに重要な役割を果たしている。 これは、ジェームズ・ウェッブ宇宙望遠鏡によって測定され、惑星の構造に関する洞察を提供する、暖かい夜の面に繋がる可能性がある。 粘度のような特性の正確なモデルは、桁違いに変化しうるが、そのような研究には不可欠である。 本研究では,溶存マグマの粘度を予測する新しいモデルを提案する。 28,898の粘度測定データベースを用いて,超液体を過冷却温度と30GPaまでの圧力に分散させ,ガウス法で精製したグレーボックス人工ニューラルネットワークを訓練した。 このモデルは高い予測精度(RMSE $\approx 0.4 \log_{10}$ Pa$\cdot$s)を達成し、SiO$_2$から多成分マグマおよび工業用ガラスまでの組成を処理できる。 このモデルを用いて,K2-141 bのマグマの粘度を異なる組成で計算した。 相図計算は、日中は完全に溶けており、極低温が主に粘性を制御することを示唆している。 テンラス大気(0.1バー)は、恒星下点から40{\deg}半径付近に存在する可能性がある。 高経度では大気圧が低下し、90{\deg} では、マグマの粘度は凝固が起こるにつれて急速に増加する。 夜間の表面はおそらく固体であるが、以前推定された400Kを超える表面温度は、部分的に溶融したマントルを意味し、垂直対流を通じて地熱フラックスを供給している。

Ultra-short-period exoplanets like K2-141 b likely have magma oceans on their dayside, which play a critical role in redistributing heat within the planet. This could lead to a warm nightside surface, measurable by the James Webb Space Telescope, offering insights into the planet's structure. Accurate models of properties like viscosity, which can vary by orders of magnitude, are essential for such studies. We present a new model for predicting molten magma viscosity, applicable in diverse scenarios, including magma oceans on lava planets. Using a database of 28,898 viscosity measurements on phospho-alumino-silicate melts, spanning superliquidus to undercooled temperatures and pressures up to 30 GPa, we trained a greybox artificial neural network, refined by a Gaussian process. This model achieves high predictive accuracy (RMSE $\approx 0.4 \log_{10}$ Pa$\cdot$s) and can handle compositions from SiO$_2$ to multicomponent magmatic and industrial glasses, accounting for pressure effects up to 30 GPa for compositions such as peridotite. Applying this model, we calculated the viscosity of K2-141 b's magma ocean under different compositions. Phase diagram calculations suggest that the dayside is fully molten, with extreme temperatures primarily controlling viscosity. A tenuous atmosphere (0.1 bar) might exist around a 40{\deg} radius from the substellar point. At higher longitudes, atmospheric pressure drops, and by 90{\deg}, magma viscosity rapidly increases as solidification occurs. The nightside surface is likely solid, but previously estimated surface temperatures above 400 K imply a partly molten mantle, feeding geothermal flux through vertical convection.
翻訳日:2024-11-05 15:58:31 公開日:2024-10-14
# アダマールグラフの正確な量子色数

The exact quantum chromatic number of Hadamard graphs ( http://arxiv.org/abs/2410.00042v1 )

ライセンス: Link先を確認
Meenakshi McNamara, (参考訳) 次数$n=2^N$ for $N$ a multiple of $4$ a multiple of $N$, using the upper bound by Avis, Hasegawa, Kikuchi, and Sasaki, and a application of the Hoffman-like lower bound of Clive and Wocjan that was generalized by Ganesan。

We compute the exact value of the quantum chromatic numbers of Hadamard graphs of order $n=2^N$ for $N$ a multiple of $4$ using the upper bound derived by Avis, Hasegawa, Kikuchi, and Sasaki, as well as an application of the Hoffman-like lower bound of Clive and Wocjan that was generalized by Ganesan for quantum graphs.
翻訳日:2024-11-05 15:19:28 公開日:2024-10-14
# アダマールグラフの正確な量子色数

The exact quantum chromatic number of Hadamard graphs ( http://arxiv.org/abs/2410.00042v2 )

ライセンス: Link先を確認
Meenakshi McNamara, (参考訳) 次数$n=2^N$ for $N$ a multiple of $4$ a multiple of $N$, using the upper bound by Avis, Hasegawa, Kikuchi, and Sasaki, and a application of the Hoffman-like lower bound of Elphick and Wocjan that was generalized by Ganesan。 下界に対する事前の計算とは対照的に、我々の手法は共役類グラフ上で伊藤の結果を用いて、アダマールグラフの積の量子色数上の有界も見つけることができる。 特に、アダマールグラフのカテゴリー積の正確な量子色数を計算する。

We compute the exact value of the quantum chromatic numbers of Hadamard graphs of order $n=2^N$ for $N$ a multiple of $4$ using the upper bound derived by Avis, Hasegawa, Kikuchi, and Sasaki, as well as an application of the Hoffman-like lower bound of Elphick and Wocjan that was generalized by Ganesan for quantum graphs. As opposed to prior computations for the lower bound, our approach uses Ito's results on conjugacy class graphs allowing us to also find bounds on the quantum chromatic numbers of products of Hadamard graphs. In particular, we also compute the exact quantum chromatic number of the categorical product of Hadamard graphs.
翻訳日:2024-11-05 15:19:28 公開日:2024-10-14
# 極小変化原理からの量子ベイズ則とペッツ変換写像

Quantum Bayes' rule and Petz transpose map from the minimal change principle ( http://arxiv.org/abs/2410.00319v1 )

ライセンス: Link先を確認
Ge Bai, Francesco Buscemi, Valerio Scarani, (参考訳) ベイズの規則は、新しい証拠に基づく信念を更新するために日常的に使用されるが、最小限の変更原理から生じる。 このことは、更新された信念は、以前の信念から最小限に逸脱しながら、新しいデータと一貫性を持たなければならない、と述べている。 ここでは、最小限の変化原理の量子アナログを導入し、それを量子ベイズ則の導出に利用し、量子過程間の変化を最小化する。 変化が忠実度によって定量化されると、最小変化原理はユニークな解を持ち、結果として生じる量子ベイズの規則はペッツ変換写像を復元する。

Bayes' rule, which is routinely used to update beliefs based on new evidence, arises from a minimal change principle. This states that updated beliefs must be consistent with new data while deviating minimally from the prior belief. Here we introduce a quantum analog of the minimal change principle and use it to derive a quantum Bayes' rule by minimizing the change between quantum processes, not just their marginals, similar to the classical case where Bayes' rule is obtained by minimizing the change between joint distributions. When the change is quantified by the fidelity, the minimal change principle has a unique solution, and the resulting quantum Bayes' rule recovers the Petz transpose map.
翻訳日:2024-11-05 06:26:14 公開日:2024-10-14
# 極小変化原理からの量子ベイズ則とペッツ変換写像

Quantum Bayes' rule and Petz transpose map from the minimal change principle ( http://arxiv.org/abs/2410.00319v2 )

ライセンス: Link先を確認
Ge Bai, Francesco Buscemi, Valerio Scarani, (参考訳) ベイズの規則は、新しい証拠に基づく信念を更新するために日常的に使用されるが、最小限の変化の原理から生じる。 この原則は、更新された信念は、以前の信念から最小限に逸脱しながら、新しいデータと一貫性を持たなければならないことを述べている。 ここでは、最小限の変化原理の量子アナログを導入し、それを用いて、2つの量子入力出力プロセス間の変化を最小限に抑え、量子ベイズの規則を導出する。 これは、ベイズの規則が合同入力-出力分布間の変化を最小化することによって得られる古典的なケースと類似している。 変化が忠実度によって量子化されると、量子極小変化原理はユニークな解を持ち、結果として生じる量子ベイズの規則はペッツ変換写像を復元する。

Bayes' rule, which is routinely used to update beliefs based on new evidence, arises from a principle of minimal change. This principle states that updated beliefs must be consistent with new data, while deviating minimally from the prior belief. Here, we introduce a quantum analog of the minimal change principle and use it to derive a quantum Bayes' rule by minimizing the change between two quantum input-output processes, not just their marginals. This is analogous to the classical case where Bayes' rule is obtained by minimizing the change between the joint input-output distributions. When the change is quantified by the fidelity, the quantum minimal change principle has a unique solution, and the resulting quantum Bayes' rule recovers the Petz transpose map.
翻訳日:2024-11-05 06:26:14 公開日:2024-10-14
# FlipGuard: 制約付き最適化による更新回帰に対する優先度アライメントの回避

FlipGuard: Defending Preference Alignment against Update Regression with Constrained Optimization ( http://arxiv.org/abs/2410.00508v1 )

ライセンス: Link先を確認
Mingye Zhu, Yi Liu, Quan Wang, Junbo Guo, Zhendong Mao, (参考訳) 近年の嗜好調整のブレークスルーにより、人間の嗜好や価値観に沿ったテキストを生成する大規模言語モデルの能力が大幅に向上した。 しかしながら、現在のアライメントメトリクスは一般的に、ポストホック後の全体的な改善を強調し、重要な側面:リグレッション(Regress)は、以前の正しく処理されたデータの更新後のバックスライディングを指す。 この潜在的な落とし穴は、既に整列したデータの過度な微調整によって生じる可能性がある。 この課題に対処するために、焦点を絞った更新回帰の検出と緩和を行う制約付き最適化手法であるFlipGuardを提案する。 具体的には、FlipGuardはカスタマイズされた報酬のキャラクタリゼーションを使用してパフォーマンスの劣化を特定し、トレーニング中に事前調整されたモデルとの条件整合を促進するための制約を戦略的に強制する。 総合的な実験により、FlipGuardは更新回帰を効果的に軽減し、全体的なパフォーマンスを向上し、好みを調整しながら知識保存のメリットを付加した。

Recent breakthroughs in preference alignment have significantly improved Large Language Models' ability to generate texts that align with human preferences and values. However, current alignment metrics typically emphasize the post-hoc overall improvement, while overlooking a critical aspect: regression, which refers to the backsliding on previously correctly-handled data after updates. This potential pitfall may arise from excessive fine-tuning on already well-aligned data, which subsequently leads to over-alignment and degeneration. To address this challenge, we propose FlipGuard, a constrained optimization approach to detect and mitigate update regression with focal attention. Specifically, FlipGuard identifies performance degradation using a customized reward characterization and strategically enforces a constraint to encourage conditional congruence with the pre-aligned model during training. Comprehensive experiments demonstrate that FlipGuard effectively alleviates update regression while demonstrating excellent overall performance, with the added benefit of knowledge preservation while aligning preferences.
翻訳日:2024-11-05 05:16:55 公開日:2024-10-14
# FlipGuard: 制約付き最適化による更新回帰に対する優先度アライメントの回避

FlipGuard: Defending Preference Alignment against Update Regression with Constrained Optimization ( http://arxiv.org/abs/2410.00508v2 )

ライセンス: Link先を確認
Mingye Zhu, Yi Liu, Quan Wang, Junbo Guo, Zhendong Mao, (参考訳) 近年の嗜好調整のブレークスルーにより、人間の嗜好や価値観に沿ったテキストを生成する大規模言語モデルの能力が大幅に向上した。 しかしながら、現在のアライメントメトリクスは一般的に、ポストホック後の全体的な改善を強調し、重要な側面:リグレッション(Regress)は、以前の正しく処理されたデータの更新後のバックスライディングを指す。 この潜在的な落とし穴は、既に整列したデータの過度な微調整によって生じる可能性がある。 この課題に対処するために、焦点を絞った更新回帰の検出と緩和を行う制約付き最適化手法であるFlipGuardを提案する。 具体的には、FlipGuardはカスタマイズされた報酬のキャラクタリゼーションを使用してパフォーマンスの劣化を特定し、トレーニング中に事前調整されたモデルとの条件整合を促進するための制約を戦略的に強制する。 総合的な実験により、FlipGuardは更新回帰を効果的に軽減し、全体的なパフォーマンスを向上し、好みを調整しながら知識保存のメリットを付加した。

Recent breakthroughs in preference alignment have significantly improved Large Language Models' ability to generate texts that align with human preferences and values. However, current alignment metrics typically emphasize the post-hoc overall improvement, while overlooking a critical aspect: regression, which refers to the backsliding on previously correctly-handled data after updates. This potential pitfall may arise from excessive fine-tuning on already well-aligned data, which subsequently leads to over-alignment and degeneration. To address this challenge, we propose FlipGuard, a constrained optimization approach to detect and mitigate update regression with focal attention. Specifically, FlipGuard identifies performance degradation using a customized reward characterization and strategically enforces a constraint to encourage conditional congruence with the pre-aligned model during training. Comprehensive experiments demonstrate that FlipGuard effectively alleviates update regression while demonstrating excellent overall performance, with the added benefit of knowledge preservation while aligning preferences.
翻訳日:2024-11-05 05:07:10 公開日:2024-10-14
# LLMを使ってテキストによるPDEサロゲートモデルを改善する

Explain Like I'm Five: Using LLMs to Improve PDE Surrogate Models with Text ( http://arxiv.org/abs/2410.01137v1 )

ライセンス: Link先を確認
Cooper Lorsung, Amir Barati Farimani, (参考訳) 偏微分方程式 (Partial Differential Equations, PDE) は、科学や工学においてユビキタスである。 数値解法を書く際の計算複雑性と難易度は、解を迅速に生成する機械学習技術の開発を動機付けている。 既存の多くの手法は純粋にデータ駆動であり、境界条件や支配方程式のような既知のシステム情報よりも、数値解場にのみ依存する。 しかし、近年のLarge Language Models(LLM)の普及により、マルチモーダル機械学習モデルにおけるテキストの統合が容易になった。 本研究では,事前学習したLLMを用いて,様々な既知のシステム情報をPDE学習に統合する。 我々のマルチモーダルアプローチは,2次元ヒート,バーガーズ,ナビエ・ストークス,浅水方程式の次ステップ予測および自動回帰ロールアウト性能において,ベースラインモデルであるFactFormerよりも大幅に優れています。 さらなる分析により、事前学習されたLLMは、テキストを通して提供されるシステム情報量と一致した高度に構造化された潜在空間を提供することが示された。

Solving Partial Differential Equations (PDEs) is ubiquitous in science and engineering. Computational complexity and difficulty in writing numerical solvers has motivated the development of machine learning techniques to generate solutions quickly. Many existing methods are purely data driven, relying solely on numerical solution fields, rather than known system information such as boundary conditions and governing equations. However, the recent rise in popularity of Large Language Models (LLMs) has enabled easy integration of text in multimodal machine learning models. In this work, we use pretrained LLMs to integrate various amounts known system information into PDE learning. Our multimodal approach significantly outperforms our baseline model, FactFormer, in both next-step prediction and autoregressive rollout performance on the 2D Heat, Burgers, Navier-Stokes, and Shallow Water equations. Further analysis shows that pretrained LLMs provide highly structured latent space that is consistent with the amount of system information provided through text.
翻訳日:2024-11-04 23:00:28 公開日:2024-10-14
# LLMを使ってテキストによるPDEサロゲートモデルを改善する

Explain Like I'm Five: Using LLMs to Improve PDE Surrogate Models with Text ( http://arxiv.org/abs/2410.01137v2 )

ライセンス: Link先を確認
Cooper Lorsung, Amir Barati Farimani, (参考訳) 偏微分方程式 (Partial Differential Equations, PDE) は、科学や工学においてユビキタスである。 数値解法を書く際の計算複雑性と難易度は、解を迅速に生成する機械学習技術の開発を動機付けている。 既存の多くの手法は純粋にデータ駆動であり、境界条件や支配方程式のような既知のシステム情報よりも、数値解場にのみ依存する。 しかし、近年のLarge Language Models(LLM)の普及により、マルチモーダル機械学習モデルにおけるテキストの統合が容易になった。 本研究では,事前学習したLLMを用いて,様々な既知のシステム情報をPDE学習に統合する。 我々のマルチモーダルアプローチは,2次元ヒート,バーガーズ,ナビエ・ストークス,浅水方程式の次ステップ予測および自動回帰ロールアウト性能において,ベースラインモデルであるFactFormerよりも大幅に優れています。 さらなる分析により、事前学習されたLLMは、テキストを通して提供されるシステム情報量と一致した高度に構造化された潜在空間を提供することが示された。

Solving Partial Differential Equations (PDEs) is ubiquitous in science and engineering. Computational complexity and difficulty in writing numerical solvers has motivated the development of machine learning techniques to generate solutions quickly. Many existing methods are purely data driven, relying solely on numerical solution fields, rather than known system information such as boundary conditions and governing equations. However, the recent rise in popularity of Large Language Models (LLMs) has enabled easy integration of text in multimodal machine learning models. In this work, we use pretrained LLMs to integrate various amounts known system information into PDE learning. Our multimodal approach significantly outperforms our baseline model, FactFormer, in both next-step prediction and autoregressive rollout performance on the 2D Heat, Burgers, Navier-Stokes, and Shallow Water equations. Further analysis shows that pretrained LLMs provide highly structured latent space that is consistent with the amount of system information provided through text.
翻訳日:2024-11-04 23:00:28 公開日:2024-10-14
# LLMを使ってテキストによるPDEサロゲートモデルを改善する

Explain Like I'm Five: Using LLMs to Improve PDE Surrogate Models with Text ( http://arxiv.org/abs/2410.01137v3 )

ライセンス: Link先を確認
Cooper Lorsung, Amir Barati Farimani, (参考訳) 偏微分方程式 (Partial Differential Equations, PDE) は、科学や工学においてユビキタスである。 数値解法を書く際の計算複雑性と難易度は、解を迅速に生成する機械学習技術の開発を動機付けている。 既存の多くの手法は純粋にデータ駆動であり、境界条件や支配方程式のような既知のシステム情報よりも、数値解場にのみ依存する。 しかし、近年のLarge Language Models(LLM)の普及により、マルチモーダル機械学習モデルにおけるテキストの統合が容易になった。 本研究では,事前学習したLLMを用いて,様々な既知のシステム情報をPDE学習に統合する。 我々のマルチモーダルアプローチは,2次元ヒート,バーガーズ,ナビエ・ストークス,浅水方程式の次ステップ予測および自動回帰ロールアウト性能において,ベースラインモデルであるFactFormerよりも大幅に優れています。 さらなる分析により、事前学習されたLLMは、テキストを通して提供されるシステム情報量と一致した高度に構造化された潜在空間を提供することが示された。

Solving Partial Differential Equations (PDEs) is ubiquitous in science and engineering. Computational complexity and difficulty in writing numerical solvers has motivated the development of machine learning techniques to generate solutions quickly. Many existing methods are purely data driven, relying solely on numerical solution fields, rather than known system information such as boundary conditions and governing equations. However, the recent rise in popularity of Large Language Models (LLMs) has enabled easy integration of text in multimodal machine learning models. In this work, we use pretrained LLMs to integrate various amounts known system information into PDE learning. Our multimodal approach significantly outperforms our baseline model, FactFormer, in both next-step prediction and autoregressive rollout performance on the 2D Heat, Burgers, Navier-Stokes, and Shallow Water equations. Further analysis shows that pretrained LLMs provide highly structured latent space that is consistent with the amount of system information provided through text.
翻訳日:2024-11-04 23:00:28 公開日:2024-10-14
# 相互作用誘起ケージによる非エルミート超強ボソニック凝縮

Non-Hermitian ultra-strong bosonic condensation through interaction-induced caging ( http://arxiv.org/abs/2410.01258v1 )

ライセンス: Link先を確認
Mengjie Yang, Luqi Yuan, Ching Hua Lee, (参考訳) 我々は,非エルミタンポンピング,ボソニック相互作用,非自明なバンドトポロジーの3つの相互作用が,超強ボソニック凝縮に繋がる新しいメカニズムを明らかにする。 凝縮の程度は、非エルミチアン励起状態の相互作用によって引き起こされるトラップによって予測されるものを超えており、トポロジカル境界モードによってさらに拡張できる創発的ケージ機構に基づいている。 2つのボソンを持つ最小モデル以外にも、このケージは幅広い密度相互作用と非エルミートホッピング非対称性に従属する一般的な多ボソン系にも適用できる。 粒子の局在と凝縮の新しいメカニズムは、多体非エルミート力学の理解に根本的な変化をもたらし、ボソンを制御・操作するための新しい道を開く。

We uncover a new mechanism whereby the triple interplay of non-Hermitian pumping, bosonic interactions and nontrivial band topology leads to ultra-strong bosonic condensation. The extent of condensation goes beyond what is naively expected from the interaction-induced trapping of non-Hermitian pumped states, and is based on an emergent caging mechanism that can be further enhanced by topological boundary modes. Beyond our minimal model with 2 bosons, this caging remains applicable for generic many-boson systems subject to a broad range of density interactions and non-Hermitian hopping asymmetry. Our novel new mechanism for particle localization and condensation would inspire fundamental shifts in our comprehension of many-body non-Hermitian dynamics and open new avenues for controlling and manipulating bosons.
翻訳日:2024-11-04 22:18:46 公開日:2024-10-14
# 相互作用誘起ケージによる非エルミート超強ボソニック凝縮

Non-Hermitian ultra-strong bosonic condensation through interaction-induced caging ( http://arxiv.org/abs/2410.01258v2 )

ライセンス: Link先を確認
Mengjie Yang, Luqi Yuan, Ching Hua Lee, (参考訳) 我々は,非エルミタンポンピング,ボソニック相互作用,非自明なバンドトポロジーの3つの相互作用が,超強ボソニック凝縮に繋がる新しいメカニズムを明らかにする。 凝縮の程度は、非エルミチアン励起状態の相互作用によって引き起こされるトラップによって予測されるものを超えており、トポロジカル境界モードによってさらに拡張できる創発的ケージ機構に基づいている。 2つのボソンを持つ最小モデル以外にも、このケージは幅広い密度相互作用と非エルミートホッピング非対称性に従属する一般的な多ボソン系にも適用できる。 粒子の局在と凝縮の新しいメカニズムは、多体非エルミート力学の理解に根本的な変化をもたらし、ボソンの制御と操作のための新しい道を開く。

We uncover a new mechanism whereby the triple interplay of non-Hermitian pumping, bosonic interactions and nontrivial band topology leads to ultra-strong bosonic condensation. The extent of condensation goes beyond what is naively expected from the interaction-induced trapping of non-Hermitian pumped states, and is based on an emergent caging mechanism that can be further enhanced by topological boundary modes. Beyond our minimal model with 2 bosons, this caging remains applicable for generic many-boson systems subject to a broad range of density interactions and non-Hermitian hopping asymmetry. Our novel new mechanism for particle localization and condensation would inspire fundamental shifts in our comprehension of many-body non-Hermitian dynamics and opens new avenues for controlling and manipulating bosons.
翻訳日:2024-11-04 22:18:46 公開日:2024-10-14
# 勾配自由切断平面によるディープニューラルネットワークの能動的学習

Active Learning of Deep Neural Networks via Gradient-Free Cutting Planes ( http://arxiv.org/abs/2410.02145v1 )

ライセンス: Link先を確認
Erica Zhang, Fangzhao Zhang, Mert Pilanci, (参考訳) アクティブな学習方法は、機械学習におけるサンプルの複雑さを改善することを目的としている。 本研究では,任意の深さのReLUネットワークに対して,新しい勾配のない切削平面学習手法を用いて,アクティブな学習手法について検討する。 我々は、伝統的に線形モデルで使用される切削平面アルゴリズムが、非凸性や非線形決定境界にもかかわらず、ディープニューラルネットワークに拡張できることを初めて実証した。 以上の結果から,これらの手法は大規模ニューラルネットワークにおいて一般的に用いられている勾配に基づく最適化手法の代替となる可能性が示唆された。 さらに,この学習手法は,収束保証を達成するために知られている最初の深層学習スキームを誘導する。 本稿では,本提案手法の有効性を,実データセット上での感情分類と合成データ実験により実証する。

Active learning methods aim to improve sample complexity in machine learning. In this work, we investigate an active learning scheme via a novel gradient-free cutting-plane training method for ReLU networks of arbitrary depth. We demonstrate, for the first time, that cutting-plane algorithms, traditionally used in linear models, can be extended to deep neural networks despite their nonconvexity and nonlinear decision boundaries. Our results demonstrate that these methods provide a promising alternative to the commonly employed gradient-based optimization techniques in large-scale neural networks. Moreover, this training method induces the first deep active learning scheme known to achieve convergence guarantees. We exemplify the effectiveness of our proposed active learning method against popular deep active learning baselines via both synthetic data experiments and sentimental classification task on real datasets.
翻訳日:2024-11-04 08:35:44 公開日:2024-10-14
# 勾配自由切断平面によるディープニューラルネットワークの能動的学習

Active Learning of Deep Neural Networks via Gradient-Free Cutting Planes ( http://arxiv.org/abs/2410.02145v2 )

ライセンス: Link先を確認
Erica Zhang, Fangzhao Zhang, Mert Pilanci, (参考訳) アクティブな学習方法は、機械学習におけるサンプルの複雑さを改善することを目的としている。 本研究では,任意の深さのReLUネットワークに対して,新しい勾配のない切削平面学習手法を用いて,アクティブな学習手法について検討する。 我々は、伝統的に線形モデルで使用される切削平面アルゴリズムが、非凸性や非線形決定境界にもかかわらず、ディープニューラルネットワークに拡張できることを初めて実証した。 以上の結果から,これらの手法は大規模ニューラルネットワークにおいて一般的に用いられている勾配に基づく最適化手法の代替となる可能性が示唆された。 さらに,この学習手法は,収束保証を達成するために知られている最初の深層学習スキームを誘導する。 本稿では,本提案手法の有効性を,実データセット上での感情分類と合成データ実験により実証する。

Active learning methods aim to improve sample complexity in machine learning. In this work, we investigate an active learning scheme via a novel gradient-free cutting-plane training method for ReLU networks of arbitrary depth. We demonstrate, for the first time, that cutting-plane algorithms, traditionally used in linear models, can be extended to deep neural networks despite their nonconvexity and nonlinear decision boundaries. Our results demonstrate that these methods provide a promising alternative to the commonly employed gradient-based optimization techniques in large-scale neural networks. Moreover, this training method induces the first deep active learning scheme known to achieve convergence guarantees. We exemplify the effectiveness of our proposed active learning method against popular deep active learning baselines via both synthetic data experiments and sentimental classification task on real datasets.
翻訳日:2024-11-04 08:25:54 公開日:2024-10-14
# 勾配自由切断平面によるディープニューラルネットワークの能動的学習

Active Learning of Deep Neural Networks via Gradient-Free Cutting Planes ( http://arxiv.org/abs/2410.02145v3 )

ライセンス: Link先を確認
Erica Zhang, Fangzhao Zhang, Mert Pilanci, (参考訳) アクティブな学習方法は、機械学習におけるサンプルの複雑さを改善することを目的としている。 本研究では,任意の深さのReLUネットワークに対して,新しい勾配のない切削平面学習手法を用いて,アクティブな学習手法について検討する。 我々は、伝統的に線形モデルで使用される切削平面アルゴリズムが、非凸性や非線形決定境界にもかかわらず、ディープニューラルネットワークに拡張できることを初めて実証した。 以上の結果から,これらの手法は大規模ニューラルネットワークにおいて一般的に用いられている勾配に基づく最適化手法の代替となる可能性が示唆された。 さらに,この学習手法は,収束保証を達成するために知られている最初の深層学習スキームを誘導する。 本稿では,本提案手法の有効性を,実データセット上での感情分類と合成データ実験により実証する。

Active learning methods aim to improve sample complexity in machine learning. In this work, we investigate an active learning scheme via a novel gradient-free cutting-plane training method for ReLU networks of arbitrary depth. We demonstrate, for the first time, that cutting-plane algorithms, traditionally used in linear models, can be extended to deep neural networks despite their nonconvexity and nonlinear decision boundaries. Our results demonstrate that these methods provide a promising alternative to the commonly employed gradient-based optimization techniques in large-scale neural networks. Moreover, this training method induces the first deep active learning scheme known to achieve convergence guarantees. We exemplify the effectiveness of our proposed active learning method against popular deep active learning baselines via both synthetic data experiments and sentimental classification task on real datasets.
翻訳日:2024-11-04 08:25:54 公開日:2024-10-14
# SynCo: より良い教師なし視覚表現のためのコントラスト学習における合成ハードネガティクス

SynCo: Synthetic Hard Negatives in Contrastive Learning for Better Unsupervised Visual Representations ( http://arxiv.org/abs/2410.02401v1 )

ライセンス: Link先を確認
Nikolaos Giakoumoglou, Tania Stathaki, (参考訳) コントラスト学習は、自己監督型視覚表現学習において支配的なアプローチとなり、学習された表現の識別力を高めるために、アンカー・ビーイング・キーによく似た硬い負のサンプルが用いられるようになった。 しかし、計算コストを大幅に増大させることなく、それらを同定し、組み込むことが困難であるため、ハードネガを効率的に活用することは依然として課題である。 そこで我々はSynCo(Synthetic Negatives in Contrastive Learning)という,合成ハードネガティブを生成することによってモデル性能を向上させる新しいコントラスト学習手法を紹介した。 MoCoフレームワーク上に構築されたSynCoは、計算オーバーヘッドを最小限に抑えてオンザフライで生成可能な、多様な合成ハードネガティブを生成するための6つの新しい戦略を導入している。 SynCoはより高速なトレーニングと表現学習を実現し、イメージネットの線形評価において68.1%のトップ1の精度を達成し、トレーニング前の200エポックで同じResNet-50エンコーダでMoCoの67.5%を上回った。 さらに、PASCAL VOCでは、監督されたベースラインとMoCoの両方を上回り、APは82.5%、COCOデータセットでは、バウンディングボックス検出の40.4%、インスタンスセグメンテーションの35.4%で新しいベンチマークを設定する。 提案手法は,自己指導型コントラスト学習により学習した視覚表現の質を著しく向上させる。 コードはhttps://github.com/giakoumoglou/synco.comから入手できる。

Contrastive learning has become a dominant approach in self-supervised visual representation learning, with hard negatives-samples that closely resemble the anchor-being key to enhancing the discriminative power of learned representations. However, efficiently leveraging hard negatives remains a challenge due to the difficulty in identifying and incorporating them without significantly increasing computational costs. To address this, we introduce SynCo (Synthetic Negatives in Contrastive learning), a novel contrastive learning approach that improves model performance by generating synthetic hard negatives. Built on the MoCo framework, SynCo introduces six novel strategies for creating diverse synthetic hard negatives that can be generated on-the-fly with minimal computational overhead. SynCo achieves faster training and better representation learning, achieving a top-1 accuracy of 68.1% in ImageNet linear evaluation after only 200 epochs on pretraining, surpassing MoCo's 67.5% with the same ResNet-50 encoder. Additionally, it transfers more effectively to detection tasks: on the PASCAL VOC, it outperforms both the supervised baseline and MoCo, achieving an AP of 82.5%; on the COCO dataset, it sets a new benchmark with 40.4% AP for bounding box detection and 35.4% AP for instance segmentation. Our synthetic hard negative generation procedure significantly enhances the quality of visual representations learned through self-supervised contrastive learning. Code is available at https://github.com/giakoumoglou/synco.
翻訳日:2024-11-04 03:30:37 公開日:2024-10-14
# SynCo: より良い教師なし視覚表現のためのコントラスト学習における合成ハードネガティクス

SynCo: Synthetic Hard Negatives in Contrastive Learning for Better Unsupervised Visual Representations ( http://arxiv.org/abs/2410.02401v2 )

ライセンス: Link先を確認
Nikolaos Giakoumoglou, Tania Stathaki, (参考訳) コントラスト学習は、自己監督型視覚表現学習において支配的なアプローチとなっている。 ハードネガティブ(アンカーによく似たサンプル)は、学習した表現の識別力を高める鍵となる。 しかし、ハードネガティブを効果的に活用することは依然として困難である。 表現空間上の合成強陰性を生成することによってモデル性能を向上させる新しい手法であるSynCo(SYnthetic Negatives in Contrastive Learning)を紹介する。 MoCoフレームワーク上に構築されたSynCoは,計算オーバーヘッドを最小限に抑えた,さまざまな合成ハードネガをオンザフライで生成するための6つの戦略を導入している。 SynCoはより高速なトレーニングと表現学習を実現し、イメージNet ILSVRC-201の線形評価では67.9%の精度を達成し、同じResNet-50エンコーダを使用してMoCoの67.5%を上回った。 PASCAL VOCでは、監督されたベースラインとMoCoの両方を82.6%APで上回り、COCOではバウンディングボックス検出の41.0%AP、インスタンスセグメンテーションの35.7%APで新しいベンチマークを設定できる。 我々の合成ハード・ネガティブ・ジェネレーション・アプローチは、自己教師付きコントラスト学習を通じて学習した視覚的表現を著しく向上させる。 コードはhttps://github.com/giakoumoglou/synco.comから入手できる。

Contrastive learning has become a dominant approach in self-supervised visual representation learning. Hard negatives - samples closely resembling the anchor - are key to enhancing learned representations' discriminative power. However, efficiently leveraging hard negatives remains challenging. We introduce SynCo (sYnthetic Negatives in Contrastive learning), a novel approach that improves model performance by generating synthetic hard negatives on the representation space. Building on the MoCo framework, SynCo introduces six strategies for creating diverse synthetic hard negatives on-the-fly with minimal computational overhead. SynCo achieves faster training and better representation learning, reaching 67.9% top-1 accuracy on ImageNet ILSVRC-201 linear evaluation after 200 pretraining epochs, surpassing MoCo's 67.5% using the same ResNet-50 encoder. It also transfers more effectively to detection tasks: on PASCAL VOC, it outperforms both the supervised baseline and MoCo with 82.6% AP; on COCO, it sets new benchmarks with 41.0% AP for bounding box detection and 35.7% AP for instance segmentation. Our synthetic hard negative generation approach significantly enhances visual representations learned through self-supervised contrastive learning. Code is available at https://github.com/giakoumoglou/synco.
翻訳日:2024-11-04 03:30:37 公開日:2024-10-14
# SynCo: より良い教師なし視覚表現のためのコントラスト学習における合成ハードネガティクス

SynCo: Synthetic Hard Negatives in Contrastive Learning for Better Unsupervised Visual Representations ( http://arxiv.org/abs/2410.02401v3 )

ライセンス: Link先を確認
Nikolaos Giakoumoglou, Tania Stathaki, (参考訳) コントラスト学習は、自己監督型視覚表現学習において支配的なアプローチとなっている。 ハードネガティブ(アンカーによく似たサンプル)は、学習した表現の識別力を高める鍵となる。 しかし、ハードネガティブを効果的に活用することは依然として困難である。 表現空間上の合成強陰性を生成することによってモデル性能を向上させる新しい手法であるSynCo(SYnthetic Negatives in Contrastive Learning)を紹介する。 MoCoフレームワーク上に構築されたSynCoは,計算オーバーヘッドを最小限に抑えた,さまざまな合成ハードネガをオンザフライで生成するための6つの戦略を導入している。 SynCoはより高速なトレーニングと表現学習を実現し、イメージNet ILSVRC-201の線形評価では67.9%の精度を達成し、同じResNet-50エンコーダを使用してMoCoの67.5%を上回った。 PASCAL VOCでは、監督されたベースラインとMoCoの両方を82.6%APで上回り、COCOではバウンディングボックス検出の41.0%AP、インスタンスセグメンテーションの35.7%APで新しいベンチマークを設定できる。 我々の合成ハード・ネガティブ・ジェネレーション・アプローチは、自己教師付きコントラスト学習を通じて学習した視覚的表現を著しく向上させる。 コードはhttps://github.com/giakoumoglou/synco.comから入手できる。

Contrastive learning has become a dominant approach in self-supervised visual representation learning. Hard negatives - samples closely resembling the anchor - are key to enhancing learned representations' discriminative power. However, efficiently leveraging hard negatives remains challenging. We introduce SynCo (sYnthetic Negatives in Contrastive learning), a novel approach that improves model performance by generating synthetic hard negatives on the representation space. Building on the MoCo framework, SynCo introduces six strategies for creating diverse synthetic hard negatives on-the-fly with minimal computational overhead. SynCo achieves faster training and better representation learning, reaching 67.9% top-1 accuracy on ImageNet ILSVRC-201 linear evaluation after 200 pretraining epochs, surpassing MoCo's 67.5% using the same ResNet-50 encoder. It also transfers more effectively to detection tasks: on PASCAL VOC, it outperforms both the supervised baseline and MoCo with 82.6% AP; on COCO, it sets new benchmarks with 41.0% AP for bounding box detection and 35.7% AP for instance segmentation. Our synthetic hard negative generation approach significantly enhances visual representations learned through self-supervised contrastive learning. Code is available at https://github.com/giakoumoglou/synco.
翻訳日:2024-11-04 03:30:37 公開日:2024-10-14
# テキスト,音声,画像,および任意のシーケンス間のギャップを埋める:グロスアノテーションを用いた新しいアプローチ

Bridging the Gap between Text, Audio, Image, and Any Sequence: A Novel Approach using Gloss-based Annotation ( http://arxiv.org/abs/2410.03146v1 )

ライセンス: Link先を確認
Sen Fang, Yalin Feng, Sizhou Chen, Xiaofeng Zhang, Teik Toe Teoh, (参考訳) 本稿では,テキストと音声を画像と整合させる中間ステップとして,光沢に基づくアノテーションを活用することで,マルチモーダル理解を簡素化する,BGTAIと呼ばれる革新的なアプローチを提案する。 テキスト入力や音声入力における動的時間的要因は、文全体の意味に影響を与える様々な述語形容詞を含む一方で、画像は静的な場面を示す。 テキストと音声を、複雑な意味的ニュアンスを省略するグロス表記として表現することで、画像との整合性が向上する可能性がある。 本研究では,このアイデアの実現可能性について検討し,まず最初にLangue2Glossモデルを提案し,そのモデルをマルチモーダルモデルUniBriVLに統合して共同トレーニングを行う。 テキスト/オーディオによる光沢の適応性を高め,マルチモーダルトレーニングにおける効率性と不安定性を克服するために,DS-Net(Data-Pair Selection Network),結果フィルタモジュール,新しいSP-Loss関数を提案する。 提案手法は,従来のマルチモーダルモデルよりも優れており,マルチモーダル表現の強化やテキスト,音声,視覚,シーケンスの整合性の向上に有効であることを示す。

This paper presents an innovative approach called BGTAI to simplify multimodal understanding by utilizing gloss-based annotation as an intermediate step in aligning Text and Audio with Images. While the dynamic temporal factors in textual and audio inputs contain various predicate adjectives that influence the meaning of the entire sentence, images, on the other hand, present static scenes. By representing text and audio as gloss notations that omit complex semantic nuances, a better alignment with images can potentially be achieved. This study explores the feasibility of this idea, specifically, we first propose the first Langue2Gloss model and then integrate it into the multimodal model UniBriVL for joint training. To strengthen the adaptability of gloss with text/audio and overcome the efficiency and instability issues in multimodal training, we propose a DS-Net (Data-Pair Selection Network), an Result Filter module, and a novel SP-Loss function. Our approach outperforms previous multimodal models in the main experiments, demonstrating its efficacy in enhancing multimodal representations and improving compatibility among text, audio, visual, and any sequence modalities.
翻訳日:2024-11-03 03:24:16 公開日:2024-10-14
# テキスト,音声,画像,および任意のシーケンス間のギャップを埋める:グロスアノテーションを用いた新しいアプローチ

Bridging the Gap between Text, Audio, Image, and Any Sequence: A Novel Approach using Gloss-based Annotation ( http://arxiv.org/abs/2410.03146v2 )

ライセンス: Link先を確認
Sen Fang, Sizhou Chen, Yalin Feng, Xiaofeng Zhang, Teik Toe Teoh, (参考訳) 本稿では,テキストと音声を画像と整合させる中間ステップとして,光沢に基づくアノテーションを活用することで,マルチモーダル理解を簡素化する,BGTAIと呼ばれる革新的なアプローチを提案する。 テキスト入力や音声入力における動的時間的要因は、文全体の意味に影響を与える様々な述語形容詞を含む一方で、画像は静的な場面を示す。 テキストと音声を、複雑な意味的ニュアンスを省略するグロス表記として表現することで、画像との整合性が向上する可能性がある。 本研究では,このアイデアの実現可能性について検討し,まず最初にLangue2Glossモデルを提案し,そのモデルをマルチモーダルモデルUniBriVLに統合して共同トレーニングを行う。 テキスト/オーディオによる光沢の適応性を高め,マルチモーダルトレーニングにおける効率性と不安定性を克服するために,DS-Net(Data-Pair Selection Network),結果フィルタモジュール,新しいSP-Loss関数を提案する。 提案手法は,従来のマルチモーダルモデルよりも優れており,マルチモーダル表現の強化やテキスト,音声,視覚,シーケンスの整合性の向上に有効であることを示す。

This paper presents an innovative approach called BGTAI to simplify multimodal understanding by utilizing gloss-based annotation as an intermediate step in aligning Text and Audio with Images. While the dynamic temporal factors in textual and audio inputs contain various predicate adjectives that influence the meaning of the entire sentence, images, on the other hand, present static scenes. By representing text and audio as gloss notations that omit complex semantic nuances, a better alignment with images can potentially be achieved. This study explores the feasibility of this idea, specifically, we first propose the first Langue2Gloss model and then integrate it into the multimodal model UniBriVL for joint training. To strengthen the adaptability of gloss with text/audio and overcome the efficiency and instability issues in multimodal training, we propose a DS-Net (Data-Pair Selection Network), an Result Filter module, and a novel SP-Loss function. Our approach outperforms previous multimodal models in the main experiments, demonstrating its efficacy in enhancing multimodal representations and improving compatibility among text, audio, visual, and any sequence modalities.
翻訳日:2024-11-03 03:24:16 公開日:2024-10-14
# マイクロ暗号化の世界--QEFIDによるOWSGと量子マネーの分離

A New World in the Depths of Microcrypt: Separating OWSGs and Quantum Money from QEFID ( http://arxiv.org/abs/2410.03453v1 )

ライセンス: Link先を確認
Amit Behera, Giulio Malavolta, Tomoyuki Morimae, Tamer Mour, Takashi Yamakawa, (参考訳) 古典暗号ではワンウェイ関数(OWF)は「最小の仮定」と広く見なされているが、量子暗号の状況は明らかになっていない。 最近の研究で、量子暗号における最小仮定の候補として、一方向状態発生器(OWSG)と、効率的な検証アルゴリズムによるハードサーチ問題の存在を仮定するEFIペアの2つが提案されている。 最近の2つの論文(Khurana and Tomer STOC'24; Batra and Jain FOCS'24)は、OWSGsがEFI対を意味することを示しているが、逆方向はオープンのままであることを示した。 我々は、EFI対が存在する量子ユニタリオラクルが存在することを示すが、OWSGは存在しないことを示す。 実際、古典ビット(QEFID)を出力するEFIペアについても、もう少し強いステートメントを示す。 その結果、私たちはOWSGやいくつかのMicrocryptプリミティブから、オラクル、QEFID、片道パズルを通じて、効率よく検証可能な片道パズルや制約不能な状態生成装置を分離した。 特に、これは[Chung, Goldin, and Gray Crypto'24]に残された問題を解決する。 同様の手法を用いて、プライベートキー量子マネースキームとQEFIDペア間の完全ブラックボックス分離(オラクル分離よりもわずかに弱い)を確立する。 我々の研究の1つの概念的意味は、効率的な検証アルゴリズムの存在は量子暗号における質的に強いプリミティブをもたらす可能性があるということである。

While in classical cryptography, one-way functions (OWFs) are widely regarded as the "minimal assumption," the situation in quantum cryptography is less clear. Recent works have put forward two concurrent candidates for the minimal assumption in quantum cryptography: One-way state generators (OWSGs), postulating the existence of a hard search problem with an efficient verification algorithm, and EFI pairs, postulating the existence of a hard distinguishing problem. Two recent papers [Khurana and Tomer STOC'24; Batra and Jain FOCS'24] showed that OWSGs imply EFI pairs, but the reverse direction remained open. In this work, we give strong evidence that the opposite direction does not hold: We show that there is a quantum unitary oracle relative to which EFI pairs exist, but OWSGs do not. In fact, we show a slightly stronger statement that holds also for EFI pairs that output classical bits (QEFID). As a consequence, we separate, via our oracle, QEFID, and one-way puzzles from OWSGs and several other Microcrypt primitives, including efficiently verifiable one-way puzzles and unclonable state generators. In particular, this solves a problem left open in [Chung, Goldin, and Gray Crypto'24]. Using similar techniques, we also establish a fully black-box separation (which is slightly weaker than an oracle separation) between private-key quantum money schemes and QEFID pairs. One conceptual implication of our work is that the existence of an efficient verification algorithm may lead to qualitatively stronger primitives in quantum cryptography.
翻訳日:2024-11-02 22:09:37 公開日:2024-10-14
# マイクロ暗号化の世界--QEFIDによるOWSGと量子マネーの分離

A New World in the Depths of Microcrypt: Separating OWSGs and Quantum Money from QEFID ( http://arxiv.org/abs/2410.03453v2 )

ライセンス: Link先を確認
Amit Behera, Giulio Malavolta, Tomoyuki Morimae, Tamer Mour, Takashi Yamakawa, (参考訳) 古典暗号ではワンウェイ関数(OWF)は「最小の仮定」と広く見なされているが、量子暗号の状況は明らかになっていない。 最近の研究で、量子暗号における最小仮定の候補として、一方向状態発生器(OWSG)と、効率的な検証アルゴリズムによるハードサーチ問題の存在を仮定するEFIペアの2つが提案されている。 最近の2つの論文(Khurana and Tomer STOC'24; Batra and Jain FOCS'24)は、OWSGsがEFI対を意味することを示しているが、逆方向はオープンのままであることを示した。 我々は、EFI対が存在する量子ユニタリオラクルが存在することを示すが、OWSGは存在しないことを示す。 実際、古典ビット(QEFID)を出力するEFIペアについても、もう少し強いステートメントを示す。 その結果、私たちはOWSGやいくつかのMicrocryptプリミティブから、オラクル、QEFID、片道パズルを通じて、効率よく検証可能な片道パズルや制約不能な状態生成装置を分離した。 特に、これは[Chung, Goldin, and Gray Crypto'24]に残された問題を解決する。 同様の手法を用いて、プライベートキー量子マネースキームとQEFIDペア間の完全ブラックボックス分離(オラクル分離よりもわずかに弱い)を確立する。 我々の研究の1つの概念的意味は、効率的な検証アルゴリズムの存在は量子暗号における質的に強いプリミティブをもたらす可能性があるということである。

While in classical cryptography, one-way functions (OWFs) are widely regarded as the "minimal assumption," the situation in quantum cryptography is less clear. Recent works have put forward two concurrent candidates for the minimal assumption in quantum cryptography: One-way state generators (OWSGs), postulating the existence of a hard search problem with an efficient verification algorithm, and EFI pairs, postulating the existence of a hard distinguishing problem. Two recent papers [Khurana and Tomer STOC'24; Batra and Jain FOCS'24] showed that OWSGs imply EFI pairs, but the reverse direction remained open. In this work, we give strong evidence that the opposite direction does not hold: We show that there is a quantum unitary oracle relative to which EFI pairs exist, but OWSGs do not. In fact, we show a slightly stronger statement that holds also for EFI pairs that output classical bits (QEFID). As a consequence, we separate, via our oracle, QEFID, and one-way puzzles from OWSGs and several other Microcrypt primitives, including efficiently verifiable one-way puzzles and unclonable state generators. In particular, this solves a problem left open in [Chung, Goldin, and Gray Crypto'24]. Using similar techniques, we also establish a fully black-box separation (which is slightly weaker than an oracle separation) between private-key quantum money schemes and QEFID pairs. One conceptual implication of our work is that the existence of an efficient verification algorithm may lead to qualitatively stronger primitives in quantum cryptography.
翻訳日:2024-11-02 22:09:37 公開日:2024-10-14
# バランスの学習:衣服交換者の再同定のための横正規化

Learning to Balance: Diverse Normalization for Cloth-Changing Person Re-Identification ( http://arxiv.org/abs/2410.03977v1 )

ライセンス: Link先を確認
Hongjun Wang, Jiyuan Chen, Zhengwei Yin, Xuan Song, Yinqiang Zheng, (参考訳) 衣服交換者再識別(CC-ReID)は、衣服の状態に関わらず、画像中の個人を認識する。 本稿では, 衣服の特徴を完全に取り除いたり, 完全に保持していたりすることが, 作業に有害であることを実証的, 実験的に実証した。 既存の作業は、衣料品のラベルやシルエット、その他の補助的なデータに依存しており、基本的には衣服の学習とアイデンティティーの特徴のバランスをとることを目的としている。 しかし、このバランスを達成することは困難であり、ニュアンスがある。 本研究では,個人的特徴を直交空間に拡張し,異なる衣服やアイデンティティの特徴にチャネルアテンションを利用する,Diverse Normという新しいモジュールを提案する。 反対の最適化方向を保証するために、サンプル再重み付け最適化戦略も導入されている。 逆ノルムは、追加のデータを必要としない単純で効果的なアプローチを示す。 さらに、Diverse NormはResNet50をシームレスに統合することができ、最先端のメソッドよりも大幅に優れている。

Cloth-Changing Person Re-Identification (CC-ReID) involves recognizing individuals in images regardless of clothing status. In this paper, we empirically and experimentally demonstrate that completely eliminating or fully retaining clothing features is detrimental to the task. Existing work, either relying on clothing labels, silhouettes, or other auxiliary data, fundamentally aim to balance the learning of clothing and identity features. However, we practically find that achieving this balance is challenging and nuanced. In this study, we introduce a novel module called Diverse Norm, which expands personal features into orthogonal spaces and employs channel attention to separate clothing and identity features. A sample re-weighting optimization strategy is also introduced to guarantee the opposite optimization direction. Diverse Norm presents a simple yet effective approach that does not require additional data. Furthermore, Diverse Norm can be seamlessly integrated ResNet50 and significantly outperforms the state-of-the-art methods.
翻訳日:2024-11-02 15:00:17 公開日:2024-10-14
# バランスの学習:衣服交換者の再同定のための横正規化

Learning to Balance: Diverse Normalization for Cloth-Changing Person Re-Identification ( http://arxiv.org/abs/2410.03977v2 )

ライセンス: Link先を確認
Hongjun Wang, Jiyuan Chen, Zhengwei Yin, Xuan Song, Yinqiang Zheng, (参考訳) 衣服交換者再識別(CC-ReID)は、衣服の状態に関わらず、画像中の個人を認識する。 本稿では, 衣服の特徴を完全に取り除いたり, 完全に保持していたりすることが, 作業に有害であることを実証的, 実験的に実証した。 既存の作業は、衣料品のラベルやシルエット、その他の補助的なデータに依存しており、基本的には衣服の学習とアイデンティティーの特徴のバランスをとることを目的としている。 しかし、このバランスを達成することは困難であり、ニュアンスがある。 本研究では,個人的特徴を直交空間に拡張し,異なる衣服やアイデンティティの特徴にチャネルアテンションを利用する,Diverse Normという新しいモジュールを提案する。 反対の最適化方向を保証するために、サンプル再重み付け最適化戦略も導入されている。 逆ノルムは、追加のデータを必要としない単純で効果的なアプローチを示す。 さらに、Diverse NormはResNet50をシームレスに統合することができ、最先端のメソッドよりも大幅に優れている。

Cloth-Changing Person Re-Identification (CC-ReID) involves recognizing individuals in images regardless of clothing status. In this paper, we empirically and experimentally demonstrate that completely eliminating or fully retaining clothing features is detrimental to the task. Existing work, either relying on clothing labels, silhouettes, or other auxiliary data, fundamentally aim to balance the learning of clothing and identity features. However, we practically find that achieving this balance is challenging and nuanced. In this study, we introduce a novel module called Diverse Norm, which expands personal features into orthogonal spaces and employs channel attention to separate clothing and identity features. A sample re-weighting optimization strategy is also introduced to guarantee the opposite optimization direction. Diverse Norm presents a simple yet effective approach that does not require additional data. Furthermore, Diverse Norm can be seamlessly integrated ResNet50 and significantly outperforms the state-of-the-art methods.
翻訳日:2024-11-02 15:00:17 公開日:2024-10-14
# Gale & Shapley を仕事に適用する - 学習による安定性の確保

Putting Gale & Shapley to Work: Guaranteeing Stability Through Learning ( http://arxiv.org/abs/2410.04376v1 )

ライセンス: Link先を確認
Hadi Hosseini, Sanjukta Roy, Duohan Zhang, (参考訳) 両面のマッチング市場は、市場の片側からの参加者が好みに応じて反対側からの参加者と一致しなければならないという、大きな種類の問題を表現している。 多くの現実世界のアプリケーション(例えば、コンテンツマッチングやオンライン労働市場)では、嗜好に関する知識はすぐには得られず、学習されなければならない。 オンライン・セッティングに関する最近の研究は、主に福祉最適化の側面(全体的な後悔の最小化)に焦点を当て、最終マッチングの安定性のようなゲーム理論的な性質にはほとんど注意を払っていない。 本稿では,安定解を見つける可能性を高めるアルゴリズムを考案するために,安定解の構造を利用する。 安定なマッチングを見つけるためのサンプルの複雑さの研究を開始し、高い確率で安定なマッチングに到達するために必要なサンプルの数に関する理論的境界を与える。 最後に,提案アルゴリズムの安定性と最適性の間には,興味深いトレードオフがみられ,さらに理論的な知見を補完する。

Two-sided matching markets describe a large class of problems wherein participants from one side of the market must be matched to those from the other side according to their preferences. In many real-world applications (e.g. content matching or online labor markets), the knowledge about preferences may not be readily available and must be learned, i.e., one side of the market (aka agents) may not know their preferences over the other side (aka arms). Recent research on online settings has focused primarily on welfare optimization aspects (i.e. minimizing the overall regret) while paying little attention to the game-theoretic properties such as the stability of the final matching. In this paper, we exploit the structure of stable solutions to devise algorithms that improve the likelihood of finding stable solutions. We initiate the study of the sample complexity of finding a stable matching, and provide theoretical bounds on the number of samples needed to reach a stable matching with high probability. Finally, our empirical results demonstrate intriguing tradeoffs between stability and optimality of the proposed algorithms, further complementing our theoretical findings.
翻訳日:2024-11-02 08:10:32 公開日:2024-10-14
# Gale & Shapley を仕事に適用する - 学習による安定性の確保

Putting Gale & Shapley to Work: Guaranteeing Stability Through Learning ( http://arxiv.org/abs/2410.04376v2 )

ライセンス: Link先を確認
Hadi Hosseini, Sanjukta Roy, Duohan Zhang, (参考訳) 両面のマッチング市場は、市場の片側からの参加者が好みに応じて反対側からの参加者と一致しなければならないという、大きな種類の問題を表現している。 多くの現実世界のアプリケーション(例えば、コンテンツマッチングやオンライン労働市場)では、嗜好に関する知識はすぐには得られず、学習されなければならない。 オンライン・セッティングに関する最近の研究は、主に福祉最適化の側面(全体的な後悔の最小化)に焦点を当て、最終マッチングの安定性のようなゲーム理論的な性質にはほとんど注意を払っていない。 本稿では,安定解を見つける可能性を高めるアルゴリズムを考案するために,安定解の構造を利用する。 安定なマッチングを見つけるためのサンプルの複雑さの研究を開始し、高い確率で安定なマッチングに到達するために必要なサンプルの数に関する理論的境界を与える。 最後に,提案アルゴリズムの安定性と最適性の間には,興味深いトレードオフがみられ,さらに理論的な知見を補完する。

Two-sided matching markets describe a large class of problems wherein participants from one side of the market must be matched to those from the other side according to their preferences. In many real-world applications (e.g. content matching or online labor markets), the knowledge about preferences may not be readily available and must be learned, i.e., one side of the market (aka agents) may not know their preferences over the other side (aka arms). Recent research on online settings has focused primarily on welfare optimization aspects (i.e. minimizing the overall regret) while paying little attention to the game-theoretic properties such as the stability of the final matching. In this paper, we exploit the structure of stable solutions to devise algorithms that improve the likelihood of finding stable solutions. We initiate the study of the sample complexity of finding a stable matching, and provide theoretical bounds on the number of samples needed to reach a stable matching with high probability. Finally, our empirical results demonstrate intriguing tradeoffs between stability and optimality of the proposed algorithms, further complementing our theoretical findings.
翻訳日:2024-11-02 08:10:32 公開日:2024-10-14
# 大規模言語モデル推論の高速化: 包括的ハードウェア・パースペクティブ

Large Language Model Inference Acceleration: A Comprehensive Hardware Perspective ( http://arxiv.org/abs/2410.04466v1 )

ライセンス: Link先を確認
Jinhao Li, Jiaming Xu, Shan Huang, Yonghua Chen, Wen Li, Jun Liu, Yaoxiu Lian, Jiayi Pan, Li Ding, Hao Zhou, Guohao Dai, (参考訳) 大規模言語モデル(LLM)は、自然言語理解からテキスト生成に至るまで、様々な分野において顕著な能力を示している。 BERT や DeBERTa のような非生成 LLM と比較して、GPT シリーズや Llama シリーズのような生成 LLM はアルゴリズム性能が優れているため、現在主要な焦点となっている。 生成LDMの進歩は、ハードウェア機能の開発と密接に絡み合っている。 様々なハードウェアプラットフォームは異なるハードウェア特性を示しており、LLM推論性能を向上させるのに役立つ。 そこで本研究では,異なるハードウェアプラットフォーム上での効率的なLLM推論を包括的に調査する。 まず、主流生成型LLMのアルゴリズムアーキテクチャの概要を説明し、推論過程を掘り下げる。 そこで我々は,CPU,GPU,FPGA,ASIC,PIM/NDPなどの異なるプラットフォームに対して異なる最適化手法をまとめた。 さらに、ハードウェアの消費電力、絶対推論速度(トークン/s)、エネルギー効率(トークン/J)を考慮し、異なるハードウェアプラットフォーム上でのバッチサイズ1、8との推論性能の質的かつ定量的比較を行う。 我々は、異なるハードウェアプラットフォーム間で同じ最適化手法の性能、異なるハードウェアプラットフォーム間でのパフォーマンス、同じハードウェアプラットフォーム上での異なる手法のパフォーマンスを比較した。 これは、ソフトウェア最適化手法とハードウェアプラットフォームを統合することで、既存の推論加速作業の体系的かつ包括的な概要を提供する。

Large Language Models (LLMs) have demonstrated remarkable capabilities across various fields, from natural language understanding to text generation. Compared to non-generative LLMs like BERT and DeBERTa, generative LLMs like GPT series and Llama series are currently the main focus due to their superior algorithmic performance. The advancements in generative LLMs are closely intertwined with the development of hardware capabilities. Various hardware platforms exhibit distinct hardware characteristics, which can help improve LLM inference performance. Therefore, this paper comprehensively surveys efficient generative LLM inference on different hardware platforms. First, we provide an overview of the algorithm architecture of mainstream generative LLMs and delve into the inference process. Then, we summarize different optimization methods for different platforms such as CPU, GPU, FPGA, ASIC, and PIM/NDP, and provide inference results for generative LLMs. Furthermore, we perform a qualitative and quantitative comparison of inference performance with batch sizes 1 and 8 on different hardware platforms by considering hardware power consumption, absolute inference speed (tokens/s), and energy efficiency (tokens/J). We compare the performance of the same optimization methods across different hardware platforms, the performance across different hardware platforms, and the performance of different methods on the same hardware platform. This provides a systematic and comprehensive summary of existing inference acceleration work by integrating software optimization methods and hardware platforms, which can point to the future trends and potential developments of generative LLMs and hardware technology for edge-side scenarios.
翻訳日:2024-11-02 07:16:09 公開日:2024-10-14
# 大規模言語モデル推論の高速化: 包括的ハードウェア・パースペクティブ

Large Language Model Inference Acceleration: A Comprehensive Hardware Perspective ( http://arxiv.org/abs/2410.04466v2 )

ライセンス: Link先を確認
Jinhao Li, Jiaming Xu, Shan Huang, Yonghua Chen, Wen Li, Jun Liu, Yaoxiu Lian, Jiayi Pan, Li Ding, Hao Zhou, Yu Wang, Guohao Dai, (参考訳) 大規模言語モデル(LLM)は、自然言語理解からテキスト生成に至るまで、様々な分野において顕著な能力を示している。 BERT や DeBERTa のような非生成 LLM と比較して、GPT シリーズや Llama シリーズのような生成 LLM はアルゴリズム性能が優れているため、現在主要な焦点となっている。 生成LDMの進歩は、ハードウェア機能の開発と密接に絡み合っている。 様々なハードウェアプラットフォームは異なるハードウェア特性を示しており、LLM推論性能を向上させるのに役立つ。 そこで本研究では,異なるハードウェアプラットフォーム上での効率的なLLM推論を包括的に調査する。 まず、主流生成型LLMのアルゴリズムアーキテクチャの概要を説明し、推論過程を掘り下げる。 そこで我々は,CPU,GPU,FPGA,ASIC,PIM/NDPなどの異なるプラットフォームに対して異なる最適化手法をまとめた。 さらに、ハードウェアの消費電力、絶対推論速度(トークン/s)、エネルギー効率(トークン/J)を考慮し、異なるハードウェアプラットフォーム上でのバッチサイズ1、8との推論性能の質的かつ定量的比較を行う。 我々は、異なるハードウェアプラットフォーム間で同じ最適化手法の性能、異なるハードウェアプラットフォーム間でのパフォーマンス、同じハードウェアプラットフォーム上での異なる手法のパフォーマンスを比較した。 これは、ソフトウェア最適化手法とハードウェアプラットフォームを統合することで、既存の推論加速作業の体系的かつ包括的な概要を提供する。

Large Language Models (LLMs) have demonstrated remarkable capabilities across various fields, from natural language understanding to text generation. Compared to non-generative LLMs like BERT and DeBERTa, generative LLMs like GPT series and Llama series are currently the main focus due to their superior algorithmic performance. The advancements in generative LLMs are closely intertwined with the development of hardware capabilities. Various hardware platforms exhibit distinct hardware characteristics, which can help improve LLM inference performance. Therefore, this paper comprehensively surveys efficient generative LLM inference on different hardware platforms. First, we provide an overview of the algorithm architecture of mainstream generative LLMs and delve into the inference process. Then, we summarize different optimization methods for different platforms such as CPU, GPU, FPGA, ASIC, and PIM/NDP, and provide inference results for generative LLMs. Furthermore, we perform a qualitative and quantitative comparison of inference performance with batch sizes 1 and 8 on different hardware platforms by considering hardware power consumption, absolute inference speed (tokens/s), and energy efficiency (tokens/J). We compare the performance of the same optimization methods across different hardware platforms, the performance across different hardware platforms, and the performance of different methods on the same hardware platform. This provides a systematic and comprehensive summary of existing inference acceleration work by integrating software optimization methods and hardware platforms, which can point to the future trends and potential developments of generative LLMs and hardware technology for edge-side scenarios.
翻訳日:2024-11-02 07:16:09 公開日:2024-10-14
# ランダム反復における$α$-mixingの遷移とキューイング理論への応用

Transition of $α$-mixing in Random Iterations with Applications in Queuing Theory ( http://arxiv.org/abs/2410.05056v1 )

ライセンス: Link先を確認
Attila Lovas, (参考訳) 外因性回帰器を組み込んだ非線形時系列モデルは、計量学、キューイング理論、機械学習、その他様々な分野にまたがる多くの重要なモデルの基盤を提供する。 その重要性にもかかわらず、そのようなモデルの統計解析の枠組みはいまだ不完全である。 対照的に、大数の法則の複数のバージョンと(機能的な)中心極限定理が弱依存変数に対して確立されている。 我々は,これらの確立された結果を利用して,外因性回帰器と応答との混合特性のカップリング議論による遷移を証明した。 さらに, 環境プロセスが非定常であり, 良好な混合特性を有する場合, 適切なドリフトおよび微粒化条件下でランダム環境下でのマルコフ連鎖について検討した。 新たな統計的推定理論のアプローチとCram\'er-Rao の下界を用いると、関数中心極限定理も確立する。 さらに、単一サーバキューイングモデルにフレームワークを適用します。 全体として、これらの結果は、大規模なランダム反復モデルの統計的解析への扉を開く。

Nonlinear time series models incorporating exogenous regressors provide the foundation for numerous significant models across econometrics, queuing theory, machine learning, and various other disciplines. Despite their importance, the framework for the statistical analysis of such models is still incomplete. In contrast, multiple versions of the law of large numbers and the (functional) central limit theorem have been established for weakly dependent variables. We prove the transition of mixing properties of the exogenous regressor to the response through a coupling argument, leveraging these established results. Furthermore, we study Markov chains in random environments under a suitable form of drift and minorization condition when the environment process is non-stationary, merely having favorable mixing properties. Following a novel statistical estimation theory approach and using the Cram\'er-Rao lower bound, we also establish the functional central limit theorem. Additionally, we apply our framework to single-server queuing models. Overall, these results open the door to the statistical analysis of a large class of random iterative models.
翻訳日:2024-11-02 00:38:19 公開日:2024-10-14
# ランダム反復における$α$-mixingの遷移とキューイング理論への応用

Transition of $α$-mixing in Random Iterations with Applications in Queuing Theory ( http://arxiv.org/abs/2410.05056v2 )

ライセンス: Link先を確認
Attila Lovas, (参考訳) エコノメトリ、キューイング理論、機械学習には非線型時系列モデルが不可欠であるが、その統計的解析は不完全である。 大数の法則や機能中心極限定理のような重要な結果は、弱依存変数として知られている。 本研究では, 混合特性を外因性回帰器から結合論による応答に伝達することを示した。 さらに, ドリフトおよびマイノライズ条件のランダム環境におけるマルコフ連鎖を, 良好な混合特性を持つ非定常環境下においても検討し, この枠組みを単一サーバキューイングモデルに適用する。

Nonlinear time series models with exogenous regressors are essential in econometrics, queuing theory, and machine learning, though their statistical analysis remains incomplete. Key results, such as the law of large numbers and the functional central limit theorem, are known for weakly dependent variables. We demonstrate the transfer of mixing properties from the exogenous regressor to the response via coupling arguments. Additionally, we study Markov chains in random environments with drift and minorization conditions, even under non-stationary environments with favorable mixing properties, and apply this framework to single-server queuing models.
翻訳日:2024-11-02 00:38:19 公開日:2024-10-14
# 医療応用のための大規模言語モデルにおける等価性向上

Enhancing Equity in Large Language Models for Medical Applications ( http://arxiv.org/abs/2410.05180v1 )

ライセンス: Link先を確認
Yuelyu Ji, Wenhe Ma, Sonish Sivarajkumar, Hang Zhang, Eugene Mathew Sadhu, Zhuochun Li, Xizhi Wu, Shyam Visweswaran, Yanshan Wang, (参考訳) 近年の進歩は、医学応用における大規模言語モデル(LLM)の可能性を強調しており、特に翻訳研究のための臨床試験マッチングの自動化や、臨床決定支援のための医学的質問応答の提供に寄与している。 しかし, LLMの使用には, 社会的決定要因の影響を受けやすい, 特定の人種, 性別, 表現不足の集団に対して, 顕著な不平等がみられた。 これらの格差は、LLMが医療で広く採用されている場合、既存の健康不平等を悪化させる可能性がある。 そこで我々は,LSMベースの医療応用におけるバイアスの検出と緩和を目的とした新しいフレームワークであるEquityGuardを提案し,評価する。 EquityGuardは不公平な予測を識別し修正できるバイアス検出メカニズムを導入し、その結果を高め、多様な集団間での株式の共有を促進する。

Recent advancements have highlighted the potential of large language models (LLMs) in medical applications, notably in automating Clinical Trial Matching for translational research and providing medical question-answering for clinical decision support. However, our study reveals significant inequities in the use of LLMs, particularly for individuals from specific racial, gender, and underrepresented groups influenced by social determinants of health. These disparities could worsen existing health inequities if LLMs are broadly adopted in healthcare. To address this, we propose and evaluate a novel framework, EquityGuard, designed to detect and mitigate biases in LLM-based medical applications. EquityGuard incorporates a Bias Detection Mechanism capable of identifying and correcting unfair predictions, thus enhancing outcomes and promoting equity across diverse population groups.
翻訳日:2024-11-01 23:49:12 公開日:2024-10-14
# 大規模言語モデルによる健康不平等のリスクの軽減

Mitigating the Risk of Health Inequity Exacerbated by Large Language Models ( http://arxiv.org/abs/2410.05180v2 )

ライセンス: Link先を確認
Yuelyu Ji, Wenhe Ma, Sonish Sivarajkumar, Hang Zhang, Eugene Mathew Sadhu, Zhuochun Li, Xizhi Wu, Shyam Visweswaran, Yanshan Wang, (参考訳) 大規模言語モデルの最近の進歩は、多くの医学的応用、特に翻訳研究のための臨床試験マッチングの自動化、および臨床決定支援のための医療質問応答の強化において、その可能性を実証している。 しかし, 人種, 性別, 所得水準, LGBT+地位, ホームレス, 識字率, 障害, 失業などの非決定的な社会デマトグラフィー的要因をLCMの入力に組み込むことは, これらの人口の不正かつ有害なアウトプットにつながる可能性が示唆された。 これらの相違は、LLMが医療において広く採用されている場合、既存の健康格差を悪化させるリスクがある。 この問題に対処するために,LLMベースの医療応用における健康不平等のリスクの検出と緩和を目的とした,新しいフレームワークであるEquityGuardを紹介した。 本評価は, 多様な集団における平等な成果の促進に有効であることを示す。

Recent advancements in large language models have demonstrated their potential in numerous medical applications, particularly in automating clinical trial matching for translational research and enhancing medical question answering for clinical decision support. However, our study shows that incorporating non decisive sociodemographic factors such as race, sex, income level, LGBT+ status, homelessness, illiteracy, disability, and unemployment into the input of LLMs can lead to incorrect and harmful outputs for these populations. These discrepancies risk exacerbating existing health disparities if LLMs are widely adopted in healthcare. To address this issue, we introduce EquityGuard, a novel framework designed to detect and mitigate the risk of health inequities in LLM based medical applications. Our evaluation demonstrates its efficacy in promoting equitable outcomes across diverse populations.
翻訳日:2024-11-01 23:49:12 公開日:2024-10-14
# 自然言語を用いた非構造化画像コレクションの編成

Organizing Unstructured Image Collections using Natural Language ( http://arxiv.org/abs/2410.05217v1 )

ライセンス: Link先を確認
Mingxuan Liu, Zhun Zhong, Jun Li, Gianni Franchi, Subhankar Roy, Elisa Ricci, (参考訳) 構造化されていない視覚データをセマンティッククラスタに編成することは、コンピュータビジョンにおける重要な課題である。 従来のディープクラスタリング(DC)アプローチはデータの単一パーティションに重点を置いていますが、複数のクラスタリング(MC)メソッドは、異なるクラスタリングソリューションを明らかにすることで、この制限に対処します。 大規模言語モデル (LLM) とマルチモーダル LLM (MLLM) の台頭により,ユーザが自然言語でクラスタリング基準を定義することができるようになり,MCが強化された。 しかし、大規模なデータセットの基準を手動で指定するのは現実的ではない。 本研究では,大規模な画像コレクションからクラスタリング基準を自動的に検出することを目的としたタスクセマンティック・マルチクラスタリング(SMC)を導入し,人間の入力を必要とせずに解釈可能なサブ構造を明らかにする。 我々のフレームワークであるText Driven Semantic Multiple Clustering (TeDeSC)は、テキストをプロキシとして使用し、大きな画像コレクションを同時に推論し、パーティショニング基準を発見し、自然言語で表現し、セマンティックサブ構造を明らかにする。 TeDeSCを評価するために、COCO-4cおよびFood-4cベンチマークを導入し、それぞれ4つのグルーピング基準とグラウンドトルースアノテーションを含む。 偏見の発見やソーシャルメディアのイメージ人気の分析,イメージコレクションの自動整理,新たな洞察の提示など,さまざまな応用にTeDeSCを適用した。

Organizing unstructured visual data into semantic clusters is a key challenge in computer vision. Traditional deep clustering (DC) approaches focus on a single partition of data, while multiple clustering (MC) methods address this limitation by uncovering distinct clustering solutions. The rise of large language models (LLMs) and multimodal LLMs (MLLMs) has enhanced MC by allowing users to define clustering criteria in natural language. However, manually specifying criteria for large datasets is impractical. In this work, we introduce the task Semantic Multiple Clustering (SMC) that aims to automatically discover clustering criteria from large image collections, uncovering interpretable substructures without requiring human input. Our framework, Text Driven Semantic Multiple Clustering (TeDeSC), uses text as a proxy to concurrently reason over large image collections, discover partitioning criteria, expressed in natural language, and reveal semantic substructures. To evaluate TeDeSC, we introduce the COCO-4c and Food-4c benchmarks, each containing four grouping criteria and ground-truth annotations. We apply TeDeSC to various applications, such as discovering biases and analyzing social media image popularity, demonstrating its utility as a tool for automatically organizing image collections and revealing novel insights.
翻訳日:2024-11-01 23:39:03 公開日:2024-10-14
# 自然言語を用いた非構造化画像コレクションの編成

Organizing Unstructured Image Collections using Natural Language ( http://arxiv.org/abs/2410.05217v2 )

ライセンス: Link先を確認
Mingxuan Liu, Zhun Zhong, Jun Li, Gianni Franchi, Subhankar Roy, Elisa Ricci, (参考訳) 構造化されていない視覚データをセマンティッククラスタに編成することは、コンピュータビジョンにおける重要な課題である。 従来のディープクラスタリング(DC)アプローチはデータの単一パーティションに重点を置いていますが、複数のクラスタリング(MC)メソッドは、異なるクラスタリングソリューションを明らかにすることで、この制限に対処します。 大規模言語モデル (LLM) とマルチモーダル LLM (MLLM) の台頭により,ユーザが自然言語でクラスタリング基準を定義することができるようになり,MCが強化された。 しかし、大規模なデータセットの基準を手動で指定するのは現実的ではない。 本研究では,大規模な画像コレクションからクラスタリング基準を自動的に検出することを目的としたタスクセマンティック・マルチクラスタリング(SMC)を導入し,人間の入力を必要とせずに解釈可能なサブ構造を明らかにする。 我々のフレームワークであるText Driven Semantic Multiple Clustering (TeDeSC)は、テキストをプロキシとして使用し、大きな画像コレクションを同時に推論し、パーティショニング基準を発見し、自然言語で表現し、セマンティックサブ構造を明らかにする。 TeDeSCを評価するために、COCO-4cおよびFood-4cベンチマークを導入し、それぞれ4つのグルーピング基準とグラウンドトルースアノテーションを含む。 偏見の発見やソーシャルメディアのイメージ人気の分析,イメージコレクションの自動整理,新たな洞察の提示など,さまざまな応用にTeDeSCを適用した。

Organizing unstructured visual data into semantic clusters is a key challenge in computer vision. Traditional deep clustering (DC) approaches focus on a single partition of data, while multiple clustering (MC) methods address this limitation by uncovering distinct clustering solutions. The rise of large language models (LLMs) and multimodal LLMs (MLLMs) has enhanced MC by allowing users to define clustering criteria in natural language. However, manually specifying criteria for large datasets is impractical. In this work, we introduce the task Semantic Multiple Clustering (SMC) that aims to automatically discover clustering criteria from large image collections, uncovering interpretable substructures without requiring human input. Our framework, Text Driven Semantic Multiple Clustering (TeDeSC), uses text as a proxy to concurrently reason over large image collections, discover partitioning criteria, expressed in natural language, and reveal semantic substructures. To evaluate TeDeSC, we introduce the COCO-4c and Food-4c benchmarks, each containing four grouping criteria and ground-truth annotations. We apply TeDeSC to various applications, such as discovering biases and analyzing social media image popularity, demonstrating its utility as a tool for automatically organizing image collections and revealing novel insights.
翻訳日:2024-11-01 23:39:03 公開日:2024-10-14
# MARS : 解釈可能な薬物発見のためのニューロシンボリックアプローチ

MARS: A neurosymbolic approach for interpretable drug discovery ( http://arxiv.org/abs/2410.05289v1 )

ライセンス: Link先を確認
Lauren Nicole DeLong, Yojana Gadiya, Paola Galdi, Jacques D. Fleuriot, Daniel Domingo-Fernández, (参考訳) ニューロシンボリック(NeSy)人工知能(Neurosymbolic、NeSy)は、論理やルールに基づく技術とニューラルネットワークの組み合わせを記述する。 ニューラルアプローチと比較すると、NeSyの手法は高い解釈可能性を持ち、特に薬物発見のような医学的応用には有望である。 しかし、解釈可能性は広く定義されているため、モデル解釈の生物学的妥当性を評価するための明確なガイドラインは存在しない。 薬物発見の文脈における解釈可能性を評価するために,薬物のメカニズム・オブ・アクション(MoA)デコンボリューション(英語版)と呼ばれる新しい予測タスクを,関連する知識グラフ(KG),MoA-netを用いて考案した。 そこで我々は,学習ルール重み付き論理則を利用するNeSyアプローチであるMoA Retrieval System(MARS)を開発した。 ドメイン知識とともにこの解釈可能な特徴を用いることで、MARSと他のKGに対するNeSyアプローチは、真のラベルの予測がドメインベースのルールではなく「学位バイアス」によって駆動されるショートカットの推論に影響を受けやすいことが分かる。 その後、私たちはこれを識別し緩和する方法を示します。 その後、MARSは現在の最先端モデルと同等の性能を達成しつつ、既知のMoAsと整合したモデル解釈を生成する。

Neurosymbolic (NeSy) artificial intelligence describes the combination of logic or rule-based techniques with neural networks. Compared to neural approaches, NeSy methods often possess enhanced interpretability, which is particularly promising for biomedical applications like drug discovery. However, since interpretability is broadly defined, there are no clear guidelines for assessing the biological plausibility of model interpretations. To assess interpretability in the context of drug discovery, we devise a novel prediction task, called drug mechanism-of-action (MoA) deconvolution, with an associated, tailored knowledge graph (KG), MoA-net. We then develop the MoA Retrieval System (MARS), a NeSy approach for drug discovery which leverages logical rules with learned rule weights. Using this interpretable feature alongside domain knowledge, we find that MARS and other NeSy approaches on KGs are susceptible to reasoning shortcuts, in which the prediction of true labels is driven by "degree-bias" rather than the domain-based rules. Subsequently, we demonstrate ways to identify and mitigate this. Thereafter, MARS achieves performance on par with current state-of-the-art models while producing model interpretations aligned with known MoAs.
翻訳日:2024-11-01 19:47:38 公開日:2024-10-14
# MARS : 解釈可能な薬物発見のためのニューロシンボリックアプローチ

MARS: A neurosymbolic approach for interpretable drug discovery ( http://arxiv.org/abs/2410.05289v2 )

ライセンス: Link先を確認
Lauren Nicole DeLong, Yojana Gadiya, Paola Galdi, Jacques D. Fleuriot, Daniel Domingo-Fernández, (参考訳) ニューロシンボリック(NeSy)人工知能(Neurosymbolic、NeSy)は、論理やルールに基づく技術とニューラルネットワークの組み合わせを記述する。 ニューラルアプローチと比較すると、NeSyの手法は高い解釈可能性を持ち、特に薬物発見のような医学的応用には有望である。 しかし、解釈可能性は広く定義されているため、モデル解釈の生物学的妥当性を評価するための明確なガイドラインは存在しない。 薬物発見の文脈における解釈可能性を評価するために,薬物のメカニズム・オブ・アクション(MoA)デコンボリューション(英語版)と呼ばれる新しい予測タスクを,関連する知識グラフ(KG),MoA-netを用いて考案した。 そこで我々は,学習ルール重み付き論理則を利用するNeSyアプローチであるMoA Retrieval System(MARS)を開発した。 ドメイン知識とともにこの解釈可能な特徴を用いることで、MARSと他のKGに対するNeSyアプローチは、真のラベルの予測がドメインベースのルールではなく「学位バイアス」によって駆動されるショートカットの推論に影響を受けやすいことが分かる。 その後、私たちはこれを識別し緩和する方法を示します。 その後、MARSは現在の最先端モデルと同等の性能を達成しつつ、既知のMoAsと整合したモデル解釈を生成する。

Neurosymbolic (NeSy) artificial intelligence describes the combination of logic or rule-based techniques with neural networks. Compared to neural approaches, NeSy methods often possess enhanced interpretability, which is particularly promising for biomedical applications like drug discovery. However, since interpretability is broadly defined, there are no clear guidelines for assessing the biological plausibility of model interpretations. To assess interpretability in the context of drug discovery, we devise a novel prediction task, called drug mechanism-of-action (MoA) deconvolution, with an associated, tailored knowledge graph (KG), MoA-net. We then develop the MoA Retrieval System (MARS), a NeSy approach for drug discovery which leverages logical rules with learned rule weights. Using this interpretable feature alongside domain knowledge, we find that MARS and other NeSy approaches on KGs are susceptible to reasoning shortcuts, in which the prediction of true labels is driven by "degree-bias" rather than the domain-based rules. Subsequently, we demonstrate ways to identify and mitigate this. Thereafter, MARS achieves performance on par with current state-of-the-art models while producing model interpretations aligned with known MoAs.
翻訳日:2024-11-01 19:47:38 公開日:2024-10-14
# AutoDAN-Turbo: 脱獄 LLM に対する戦略自己探索のための生涯エージェント

AutoDAN-Turbo: A Lifelong Agent for Strategy Self-Exploration to Jailbreak LLMs ( http://arxiv.org/abs/2410.05295v1 )

ライセンス: Link先を確認
Xiaogeng Liu, Peiran Li, Edward Suh, Yevgeniy Vorobeychik, Zhuoqing Mao, Somesh Jha, Patrick McDaniel, Huan Sun, Bo Li, Chaowei Xiao, (参考訳) 本稿では,人間の介入や事前定義された範囲(例えば,特定の候補戦略)を使わずに,可能な限り多くのジェイルブレイク戦略をスクラッチから発見できるブラックボックスジェイルブレイク手法であるAutoDAN-Turboを提案し,それらをレッドチームで使用する。 その結果、AutoDAN-Turboはベースライン法を著しく上回り、公開ベンチマークの平均攻撃成功率は74.3%に達した。 特にAutoDAN-TurboはGPT-4-1106-turboで88.5の攻撃成功率を達成した。 さらにAutoDAN-Turboは、既存の人間設計のジェイルブレイク戦略をプラグイン・アンド・プレイで組み込む統合フレームワークである。 人間設計の戦略を統合することで、AutoDAN-TurboはGPT-4-1106-turboの攻撃成功率93.4を達成できる。

In this paper, we propose AutoDAN-Turbo, a black-box jailbreak method that can automatically discover as many jailbreak strategies as possible from scratch, without any human intervention or predefined scopes (e.g., specified candidate strategies), and use them for red-teaming. As a result, AutoDAN-Turbo can significantly outperform baseline methods, achieving a 74.3% higher average attack success rate on public benchmarks. Notably, AutoDAN-Turbo achieves an 88.5 attack success rate on GPT-4-1106-turbo. In addition, AutoDAN-Turbo is a unified framework that can incorporate existing human-designed jailbreak strategies in a plug-and-play manner. By integrating human-designed strategies, AutoDAN-Turbo can even achieve a higher attack success rate of 93.4 on GPT-4-1106-turbo.
翻訳日:2024-11-01 19:47:38 公開日:2024-10-14
# AutoDAN-Turbo: 脱獄 LLM に対する戦略自己探索のための生涯エージェント

AutoDAN-Turbo: A Lifelong Agent for Strategy Self-Exploration to Jailbreak LLMs ( http://arxiv.org/abs/2410.05295v2 )

ライセンス: Link先を確認
Xiaogeng Liu, Peiran Li, Edward Suh, Yevgeniy Vorobeychik, Zhuoqing Mao, Somesh Jha, Patrick McDaniel, Huan Sun, Bo Li, Chaowei Xiao, (参考訳) 本稿では,人間の介入や事前定義された範囲(例えば,特定の候補戦略)を使わずに,可能な限り多くのジェイルブレイク戦略をスクラッチから発見できるブラックボックスジェイルブレイク手法であるAutoDAN-Turboを提案し,それらをレッドチームで使用する。 その結果、AutoDAN-Turboはベースライン法を著しく上回り、公開ベンチマークの平均攻撃成功率は74.3%に達した。 特にAutoDAN-TurboはGPT-4-1106-turboで88.5の攻撃成功率を達成した。 さらにAutoDAN-Turboは、既存の人間設計のジェイルブレイク戦略をプラグイン・アンド・プレイで組み込む統合フレームワークである。 人間設計の戦略を統合することで、AutoDAN-TurboはGPT-4-1106-turboの攻撃成功率93.4を達成できる。

In this paper, we propose AutoDAN-Turbo, a black-box jailbreak method that can automatically discover as many jailbreak strategies as possible from scratch, without any human intervention or predefined scopes (e.g., specified candidate strategies), and use them for red-teaming. As a result, AutoDAN-Turbo can significantly outperform baseline methods, achieving a 74.3% higher average attack success rate on public benchmarks. Notably, AutoDAN-Turbo achieves an 88.5 attack success rate on GPT-4-1106-turbo. In addition, AutoDAN-Turbo is a unified framework that can incorporate existing human-designed jailbreak strategies in a plug-and-play manner. By integrating human-designed strategies, AutoDAN-Turbo can even achieve a higher attack success rate of 93.4 on GPT-4-1106-turbo.
翻訳日:2024-11-01 19:47:38 公開日:2024-10-14
# Token-wise Feature Cachingによる拡散変圧器の高速化

Accelerating Diffusion Transformers with Token-wise Feature Caching ( http://arxiv.org/abs/2410.05317v1 )

ライセンス: Link先を確認
Chang Zou, Xuyang Liu, Ting Liu, Siteng Huang, Linfeng Zhang, (参考訳) 拡散変換器は、膨大な計算コストを犠牲にして、画像合成とビデオ合成の両方において有意な効果を示した。 この問題に対処するため, 拡散トランスフォーマーを高速化するために, 従来の時間ステップで機能をキャッシュし, 次の時間ステップで再利用することで, 機能キャッシング手法を導入している。 しかし、以前のキャッシングメソッドでは、異なるトークンが機能キャッシングに対して異なる感度を示すことを無視しており、いくつかのトークンのフィーチャーキャッシングは、他のトークンと比較して、全体の生成品質を10$\times$で破壊する可能性がある。 本稿では、トークンワイド機能キャッシングを導入し、キャッシングに最適なトークンを適応的に選択し、さらに異なるタイプと深さのニューラルネットワーク層に異なるキャッシング比を適用することができる。 PixArt-$\alpha$, OpenSora, DiTの大規模な実験は、トレーニングの必要のない画像とビデオの生成において、我々の効果を実証している。 例えば、2.36$\times$と1.93$\times$AccelerationはOpenSoraとPixArt-$\alpha$で達成され、生成品質はほとんど低下しない。

Diffusion transformers have shown significant effectiveness in both image and video synthesis at the expense of huge computation costs. To address this problem, feature caching methods have been introduced to accelerate diffusion transformers by caching the features in previous timesteps and reusing them in the following timesteps. However, previous caching methods ignore that different tokens exhibit different sensitivities to feature caching, and feature caching on some tokens may lead to 10$\times$ more destruction to the overall generation quality compared with other tokens. In this paper, we introduce token-wise feature caching, allowing us to adaptively select the most suitable tokens for caching, and further enable us to apply different caching ratios to neural layers in different types and depths. Extensive experiments on PixArt-$\alpha$, OpenSora, and DiT demonstrate our effectiveness in both image and video generation with no requirements for training. For instance, 2.36$\times$ and 1.93$\times$ acceleration are achieved on OpenSora and PixArt-$\alpha$ with almost no drop in generation quality.
翻訳日:2024-11-01 19:27:19 公開日:2024-10-14
# Token-wise Feature Cachingによる拡散変圧器の高速化

Accelerating Diffusion Transformers with Token-wise Feature Caching ( http://arxiv.org/abs/2410.05317v2 )

ライセンス: Link先を確認
Chang Zou, Xuyang Liu, Ting Liu, Siteng Huang, Linfeng Zhang, (参考訳) 拡散変換器は、膨大な計算コストを犠牲にして、画像合成とビデオ合成の両方において有意な効果を示した。 この問題に対処するため, 拡散トランスフォーマーを高速化するために, 従来の時間ステップで機能をキャッシュし, 次の時間ステップで再利用することで, 機能キャッシング手法を導入している。 しかし、以前のキャッシングメソッドでは、異なるトークンが機能キャッシングに対して異なる感度を示すことを無視しており、いくつかのトークンのフィーチャーキャッシングは、他のトークンと比較して、全体の生成品質を10$\times$で破壊する可能性がある。 本稿では、トークンワイド機能キャッシングを導入し、キャッシングに最適なトークンを適応的に選択し、さらに異なるタイプと深さのニューラルネットワーク層に異なるキャッシング比を適用することができる。 PixArt-$\alpha$, OpenSora, DiTの大規模な実験は、トレーニングの必要のない画像とビデオの生成において、我々の効果を実証している。 例えば、2.36$\times$と1.93$\times$AccelerationはOpenSoraとPixArt-$\alpha$で達成され、生成品質はほとんど低下しない。

Diffusion transformers have shown significant effectiveness in both image and video synthesis at the expense of huge computation costs. To address this problem, feature caching methods have been introduced to accelerate diffusion transformers by caching the features in previous timesteps and reusing them in the following timesteps. However, previous caching methods ignore that different tokens exhibit different sensitivities to feature caching, and feature caching on some tokens may lead to 10$\times$ more destruction to the overall generation quality compared with other tokens. In this paper, we introduce token-wise feature caching, allowing us to adaptively select the most suitable tokens for caching, and further enable us to apply different caching ratios to neural layers in different types and depths. Extensive experiments on PixArt-$\alpha$, OpenSora, and DiT demonstrate our effectiveness in both image and video generation with no requirements for training. For instance, 2.36$\times$ and 1.93$\times$ acceleration are achieved on OpenSora and PixArt-$\alpha$ with almost no drop in generation quality.
翻訳日:2024-11-01 19:27:19 公開日:2024-10-14
# ディープラーニングのカテゴリー的基礎に向けて:サーベイ

Towards a Categorical Foundation of Deep Learning: A Survey ( http://arxiv.org/abs/2410.05353v1 )

ライセンス: Link先を確認
Francesco Riccardo Crescenzi, (参考訳) 機械学習研究の先例のないペースは、驚くべき進歩をもたらしたが、同時に難しい課題も生んでいる。 現在、この分野には強力な理論的基盤がなく、多くの重要な成果は、原則上は正当化が難しいアドホックな設計選択に起因している。 研究負債は増加しており、多くの論文は再現不可能であることが判明している。 この論文は、機械学習を分類的に研究しようとする最近の研究をカバーしている。 カテゴリー理論(英: Category theory)は、抽象数学の一分野であり、内部および外部数学の両方において、多くの分野において成功した応用を見出した。 数学と科学の言語フランカとして働くと、圏論は機械学習の分野に統一的な構造を与えることができるかもしれない。 上記の問題のいくつかを解決できるかもしれない。 本研究では,主にカテゴリ理論の深層学習への応用に焦点をあてる。 すなわち、勾配に基づく学習をモデル化するための分類光学の利用、古典的なコンピュータ科学とニューラルネットワークを結びつけるための分類代数と積分変換の使用、異なる抽象層を連結し構造を保存するための関手の使用、そして最後に、ニューラルネットワークアーキテクチャの詳細な表現を提供するための文字列図の使用について議論する。

The unprecedented pace of machine learning research has lead to incredible advances, but also poses hard challenges. At present, the field lacks strong theoretical underpinnings, and many important achievements stem from ad hoc design choices which are hard to justify in principle and whose effectiveness often goes unexplained. Research debt is increasing and many papers are found not to be reproducible. This thesis is a survey that covers some recent work attempting to study machine learning categorically. Category theory is a branch of abstract mathematics that has found successful applications in many fields, both inside and outside mathematics. Acting as a lingua franca of mathematics and science, category theory might be able to give a unifying structure to the field of machine learning. This could solve some of the aforementioned problems. In this work, we mainly focus on the application of category theory to deep learning. Namely, we discuss the use of categorical optics to model gradient-based learning, the use of categorical algebras and integral transforms to link classical computer science to neural networks, the use of functors to link different layers of abstraction and preserve structure, and, finally, the use of string diagrams to provide detailed representations of neural network architectures.
翻訳日:2024-11-01 19:07:22 公開日:2024-10-14
# ディープラーニングのカテゴリー的基礎に向けて:サーベイ

Towards a Categorical Foundation of Deep Learning: A Survey ( http://arxiv.org/abs/2410.05353v2 )

ライセンス: Link先を確認
Francesco Riccardo Crescenzi, (参考訳) 機械学習研究の先例のないペースは、驚くべき進歩をもたらしたが、同時に難しい課題も生んでいる。 現在、この分野には強力な理論的基盤がなく、多くの重要な成果は、原則上は正当化が難しいアドホックな設計選択に起因している。 研究負債は増加しており、多くの論文は再現不可能であることが判明している。 この論文は、機械学習を分類的に研究しようとする最近の研究をカバーしている。 カテゴリー理論(英: Category theory)は、抽象数学の一分野であり、内部および外部数学の両方において、多くの分野において成功した応用を見出した。 数学と科学の言語フランカとして働くと、圏論は機械学習の分野に統一的な構造を与えることができるかもしれない。 上記の問題のいくつかを解決できるかもしれない。 本研究では,主にカテゴリ理論の深層学習への応用に焦点をあてる。 すなわち、勾配に基づく学習をモデル化するための分類光学の利用、古典的なコンピュータ科学とニューラルネットワークを結びつけるための分類代数と積分変換の使用、異なる抽象層を連結し構造を保存するための関手の使用、そして最後に、ニューラルネットワークアーキテクチャの詳細な表現を提供するための文字列図の使用について議論する。

The unprecedented pace of machine learning research has lead to incredible advances, but also poses hard challenges. At present, the field lacks strong theoretical underpinnings, and many important achievements stem from ad hoc design choices which are hard to justify in principle and whose effectiveness often goes unexplained. Research debt is increasing and many papers are found not to be reproducible. This thesis is a survey that covers some recent work attempting to study machine learning categorically. Category theory is a branch of abstract mathematics that has found successful applications in many fields, both inside and outside mathematics. Acting as a lingua franca of mathematics and science, category theory might be able to give a unifying structure to the field of machine learning. This could solve some of the aforementioned problems. In this work, we mainly focus on the application of category theory to deep learning. Namely, we discuss the use of categorical optics to model gradient-based learning, the use of categorical algebras and integral transforms to link classical computer science to neural networks, the use of functors to link different layers of abstraction and preserve structure, and, finally, the use of string diagrams to provide detailed representations of neural network architectures.
翻訳日:2024-11-01 19:07:22 公開日:2024-10-14
# LLMは時系列異常に耐えられるか?

Can LLMs Understand Time Series Anomalies? ( http://arxiv.org/abs/2410.05440v1 )

ライセンス: Link先を確認
Zihao Zhou, Rose Yu, (参考訳) 大規模言語モデル (LLM) は時系列予測で人気を博しているが, 異常検出の可能性はほとんど未解明である。 本研究では,ゼロショットと少数ショットのシナリオに着目し,時系列データ中の異常をLLMが理解し,検出できるかどうかを検討する。 時系列予測研究からLLMの挙動に関する予想に触発されて、時系列異常検出におけるLLMの能力に関する重要な仮説を定式化する。 これらの仮説のそれぞれをテストするための原則的な実験を設計し、実施する。 1) LLMは、テキストとしてではなく、*images*として、時系列をよりよく理解している。 2. LLMは、時系列分析に関して*明示的推論*に関わったときに、改善された性能を示さなかった 3. LLMの時系列理解*は、繰り返しバイアスや算術能力に起因している4. LLMの行動と時系列解析における性能は、異なるモデルアーキテクチャ間で異なる。 この結果から,LLMは時系列異常を理解できるが,その推論能力に基づく多くの共通予想は成り立たないことが示唆された。 これらの知見は、予測と異常検出アプリケーションの間のギャップを埋め、時系列解析においてより効果的なLCMベースのアプローチの道を開く。

Large Language Models (LLMs) have gained popularity in time series forecasting, but their potential for anomaly detection remains largely unexplored. Our study investigates whether LLMs can understand and detect anomalies in time series data, focusing on zero-shot and few-shot scenarios. Inspired by conjectures about LLMs' behavior from time series forecasting research, we formulate key hypotheses about LLMs' capabilities in time series anomaly detection. We design and conduct principled experiments to test each of these hypotheses. Our investigation reveals several surprising findings about LLMs for time series: 1. LLMs understand time series better as *images* rather than as text 2. LLMs did not demonstrate enhanced performance when prompted to engage in *explicit reasoning* about time series analysis 3. Contrary to common beliefs, LLM's understanding of time series *do not* stem from their repetition biases or arithmetic abilities 4. LLMs' behaviors and performance in time series analysis *vary significantly* across different model architectures This study provides the first comprehensive analysis of contemporary LLM capabilities in time series anomaly detection. Our results suggest that while LLMs can understand time series anomalies, many common conjectures based on their reasoning capabilities do not hold. These insights pave the way for more effective LLM-based approaches in time series analysis, bridging the gap between forecasting and anomaly detection applications.
翻訳日:2024-11-01 18:47:31 公開日:2024-10-14
# LLMは時系列異常に耐えられるか?

Can LLMs Understand Time Series Anomalies? ( http://arxiv.org/abs/2410.05440v2 )

ライセンス: Link先を確認
Zihao Zhou, Rose Yu, (参考訳) 大規模言語モデル (LLM) は時系列予測で人気を博しているが, 異常検出の可能性はほとんど未解明である。 本研究では,ゼロショットと少数ショットのシナリオに着目し,時系列データ中の異常をLLMが理解し,検出できるかどうかを検討する。 時系列予測研究からLLMの挙動に関する予想に触発されて、時系列異常検出におけるLLMの能力に関する重要な仮説を定式化する。 これらの仮説のそれぞれをテストするための原則的な実験を設計し、実施する。 1) LLMは、時系列解析に関する明示的な推論を行う際に、拡張された性能を示さなかった。 3) LLMの時系列解析に対する理解は、共通の信念とは対照的に、繰り返しバイアスや算術能力に起因しない。 4. LLMの時系列解析における挙動と性能は、異なるモデルアーキテクチャ間で大きく異なる。 この結果から,LLMは時系列異常を理解できるが,その推論能力に基づく多くの共通予想は成り立たないことが示唆された。 私たちのコードとデータは、https://github.com/Rose-STL-Lab/AnomLLM/`で利用可能です。

Large Language Models (LLMs) have gained popularity in time series forecasting, but their potential for anomaly detection remains largely unexplored. Our study investigates whether LLMs can understand and detect anomalies in time series data, focusing on zero-shot and few-shot scenarios. Inspired by conjectures about LLMs' behavior from time series forecasting research, we formulate key hypotheses about LLMs' capabilities in time series anomaly detection. We design and conduct principled experiments to test each of these hypotheses. Our investigation reveals several surprising findings about LLMs for time series: 1. LLMs understand time series better as images rather than as text 2. LLMs did not demonstrate enhanced performance when prompted to engage in explicit reasoning about time series analysis 3. Contrary to common beliefs, LLM's understanding of time series do not stem from their repetition biases or arithmetic abilities 4. LLMs' behaviors and performance in time series analysis vary significantly across different model architectures This study provides the first comprehensive analysis of contemporary LLM capabilities in time series anomaly detection. Our results suggest that while LLMs can understand time series anomalies, many common conjectures based on their reasoning capabilities do not hold. Our code and data are available at `https://github.com/Rose-STL-Lab/AnomLLM/`.
翻訳日:2024-11-01 18:47:31 公開日:2024-10-14
# 衣服交換者の再識別における特徴劣化について

On Feature Decorrelation in Cloth-Changing Person Re-identification ( http://arxiv.org/abs/2410.05536v1 )

ライセンス: Link先を確認
Hongjun Wang, Jiyuan Chen, Renhe Jiang, Xuan Song, Yinqiang Zheng, (参考訳) 衣服交換者再識別(CC-ReID)はコンピュータビジョンにおいて重要な課題である。 一般的なアプローチは、衣服の外観のような要素を混乱させるのではなく、顔の特徴やヘアスタイルのような因果属性に集中するようモデルに促すことである。 従来の方法では、マルチモダリティデータを統合したり、手動でアノテートされた衣服ラベルを付けたりする。 本研究では,トレーニング中の特徴相関の簡易化がベースラインモデルの性能を著しく向上させることを示す。 我々はこの効果を理論的に解明し、密度比推定に基づく新しい正規化手法を導入する。 本手法は,ReIDベースラインの布質変化のトレーニング過程における特徴相関を最小化することを目的としている。 私たちのアプローチはモデルに依存しないもので、追加のデータやラベルを必要とせずに幅広い拡張を提供します。 CC-ReIDデータセットの総合的な実験を通じて本手法の有効性を検証し,ベースラインモデルの一般化能力の向上に有効であることを示す。

Cloth-changing person re-identification (CC-ReID) poses a significant challenge in computer vision. A prevailing approach is to prompt models to concentrate on causal attributes, like facial features and hairstyles, rather than confounding elements such as clothing appearance. Traditional methods to achieve this involve integrating multi-modality data or employing manually annotated clothing labels, which tend to complicate the model and require extensive human effort. In our study, we demonstrate that simply reducing feature correlations during training can significantly enhance the baseline model's performance. We theoretically elucidate this effect and introduce a novel regularization technique based on density ratio estimation. This technique aims to minimize feature correlation in the training process of cloth-changing ReID baselines. Our approach is model-independent, offering broad enhancements without needing additional data or labels. We validate our method through comprehensive experiments on prevalent CC-ReID datasets, showing its effectiveness in improving baseline models' generalization capabilities.
翻訳日:2024-11-01 18:08:20 公開日:2024-10-14
# 衣服交換者の再識別における特徴劣化について

On Feature Decorrelation in Cloth-Changing Person Re-identification ( http://arxiv.org/abs/2410.05536v2 )

ライセンス: Link先を確認
Hongjun Wang, Jiyuan Chen, Renhe Jiang, Xuan Song, Yinqiang Zheng, (参考訳) 衣服交換者再識別(CC-ReID)はコンピュータビジョンにおいて重要な課題である。 一般的なアプローチは、衣服の外観のような要素を混乱させるのではなく、顔の特徴やヘアスタイルのような因果属性に集中するようモデルに促すことである。 従来の方法では、マルチモダリティデータを統合したり、手動でアノテートされた衣服ラベルを付けたりする。 本研究では,トレーニング中の特徴相関の簡易化がベースラインモデルの性能を著しく向上させることを示す。 我々はこの効果を理論的に解明し、密度比推定に基づく新しい正規化手法を導入する。 本手法は,ReIDベースラインの布質変化のトレーニング過程における特徴相関を最小化することを目的としている。 私たちのアプローチはモデルに依存しないもので、追加のデータやラベルを必要とせずに幅広い拡張を提供します。 CC-ReIDデータセットの総合的な実験を通じて本手法の有効性を検証し,ベースラインモデルの一般化能力の向上に有効であることを示す。

Cloth-changing person re-identification (CC-ReID) poses a significant challenge in computer vision. A prevailing approach is to prompt models to concentrate on causal attributes, like facial features and hairstyles, rather than confounding elements such as clothing appearance. Traditional methods to achieve this involve integrating multi-modality data or employing manually annotated clothing labels, which tend to complicate the model and require extensive human effort. In our study, we demonstrate that simply reducing feature correlations during training can significantly enhance the baseline model's performance. We theoretically elucidate this effect and introduce a novel regularization technique based on density ratio estimation. This technique aims to minimize feature correlation in the training process of cloth-changing ReID baselines. Our approach is model-independent, offering broad enhancements without needing additional data or labels. We validate our method through comprehensive experiments on prevalent CC-ReID datasets, showing its effectiveness in improving baseline models' generalization capabilities.
翻訳日:2024-11-01 18:08:20 公開日:2024-10-14
# 制約付き多目的NPハード問題の解法における非支配的トーナメント遺伝的アルゴリズム(B-NTGA)のバランシングパレートフロント探索

Balancing Pareto Front exploration of Non-dominated Tournament Genetic Algorithm (B-NTGA) in solving multi-objective NP-hard problems with constraints ( http://arxiv.org/abs/2410.05701v1 )

ライセンス: Link先を確認
Michał Antkiewicz, Paweł B. Myszkowski, (参考訳) 本稿では,複数目的のNP-ハード組合せ最適化問題を制約付きで解決するために,アーカイブを積極的に活用するバランスド非支配的トーナメント遺伝的アルゴリズム (B-NTGA) に適用した新たな平衡選択演算子を提案する。 主な動機は、PFa(Pareto Front Approximation)の探索においてB-NTGAをより効率的にすることであり、「ギャップ」に着目し、PFa領域を減らしすぎている。 このようなバランス機構により、B-NTGAはより適応性が高く、探索の少ないPFa領域に集中することができる。 提案したB-NTGAは,Thief Traveling ProblemやMulti-Skill Resource-Constrained Project Scheduling Problemのような,多目的および多目的の現実世界の2つのベンチマークで検討した。 実験の結果,B-NTGAは最先端手法よりも効率が高く,性能も優れていた。

The paper presents a new balanced selection operator applied to the proposed Balanced Non-dominated Tournament Genetic Algorithm (B-NTGA) that actively uses archive to solve multi- and many-objective NP-hard combinatorial optimization problems with constraints. The primary motivation is to make B-NTGA more efficient in exploring Pareto Front Approximation (PFa), focusing on 'gaps' and reducing some PFa regions' sampling too frequently. Such a balancing mechanism allows B-NTGA to be more adaptive and focus on less explored PFa regions. The proposed B-NTGA is investigated on two benchmark multi- and many-objective optimization real-world problems, like Thief Traveling Problem and Multi-Skill Resource-Constrained Project Scheduling Problem. The results of experiments show that B-NTGA has a higher efficiency and better performance than state-of-the-art methods.
翻訳日:2024-11-01 16:59:10 公開日:2024-10-14
# 制約付き多目的NPハード問題の解法における非支配的トーナメント遺伝的アルゴリズム(B-NTGA)のバランシングパレートフロント探索

Balancing Pareto Front exploration of Non-dominated Tournament Genetic Algorithm (B-NTGA) in solving multi-objective NP-hard problems with constraints ( http://arxiv.org/abs/2410.05701v2 )

ライセンス: Link先を確認
Michał Antkiewicz, Paweł B. Myszkowski, (参考訳) 本稿では,複数目的のNP-ハード組合せ最適化問題を制約付きで解決するために,アーカイブを積極的に活用するバランスド非支配的トーナメント遺伝的アルゴリズム (B-NTGA) に適用した新たな平衡選択演算子を提案する。 主な動機は、PFa(Pareto Front Approximation)の探索においてB-NTGAをより効率的にすることであり、「ギャップ」に着目し、PFa領域を減らしすぎている。 このようなバランス機構により、B-NTGAはより適応性が高く、探索の少ないPFa領域に集中することができる。 提案したB-NTGAは,Thief Traveling ProblemやMulti-Skill Resource-Constrained Project Scheduling Problemのような,多目的および多目的の現実世界の2つのベンチマークで検討した。 実験の結果,B-NTGAは最先端手法よりも効率が高く,性能も優れていた。

The paper presents a new balanced selection operator applied to the proposed Balanced Non-dominated Tournament Genetic Algorithm (B-NTGA) that actively uses archive to solve multi- and many-objective NP-hard combinatorial optimization problems with constraints. The primary motivation is to make B-NTGA more efficient in exploring Pareto Front Approximation (PFa), focusing on 'gaps' and reducing some PFa regions' sampling too frequently. Such a balancing mechanism allows B-NTGA to be more adaptive and focus on less explored PFa regions. The proposed B-NTGA is investigated on two benchmark multi- and many-objective optimization real-world problems, like Thief Traveling Problem and Multi-Skill Resource-Constrained Project Scheduling Problem. The results of experiments show that B-NTGA has a higher efficiency and better performance than state-of-the-art methods.
翻訳日:2024-11-01 16:59:10 公開日:2024-10-14
# ConML:タスクレベルのコントラスト学習を備えたユニバーサルメタ学習フレームワーク

ConML: A Universal Meta-Learning Framework with Task-Level Contrastive Learning ( http://arxiv.org/abs/2410.05975v1 )

ライセンス: Link先を確認
Shiguang Wu, Yaqing Wang, Yatao Bian, Quanming Yao, (参考訳) メタ学習は、学習システムが人間のように新しいタスクに迅速に適応できるようにする。 本研究では、このような人間的な素早い学習をエミュレートし、アライメントと識別能力を高めるために、特定のモデルアーキテクチャやターゲットモデルに頼ることなく、様々なメタ学習アルゴリズムに適用可能な普遍的なメタ学習フレームワークであるConMLを提案する。 ConMLのコアとなるタスクレベルのコントラスト学習は、教師なし学習における表現空間からメタ学習におけるモデル空間へのコントラスト学習を拡張する。 メタトレーニング中にタスクアイデンティティを付加的な監視信号として活用することにより、モデル空間におけるメタラーナーの出力を対比し、内タスク距離(同一タスクの異なるサブセットで訓練されたモデル間)を最小化し、タスク間距離(異なるタスクからのモデル間)を最大化する。 我々は、ConMLが最適化ベース、メートル法ベース、および償却ベースメタラーニングアルゴリズムとシームレスに統合され、コンテキスト内学習と同様に、様々な数発の学習タスクでパフォーマンスが向上することを示した。

Meta-learning enables learning systems to adapt quickly to new tasks, similar to humans. To emulate this human-like rapid learning and enhance alignment and discrimination abilities, we propose ConML, a universal meta-learning framework that can be applied to various meta-learning algorithms without relying on specific model architectures nor target models. The core of ConML is task-level contrastive learning, which extends contrastive learning from the representation space in unsupervised learning to the model space in meta-learning. By leveraging task identity as an additional supervision signal during meta-training, we contrast the outputs of the meta-learner in the model space, minimizing inner-task distance (between models trained on different subsets of the same task) and maximizing inter-task distance (between models from different tasks). We demonstrate that ConML integrates seamlessly with optimization-based, metric-based, and amortization-based meta-learning algorithms, as well as in-context learning, resulting in performance improvements across diverse few-shot learning tasks.
翻訳日:2024-11-01 11:50:19 公開日:2024-10-14
# ConML:タスクレベルのコントラスト学習を備えたユニバーサルメタ学習フレームワーク

ConML: A Universal Meta-Learning Framework with Task-Level Contrastive Learning ( http://arxiv.org/abs/2410.05975v2 )

ライセンス: Link先を確認
Shiguang Wu, Yaqing Wang, Yatao Bian, Quanming Yao, (参考訳) メタ学習は、学習システムが人間のように新しいタスクに迅速に適応できるようにする。 本研究では、このような人間的な素早い学習をエミュレートし、アライメントと識別能力を高めるために、特定のモデルアーキテクチャやターゲットモデルに頼ることなく、様々なメタ学習アルゴリズムに適用可能な普遍的なメタ学習フレームワークであるConMLを提案する。 ConMLのコアとなるタスクレベルのコントラスト学習は、教師なし学習における表現空間からメタ学習におけるモデル空間へのコントラスト学習を拡張する。 メタトレーニング中にタスクアイデンティティを付加的な監視信号として活用することにより、モデル空間におけるメタラーナーの出力を対比し、内タスク距離(同一タスクの異なるサブセットで訓練されたモデル間)を最小化し、タスク間距離(異なるタスクからのモデル間)を最大化する。 我々は、ConMLが最適化ベース、メートル法ベース、および償却ベースメタラーニングアルゴリズムとシームレスに統合され、コンテキスト内学習と同様に、様々な数発の学習タスクでパフォーマンスが向上することを示した。

Meta-learning enables learning systems to adapt quickly to new tasks, similar to humans. To emulate this human-like rapid learning and enhance alignment and discrimination abilities, we propose ConML, a universal meta-learning framework that can be applied to various meta-learning algorithms without relying on specific model architectures nor target models. The core of ConML is task-level contrastive learning, which extends contrastive learning from the representation space in unsupervised learning to the model space in meta-learning. By leveraging task identity as an additional supervision signal during meta-training, we contrast the outputs of the meta-learner in the model space, minimizing inner-task distance (between models trained on different subsets of the same task) and maximizing inter-task distance (between models from different tasks). We demonstrate that ConML integrates seamlessly with optimization-based, metric-based, and amortization-based meta-learning algorithms, as well as in-context learning, resulting in performance improvements across diverse few-shot learning tasks.
翻訳日:2024-11-01 11:50:19 公開日:2024-10-14
# Fair-OBNC:Fairerデータセットのラベルノイズの修正

Fair-OBNC: Correcting Label Noise for Fairer Datasets ( http://arxiv.org/abs/2410.06214v1 )

ライセンス: Link先を確認
Inês Oliveira e Silva, Sérgio Jesus, Hugo Ferreira, Pedro Saleiro, Inês Sousa, Pedro Bizarro, Carlos Soares, (参考訳) 機械学習モデルのような自動意思決定システムで使用されるデータは、過去に起こった差別的な振る舞いを反映していることが多い。 トレーニングデータのこれらのバイアスは、しばしばCompASのようなラベルノイズと関連している。 このような偏りのあるデータに基づいてトレーニングされたモデルは、性別、人種、年齢といったセンシティブな情報に関してバイアスを永続的に、あるいは悪化させる可能性がある。 しかし、文献では複数のラベルノイズ補正手法が利用可能であるが、これらはモデル性能にのみ焦点をあてている。 本研究では,公正度を考慮したラベルノイズ補正手法であるFair-OBNCを提案する。 提案手法は、アンサンブルの誤差の限界と、観測されたデータセットの人口統計値の潜在的増加の両方に基づいて、順序付けの基準を調整した順序付けに基づく雑音補正に適応する。 制御されたラベルノイズの異なるシナリオ下で,Fair-OBNCを他の異なる前処理手法と比較した。 これらの結果から,提案手法はラベル補正手法のプール内での総合的に優れた代替手段であり,元のラベルの再現性を向上させることができることがわかった。 修正されたデータでトレーニングされたモデルは、ラベルノイズの考慮レベルを越えて、ノイズのあるラベルを持つデータでトレーニングされたモデルと比較して、平均して150%の割合で増加します。

Data used by automated decision-making systems, such as Machine Learning models, often reflects discriminatory behavior that occurred in the past. These biases in the training data are sometimes related to label noise, such as in COMPAS, where more African-American offenders are wrongly labeled as having a higher risk of recidivism when compared to their White counterparts. Models trained on such biased data may perpetuate or even aggravate the biases with respect to sensitive information, such as gender, race, or age. However, while multiple label noise correction approaches are available in the literature, these focus on model performance exclusively. In this work, we propose Fair-OBNC, a label noise correction method with fairness considerations, to produce training datasets with measurable demographic parity. The presented method adapts Ordering-Based Noise Correction, with an adjusted criterion of ordering, based both on the margin of error of an ensemble, and the potential increase in the observed demographic parity of the dataset. We evaluate Fair-OBNC against other different pre-processing techniques, under different scenarios of controlled label noise. Our results show that the proposed method is the overall better alternative within the pool of label correction methods, being capable of attaining better reconstructions of the original labels. Models trained in the corrected data have an increase, on average, of 150% in demographic parity, when compared to models trained in data with noisy labels, across the considered levels of label noise.
翻訳日:2024-11-01 10:31:16 公開日:2024-10-14
# Fair-OBNC:Fairerデータセットのラベルノイズの修正

Fair-OBNC: Correcting Label Noise for Fairer Datasets ( http://arxiv.org/abs/2410.06214v2 )

ライセンス: Link先を確認
Inês Oliveira e Silva, Sérgio Jesus, Hugo Ferreira, Pedro Saleiro, Inês Sousa, Pedro Bizarro, Carlos Soares, (参考訳) 機械学習モデルのような自動意思決定システムで使用されるデータは、過去に起こった差別的な振る舞いを反映していることが多い。 トレーニングデータのこれらのバイアスは、しばしばCompASのようなラベルノイズと関連している。 このような偏りのあるデータに基づいてトレーニングされたモデルは、性別、人種、年齢といったセンシティブな情報に関してバイアスを永続的に、あるいは悪化させる可能性がある。 しかし、文献では複数のラベルノイズ補正手法が利用可能であるが、これらはモデル性能にのみ焦点をあてている。 本研究では,公正度を考慮したラベルノイズ補正手法であるFair-OBNCを提案する。 提案手法は、アンサンブルの誤差の限界と、観測されたデータセットの人口統計値の潜在的増加の両方に基づいて、順序付けの基準を調整した順序付けに基づく雑音補正に適応する。 制御されたラベルノイズの異なるシナリオ下で,Fair-OBNCを他の異なる前処理手法と比較した。 これらの結果から,提案手法はラベル補正手法のプール内での総合的に優れた代替手段であり,元のラベルの再現性を向上させることができることがわかった。 修正されたデータでトレーニングされたモデルは、ラベルノイズの考慮レベルを越えて、ノイズのあるラベルを持つデータでトレーニングされたモデルと比較して、平均して150%の割合で増加します。

Data used by automated decision-making systems, such as Machine Learning models, often reflects discriminatory behavior that occurred in the past. These biases in the training data are sometimes related to label noise, such as in COMPAS, where more African-American offenders are wrongly labeled as having a higher risk of recidivism when compared to their White counterparts. Models trained on such biased data may perpetuate or even aggravate the biases with respect to sensitive information, such as gender, race, or age. However, while multiple label noise correction approaches are available in the literature, these focus on model performance exclusively. In this work, we propose Fair-OBNC, a label noise correction method with fairness considerations, to produce training datasets with measurable demographic parity. The presented method adapts Ordering-Based Noise Correction, with an adjusted criterion of ordering, based both on the margin of error of an ensemble, and the potential increase in the observed demographic parity of the dataset. We evaluate Fair-OBNC against other different pre-processing techniques, under different scenarios of controlled label noise. Our results show that the proposed method is the overall better alternative within the pool of label correction methods, being capable of attaining better reconstructions of the original labels. Models trained in the corrected data have an increase, on average, of 150% in demographic parity, when compared to models trained in data with noisy labels, across the considered levels of label noise.
翻訳日:2024-11-01 10:31:16 公開日:2024-10-14
# 内在的デコヒーレンスモデルは物理的理論か?

Are intrinsic decoherence models physical theories? ( http://arxiv.org/abs/2410.06750v1 )

ライセンス: Link先を確認
Maria Danelli, Matteo G. A. Paris, (参考訳) 量子力学における測定問題を解くために,固有デコヒーレンスモデル (IDMs) が提案されている。 本研究では,これらのモデルのうち2つの状態を物理理論として評価し,パラメータの推定可能性の究極的境界を確立する。 以上の結果から, 軽蔑的・消散的IMMはファルシフィケーションに適しており, 物理理論として実験的に検討すべきであることが示唆された。

Intrinsic decoherence models (IDMs) have been proposed in order to solve the measurement problem in quantum mechanics. In this work, we assess the status of two of these models as physical theories by establishing the ultimate bounds on the estimability of their parameters. Our results show that dephasing and dissipative IDMs are amenable to falsification and should be considered physical theories worth of experimental study.
翻訳日:2024-11-01 03:50:25 公開日:2024-10-14
# 内在的デコヒーレンスモデルは物理的理論か?

Are intrinsic decoherence models physical theories? ( http://arxiv.org/abs/2410.06750v2 )

ライセンス: Link先を確認
Maria Danelli, Matteo G. A. Paris, (参考訳) 量子力学における測定問題を解くために,固有デコヒーレンスモデル (IDMs) が提案されている。 本研究では,これらのモデルのうち2つの状態を物理理論として評価し,パラメータの推定可能性の究極的境界を確立する。 以上の結果から, 軽蔑的・消散的IMMはファルシフィケーションに適しており, 物理理論として実験的に検討すべきであることが示唆された。

Intrinsic decoherence models (IDMs) have been proposed in order to solve the measurement problem in quantum mechanics. In this work, we assess the status of two of these models as physical theories by establishing the ultimate bounds on the estimability of their parameters. Our results show that dephasing and dissipative IDMs are amenable to falsification and should be considered physical theories worth of experimental study.
翻訳日:2024-11-01 03:50:25 公開日:2024-10-14
# ベイズ最適実験設計による地震モニタリングネットワークの解析と最適化

Analysis and Optimization of Seismic Monitoring Networks with Bayesian Optimal Experiment Design ( http://arxiv.org/abs/2410.07215v1 )

ライセンス: Link先を確認
Jake Callahan, Kevin Monogue, Ruben Villarreal, Tommie Catanach, (参考訳) 監視ネットワークは、多くのセンシングモードをカバーする多数の多様なセンサーからのデータを同化することを目指している。 ベイズ最適実験設計(OED)は、不確実性を最適に低減し、監視ネットワークの性能を向上させるデータ、センサー構成、実験を特定することを目指している。 情報理論は、事前の知識と期待される観測データのモデルに対して、期待される情報ゲイン(EIG)を最大化する最適化問題として、実験またはセンサ配置の選択を定式化することにより、OEDを導出する。 したがって,地震・音響モニタリングの文脈では,ベイジアンOEDを用いてセンサの位置,タイプ,忠実度を選択してセンサネットワークを構成することで,地震源の特定・発見能力を向上させることができる。 本研究では,検出された地震相の到着時刻データから地震イベントを検出するセンサネットワークの能力を最適化するために,ベイジアンOEDを利用するために必要なフレームワークを開発する。 1) センサネットワークから検出・走行時間データの分布を記述する確率関数,2) 得られた地震事象の後方分布を特定する確率関数,3) 仮説的先行事象のデータセット上での地震事象に関するEIGを計算するアルゴリズム,4) センサネットワークを最大化する最適化器。 このフレームワークを開発した後、センサの忠実さと地球モデルの不確実性をトレードオフする方法、センサタイプ、番号、位置が不確実性にどのように影響するか、事前モデルと制約がセンサ配置にどのように影響するか、といった監視に関する多くの関連する質問について検討する。

Monitoring networks increasingly aim to assimilate data from a large number of diverse sensors covering many sensing modalities. Bayesian optimal experimental design (OED) seeks to identify data, sensor configurations, or experiments which can optimally reduce uncertainty and hence increase the performance of a monitoring network. Information theory guides OED by formulating the choice of experiment or sensor placement as an optimization problem that maximizes the expected information gain (EIG) about quantities of interest given prior knowledge and models of expected observation data. Therefore, within the context of seismo-acoustic monitoring, we can use Bayesian OED to configure sensor networks by choosing sensor locations, types, and fidelity in order to improve our ability to identify and locate seismic sources. In this work, we develop the framework necessary to use Bayesian OED to optimize a sensor network's ability to locate seismic events from arrival time data of detected seismic phases at the regional-scale. Bayesian OED requires four elements: 1) A likelihood function that describes the distribution of detection and travel time data from the sensor network, 2) A Bayesian solver that uses a prior and likelihood to identify the posterior distribution of seismic events given the data, 3) An algorithm to compute EIG about seismic events over a dataset of hypothetical prior events, 4) An optimizer that finds a sensor network which maximizes EIG. Once we have developed this framework, we explore many relevant questions to monitoring such as: how to trade off sensor fidelity and earth model uncertainty; how sensor types, number, and locations influence uncertainty; and how prior models and constraints influence sensor placement.
翻訳日:2024-10-31 21:37:02 公開日:2024-10-14
# ベイズ最適実験設計による地震モニタリングネットワークの解析と最適化

Analysis and Optimization of Seismic Monitoring Networks with Bayesian Optimal Experiment Design ( http://arxiv.org/abs/2410.07215v2 )

ライセンス: Link先を確認
Jake Callahan, Kevin Monogue, Ruben Villarreal, Tommie Catanach, (参考訳) 監視ネットワークは、多くのセンシングモードをカバーする多数の多様なセンサーからのデータを同化することを目指している。 ベイズ最適実験設計(OED)は、不確実性を最適に低減し、監視ネットワークの性能を向上させるデータ、センサー構成、実験を特定することを目指している。 情報理論は、事前の知識と期待される観測データのモデルに対して、期待される情報ゲイン(EIG)を最大化する最適化問題として、実験またはセンサ配置の選択を定式化することにより、OEDを導出する。 したがって,地震・音響モニタリングの文脈では,ベイジアンOEDを用いてセンサの位置,タイプ,忠実度を選択してセンサネットワークを構成することで,地震源の特定・発見能力を向上させることができる。 本研究では,検出された地震相の到着時刻データから地震イベントを検出するセンサネットワークの能力を最適化するために,ベイジアンOEDを利用するために必要なフレームワークを開発する。 1) センサネットワークから検出・走行時間データの分布を記述する確率関数,2) 得られた地震事象の後方分布を特定する確率関数,3) 仮説的先行事象のデータセット上での地震事象に関するEIGを計算するアルゴリズム,4) センサネットワークを最大化する最適化器。 このフレームワークを開発した後、センサの忠実さと地球モデルの不確実性をトレードオフする方法、センサタイプ、番号、位置が不確実性にどのように影響するか、事前モデルと制約がセンサ配置にどのように影響するか、といった監視に関する多くの関連する質問について検討する。

Monitoring networks increasingly aim to assimilate data from a large number of diverse sensors covering many sensing modalities. Bayesian optimal experimental design (OED) seeks to identify data, sensor configurations, or experiments which can optimally reduce uncertainty and hence increase the performance of a monitoring network. Information theory guides OED by formulating the choice of experiment or sensor placement as an optimization problem that maximizes the expected information gain (EIG) about quantities of interest given prior knowledge and models of expected observation data. Therefore, within the context of seismo-acoustic monitoring, we can use Bayesian OED to configure sensor networks by choosing sensor locations, types, and fidelity in order to improve our ability to identify and locate seismic sources. In this work, we develop the framework necessary to use Bayesian OED to optimize a sensor network's ability to locate seismic events from arrival time data of detected seismic phases at the regional-scale. Bayesian OED requires four elements: 1) A likelihood function that describes the distribution of detection and travel time data from the sensor network, 2) A Bayesian solver that uses a prior and likelihood to identify the posterior distribution of seismic events given the data, 3) An algorithm to compute EIG about seismic events over a dataset of hypothetical prior events, 4) An optimizer that finds a sensor network which maximizes EIG. Once we have developed this framework, we explore many relevant questions to monitoring such as: how to trade off sensor fidelity and earth model uncertainty; how sensor types, number, and locations influence uncertainty; and how prior models and constraints influence sensor placement.
翻訳日:2024-10-31 21:37:02 公開日:2024-10-14
# 整合性損失のあるポイントクラウドコンプリートネットワークの性能向上

Enhancing Performance of Point Cloud Completion Networks with Consistency Loss ( http://arxiv.org/abs/2410.07298v1 )

ライセンス: Link先を確認
Kevin Tirta Wijaya, Christofel Rio Goenawan, Seung-Hyun Kong, (参考訳) ポイント・クラウド・コンプリート・ネットワークは、通常、完了したポイント・クラウドとグランド・トゥルース間の格差を最小限に抑えるために訓練される。 しかし、不完全なオブジェクトレベル・ポイント・クラウドは、独立に調べられると、複数の有効な補完ソリューションを持つことができる。 この1対多のマッピング問題は、損失関数がネットワークの同一の入出力ペアに対して異なる値を生成するため、ネットワークに矛盾する監視信号を引き起こす可能性がある。 多くの場合、この問題はネットワーク最適化プロセスに悪影響を及ぼす可能性がある。 本研究では,1対1のマッピング問題を緩和するために,新しい完了整合性損失を用いて従来の学習目標を強化することを提案する。 具体的には、提案した一貫性損失により、同一のソースポイントクラウドから派生した不完全なオブジェクトに対して、ポイントクラウド補完ネットワークがコヒーレントな補完ソリューションを生成する。 複数の確立されたデータセットとベンチマークによる実験結果から、提案された完了整合性損失は、ネットワークの設計を変更することなく、既存のネットワークの完了性能を向上させるのに優れた能力を有することが示された。 提案した整合性損失は、推定速度に影響を与えることなく、ポイント完了ネットワークの性能を高め、ポイントクラウド完了の精度を高める。 特に、提案された一貫性損失でトレーニングされた最先端のポイントコンプリートネットワークは、挑戦的な新しいMVPデータセットで最先端の精度を達成することができる。 提案された一貫性損失を使用して、さまざまなポイント完了モデルを実験した結果は、https://github.com/kaist-avelab/ConsistencyLoss で利用可能である。

Point cloud completion networks are conventionally trained to minimize the disparities between the completed point cloud and the ground-truth counterpart. However, an incomplete object-level point cloud can have multiple valid completion solutions when it is examined in isolation. This one-to-many mapping issue can cause contradictory supervision signals to the network because the loss function may produce different values for identical input-output pairs of the network. In many cases, this issue could adversely affect the network optimization process. In this work, we propose to enhance the conventional learning objective using a novel completion consistency loss to mitigate the one-to-many mapping problem. Specifically, the proposed consistency loss ensure that a point cloud completion network generates a coherent completion solution for incomplete objects originating from the same source point cloud. Experimental results across multiple well-established datasets and benchmarks demonstrated the proposed completion consistency loss have excellent capability to enhance the completion performance of various existing networks without any modification to the design of the networks. The proposed consistency loss enhances the performance of the point completion network without affecting the inference speed, thereby increasing the accuracy of point cloud completion. Notably, a state-of-the-art point completion network trained with the proposed consistency loss can achieve state-of-the-art accuracy on the challenging new MVP dataset. The code and result of experiment various point completion models using proposed consistency loss will be available at: https://github.com/kaist-avelab/ConsistencyLoss .
翻訳日:2024-10-31 21:06:44 公開日:2024-10-14
# 整合性損失のあるポイントクラウドコンプリートネットワークの性能向上

Enhancing Performance of Point Cloud Completion Networks with Consistency Loss ( http://arxiv.org/abs/2410.07298v2 )

ライセンス: Link先を確認
Christofel Rio Goenawan, Kevin Tirta Wijaya, Seung-Hyun Kong, (参考訳) ポイント・クラウド・コンプリート・ネットワークは、通常、完了したポイント・クラウドとグランド・トゥルース間の格差を最小限に抑えるために訓練される。 しかし、不完全なオブジェクトレベル・ポイント・クラウドは、独立に調べられると、複数の有効な補完ソリューションを持つことができる。 この1対多のマッピング問題は、損失関数がネットワークの同一の入出力ペアに対して異なる値を生成するため、ネットワークに矛盾する監視信号を引き起こす可能性がある。 多くの場合、この問題はネットワーク最適化プロセスに悪影響を及ぼす可能性がある。 本研究では,1対1のマッピング問題を緩和するために,新しい完了整合性損失を用いて従来の学習目標を強化することを提案する。 具体的には、提案した一貫性損失により、同一のソースポイントクラウドから派生した不完全なオブジェクトに対して、ポイントクラウド補完ネットワークがコヒーレントな補完ソリューションを生成する。 複数の確立されたデータセットとベンチマークによる実験結果から、提案された完了整合性損失は、ネットワークの設計を変更することなく、既存のネットワークの完了性能を向上させるのに優れた能力を有することが示された。 提案した整合性損失は、推定速度に影響を与えることなく、ポイント完了ネットワークの性能を高め、ポイントクラウド完了の精度を高める。 特に、提案された一貫性損失でトレーニングされた最先端のポイントコンプリートネットワークは、挑戦的な新しいMVPデータセットで最先端の精度を達成することができる。 提案された一貫性損失を使用して、さまざまなポイント完了モデルを実験した結果は、https://github.com/kaist-avelab/ConsistencyLoss で利用可能である。

Point cloud completion networks are conventionally trained to minimize the disparities between the completed point cloud and the ground-truth counterpart. However, an incomplete object-level point cloud can have multiple valid completion solutions when it is examined in isolation. This one-to-many mapping issue can cause contradictory supervision signals to the network because the loss function may produce different values for identical input-output pairs of the network. In many cases, this issue could adversely affect the network optimization process. In this work, we propose to enhance the conventional learning objective using a novel completion consistency loss to mitigate the one-to-many mapping problem. Specifically, the proposed consistency loss ensure that a point cloud completion network generates a coherent completion solution for incomplete objects originating from the same source point cloud. Experimental results across multiple well-established datasets and benchmarks demonstrated the proposed completion consistency loss have excellent capability to enhance the completion performance of various existing networks without any modification to the design of the networks. The proposed consistency loss enhances the performance of the point completion network without affecting the inference speed, thereby increasing the accuracy of point cloud completion. Notably, a state-of-the-art point completion network trained with the proposed consistency loss can achieve state-of-the-art accuracy on the challenging new MVP dataset. The code and result of experiment various point completion models using proposed consistency loss will be available at: https://github.com/kaist-avelab/ConsistencyLoss .
翻訳日:2024-10-31 21:06:44 公開日:2024-10-14
# CSGDN:クローン遺伝子訓練協会予測のための対比符号付きグラフ拡散ネットワーク

CSGDN: Contrastive Signed Graph Diffusion Network for Predicting Crop Gene-Trait Associations ( http://arxiv.org/abs/2410.07511v1 )

ライセンス: Link先を確認
Yiru Pan, Xingyu Ji, Jiaqi You, Lu Li, Zhenping Liu, Xianlong Zhang, Zeyu Zhang, Maojun Wang, (参考訳) 遺伝子と形質の正の関連性は、作物が複雑な生理機能を発揮するのに役立つ。 特定の遺伝子の転写および調節活性は、生物のニーズを満たすために、異なる細胞タイプ、発達段階、生理的状態に応じて調整される。 遺伝子・形質関係の決定は形質形成のメカニズムを解明し、収穫量と品質の改善に寄与する。 遺伝子と形質の正・負の関連を得るには、以下の2つの問題がある。 1)高スループットDNA/RNAシークエンシング及び形質データ収集は、大規模なサンプルサイズを処理する必要があるため、高価で時間を要する。 2)実験はランダムな誤りと体系的な誤りの両方を導入し,同時にソフトウェアやモデルを用いた計算や予測もノイズを発生させる可能性がある。 これら2つの問題に対処するために、より少ないトレーニングサンプルでロバストなノード表現を学習し、より高いリンク予測精度を実現するために、Contrastive Signed Graph Diffusion Network (CSGDN)を提案する。 CSGDNは署名付きグラフ拡散法を用いて、遺伝子と形質の根底にある規制関係を明らかにする。 次に、確率的パーターベーション戦略を用いて、原グラフと微分グラフの両方に対する2つのビューを作成する。 最後に、2つの視点から学んだノードプレゼンテーションを統一し、干渉に抵抗しノイズを低減するために、マルチビューのコントラッシブ・ラーニング・パラダイム・ロスを設計する。 Gossypium hirsutum, Brassica napus, Triticum turgidumの3つの作物データセット上でCSGDNの有効性を検証する実験を行った。 その結果、提案モデルはG. hirsutum データセットのリンクサイン予測において、9.28%の AUC で最先端の手法より優れていることが示された。

Positive and negative association preidiction between gene and trait help studies for crops to perform complex physiological functions. The transcription and regulation activity of specific genes will be adjusted accordingly in different cell types, developmental stages, and physiological states to meet the needs of organisms. Determing gene-trait associations can resolve the mechanism of trait formation and benefit the improvement of crop yield and quality. There are the following two problems in obtaining the positive/negative associations between gene and trait: 1) High-throughput DNA/RNA sequencing and trait data collection are expensive and time-consuming due to the need to process large sample sizes; 2) experiments introduce both random and systematic errors, and, at the same time, calculations or predictions using software or models may produce noise. To address these two issues, we propose a Contrastive Signed Graph Diffusion Network, CSGDN, to learn robust node representations with fewer training samples to achieve higher link prediction accuracy. CSGDN employs a signed graph diffusion method to uncover the underlying regulatory associations between genes and traits. Then, stochastic perterbation strategies are used to create two views for both original and diffusive graphs. At last, a multi-view contrastive learning paradigm loss is designed to unify the node presentations learned from the two views to resist interference and reduce noise. We conduct experiments to validate the performance of CSGDN on three crop datasets: Gossypium hirsutum, Brassica napus, and Triticum turgidum. The results demonstrate that the proposed model outperforms state-of-the-art methods by up to 9.28% AUC for link sign prediction in G. hirsutum dataset.
翻訳日:2024-10-31 16:46:37 公開日:2024-10-14
# CSGDN:クローン遺伝子フェノタイプ関連の予測のための対比符号付きグラフ拡散ネットワーク

CSGDN: Contrastive Signed Graph Diffusion Network for Predicting Crop Gene-phenotype Associations ( http://arxiv.org/abs/2410.07511v2 )

ライセンス: Link先を確認
Yiru Pan, Xingyu Ji, Jiaqi You, Lu Li, Zhenping Liu, Xianlong Zhang, Zeyu Zhang, Maojun Wang, (参考訳) 遺伝子と表現型の間の正および負の関連予測は、生物の複雑な形質の基盤となるメカニズムを説明するのに役立つ。 特定の遺伝子の転写および調節活性は、細胞の種類、発達段階、生理状態に応じて調整される。 遺伝子と形質の正・負の関連を得るには、以下の2つの問題がある。 1) 高スループットDNA/RNAシークエンシングおよび表現型化は、大きなサンプルサイズを処理する必要があるため、高価で時間を要する。 2)実験はランダムな誤りと系統的な誤りの両方を導入し,一方,ソフトウェアやモデルを用いた計算や予測はノイズを発生させる可能性がある。 これら2つの問題に対処するために、より少ないトレーニングサンプルでロバストなノード表現を学習し、より高いリンク予測精度を実現するために、Contrastive Signed Graph Diffusion Network (CSGDN)を提案する。 CSGDNは、署名付きグラフ拡散法を用いて、遺伝子と表現型の間の根底にある調節関係を明らかにする。 次に、確率摂動戦略を用いて、原グラフと拡散グラフの双方に対する2つのビューを作成する。 最後に、2つの視点から学んだノードプレゼンテーションを統一し、干渉に抵抗しノイズを低減するために、マルチビューのコントラッシブ学習パラダイム損失を設計する。 Gossypium hirsutum, Brassica napus, Triticum turgidumの3つの作物データセット上でCSGDNの有効性を検証する実験を行った。 その結果、提案モデルはG. hirsutum データセットのリンクサイン予測において、9.28%の AUC で最先端の手法より優れていることが示された。

Positive and negative association prediction between gene and phenotype helps to illustrate the underlying mechanism of complex traits in organisms. The transcription and regulation activity of specific genes will be adjusted accordingly in different cell types, developmental stages, and physiological states. There are the following two problems in obtaining the positive/negative associations between gene and trait: 1) High-throughput DNA/RNA sequencing and phenotyping are expensive and time-consuming due to the need to process large sample sizes; 2) experiments introduce both random and systematic errors, and, meanwhile, calculations or predictions using software or models may produce noise. To address these two issues, we propose a Contrastive Signed Graph Diffusion Network, CSGDN, to learn robust node representations with fewer training samples to achieve higher link prediction accuracy. CSGDN employs a signed graph diffusion method to uncover the underlying regulatory associations between genes and phenotypes. Then, stochastic perturbation strategies are used to create two views for both original and diffusive graphs. Lastly, a multi-view contrastive learning paradigm loss is designed to unify the node presentations learned from the two views to resist interference and reduce noise. We conduct experiments to validate the performance of CSGDN on three crop datasets: Gossypium hirsutum, Brassica napus, and Triticum turgidum. The results demonstrate that the proposed model outperforms state-of-the-art methods by up to 9.28% AUC for link sign prediction in G. hirsutum dataset.
翻訳日:2024-10-31 16:46:37 公開日:2024-10-14
# 医療における安全批判的意思決定のためのオフライン逆強化学習

Offline Inverse Constrained Reinforcement Learning for Safe-Critical Decision Making in Healthcare ( http://arxiv.org/abs/2410.07525v1 )

ライセンス: Link先を確認
Nan Fang, Guiliang Liu, Wei Gong, (参考訳) 医療に応用された強化学習(RL)は、過度の服用や急激な変化など、安全でない医療判断や治療につながる可能性がある。 その結果,CRL(Constrained Reinforcement Learning)は,安全な意思決定のための自然な選択である。 しかし、医療において、正確なコスト関数を特定することは本質的に困難である。 最近の逆制約強化学習(ICRL)は、専門家による実証から制約を推測する有望なアプローチである。 ICRLアルゴリズムは対話環境におけるマルコフ決定をモデル化する。 これらの設定は、オフラインデータセットに記録された歴史的な処理に依存する医療における意思決定システムの実践的な要件とは一致しない。 これらの問題に対処するために,制約変換器 (CT) を提案する。 具体的には 1) 歴史的決定と観察を制約モデルに組み込むために, 因果的注意機構を利用する一方で, 重み付き制約に非マルコフ層を用い, 臨界状態を捉える。 2) 生成的世界モデルを用いて探索的データ拡張を行い, オフラインRL法で安全でない決定シーケンスをシミュレートする。 複数の医療シナリオにおいて、CTは安全でない状態を捕捉し、死亡率を近似し、安全でない行動の発生確率を減少させる戦略を達成できることが実証された。

Reinforcement Learning (RL) applied in healthcare can lead to unsafe medical decisions and treatment, such as excessive dosages or abrupt changes, often due to agents overlooking common-sense constraints. Consequently, Constrained Reinforcement Learning (CRL) is a natural choice for safe decisions. However, specifying the exact cost function is inherently difficult in healthcare. Recent Inverse Constrained Reinforcement Learning (ICRL) is a promising approach that infers constraints from expert demonstrations. ICRL algorithms model Markovian decisions in an interactive environment. These settings do not align with the practical requirement of a decision-making system in healthcare, where decisions rely on historical treatment recorded in an offline dataset. To tackle these issues, we propose the Constraint Transformer (CT). Specifically, 1) we utilize a causal attention mechanism to incorporate historical decisions and observations into the constraint modeling, while employing a Non-Markovian layer for weighted constraints to capture critical states. 2) A generative world model is used to perform exploratory data augmentation, enabling offline RL methods to simulate unsafe decision sequences. In multiple medical scenarios, empirical results demonstrate that CT can capture unsafe states and achieve strategies that approximate lower mortality rates, reducing the occurrence probability of unsafe behaviors.
翻訳日:2024-10-31 16:36:31 公開日:2024-10-14
# 医療における安全批判的意思決定のためのオフライン逆強化学習

Offline Inverse Constrained Reinforcement Learning for Safe-Critical Decision Making in Healthcare ( http://arxiv.org/abs/2410.07525v2 )

ライセンス: Link先を確認
Nan Fang, Guiliang Liu, Wei Gong, (参考訳) 医療に応用された強化学習(RL)は、過度の服用や急激な変化など、安全でない医療判断や治療につながる可能性がある。 その結果,CRL(Constrained Reinforcement Learning)は,安全な意思決定のための自然な選択である。 しかし、医療において、正確なコスト関数を特定することは本質的に困難である。 最近の逆制約強化学習(ICRL)は、専門家による実証から制約を推測する有望なアプローチである。 ICRLアルゴリズムは対話環境におけるマルコフ決定をモデル化する。 これらの設定は、オフラインデータセットに記録された歴史的な処理に依存する医療における意思決定システムの実践的な要件とは一致しない。 これらの問題に対処するために,制約変換器 (CT) を提案する。 具体的には 1) 歴史的決定と観察を制約モデルに組み込むために, 因果的注意機構を利用する一方で, 重み付き制約に非マルコフ層を用い, 臨界状態を捉える。 2) 生成的世界モデルを用いて探索的データ拡張を行い, オフラインRL法で安全でない決定シーケンスをシミュレートする。 複数の医療シナリオにおいて、CTは安全でない状態を捕捉し、死亡率を近似し、安全でない行動の発生確率を減少させる戦略を達成できることが実証された。

Reinforcement Learning (RL) applied in healthcare can lead to unsafe medical decisions and treatment, such as excessive dosages or abrupt changes, often due to agents overlooking common-sense constraints. Consequently, Constrained Reinforcement Learning (CRL) is a natural choice for safe decisions. However, specifying the exact cost function is inherently difficult in healthcare. Recent Inverse Constrained Reinforcement Learning (ICRL) is a promising approach that infers constraints from expert demonstrations. ICRL algorithms model Markovian decisions in an interactive environment. These settings do not align with the practical requirement of a decision-making system in healthcare, where decisions rely on historical treatment recorded in an offline dataset. To tackle these issues, we propose the Constraint Transformer (CT). Specifically, 1) we utilize a causal attention mechanism to incorporate historical decisions and observations into the constraint modeling, while employing a Non-Markovian layer for weighted constraints to capture critical states. 2) A generative world model is used to perform exploratory data augmentation, enabling offline RL methods to simulate unsafe decision sequences. In multiple medical scenarios, empirical results demonstrate that CT can capture unsafe states and achieve strategies that approximate lower mortality rates, reducing the occurrence probability of unsafe behaviors.
翻訳日:2024-10-31 16:36:31 公開日:2024-10-14
# Hallo2:長期保存と高解像度オーディオ駆動画像アニメーション

Hallo2: Long-Duration and High-Resolution Audio-Driven Portrait Image Animation ( http://arxiv.org/abs/2410.07718v1 )

ライセンス: Link先を確認
Jiahao Cui, Hui Li, Yao Yao, Hao Zhu, Hanlin Shang, Kaihui Cheng, Hang Zhou, Siyu Zhu, Jingdong Wang, (参考訳) ハロなどのポートレート画像アニメーションの潜時拡散に基づく生成モデルの最近の進歩は、ショートデュレーションビデオ合成において顕著な成果を上げている。 本稿では,ハロの機能を拡張したいくつかの設計拡張を紹介する。 まず,長編ビデオの制作方法を拡張する。 外観のドリフトや時間的アーティファクトといった課題に対処するため,条件付きモーションフレームの画像空間における拡張戦略について検討した。 具体的には、長時間の視覚的一貫性と時間的コヒーレンスを高めるために、ガウス雑音を付加したパッチドロップ手法を導入する。 次に、4K解像度のポートレートビデオ生成を実現する。 これを実現するために、潜時符号のベクトル量子化を実装し、時間的次元のコヒーレンスを維持するために時間的アライメント手法を適用した。 高品質デコーダを統合することにより、4K解像度で視覚合成を実現する。 第3に,ポートレート表現のための調整可能なセマンティックテキストラベルを条件入力として組み込む。 これは従来のオーディオキューを超えて、制御性を改善し、生成されたコンテンツの多様性を高める。 本論文で提案するハロ2は、4K解像度を実現し、テキストプロンプトで強化された1時間長のオーディオ駆動型ポートレート画像アニメーションを生成するための最初の方法である。 我々は、HDTF、CelebV、導入した"Wild"データセットなど、公開データセット上で、我々の手法を評価するための広範な実験を行った。 実験により,長周期のポートレート・ビデオ・アニメーションの最先端性能を実現し,最大10分間の4K解像度でリッチで制御可能なコンテンツを生成できることが実証された。 プロジェクトページ https://fudan-generative-vision.github.io/hallo2

Recent advances in latent diffusion-based generative models for portrait image animation, such as Hallo, have achieved impressive results in short-duration video synthesis. In this paper, we present updates to Hallo, introducing several design enhancements to extend its capabilities. First, we extend the method to produce long-duration videos. To address substantial challenges such as appearance drift and temporal artifacts, we investigate augmentation strategies within the image space of conditional motion frames. Specifically, we introduce a patch-drop technique augmented with Gaussian noise to enhance visual consistency and temporal coherence over long duration. Second, we achieve 4K resolution portrait video generation. To accomplish this, we implement vector quantization of latent codes and apply temporal alignment techniques to maintain coherence across the temporal dimension. By integrating a high-quality decoder, we realize visual synthesis at 4K resolution. Third, we incorporate adjustable semantic textual labels for portrait expressions as conditional inputs. This extends beyond traditional audio cues to improve controllability and increase the diversity of the generated content. To the best of our knowledge, Hallo2, proposed in this paper, is the first method to achieve 4K resolution and generate hour-long, audio-driven portrait image animations enhanced with textual prompts. We have conducted extensive experiments to evaluate our method on publicly available datasets, including HDTF, CelebV, and our introduced "Wild" dataset. The experimental results demonstrate that our approach achieves state-of-the-art performance in long-duration portrait video animation, successfully generating rich and controllable content at 4K resolution for duration extending up to tens of minutes. Project page https://fudan-generative-vision.github.io/hallo2
翻訳日:2024-10-31 15:15:56 公開日:2024-10-14
# Hallo2:長期保存と高解像度オーディオ駆動画像アニメーション

Hallo2: Long-Duration and High-Resolution Audio-Driven Portrait Image Animation ( http://arxiv.org/abs/2410.07718v2 )

ライセンス: Link先を確認
Jiahao Cui, Hui Li, Yao Yao, Hao Zhu, Hanlin Shang, Kaihui Cheng, Hang Zhou, Siyu Zhu, Jingdong Wang, (参考訳) ハロなどのポートレート画像アニメーションの潜時拡散に基づく生成モデルの最近の進歩は、ショートデュレーションビデオ合成において顕著な成果を上げている。 本稿では,ハロの機能を拡張したいくつかの設計拡張を紹介する。 まず,長編ビデオの制作方法を拡張する。 外観のドリフトや時間的アーティファクトといった課題に対処するため,条件付きモーションフレームの画像空間における拡張戦略について検討した。 具体的には、長時間の視覚的一貫性と時間的コヒーレンスを高めるために、ガウス雑音を付加したパッチドロップ手法を導入する。 次に、4K解像度のポートレートビデオ生成を実現する。 これを実現するために、潜時符号のベクトル量子化を実装し、時間的次元のコヒーレンスを維持するために時間的アライメント手法を適用した。 高品質デコーダを統合することにより、4K解像度で視覚合成を実現する。 第3に,ポートレート表現のための調整可能なセマンティックテキストラベルを条件入力として組み込む。 これは従来のオーディオキューを超えて、制御性を改善し、生成されたコンテンツの多様性を高める。 本論文で提案するハロ2は、4K解像度を実現し、テキストプロンプトで強化された1時間長のオーディオ駆動型ポートレート画像アニメーションを生成するための最初の方法である。 我々は、HDTF、CelebV、導入した"Wild"データセットなど、公開データセット上で、我々の手法を評価するための広範な実験を行った。 実験により,長周期のポートレート・ビデオ・アニメーションの最先端性能を実現し,最大10分間の4K解像度でリッチで制御可能なコンテンツを生成できることが実証された。 プロジェクトページ https://fudan-generative-vision.github.io/hallo2

Recent advances in latent diffusion-based generative models for portrait image animation, such as Hallo, have achieved impressive results in short-duration video synthesis. In this paper, we present updates to Hallo, introducing several design enhancements to extend its capabilities. First, we extend the method to produce long-duration videos. To address substantial challenges such as appearance drift and temporal artifacts, we investigate augmentation strategies within the image space of conditional motion frames. Specifically, we introduce a patch-drop technique augmented with Gaussian noise to enhance visual consistency and temporal coherence over long duration. Second, we achieve 4K resolution portrait video generation. To accomplish this, we implement vector quantization of latent codes and apply temporal alignment techniques to maintain coherence across the temporal dimension. By integrating a high-quality decoder, we realize visual synthesis at 4K resolution. Third, we incorporate adjustable semantic textual labels for portrait expressions as conditional inputs. This extends beyond traditional audio cues to improve controllability and increase the diversity of the generated content. To the best of our knowledge, Hallo2, proposed in this paper, is the first method to achieve 4K resolution and generate hour-long, audio-driven portrait image animations enhanced with textual prompts. We have conducted extensive experiments to evaluate our method on publicly available datasets, including HDTF, CelebV, and our introduced "Wild" dataset. The experimental results demonstrate that our approach achieves state-of-the-art performance in long-duration portrait video animation, successfully generating rich and controllable content at 4K resolution for duration extending up to tens of minutes. Project page https://fudan-generative-vision.github.io/hallo2
翻訳日:2024-10-31 15:15:56 公開日:2024-10-14
# Packing Analysis: 監督されたファインチューニングにおいて、大規模モデルやデータセットにパッキングが適している

Packing Analysis: Packing Is More Appropriate for Large Models or Datasets in Supervised Fine-tuning ( http://arxiv.org/abs/2410.08081v1 )

ライセンス: Link先を確認
Shuhe Wang, Guoyin Wang, Jiwei Li, Eduard Hovy, Chen Guo, (参考訳) プリトレーニングフェーズで最初に使用されるパッキングは、異なるトレーニングシーケンスを組み合わせてモデルの最大入力長に適合させることで、ハードウェアリソース効率を最大化する最適化技術である。 プレトレーニングにおいて有効性を示したが,(1)パッキングが性能を維持しつつトレーニング効率を効果的に向上するか否か,(2)パッキング法に適合するモデルとデータセットのサイズ,(3)無関係または関連するトレーニングサンプルのパッキングが過度に無視または過度にモデルに影響を及ぼす可能性があるか,といった点において,教師付き微調整(SFT)段階の総合的な分析が欠如している。 本稿では,69Kから1.2MまでのSFTデータセットと8Bから70Bのモデルを対象として,パディングとパッキングを用いたSFT法の比較を行った。 これは、パッキング対パディングの利点と制限に関する最初の包括的な分析と、さまざまなトレーニングシナリオでパッキングを実装するための実践的な考慮を提供する。 我々の分析では、知識、推論、コーディング、GPTに基づく評価、時間効率、その他の微調整パラメータなど、様々なベンチマークを網羅している。 また、細調整と評価のためのコードをオープンソースとして公開し、さまざまなサイズのデータセットに微調整されたチェックポイントを提供し、今後のパッキング手法の研究を進めることを目指しています。 コードは、https://github.com/ShuheWang1998/Packing-Analysis? tab=readme-ov-file

Packing, initially utilized in the pre-training phase, is an optimization technique designed to maximize hardware resource efficiency by combining different training sequences to fit the model's maximum input length. Although it has demonstrated effectiveness during pre-training, there remains a lack of comprehensive analysis for the supervised fine-tuning (SFT) stage on the following points: (1) whether packing can effectively enhance training efficiency while maintaining performance, (2) the suitable size of the model and dataset for fine-tuning with the packing method, and (3) whether packing unrelated or related training samples might cause the model to either excessively disregard or over-rely on the context. In this paper, we perform extensive comparisons between SFT methods using padding and packing, covering SFT datasets ranging from 69K to 1.2M and models from 8B to 70B. This provides the first comprehensive analysis of the advantages and limitations of packing versus padding, as well as practical considerations for implementing packing in various training scenarios. Our analysis covers various benchmarks, including knowledge, reasoning, and coding, as well as GPT-based evaluations, time efficiency, and other fine-tuning parameters. We also open-source our code for fine-tuning and evaluation and provide checkpoints fine-tuned on datasets of different sizes, aiming to advance future research on packing methods. Code is available at: https://github.com/ShuheWang1998/Packing-Analysis?tab=readme-ov-file.
翻訳日:2024-10-31 05:35:21 公開日:2024-10-14
# Packing Analysis: 監督されたファインチューニングにおいて、大規模モデルやデータセットにパッキングが適している

Packing Analysis: Packing Is More Appropriate for Large Models or Datasets in Supervised Fine-tuning ( http://arxiv.org/abs/2410.08081v2 )

ライセンス: Link先を確認
Shuhe Wang, Guoyin Wang, Jiwei Li, Eduard Hovy, Chen Guo, (参考訳) プリトレーニングフェーズで最初に使用されるパッキングは、異なるトレーニングシーケンスを組み合わせてモデルの最大入力長に適合させることで、ハードウェアリソース効率を最大化する最適化技術である。 プレトレーニングにおいて有効性を示したが,(1)パッキングが性能を維持しつつトレーニング効率を効果的に向上するか否か,(2)パッキング法に適合するモデルとデータセットのサイズ,(3)無関係または関連するトレーニングサンプルのパッキングが過度に無視または過度にモデルに影響を及ぼす可能性があるか,といった点において,教師付き微調整(SFT)段階の総合的な分析が欠如している。 本稿では,69Kから1.2MまでのSFTデータセットと8Bから70Bのモデルを対象として,パディングとパッキングを用いたSFT法の比較を行った。 これは、パッキング対パディングの利点と制限に関する最初の包括的な分析と、さまざまなトレーニングシナリオでパッキングを実装するための実践的な考慮を提供する。 我々の分析では、知識、推論、コーディング、GPTに基づく評価、時間効率、その他の微調整パラメータなど、様々なベンチマークを網羅している。 また、細調整と評価のためのコードをオープンソースとして公開し、さまざまなサイズのデータセットに微調整されたチェックポイントを提供し、今後のパッキング手法の研究を進めることを目指しています。 コードは、https://github.com/ShuheWang1998/Packing-Analysis? tab=readme-ov-file

Packing, initially utilized in the pre-training phase, is an optimization technique designed to maximize hardware resource efficiency by combining different training sequences to fit the model's maximum input length. Although it has demonstrated effectiveness during pre-training, there remains a lack of comprehensive analysis for the supervised fine-tuning (SFT) stage on the following points: (1) whether packing can effectively enhance training efficiency while maintaining performance, (2) the suitable size of the model and dataset for fine-tuning with the packing method, and (3) whether packing unrelated or related training samples might cause the model to either excessively disregard or over-rely on the context. In this paper, we perform extensive comparisons between SFT methods using padding and packing, covering SFT datasets ranging from 69K to 1.2M and models from 8B to 70B. This provides the first comprehensive analysis of the advantages and limitations of packing versus padding, as well as practical considerations for implementing packing in various training scenarios. Our analysis covers various benchmarks, including knowledge, reasoning, and coding, as well as GPT-based evaluations, time efficiency, and other fine-tuning parameters. We also open-source our code for fine-tuning and evaluation and provide checkpoints fine-tuned on datasets of different sizes, aiming to advance future research on packing methods. Code is available at: https://github.com/ShuheWang1998/Packing-Analysis?tab=readme-ov-file.
翻訳日:2024-10-31 05:35:21 公開日:2024-10-14
# 効率的なLLM事前学習のためのマルチエージェント協調データ選択

Multi-Agent Collaborative Data Selection for Efficient LLM Pretraining ( http://arxiv.org/abs/2410.08102v1 )

ライセンス: Link先を確認
Tianyi Bai, Ling Yang, Zhen Hao Wong, Jiahui Peng, Xinlin Zhuang, Chi Zhang, Lijun Wu, Qiu Jiantao, Wentao Zhang, Binhang Yuan, Conghui He, (参考訳) 大規模言語モデル(LLM)の事前学習を加速するためには,効率的なデータ選択が不可欠である。 データ効率を向上させるための様々な手法が提案されているが、LLM事前学習のための最適なデータ選択を実現するために、これらの手法間の固有の対立に対処する研究は限られている。 そこで本研究では,新しいマルチエージェント協調データ選択機構を提案する。 このフレームワークでは、各データ選択方法は独立したエージェントとして機能し、エージェントコンソールは、LLMトレーニングプロセス全体を通して、すべてのエージェントからの情報を動的に統合するように設計されている。 マルチエージェントフレームワークを評価するために、広範な実証的研究を行っている。 実験の結果,本手法はデータ効率を大幅に向上し,LLMトレーニングの収束を加速し,複数の言語モデルベンチマークの平均性能向上率を最先端の手法と比較して10.5%に向上することが示された。

Efficient data selection is crucial to accelerate the pretraining of large language models (LLMs). While various methods have been proposed to enhance data efficiency, limited research has addressed the inherent conflicts between these approaches to achieve optimal data selection for LLM pretraining. To tackle this problem, we propose a novel multi-agent collaborative data selection mechanism. In this framework, each data selection method serves as an independent agent, and an agent console is designed to dynamically integrate the information from all agents throughout the LLM training process. We conduct extensive empirical studies to evaluate our multi-agent framework. The experimental results demonstrate that our approach significantly improves data efficiency, accelerates convergence in LLM training, and achieves an average performance gain of 10.5% across multiple language model benchmarks compared to the state-of-the-art methods.
翻訳日:2024-10-31 05:25:16 公開日:2024-10-14
# 効率的なLLM事前学習のためのマルチエージェント協調データ選択

Multi-Agent Collaborative Data Selection for Efficient LLM Pretraining ( http://arxiv.org/abs/2410.08102v2 )

ライセンス: Link先を確認
Tianyi Bai, Ling Yang, Zhen Hao Wong, Jiahui Peng, Xinlin Zhuang, Chi Zhang, Lijun Wu, Jiantao Qiu, Wentao Zhang, Binhang Yuan, Conghui He, (参考訳) 大規模言語モデル(LLM)の事前学習を加速するためには,効率的なデータ選択が不可欠である。 データ効率を向上させるための様々な手法が提案されているが、LLM事前学習のための最適なデータ選択を実現するために、これらの手法間の固有の対立に対処する研究は限られている。 そこで本研究では,新しいマルチエージェント協調データ選択機構を提案する。 このフレームワークでは、各データ選択方法は独立したエージェントとして機能し、エージェントコンソールは、LLMトレーニングプロセス全体を通して、すべてのエージェントからの情報を動的に統合するように設計されている。 マルチエージェントフレームワークを評価するために、広範な実証的研究を行っている。 実験の結果,本手法はデータ効率を大幅に向上し,LLMトレーニングの収束を加速し,複数の言語モデルベンチマークの平均性能向上率を,最先端の手法と比較して10.5%に向上することが示された。

Efficient data selection is crucial to accelerate the pretraining of large language models (LLMs). While various methods have been proposed to enhance data efficiency, limited research has addressed the inherent conflicts between these approaches to achieve optimal data selection for LLM pretraining. To tackle this problem, we propose a novel multi-agent collaborative data selection mechanism. In this framework, each data selection method serves as an independent agent, and an agent console is designed to dynamically integrate the information from all agents throughout the LLM training process. We conduct extensive empirical studies to evaluate our multi-agent framework. The experimental results demonstrate that our approach significantly improves data efficiency, accelerates convergence in LLM training, and achieves an average performance gain up to 10.5% across multiple language model benchmarks compared to the state-of-the-art methods.
翻訳日:2024-10-31 05:25:16 公開日:2024-10-14
# バングラデシュ・ダッカにおけるインテリジェントトランスポーテーションシステムのための深層学習

Finetuning YOLOv9 for Vehicle Detection: Deep Learning for Intelligent Transportation Systems in Dhaka, Bangladesh ( http://arxiv.org/abs/2410.08230v2 )

ライセンス: Link先を確認
Shahriar Ahmad Fahim, (参考訳) ダッカのような世界の大都市での急速な都市化は、多くの交通問題に対処する必要がある。 ディープラーニングと人工知能の新たな技術は、これらの問題を解決し、市内のインテリジェントトランスポーテーションシステム(ITS)に移行するのに役立ちます。 バングラデシュ政府は、スマートモビリティを「スマートバングラデシュビジョン2041」の開発計画に向けた重要なステップとして、ITSの統合を認めているが、ITS、その効果、実装の方向性を理解する上での課題に直面している。 車両検知システムは、交通渋滞を理解し、モビリティパターンを見つけ、交通監視を確実にする方法を舗装することができる。 そこで本稿では,バングラデシュのデータセット上で訓練されたネイティブ車両を検出するための,微調整対象検出器 YOLOv9 モデルを提案する。 その結果, ヨロブ9モデルが平均平均精度0.934mAPを0.5のIoU閾値で達成し, バングラデシュをベースとした過去の研究結果と比較した。 その後、道路上のCCTV(閉鎖回路テレビ)に配置するモデルを提案することにより、市内に車両検知システムを構築するグラフ構造における車両検出モデル出力データを処理するための概念的手法を提案する。 最後に,このような車両検知システムの応用について考察し,都市に提案する車両検出システムを実装するための政策立案者への合理的な根拠を提供するため,さらなる問題を解決するための枠組みを提示する。

Rapid urbanization in megacities around the world, like Dhaka, has caused numerous transportation challenges that need to be addressed. Emerging technologies of deep learning and artificial intelligence can help us solve these problems to move towards Intelligent Transportation Systems (ITS) in the city. The government of Bangladesh recognizes the integration of ITS to ensure smart mobility as a vital step towards the development plan "Smart Bangladesh Vision 2041", but faces challenges in understanding ITS, its effects, and directions to implement. A vehicle detection system can pave the way to understanding traffic congestion, finding mobility patterns, and ensuring traffic surveillance. So, this paper proposes a fine-tuned object detector, the YOLOv9 model to detect native vehicles trained on a Bangladesh-based dataset. Results show that the fine-tuned YOLOv9 model achieved a mean Average Precision (mAP) of 0.934 at the Intersection over Union (IoU) threshold of 0.5, achieving state-of-the-art performance over past studies on Bangladesh-based datasets, shown through a comparison. Later, by suggesting the model to be deployed on CCTVs (closed circuit television) on the roads, a conceptual technique is proposed to process the vehicle detection model output data in a graph structure creating a vehicle detection system in the city. Finally, applications of such vehicle detection system are discussed showing a framework on how it can solve further ITS research questions, to provide a rationale for policymakers to implement the proposed vehicle detection system in the city.
翻訳日:2024-10-31 04:36:03 公開日:2024-10-14
# JurEE not judges:Safeguarding llm interaction with small, specialated Encoder Ensembles

JurEE not Judges: safeguarding llm interactions with small, specialised Encoder Ensembles ( http://arxiv.org/abs/2410.08442v1 )

ライセンス: Link先を確認
Dom Nasrabadi, (参考訳) 我々は、LLMシステム内のAI-ユーザインタラクションの保護を強化するために設計された、効率的なエンコーダのみのトランスフォーマーモデルの集合であるJurEEを紹介する。 LLM-as-Judgeの既存の手法とは異なり、リスク分類の一般化に苦慮し、テキスト出力のみを提供するのに対し、JurEEは広範囲の一般的なリスクに対する確率的リスク推定を提供する。 提案手法は,多種多様なデータソースを活用し,LLM支援強化を含む漸進的な合成データ生成技術を用いて,モデルロバスト性と性能を向上させる。 私たちは、OpenAI Moderation DatasetやToxicChatといった他の計算可能なベンチマークで構成された社内ベンチマークを作成し、JurEEがベースラインモデルを大幅に上回っており、精度、速度、コスト効率が優れています。 これは、顧客向けチャットボットのような厳しいコンテンツモデレーションを必要とするアプリケーションに特に適している。 エンコーダ・アンサンブルのモジュラー設計により、ユーザーはカスタマイズされたリスク閾値を設定することができ、様々な安全関連アプリケーションにまたがる汎用性を高めることができる。 JurEEの集合的意思決定プロセスでは、それぞれの特殊なエンコーダモデルが最終的な出力に寄与する。 このアプローチは、ロバストなコンテンツモデレーションを必要とする大規模実装に対して、従来のLLMよりも効率的で、パフォーマンスが高く、経済的に代替手段を提供する。

We introduce JurEE, an ensemble of efficient, encoder-only transformer models designed to strengthen safeguards in AI-User interactions within LLM-based systems. Unlike existing LLM-as-Judge methods, which often struggle with generalization across risk taxonomies and only provide textual outputs, JurEE offers probabilistic risk estimates across a wide range of prevalent risks. Our approach leverages diverse data sources and employs progressive synthetic data generation techniques, including LLM-assisted augmentation, to enhance model robustness and performance. We create an in-house benchmark comprising of other reputable benchmarks such as the OpenAI Moderation Dataset and ToxicChat, where we find JurEE significantly outperforms baseline models, demonstrating superior accuracy, speed, and cost-efficiency. This makes it particularly suitable for applications requiring stringent content moderation, such as customer-facing chatbots. The encoder-ensemble's modular design allows users to set tailored risk thresholds, enhancing its versatility across various safety-related applications. JurEE's collective decision-making process, where each specialized encoder model contributes to the final output, not only improves predictive accuracy but also enhances interpretability. This approach provides a more efficient, performant, and economical alternative to traditional LLMs for large-scale implementations requiring robust content moderation.
翻訳日:2024-10-31 03:16:22 公開日:2024-10-14
# JurEE not judges:Safeguarding llm interaction with small, specialated Encoder Ensembles

JurEE not Judges: safeguarding llm interactions with small, specialised Encoder Ensembles ( http://arxiv.org/abs/2410.08442v2 )

ライセンス: Link先を確認
Dom Nasrabadi, (参考訳) 我々は、LLMシステム内のAI-ユーザインタラクションの保護を強化するために設計された、効率的なエンコーダのみのトランスフォーマーモデルの集合であるJurEEを紹介する。 LLM-as-Judgeの既存の手法とは異なり、リスク分類の一般化に苦慮し、テキスト出力のみを提供するのに対し、JurEEは広範囲の一般的なリスクに対する確率的リスク推定を提供する。 提案手法は,多種多様なデータソースを活用し,LLM支援強化を含む漸進的な合成データ生成技術を用いて,モデルロバスト性と性能を向上させる。 私たちは、OpenAI Moderation DatasetやToxicChatといった他の計算可能なベンチマークで構成された社内ベンチマークを作成し、JurEEがベースラインモデルを大幅に上回っており、精度、速度、コスト効率が優れています。 これは、顧客向けチャットボットのような厳しいコンテンツモデレーションを必要とするアプリケーションに特に適している。 エンコーダ・アンサンブルのモジュラー設計により、ユーザーはカスタマイズされたリスク閾値を設定することができ、様々な安全関連アプリケーションにまたがる汎用性を高めることができる。 JurEEの集合的意思決定プロセスでは、それぞれの特殊なエンコーダモデルが最終的な出力に寄与する。 このアプローチは、ロバストなコンテンツモデレーションを必要とする大規模実装に対して、従来のLLMよりも効率的で、パフォーマンスが高く、経済的に代替手段を提供する。

We introduce JurEE, an ensemble of efficient, encoder-only transformer models designed to strengthen safeguards in AI-User interactions within LLM-based systems. Unlike existing LLM-as-Judge methods, which often struggle with generalization across risk taxonomies and only provide textual outputs, JurEE offers probabilistic risk estimates across a wide range of prevalent risks. Our approach leverages diverse data sources and employs progressive synthetic data generation techniques, including LLM-assisted augmentation, to enhance model robustness and performance. We create an in-house benchmark comprising of other reputable benchmarks such as the OpenAI Moderation Dataset and ToxicChat, where we find JurEE significantly outperforms baseline models, demonstrating superior accuracy, speed, and cost-efficiency. This makes it particularly suitable for applications requiring stringent content moderation, such as customer-facing chatbots. The encoder-ensemble's modular design allows users to set tailored risk thresholds, enhancing its versatility across various safety-related applications. JurEE's collective decision-making process, where each specialized encoder model contributes to the final output, not only improves predictive accuracy but also enhances interpretability. This approach provides a more efficient, performant, and economical alternative to traditional LLMs for large-scale implementations requiring robust content moderation.
翻訳日:2024-10-31 03:16:22 公開日:2024-10-14
# フェデレーション型マルチモーダルレコメンデーションにおけるパーソナライズされた項目埋め込み

Personalized Item Embeddings in Federated Multimodal Recommendation ( http://arxiv.org/abs/2410.08478v1 )

ライセンス: Link先を確認
Zhiwei Li, Guodong Long, Jing Jiang, Chengqi Zhang, (参考訳) フェデレートされたレコメンデーションシステムは、ユーザのプライバシを保護する上で重要な役割を果たす。 しかし、既存の手法は主にIDベースのアイテム埋め込みに依存しており、アイテムの豊富なマルチモーダル情報を見下ろしている。 この制限に対処するため,FedMRと呼ばれる新しいFederated Multimodal Recommendation Systemを提案する。 FedMRは、サーバ側の基盤モデルを利用して、アイテムに関連する画像やテキストなどのマルチモーダルデータをエンコードする。 ユーザの好みの異なるデータの不均一性に対処するため、FedMRはMixing Feature Fusion Moduleをクライアントに導入した。 このモジュールは、ユーザインタラクション履歴に基づいて異なる融合戦略の重みを動的に調整し、きめ細かいユーザ好みをキャプチャするパーソナライズされたアイテム埋め込みを生成する。 FedMRは既存のIDベースのフェデレーションレコメンデーションシステムと互換性があり、オリジナルのフレームワークを変更することなくパフォーマンスを改善している。 実世界の4つのマルチモーダル・レコメンデーション・データセットに対する実験により,FedMRの有効性が示された。 私たちのコードはhttps://anonymous.4open.science/r/FedMRで利用可能です。

Federated recommendation systems play a crucial role in protecting user privacy. However, existing methods primarily rely on ID-based item embeddings, overlooking the rich multimodal information of items. To address this limitation, we propose a novel Federated Multimodal Recommendation System called FedMR. FedMR leverages a foundation model on the server side to encode multimodal data, such as images and text, associated with items. To tackle the challenge of data heterogeneity caused by varying user preferences, FedMR introduces a Mixing Feature Fusion Module on the client. This module dynamically adjusts the weights of different fusion strategies based on user interaction history, generating personalized item embeddings that capture fine-grained user preferences. FedMR is compatible with existing ID-based federated recommendation systems, improving their performances without modifying the original framework. Our experiments on four real-world multimodal recommendation datasets demonstrate the effectiveness of FedMR. Our code is available at https://anonymous.4open.science/r/FedMR.
翻訳日:2024-10-31 03:06:36 公開日:2024-10-14
# フェデレーション型マルチモーダルレコメンデーションにおけるパーソナライズされた項目表現

Personalized Item Representations in Federated Multimodal Recommendation ( http://arxiv.org/abs/2410.08478v2 )

ライセンス: Link先を確認
Zhiwei Li, Guodong Long, Jing Jiang, Chengqi Zhang, (参考訳) フェデレートされたレコメンデーションシステムは、ユーザのプライバシーを保護しながらパーソナライズされたレコメンデーションを提供するために不可欠である。 しかし、現在の手法は主にIDベースのアイテム埋め込みに依存しており、アイテムの豊富なマルチモーダル情報を無視している。 そこで我々はFedMRと呼ばれるFederated Multimodal Recommendation Systemを提案する。 FedMRは、画像やテキストなどのマルチモーダルアイテムデータをエンコードするために、サーバ上のファンデーションモデルを使用する。 ユーザの好みの違いによるデータの不均一性を処理するために、FedMRは各クライアントにMixing Feature Fusion Moduleを導入し、ユーザインタラクション履歴に基づいて融合戦略の重みを調整することで、ユーザの詳細な好みをキャプチャするパーソナライズされたアイテム表現を生成する。 FedMRは既存のIDベースのフェデレーションレコメンデーションシステムと互換性があり、オリジナルのフレームワークを変更することなくパフォーマンスを向上させる。 4つの実世界のマルチモーダルデータセットの実験は、FedMRの有効性を示している。 コードはhttps://anonymous.4open.science/r/FedMRで公開されている。

Federated recommendation systems are essential for providing personalized recommendations while protecting user privacy. However, current methods mainly rely on ID-based item embeddings, neglecting the rich multimodal information of items. To address this, we propose a Federated Multimodal Recommendation System, called FedMR. FedMR uses a foundation model on the server to encode multimodal item data, such as images and text. To handle data heterogeneity caused by user preference differences, FedMR introduces a Mixing Feature Fusion Module on each client, which adjusts fusion strategy weights based on user interaction history to generate personalized item representations that capture users' fine-grained preferences. FedMR is compatible with existing ID-based federated recommendation systems, improving performance without modifying the original framework. Experiments on four real-world multimodal datasets demonstrate FedMR's effectiveness. The code is available at https://anonymous.4open.science/r/FedMR.
翻訳日:2024-10-30 23:34:54 公開日:2024-10-14
# 拡散モデルを用いた単一LiDARセンサの歩行シーケンスアップサンプリング

Gait Sequence Upsampling using Diffusion Models for single LiDAR sensors ( http://arxiv.org/abs/2410.08680v1 )

ライセンス: Link先を確認
Jeongho Ahn, Kazuto Nakashima, Koki Yoshino, Yumi Iwashita, Ryo Kurazume, (参考訳) 近年、3D LiDARは、様々な照明条件下での頑丈さと3D幾何情報を捉える能力により、従来のRGBカメラに代わる歩行に基づく人物識別の分野で有望な技術として出現している。 しかし、長い捕獲距離や低コストのLiDARセンサーの使用は、しばしば人点雲が不足し、識別性能が低下する。 これらの課題に対処するため,既存の識別モデルの一般化能力を向上させるために,LiDARを用いた歩行認識システムLidarGSUを提案する。 本手法は拡散確率モデル (DPM) を用いて, 画像補完などの生成タスクにおいて高い忠実性を示す。 本研究は,映像間翻訳手法において,細かな歩行者点群を条件付きマスクとして利用し,ペンキを塗布する手法である。 提案手法では,SUSTeck1Kデータセットを用いて生成品質と認識性能の評価を行った。 さらに,測定距離の異なる低解像度センサを用いて,実世界のデータセットを用いて,我々のアップサンプリングモデルの適用性を実証した。

Recently, 3D LiDAR has emerged as a promising technique in the field of gait-based person identification, serving as an alternative to traditional RGB cameras, due to its robustness under varying lighting conditions and its ability to capture 3D geometric information. However, long capture distances or the use of low-cost LiDAR sensors often result in sparse human point clouds, leading to a decline in identification performance. To address these challenges, we propose a sparse-to-dense upsampling model for pedestrian point clouds in LiDAR-based gait recognition, named LidarGSU, which is designed to improve the generalization capability of existing identification models. Our method utilizes diffusion probabilistic models (DPMs), which have shown high fidelity in generative tasks such as image completion. In this work, we leverage DPMs on sparse sequential pedestrian point clouds as conditional masks in a video-to-video translation approach, applied in an inpainting manner. We conducted extensive experiments on the SUSTeck1K dataset to evaluate the generative quality and recognition performance of the proposed method. Furthermore, we demonstrate the applicability of our upsampling model using a real-world dataset, captured with a low-resolution sensor across varying measurement distances.
翻訳日:2024-10-30 22:35:12 公開日:2024-10-14
# 拡散モデルを用いた単一LiDARセンサの歩行シーケンスアップサンプリング

Gait Sequence Upsampling using Diffusion Models for Single LiDAR Sensors ( http://arxiv.org/abs/2410.08680v2 )

ライセンス: Link先を確認
Jeongho Ahn, Kazuto Nakashima, Koki Yoshino, Yumi Iwashita, Ryo Kurazume, (参考訳) 近年、3D LiDARは、様々な照明条件下での頑丈さと3D幾何情報を捉える能力により、従来のRGBカメラに代わる歩行に基づく人物識別の分野で有望な技術として出現している。 しかし、長い捕獲距離や低コストのLiDARセンサーの使用は、しばしば人点雲が不足し、識別性能が低下する。 これらの課題に対処するため,既存の識別モデルの一般化能力を向上させるために,LiDARを用いた歩行認識システムLidarGSUを提案する。 本手法は拡散確率モデル (DPM) を用いて, 画像補完などの生成タスクにおいて高い忠実性を示す。 本研究は,映像間翻訳手法において,細かな歩行者点群を条件付きマスクとして利用し,ペンキを塗布する手法である。 提案手法では,SUSTeck1Kデータセットを用いて生成品質と認識性能の評価を行った。 さらに,測定距離の異なる低解像度センサを用いて,実世界のデータセットを用いて,我々のアップサンプリングモデルの適用性を実証した。

Recently, 3D LiDAR has emerged as a promising technique in the field of gait-based person identification, serving as an alternative to traditional RGB cameras, due to its robustness under varying lighting conditions and its ability to capture 3D geometric information. However, long capture distances or the use of low-cost LiDAR sensors often result in sparse human point clouds, leading to a decline in identification performance. To address these challenges, we propose a sparse-to-dense upsampling model for pedestrian point clouds in LiDAR-based gait recognition, named LidarGSU, which is designed to improve the generalization capability of existing identification models. Our method utilizes diffusion probabilistic models (DPMs), which have shown high fidelity in generative tasks such as image completion. In this work, we leverage DPMs on sparse sequential pedestrian point clouds as conditional masks in a video-to-video translation approach, applied in an inpainting manner. We conducted extensive experiments on the SUSTeck1K dataset to evaluate the generative quality and recognition performance of the proposed method. Furthermore, we demonstrate the applicability of our upsampling model using a real-world dataset, captured with a low-resolution sensor across varying measurement distances.
翻訳日:2024-10-30 22:35:12 公開日:2024-10-14
# F2A: セキュリティ検出剤を利用したプロンプトインジェクションの革新的アプローチ

F2A: An Innovative Approach for Prompt Injection by Utilizing Feign Security Detection Agents ( http://arxiv.org/abs/2410.08776v1 )

ライセンス: Link先を確認
Yupeng Ren, (参考訳) LLM(Large Language Models)の急速な発展に伴い、コンテンツ安全性検出の分野において、LLMの成熟した応用が数多く現れている。 しかし,LLMは安全性検出剤に盲目な信頼を示すことが判明した。 一般のLSMは、この脆弱性によってハッカーによって侵入される可能性がある。 そこで本稿では,F2A(Feign Agent Attack)という攻撃手法を提案する。 このような悪意ある偽造手法により、偽の安全検出結果をプロンプトに加えることで、LSMの防御機構をバイパスし、有害な内容を取得し、正常な会話をハイジャックすることができる。 これらの実験では, LLMに対するF2Aのハイジャック能力を分析し, LLMが安全検出結果を盲目的に信頼する根本的な理由を考察した。 実験には、偽の安全検出結果がプロンプトに注入される様々なシナリオが含まれており、その反応は脆弱性の程度を理解するために密に監視された。 また, この攻撃に対する合理的な解決策として, LLMが有害物質の発生を防止するために, 補助剤の結果を批判的に評価することが重要であることを強調した。 これにより、信頼性とセキュリティが大幅に向上し、LDMをF2Aから保護することができる。

With the rapid development of Large Language Models (LLMs), numerous mature applications of LLMs have emerged in the field of content safety detection. However, we have found that LLMs exhibit blind trust in safety detection agents. The general LLMs can be compromised by hackers with this vulnerability. Hence, this paper proposed an attack named Feign Agent Attack (F2A).Through such malicious forgery methods, adding fake safety detection results into the prompt, the defense mechanism of LLMs can be bypassed, thereby obtaining harmful content and hijacking the normal conversation.Continually, a series of experiments were conducted. In these experiments, the hijacking capability of F2A on LLMs was analyzed and demonstrated, exploring the fundamental reasons why LLMs blindly trust safety detection results. The experiments involved various scenarios where fake safety detection results were injected into prompts, and the responses were closely monitored to understand the extent of the vulnerability. Also, this paper provided a reasonable solution to this attack, emphasizing that it is important for LLMs to critically evaluate the results of augmented agents to prevent the generating harmful content. By doing so, the reliability and security can be significantly improved, protecting the LLMs from F2A.
翻訳日:2024-10-30 22:05:43 公開日:2024-10-14
# F2A: セキュリティ検出剤を利用したプロンプトインジェクションの革新的アプローチ

F2A: An Innovative Approach for Prompt Injection by Utilizing Feign Security Detection Agents ( http://arxiv.org/abs/2410.08776v2 )

ライセンス: Link先を確認
Yupeng Ren, (参考訳) LLM(Large Language Models)の急速な発展に伴い、コンテンツ安全性検出の分野において、LLMの成熟した応用が数多く現れている。 しかし,LLMは安全性検出剤に盲目な信頼を示すことが判明した。 一般のLSMは、この脆弱性によってハッカーによって侵入される可能性がある。 そこで本稿では,F2A(Feign Agent Attack)という攻撃手法を提案する。 このような悪意ある偽造法により、偽の安全検出結果をプロンプトに付加することにより、LSMの防御機構をバイパスし、有害な内容を取得し、正常な会話をハイジャックすることができる。 その後も一連の実験が行われた。 これらの実験では, LLMに対するF2Aのハイジャック能力を分析し, LLMが安全検出結果を盲目的に信頼する根本的な理由を考察した。 実験には、偽の安全検出結果がプロンプトに注入される様々なシナリオが含まれており、その反応は脆弱性の程度を理解するために密に監視された。 また, この攻撃に対する合理的な解決策として, LLMが有害物質の発生を防止するために, 補助剤の結果を批判的に評価することが重要であることを強調した。 これにより、信頼性とセキュリティが大幅に向上し、LDMをF2Aから保護することができる。

With the rapid development of Large Language Models (LLMs), numerous mature applications of LLMs have emerged in the field of content safety detection. However, we have found that LLMs exhibit blind trust in safety detection agents. The general LLMs can be compromised by hackers with this vulnerability. Hence, this paper proposed an attack named Feign Agent Attack (F2A).Through such malicious forgery methods, adding fake safety detection results into the prompt, the defense mechanism of LLMs can be bypassed, thereby obtaining harmful content and hijacking the normal conversation. Continually, a series of experiments were conducted. In these experiments, the hijacking capability of F2A on LLMs was analyzed and demonstrated, exploring the fundamental reasons why LLMs blindly trust safety detection results. The experiments involved various scenarios where fake safety detection results were injected into prompts, and the responses were closely monitored to understand the extent of the vulnerability. Also, this paper provided a reasonable solution to this attack, emphasizing that it is important for LLMs to critically evaluate the results of augmented agents to prevent the generating harmful content. By doing so, the reliability and security can be significantly improved, protecting the LLMs from F2A.
翻訳日:2024-10-30 22:05:43 公開日:2024-10-14
# DCNet:DVLのためのデータ駆動フレームワーク

DCNet: A Data-Driven Framework for DVL ( http://arxiv.org/abs/2410.08809v1 )

ライセンス: Link先を確認
Zeev Yampolsky, Itzik Klein, (参考訳) 自律型水中車両(AUV)は、様々な用途で使用される水中ロボットプラットフォームである。 AUVのナビゲーションソリューションは、慣性センサーとドップラー速度ログ(DVL)の融合に大きく依存している。 正確な航法を保証するため、ミッションが始まる前にDVL校正が行われる。 キャリブレーション中、AUVは複雑な軌道を辿り、非線形推定フィルタを用いて誤差項を推定する。 本稿では,2次元畳み込みカーネルを革新的な方法で利用するデータ駆動型フレームワークDCNetを紹介する。 提案するDVLエラーモデルとDCNetを用いて,高速キャリブレーション手法を提案する。 これはほぼ一定速度の軌道に適用できる。 提案手法のトレーニングと試験には,実DVL記録データを用いた276分間のデータセットを使用した。 精度70%,キャリブレーション時間80%の精度向上を,低性能DVLを用いたベースラインアプローチと比較して実証した。 これらの改良により、低コストのDVLを使用するAUVは、精度が高く、校正時間が短くなり、簡単なほぼ一定速度校正軌道を適用することができる。 また, 低コストで高精度なDVLを用いた海洋ロボット工学の新たな応用を開拓した。

Autonomous underwater vehicles (AUVs) are underwater robotic platforms used in a variety of applications. An AUV's navigation solution relies heavily on the fusion of inertial sensors and Doppler velocity logs (DVL), where the latter delivers accurate velocity updates. To ensure accurate navigation, a DVL calibration is undertaken before the mission begins to estimate its error terms. During calibration, the AUV follows a complex trajectory and employs nonlinear estimation filters to estimate error terms. In this paper, we introduce DCNet, a data-driven framework that utilizes a two-dimensional convolution kernel in an innovative way. Using DCNet and our proposed DVL error model, we offer a rapid calibration procedure. This can be applied to a trajectory with a nearly constant velocity. To train and test our proposed approach a dataset of 276 minutes long with real DVL recorded measurements was used. We demonstrated an average improvement of 70% in accuracy and 80% improvement in calibration time, compared to the baseline approach, with a low-performance DVL. As a result of those improvements, an AUV employing a low-cost DVL, can achieve higher accuracy, shorter calibration time, and apply a simple nearly constant velocity calibration trajectory. Our results also open up new applications for marine robotics utilizing low-cost, high-accurate DVLs.
翻訳日:2024-10-30 21:55:57 公開日:2024-10-14
# DCNet:DVLキャリブレーションのためのデータ駆動フレームワーク

DCNet: A Data-Driven Framework for DVL Calibration ( http://arxiv.org/abs/2410.08809v2 )

ライセンス: Link先を確認
Zeev Yampolsky, Itzik Klein, (参考訳) 自律型水中車両(AUV)は、様々な用途で使用される水中ロボットプラットフォームである。 AUVのナビゲーションソリューションは、慣性センサーとドップラー速度ログ(DVL)の融合に大きく依存している。 正確な航法を保証するため、ミッションが始まる前にDVL校正が行われる。 キャリブレーション中、AUVは複雑な軌道を辿り、非線形推定フィルタを用いて誤差項を推定する。 本稿では,2次元畳み込みカーネルを革新的な方法で利用するデータ駆動型フレームワークDCNetを紹介する。 提案するDVLエラーモデルとDCNetを用いて,高速キャリブレーション手法を提案する。 これはほぼ一定速度の軌道に適用できる。 提案手法のトレーニングと試験には,実DVL記録データを用いた276分間のデータセットを使用した。 精度70%,キャリブレーション時間80%の精度向上を,低性能DVLを用いたベースラインアプローチと比較して実証した。 これらの改良により、低コストのDVLを使用するAUVは、精度が高く、校正時間が短くなり、簡単なほぼ一定速度校正軌道を適用することができる。 また, 低コストで高精度なDVLを用いた海洋ロボット工学の新たな応用を開拓した。

Autonomous underwater vehicles (AUVs) are underwater robotic platforms used in a variety of applications. An AUV's navigation solution relies heavily on the fusion of inertial sensors and Doppler velocity logs (DVL), where the latter delivers accurate velocity updates. To ensure accurate navigation, a DVL calibration is undertaken before the mission begins to estimate its error terms. During calibration, the AUV follows a complex trajectory and employs nonlinear estimation filters to estimate error terms. In this paper, we introduce DCNet, a data-driven framework that utilizes a two-dimensional convolution kernel in an innovative way. Using DCNet and our proposed DVL error model, we offer a rapid calibration procedure. This can be applied to a trajectory with a nearly constant velocity. To train and test our proposed approach a dataset of 276 minutes long with real DVL recorded measurements was used. We demonstrated an average improvement of 70% in accuracy and 80% improvement in calibration time, compared to the baseline approach, with a low-performance DVL. As a result of those improvements, an AUV employing a low-cost DVL, can achieve higher accuracy, shorter calibration time, and apply a simple nearly constant velocity calibration trajectory. Our results also open up new applications for marine robotics utilizing low-cost, high-accurate DVLs.
翻訳日:2024-10-30 21:55:57 公開日:2024-10-14
# LIME-Eval:オブジェクト検出による低照度画像強調評価の再考

LIME-Eval: Rethinking Low-light Image Enhancement Evaluation via Object Detection ( http://arxiv.org/abs/2410.08810v1 )

ライセンス: Link先を確認
Mingjia Li, Hao Zhao, Xiaojie Guo, (参考訳) 近年,低照度画像強調の性能評価に高精細度視覚タスクが採用されている。 広範に使われている手法は、アノテーション付きセマンティックラベルに対して、異なる候補によって強化された低照度画像に基づいてトレーニングされたオブジェクト検出器が、どの程度正確に実行できるかを確認することである。 本稿では, 上記の手法が一般に過度に適合する傾向にあり, 測定信頼性を低下させることを示す。 適切な評価基準を求めるために,LIME-Benchを提案する。LIME-Benchは低照度化のための人間の嗜好を収集するための最初のオンラインベンチマークプラットフォームであり,人間の知覚と自動評価指標の相関を検証するための貴重なデータセットを提供する。 LIME-Evalは、オブジェクトアノテーションを使わずに標準照明データセット上で事前訓練された検出器を利用して、画像の品質を判断する新しい評価フレームワークである。 出力信頼マップの精度を評価するためのエネルギーベースの戦略を採用することで、LIME-Evalは再学習検出器に関連するバイアスを同時に回避し、ディム画像のアノテーションへの依存を回避することができる。 LIME-Evalの有効性を明らかにするため、総合的な実験を行った。 私たちのベンチマークプラットフォーム(https://huggingface.co/spaces/lime-j/eval)とコード(https://github.com/lime-j/lime-eval)はオンラインで利用可能です。

Due to the nature of enhancement--the absence of paired ground-truth information, high-level vision tasks have been recently employed to evaluate the performance of low-light image enhancement. A widely-used manner is to see how accurately an object detector trained on enhanced low-light images by different candidates can perform with respect to annotated semantic labels. In this paper, we first demonstrate that the mentioned approach is generally prone to overfitting, and thus diminishes its measurement reliability. In search of a proper evaluation metric, we propose LIME-Bench, the first online benchmark platform designed to collect human preferences for low-light enhancement, providing a valuable dataset for validating the correlation between human perception and automated evaluation metrics. We then customize LIME-Eval, a novel evaluation framework that utilizes detectors pre-trained on standard-lighting datasets without object annotations, to judge the quality of enhanced images. By adopting an energy-based strategy to assess the accuracy of output confidence maps, our LIME-Eval can simultaneously bypass biases associated with retraining detectors and circumvent the reliance on annotations for dim images. Comprehensive experiments are provided to reveal the effectiveness of our LIME-Eval. Our benchmark platform (https://huggingface.co/spaces/lime-j/eval) and code (https://github.com/lime-j/lime-eval) are available online.
翻訳日:2024-10-30 21:55:57 公開日:2024-10-14
# LIME-Eval:オブジェクト検出による低照度画像強調評価の再考

LIME-Eval: Rethinking Low-light Image Enhancement Evaluation via Object Detection ( http://arxiv.org/abs/2410.08810v2 )

ライセンス: Link先を確認
Mingjia Li, Hao Zhao, Xiaojie Guo, (参考訳) 近年,低照度画像強調の性能評価に高精細度視覚タスクが採用されている。 広範に使われている手法は、アノテーション付きセマンティックラベルに対して、異なる候補によって強化された低照度画像に基づいてトレーニングされたオブジェクト検出器が、どの程度正確に実行できるかを確認することである。 本稿では, 上記の手法が一般に過度に適合する傾向にあり, 測定信頼性を低下させることを示す。 適切な評価基準を求めるために,LIME-Benchを提案する。LIME-Benchは低照度化のための人間の嗜好を収集するための最初のオンラインベンチマークプラットフォームであり,人間の知覚と自動評価指標の相関を検証するための貴重なデータセットを提供する。 LIME-Evalは、オブジェクトアノテーションを使わずに標準照明データセット上で事前訓練された検出器を利用して、画像の品質を判断する新しい評価フレームワークである。 出力信頼マップの精度を評価するためのエネルギーベースの戦略を採用することで、LIME-Evalは再学習検出器に関連するバイアスを同時に回避し、ディム画像のアノテーションへの依存を回避することができる。 LIME-Evalの有効性を明らかにするため、総合的な実験を行った。 私たちのベンチマークプラットフォーム(https://huggingface.co/spaces/lime-j/eval)とコード(https://github.com/lime-j/lime-eval)はオンラインで利用可能です。

Due to the nature of enhancement--the absence of paired ground-truth information, high-level vision tasks have been recently employed to evaluate the performance of low-light image enhancement. A widely-used manner is to see how accurately an object detector trained on enhanced low-light images by different candidates can perform with respect to annotated semantic labels. In this paper, we first demonstrate that the mentioned approach is generally prone to overfitting, and thus diminishes its measurement reliability. In search of a proper evaluation metric, we propose LIME-Bench, the first online benchmark platform designed to collect human preferences for low-light enhancement, providing a valuable dataset for validating the correlation between human perception and automated evaluation metrics. We then customize LIME-Eval, a novel evaluation framework that utilizes detectors pre-trained on standard-lighting datasets without object annotations, to judge the quality of enhanced images. By adopting an energy-based strategy to assess the accuracy of output confidence maps, our LIME-Eval can simultaneously bypass biases associated with retraining detectors and circumvent the reliance on annotations for dim images. Comprehensive experiments are provided to reveal the effectiveness of our LIME-Eval. Our benchmark platform (https://huggingface.co/spaces/lime-j/eval) and code (https://github.com/lime-j/lime-eval) are available online.
翻訳日:2024-10-30 21:55:57 公開日:2024-10-14
# LLMのアノテーションのデフォルトはどのデモグラフィックですか?

Which Demographics do LLMs Default to During Annotation? ( http://arxiv.org/abs/2410.08820v1 )

ライセンス: Link先を確認
Christopher Bagdon, Aidan Combs, Lynn Greschner, Roman Klinger, Jiahui Li, Sean Papay, Nadine Probol, Yarik Menchaca Resendiz, Johannes Schäfer, Aswathy Velutharambath, Sabine Weber, Amelie Wührl, (参考訳) 例えば、年配の女性が「兄弟」に宛てたメッセージを読むのを不快に感じるかもしれないが、男性の10代の若者はそれを適切だと感じるかもしれない。 したがって、ラベルのバリエーションが社会の過小評価されていないことを認識することが重要である。 2つの研究方向は,データアノテーションに大規模言語モデル (LLM) を用いることで,(1) LLMのバイアスや固有知識の研究,(2) 人口統計情報でプロンプトを操作することによって出力に多様性を注入すること,の2点から生まれた。 これらの2つの研究を組み合わせ、LLMがどの人口層を、いつ人口層が与えられないのかを問う。 この問いに答えるために、人間のアノテータLLMのどの属性が本質的に模倣されているかを評価する。 また、非デマトグラフィー条件のプロンプトとプラセボ条件のプロンプト(例:5番住まいのアノテーター)と人口動態のプロンプト(例:45歳、礼儀正しいアノテーションの専門家)を比較した。 これまでにLLMに基づく分析に使用されていない人口統計に基づく人名ラベルの変動を調べるために,制御された方法で作成したコーパスであるPOPQUORNデータセットの丁寧さと攻撃性アノテーションについて検討した。 我々は、性別、人種、年齢に関連する顕著な影響を、従来の研究と対照的に観察し、そのような影響は見つからなかった。

Demographics and cultural background of annotators influence the labels they assign in text annotation -- for instance, an elderly woman might find it offensive to read a message addressed to a "bro", but a male teenager might find it appropriate. It is therefore important to acknowledge label variations to not under-represent members of a society. Two research directions developed out of this observation in the context of using large language models (LLM) for data annotations, namely (1) studying biases and inherent knowledge of LLMs and (2) injecting diversity in the output by manipulating the prompt with demographic information. We combine these two strands of research and ask the question to which demographics an LLM resorts to when no demographics is given. To answer this question, we evaluate which attributes of human annotators LLMs inherently mimic. Furthermore, we compare non-demographic conditioned prompts and placebo-conditioned prompts (e.g., "you are an annotator who lives in house number 5") to demographics-conditioned prompts ("You are a 45 year old man and an expert on politeness annotation. How do you rate {instance}"). We study these questions for politeness and offensiveness annotations on the POPQUORN data set, a corpus created in a controlled manner to investigate human label variations based on demographics which has not been used for LLM-based analyses so far. We observe notable influences related to gender, race, and age in demographic prompting, which contrasts with previous studies that found no such effects.
翻訳日:2024-10-30 21:45:38 公開日:2024-10-14
# LLMのアノテーションのデフォルトはどのデモグラフィックですか?

Which Demographics do LLMs Default to During Annotation? ( http://arxiv.org/abs/2410.08820v2 )

ライセンス: Link先を確認
Johannes Schäfer, Aidan Combs, Christopher Bagdon, Jiahui Li, Nadine Probol, Lynn Greschner, Sean Papay, Yarik Menchaca Resendiz, Aswathy Velutharambath, Amelie Wührl, Sabine Weber, Roman Klinger, (参考訳) 例えば、年配の女性が「兄弟」に宛てたメッセージを読むのを不快に感じるかもしれないが、男性の10代の若者はそれを適切だと感じるかもしれない。 したがって、ラベルのバリエーションが社会の過小評価されていないことを認識することが重要である。 2つの研究方向は,データアノテーションに大規模言語モデル (LLM) を用いることで,(1) LLMのバイアスや固有知識の研究,(2) 人口統計情報でプロンプトを操作することによって出力に多様性を注入すること,の2点から生まれた。 これらの2つの研究を組み合わせ、LLMがどの人口層を、いつ人口層が与えられないのかを問う。 この問いに答えるために、人間のアノテータLLMのどの属性が本質的に模倣されているかを評価する。 また、非デマトグラフィー条件のプロンプトとプラセボ条件のプロンプト(例:5番住まいのアノテーター)と人口動態のプロンプト(例:45歳、礼儀正しいアノテーションの専門家)を比較した。 これまでにLLMに基づく分析に使用されていない人口統計に基づく人名ラベルの変動を調べるために,制御された方法で作成したコーパスであるPOPQUORNデータセットの丁寧さと攻撃性アノテーションについて検討した。 我々は、性別、人種、年齢に関連する顕著な影響を、従来の研究と対照的に観察し、そのような影響は見つからなかった。

Demographics and cultural background of annotators influence the labels they assign in text annotation -- for instance, an elderly woman might find it offensive to read a message addressed to a "bro", but a male teenager might find it appropriate. It is therefore important to acknowledge label variations to not under-represent members of a society. Two research directions developed out of this observation in the context of using large language models (LLM) for data annotations, namely (1) studying biases and inherent knowledge of LLMs and (2) injecting diversity in the output by manipulating the prompt with demographic information. We combine these two strands of research and ask the question to which demographics an LLM resorts to when no demographics is given. To answer this question, we evaluate which attributes of human annotators LLMs inherently mimic. Furthermore, we compare non-demographic conditioned prompts and placebo-conditioned prompts (e.g., "you are an annotator who lives in house number 5") to demographics-conditioned prompts ("You are a 45 year old man and an expert on politeness annotation. How do you rate {instance}"). We study these questions for politeness and offensiveness annotations on the POPQUORN data set, a corpus created in a controlled manner to investigate human label variations based on demographics which has not been used for LLM-based analyses so far. We observe notable influences related to gender, race, and age in demographic prompting, which contrasts with previous studies that found no such effects.
翻訳日:2024-10-30 21:45:38 公開日:2024-10-14
# インドネシア語自動音声認識の強化:多言語モデルの評価

Enhancing Indonesian Automatic Speech Recognition: Evaluating Multilingual Models with Diverse Speech Variabilities ( http://arxiv.org/abs/2410.08828v1 )

ライセンス: Link先を確認
Aulia Adila, Dessi Lestari, Ayu Purwarianti, Dipta Tanaya, Kurniawati Azizah, Sakriani Sakti, (参考訳) 理想的な音声認識モデルは、話し方(読み・自発)、話し方(形式・非公式)、背景雑音条件(クリーン・中等)など、音声信号の様々な特性の下で、正確に音声を転写する能力を有する。 このようなモデルを構築するには、多様な音声特性を持つ大量のトレーニングデータが必要である。 現在、インドネシアのデータは読み書き、フォーマル、クリーンなスピーチに支配されており、他の言語変異を伴うインドネシアのデータの不足につながっている。 インドネシア語自動音声認識(ASR)を開発するために,MMS(Massively Multilingual Speech)とWhisper(Whisper)という最先端の音声認識モデルについて検討し,インドネシア語を多変量で構成したデータセットをコンパイルし,学習を容易にする。 さらに,異なる変動群間でインドネシア語の音声データを転写するモデルの予測能力について検討する。 単語誤り率 (WER) と文字誤り率 (CER) の減少が示すように, 様々な特徴を持つデータセット間でWhisperの微調整モデルにより最良の結果が得られた。 さらに,発話スタイルの変動がモデル性能に最も影響していることが判明した。

An ideal speech recognition model has the capability to transcribe speech accurately under various characteristics of speech signals, such as speaking style (read and spontaneous), speech context (formal and informal), and background noise conditions (clean and moderate). Building such a model requires a significant amount of training data with diverse speech characteristics. Currently, Indonesian data is dominated by read, formal, and clean speech, leading to a scarcity of Indonesian data with other speech variabilities. To develop Indonesian automatic speech recognition (ASR), we present our research on state-of-the-art speech recognition models, namely Massively Multilingual Speech (MMS) and Whisper, as well as compiling a dataset comprising Indonesian speech with variabilities to facilitate our study. We further investigate the models' predictive ability to transcribe Indonesian speech data across different variability groups. The best results were achieved by the Whisper fine-tuned model across datasets with various characteristics, as indicated by the decrease in word error rate (WER) and character error rate (CER). Moreover, we found that speaking style variability affected model performance the most.
翻訳日:2024-10-30 21:45:38 公開日:2024-10-14
# インドネシア語自動音声認識の強化:多言語モデルの評価

Enhancing Indonesian Automatic Speech Recognition: Evaluating Multilingual Models with Diverse Speech Variabilities ( http://arxiv.org/abs/2410.08828v2 )

ライセンス: Link先を確認
Aulia Adila, Dessi Lestari, Ayu Purwarianti, Dipta Tanaya, Kurniawati Azizah, Sakriani Sakti, (参考訳) 理想的な音声認識モデルは、話し方(読み・自発)、話し方(形式・非公式)、背景雑音条件(クリーン・中等)など、音声信号の様々な特性の下で、正確に音声を転写する能力を有する。 このようなモデルを構築するには、多様な音声特性を持つ大量のトレーニングデータが必要である。 現在、インドネシアのデータは読み書き、フォーマル、クリーンなスピーチに支配されており、他の言語変異を伴うインドネシアのデータの不足につながっている。 インドネシア語自動音声認識(ASR)を開発するために,MMS(Massively Multilingual Speech)とWhisper(Whisper)という最先端の音声認識モデルについて検討し,インドネシア語を多変量で構成したデータセットをコンパイルし,学習を容易にする。 さらに,異なる変動群間でインドネシア語の音声データを転写するモデルの予測能力について検討する。 単語誤り率 (WER) と文字誤り率 (CER) の減少が示すように, 様々な特徴を持つデータセット間でWhisperの微調整モデルにより最良の結果が得られた。 さらに,発話スタイルの変動がモデル性能に最も影響していることが判明した。

An ideal speech recognition model has the capability to transcribe speech accurately under various characteristics of speech signals, such as speaking style (read and spontaneous), speech context (formal and informal), and background noise conditions (clean and moderate). Building such a model requires a significant amount of training data with diverse speech characteristics. Currently, Indonesian data is dominated by read, formal, and clean speech, leading to a scarcity of Indonesian data with other speech variabilities. To develop Indonesian automatic speech recognition (ASR), we present our research on state-of-the-art speech recognition models, namely Massively Multilingual Speech (MMS) and Whisper, as well as compiling a dataset comprising Indonesian speech with variabilities to facilitate our study. We further investigate the models' predictive ability to transcribe Indonesian speech data across different variability groups. The best results were achieved by the Whisper fine-tuned model across datasets with various characteristics, as indicated by the decrease in word error rate (WER) and character error rate (CER). Moreover, we found that speaking style variability affected model performance the most.
翻訳日:2024-10-30 21:45:38 公開日:2024-10-14
# 非意図的不整合:直接選好最適化における相違

Unintentional Unalignment: Likelihood Displacement in Direct Preference Optimization ( http://arxiv.org/abs/2410.08847v1 )

ライセンス: Link先を確認
Noam Razin, Sadhika Malladi, Adithya Bhaskar, Danqi Chen, Sanjeev Arora, Boris Hanin, (参考訳) 直接選好最適化(DPO)とその変種は、言語モデルと人間の選好の整合化にますます利用されている。 これらの方法は、好ましくない反応に対してより頻繁に好ましくない反応を生成するためのモデルを教えるために設計されているが、以前の研究では、好ましくない反応が訓練中に減少する可能性がしばしばある。 現在の研究は、この反直観的現象の原因と含意について光を当てている。 確率変位は破滅的になりうることを示し、確率質量を好ましくない反応から反対の意味の反応へとシフトさせる。 単純な例として、モデルに$\texttt{No}$ over $\texttt{Never}$を推奨するようにトレーニングすると、$\texttt{Yes}$の確率が急上昇する。 さらに、モデルが安全でないプロンプトを拒否するように調整すると、そのような変位が意図しない不整合を招きうることを示す(例えば、Llama-3-8B-インストラクトの拒絶率を74.4%から33.4%に下げる)。 確率変位は、中央埋込類似度(CHES)スコアによって測定されるように、類似の埋込を誘導する嗜好によって引き起こされると理論的に特徴づける。 経験的に、CHESスコアは、与えられたデータセットにおいて、どのトレーニングサンプルが最も寄与するかを識別することを可能にする。 これらのサンプルのフィルタリングは、我々の実験で意図しない不一致を効果的に軽減した。 より広範に、我々の結果は十分に異なる選好でデータをキュレートすることの重要性を強調しており、これはCHESスコアが有益であると信じている。

Direct Preference Optimization (DPO) and its variants are increasingly used for aligning language models with human preferences. Although these methods are designed to teach a model to generate preferred responses more frequently relative to dispreferred responses, prior work has observed that the likelihood of preferred responses often decreases during training. The current work sheds light on the causes and implications of this counter-intuitive phenomenon, which we term likelihood displacement. We demonstrate that likelihood displacement can be catastrophic, shifting probability mass from preferred responses to responses with an opposite meaning. As a simple example, training a model to prefer $\texttt{No}$ over $\texttt{Never}$ can sharply increase the probability of $\texttt{Yes}$. Moreover, when aligning the model to refuse unsafe prompts, we show that such displacement can unintentionally lead to unalignment, by shifting probability mass from preferred refusal responses to harmful responses (e.g., reducing the refusal rate of Llama-3-8B-Instruct from 74.4% to 33.4%). We theoretically characterize that likelihood displacement is driven by preferences that induce similar embeddings, as measured by a centered hidden embedding similarity (CHES) score. Empirically, the CHES score enables identifying which training samples contribute most to likelihood displacement in a given dataset. Filtering out these samples effectively mitigated unintentional unalignment in our experiments. More broadly, our results highlight the importance of curating data with sufficiently distinct preferences, for which we believe the CHES score may prove valuable.
翻訳日:2024-10-30 21:35:51 公開日:2024-10-14
# 非意図的不整合:直接選好最適化における相違

Unintentional Unalignment: Likelihood Displacement in Direct Preference Optimization ( http://arxiv.org/abs/2410.08847v2 )

ライセンス: Link先を確認
Noam Razin, Sadhika Malladi, Adithya Bhaskar, Danqi Chen, Sanjeev Arora, Boris Hanin, (参考訳) 直接選好最適化(DPO)とその変種は、言語モデルと人間の選好の整合化にますます利用されている。 これらの方法は、好ましくない反応に対してより頻繁に好ましくない反応を生成するためのモデルを教えるために設計されているが、以前の研究では、好ましくない反応が訓練中に減少する可能性がしばしばある。 現在の研究は、この反直観的現象の原因と含意について光を当てている。 確率変位は破滅的になりうることを示し、確率質量を好ましくない反応から反対の意味の反応へとシフトさせる。 単純な例として、モデルに$\texttt{No}$ over $\texttt{Never}$を推奨するようにトレーニングすると、$\texttt{Yes}$の確率が急上昇する。 さらに、モデルが安全でないプロンプトを拒否するように調整すると、そのような変位が意図しない不整合を招きうることを示す(例えば、Llama-3-8B-インストラクトの拒絶率を74.4%から33.4%に下げる)。 確率変位は、中央埋込類似度(CHES)スコアによって測定されるように、類似の埋込を誘導する嗜好によって引き起こされると理論的に特徴づける。 経験的に、CHESスコアは、与えられたデータセットにおいて、どのトレーニングサンプルが最も寄与するかを識別することを可能にする。 これらのサンプルのフィルタリングは、我々の実験で意図しない不一致を効果的に軽減した。 より広範に、我々の結果は十分に異なる選好でデータをキュレートすることの重要性を強調しており、これはCHESスコアが有益であると信じている。

Direct Preference Optimization (DPO) and its variants are increasingly used for aligning language models with human preferences. Although these methods are designed to teach a model to generate preferred responses more frequently relative to dispreferred responses, prior work has observed that the likelihood of preferred responses often decreases during training. The current work sheds light on the causes and implications of this counter-intuitive phenomenon, which we term likelihood displacement. We demonstrate that likelihood displacement can be catastrophic, shifting probability mass from preferred responses to responses with an opposite meaning. As a simple example, training a model to prefer $\texttt{No}$ over $\texttt{Never}$ can sharply increase the probability of $\texttt{Yes}$. Moreover, when aligning the model to refuse unsafe prompts, we show that such displacement can unintentionally lead to unalignment, by shifting probability mass from preferred refusal responses to harmful responses (e.g., reducing the refusal rate of Llama-3-8B-Instruct from 74.4% to 33.4%). We theoretically characterize that likelihood displacement is driven by preferences that induce similar embeddings, as measured by a centered hidden embedding similarity (CHES) score. Empirically, the CHES score enables identifying which training samples contribute most to likelihood displacement in a given dataset. Filtering out these samples effectively mitigated unintentional unalignment in our experiments. More broadly, our results highlight the importance of curating data with sufficiently distinct preferences, for which we believe the CHES score may prove valuable.
翻訳日:2024-10-30 21:35:51 公開日:2024-10-14
# 一般的なホップは可能か?ホッパー環境を用いたベンチマーク選択と設計の議論

Can we hop in general? A discussion of benchmark selection and design using the Hopper environment ( http://arxiv.org/abs/2410.08870v1 )

ライセンス: Link先を確認
Claas A Voelcker, Marcel Hussing, Marcel Hussing, (参考訳) 経験的、ベンチマーク駆動テストは、現在のRLコミュニティの基本的なパラダイムです。 強化学習(RL)研究における既成ベンチマークの使用は一般的な慣行であるが、この選択はめったに議論されない。 ベンチマークの選択は、しばしば「足のロボット」や「視覚観察」といった直感的なアイデアに基づいて行われる。 本稿では,RLのベンチマークを科学分野として扱う必要があると論じる。 本論では,標準ベンチマークスイートの選択がアルゴリズムの性能の判断方法を大きく変えることができることを示すため,Hopper環境の異なる変種に関するケーススタディを示す。 この分野は、異なるホッパー環境が何を代表しているかという結束的な概念を持っていない。 ベンチマークの選択は一般的には正当化されないし、特定の環境の選択を正当化するのに使える言語も存在しない。 本稿では、ベンチマークの適切な議論と評価の要件について議論し、この目標に向けて対話を開始するためのステップを推奨する。

Empirical, benchmark-driven testing is a fundamental paradigm in the current RL community. While using off-the-shelf benchmarks in reinforcement learning (RL) research is a common practice, this choice is rarely discussed. Benchmark choices are often done based on intuitive ideas like "legged robots" or "visual observations". In this paper, we argue that benchmarking in RL needs to be treated as a scientific discipline itself. To illustrate our point, we present a case study on different variants of the Hopper environment to show that the selection of standard benchmarking suites can drastically change how we judge performance of algorithms. The field does not have a cohesive notion of what the different Hopper environments are representative - they do not even seem to be representative of each other. Our experimental results suggests a larger issue in the deep RL literature: benchmark choices are neither commonly justified, nor does there exist a language that could be used to justify the selection of certain environments. This paper concludes with a discussion of the requirements for proper discussion and evaluations of benchmarks and recommends steps to start a dialogue towards this goal.
翻訳日:2024-10-30 21:26:05 公開日:2024-10-14
# 一般的なホップは可能か?ホッパー環境を用いたベンチマーク選択と設計の議論

Can we hop in general? A discussion of benchmark selection and design using the Hopper environment ( http://arxiv.org/abs/2410.08870v2 )

ライセンス: Link先を確認
Claas A Voelcker, Marcel Hussing, Eric Eaton, (参考訳) 経験的、ベンチマーク駆動テストは、現在のRLコミュニティの基本的なパラダイムです。 強化学習(RL)研究における既成ベンチマークの使用は一般的な慣行であるが、この選択はめったに議論されない。 ベンチマークの選択は、しばしば「足のロボット」や「視覚観察」といった直感的なアイデアに基づいて行われる。 本稿では,RLのベンチマークを科学分野として扱う必要があると論じる。 本論では,標準ベンチマークスイートの選択がアルゴリズムの性能の判断方法を大きく変えることができることを示すため,Hopper環境の異なる変種に関するケーススタディを示す。 この分野は、異なるホッパー環境が何を代表しているかという結束的な概念を持っていない。 ベンチマークの選択は一般的には正当化されないし、特定の環境の選択を正当化するのに使える言語も存在しない。 本稿では、ベンチマークの適切な議論と評価の要件について議論し、この目標に向けて対話を開始するためのステップを推奨する。

Empirical, benchmark-driven testing is a fundamental paradigm in the current RL community. While using off-the-shelf benchmarks in reinforcement learning (RL) research is a common practice, this choice is rarely discussed. Benchmark choices are often done based on intuitive ideas like "legged robots" or "visual observations". In this paper, we argue that benchmarking in RL needs to be treated as a scientific discipline itself. To illustrate our point, we present a case study on different variants of the Hopper environment to show that the selection of standard benchmarking suites can drastically change how we judge performance of algorithms. The field does not have a cohesive notion of what the different Hopper environments are representative - they do not even seem to be representative of each other. Our experimental results suggests a larger issue in the deep RL literature: benchmark choices are neither commonly justified, nor does there exist a language that could be used to justify the selection of certain environments. This paper concludes with a discussion of the requirements for proper discussion and evaluations of benchmarks and recommends steps to start a dialogue towards this goal.
翻訳日:2024-10-30 21:26:05 公開日:2024-10-14
# RoRA-VLM:ロバスト検索拡張ビジョン言語モデル

RoRA-VLM: Robust Retrieval-Augmented Vision Language Models ( http://arxiv.org/abs/2410.08876v1 )

ライセンス: Link先を確認
Jingyuan Qi, Zhiyang Xu, Rulin Shao, Yang Chen, Jing Di, Yu Cheng, Qifan Wang, Lifu Huang, (参考訳) 現在の視覚言語モデル(VLM)は、視覚オブジェクトとシーン間のすべての関連を、対応するエンティティや背景知識に正確にエンコードする難しさから、知識集約的なタスクにおいて、パフォーマンスが劣っている。 検索強化手法は,外部知識を効率的に統合する手段を提供する一方で,(1)視覚言語領域に拡張することで,(1)マルチモーダルクエリにおける固有な不一致による外部ソースからの関連情報を正確に検索し,(2)検索したマルチモーダル知識スニペットに含まれる無関係で外在的かつノイズの多い情報に耐性を持つという,ユニークな課題を提示する。 本研究は, VLMに特化された新規で堅牢な検索拡張フレームワークであるRORA-VLMを紹介し,(1)検索における視覚的およびテキスト的情報を相乗的に結合し,最も関連性の高いマルチモーダル知識スニペットを検索するための2段階の検索プロセス,(2)検索対象の学習プロセスに対向ノイズを注入することにより,検索対象のマルチモーダル知識における無関係な情報に対するVLMのレジリエンスを強化するロバストな検索拡張手法,および,画像に提示される非関連エンティティなどの外部視覚情報をクエリ指向のビジュアルコンストラクション戦略によりフィルタリングする。 提案手法の有効性とロバスト性を,広く採用されている3つのベンチマークデータセット上で検証する。 その結果、RORA-VLMは最小限のトレーニングインスタンスで、ベースモデルが大幅な性能向上を実現し、全てのベンチマークで常に最先端の検索拡張VLMを上回りながら、新たなゼロショットドメイン転送能力を示すことを示した。

Current vision-language models (VLMs) still exhibit inferior performance on knowledge-intensive tasks, primarily due to the challenge of accurately encoding all the associations between visual objects and scenes to their corresponding entities and background knowledge. While retrieval augmentation methods offer an efficient way to integrate external knowledge, extending them to vision-language domain presents unique challenges in (1) precisely retrieving relevant information from external sources due to the inherent discrepancy within the multimodal queries, and (2) being resilient to the irrelevant, extraneous and noisy information contained in the retrieved multimodal knowledge snippets. In this work, we introduce RORA-VLM, a novel and robust retrieval augmentation framework specifically tailored for VLMs, with two key innovations: (1) a 2-stage retrieval process with image-anchored textual-query expansion to synergistically combine the visual and textual information in the query and retrieve the most relevant multimodal knowledge snippets; and (2) a robust retrieval augmentation method that strengthens the resilience of VLMs against irrelevant information in the retrieved multimodal knowledge by injecting adversarial noises into the retrieval-augmented training process, and filters out extraneous visual information, such as unrelated entities presented in images, via a query-oriented visual token refinement strategy. We conduct extensive experiments to validate the effectiveness and robustness of our proposed methods on three widely adopted benchmark datasets. Our results demonstrate that with a minimal amount of training instance, RORA-VLM enables the base model to achieve significant performance improvement and constantly outperform state-of-the-art retrieval-augmented VLMs on all benchmarks while also exhibiting a novel zero-shot domain transfer capability.
翻訳日:2024-10-30 21:26:05 公開日:2024-10-14
# RoRA-VLM:ロバスト検索拡張ビジョン言語モデル

RoRA-VLM: Robust Retrieval-Augmented Vision Language Models ( http://arxiv.org/abs/2410.08876v2 )

ライセンス: Link先を確認
Jingyuan Qi, Zhiyang Xu, Rulin Shao, Yang Chen, Jin Di, Yu Cheng, Qifan Wang, Lifu Huang, (参考訳) 現在の視覚言語モデル(VLM)は、視覚オブジェクトとシーン間のすべての関連を、対応するエンティティや背景知識に正確にエンコードする難しさから、知識集約的なタスクにおいて、パフォーマンスが劣っている。 検索強化手法は,外部知識を効率的に統合する手段を提供する一方で,(1)視覚言語領域に拡張することで,(1)マルチモーダルクエリにおける固有な不一致による外部ソースからの関連情報を正確に検索し,(2)検索したマルチモーダル知識スニペットに含まれる無関係で外在的かつノイズの多い情報に耐性を持つという,ユニークな課題を提示する。 本研究は, VLMに特化された新規で堅牢な検索拡張フレームワークであるRORA-VLMを紹介し,(1)検索における視覚的およびテキスト的情報を相乗的に結合し,最も関連性の高いマルチモーダル知識スニペットを検索するための2段階の検索プロセス,(2)検索対象の学習プロセスに対向ノイズを注入することにより,検索対象のマルチモーダル知識における無関係な情報に対するVLMのレジリエンスを強化するロバストな検索拡張手法,および,画像に提示される非関連エンティティなどの外部視覚情報をクエリ指向のビジュアルコンストラクション戦略によりフィルタリングする。 提案手法の有効性とロバスト性を,広く採用されている3つのベンチマークデータセット上で検証する。 その結果、RORA-VLMは最小限のトレーニングインスタンスで、ベースモデルが大幅な性能向上を実現し、全てのベンチマークで常に最先端の検索拡張VLMを上回りながら、新たなゼロショットドメイン転送能力を示すことを示した。

Current vision-language models (VLMs) still exhibit inferior performance on knowledge-intensive tasks, primarily due to the challenge of accurately encoding all the associations between visual objects and scenes to their corresponding entities and background knowledge. While retrieval augmentation methods offer an efficient way to integrate external knowledge, extending them to vision-language domain presents unique challenges in (1) precisely retrieving relevant information from external sources due to the inherent discrepancy within the multimodal queries, and (2) being resilient to the irrelevant, extraneous and noisy information contained in the retrieved multimodal knowledge snippets. In this work, we introduce RORA-VLM, a novel and robust retrieval augmentation framework specifically tailored for VLMs, with two key innovations: (1) a 2-stage retrieval process with image-anchored textual-query expansion to synergistically combine the visual and textual information in the query and retrieve the most relevant multimodal knowledge snippets; and (2) a robust retrieval augmentation method that strengthens the resilience of VLMs against irrelevant information in the retrieved multimodal knowledge by injecting adversarial noises into the retrieval-augmented training process, and filters out extraneous visual information, such as unrelated entities presented in images, via a query-oriented visual token refinement strategy. We conduct extensive experiments to validate the effectiveness and robustness of our proposed methods on three widely adopted benchmark datasets. Our results demonstrate that with a minimal amount of training instance, RORA-VLM enables the base model to achieve significant performance improvement and constantly outperform state-of-the-art retrieval-augmented VLMs on all benchmarks while also exhibiting a novel zero-shot domain transfer capability.
翻訳日:2024-10-30 21:26:05 公開日:2024-10-14
# 治療効果の部分的同定のための機器の学習表現

Learning Representations of Instruments for Partial Identification of Treatment Effects ( http://arxiv.org/abs/2410.08976v1 )

ライセンス: Link先を確認
Jonas Schweisthal, Dennis Frauen, Maresa Schröder, Konstantin Hess, Niki Kilbertus, Stefan Feuerriegel, (参考訳) 医療などの多くの分野において、観察データからの治療効果の信頼性評価が重要である。 しかし、因果推論文献における標準仮定としての根拠のない仮定が破られた場合、推定は困難である。 本研究では,任意の(潜在的に高次元な)機器を用いて条件平均処理効果(CATE)を推定する。 1) 楽器を離散表現空間にマッピングすることで、CATEに有効な境界を与える、部分的識別のための新しいアプローチを提案する。 これは、現実世界のアプリケーションにおける信頼性の高い意思決定に不可欠である。 2) 潜在楽器空間のニューラルネットワーク分割を用いて, 厳密な境界を学習する2段階の手順を導出する。 その結果,数値近似や対人訓練による不安定性の問題を回避することができた。 さらに,提案手法は,有限サンプル設定における推定分散を低減し,より信頼性の高い推定値を得る。 (3) 提案手法は, 推定分散を低減しつつ, 有効な境界値が得られることを示す。 さらに,様々な環境における有効性を示すため,広範囲な実験を行った。 全体として,本手法は,メンデル的ランダム化のように,潜在的に高次元の楽器(例えば,メンデル的ランダム化)を利用するための新たな道筋を提供する。

Reliable estimation of treatment effects from observational data is important in many disciplines such as medicine. However, estimation is challenging when unconfoundedness as a standard assumption in the causal inference literature is violated. In this work, we leverage arbitrary (potentially high-dimensional) instruments to estimate bounds on the conditional average treatment effect (CATE). Our contributions are three-fold: (1) We propose a novel approach for partial identification through a mapping of instruments to a discrete representation space so that we yield valid bounds on the CATE. This is crucial for reliable decision-making in real-world applications. (2) We derive a two-step procedure that learns tight bounds using a tailored neural partitioning of the latent instrument space. As a result, we avoid instability issues due to numerical approximations or adversarial training. Furthermore, our procedure aims to reduce the estimation variance in finite-sample settings to yield more reliable estimates. (3) We show theoretically that our procedure obtains valid bounds while reducing estimation variance. We further perform extensive experiments to demonstrate the effectiveness across various settings. Overall, our procedure offers a novel path for practitioners to make use of potentially high-dimensional instruments (e.g., as in Mendelian randomization).
翻訳日:2024-10-30 20:46:27 公開日:2024-10-14
# 治療効果の部分的同定のための機器の学習表現

Learning Representations of Instruments for Partial Identification of Treatment Effects ( http://arxiv.org/abs/2410.08976v2 )

ライセンス: Link先を確認
Jonas Schweisthal, Dennis Frauen, Maresa Schröder, Konstantin Hess, Niki Kilbertus, Stefan Feuerriegel, (参考訳) 医療などの多くの分野において、観察データからの治療効果の信頼性評価が重要である。 しかし、因果推論文献における標準仮定としての根拠のない仮定が破られた場合、推定は困難である。 本研究では,任意の(潜在的に高次元な)機器を用いて条件平均処理効果(CATE)を推定する。 1) 楽器を離散表現空間にマッピングすることで、CATEに有効な境界を与える、部分的識別のための新しいアプローチを提案する。 これは、現実世界のアプリケーションにおける信頼性の高い意思決定に不可欠である。 2) 潜在楽器空間のニューラルネットワーク分割を用いて, 厳密な境界を学習する2段階の手順を導出する。 その結果,数値近似や対人訓練による不安定性の問題を回避することができた。 さらに,提案手法は,有限サンプル設定における推定分散を低減し,より信頼性の高い推定値を得る。 (3) 提案手法は, 推定分散を低減しつつ, 有効な境界値が得られることを示す。 さらに,様々な環境における有効性を示すため,広範囲な実験を行った。 全体として,本手法は,メンデル的ランダム化のように,潜在的に高次元の楽器(例えば,メンデル的ランダム化)を利用するための新たな道筋を提供する。

Reliable estimation of treatment effects from observational data is important in many disciplines such as medicine. However, estimation is challenging when unconfoundedness as a standard assumption in the causal inference literature is violated. In this work, we leverage arbitrary (potentially high-dimensional) instruments to estimate bounds on the conditional average treatment effect (CATE). Our contributions are three-fold: (1) We propose a novel approach for partial identification through a mapping of instruments to a discrete representation space so that we yield valid bounds on the CATE. This is crucial for reliable decision-making in real-world applications. (2) We derive a two-step procedure that learns tight bounds using a tailored neural partitioning of the latent instrument space. As a result, we avoid instability issues due to numerical approximations or adversarial training. Furthermore, our procedure aims to reduce the estimation variance in finite-sample settings to yield more reliable estimates. (3) We show theoretically that our procedure obtains valid bounds while reducing estimation variance. We further perform extensive experiments to demonstrate the effectiveness across various settings. Overall, our procedure offers a novel path for practitioners to make use of potentially high-dimensional instruments (e.g., as in Mendelian randomization).
翻訳日:2024-10-30 20:46:27 公開日:2024-10-14
# AgentHarm: LLMエージェントの有害度測定ベンチマーク

AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents ( http://arxiv.org/abs/2410.09024v1 )

ライセンス: Link先を確認
Maksym Andriushchenko, Alexandra Souly, Mateusz Dziemian, Derek Duenas, Maxwell Lin, Justin Wang, Dan Hendrycks, Andy Zou, Zico Kolter, Matt Fredrikson, Eric Winsor, Jerome Wynne, Yarin Gal, Xander Davies, (参考訳) LLMのジェイルブレイク攻撃に対する堅牢性は、ユーザーが安全対策や誤用モデル機能を回避するよう促すものであり、主に単純なチャットボットとして機能するLSMについて研究されている。 一方、外部ツールを使用し、マルチステージタスクを実行可能なLDMエージェントは、誤用された場合、より大きなリスクを引き起こす可能性があるが、その堅牢性は未調査のままである。 LLMエージェントの誤用に関する研究を容易にするために,AgentHarmという新しいベンチマークを提案する。 このベンチマークには、不正、サイバー犯罪、ハラスメントを含む11の有害カテゴリをカバーする、110の明確な悪意のあるエージェントタスク(強化された440)の多種多様なセットが含まれている。 モデルが有害なエージェント要求を拒否するかどうかを測定することに加えて、AgentHarmでは、マルチステップタスクを完了させるためには、ジェイルブレイクエージェントが攻撃後の能力を維持する必要がある。 そこで,本研究では,(1)LDMがジェイルブレイクなしで悪質なエージェント要求に驚くほど準拠していること,(2)ジェイルブレイクを効果的に適用できること,(3)ジェイルブレイクによって,一貫性のある,悪意のあるマルチステップエージェントの動作が可能であること,およびモデル機能を維持すること,について検討する。 我々は,LDMベースのエージェントに対する攻撃と防御の簡易かつ信頼性の高い評価を可能にするために,AgentHarmを一般公開した。 ベンチマークはhttps://huggingface.co/ai-safety-institute/AgentHarm.comで公開しています。

The robustness of LLMs to jailbreak attacks, where users design prompts to circumvent safety measures and misuse model capabilities, has been studied primarily for LLMs acting as simple chatbots. Meanwhile, LLM agents -- which use external tools and can execute multi-stage tasks -- may pose a greater risk if misused, but their robustness remains underexplored. To facilitate research on LLM agent misuse, we propose a new benchmark called AgentHarm. The benchmark includes a diverse set of 110 explicitly malicious agent tasks (440 with augmentations), covering 11 harm categories including fraud, cybercrime, and harassment. In addition to measuring whether models refuse harmful agentic requests, scoring well on AgentHarm requires jailbroken agents to maintain their capabilities following an attack to complete a multi-step task. We evaluate a range of leading LLMs, and find (1) leading LLMs are surprisingly compliant with malicious agent requests without jailbreaking, (2) simple universal jailbreak templates can be adapted to effectively jailbreak agents, and (3) these jailbreaks enable coherent and malicious multi-step agent behavior and retain model capabilities. We publicly release AgentHarm to enable simple and reliable evaluation of attacks and defenses for LLM-based agents. We publicly release the benchmark at https://huggingface.co/ai-safety-institute/AgentHarm.
翻訳日:2024-10-30 20:26:51 公開日:2024-10-14
# AgentHarm: LLMエージェントの有害度測定ベンチマーク

AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents ( http://arxiv.org/abs/2410.09024v2 )

ライセンス: Link先を確認
Maksym Andriushchenko, Alexandra Souly, Mateusz Dziemian, Derek Duenas, Maxwell Lin, Justin Wang, Dan Hendrycks, Andy Zou, Zico Kolter, Matt Fredrikson, Eric Winsor, Jerome Wynne, Yarin Gal, Xander Davies, (参考訳) LLMのジェイルブレイク攻撃に対する堅牢性は、ユーザーが安全対策や誤用モデル機能を回避するよう促すものであり、主に単純なチャットボットとして機能するLSMについて研究されている。 一方、外部ツールを使用し、マルチステージタスクを実行可能なLDMエージェントは、誤用された場合、より大きなリスクを引き起こす可能性があるが、その堅牢性は未調査のままである。 LLMエージェントの誤用に関する研究を容易にするために,AgentHarmという新しいベンチマークを提案する。 このベンチマークには、不正、サイバー犯罪、ハラスメントを含む11の有害カテゴリをカバーする、110の明確な悪意のあるエージェントタスク(強化された440)の多種多様なセットが含まれている。 モデルが有害なエージェント要求を拒否するかどうかを測定することに加えて、AgentHarmでは、マルチステップタスクを完了させるためには、ジェイルブレイクエージェントが攻撃後の能力を維持する必要がある。 そこで,本研究では,(1)LDMがジェイルブレイクなしで悪質なエージェント要求に驚くほど準拠していること,(2)ジェイルブレイクを効果的に適用できること,(3)ジェイルブレイクによって,一貫性のある,悪意のあるマルチステップエージェントの動作が可能であること,およびモデル機能を維持すること,について検討する。 LLMベースのエージェントに対する攻撃と防御の簡易かつ確実な評価を可能にするため、AgentHarmをhttps://huggingface.co/datasets/ai-safety-institute/AgentHarmで公開しています。

The robustness of LLMs to jailbreak attacks, where users design prompts to circumvent safety measures and misuse model capabilities, has been studied primarily for LLMs acting as simple chatbots. Meanwhile, LLM agents -- which use external tools and can execute multi-stage tasks -- may pose a greater risk if misused, but their robustness remains underexplored. To facilitate research on LLM agent misuse, we propose a new benchmark called AgentHarm. The benchmark includes a diverse set of 110 explicitly malicious agent tasks (440 with augmentations), covering 11 harm categories including fraud, cybercrime, and harassment. In addition to measuring whether models refuse harmful agentic requests, scoring well on AgentHarm requires jailbroken agents to maintain their capabilities following an attack to complete a multi-step task. We evaluate a range of leading LLMs, and find (1) leading LLMs are surprisingly compliant with malicious agent requests without jailbreaking, (2) simple universal jailbreak templates can be adapted to effectively jailbreak agents, and (3) these jailbreaks enable coherent and malicious multi-step agent behavior and retain model capabilities. To enable simple and reliable evaluation of attacks and defenses for LLM-based agents, we publicly release AgentHarm at https://huggingface.co/datasets/ai-safety-institute/AgentHarm.
翻訳日:2024-10-30 20:26:51 公開日:2024-10-14
# SimpleStrat: 階層化による言語モデル生成の多様化

SimpleStrat: Diversifying Language Model Generation with Stratification ( http://arxiv.org/abs/2410.09038v1 )

ライセンス: Link先を確認
Justin Wong, Yury Orlovskiy, Michael Luo, Sanjit A. Seshia, Joseph E. Gonzalez, (参考訳) 大規模言語モデル(LLM)から多様な応答を生成することは、世代毎に異なる回答を提供する、計画/探索や合成データ生成といったアプリケーションに不可欠である。 それまでのアプローチは、多様性を高めるために温度の上昇に依存していた。 しかし、一般的な信念とは対照的に、このアプローチは温度が上がるにつれて低い品質の個々の世代を生み出すだけでなく、答えの真の分布と類似したモデルの次の確率にも依存する。 言語モデル自体を使って空間を成層体に分割する代替手法である 'method{} を提案する。 推測時には、ランダムな地層が選択され、地層内部から引き出されたサンプルが選択される。 多様性を測るために,複数の妥当な答えを持つ未特定質問のデータセットであるCoverageQAを導入し,有効真理解に対する出力分布と均一分布のKL偏差を測定することで多様性を評価する。 プロプライエタリなモデルに対する応答/解当たりの計算確率は不可能であるので、基礎的真理解に基づいてリコールを測定する。 SimpleStrat を用いた評価実験では, GPT-4o と Llama 3 と比較すると, 平均 KL の差が 0.36 より0.05 高いリコールを実現している。

Generating diverse responses from large language models (LLMs) is crucial for applications such as planning/search and synthetic data generation, where diversity provides distinct answers across generations. Prior approaches rely on increasing temperature to increase diversity. However, contrary to popular belief, we show not only does this approach produce lower quality individual generations as temperature increases, but it depends on model's next-token probabilities being similar to the true distribution of answers. We propose \method{}, an alternative approach that uses the language model itself to partition the space into strata. At inference, a random stratum is selected and a sample drawn from within the strata. To measure diversity, we introduce CoverageQA, a dataset of underspecified questions with multiple equally plausible answers, and assess diversity by measuring KL Divergence between the output distribution and uniform distribution over valid ground truth answers. As computing probability per response/solution for proprietary models is infeasible, we measure recall on ground truth solutions. Our evaluation show using SimpleStrat achieves higher recall by 0.05 compared to GPT-4o and 0.36 average reduction in KL Divergence compared to Llama 3.
翻訳日:2024-10-30 20:26:51 公開日:2024-10-14
# SimpleStrat: 階層化による言語モデル生成の多様化

SimpleStrat: Diversifying Language Model Generation with Stratification ( http://arxiv.org/abs/2410.09038v2 )

ライセンス: Link先を確認
Justin Wong, Yury Orlovskiy, Michael Luo, Sanjit A. Seshia, Joseph E. Gonzalez, (参考訳) 大規模言語モデル(LLM)から多様な応答を生成することは、世代毎に異なる回答を提供する、計画/探索や合成データ生成といったアプリケーションに不可欠である。 それまでのアプローチは、多様性を高めるために温度の上昇に依存していた。 しかし、一般的な信念とは対照的に、このアプローチは温度が上がるにつれて低い品質の個々の世代を生み出すだけでなく、答えの真の分布と類似したモデルの次の確率にも依存する。 言語モデル自体を使って空間を成層体に分割する代替手法であるSimpleStratを提案する。 推測時には、ランダムな地層が選択され、地層内部から引き出されたサンプルが選択される。 多様性を測るために,複数の妥当な答えを持つ未特定質問のデータセットであるCoverageQAを導入し,有効真理解に対する出力分布と均一分布のKL偏差を測定することで多様性を評価する。 プロプライエタリなモデルに対する応答/解当たりの計算確率は不可能であるので、基礎的真理解に基づいてリコールを測定する。 SimpleStrat を用いた評価実験では, GPT-4o と Llama 3 と比較すると, 平均 KL の差が 0.36 より0.05 高いリコールを実現している。

Generating diverse responses from large language models (LLMs) is crucial for applications such as planning/search and synthetic data generation, where diversity provides distinct answers across generations. Prior approaches rely on increasing temperature to increase diversity. However, contrary to popular belief, we show not only does this approach produce lower quality individual generations as temperature increases, but it depends on model's next-token probabilities being similar to the true distribution of answers. We propose SimpleStrat, an alternative approach that uses the language model itself to partition the space into strata. At inference, a random stratum is selected and a sample drawn from within the strata. To measure diversity, we introduce CoverageQA, a dataset of underspecified questions with multiple equally plausible answers, and assess diversity by measuring KL Divergence between the output distribution and uniform distribution over valid ground truth answers. As computing probability per response/solution for proprietary models is infeasible, we measure recall on ground truth solutions. Our evaluation show using SimpleStrat achieves higher recall by 0.05 compared to GPT-4o and 0.36 average reduction in KL Divergence compared to Llama 3.
翻訳日:2024-10-30 20:26:51 公開日:2024-10-14
# StatioCL: 時系列の非定常的・時間的コントラストによるコントラスト学習

StatioCL: Contrastive Learning for Time Series via Non-Stationary and Temporal Contrast ( http://arxiv.org/abs/2410.10048v1 )

ライセンス: Link先を確認
Yu Wu, Ting Dang, Dimitris Spathis, Hong Jia, Cecilia Mascolo, (参考訳) コントラスト学習(CL)は、類似したペアを密に埋め込んだり、異種を分散させたりすることで、時系列データにおける表現学習に有望なアプローチとして現れてきた。 しかし、既存のCL法は、固有の特性を無視し、異なるセグメントを異なるペアとしてランダムに選択することで、誤った表現学習、モデル性能の低下、全体的な非効率性をもたらす。 これらの問題に対処するため、FNPを時系列で意味的偽陰対と時間的偽陰対に分類し、分類した。 さらに、非定常性および時間依存性を捕捉し、FNPを緩和し、学習表現の不正確性を是正する新しいCLフレームワークStatioCLを紹介する。 傾向や時間的ダイナミクスと基礎となるデータパターンとの相関を反映した非定常状態の解釈と微分によって、StatioCLは意味的特性を効果的に捉え、意味的FNPを排除します。 同時に、StatioCLは時間的依存関係に基づいて微細な類似性レベルを確立し、セグメント間の時間的近接を捉え、時間的FNPを緩和する。 実世界のベンチマーク時系列分類データセットに基づいて評価され、StatioCLは最先端のCL法よりも大幅に改善され、リコールは2.9%増加し、FNPは19.2%減少した。 最も重要な点として、StatioCLは、ラベルの不足に対するデータ効率の向上と堅牢性も示している。

Contrastive learning (CL) has emerged as a promising approach for representation learning in time series data by embedding similar pairs closely while distancing dissimilar ones. However, existing CL methods often introduce false negative pairs (FNPs) by neglecting inherent characteristics and then randomly selecting distinct segments as dissimilar pairs, leading to erroneous representation learning, reduced model performance, and overall inefficiency. To address these issues, we systematically define and categorize FNPs in time series into semantic false negative pairs and temporal false negative pairs for the first time: the former arising from overlooking similarities in label categories, which correlates with similarities in non-stationarity and the latter from neglecting temporal proximity. Moreover, we introduce StatioCL, a novel CL framework that captures non-stationarity and temporal dependency to mitigate both FNPs and rectify the inaccuracies in learned representations. By interpreting and differentiating non-stationary states, which reflect the correlation between trends or temporal dynamics with underlying data patterns, StatioCL effectively captures the semantic characteristics and eliminates semantic FNPs. Simultaneously, StatioCL establishes fine-grained similarity levels based on temporal dependencies to capture varying temporal proximity between segments and to mitigate temporal FNPs. Evaluated on real-world benchmark time series classification datasets, StatioCL demonstrates a substantial improvement over state-of-the-art CL methods, achieving a 2.9% increase in Recall and a 19.2% reduction in FNPs. Most importantly, StatioCL also shows enhanced data efficiency and robustness against label scarcity.
翻訳日:2024-10-30 03:23:50 公開日:2024-10-14
# 改良型ネットワーク侵入検知システムのためのXAIによる特徴選択

XAI-based Feature Selection for Improved Network Intrusion Detection Systems ( http://arxiv.org/abs/2410.10050v1 )

ライセンス: Link先を確認
Osvaldo Arreche, Tanish Guntur, Mustafa Abdallah, (参考訳) AIモデルの説明可能性と評価は、ネットワークセキュリティ分野における現代の侵入検知システム(IDS)のセキュリティの重要な部分であるが、それらは欠落している。 したがって、IDSのこうした部分において、最も重要な特徴を識別し、攻撃検出の強化とその記述を行うため、特徴選択が不可欠である。 本研究では,この問題にeXplainable AI(XAI)メソッドを適用する新しい方法を提案することで,IDSの機能選択問題に取り組む。 我々は、新しい5つの属性選択法と組み合わせて、異なるAI手法に由来する重要な属性を同定する。 次に、最先端の機能選択戦略をXAIベースの機能選択手法と比較し、この研究で提案されたXAIベースのアプローチを使用することで、ほとんどのAIモデルのパフォーマンスが向上することを示す。 この研究は、新しい特徴選択技術を提供し、いくつかのXAIベースの戦略の基礎を確立することにより、重要な侵入特性をよりよく把握することで、IDSの意思決定推論におけるセキュリティアナリストを支援する。 さらに、XAIベースの機能選択フレームワーク上に、コミュニティが追加モデルを開発できるようにソースコードを利用可能にしています。

Explainability and evaluation of AI models are crucial parts of the security of modern intrusion detection systems (IDS) in the network security field, yet they are lacking. Accordingly, feature selection is essential for such parts in IDS because it identifies the most paramount features, enhancing attack detection and its description. In this work, we tackle the feature selection problem for IDS by suggesting new ways of applying eXplainable AI (XAI) methods for this problem. We identify the crucial attributes originated by distinct AI methods in tandem with the novel five attribute selection methods. We then compare many state-of-the-art feature selection strategies with our XAI-based feature selection methods, showing that most AI models perform better when using the XAI-based approach proposed in this work. By providing novel feature selection techniques and establishing the foundation for several XAI-based strategies, this research aids security analysts in the AI decision-making reasoning of IDS by providing them with a better grasp of critical intrusion traits. Furthermore, we make the source codes available so that the community may develop additional models on top of our foundational XAI-based feature selection framework.
翻訳日:2024-10-30 03:23:50 公開日:2024-10-14
# グラフニューラルネットワークのブリッジ一般化と表現性に向けて

Towards Bridging Generalization and Expressivity of Graph Neural Networks ( http://arxiv.org/abs/2410.10051v1 )

ライセンス: Link先を確認
Shouheng Li, Floris Geerts, Dongwoo Kim, Qing Wang, (参考訳) 表現性と一般化はグラフニューラルネットワーク(GNN)の2つの重要な側面である。 GNNの表現性の研究において大きな進歩があったが、特にグラフ構造化データの本質的な複雑さを扱う場合、その一般化能力についてはあまり知られていない。 本稿では,GNNにおける表現性と一般化の複雑な関係について述べる。 理論的な研究は2つの間のトレードオフを予想している:高度に表現力のあるモデルが過度に適合するリスク、一般化に焦点を当てたモデルが表現性を犠牲にする可能性がある。 しかしながら、実証的な証拠はしばしばこの仮定に矛盾し、表現的なGNNはしばしば強い一般化を示す。 我々は、GNN一般化と、それらが捉えることができるグラフ構造の分散を結びつける新しいフレームワークを導入することで、この矛盾を探求する。 これにより、グラフ埋め込みの構造的性質を上界表現力の観点から特徴づける、$k$分散マージンに基づく一般化が提案される。 我々の分析は特定のGNNアーキテクチャに依存しないので、GNNモデルに広く適用できます。 さらに,クラス内濃度とクラス間分離のトレードオフを明らかにする。 実世界のデータセットに関するケーススタディと実験を通じて、我々の理論的結果は経験的な結果と一致し、表現性がGNNの一般化をいかに促進できるかをより深く理解することを示した。

Expressivity and generalization are two critical aspects of graph neural networks (GNNs). While significant progress has been made in studying the expressivity of GNNs, much less is known about their generalization capabilities, particularly when dealing with the inherent complexity of graph-structured data. In this work, we address the intricate relationship between expressivity and generalization in GNNs. Theoretical studies conjecture a trade-off between the two: highly expressive models risk overfitting, while those focused on generalization may sacrifice expressivity. However, empirical evidence often contradicts this assumption, with expressive GNNs frequently demonstrating strong generalization. We explore this contradiction by introducing a novel framework that connects GNN generalization to the variance in graph structures they can capture. This leads us to propose a $k$-variance margin-based generalization bound that characterizes the structural properties of graph embeddings in terms of their upper-bounded expressive power. Our analysis does not rely on specific GNN architectures, making it broadly applicable across GNN models. We further uncover a trade-off between intra-class concentration and inter-class separation, both of which are crucial for effective generalization. Through case studies and experiments on real-world datasets, we demonstrate that our theoretical findings align with empirical results, offering a deeper understanding of how expressivity can enhance GNN generalization.
翻訳日:2024-10-30 03:23:50 公開日:2024-10-14
# DINTR:拡散型補間による追跡

DINTR: Tracking via Diffusion-based Interpolation ( http://arxiv.org/abs/2410.10053v1 )

ライセンス: Link先を確認
Pha Nguyen, Ngan Le, Jackson Cothren, Alper Yilmaz, Khoa Luu, (参考訳) オブジェクトトラッキングはコンピュータビジョンにおける基本的なタスクであり、ビデオフレーム間で関心のあるオブジェクトをローカライズする必要がある。 拡散モデルは視覚生成において顕著な能力を示しており、追跡問題のいくつかの要件に対処するのに適している。 本研究は,トラッキングタスクを定式化するための拡散に基づく新しい手法を提案する。 まず、条件付きプロセスは、ターゲットオブジェクトの指示を生成プロセスに注入することができる。 第二に、拡散力学は時間的対応を本質的にモデル化し、ビデオ内の実際のフレームの再構築を可能にする。 しかし、既存の拡散モデルはガウスノイズ領域への広範かつ不要なマッピングに依存しており、より効率的で安定した補間処理に置き換えることができる。 提案する補間機構は,従来の画像処理技術からインスピレーションを得て,オブジェクト追跡タスクに特化して,より解釈可能な,安定した,より高速なアプローチを提供する。 拡散モデルの強みを回避しつつ、その限界を回避し、拡散に基づくInterpolation TrackeR(DINTR)は、有望な新しいパラダイムを示し、5つの指標表現にまたがる7つのベンチマークにおいて優れた乗法を実現する。

Object tracking is a fundamental task in computer vision, requiring the localization of objects of interest across video frames. Diffusion models have shown remarkable capabilities in visual generation, making them well-suited for addressing several requirements of the tracking problem. This work proposes a novel diffusion-based methodology to formulate the tracking task. Firstly, their conditional process allows for injecting indications of the target object into the generation process. Secondly, diffusion mechanics can be developed to inherently model temporal correspondences, enabling the reconstruction of actual frames in video. However, existing diffusion models rely on extensive and unnecessary mapping to a Gaussian noise domain, which can be replaced by a more efficient and stable interpolation process. Our proposed interpolation mechanism draws inspiration from classic image-processing techniques, offering a more interpretable, stable, and faster approach tailored specifically for the object tracking task. By leveraging the strengths of diffusion models while circumventing their limitations, our Diffusion-based INterpolation TrackeR (DINTR) presents a promising new paradigm and achieves a superior multiplicity on seven benchmarks across five indicator representations.
翻訳日:2024-10-30 03:23:50 公開日:2024-10-14
# AlphaLoRA: レイヤトレーニング品質に基づいたLoRAエキスパートの配置

AlphaLoRA: Assigning LoRA Experts Based on Layer Training Quality ( http://arxiv.org/abs/2410.10054v1 )

ライセンス: Link先を確認
Peijun Qing, Chongyang Gao, Yefan Zhou, Xingjian Diao, Yaoqing Yang, Soroush Vosoughi, (参考訳) Low-Rank Adaptation (LoRA) のようなパラメータ効率のよい微調整法は、Large Language Models (LLM) の訓練効率を高めることが知られている。 LoRAのパラメータが限られているため、最近の研究では、LoRAとMixture-of-Experts (MoE)を組み合わせることで、さまざまなタスクのパフォーマンス向上を目指している。 しかし、従来のMoE構造における観察された冗長性に触発されて、以前の研究では、MoEアーキテクチャ内のLoRA専門家の間で同様の冗長性を特定し、異なる層にまたがるLoRA専門家の均一な配置の必要性を強調した。 本稿ではヘビータイド自己規則化(HT-SR)理論を利用して,粒度の細かいアロケーション戦略を設計する。 分析の結果,各レイヤのエキスパート数は,レイヤ間の大きなばらつきを示す,レイヤのトレーニング品質と相関していることがわかった。 これに基づいて,理論上は理論上は原則的かつトレーニング不要な手法であるAlphaLoRAを導入し,ロラの専門家をアロケートして冗長性をさらに軽減する。 10の言語処理と推論ベンチマークにわたる3つのモデルの実験は、AlphaLoRAがすべてのベースラインに対して同等または優れたパフォーマンスを達成することを示した。 私たちのコードはhttps://github.com/morelife2017/alphalora.comから入手可能です。

Parameter-efficient fine-tuning methods, such as Low-Rank Adaptation (LoRA), are known to enhance training efficiency in Large Language Models (LLMs). Due to the limited parameters of LoRA, recent studies seek to combine LoRA with Mixture-of-Experts (MoE) to boost performance across various tasks. However, inspired by the observed redundancy in traditional MoE structures, previous studies identify similar redundancy among LoRA experts within the MoE architecture, highlighting the necessity for non-uniform allocation of LoRA experts across different layers. In this paper, we leverage Heavy-Tailed Self-Regularization (HT-SR) Theory to design a fine-grained allocation strategy. Our analysis reveals that the number of experts per layer correlates with layer training quality, which exhibits significant variability across layers. Based on this, we introduce AlphaLoRA, a theoretically principled and training-free method for allocating LoRA experts to further mitigate redundancy. Experiments on three models across ten language processing and reasoning benchmarks demonstrate that AlphaLoRA achieves comparable or superior performance over all baselines. Our code is available at https://github.com/morelife2017/alphalora.
翻訳日:2024-10-30 03:23:50 公開日:2024-10-14
# Epochal Sawtooth 効果: アダムおよびその他の最適化者における訓練損失の軽減

The Epochal Sawtooth Effect: Unveiling Training Loss Oscillations in Adam and Other Optimizers ( http://arxiv.org/abs/2410.10056v1 )

ライセンス: Link先を確認
Qi Liu, Wanjing Ma, (参考訳) 本稿では,適応的勾配に基づくオプティマイザ(特にアダム・オプティマイザ)を用いたトレーニング中によく見られる「textit{Epochal Sawtooth Effect (ESE)」と呼ばれる繰り返し学習損失パターンを特定し,解析する。 このパターンは、各エポックの始めに急激な損失が減少し、その後徐々に増加し、ソートゥース状の損失曲線が生じる。 経験的観察により、この効果はAdamで最も発音されるが、RMSPropのような他の最適化器では、それほど深刻ではないが持続することを示した。 Epochal Sawtooth 効果に繋がるメカニズムの詳細な説明を提供する。 このパターンに対する, \(\beta\), バッチサイズ, データシャッフルの影響について検討した。 損失曲線の形状に対する \(\beta_2\) の影響を定量化し,より高い値の \(\beta_2\) がほぼ線形に減少し,低い値が凹面上向きの傾向を生じさせることを示した。 分析の結果,この挙動は第2モーメント推定値によって制御される適応学習率に起因し, \(\beta_1\) が大きければ最小の役割を担うことが判明した。 解析を支援するために、制御された2次最小化タスクを通じてこの現象を再現する。 アダムを用いた2次最適化問題を漸進的に解くことで、簡単な最適化シナリオでもエポチャルソートゥース効果が出現し、このパターンの一般化が強化されることを示した。 本稿では理論的な洞察と定量的分析の両方を提供し、現代の最適化手法におけるこのユビキタス現象の包括的理解を提供する。

In this paper, we identify and analyze a recurring training loss pattern, which we term the \textit{Epochal Sawtooth Effect (ESE)}, commonly observed during training with adaptive gradient-based optimizers, particularly Adam optimizer. This pattern is characterized by a sharp drop in loss at the beginning of each epoch, followed by a gradual increase, resulting in a sawtooth-shaped loss curve. Through empirical observations, we demonstrate that while this effect is most pronounced with Adam, it persists, although less severely, with other optimizers such as RMSProp. We provide an in-depth explanation of the underlying mechanisms that lead to the Epochal Sawtooth Effect. The influences of factors like \(\beta\), batch size, data shuffling on this pattern have been studied. We quantify the influence of \(\beta_2\) on the shape of the loss curve, showing that higher values of \(\beta_2\) result in a nearly linear increase in loss, while lower values create a concave upward trend. Our analysis reveals that this behavior stems from the adaptive learning rate controlled by the second moment estimate, with \(\beta_1\) playing a minimal role when \(\beta_2\) is large. To support our analysis, we replicate this phenomenon through a controlled quadratic minimization task. By incrementally solving a series of quadratic optimization problems using Adam, we demonstrate that the Epochal Sawtooth Effect can emerge even in simple optimization scenarios, reinforcing the generality of this pattern. This paper provides both theoretical insights and quantitative analysis, offering a comprehensive understanding of this ubiquitous phenomenon in modern optimization techniques.
翻訳日:2024-10-30 03:23:50 公開日:2024-10-14
# テキストと画像の拡散を多元的文脈でカスタマイズする学習

Learning to Customize Text-to-Image Diffusion In Diverse Context ( http://arxiv.org/abs/2410.10058v1 )

ライセンス: Link先を確認
Taewook Kim, Wei Chen, Qiang Qiu, (参考訳) ほとんどのテキスト・ツー・イメージのカスタマイズ技術は、最小限のコンテキストでキャプチャされた小さな \emph{personal concept} イメージのセットで微調整モデルを作成する。 この結果、モデルがこれらのトレーニングイメージに過度に適合し、将来のテキストプロンプトで新しいコンテキストに一般化できないことがしばしばある。 既存のカスタマイズ方法は、個人概念をテキスト埋め込みとして効果的に表現することの成功に基づいて構築されている。 そこで本研究では、文脈的にリッチなテキストプロンプトのセットを、広く使われている自己教師型学習目標とともに作成することで、これらの個人概念の文脈をテキスト空間内で多様化する。 意外なことに、この単純で費用対効果の高い手法は、テキスト空間における意味的アライメントを大幅に改善し、この効果はさらに画像空間にまで拡張され、生成した画像の即時忠実度が向上する。 さらに、我々のアプローチではアーキテクチャの変更は一切必要とせず、既存のテキスト・ツー・イメージのカスタマイズ手法と互換性が高い。 提案手法を4つの異なるベースライン手法と組み合わせることで,CLIPスコアの改善を達成し,本手法の広範な適用性を実証した。

Most text-to-image customization techniques fine-tune models on a small set of \emph{personal concept} images captured in minimal contexts. This often results in the model becoming overfitted to these training images and unable to generalize to new contexts in future text prompts. Existing customization methods are built on the success of effectively representing personal concepts as textual embeddings. Thus, in this work, we resort to diversifying the context of these personal concepts \emph{solely} within the textual space by simply creating a contextually rich set of text prompts, together with a widely used self-supervised learning objective. Surprisingly, this straightforward and cost-effective method significantly improves semantic alignment in the textual space, and this effect further extends to the image space, resulting in higher prompt fidelity for generated images. Additionally, our approach does not require any architectural modifications, making it highly compatible with existing text-to-image customization methods. We demonstrate the broad applicability of our approach by combining it with four different baseline methods, achieving notable CLIP score improvements.
翻訳日:2024-10-30 03:23:50 公開日:2024-10-14
# Crank-Nicolson法による時間依存型シュロディンガー方程式の数値シミュレーション

Numerical Simulation of the Time-Dependent Schrodinger Equation Using the Crank-Nicolson Method ( http://arxiv.org/abs/2410.10060v1 )

ライセンス: Link先を確認
Adib Kabir, (参考訳) 本研究では、時間依存シュロディンガー方程式の解法として、クランク・ニコルソン法を用いて、10nmのポテンシャル井戸に閉じ込められた量子電子の数値シミュレーションを提案する。 結果は2000番目の段階での電子の波動関数の進化を捉え、量子力学の予測と一致する独立した定常波動パターンと確率密度を描いている。 さらに、複数の時間ステップにわたる2次元および3次元シミュレーションは、井戸内の量子重ね合わせと干渉の動的性質を明らかにしている。 これらの知見は、この手法の安定性と精度を強調し、制約量子系における量子現象を探索するための貴重なツールを提供する。

This study presents a numerical simulation of a quantum electron confined in a 10 nm potential well, using the Crank-Nicolson numerical technique to solve the time-dependent Schrodinger equation. The results capture the evolution of the electron's wave function at the 2000th time step, illustrating distinct standing wave patterns and probability densities that align with quantum mechanical predictions. Additionally, both 2D and 3D simulations across multiple time steps reveal the dynamic nature of quantum superposition and interference within the well. These findings highlight the method's stability and accuracy, offering a valuable tool for exploring quantum phenomena in constrained quantum systems.
翻訳日:2024-10-30 03:23:50 公開日:2024-10-14
# 支援への夢: 高速レースにおける共有制御のための人的対象との整合性を学ぶ

Dreaming to Assist: Learning to Align with Human Objectives for Shared Control in High-Speed Racing ( http://arxiv.org/abs/2410.10062v1 )

ライセンス: Link先を確認
Jonathan DeCastro, Andrew Silva, Deepak Gopinath, Emily Sumner, Thomas M. Balch, Laporsha Dees, Guy Rosman, (参考訳) タイト調整は、高速なダイナミックスとマルチカーレースのような戦術的な決定を含む領域における効果的な人間ロボットチームのために必要である。 このような設定では、ロボットチームメイトは、人間のチームメイトの戦術的目的の手がかりに反応し、目的(例えば、障害物の周囲を左右に移動する)と整合した方法で支援しなければなりません。 この課題に対処するために、人間の目的と価値機能を推測できる豊かな世界モデルを組み合わせたフレームワークであるDream2Assistと、与えられた人間のチームメイトに適切な専門家支援を提供する支援エージェントを提示する。 我々のアプローチは、人間の意図を明示的に推測するために、リカレントな状態空間モデルに基づいており、補助エージェントは、人間と整合し、流動的なチーム間相互作用を可能にするアクションを選択できる。 我々は,「ステイビハインド」や「オーバーテイク」といった,互いに排他的な目的を追求する合成人間ドライバーの集団による高速レース領域におけるアプローチを実証する。 統合されたロボットチームは、人間の行動と混ざり合った場合、合成された人間だけでなく、いくつかのベースライン支援戦略よりも優れており、インテントコンディショニングにより、タスク実行時の人間の嗜好の順守が可能であり、人間の目的を満足しつつ、パフォーマンスの向上が期待できることを示す。

Tight coordination is required for effective human-robot teams in domains involving fast dynamics and tactical decisions, such as multi-car racing. In such settings, robot teammates must react to cues of a human teammate's tactical objective to assist in a way that is consistent with the objective (e.g., navigating left or right around an obstacle). To address this challenge, we present Dream2Assist, a framework that combines a rich world model able to infer human objectives and value functions, and an assistive agent that provides appropriate expert assistance to a given human teammate. Our approach builds on a recurrent state space model to explicitly infer human intents, enabling the assistive agent to select actions that align with the human and enabling a fluid teaming interaction. We demonstrate our approach in a high-speed racing domain with a population of synthetic human drivers pursuing mutually exclusive objectives, such as "stay-behind" and "overtake". We show that the combined human-robot team, when blending its actions with those of the human, outperforms the synthetic humans alone as well as several baseline assistance strategies, and that intent-conditioning enables adherence to human preferences during task execution, leading to improved performance while satisfying the human's objective.
翻訳日:2024-10-30 03:23:50 公開日:2024-10-14
# ウクライナ語と英語の民謡コーパス:低リソース言語における機械翻訳のためのパラレルコーパスの作成と拡張

Ukrainian-to-English folktale corpus: Parallel corpus creation and augmentation for machine translation in low-resource languages ( http://arxiv.org/abs/2410.10063v1 )

ライセンス: Link先を確認
Olena Burda-Lassen, (参考訳) 民族は言語的に非常に豊かで、言語を理解する上で文化的に重要な存在である。 歴史的に、伝承の翻訳には人訳のみが用いられてきた。 そのため、翻訳されたテキストの数は少なく、文化の伝統や慣習に関する知識へのアクセスが制限されている。 我々は、利用可能な英語の翻訳に基づいて、ウクライナ語と英語の類似したウクライナの民俗の新たなコーパスを作成し、いくつかの新しいコーパスを提案しました。 我々は、ドメインの性質と人間と機械の翻訳目的の違いを考慮して、このコーパスの構築と拡張にドメイン固有のアプローチを組み合わせる。 私たちのコーパスは単語と文の一致であり、特に機械翻訳モデルのトレーニングデータとしての使用に適した意味の最良のキュレーションを可能にします。

Folktales are linguistically very rich and culturally significant in understanding the source language. Historically, only human translation has been used for translating folklore. Therefore, the number of translated texts is very sparse, which limits access to knowledge about cultural traditions and customs. We have created a new Ukrainian-To-English parallel corpus of familiar Ukrainian folktales based on available English translations and suggested several new ones. We offer a combined domain-specific approach to building and augmenting this corpus, considering the nature of the domain and differences in the purpose of human versus machine translation. Our corpus is word and sentence-aligned, allowing for the best curation of meaning, specifically tailored for use as training data for machine translation models.
翻訳日:2024-10-30 03:23:50 公開日:2024-10-14
# 非定常データモデリングのための自己組織的反復確率的構成ネットワーク

Self-Organizing Recurrent Stochastic Configuration Networks for Nonstationary Data Modelling ( http://arxiv.org/abs/2410.10072v1 )

ライセンス: Link先を確認
Gang Dang, Dianhui Wang, (参考訳) リカレント確率的構成ネットワーク(Recurrent stochastic configuration network、RSCN)は、非線形力学のモデル化において有望であることを示すランダム化学習モデルのクラスである。 しかし、多くの分野において、産業システムによって生成されたデータは、しばしば非定常的な特性を示すため、構築されたモデルはトレーニングデータに対して良好に機能するが、新たに到着したデータに苦しむ。 本稿では,非定常データモデリングのためのネットワークの連続学習能力を高めるために,SORSCNと呼ばれる自己組織型RCCNを開発することを目的とする。 SORSCNは、リアルタイムで取得したデータストリームに応じて、ネットワークパラメータと貯水池構造を自律的に調整することができる。 出力重みをプロジェクションアルゴリズムを用いてオンラインで更新し、繰り返し確率的構成アルゴリズムと改良された感度解析によりネットワーク構造を動的に調整する。 エコー状態ネットワーク(ESN)、オンライン自己学習確率構成ネットワーク(OSL-SCN)、自己組織化モジュールESN(SOMESN)、RSCN、SORSCNの総合的な比較を行う。 実験の結果,提案したSORSCNは音の一般化により他のモデルよりも優れており,非線形系を非定常力学でモデル化する大きな可能性を示している。

Recurrent stochastic configuration networks (RSCNs) are a class of randomized learner models that have shown promise in modelling nonlinear dynamics. In many fields, however, the data generated by industry systems often exhibits nonstationary characteristics, leading to the built model performing well on the training data but struggling with the newly arriving data. This paper aims at developing a self-organizing version of RSCNs, termed as SORSCNs, to enhance the continuous learning ability of the network for modelling nonstationary data. SORSCNs can autonomously adjust the network parameters and reservoir structure according to the data streams acquired in real-time. The output weights are updated online using the projection algorithm, while the network structure is dynamically adjusted in the light of the recurrent stochastic configuration algorithm and an improved sensitivity analysis. Comprehensive comparisons among the echo state network (ESN), online self-learning stochastic configuration network (OSL-SCN), self-organizing modular ESN (SOMESN), RSCN, and SORSCN are carried out. Experimental results clearly demonstrate that the proposed SORSCNs outperform other models with sound generalization, indicating great potential in modelling nonlinear systems with nonstationary dynamics.
翻訳日:2024-10-30 03:14:03 公開日:2024-10-14
# ディバイド、リウェイト、コンカー : 文脈内学習におけるロジット算術的アプローチ

Divide, Reweight, and Conquer: A Logit Arithmetic Approach for In-Context Learning ( http://arxiv.org/abs/2410.10074v1 )

ライセンス: Link先を確認
Chengsong Huang, Langlin Huang, Jiaxin Huang, (参考訳) In-Context Learning (ICL) は、Large Language Models (LLM) の重要な機能として登場し、モデルパラメータを更新せずにタスク固有の例を活用することで、新しいタスクに適応できるようにする。 しかし、ICLは性能劣化と2次計算コストによるサンプル数の増加に直面する。 本稿では,複数デモのロジットベースアンサンブルを用いてICLを強化する新しいフレームワークであるLogit Arithmetic Reweighting Approach (LARA)を提案する。 提案手法では,長い入力のデモを並列化可能な短い入力に分割し,メモリ要求を大幅に低減し,非線形最適化手法を用いて各グループのロジットを再重み付けすることで,情報を効果的に集約する。 さらにBinary LARA(B-LARA)を導入し、重みを二進値に制限し、検索空間を単純化し、より情報に乏しいデモグループをフィルタリングすることでメモリ使用量を削減する。 BBHとMMLUの実験では、LARAとB-LARAは精度とメモリ効率の両方で全てのベースライン法より優れていた。 我々はまた、LARAが、限定的な実演から多発的な実演まで、様々な数の実演のシナリオによく当てはまることを示すために、広範囲な分析を行う。

In-Context Learning (ICL) emerges as a key feature for Large Language Models (LLMs), allowing them to adapt to new tasks by leveraging task-specific examples without updating model parameters. However, ICL faces challenges with increasing numbers of examples due to performance degradation and quadratic computational costs. In this paper, we propose Logit Arithmetic Reweighting Approach (LARA), a novel framework that enhances ICL by using logit-based ensembling of multiple demonstrations. Our approach divides long input demonstrations into parallelizable shorter inputs to significantly reduce memory requirements, and then effectively aggregate the information by reweighting logits of each group via a non-gradient optimization approach. We further introduce Binary LARA (B-LARA), a variant that constrains weights to binary values to simplify the search space and reduces memory usage by filtering out less informative demonstration groups. Experiments on BBH and MMLU demonstrate that LARA and B-LARA outperform all baseline methods in both accuracy and memory efficiency. We also conduct extensive analysis to show that LARA generalizes well to scenarios of varying numbers of examples from limited to many-shot demonstrations.
翻訳日:2024-10-30 03:14:03 公開日:2024-10-14
# fastHDMI:高次元データのための高速な相互情報推定

fastHDMI: Fast Mutual Information Estimation for High-Dimensional Data ( http://arxiv.org/abs/2410.10082v1 )

ライセンス: Link先を確認
Kai Yang, Masoud Asgharian, Nikhil Bhagwat, Jean-Baptiste Poline, Celia M. T. Greenwood, (参考訳) 本稿では,高次元データセット,特にニューロイメージングデータにおいて,効率的な可変スクリーニングのために設計されたPythonパッケージであるfastHDMIを紹介する。 この研究は、高速HDMIを用いた新しいアプローチであるニューロイメージング可変選択のための3つの相互情報推定手法の適用を開拓した。 これらの進歩は、ニューロイメージングデータセットの複雑な構造を分析する能力を高め、高次元空間における可変選択のための改善されたツールを提供する。 事前処理されたABIDEデータセットを用いて,これらの手法の性能を広範囲なシミュレーションにより評価する。 テストは線形および非線形の関連、連続および二項の結果を含む幅広い条件をカバーしている。 その結果,FFTKDEに基づく相互情報推定では,連続的な非線形な結果に対する特徴検定が優れており,双極性に基づく手法では,非線形な確率予測による2次的な結果よりも優れていた。 線形シミュレーションでは、ピアソン相関法とFFTKDE法の両方が連続的な結果に匹敵する性能を示し、ピアソンは線形確率予測を伴う二項結果に優れる。 ABIDEデータセットを用いた包括的ケーススタディは、我々のスクリーニング技術を用いて選択された変数から構築されたモデルの予測能力を示す、fastHDMIの実用性をさらに実証する。 本研究は、高速HDMIの計算効率と方法論的強度を実証し、ニューロイメージング解析に利用できるツールキットを著しく高めている。

In this paper, we introduce fastHDMI, a Python package designed for efficient variable screening in high-dimensional datasets, particularly neuroimaging data. This work pioneers the application of three mutual information estimation methods for neuroimaging variable selection, a novel approach implemented via fastHDMI. These advancements enhance our ability to analyze the complex structures of neuroimaging datasets, providing improved tools for variable selection in high-dimensional spaces. Using the preprocessed ABIDE dataset, we evaluate the performance of these methods through extensive simulations. The tests cover a range of conditions, including linear and nonlinear associations, as well as continuous and binary outcomes. Our results highlight the superiority of the FFTKDE-based mutual information estimation for feature screening in continuous nonlinear outcomes, while binning-based methods outperform others for binary outcomes with nonlinear probability preimages. For linear simulations, both Pearson correlation and FFTKDE-based methods show comparable performance for continuous outcomes, while Pearson excels in binary outcomes with linear probability preimages. A comprehensive case study using the ABIDE dataset further demonstrates fastHDMI's practical utility, showcasing the predictive power of models built from variables selected using our screening techniques. This research affirms the computational efficiency and methodological strength of fastHDMI, significantly enriching the toolkit available for neuroimaging analysis.
翻訳日:2024-10-30 03:14:03 公開日:2024-10-14
# 点集合の3次元分類とセグメンテーションのための MLP を用いた Kan 対 PointNet のポイントネット

PointNet with KAN versus PointNet with MLP for 3D Classification and Segmentation of Point Sets ( http://arxiv.org/abs/2410.10084v1 )

ライセンス: Link先を確認
Ali Kashefi, (参考訳) 我々は2つのキーコンポーネント上に構築された3Dポイントクラウド分類とセグメンテーションタスクのためのニューラルネットワークであるPointNet-KANを紹介する。 まず、従来のマルチレイヤーパーセプトロン(MLP)の代わりにKAN(Kolmogorov-Arnold Networks)を採用している。 第2に、共有Kankanレイヤを使用し、グローバルな特徴抽出に対称関数を適用し、入力特徴に対する置換不変性を保証することによって、PointNetのコア原則を維持している。 従来のMLPでは、重みとバイアスを固定活性化関数で訓練することが目的であるが、カンでは、活性化関数自体を訓練することが目的である。 我々はジャコビ多項式を用いてkan層を構成する。 我々は、様々な多項式次数およびLagrange、Chebyshev、Gegenbauer多項式などの特殊型に対して、PointNet-KANを広範囲に評価する。 これらの結果から,3次元オブジェクト分類とセグメンテーションのベンチマークデータセットにおいて,PointNet-KANは,より浅くシンプルなネットワークアーキテクチャを採用しているにもかかわらず,PointNetとMPPの競合性能を実現していることがわかった。 この作業が基盤として機能し、より先進的なクラウド処理アーキテクチャへのMLPの代替としてkansを統合するためのガイダンスを提供することを期待しています。

We introduce PointNet-KAN, a neural network for 3D point cloud classification and segmentation tasks, built upon two key components. First, it employs Kolmogorov-Arnold Networks (KANs) instead of traditional Multilayer Perceptrons (MLPs). Second, it retains the core principle of PointNet by using shared KAN layers and applying symmetric functions for global feature extraction, ensuring permutation invariance with respect to the input features. In traditional MLPs, the goal is to train the weights and biases with fixed activation functions; however, in KANs, the goal is to train the activation functions themselves. We use Jacobi polynomials to construct the KAN layers. We extensively evaluate PointNet-KAN across various polynomial degrees and special types such as the Lagrange, Chebyshev, and Gegenbauer polynomials. Our results show that PointNet-KAN achieves competitive performance compared to PointNet with MLPs on benchmark datasets for 3D object classification and segmentation, despite employing a shallower and simpler network architecture. We hope this work serves as a foundation and provides guidance for integrating KANs, as an alternative to MLPs, into more advanced point cloud processing architectures.
翻訳日:2024-10-30 03:14:03 公開日:2024-10-14
# 短波・雑音UWBレーダデータを用いた日中小物体のISARイメージングのためのNeRF対応分析スルー合成

NeRF-enabled Analysis-Through-Synthesis for ISAR Imaging of Small Everyday Objects with Sparse and Noisy UWB Radar Data ( http://arxiv.org/abs/2410.10085v1 )

ライセンス: Link先を確認
Md Farhan Tasnim Oshim, Albert Reed, Suren Jayasuriya, Tauhidur Rahman, (参考訳) Inverse Synthetic Aperture Radar (ISAR) イメージングは、レーダー・クロス・セクション(RCS)とレーダー・システム固有の解像度制約のために、小さな日常的な物体に関して非常に難しい課題となる。 バックプロジェクション(BP)を含む既存のISAR再構成手法は複雑なセットアップと制御された環境を必要とすることが多く、現実の雑音のシナリオでは現実的ではない。 本稿では,ニューラルレージアンス・フィールド(NeRF)で実現した新しい解析-スルー-シンセシス(ATS)フレームワークを提案する。 我々のエンドツーエンドのフレームワークは、超広帯域レーダ波伝搬、反射特性、シーン先行を統合し、コストのかかる無響室や複雑な測定試験ベッドを必要とせずに、2次元シーンの効率的な再構築を可能にする。 定性的かつ定量的な比較により,提案手法は従来の手法より優れており,NLOS(Non-Line-of-Sight)やノイズの多いシナリオ,特に限られたビュー数とスパースUWBレーダスキャンにおいて,複数のターゲットと複雑な構造を持つ複雑なシーンのISAR画像を生成することを示した。 この研究は、ロボット工学やモバイルセンシングアプリケーションに幅広い影響を及ぼす小さな日常物体の実用的で費用対効果の高いISARイメージングに向けた重要な一歩である。

Inverse Synthetic Aperture Radar (ISAR) imaging presents a formidable challenge when it comes to small everyday objects due to their limited Radar Cross-Section (RCS) and the inherent resolution constraints of radar systems. Existing ISAR reconstruction methods including backprojection (BP) often require complex setups and controlled environments, rendering them impractical for many real-world noisy scenarios. In this paper, we propose a novel Analysis-through-Synthesis (ATS) framework enabled by Neural Radiance Fields (NeRF) for high-resolution coherent ISAR imaging of small objects using sparse and noisy Ultra-Wideband (UWB) radar data with an inexpensive and portable setup. Our end-to-end framework integrates ultra-wideband radar wave propagation, reflection characteristics, and scene priors, enabling efficient 2D scene reconstruction without the need for costly anechoic chambers or complex measurement test beds. With qualitative and quantitative comparisons, we demonstrate that the proposed method outperforms traditional techniques and generates ISAR images of complex scenes with multiple targets and complex structures in Non-Line-of-Sight (NLOS) and noisy scenarios, particularly with limited number of views and sparse UWB radar scans. This work represents a significant step towards practical, cost-effective ISAR imaging of small everyday objects, with broad implications for robotics and mobile sensing applications.
翻訳日:2024-10-30 03:14:03 公開日:2024-10-14
# ロボット拡散変換器の在り方

The Ingredients for Robotic Diffusion Transformers ( http://arxiv.org/abs/2410.10088v1 )

ライセンス: Link先を確認
Sudeep Dasari, Oier Mees, Sebastian Zhao, Mohan Kumar Srirama, Sergey Levine, (参考訳) 近年、ロボット工学者は、高容量トランスフォーマーネットワークアーキテクチャと生成拡散モデルを活用することで、デクスタラスなロボットハードウェアにおけるより一般的なタスクの解決において、顕著な進歩を遂げている。 残念ながら、これら2つの直交的な改善を組み合わせることは驚くほど難しい。 本稿では,高容量拡散変圧器政策の鍵となる設計決定を同定し,研究し,改善する。 結果として得られたモデルは、複数のロボットの動作に関する多様なタスクを、設定毎のハイパーパラメータチューニングの痛みを和らげることなく効率的に解決することができる。 本研究の結果と改良されたモデルコンポーネントを組み合わせることで,両手動ALOHAロボット上での長時間(1500ドル以上)のデキスタラスタスクの解法において,最先端の課題を著しく上回る,‘method’という新しいアーキテクチャを提示できる。 さらに,このポリシーは,高度にマルチモーダルな言語アノテートされたALOHA実演データを用いた10時間トレーニングによるスケーリング性能の向上を示す。 本研究は,大規模トランスフォーマーアーキテクチャのスケーラビリティによる生成拡散モデリングの効率性を活用した,将来的なロボット学習技術の扉を開くことを願っている。 コード、ロボットデータセット、ビデオは、https://dit-policy.github.ioで公開されている。

In recent years roboticists have achieved remarkable progress in solving increasingly general tasks on dexterous robotic hardware by leveraging high capacity Transformer network architectures and generative diffusion models. Unfortunately, combining these two orthogonal improvements has proven surprisingly difficult, since there is no clear and well-understood process for making important design choices. In this paper, we identify, study and improve key architectural design decisions for high-capacity diffusion transformer policies. The resulting models can efficiently solve diverse tasks on multiple robot embodiments, without the excruciating pain of per-setup hyper-parameter tuning. By combining the results of our investigation with our improved model components, we are able to present a novel architecture, named \method, that significantly outperforms the state of the art in solving long-horizon ($1500+$ time-steps) dexterous tasks on a bi-manual ALOHA robot. In addition, we find that our policies show improved scaling performance when trained on 10 hours of highly multi-modal, language annotated ALOHA demonstration data. We hope this work will open the door for future robot learning techniques that leverage the efficiency of generative diffusion modeling with the scalability of large scale transformer architectures. Code, robot dataset, and videos are available at: https://dit-policy.github.io
翻訳日:2024-10-30 03:14:03 公開日:2024-10-14
# PromptGCN:軽量GCNにサブグラフギャップを埋める

PromptGCN: Bridging Subgraph Gaps in Lightweight GCNs ( http://arxiv.org/abs/2410.10089v1 )

ライセンス: Link先を確認
Shengwei Ji, Yujie Tian, Fei Liu, Xinlu Li, Le Wu, (参考訳) グラフ畳み込みネットワーク(GCN)は、ソーシャルネットワークやレコメンデーションシステムなどのグラフベースのアプリケーションで広く使われている。 それでも、フルバッチGCNの大規模グラフやディープアグリゲーション層は、重要なGPUメモリを消費し、メインストリームのGPUではメモリ不足(OOM)エラーを引き起こす(例:5層のOgbnproductsグラフでは29GBのメモリ消費)。 グラフを複数のサブグラフに分割し,各サブグラフ上で順次GCNを訓練することにより,軽量なGCNを実現するためのメモリ消費を削減する。 しかし、これらの手法はグラフ間のギャップを生じさせ、すなわちGCNはグローバルグラフ情報の代わりにサブグラフに基づいてのみ訓練できるため、GCNの精度は低下する。 本稿では,サブグラフ間のギャップを埋める新しいプロンプトベース軽量GCNモデルであるPromptGCNを提案する。 まず,グローバルな情報を得るために,学習可能なプロンプト埋め込みを設計する。 そして、各サブグラフにプロンプトをアタッチして、サブグラフ間でグローバル情報を転送する。 7つの大規模グラフに対する大規模な実験結果から, PromptGCNはベースラインよりも優れた性能を示した。 特に、PromptGCNはFlickrデータセットで5.48%の精度でサブグラフサンプリングの精度を向上させる。 全体として、PromptGCNは任意のサブグラフサンプリング法と簡単に組み合わせて、より高精度な軽量GCNモデルを得ることができる。

Graph Convolutional Networks (GCNs) are widely used in graph-based applications, such as social networks and recommendation systems. Nevertheless, large-scale graphs or deep aggregation layers in full-batch GCNs consume significant GPU memory, causing out of memory (OOM) errors on mainstream GPUs (e.g., 29GB memory consumption on the Ogbnproducts graph with 5 layers). The subgraph sampling methods reduce memory consumption to achieve lightweight GCNs by partitioning the graph into multiple subgraphs and sequentially training GCNs on each subgraph. However, these methods yield gaps among subgraphs, i.e., GCNs can only be trained based on subgraphs instead of global graph information, which reduces the accuracy of GCNs. In this paper, we propose PromptGCN, a novel prompt-based lightweight GCN model to bridge the gaps among subgraphs. First, the learnable prompt embeddings are designed to obtain global information. Then, the prompts are attached into each subgraph to transfer the global information among subgraphs. Extensive experimental results on seven largescale graphs demonstrate that PromptGCN exhibits superior performance compared to baselines. Notably, PromptGCN improves the accuracy of subgraph sampling methods by up to 5.48% on the Flickr dataset. Overall, PromptGCN can be easily combined with any subgraph sampling method to obtain a lightweight GCN model with higher accuracy.
翻訳日:2024-10-30 03:14:03 公開日:2024-10-14
# 交絡ハミルトニアンの急激な変化:イジング交絡ハミルトニアンの相図

Sudden change in entanglement Hamiltonian: Phase diagram of an Ising entanglement Hamiltonian ( http://arxiv.org/abs/2410.10090v1 )

ライセンス: Link先を確認
Zhe Wang, Siyi Yang, Bin-Bin Mao, Meng Cheng, Zheng Yan, (参考訳) 絡み合いハミルトニアンの形式は、元の系のパラメータによって異なる。 特異点が存在するかどうかが、エンタングルメントスペクトルとエッジエネルギースペクトルの関係の普遍性を示す/否定する鍵となる問題である。 一次元イジング交絡ハミルトニアンの位相図を慎重に研究し、この交絡ハミルトニアンと原ハミルトニアンの間の一般関係に関する長年にわたる論争を明らかにする。 興味深いことに、たとえ特異点が実際に存在するとしても、Li-Haldane-Poilblanc予想、すなわちエンタングルメントスペクトルとエッジエネルギースペクトルの一般関係は、まだ成り立つように見える。

The form of the entanglement Hamiltonian varies with the parameters of the original system. Whether there is a singularity is the key problem for demonstrating/negating the universality of the relation between the entanglement spectrum and edge energy spectrum. We carefully study the phase diagram of a 1D Ising entanglement Hamiltonian as an example to clarify the long-standing controversy of the general relation between the entanglement Hamiltonian and original Hamiltonian. Interestingly, even if the singularities indeed exist, the Li-Haldane-Poilblanc conjecture, i.e., the general relation between the entanglement spectrum and edge energy spectrum, seemingly still holds.
翻訳日:2024-10-30 03:14:03 公開日:2024-10-14
# アウト・オブ・バウンディングボックス・トリガー:チート・オブジェクト・ディテクターのステルス的アプローチ

Out-of-Bounding-Box Triggers: A Stealthy Approach to Cheat Object Detectors ( http://arxiv.org/abs/2410.10091v1 )

ライセンス: Link先を確認
Tao Lin, Lijia Yu, Gaojie Jin, Renjue Li, Peng Wu, Lijun Zhang, (参考訳) 近年では、物体検出システム、特にディープニューラルネットワーク(DNN)に基づく対向的堅牢性の研究が研究の中心となっている。 従来の物理的攻撃は、敵のパッチやテクスチャ操作などの対象検出器をターゲットにしており、物体の表面を直接操作する。 これらの手法は有効であるが、オブジェクトのオーバート操作は現実世界のアプリケーションで注目を集める可能性がある。 そこで本研究では, 境界ボックスの外側で動作し, モデルに検出不能なオブジェクトを描画する, 目立たない逆方向のトリガを提案する。 高品質トリガ作成のためのFG技術とUAPGD(Universal Auto-PGD)最適化戦略を提案することにより、このアプローチをさらに強化する。 本手法の有効性を実験により検証し,デジタル環境と物理環境の両方で高い性能を示す。 コードとビデオは、https://github.com/linToTao/Out-of-bbox- attack.comで入手できる。

In recent years, the study of adversarial robustness in object detection systems, particularly those based on deep neural networks (DNNs), has become a pivotal area of research. Traditional physical attacks targeting object detectors, such as adversarial patches and texture manipulations, directly manipulate the surface of the object. While these methods are effective, their overt manipulation of objects may draw attention in real-world applications. To address this, this paper introduces a more subtle approach: an inconspicuous adversarial trigger that operates outside the bounding boxes, rendering the object undetectable to the model. We further enhance this approach by proposing the Feature Guidance (FG) technique and the Universal Auto-PGD (UAPGD) optimization strategy for crafting high-quality triggers. The effectiveness of our method is validated through extensive empirical testing, demonstrating its high performance in both digital and physical environments. The code and video will be available at: https://github.com/linToTao/Out-of-bbox-attack.
翻訳日:2024-10-30 03:14:03 公開日:2024-10-14
# 大規模言語モデルのアライメントにおける実証データの活用法 : 自称学習の視点から

How to Leverage Demonstration Data in Alignment for Large Language Model? A Self-Imitation Learning Perspective ( http://arxiv.org/abs/2410.10093v1 )

ライセンス: Link先を確認
Teng Xiao, Mingxiao Li, Yige Yuan, Huaisheng Zhu, Chao Cui, Vasant G Honavar, (参考訳) 本稿では,大規模な言語モデルとオフラインのデモデータとを効果的かつ効率的に整合させる,新しい一般化自己アニメーション学習($\textbf{GSIL}$)フレームワークを提案する。 我々は,自己生成データの利用を容易にし,模倣学習目標を単純な分類損失で最適化することで,擬似学習の代理目的を密度比推定で導き出すことにより,$\textbf{GSIL}$を開発する。 $\textbf{GSIL}$は、標準模倣学習における複雑な敵対的トレーニングの必要性を排除し、大規模言語モデルの軽量かつ効率的な微調整を実現する。 さらに、$\textbf{GSIL}$は、密度比推定のための凸関数の一般クラスによってパラメータ化されるオフライン損失の族を含み、デモデータとアライメントするための統一ビューを可能にする。 大規模な実験によると、$\textbf{GSIL}$は、コーディング(HuamnEval)、数学的推論(GSM8K)、命令追従ベンチマーク(MT-Bench)など、多くの困難なベンチマークにおいて、ベースラインを一貫して大幅に上回っている。

This paper introduces a novel generalized self-imitation learning ($\textbf{GSIL}$) framework, which effectively and efficiently aligns large language models with offline demonstration data. We develop $\textbf{GSIL}$ by deriving a surrogate objective of imitation learning with density ratio estimates, facilitating the use of self-generated data and optimizing the imitation learning objective with simple classification losses. $\textbf{GSIL}$ eliminates the need for complex adversarial training in standard imitation learning, achieving lightweight and efficient fine-tuning for large language models. In addition, $\textbf{GSIL}$ encompasses a family of offline losses parameterized by a general class of convex functions for density ratio estimation and enables a unified view for alignment with demonstration data. Extensive experiments show that $\textbf{GSIL}$ consistently and significantly outperforms baselines in many challenging benchmarks, such as coding (HuamnEval), mathematical reasoning (GSM8K) and instruction-following benchmark (MT-Bench).
翻訳日:2024-10-30 03:04:18 公開日:2024-10-14
# 障害物認識のための革新的深層学習技術:現代の検出アルゴリズムの比較研究

Innovative Deep Learning Techniques for Obstacle Recognition: A Comparative Study of Modern Detection Algorithms ( http://arxiv.org/abs/2410.10096v1 )

ライセンス: Link先を確認
Santiago Pérez, Camila Gómez, Matías Rodríguez, (参考訳) 本研究では,高度なYOLOモデル,特にYOLOv8,YOLOv7,YOLOv6,YOLOv5を用いた障害物検出の包括的アプローチについて検討する。 この研究はディープラーニング技術を活用し、リアルタイム検出シナリオにおけるこれらのモデルのパフォーマンス比較に焦点を当てている。 その結果, YOLOv8は精度が向上し, 精度が向上した。 モデルの有効性を検証するために、詳細なトレーニングプロセス、アルゴリズムの原則、および様々な実験結果が提示される。

This study explores a comprehensive approach to obstacle detection using advanced YOLO models, specifically YOLOv8, YOLOv7, YOLOv6, and YOLOv5. Leveraging deep learning techniques, the research focuses on the performance comparison of these models in real-time detection scenarios. The findings demonstrate that YOLOv8 achieves the highest accuracy with improved precision-recall metrics. Detailed training processes, algorithmic principles, and a range of experimental results are presented to validate the model's effectiveness.
翻訳日:2024-10-30 03:04:18 公開日:2024-10-14
# ReHRSeg:資源効率のよい3次元MRIセグメンテーションのための自己監督型超解法のパワーを開放する

REHRSeg: Unleashing the Power of Self-Supervised Super-Resolution for Resource-Efficient 3D MRI Segmentation ( http://arxiv.org/abs/2410.10097v1 )

ライセンス: Link先を確認
Zhiyun Song, Yinjie Zhao, Xiaomin Li, Manman Fei, Xiangyu Zhao, Mengjun Liu, Cunjian Chen, Chung-Hsing Yeh, Qian Wang, Guoyan Zheng, Songtao Ai, Lichi Zhang, (参考訳) 高分解能(HR)3次元磁気共鳴イメージング(MRI)は、詳細な解剖学的構造情報を提供し、様々な医用画像解析タスクにおいて、興味のある領域の正確なセグメンテーションを可能にする。 取得装置の要求が高いため、アノテーションによるHR画像の収集は常に臨床シナリオでは現実的ではない。 その結果,低分解能(LR)画像に基づくスライス厚の分割処理は,その後の作業に不満足な場合が多い。 本稿では、実世界のアプリケーションにおける上記の課題に対処するリソース効率の高い高分解能セグメンテーションフレームワーク(REHRSeg)を提案し、LR画像を入力としてのみ使用しながらHRセグメンテーションを実現する。 REHRSegは、自己監督型超解像(self-SR)を利用して擬似的な監視を行うように設計されているため、2Dスキャンプロトコルによって生成された比較的容易に取得可能なLRアノテート画像は、モデルトレーニングに直接使用することができる。 1) セグメンテーションモデルのトレーニングに擬似データを用いて医療分野におけるデータ不足問題を緩和する。 2) 不確実性認識型超解像(UASR)ヘッドを自己SRで設計し,ROI境界によく見られるセグメンテーションの不確実性に対する認識を高める。 (3) 自己SRと構造的知識蒸留によるセグメンテーションの空間的特徴を整列させて, 地域相関をよりよく把握する。 実験により,REHRSegは高品質のHRセグメンテーションを実現するとともに,LRセグメンテーションのベースライン性能を著しく向上することが示された。

High-resolution (HR) 3D magnetic resonance imaging (MRI) can provide detailed anatomical structural information, enabling precise segmentation of regions of interest for various medical image analysis tasks. Due to the high demands of acquisition device, collection of HR images with their annotations is always impractical in clinical scenarios. Consequently, segmentation results based on low-resolution (LR) images with large slice thickness are often unsatisfactory for subsequent tasks. In this paper, we propose a novel Resource-Efficient High-Resolution Segmentation framework (REHRSeg) to address the above-mentioned challenges in real-world applications, which can achieve HR segmentation while only employing the LR images as input. REHRSeg is designed to leverage self-supervised super-resolution (self-SR) to provide pseudo supervision, therefore the relatively easier-to-acquire LR annotated images generated by 2D scanning protocols can be directly used for model training. The main contribution to ensure the effectiveness in self-SR for enhancing segmentation is three-fold: (1) We mitigate the data scarcity problem in the medical field by using pseudo-data for training the segmentation model. (2) We design an uncertainty-aware super-resolution (UASR) head in self-SR to raise the awareness of segmentation uncertainty as commonly appeared on the ROI boundaries. (3) We align the spatial features for self-SR and segmentation through structural knowledge distillation to enable a better capture of region correlations. Experimental results demonstrate that REHRSeg achieves high-quality HR segmentation without intensive supervision, while also significantly improving the baseline performance for LR segmentation.
翻訳日:2024-10-30 03:04:18 公開日:2024-10-14
# 優先フィードバックによるマッチング帯域の待ち行列

Queueing Matching Bandits with Preference Feedback ( http://arxiv.org/abs/2410.10098v1 )

ライセンス: Link先を確認
Jung-hun Kim, Min-hwan Oh, (参考訳) 本研究では、一方のN$キューと他方のK$サーバからなるマルチクラスマルチサーバ非対称キューシステムについて考察する。 各ジョブサーバ割り当てのサービスレートは未知であり、機能ベースのMNL(Multi-nomial Logit)関数によってモデル化される。 スケジューラはサーバにジョブを割り当て、各サーバは割り当てられたジョブに対する好みに基づいて、少なくとも1つのジョブを確率的に処理する。 アルゴリズムの主な目標は、サーバのサービスレートを学習しながら、システムのキューを安定させることである。 この目的を達成するために,UCB と Thompson Sampling に基づくアルゴリズムを提案する。このアルゴリズムは平均キュー長$O(\min\{N,K\}/\epsilon)$でシステム安定性を実現する。 さらに、アルゴリズムは、$\tilde{O}(\min\{\sqrt{T} Q_{\max},T^{3/4}\})$のサブ線形後悔境界(sublinear regret bounds of $\tilde{O}(\min\{\sqrt{T} Q_{\max},T^{3/4}\})$。 最後に,提案アルゴリズムの性能を示す実験結果について述べる。

In this study, we consider multi-class multi-server asymmetric queueing systems consisting of $N$ queues on one side and $K$ servers on the other side, where jobs randomly arrive in queues at each time. The service rate of each job-server assignment is unknown and modeled by a feature-based Multi-nomial Logit (MNL) function. At each time, a scheduler assigns jobs to servers, and each server stochastically serves at most one job based on its preferences over the assigned jobs. The primary goal of the algorithm is to stabilize the queues in the system while learning the service rates of servers. To achieve this goal, we propose algorithms based on UCB and Thompson Sampling, which achieve system stability with an average queue length bound of $O(\min\{N,K\}/\epsilon)$ for a large time horizon $T$, where $\epsilon$ is a traffic slackness of the system. Furthermore, the algorithms achieve sublinear regret bounds of $\tilde{O}(\min\{\sqrt{T} Q_{\max},T^{3/4}\})$, where $Q_{\max}$ represents the maximum queue length over agents and times. Lastly, we provide experimental results to demonstrate the performance of our algorithms.
翻訳日:2024-10-30 03:04:18 公開日:2024-10-14
# Probing Diffusion Capacityによる高精度ディコトモス画像分割

High-Precision Dichotomous Image Segmentation via Probing Diffusion Capacity ( http://arxiv.org/abs/2410.10105v1 )

ライセンス: Link先を確認
Qian Yu, Peng-Tao Jiang, Hao Zhang, Jinwei Chen, Bo Li, Lihe Zhang, Huchuan Lu, (参考訳) 高分解能(HR)、きめ細かい画像のセグメンテーションの領域において、主な課題は、広義のコンテキスト認識と詳細なオブジェクトのデライン化に必要な精度のバランスを保ち、複雑な詳細とオブジェクトの最も細かいエッジを捉えることである。 SD V2.1のような数十億の画像テキストペアからなる膨大なデータセットに基づいて訓練された拡散モデルは、例外的な品質、細部分解能、強い文脈認識を提供することで、テキストと画像の合成に革命をもたらした。 そこで本研究では,DiffDISを提案する。DiffDISは拡散モデル内における事前学習されたU-Netのポテンシャルを利用する拡散駆動セグメンテーションモデルであり,特に高分解能できめ細かなオブジェクトセグメンテーションのために設計されている。 SDモデルに先立って、頑健な一般化機能とリッチで多目的な画像表現を活用し、タスク固有の安定な1ステップデノイング手法と組み合わせることで、高忠実で詳細な生成を保ちながら、推論時間を著しく短縮する。 さらに,対象境界の細部保存を向上するだけでなく,拡散の確率的性質をセグメンテーションの決定論的要求と整合させる補助エッジ生成タスクを導入する。 これらの改良された戦略により、DiffDISは高速なオブジェクトマスク生成モデルとして機能し、特に高解像度で詳細なバイナリマップを生成するために最適化され、印象的な精度と迅速な処理を示している。 DIS5Kデータセットの実験は、DiffDISの優位性を示し、合理化された推論プロセスを通じて最先端の結果を達成する。 私たちのコードは公開されます。

In the realm of high-resolution (HR), fine-grained image segmentation, the primary challenge is balancing broad contextual awareness with the precision required for detailed object delineation, capturing intricate details and the finest edges of objects. Diffusion models, trained on vast datasets comprising billions of image-text pairs, such as SD V2.1, have revolutionized text-to-image synthesis by delivering exceptional quality, fine detail resolution, and strong contextual awareness, making them an attractive solution for high-resolution image segmentation. To this end, we propose DiffDIS, a diffusion-driven segmentation model that taps into the potential of the pre-trained U-Net within diffusion models, specifically designed for high-resolution, fine-grained object segmentation. By leveraging the robust generalization capabilities and rich, versatile image representation prior of the SD models, coupled with a task-specific stable one-step denoising approach, we significantly reduce the inference time while preserving high-fidelity, detailed generation. Additionally, we introduce an auxiliary edge generation task to not only enhance the preservation of fine details of the object boundaries, but reconcile the probabilistic nature of diffusion with the deterministic demands of segmentation. With these refined strategies in place, DiffDIS serves as a rapid object mask generation model, specifically optimized for generating detailed binary maps at high resolutions, while demonstrating impressive accuracy and swift processing. Experiments on the DIS5K dataset demonstrate the superiority of DiffDIS, achieving state-of-the-art results through a streamlined inference process. Our code will be made publicly available.
翻訳日:2024-10-30 03:04:18 公開日:2024-10-14
# マスタリングAI - ビッグデータ、ディープラーニング、大規模言語モデルの進化 - ブロックチェーンとアプリケーション

Mastering AI: Big Data, Deep Learning, and the Evolution of Large Language Models -- Blockchain and Applications ( http://arxiv.org/abs/2410.10110v1 )

ライセンス: Link先を確認
Pohsun Feng, Ziqian Bi, Lawrence K. Q. Yan, Yizhu Wen, Benji Peng, Junyu Liu, Caitlyn Heqi Yin, Tianyang Wang, Keyu Chen, Sen Zhang, Ming Li, Jiawei Xu, Ming Liu, Xuanhe Pan, Jinlang Wang, Qian Niu, (参考訳) この記事では、さまざまな分野にわたるブロックチェーンテクノロジとそのアプリケーションについて、詳細に調査する。 これは、対称および非対称暗号化を含む暗号化の基本と、ブロックチェーンシステム内のセキュリティと信頼性を保証する上での役割の導入から始まる。 記事はその後、BitcoinとEthereumの構造と仕組みを掘り下げ、仕事の証明、持ち込みの証明、スマートコントラクトなどのトピックを取り上げている。 さらに、分散金融(DeFi)、サプライチェーン管理、ID認証といった業界におけるブロックチェーンの実践的応用を強調している。 この議論はまた、ブロックチェーンにおけるコンセンサスメカニズムとスケーラビリティの課題を拡張し、レイヤ2ソリューションやチェーン間の相互運用性といった新興技術に対する洞察を提供する。 この記事は、ブロックチェーンとその潜在的な将来の発展に関する学術研究の現在の状況に対処することで締めくくっている。

This article provides a detailed exploration of blockchain technology and its applications across various fields. It begins with an introduction to cryptography fundamentals, including symmetric and asymmetric encryption, and their roles in ensuring security and trust within blockchain systems. The article then delves into the structure and mechanics of Bitcoin and Ethereum, covering topics such as proof-of-work, proof-of-stake, and smart contracts. Additionally, it highlights practical applications of blockchain in industries like decentralized finance (DeFi), supply chain management, and identity authentication. The discussion also extends to consensus mechanisms and scalability challenges in blockchain, offering insights into emerging technologies like Layer 2 solutions and cross-chain interoperability. The article concludes by addressing the current state of academic research on blockchain and its potential future developments.
翻訳日:2024-10-30 03:04:18 公開日:2024-10-14
# 視覚領域における大規模モデルの性能予測は可能か?

Can We Predict Performance of Large Models across Vision-Language Tasks? ( http://arxiv.org/abs/2410.10112v1 )

ライセンス: Link先を確認
Qinyu Zhao, Ming Xu, Kartik Gupta, Akshay Asthana, Liang Zheng, Stephen Gould, (参考訳) 大規模視覚言語モデル(LVLM)の評価は非常に高価である。 良いニュースは、すでに観測されたパフォーマンススコアがあれば、未知のパフォーマンススコアを推測できるかもしれないということです。 本研究では,他のLVLMやタスクの観測結果に基づいて,未知のパフォーマンススコアを予測するための新しいフレームワークを提案する。 まず、行列完了タスクとして性能予測を定式化する。 具体的には、スパース性能行列$\boldsymbol{R}$を構築し、各エントリ$R_{mn}$は、$n$-thデータセット上の$m$-thモデルのパフォーマンススコアを表す。 マルコフ連鎖モンテカルロ(MCMC)による確率行列分解(PMF)を適用することにより、未知のスコアを予測できる。 さらに,MCMCに基づく性能予測の不確かさを推定する。 実践者は、まず不確実性の高い未テストタスクでモデルを評価でき、パフォーマンス予測のエラーを迅速に低減できる。 さらに,観測性能の低いシナリオに対するPMF向上のための改良点をいくつか紹介する。 実験では,36のベンチマークから176のデータセットに対して108のLVLMを体系的に評価し,フレームワークを検証するためのトレーニングセットとテストセットを構築した。 実験では,未知のスコアの予測におけるPMFの精度,オーダリング評価における不確実性推定の信頼性,スパースデータ処理における拡張の有効性を実証した。

Evaluating large vision-language models (LVLMs) is very expensive, due to the high computational costs and the wide variety of tasks. The good news is that if we already have some observed performance scores, we may be able to infer unknown ones. In this study, we propose a new framework for predicting unknown performance scores based on observed ones from other LVLMs or tasks. We first formulate the performance prediction as a matrix completion task. Specifically, we construct a sparse performance matrix $\boldsymbol{R}$, where each entry $R_{mn}$ represents the performance score of the $m$-th model on the $n$-th dataset. By applying probabilistic matrix factorization (PMF) with Markov chain Monte Carlo (MCMC), we can complete the performance matrix, that is, predict unknown scores. Additionally, we estimate the uncertainty of performance prediction based on MCMC. Practitioners can evaluate their models on untested tasks with higher uncertainty first, quickly reducing errors in performance prediction. We further introduce several improvements to enhance PMF for scenarios with sparse observed performance scores. In experiments, we systematically evaluate 108 LVLMs on 176 datasets from 36 benchmarks, constructing training and testing sets for validating our framework. Our experiments demonstrate the accuracy of PMF in predicting unknown scores, the reliability of uncertainty estimates in ordering evaluations, and the effectiveness of our enhancements for handling sparse data.
翻訳日:2024-10-30 03:04:18 公開日:2024-10-14
# ランダムなユニタリを構築する方法

How to Construct Random Unitaries ( http://arxiv.org/abs/2410.10116v1 )

ライセンス: Link先を確認
Fermi Ma, Hsin-Yuan Huang, (参考訳) 擬似乱数ユニタリー(PRU)の存在 -- 計算的にハール・ラン数ユニタリーと区別できない効率的な量子回路 -- は、暗号、複雑性理論、基礎物理学に重要な意味を持つ中心的なオープンな問題である。 本研究では、量子セキュアな片方向関数が存在すると仮定して、PRUが存在することを証明して、この問題を解消する。 この結果は,(1) 単位の$U$に対する問合せを行う効率的な逆数に対して,(2) 単位の$U$と逆の$U^\dagger$の両方を問合せ可能な逆数に対してさえも,より強力な PRU の概念に対して安全である。 この過程において、Haar-randomユニタリへのクエリを生成するアルゴリズムは、逆指数トレース距離まで、量子コンピュータ上で効率的にシミュレート可能であることを証明した。

The existence of pseudorandom unitaries (PRUs) -- efficient quantum circuits that are computationally indistinguishable from Haar-random unitaries -- has been a central open question, with significant implications for cryptography, complexity theory, and fundamental physics. In this work, we close this question by proving that PRUs exist, assuming that any quantum-secure one-way function exists. We establish this result for both (1) the standard notion of PRUs, which are secure against any efficient adversary that makes queries to the unitary $U$, and (2) a stronger notion of PRUs, which are secure even against adversaries that can query both the unitary $U$ and its inverse $U^\dagger$. In the process, we prove that any algorithm that makes queries to a Haar-random unitary can be efficiently simulated on a quantum computer, up to inverse-exponential trace distance.
翻訳日:2024-10-30 03:04:18 公開日:2024-10-14
# StegaINR4MIH : 多像隠蔽のための暗黙的神経表現によるステガノグラフィー

StegaINR4MIH: steganography by implicit neural representation for multi-image hiding ( http://arxiv.org/abs/2410.10117v1 )

ライセンス: Link先を確認
Weina Dong, Jia Liu, Lifeng Chen, Wenquan Sun, Xiaozhong Pan, Yan Ke, (参考訳) 複数の秘密画像を隠蔽画像に埋め込んで高品質に復元できるマルチ画像隠蔽は、画像ステガノグラフィー分野における研究ホットスポットになりつつある。 しかし、限られたカバー画像空間に大量のデータを埋め込む必要があるため、輪郭影や色歪みなどの問題がしばしば発生し、マルチイメージの隠蔽には重大な課題が生じる。 本稿では,1つの暗黙表現関数内に複数の画像を隠すことができる新しい暗黙表現ステガノグラフィーフレームワークであるStegaINR4MIHを提案する。 マルチイメージ埋め込みを実現するために複数のエンコーダを使用する従来の手法とは対照的に,本手法では暗黙的表現関数パラメータの冗長性を生かし,事前学習した被写体画像関数に大きさに基づく重み選択とシークレット置換を用い,複数の秘密画像を効果的に隠蔽し,独立に抽出する。 我々は,CelebA-HQ,COCO,DIV2Kという3つの異なるデータセットの解像度で画像の実験を行う。 2つの秘密画像を隠すと、秘密画像とステゴ画像の両方のPSNR値が42。 5つの秘密画像を隠すと、秘密画像とステゴ画像の両方のPSNR値が39。 広汎な実験は、視覚的品質と非検出性の観点から提案手法の優れた性能を示す。

Multi-image hiding, which embeds multiple secret images into a cover image and is able to recover these images with high quality, has gradually become a research hotspot in the field of image steganography. However, due to the need to embed a large amount of data in a limited cover image space, issues such as contour shadowing or color distortion often arise, posing significant challenges for multi-image hiding. In this paper, we propose StegaINR4MIH, a novel implicit neural representation steganography framework that enables the hiding of multiple images within a single implicit representation function. In contrast to traditional methods that use multiple encoders to achieve multi-image embedding, our approach leverages the redundancy of implicit representation function parameters and employs magnitude-based weight selection and secret weight substitution on pre-trained cover image functions to effectively hide and independently extract multiple secret images. We conduct experiments on images with a resolution of from three different datasets: CelebA-HQ, COCO, and DIV2K. When hiding two secret images, the PSNR values of both the secret images and the stego images exceed 42. When hiding five secret images, the PSNR values of both the secret images and the stego images exceed 39. Extensive experiments demonstrate the superior performance of the proposed method in terms of visual quality and undetectability.
翻訳日:2024-10-30 03:04:18 公開日:2024-10-14
# 分子マルチタスク学習における物理整合性ブリッジの不均一性

Physical Consistency Bridges Heterogeneous Data in Molecular Multi-Task Learning ( http://arxiv.org/abs/2410.10118v1 )

ライセンス: Link先を確認
Yuxuan Ren, Dihan Zheng, Chang Liu, Peiran Jin, Yu Shi, Lin Huang, Jiyan He, Shengjie Luo, Tao Qin, Tie-Yan Liu, (参考訳) 近年、機械学習は分子科学のタスクを処理できる優れた能力を示している。 大規模で様々な分子特性をサポートするため、機械学習モデルはマルチタスク学習パラダイムで訓練される。 しかし、いくつかの量、例えば平衡構造、計算コストの増大、例えばエネルギーなど、異なる分子特性のデータはしばしば一致しないため、それらのデータはより安価な計算手法によって、より低い精度で生成され、マルチタスク学習によって直接的に克服できない。 さらに、特定のタスクに利益をもたらすために、他のタスクの豊富なデータを利用するのは簡単ではない。 このようなデータ不均一性問題に対処するために、物理法則が存在する分子タスクの特殊性を活用し、異なるタスクが情報を直接交換して互いに改善できるように、一貫性のトレーニングアプローチを設計する。 特に、より正確なエネルギーデータにより、構造予測の精度が向上することを示した。 また、整合性トレーニングは、力と非平衡構造データを直接活用して構造予測を改善し、異種データを統合する幅広い能力を示す。

In recent years, machine learning has demonstrated impressive capability in handling molecular science tasks. To support various molecular properties at scale, machine learning models are trained in the multi-task learning paradigm. Nevertheless, data of different molecular properties are often not aligned: some quantities, e.g. equilibrium structure, demand more cost to compute than others, e.g. energy, so their data are often generated by cheaper computational methods at the cost of lower accuracy, which cannot be directly overcome through multi-task learning. Moreover, it is not straightforward to leverage abundant data of other tasks to benefit a particular task. To handle such data heterogeneity challenges, we exploit the specialty of molecular tasks that there are physical laws connecting them, and design consistency training approaches that allow different tasks to exchange information directly so as to improve one another. Particularly, we demonstrate that the more accurate energy data can improve the accuracy of structure prediction. We also find that consistency training can directly leverage force and off-equilibrium structure data to improve structure prediction, demonstrating a broad capability for integrating heterogeneous data.
翻訳日:2024-10-30 03:04:18 公開日:2024-10-14
# 機械学習の評価 - 事前修正のないロバスト性検証

Evaluating of Machine Unlearning: Robustness Verification Without Prior Modifications ( http://arxiv.org/abs/2410.10120v1 )

ライセンス: Link先を確認
Heng Xu, Tianqing Zhu, Wanlei Zhou, (参考訳) 機械学習は、事前訓練されたモデルが特定のトレーニングサンプルの影響を除去することを可能にするプロセスであり、近年大きな注目を集めている。 大規模な研究は効率的なアンラーニング戦略の開発に重点を置いているが、アンラーニング検証の重要な側面は概ね見過ごされている。 既存の検証方法は、主にメンバーシップ推論攻撃(MIA)やバックドア攻撃のような機械学習攻撃技術に依存している。 しかしながら、これらの手法は公式には検証目的のために設計されておらず、堅牢性の限界を示し、サンプルの小さな事前定義されたサブセットしかサポートしていない。 さらに、MIAまたはバックドア攻撃のサンプルレベルの準備された修正への依存は、機械学習・アズ・ア・サービス(MLaaS)環境での適用性を制限する。 これらの制約に対処するため、我々は事前の変更なしに新しい堅牢性検証手法を提案し、より大きなセットでの検証を支援することができる。 本手法では,モデルから実際のトレーニングサンプルを復元する最適化手法を用いる。 学習前および学習後から抽出したサンプルの比較分析により、MLaaSユーザは未学習プロセスを検証することができる。 この検証スキームは、モデルパラメータを通してのみ動作するが、モデルトレーニングの前にサンプルレベルの修正は必要とせず、さらに大きなセットでの検証をサポートし、堅牢性を維持する。 提案手法の有効性は,様々なシナリオにおける様々なデータセット上の多様なモデルを含む理論的解析と実験によって実証される。

Machine unlearning, a process enabling pre-trained models to remove the influence of specific training samples, has attracted significant attention in recent years. While extensive research has focused on developing efficient unlearning strategies, the critical aspect of unlearning verification has been largely overlooked. Existing verification methods mainly rely on machine learning attack techniques, such as membership inference attacks (MIAs) or backdoor attacks. However, these methods, not being formally designed for verification purposes, exhibit limitations in robustness and only support a small, predefined subset of samples. Moreover, dependence on prepared sample-level modifications of MIAs or backdoor attacks restricts their applicability in Machine Learning as a Service (MLaaS) environments. To address these limitations, we propose a novel robustness verification scheme without any prior modifications, and can support verification on a much larger set. Our scheme employs an optimization-based method to recover the actual training samples from the model. By comparative analysis of recovered samples extracted pre- and post-unlearning, MLaaS users can verify the unlearning process. This verification scheme, operating exclusively through model parameters, avoids the need for any sample-level modifications prior to model training while supporting verification on a much larger set and maintaining robustness. The effectiveness of our proposed approach is demonstrated through theoretical analysis and experiments involving diverse models on various datasets in different scenarios.
翻訳日:2024-10-30 03:04:18 公開日:2024-10-14
# 対話型2分岐画像デハージングネットワーク

Interaction-Guided Two-Branch Image Dehazing Network ( http://arxiv.org/abs/2410.10121v1 )

ライセンス: Link先を確認
Huichun Liu, Xiaosong Li, Tianshu Tan, (参考訳) Image Dehazingは、汚れた画像からクリーンなイメージを復元することを目的としている。 畳み込みニューラルネットワーク(CNN)とトランスフォーマー(Transformers)はそれぞれ、局所的およびグローバルな特徴抽出において例外的なパフォーマンスを示しており、現在はイメージデハジングにおける2つの主流フレームワークを表している。 本稿では,CNNとTransformerコンポーネントをインタラクティブにガイドする2分岐画像デハージングフレームワークを提案する。 我々は,CNNとトランスフォーマーの相補的特性について,グローバルな特徴とローカルな特徴の差分関係を利用した対話的ガイダンスを用いて再検討する。 このアプローチにより、グローバルアテンションマップによる局所的特徴位置のキャプチャが可能となり、CNNは効果的な位置における特徴情報のみに焦点を絞ることができる。 シングルブランチ変換器の設計により、ネットワークのグローバルな情報回復能力が保証される。 大規模な実験により,提案手法は, 合成データセットと実データの両方において, 競合的な質的, 定量的な評価性能が得られることを示した。 コードはhttps://github.com/Feecuin/Two-Branch-Dehazingで公開されている。

Image dehazing aims to restore clean images from hazy ones. Convolutional Neural Networks (CNNs) and Transformers have demonstrated exceptional performance in local and global feature extraction, respectively, and currently represent the two mainstream frameworks in image dehazing. In this paper, we propose a novel dual-branch image dehazing framework that guides CNN and Transformer components interactively. We reconsider the complementary characteristics of CNNs and Transformers by leveraging the differential relationships between global and local features for interactive guidance. This approach enables the capture of local feature positions through global attention maps, allowing the CNN to focus solely on feature information at effective positions. The single-branch Transformer design ensures the network's global information recovery capability. Extensive experiments demonstrate that our proposed method yields competitive qualitative and quantitative evaluation performance on both synthetic and real public datasets. Codes are available at https://github.com/Feecuin/Two-Branch-Dehazing
翻訳日:2024-10-30 02:54:14 公開日:2024-10-14
# Package-to-Groupメカニズムの初見:Linuxディストリビューションの実証的研究

A First Look at Package-to-Group Mechanism: An Empirical Study of the Linux Distributions ( http://arxiv.org/abs/2410.10131v1 )

ライセンス: Link先を確認
Dongming Jin, Nianyu Li, Kai Yang, Minghui Zhou, Zhi Jin, (参考訳) サードパーティのソフトウェアパッケージを再利用することは、ソフトウェア開発において一般的なプラクティスである。 オープンソースソフトウェア(OSS)プロジェクトの規模と複雑さが拡大し続け(Linuxディストリビューションなど)、再利用されたサードパーティパッケージの数は大幅に増加した。 したがって、OSSプロジェクトの開発と発展には、効果的なパッケージ管理の維持が不可欠である。 これを実現するために、複数のパッケージの統一的なインストール、アンインストール、更新を可能にするパッケージ・ツー・グループ機構(P2G)が採用されている。 このメカニズムをより深く理解するために,本研究では,Linuxディストリビューションを事例として,その応用動向,進化パターン,グループ品質,開発者の傾向に着目した実証的研究を行う。 5つのLinuxディストリビューションの89バージョンから11,746グループと193,548パッケージを分析し、Linux実践者と研究者によるアンケートを実施し、いくつかの重要な洞察を得た。 我々の研究結果によると、P2Gは、特に人気のあるLinuxディストリビューションで採用されている。 P2G は6つの進化パターン (\eg splitting と merging group) に従う。 興味深いことに、P2Gで管理されていないパッケージは、直接削除されるよりもLinuxディストリビューションに留まる可能性が高い。 P2Gの有効性を評価するために、グループの品質を評価し、不適切なグループ記述や不十分なグループサイズなどの問題を識別する指標である {\sc GValue}を提案する。 また、グラフィカルデスクトップやネットワークなど、P2Gを採用する傾向にある5種類のパッケージについても要約します。 私たちの知る限りでは、これがP2Gメカニズムに焦点を当てた最初の研究である。 我々は,パッケージの効率的な管理を支援するとともに,急速に成長するLinuxディストリビューションや他のオープンソースプロジェクトにおける実践者の負担を軽減することを期待する。

Reusing third-party software packages is a common practice in software development. As the scale and complexity of open-source software (OSS) projects continue to grow (e.g., Linux distributions), the number of reused third-party packages has significantly increased. Therefore, maintaining effective package management is critical for developing and evolving OSS projects. To achieve this, a package-to-group mechanism (P2G) is employed to enable unified installation, uninstallation, and updates of multiple packages at once. To better understand this mechanism, this paper takes Linux distributions as a case study and presents an empirical study focusing on its application trends, evolutionary patterns, group quality, and developer tendencies. By analyzing 11,746 groups and 193,548 packages from 89 versions of 5 popular Linux distributions and conducting questionnaire surveys with Linux practitioners and researchers, we derive several key insights. Our findings show that P2G is increasingly being adopted, particularly in popular Linux distributions. P2G follows six evolutionary patterns (\eg splitting and merging groups). Interestingly, packages no longer managed through P2G are more likely to remain in Linux distributions rather than being directly removed. To assess the effectiveness of P2G, we propose a metric called {\sc GValue} to evaluate the quality of groups and identify issues such as inadequate group descriptions and insufficient group sizes. We also summarize five types of packages that tend to adopt P2G, including graphical desktops, networks, etc. To the best of our knowledge, this is the first study focusing on the P2G mechanisms. We expect our study can assist in the efficient management of packages and reduce the burden on practitioners in rapidly growing Linux distributions and other open-source software projects.
翻訳日:2024-10-30 02:54:14 公開日:2024-10-14
# 安定なアダマール記憶:強化学習のための記憶強化エージェントの活性化

Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning ( http://arxiv.org/abs/2410.10132v1 )

ライセンス: Link先を確認
Hung Le, Kien Do, Dung Nguyen, Sunil Gupta, Svetha Venkatesh, (参考訳) 部分的に観測可能な環境での効果的な意思決定は、堅牢なメモリ管理を必要とする。 教師あり学習の成功にもかかわらず、現在のディープラーニングの記憶モデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。 それらは、関連した過去の情報を効率的に捉えることができず、観察の変化に柔軟に適応し、長期間にわたって安定した更新を維持する。 我々は,既存のメモリモデルの制約を統一されたフレームワーク内で理論的に解析し,強化学習エージェントのための新しいメモリモデルであるスタブル・アダマールメモリを導入する。 我々のモデルは、もはや必要のない経験を消去し、重要な体験を効率よく補強することで、動的にメモリ調整を行う。 この目的のために、メモリの校正と更新にHadamard製品を活用し、特に数値と学習の課題を軽減しつつ、メモリ容量の増強を図っている。 提案手法は,メタ強化学習,長期クレジット割り当て,POPGymなど,部分的に観測可能なベンチマークに挑戦する上で,最先端のメモリベース手法よりも優れ,長期的・進化的なコンテキストを扱う上で優れた性能を示す。

Effective decision-making in partially observable environments demands robust memory management. Despite their success in supervised learning, current deep-learning memory models struggle in reinforcement learning environments that are partially observable and long-term. They fail to efficiently capture relevant past information, adapt flexibly to changing observations, and maintain stable updates over long episodes. We theoretically analyze the limitations of existing memory models within a unified framework and introduce the Stable Hadamard Memory, a novel memory model for reinforcement learning agents. Our model dynamically adjusts memory by erasing no longer needed experiences and reinforcing crucial ones computationally efficiently. To this end, we leverage the Hadamard product for calibrating and updating memory, specifically designed to enhance memory capacity while mitigating numerical and learning challenges. Our approach significantly outperforms state-of-the-art memory-based methods on challenging partially observable benchmarks, such as meta-reinforcement learning, long-horizon credit assignment, and POPGym, demonstrating superior performance in handling long-term and evolving contexts.
翻訳日:2024-10-30 02:54:14 公開日:2024-10-14
# TextCtrl: 優先誘導制御による拡散に基づくシーンテキスト編集

TextCtrl: Diffusion-based Scene Text Editing with Prior Guidance Control ( http://arxiv.org/abs/2410.10133v1 )

ライセンス: Link先を確認
Weichao Zeng, Yan Shu, Zhenhang Li, Dongbao Yang, Yu Zhou, (参考訳) コンテンツ修正とスタイル保存を中心にしたSTE(Scene Text Editing)は、最近のテキストと画像の合成とテキストによる画像操作の大幅な進歩にもかかわらず、依然として困難な課題である。 GANベースのSTE法は一般にモデル一般化の一般的な問題に直面するが、DiffusionベースのSTE法は望ましくないスタイルの偏差に悩まされる。 このような問題に対処するために,テキストを事前の誘導制御で編集する拡散法であるTextCtrlを提案する。 提案手法は,2つのキーコンポーネントから構成される。 i) きめ細かいテキストスタイルの歪みと頑健なテキストグリフ構造表現を構築することにより,TextCtrlはモデル設計とネットワークトレーニングにスタイル構造ガイダンスを明示的に組み込むことで,テキストスタイルの一貫性とレンダリング精度を大幅に向上させる。 (II) 事前のスタイルを更に活用するために, 画像の暗黙的きめ細かな特徴を分解し, 推論時のスタイルの整合性と視覚的品質を向上させるグリフ適応型相互自己認識機構を提案する。 さらに、実世界のSTE評価ベンチマークの空白を埋めるために、フェアな比較のためにScenePairと呼ばれる最初の実世界の画像ペアデータセットを作成します。 TextCtrlの有効性を,スタイルの忠実さとテキストの正確さの両面から検証した。

Centred on content modification and style preservation, Scene Text Editing (STE) remains a challenging task despite considerable progress in text-to-image synthesis and text-driven image manipulation recently. GAN-based STE methods generally encounter a common issue of model generalization, while Diffusion-based STE methods suffer from undesired style deviations. To address these problems, we propose TextCtrl, a diffusion-based method that edits text with prior guidance control. Our method consists of two key components: (i) By constructing fine-grained text style disentanglement and robust text glyph structure representation, TextCtrl explicitly incorporates Style-Structure guidance into model design and network training, significantly improving text style consistency and rendering accuracy. (ii) To further leverage the style prior, a Glyph-adaptive Mutual Self-attention mechanism is proposed which deconstructs the implicit fine-grained features of the source image to enhance style consistency and vision quality during inference. Furthermore, to fill the vacancy of the real-world STE evaluation benchmark, we create the first real-world image-pair dataset termed ScenePair for fair comparisons. Experiments demonstrate the effectiveness of TextCtrl compared with previous methods concerning both style fidelity and text accuracy.
翻訳日:2024-10-30 02:54:14 公開日:2024-10-14
# FormalAlign: オートフォーマル化のための自動アライメント評価

FormalAlign: Automated Alignment Evaluation for Autoformalization ( http://arxiv.org/abs/2410.10135v1 )

ライセンス: Link先を確認
Jianqiao Lu, Yingjia Wan, Yinya Huang, Jing Xiong, Zhengying Liu, Zhijiang Guo, (参考訳) オートフォーマル化は、非公式な数学的証明を機械で検証可能な形式に変換し、自然言語と形式言語のギャップを埋めることを目的としている。 しかし、非公式な文と形式化された文のセマンティックアライメントを確保することは依然として困難である。 既存のアプローチは手動による検証に大きく依存しており、スケーラビリティを妨げる。 これを解決するために,自然言語と形式言語のアライメントを評価するために設計された最初の自動フレームワークである \textsc{FormalAlign} を紹介する。 \textsc{FormalAlign} は、オートフォーマル化シーケンス生成タスクと入力と出力の間の表現的アライメントの両方をトレーニングし、相互に強化されたオートフォーマル化とアライメントタスクのペアを組み合わせた二重損失を使用する。 提案手法によって強化された4つのベンチマークから評価し,より優れた性能を示す。 我々の実験では、textsc{FormalAlign} は GPT-4 より優れ、 \forml-Basic では 11.58 %、MiniF2F-Valid では 3.19 %(66.39 % 対 64.34 %) である。 この効果的なアライメント評価は、手動検証の必要性を大幅に低減する。 データセットとコードは、~\url{https://github.com/rookie-joe/FormalAlign}を介してアクセスすることができる。

Autoformalization aims to convert informal mathematical proofs into machine-verifiable formats, bridging the gap between natural and formal languages. However, ensuring semantic alignment between the informal and formalized statements remains challenging. Existing approaches heavily rely on manual verification, hindering scalability. To address this, we introduce \textsc{FormalAlign}, the first automated framework designed for evaluating the alignment between natural and formal languages in autoformalization. \textsc{FormalAlign} trains on both the autoformalization sequence generation task and the representational alignment between input and output, employing a dual loss that combines a pair of mutually enhancing autoformalization and alignment tasks. Evaluated across four benchmarks augmented by our proposed misalignment strategies, \textsc{FormalAlign} demonstrates superior performance. In our experiments, \textsc{FormalAlign} outperforms GPT-4, achieving an Alignment-Selection Score 11.58\% higher on \forml-Basic (99.21\% vs. 88.91\%) and 3.19\% higher on MiniF2F-Valid (66.39\% vs. 64.34\%). This effective alignment evaluation significantly reduces the need for manual verification. Both the dataset and code can be accessed via~\url{https://github.com/rookie-joe/FormalAlign}.
翻訳日:2024-10-30 02:54:14 公開日:2024-10-14
# Beyond-RAG:リアルタイム会話における質問識別と回答生成

Beyond-RAG: Question Identification and Answer Generation in Real-Time Conversations ( http://arxiv.org/abs/2410.10136v1 )

ライセンス: Link先を確認
Garima Agrawal, Sashank Gummuluri, Cosimo Spera, (参考訳) カスタマーコンタクトセンターでは、質問を手動で解釈し、関連する知識ベース(KB)記事を取得する必要があるため、人間エージェントは長い平均処理時間(AHT)に苦しむことが多い。 大規模言語モデル(LLM)を用いた検索強化システム(RAG)は,そのようなタスクを支援するために業界で広く採用されているが,RAGは不正確なクエリの定式化や頻繁な質問(FAQ)の冗長な検索など,リアルタイム会話における課題に直面している。 これらの制約に対処するため,顧客質問をリアルタイムに識別し,RAGを超越した意思決定支援システムを提案する。 クエリがFAQと一致した場合、システムはFAQデータベースから直接回答を検索する。 このアプローチでは,手動クエリへの依存を低減し,エージェントへの応答を2秒以内で提供する。 Minerva CQでAIを活用したヒューマンエージェントアシストソリューションとしてデプロイされたこのシステムは、効率を改善し、AHTを低減し、運用コストを低減します。 また,既定のFAQが存在しない場合に,過去の文書からFAQを識別するためのLLM-agenticワークフローも導入する。

In customer contact centers, human agents often struggle with long average handling times (AHT) due to the need to manually interpret queries and retrieve relevant knowledge base (KB) articles. While retrieval augmented generation (RAG) systems using large language models (LLMs) have been widely adopted in industry to assist with such tasks, RAG faces challenges in real-time conversations, such as inaccurate query formulation and redundant retrieval of frequently asked questions (FAQs). To address these limitations, we propose a decision support system that can look beyond RAG by first identifying customer questions in real time. If the query matches an FAQ, the system retrieves the answer directly from the FAQ database; otherwise, it generates answers via RAG. Our approach reduces reliance on manual queries, providing responses to agents within 2 seconds. Deployed in AI-powered human-agent assist solution at Minerva CQ, this system improves efficiency, reduces AHT, and lowers operational costs. We also introduce an automated LLM-agentic workflow to identify FAQs from historical transcripts when no predefined FAQs exist.
翻訳日:2024-10-30 02:54:14 公開日:2024-10-14
# MMIE:大規模視覚言語モデルのための大規模マルチモーダルインターリーブ統合ベンチマーク

MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models ( http://arxiv.org/abs/2410.10139v1 )

ライセンス: Link先を確認
Peng Xia, Siwei Han, Shi Qiu, Yiyang Zhou, Zhaoyang Wang, Wenhao Zheng, Zhaorun Chen, Chenhang Cui, Mingyu Ding, Linjie Li, Lijuan Wang, Huaxiu Yao, (参考訳) モデルが任意のシーケンスで画像とテキストを生成・解釈できるインターリーブ型マルチモーダル理解と生成は、マルチモーダル学習において重要な領域となっている。 大幅な進歩にもかかわらず、この能力の評価は依然として不十分である。 既存のベンチマークは、データスケール、スコープ、評価の深さの制限に悩まされる一方、現在の評価指標は、しばしばコストやバイアスがかかり、実用的なアプリケーションに対する信頼性が欠如している。 これらの課題に対処するために,LVLM(Large Vision-Language Models)におけるインターリーブ型マルチモーダル理解と生成を評価するための大規模知識集約型ベンチマークMMIEを紹介する。 MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。 インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。 また, 評価精度の向上とバイアス低減を目的とした評価基準と, 微調整されたスコアリングモデルを用いた信頼性の高い自動評価指標を提案する。 大規模実験により, インターリーブLVLMの総合評価を行う上で, ベンチマークと指標の有効性が示された。 具体的には、8つのLVLMを評価し、最高のモデルでさえ改善の余地があり、そのほとんどは適度な結果しか得られないことを示した。 我々はMMIEがインターリーブLVLMの開発にさらなる進歩をもたらすと信じている。 ベンチマークとコードはhttps://mmie-bench.github.io/で公開しています。

Interleaved multimodal comprehension and generation, enabling models to produce and interpret both images and text in arbitrary sequences, have become a pivotal area in multimodal learning. Despite significant advancements, the evaluation of this capability remains insufficient. Existing benchmarks suffer from limitations in data scale, scope, and evaluation depth, while current evaluation metrics are often costly or biased, lacking in reliability for practical applications. To address these challenges, we introduce MMIE, a large-scale knowledge-intensive benchmark for evaluating interleaved multimodal comprehension and generation in Large Vision-Language Models (LVLMs). MMIE comprises 20K meticulously curated multimodal queries, spanning 3 categories, 12 fields, and 102 subfields, including mathematics, coding, physics, literature, health, and arts. It supports both interleaved inputs and outputs, offering a mix of multiple-choice and open-ended question formats to evaluate diverse competencies. Moreover, we propose a reliable automated evaluation metric, leveraging a scoring model fine-tuned with human-annotated data and systematic evaluation criteria, aimed at reducing bias and improving evaluation accuracy. Extensive experiments demonstrate the effectiveness of our benchmark and metrics in providing a comprehensive evaluation of interleaved LVLMs. Specifically, we evaluate eight LVLMs, revealing that even the best models show significant room for improvement, with most achieving only moderate results. We believe MMIE will drive further advancements in the development of interleaved LVLMs. We publicly release our benchmark and code in https://mmie-bench.github.io/.
翻訳日:2024-10-30 02:54:14 公開日:2024-10-14
# Hi-Mamba: 画像超解像のための階層型Mamba

Hi-Mamba: Hierarchical Mamba for Efficient Image Super-Resolution ( http://arxiv.org/abs/2410.10140v1 )

ライセンス: Link先を確認
Junbo Qiao, Jincheng Liao, Wei Li, Yulun Zhang, Yong Guo, Yi Wen, Zhangxizi Qiu, Jiao Xie, Jie Hu, Shaohui Lin, (参考訳) Mambaのような状態空間モデル(SSM)は、線形複雑性による長距離依存性のモデリングにおいて強力な表現能力を示し、ハイレベルからローレベルなビジョンタスクに成功している。 しかし、SSMのシーケンシャルな性質は、画像を1Dシーケンスに展開する際に空間依存の喪失を補うために、異なる方向に複数のスキャンを必要とする。 この多方向走査戦略は計算オーバーヘッドを大幅に増加させ、高解像度画像処理には適さない。 この問題に対処するために,画像超解像(SR)のための新しい階層型マンバネットワーク(Hi-Mamba)を提案する。 階層型マンバブロック (HMB) はローカルSSM (L-SSM) とリージョンSSM (R-SSM) によって組み立てられ、それぞれが単一方向走査により、コンテキストモデリング能力を高めるために複数のスケールの表現を集約する。 2) 方向交代型階層型マンバ群 (DA-HMG) は, 空間関係モデリングの強化のために, カスケードHMBにアイソマー単方向走査を割り当てる。 大規模な実験は、効率的なSRのための5つのベンチマークデータセットにおけるHi-Mambaの優位性を実証している。 例えば、Hi-Mambaは、強い軽量のMambaIRと比較して、Manga109上で$\times3$ SRで0.29dBのPSNR改善を実現している。

State Space Models (SSM), such as Mamba, have shown strong representation ability in modeling long-range dependency with linear complexity, achieving successful applications from high-level to low-level vision tasks. However, SSM's sequential nature necessitates multiple scans in different directions to compensate for the loss of spatial dependency when unfolding the image into a 1D sequence. This multi-direction scanning strategy significantly increases the computation overhead and is unbearable for high-resolution image processing. To address this problem, we propose a novel Hierarchical Mamba network, namely, Hi-Mamba, for image super-resolution (SR). Hi-Mamba consists of two key designs: (1) The Hierarchical Mamba Block (HMB) assembled by a Local SSM (L-SSM) and a Region SSM (R-SSM) both with the single-direction scanning, aggregates multi-scale representations to enhance the context modeling ability. (2) The Direction Alternation Hierarchical Mamba Group (DA-HMG) allocates the isomeric single-direction scanning into cascading HMBs to enrich the spatial relationship modeling. Extensive experiments demonstrate the superiority of Hi-Mamba across five benchmark datasets for efficient SR. For example, Hi-Mamba achieves a significant PSNR improvement of 0.29 dB on Manga109 for $\times3$ SR, compared to the strong lightweight MambaIR.
翻訳日:2024-10-30 02:54:14 公開日:2024-10-14
# 知識蒸留による投機的復号の温度中心解析

Temperature-Centric Investigation of Speculative Decoding with Knowledge Distillation ( http://arxiv.org/abs/2410.10141v1 )

ライセンス: Link先を確認
Siru Ouyang, Shuohang Wang, Minhao Jiang, Ming Zhong, Donghan Yu, Jiawei Han, Yelong Shen, (参考訳) 投機的復号化は、自己回帰(大規模)言語モデルにおいて推論を迅速化する重要な手法である。 この方法は、より小さなドラフトモデルを用いてトークンのブロックを推測し、ターゲットモデルが受け入れのために評価する。 投機的復号化の効率向上を目的とした多くの研究にもかかわらず、生成構成が復号化過程に与える影響は、特に復号化温度についてよく理解されていない。 本稿では,復号化温度が投機的復号化効果に及ぼす影響を考察する。 知識蒸留(KD)から始め、我々はまず高温での復号化の課題を強調し、一貫した温度設定でKDを再現できることを実証する。 また,領域外温度テストセットの効果についても検討した。 これらの知見に基づいて、特に高温環境での投機的復号化のスピードアップを推し進める第一歩を踏み出した。 我々の研究は、生成構成が投機的復号化の性能にどのように大きく影響するかに関する新たな洞察を与え、多様な復号化構成にフォーカスする手法の開発の必要性を浮き彫りにしている。 コードはhttps://github.com/ozyyshr/TempSpec.comで公開されている。

Speculative decoding stands as a pivotal technique to expedite inference in autoregressive (large) language models. This method employs a smaller draft model to speculate a block of tokens, which the target model then evaluates for acceptance. Despite a wealth of studies aimed at increasing the efficiency of speculative decoding, the influence of generation configurations on the decoding process remains poorly understood, especially concerning decoding temperatures. This paper delves into the effects of decoding temperatures on speculative decoding's efficacy. Beginning with knowledge distillation (KD), we first highlight the challenge of decoding at higher temperatures, and demonstrate KD in a consistent temperature setting could be a remedy. We also investigate the effects of out-of-domain testing sets with out-of-range temperatures. Building upon these findings, we take an initial step to further the speedup for speculative decoding, particularly in a high-temperature generation setting. Our work offers new insights into how generation configurations drastically affect the performance of speculative decoding, and underscores the need for developing methods that focus on diverse decoding configurations. Code is publically available at https://github.com/ozyyshr/TempSpec.
翻訳日:2024-10-30 02:54:14 公開日:2024-10-14
# マルチタスク・マルチソースコントラスト学習によるゲノム・バイオメディカル概念の統一表現

Unified Representation of Genomic and Biomedical Concepts through Multi-Task, Multi-Source Contrastive Learning ( http://arxiv.org/abs/2410.10144v1 )

ライセンス: Link先を確認
Hongyi Yuan, Suqi Liu, Kelly Cho, Katherine Liao, Alexandre Pereira, Tianxi Cai, (参考訳) 本稿では,遺伝子および生物医学的知識基盤を橋渡しするフレームワークであるgenEREL(genomic Encoding Representation with Language Model)を紹介する。 genERELとの違いは、言語モデルを微調整して、病気や医薬品といった臨床概念の背後に生物学的知識を注入する能力である。 この微調整により、複雑なバイオメディカルな関係をより効果的に捉え、ゲノムデータが臨床的結果とどのように結びつくかを理解することができる。 患者レベルのデータ、バイオメディカル知識グラフ、GWAS要約などのソースから、バイオメディカル概念のための統一的な埋め込み空間と幅広い共通SNPを構築することにより、GENERELはマルチタスクコントラスト学習を通じて、SNPと臨床概念の埋め込みを整合させる。 これにより、モデルは、異なるデータソースにまたがる従来のコードマッピングシステムの制限を回避しながら、バイオメディカルな概念の多様な自然言語表現に適応することができる。 本実験は,SNPと臨床概念のニュアンス関係を効果的に把握するgenERELの能力を実証するものである。 genERELはまた、関連性の程度を識別し、より洗練された概念の識別を可能にする。 SNPとバイオメディカル概念の両方に統一的な埋め込みシステムを構築するというこの先駆的なアプローチは、バイオメディカル研究におけるデータ統合と発見の可能性を高める。

We introduce GENomic Encoding REpresentation with Language Model (GENEREL), a framework designed to bridge genetic and biomedical knowledge bases. What sets GENEREL apart is its ability to fine-tune language models to infuse biological knowledge behind clinical concepts such as diseases and medications. This fine-tuning enables the model to capture complex biomedical relationships more effectively, enriching the understanding of how genomic data connects to clinical outcomes. By constructing a unified embedding space for biomedical concepts and a wide range of common SNPs from sources such as patient-level data, biomedical knowledge graphs, and GWAS summaries, GENEREL aligns the embeddings of SNPs and clinical concepts through multi-task contrastive learning. This allows the model to adapt to diverse natural language representations of biomedical concepts while bypassing the limitations of traditional code mapping systems across different data sources. Our experiments demonstrate GENEREL's ability to effectively capture the nuanced relationships between SNPs and clinical concepts. GENEREL also emerges to discern the degree of relatedness, potentially allowing for a more refined identification of concepts. This pioneering approach in constructing a unified embedding system for both SNPs and biomedical concepts enhances the potential for data integration and discovery in biomedical research.
翻訳日:2024-10-30 02:44:27 公開日:2024-10-14
# 乳がん分類のためのマルチモーダルデータを用いた深層学習モデルと変圧器モデルの性能評価

Performance Evaluation of Deep Learning and Transformer Models Using Multimodal Data for Breast Cancer Classification ( http://arxiv.org/abs/2410.10146v1 )

ライセンス: Link先を確認
Sadam Hussain, Mansoor Ali, Usman Naseem, Beatriz Alejandra Bosques Palomo, Mario Alexis Monsivais Molina, Jorge Alberto Garza Abdala, Daly Betzabeth Avendano Avalos, Servando Cardona-Huerta, T. Aaron Gulliver, Jose Gerardo Tamez Pena, (参考訳) 乳がんの発生率と死亡率の上昇は、女性にとって大きな国際的懸念である。 深層学習(DL)は,BC分類において,ヒトの専門読者と比較して優れた診断性能を示した。 しかし, デジタルマンモグラフィー(unimodal, デジタルマンモグラフィー)の特徴は, 診断モデルの性能を低下させる可能性がある。 そこで我々は,画像データとテキストデータの両方からなる新しいマルチモーダルデータセットを収集した。 本研究では,BC分類のための多モードDLアーキテクチャを提案し,画像(マンモグラム,4ビュー)とテキストデータ(放射線学的レポート)を新しい社内データセットから利用した。 画像データとテキストデータの両方のトレーニングデータサイズを向上させるために,様々な拡張手法を適用した。 我々は,11のSOTA DLアーキテクチャ (VGG16, VGG19, ResNet34, ResNet50, MobileNet-v3, EffNet-b0, EffNet-b1, EffNet-b2, EffNet-b3, EffNet-b7, Vision Transformer (ViT) を画像特徴抽出器として検討した。 テキストの特徴抽出には,ニューラルネットワーク(ANN)と長期記憶(LSTM)を併用した。 画像とテキストの組み合わせは、後期融合技術を用いて、BC分類のためのANN分類器に入力される。 特徴抽出器と分類器の配置について検討した。 VGG19とANNの組み合わせは0.951の精度を達成した。 VGG19とANNの組み合わせは、他のCNNとLSTM、ANNベースのアーキテクチャを再び上回り、スコアは0.95となった。 0.903の最高の感度スコアはVGG16+LSTMによって達成された。 0.931の最高スコアはVGG19+LSTMで達成された。 VGG16+LSTMのみが0.937の曲線の下で最高の面積を達成し、VGG16+LSTMは0.929のAUCスコアで密接に続いた。

Rising breast cancer (BC) occurrence and mortality are major global concerns for women. Deep learning (DL) has demonstrated superior diagnostic performance in BC classification compared to human expert readers. However, the predominant use of unimodal (digital mammography) features may limit the current performance of diagnostic models. To address this, we collected a novel multimodal dataset comprising both imaging and textual data. This study proposes a multimodal DL architecture for BC classification, utilising images (mammograms; four views) and textual data (radiological reports) from our new in-house dataset. Various augmentation techniques were applied to enhance the training data size for both imaging and textual data. We explored the performance of eleven SOTA DL architectures (VGG16, VGG19, ResNet34, ResNet50, MobileNet-v3, EffNet-b0, EffNet-b1, EffNet-b2, EffNet-b3, EffNet-b7, and Vision Transformer (ViT)) as imaging feature extractors. For textual feature extraction, we utilised either artificial neural networks (ANNs) or long short-term memory (LSTM) networks. The combined imaging and textual features were then inputted into an ANN classifier for BC classification, using the late fusion technique. We evaluated different feature extractor and classifier arrangements. The VGG19 and ANN combinations achieved the highest accuracy of 0.951. For precision, the VGG19 and ANN combination again surpassed other CNN and LSTM, ANN based architectures by achieving a score of 0.95. The best sensitivity score of 0.903 was achieved by the VGG16+LSTM. The highest F1 score of 0.931 was achieved by VGG19+LSTM. Only the VGG16+LSTM achieved the best area under the curve (AUC) of 0.937, with VGG16+LSTM closely following with a 0.929 AUC score.
翻訳日:2024-10-30 02:44:27 公開日:2024-10-14
# 半勾配を用いた高速かつ高精度なニューラルレンダリング

Fast and Accurate Neural Rendering Using Semi-Gradients ( http://arxiv.org/abs/2410.10149v1 )

ライセンス: Link先を確認
In-Young Cho, Jaewoong Cho, (参考訳) 我々は,グローバル照明レンダリングのための,シンプルで効果的なニューラルネットワークベースのフレームワークを提案する。 近年, レンダリング方程式の左右差(残差)を最小化して, ニューラルネットワークキャッシュを学習するレンダリング技術が提案されている。 実装の容易さと経路積分計算の利点により、これらの手法は自由視点レンダリング、微分可能レンダリング、リアルタイムレンダリングなど様々な分野に適用されている。 しかし、遅いトレーニングと時折暗くなったレンダリングの問題が指摘されている。 これらの問題の原因を、既存の残差ベース目的関数の勾配推定におけるバイアスと高分散として同定する。 これを解決するために、我々は、以前と同じグローバルな最適化を維持しながら、偏りのない低分散勾配推定を可能にし、より高速で正確なニューラルネットワークのトレーニングを可能にする、新たな目的関数を導入する。 結論として, この手法は右辺の部分微分を無視することによって簡単に実装され, 理論的, 実験的に提案された損失の有効性を実証する。

We propose a simple yet effective neural network-based framework for global illumination rendering. Recently, rendering techniques that learn neural radiance caches by minimizing the difference (i.e., residual) between the left and right sides of the rendering equation have been suggested. Due to their ease of implementation and the advantage of excluding path integral calculations, these techniques have been applied to various fields, such as free-viewpoint rendering, differentiable rendering, and real-time rendering. However, issues of slow training and occasionally darkened renders have been noted. We identify the cause of these issues as the bias and high variance present in the gradient estimates of the existing residual-based objective function. To address this, we introduce a new objective function that maintains the same global optimum as before but allows for unbiased and low-variance gradient estimates, enabling faster and more accurate training of neural networks. In conclusion, this method is simply implemented by ignoring the partial derivatives of the right-hand side, and theoretical and experimental analyses demonstrate the effectiveness of the proposed loss.
翻訳日:2024-10-30 02:44:27 公開日:2024-10-14
# 終末MLP再重み付けによるジェイルブレイク命令制御LDM

Jailbreak Instruction-Tuned LLMs via end-of-sentence MLP Re-weighting ( http://arxiv.org/abs/2410.10150v1 )

ライセンス: Link先を確認
Yifan Luo, Zhennan Zhou, Meitan Wang, Bin Dong, (参考訳) 本稿では,命令微調整大言語モデル(LLM)の安全性について検討する。 我々は,MLPニューロンの再重み付けがモデルの安全性,特に終末推論におけるMLPの安全性を著しく損なうことを発見した。 我々は, LLM が終末推論におけるプロンプトの有害性を評価し, MLP 層が重要な役割を担っていると仮定する。 この仮説に基づいて, プロンプト固有法とプロンプト一般法という, 2つの新しいホワイトボックスジェイルブレイク法を開発した。 プロンプト特異的メソッドは、個別のプロンプトをターゲットとし、ハエに対する攻撃を最適化するが、プロンプトジェネラルメソッドはオフラインで事前訓練され、目に見えない有害なプロンプトに一般化することができる。 提案手法は,2Bから72Bまでの7種類のオープンソースLLMに対して,堅牢な性能を示す。 さらに,本研究は,LLMの内部機構の理解を深めるとともに,LLMの安全性に関する脆弱性に関する知見を提供する。

In this paper, we investigate the safety mechanisms of instruction fine-tuned large language models (LLMs). We discover that re-weighting MLP neurons can significantly compromise a model's safety, especially for MLPs in end-of-sentence inferences. We hypothesize that LLMs evaluate the harmfulness of prompts during end-of-sentence inferences, and MLP layers plays a critical role in this process. Based on this hypothesis, we develop 2 novel white-box jailbreak methods: a prompt-specific method and a prompt-general method. The prompt-specific method targets individual prompts and optimizes the attack on the fly, while the prompt-general method is pre-trained offline and can generalize to unseen harmful prompts. Our methods demonstrate robust performance across 7 popular open-source LLMs, size ranging from 2B to 72B. Furthermore, our study provides insights into vulnerabilities of instruction-tuned LLM's safety and deepens the understanding of the internal mechanisms of LLMs.
翻訳日:2024-10-30 02:44:27 公開日:2024-10-14
# ヘイトスピーチ分類の診断:人間と機械はどこで診断し、なぜ診断するのか?

Diagnosing Hate Speech Classification: Where Do Humans and Machines Disagree, and Why? ( http://arxiv.org/abs/2410.10153v1 )

ライセンス: Link先を確認
Xilin Yang, (参考訳) 本研究では,コサイン類似度比,埋め込み回帰,手動再注釈を用いてヘイトスピーチ分類を診断する。 まず,ソーシャルメディアに注釈付きコメント135,556件を含むデータセット "Measuring Hate Speech" のコサイン類似度比を計算することから始める。 このようにして、ヘイトスピーチの内容の記述として、コサイン類似性の基本的利用を示す。 そして、データセットから人間のアノテーションの不整合を理解することから、ヘイトスピーチ分類を診断する。 埋め込み回帰を基本的な診断として用いた結果,女性アノテーターは黒人を標的とする人種的スラリーに対してより敏感であることが判明した。 我々は、テキストを埋め込みに変換し、ロジスティック回帰を実行するために、SOTA事前訓練された大言語モデルNV-Embed-v2を用いてヘイトスピーチ分類器を訓練することにより、より複雑な診断を行う。 この分類器は、テスト精度が94%に達する。 機械が人間のアノテータと矛盾する箇所の診断において、人間のアノテーションがトレーニングセットの根本的真実として扱われているにもかかわらず、機械が人間よりも少ないミスを犯すことが判明した。 機械は、事実の長いステートメントを正しくラベル付けする上では優れていますが、誓い言葉の短いインスタンスをラベル付けする場合には、さらに悪化します。 これはモデルアライメントによるものだと仮定する — モデルの生成時にモデルをキュレートすることで、モデルが明らかなヘイトスピーチを発生させない一方で、モデルがそのようなコンテンツを検出できる能力も低下する。

This study uses the cosine similarity ratio, embedding regression, and manual re-annotation to diagnose hate speech classification. We begin by computing cosine similarity ratio on a dataset "Measuring Hate Speech" that contains 135,556 annotated comments on social media. This way, we show a basic use of cosine similarity as a description of hate speech content. We then diagnose hate speech classification starting from understanding the inconsistency of human annotation from the dataset. Using embedding regression as a basic diagnostic, we found that female annotators are more sensitive to racial slurs that target the black population. We perform with a more complicated diagnostic by training a hate speech classifier using a SoTA pre-trained large language model, NV-Embed-v2, to convert texts to embeddings and run a logistic regression. This classifier achieves a testing accuracy of 94%. In diagnosing where machines disagree with human annotators, we found that machines make fewer mistakes than humans despite the fact that human annotations are treated as ground truth in the training set. Machines perform better in correctly labeling long statements of facts, but perform worse in labeling short instances of swear words. We hypothesize that this is due to model alignment - while curating models at their creation prevents the models from producing obvious hate speech, it also reduces the model's ability to detect such content.
翻訳日:2024-10-30 02:44:27 公開日:2024-10-14
# UWBレーダを用いた生理信号からの人間のストレス追跡

Tracing Human Stress from Physiological Signals using UWB Radar ( http://arxiv.org/abs/2410.10155v1 )

ライセンス: Link先を確認
Jia Xu, Teng Xiao, Pin Lv, Zhe Chen, Chao Cai, Yang Zhang, Zehui Xiong, (参考訳) ストレストレーシングは、医療やストレスマネジメントなど多くの応用をサポートする重要な研究領域であり、その最も近い研究はストレス検出に由来する。 しかし、これらの既存の研究は、ストレス検出に直面する2つの重要な課題にうまく対処できない。 まず、これらの研究のほとんどは、ユーザーのストレス状態を検出するために生理的センサーを装着するよう求め、これはユーザー体験に悪影響を及ぼす。 第二に、これらの研究はマルチモーダルな生理的信号の有効利用に失敗し、良好な検出結果が得られなかった。 本稿では,人間のストレス状態の連続検出を重視したストレス追跡問題を正式に定義する。 DSTと呼ばれる新しい応力追跡法が提案されている。 注意すべき点は、DSTは非接触超広帯域レーダーによって収集された生理的信号に基づいて人間のストレスを追跡することである。 DSTでは、まず信号抽出モジュールを慎重に設計し、レーダーの生RFデータから、体の動きがあっても、マルチモーダルな生理的信号を確実に抽出する。 その後,DSTに多モード融合モジュールを提案し,抽出した多モード生理学的信号を効果的に融合し,有効利用できるようにする。 1つの自己収集データセットと2つの公開データセットを含む3つの実世界のデータセットで、大規模な実験が実施されている。 実験結果から,提案手法は人間のストレス状態の追跡において,すべてのベースラインを著しく上回ることがわかった。 平均して、DSTは最高のベースラインと比較して、すべてのデータセットに対する検出精度が6.31%向上する。

Stress tracing is an important research domain that supports many applications, such as health care and stress management; and its closest related works are derived from stress detection. However, these existing works cannot well address two important challenges facing stress detection. First, most of these studies involve asking users to wear physiological sensors to detect their stress states, which has a negative impact on the user experience. Second, these studies have failed to effectively utilize multimodal physiological signals, which results in less satisfactory detection results. This paper formally defines the stress tracing problem, which emphasizes the continuous detection of human stress states. A novel deep stress tracing method, named DST, is presented. Note that DST proposes tracing human stress based on physiological signals collected by a noncontact ultrawideband radar, which is more friendly to users when collecting their physiological signals. In DST, a signal extraction module is carefully designed at first to robustly extract multimodal physiological signals from the raw RF data of the radar, even in the presence of body movement. Afterward, a multimodal fusion module is proposed in DST to ensure that the extracted multimodal physiological signals can be effectively fused and utilized. Extensive experiments are conducted on three real-world datasets, including one self-collected dataset and two publicity datasets. Experimental results show that the proposed DST method significantly outperforms all the baselines in terms of tracing human stress states. On average, DST averagely provides a 6.31% increase in detection accuracy on all datasets, compared with the best baselines.
翻訳日:2024-10-30 02:44:27 公開日:2024-10-14
# コストペシミズムとリワード最適化による安全強化学習のためのレグレト・バウンドの改善

Improved Regret Bound for Safe Reinforcement Learning via Tighter Cost Pessimism and Reward Optimism ( http://arxiv.org/abs/2410.10158v1 )

ライセンス: Link先を確認
Kihyun Yu, Duksang Lee, William Overman, Dabeen Lee, (参考訳) 本稿では, 有限水平面制約付きマルコフ決定過程を未知の遷移カーネルと確率的報酬とコスト関数で表した安全な強化学習問題について検討する。 本稿では,新しいコストと報酬関数推定器に基づくモデルベースアルゴリズムを提案する。 すべてのエピソードにおいて制約違反を保証していないが、我々のアルゴリズムは、後悔の上限である$\widetilde{\mathcal{O}}((\bar C - \bar C_b)^{-1}H^{2.5} S\sqrt{AK})$、$\bar C_b$、$H$、$S$、$A$、$K$はそれぞれ、状態、行動、エピソードの数である。 これにより、最もよく知られた後悔の上界が改善され、$\bar C- \bar C_b=\Omega(H)$ は $\Omega(H^{1.5}\sqrt{SAK})$ の後悔の下界とほぼ一致する。 ベルマン型全分散法則を用いて,我々のコストおよび報酬関数推定器を推定し,期待される値関数の推定値の総和の厳密な境界を求める。 これは関数推定器の水平線へのより強い依存をもたらす。 また,提案フレームワークの計算効率を示す数値的な結果も提示する。

This paper studies the safe reinforcement learning problem formulated as an episodic finite-horizon tabular constrained Markov decision process with an unknown transition kernel and stochastic reward and cost functions. We propose a model-based algorithm based on novel cost and reward function estimators that provide tighter cost pessimism and reward optimism. While guaranteeing no constraint violation in every episode, our algorithm achieves a regret upper bound of $\widetilde{\mathcal{O}}((\bar C - \bar C_b)^{-1}H^{2.5} S\sqrt{AK})$ where $\bar C$ is the cost budget for an episode, $\bar C_b$ is the expected cost under a safe baseline policy over an episode, $H$ is the horizon, and $S$, $A$ and $K$ are the number of states, actions, and episodes, respectively. This improves upon the best-known regret upper bound, and when $\bar C- \bar C_b=\Omega(H)$, it nearly matches the regret lower bound of $\Omega(H^{1.5}\sqrt{SAK})$. We deduce our cost and reward function estimators via a Bellman-type law of total variance to obtain tight bounds on the expected sum of the variances of value function estimates. This leads to a tighter dependence on the horizon in the function estimators. We also present numerical results to demonstrate the computational effectiveness of our proposed framework.
翻訳日:2024-10-30 02:44:27 公開日:2024-10-14
# 生成データの包含は将来の画像分類モデルにおける世代間バイアスを増幅するか?

Will the Inclusion of Generated Data Amplify Bias Across Generations in Future Image Classification Models? ( http://arxiv.org/abs/2410.10160v1 )

ライセンス: Link先を確認
Zeliang Zhang, Xin Liang, Mingqian Feng, Susan Liang, Chenliang Xu, (参考訳) 高品質なトレーニングデータの需要が拡大するにつれ、研究者たちは、データ不足に対処し、継続的なモデル改善を可能にするために、合成データを作成するための生成モデルに目を向けるようになった。 しかし、自己生成データへの依存は、重要な疑問をもたらす: このプラクティスは将来のモデルにおけるバイアスを増幅するだろうか? ほとんどの研究は全体的なパフォーマンスに重点を置いているが、モデルバイアス、特にサブグループバイアスへの影響は、いまだ過小評価されている。 本研究では, 画像分類タスクにおける生成データの影響について検討し, 偏りに着目した。 本研究では, 自己消費ループを統合したシミュレーション環境を構築し, 生成モデルと分類モデルを相乗的に学習する。 何百もの実験がColorized MNIST、CIFAR-20/100、およびHard ImageNetデータセット上で行われ、世代間での公正度メトリクスの変化を明らかにしている。 さらに、世代ごとの連続的な拡張データセットのトレーニングモデルにおいて、バイアスダイナミクスを説明するための予測を提供する。 本研究は, 実世界の応用において, 合成データの公平性に関する議論が進行中であることを示すものである。

As the demand for high-quality training data escalates, researchers have increasingly turned to generative models to create synthetic data, addressing data scarcity and enabling continuous model improvement. However, reliance on self-generated data introduces a critical question: Will this practice amplify bias in future models? While most research has focused on overall performance, the impact on model bias, particularly subgroup bias, remains underexplored. In this work, we investigate the effects of the generated data on image classification tasks, with a specific focus on bias. We develop a practical simulation environment that integrates a self-consuming loop, where the generative model and classification model are trained synergistically. Hundreds of experiments are conducted on Colorized MNIST, CIFAR-20/100, and Hard ImageNet datasets to reveal changes in fairness metrics across generations. In addition, we provide a conjecture to explain the bias dynamics when training models on continuously augmented datasets across generations. Our findings contribute to the ongoing debate on the implications of synthetic data for fairness in real-world applications.
翻訳日:2024-10-30 02:44:27 公開日:2024-10-14
# x*y=kからUnixwap Hooks; A Comparison Review of Decentralized Exchanges (DEX)

From x*y=k to Uniswap Hooks; A Comparative Review of Decentralized Exchanges (DEX) ( http://arxiv.org/abs/2410.10162v1 )

ライセンス: Link先を確認
Mohammad Ali Asef, Seyed Mojtaba Hosseini Bamakan, (参考訳) 分散取引(DEX)は、スマートコントラクトやブロックチェーンネットワークに頼ることによって、信頼性のない暗号通貨取引を促進することを目的として、分散金融(DeFi)の世界における重要なアプリケーションである。 DEXsセクターの開発は、2018年にUnixwap V1による単純な数式を使った自動市場メーカー(AMM)システムの実装から始まった。 巨額の資金とWeb3愛好家の注目を集めたDEXは、その進化に多くの進歩を経験してきた。 注目すべき最近の進歩は、Unixwap v4にフックが導入されることである。 本稿では、他のプロトコルの注目すべき側面の調査に加えて、Unixwap, Curve, Balancerといった著名なDEXプロトコルの包括的分類と比較分析を行う。 評価フレームワークは、メカニズム、コンポーネント、数学的定式化、流動性プールの性能を含む。 目標は、異なるAMMモデルの強みと制限を解明し、DEX開発における新たな概念を強調し、現在の課題を概説し、特定のアプリケーションに対して最適なモデルを区別することである。 結果と比較洞察は、Web3開発者、ブロックチェーン研究者、トレーダー、規制関係者への参照である。

Decentralized exchanges (DEXs) are pivotal applications in the Decentralized finance (DeFi) landscape, aiming to facilitate trustless cryptocurrency trading by relying on smart contracts and blockchain networks. The developments in the DEXs sector began with the implementation of an automated market maker (AMM) system using a simple math formula by Uniswap V1 in 2018. Absorbing significant funding and the attention of web3 enthusiasts, DEXs have seen numerous advancements in their evolution. A notable recent advancement is the introduction of hooks in Uniswap v4, which allows users to take advantage of a wide range of plugin-like features with liquidity pools. This paper provides a comprehensive classification and comparative analyses of prominent DEX protocols, namely Uniswap, Curve, and Balancer, in addition to investigating other protocols' noteworthy aspects. The evaluation framework encompasses mechanisms, components, mathematical formulations, and the performance of liquidity pools. The goals are to elucidate the strengths and limitations of different AMM models, highlight emerging concepts in DEX development, outline current challenges, and differentiate optimal models for specific applications. The results and comparative insights can be a reference for web3 developers, blockchain researchers, traders, and regulatory parties.
翻訳日:2024-10-30 02:44:27 公開日:2024-10-14
# BinSimDB: 微粒なバイナリコード類似性解析のためのベンチマークデータセットの構築

BinSimDB: Benchmark Dataset Construction for Fine-Grained Binary Code Similarity Analysis ( http://arxiv.org/abs/2410.10163v1 )

ライセンス: Link先を確認
Fei Zuo, Cody Tompkins, Qiang Zeng, Lannan Luo, Yung Ryn Choe, Junghwan Rhee, (参考訳) バイナリコード類似性分析(BCSA)は、盗作検出、脆弱性発見、マルウェア分析など幅広い応用があり、セキュリティコミュニティから大きな注目を集めている。 しかし,従来の手法では,精度とスケーラビリティの両立が難しい場合が多い。 これらの課題を克服するために、近年、ディープラーニングに基づく研究の急増が提案されている。 残念なことに、多くの研究者はいまだに、関連する研究や既存のアプローチの拡張が非常に難しいと考えている。 まず、以前の作業は通常、データセット全体を公開アクセスすることなく、プロプライエタリなベンチマークに依存します。 その結果、バイナリコード類似性分析のための大規模で十分にラベル付けされたデータセットは、依然として重要で不足している。 さらに、以前の研究は、他の細かい粒度を探索するよりも、関数レベルでの比較に重点を置いてきた。 したがって、BCSAの詳細なデータセットが欠如していることは、現在の研究において重大なギャップを残していると論じる。 これらの課題に対処するため,基本ブロックなどの小さなバイナリコードスニペットの等価ペアを含むBinSimDBと呼ばれる,粒度の細かいバイナリコード類似性解析のためのベンチマークデータセットを構築した。 具体的には,最適化レベルやプラットフォームによって引き起こされる2つのバイナリコードスニペット間の相違を補うためのBMergeアルゴリズムとBPairアルゴリズムを提案する。 さらに,このデータセットの特性を実証的に研究し,その有効性を評価する。 実験の結果、BinSimDBはバイナリコード類似性比較の性能を大幅に改善することが示された。

Binary Code Similarity Analysis (BCSA) has a wide spectrum of applications, including plagiarism detection, vulnerability discovery, and malware analysis, thus drawing significant attention from the security community. However, conventional techniques often face challenges in balancing both accuracy and scalability simultaneously. To overcome these existing problems, a surge of deep learning-based work has been recently proposed. Unfortunately, many researchers still find it extremely difficult to conduct relevant studies or extend existing approaches. First, prior work typically relies on proprietary benchmark without making the entire dataset publicly accessible. Consequently, a large-scale, well-labeled dataset for binary code similarity analysis remains precious and scarce. Moreover, previous work has primarily focused on comparing at the function level, rather than exploring other finer granularities. Therefore, we argue that the lack of a fine-grained dataset for BCSA leaves a critical gap in current research. To address these challenges, we construct a benchmark dataset for fine-grained binary code similarity analysis called BinSimDB, which contains equivalent pairs of smaller binary code snippets, such as basic blocks. Specifically, we propose BMerge and BPair algorithms to bridge the discrepancies between two binary code snippets caused by different optimization levels or platforms. Furthermore, we empirically study the properties of our dataset and evaluate its effectiveness for the BCSA research. The experimental results demonstrate that BinSimDB significantly improves the performance of binary code similarity comparison.
翻訳日:2024-10-30 02:44:27 公開日:2024-10-14
# 確率量子力学に対するランダム非エルミート的作用論-正準から経路積分量子化へ

Random non-Hermitian action theory for stochastic quantum dynamics: from canonical to path integral quantization ( http://arxiv.org/abs/2410.10164v1 )

ライセンス: Link先を確認
Pei Wang, (参考訳) 我々は、量子化後のヒルベルト空間における量子状態の確率的非線形ダイナミクスを記述するランダム非エルミート作用の理論を開発する。 フェルミオン場に着目し、正準量子化と経路積分量子化の両方を提案し、これらの2つのアプローチが等価であることを示す。 この定式化を用いて,非ハーモニティ性およびランダム性の影響下での単一粒子ガウス波パケットの進化について検討する。 この結果から,非ハーミティシティは波状パケットの局所化につながるが,乱れは波状パケットの中央位置に影響を及ぼし,分布のばらつきは乱れの強さによって増大することが示された。

We develop a theory of random non-Hermitian action that, after quantization, describes the stochastic nonlinear dynamics of quantum states in Hilbert space. Focusing on fermionic fields, we propose both canonical quantization and path integral quantization, demonstrating that these two approaches are equivalent. Using this formalism, we investigate the evolution of a single-particle Gaussian wave packet under the influence of non-Hermiticity and randomness. Our results show that specific types of non-Hermiticity lead to wave packet localization, while randomness affects the central position of the wave packet, causing the variance of its distribution to increase with the strength of the randomness.
翻訳日:2024-10-30 02:44:27 公開日:2024-10-14
# HSRによるスパース注意促進

HSR-Enhanced Sparse Attention Acceleration ( http://arxiv.org/abs/2410.10165v1 )

ライセンス: Link先を確認
Bo Chen, Yingyu Liang, Zhizhou Sha, Zhenmei Shi, Zhao Song, (参考訳) 大規模言語モデル(LLM)は、様々なアプリケーションにまたがる顕著な能力を示してきたが、長いコンテキストタスクのパフォーマンスは、注意機構の計算複雑性によって制限されることが多い。 本稿では,LLMにおける注意計算を高速化するための新しい手法,特に長期コンテキストシナリオについて紹介する。 従来のSoftmaxのアテンションとReLUのアテンション($\mathsf{ReLU}^\alpha$ activation, $\alpha \in \mathbb{N}_+$)の両方において、注意機構内の固有空間を利用して、ランニングタイムの複雑さを著しく低減する。 本手法では,注目行列の非ゼロあるいは「大規模活性化」エントリを高速に識別するために,半空間レポート(HSR)データ構造を用いる。 本稿では,2つの重要なシナリオについて理論的に解析する。 提案手法では,n$がコンテキスト長,m$がクエリ長,d$がシークエンスディメンション,d$がシークエンスジェネレーションよりもはるかに高速な実行時間を実現する。 また、フルアテンション計算の実行時間を$O(mn)$から$O(mn^{1 - 1 / \lfloor d/2\rfloor} + mn^{4/5})$に短縮することもできる。 重要な点として,本手法はReLUの注意に誤差を導入せず,Softmaxの注意に誤りを生じさせることなく,実験的な検証によって後者が支持される。 この研究は、LLMにおける効率的な長文処理を実現するための重要なステップであり、様々な領域で適用性を広げる可能性がある。

Large Language Models (LLMs) have demonstrated remarkable capabilities across various applications, but their performance on long-context tasks is often limited by the computational complexity of attention mechanisms. This paper introduces a novel approach to accelerate attention computation in LLMs, particularly for long-context scenarios. We leverage the inherent sparsity within attention mechanisms, both in conventional Softmax attention and ReLU attention (with $\mathsf{ReLU}^\alpha$ activation, $\alpha \in \mathbb{N}_+$), to significantly reduce the running time complexity. Our method employs a Half-Space Reporting (HSR) data structure to rapidly identify non-zero or "massively activated" entries in the attention matrix. We present theoretical analyses for two key scenarios: attention generation and full attention computation with long input context. Our approach achieves a running time of $O(mn^{4/5})$ significantly faster than the naive approach $O(mn)$ for attention generation, where $n$ is the context length, $m$ is the query length, and $d$ is the hidden dimension. We can also reduce the running time of full attention computation from $O(mn)$ to $O(mn^{1 - 1 / \lfloor d/2\rfloor} + mn^{4/5})$. Importantly, our method introduces no error for ReLU attention and only provably negligible error for Softmax attention, where the latter is supported by our empirical validation. This work represents a significant step towards enabling efficient long-context processing in LLMs, potentially broadening their applicability across various domains.
翻訳日:2024-10-30 02:44:27 公開日:2024-10-14
# テキスト・画像拡散モデルにおける人間のフィードバックデータの自動フィルタリング

Automated Filtering of Human Feedback Data for Aligning Text-to-Image Diffusion Models ( http://arxiv.org/abs/2410.10166v1 )

ライセンス: Link先を確認
Yongjin Yang, Sihyeon Kim, Hojung Jung, Sangmin Bae, SangMook Kim, Se-Young Yun, Kimin Lee, (参考訳) 人間のフィードバックによる微調整テキスト・画像拡散モデルは、モデル行動と人間の意図を整合させる効果的な方法である。 しかしながら、このアライメントプロセスは、人間のフィードバックデータセットにある大きなサイズとノイズのために、しばしば緩やかな収束に悩まされる。 本研究では,直接選好最適化(DPO)を用いた人間のフィードバックデータセットを用いた拡散モデルの微調整を強化するために設計された,新しい自動データフィルタリングアルゴリズムであるFiFAを提案する。 具体的には、最適化問題を解くことでデータを選択することで、好みのマージン、テキストの品質、テキストの多様性の3つの要素を最大化する。 選好マージンの概念は、フィードバックデータセットのノイズの性質に対処するため、高い情報値を含むサンプルを特定するために用いられ、これはプロキシ報酬モデルを用いて計算される。 さらに,大きな言語モデルで評価されたテキスト品質を組み込んで有害なコンテンツを防止するとともに,k-nearest 隣のエントロピー推定器を用いてテキストの多様性を考慮し,一般化を改善する。 最後に、これらすべてのコンポーネントを最適化プロセスに統合し、各データペアに重要なスコアを割り当て、最も重要なコンポーネントを選択することで、ソリューションを近似する。 その結果,手作業による介入を必要とせずにデータを自動的にフィルタリングし,大規模データセットに適用できることがわかった。 実験結果から、FiFAはトレーニングの安定性を著しく向上し、人間よりも17%向上し、フルデータの0.5%未満を使用でき、フルヒューマンフィードバックデータセットを使用する場合に比べてGPU時間の1%が有効であることがわかった。

Fine-tuning text-to-image diffusion models with human feedback is an effective method for aligning model behavior with human intentions. However, this alignment process often suffers from slow convergence due to the large size and noise present in human feedback datasets. In this work, we propose FiFA, a novel automated data filtering algorithm designed to enhance the fine-tuning of diffusion models using human feedback datasets with direct preference optimization (DPO). Specifically, our approach selects data by solving an optimization problem to maximize three components: preference margin, text quality, and text diversity. The concept of preference margin is used to identify samples that contain high informational value to address the noisy nature of feedback dataset, which is calculated using a proxy reward model. Additionally, we incorporate text quality, assessed by large language models to prevent harmful contents, and consider text diversity through a k-nearest neighbor entropy estimator to improve generalization. Finally, we integrate all these components into an optimization process, with approximating the solution by assigning importance score to each data pair and selecting the most important ones. As a result, our method efficiently filters data automatically, without the need for manual intervention, and can be applied to any large-scale dataset. Experimental results show that FiFA significantly enhances training stability and achieves better performance, being preferred by humans 17% more, while using less than 0.5% of the full data and thus 1% of the GPU hours compared to utilizing full human feedback datasets.
翻訳日:2024-10-30 02:34:41 公開日:2024-10-14
# テキストをレンダリングする背景を最初に作る:ビジュアルテキストのブレンディングのための新しいパラダイム

First Creating Backgrounds Then Rendering Texts: A New Paradigm for Visual Text Blending ( http://arxiv.org/abs/2410.10168v1 )

ライセンス: Link先を確認
Zhenhang Li, Yan Shu, Weichao Zeng, Dongbao Yang, Yu Zhou, (参考訳) 拡散モデルは、その印象的な画像生成能力で知られており、視覚テキスト生成の台頭において重要な役割を担っている。 それでも、既存のビジュアルテキスト生成手法は、しばしばテキストプロンプトで画像全体を生成することに重点を置いており、不正確な制御と限られた実用性に繋がる。 より有望な方向は、テキストをテキストのない背景にシームレスにマージすることに焦点を当てた、ビジュアルテキストブレンディングである。 しかし、既存のビジュアルテキストブレンディング手法は、合成と限定的な一般化能力の背景が不足しているため、高忠実で多様な画像を生成するのに苦労することが多い。 これらの課題を克服するために、背景作成とテキストの描画の両方を含む新しいビジュアルテキストブレンディングパラダイムを提案する。 具体的には、背景生成装置を開発し、高忠実でテキストフリーな自然画像を生成する。 さらに、GlyphOnlyという名前のテキストレンダラーは、視覚的に可視なテキスト-背景の統合を実現するように設計されている。 安定拡散フレームワーク上に構築されたGlyphOnlyは、グリフと背景を正確なレンダリングと一貫性制御の条件として利用し、小規模なテキストレンダリングのための適応的なテキストブロック探索戦略を備えている。 また,シーンテキスト検出の高速化のためのシーンテキストデータセット合成や,テキスト画像のカスタマイズや編集など,本手法に基づくダウンストリームアプリケーションについても検討する。 コードとモデルは \url{https://github.com/Zhenhang-Li/GlyphOnly} で入手できる。

Diffusion models, known for their impressive image generation abilities, have played a pivotal role in the rise of visual text generation. Nevertheless, existing visual text generation methods often focus on generating entire images with text prompts, leading to imprecise control and limited practicality. A more promising direction is visual text blending, which focuses on seamlessly merging texts onto text-free backgrounds. However, existing visual text blending methods often struggle to generate high-fidelity and diverse images due to a shortage of backgrounds for synthesis and limited generalization capabilities. To overcome these challenges, we propose a new visual text blending paradigm including both creating backgrounds and rendering texts. Specifically, a background generator is developed to produce high-fidelity and text-free natural images. Moreover, a text renderer named GlyphOnly is designed for achieving visually plausible text-background integration. GlyphOnly, built on a Stable Diffusion framework, utilizes glyphs and backgrounds as conditions for accurate rendering and consistency control, as well as equipped with an adaptive text block exploration strategy for small-scale text rendering. We also explore several downstream applications based on our method, including scene text dataset synthesis for boosting scene text detectors, as well as text image customization and editing. Code and model will be available at \url{https://github.com/Zhenhang-Li/GlyphOnly}.
翻訳日:2024-10-30 02:34:41 公開日:2024-10-14
# 多粒度時間軌道因子化による映像生成

Generative Human Video Compression with Multi-granularity Temporal Trajectory Factorization ( http://arxiv.org/abs/2410.10171v1 )

ライセンス: Link先を確認
Shanzhi Yin, Bolin Chen, Shiqi Wang, Yan Ye, (参考訳) 本稿では,帯域幅制約のある人中心ビデオ通信において大きな可能性を秘めている,生成的ヒトビデオ圧縮のための新しい多粒性時間軌道因子化フレームワークを提案する。 特に、提案した動き分解戦略は、高次元の視覚信号をコンパクト性を表すためにコンパクトな動きベクトルに暗黙的に特徴付け、さらにこれらのベクトルを運動表現性のための微細な場に変換する。 そのため、符号化されたビットストリームは、最低表現コストで十分な視覚的動き情報を含むことができる。 一方, 背景安定性を向上した解像度拡張可能な生成モジュールが開発され, 提案するフレームワークは, 高い信頼性と柔軟な解像度適応性に最適化できる。 実験結果から,提案手法は,映像の主観的品質と主観的品質の両面において,最新の生成モデルおよび最先端ビデオ符号化規格であるVersatile Video Coding(VVC)よりも優れていた。 プロジェクトページはhttps://github.com/xyzysz/Extreme-Human-Video-Compression-with-MTTFにある。

In this paper, we propose a novel Multi-granularity Temporal Trajectory Factorization framework for generative human video compression, which holds great potential for bandwidth-constrained human-centric video communication. In particular, the proposed motion factorization strategy can facilitate to implicitly characterize the high-dimensional visual signal into compact motion vectors for representation compactness and further transform these vectors into a fine-grained field for motion expressibility. As such, the coded bit-stream can be entailed with enough visual motion information at the lowest representation cost. Meanwhile, a resolution-expandable generative module is developed with enhanced background stability, such that the proposed framework can be optimized towards higher reconstruction robustness and more flexible resolution adaptation. Experimental results show that proposed method outperforms latest generative models and the state-of-the-art video coding standard Versatile Video Coding (VVC) on both talking-face videos and moving-body videos in terms of both objective and subjective quality. The project page can be found at https://github.com/xyzysz/Extreme-Human-Video-Compression-with-MTTF.
翻訳日:2024-10-30 02:34:41 公開日:2024-10-14
# 拡散モデルにおけるアイデンティティに焦点をあてた推論と抽出攻撃

Identity-Focused Inference and Extraction Attacks on Diffusion Models ( http://arxiv.org/abs/2410.10177v1 )

ライセンス: Link先を確認
Jayneel Vora, Aditya Krishnan, Nader Bouacida, Prabhu RV Shankar, Prasant Mohapatra, (参考訳) 合成画像の生成における拡散モデルへの依存度の増加は、モデルトレーニングにおける個人データ、特に顔画像の不正使用に対する懸念を増幅している。 本稿では,モデル所有者がトレーニングデータに個人のアイデンティティを含むことを説明できる新しいアイデンティティ推論フレームワークを提案する。 当社のアプローチは、アイデンティティレベルの推論に注目し、データプライバシ違反に関する新たな視点を提供することによって、従来のメンバシップ推論攻撃を越えています。 2つの顔画像データセット(LFW)とCelebA(CelebA)の総合的な評価により、提案したメンバーシップ推論攻撃がベースライン手法を超越し、攻撃成功率最大89%、AUC-ROC0.91を達成し、アイデンティティ推論攻撃はLFWで訓練されたLCMモデルで92%、データ抽出攻撃はDDPMで91.6%の精度を達成し、拡散モデルにおけるアプローチの有効性を検証した。

The increasing reliance on diffusion models for generating synthetic images has amplified concerns about the unauthorized use of personal data, particularly facial images, in model training. In this paper, we introduce a novel identity inference framework to hold model owners accountable for including individuals' identities in their training data. Our approach moves beyond traditional membership inference attacks by focusing on identity-level inference, providing a new perspective on data privacy violations. Through comprehensive evaluations on two facial image datasets, Labeled Faces in the Wild (LFW) and CelebA, our experiments demonstrate that the proposed membership inference attack surpasses baseline methods, achieving an attack success rate of up to 89% and an AUC-ROC of 0.91, while the identity inference attack attains 92% on LDM models trained on LFW, and the data extraction attack achieves 91.6% accuracy on DDPMs, validating the effectiveness of our approach across diffusion models.
翻訳日:2024-10-30 02:34:41 公開日:2024-10-14
# GUISE: Graph GaUssIan Shading watErmark

GUISE: Graph GaUssIan Shading watErmark ( http://arxiv.org/abs/2410.10178v1 )

ライセンス: Link先を確認
Renyi Yang, (参考訳) 生成人工知能の分野では、知的財産を保護し、コンテンツの信頼性を維持するために、堅牢な透かし技術を統合することが不可欠である。 伝統的に、透かし技術は主に画像やオーディオなどのリッチな情報メディアのために開発されてきた。 しかし、これらの手法はグラフベースのデータ、特に分子グラフに適切に適応していない。 潜在3Dグラフ拡散(LDM-3DG)は、分子グラフ生成分野における上述のアプローチである。 このモデルは分子構造の複雑さを効果的に管理し、重要な対称性と位相的特徴を保存する。 我々は、この洗練された新技術を保護するために、パフォーマンス損失のない透かし技術であるガウスシェーディングを潜伏グラフ拡散領域に適用する。 我々の適応は、重複とパディングによる透かし拡散過程を単純化し、様々なメッセージタイプに適応し、適している。 本手法のロバスト性と有効性を評価するために, LDM-3DG モデルを用いて, 公開されているデータセット QM9 と薬品についていくつかの実験を行った。 その結果, 透かしを施した分子は, 性能指標10点中9点において, 元の値と比較して統計的に同値であることがわかった。 さらに、2Dデコードされたパイプラインでは100%検出率と99%抽出率を示し、また、後処理攻撃に対する堅牢性を示している。

In the expanding field of generative artificial intelligence, integrating robust watermarking technologies is essential to protect intellectual property and maintain content authenticity. Traditionally, watermarking techniques have been developed primarily for rich information media such as images and audio. However, these methods have not been adequately adapted for graph-based data, particularly molecular graphs. Latent 3D graph diffusion(LDM-3DG) is an ascendant approach in the molecular graph generation field. This model effectively manages the complexities of molecular structures, preserving essential symmetries and topological features. We adapt the Gaussian Shading, a proven performance lossless watermarking technique, to the latent graph diffusion domain to protect this sophisticated new technology. Our adaptation simplifies the watermark diffusion process through duplication and padding, making it adaptable and suitable for various message types. We conduct several experiments using the LDM-3DG model on publicly available datasets QM9 and Drugs, to assess the robustness and effectiveness of our technique. Our results demonstrate that the watermarked molecules maintain statistical parity in 9 out of 10 performance metrics compared to the original. Moreover, they exhibit a 100% detection rate and a 99% extraction rate in a 2D decoded pipeline, while also showing robustness against post-editing attacks.
翻訳日:2024-10-30 02:34:41 公開日:2024-10-14
# LLMにおけるパラメータ衝突は継続学習を妨げるか?

Is Parameter Collision Hindering Continual Learning in LLMs? ( http://arxiv.org/abs/2410.10179v1 )

ライセンス: Link先を確認
Shuo Yang, Kun-Peng Ning, Yu-Yang Liu, Jia-Yu Yao, Yong-Hong Tian, Yi-Bing Song, Li Yuan, (参考訳) 大規模言語モデル(LLM)は、複数のタスクを逐次学習する際の破滅的な忘れ込みに悩まされることが多いため、動的デプロイメントには継続学習(CL)が不可欠である。 O-LoRAのような既存のSOTA(State-of-the-art)手法は、様々な領域からパラメータ相互依存を分離する直交性タスクの構築に重点を置いている。 我々の理論的および実験的分析は、非衝突パラメータが十分だが不要な条件であるより優れたタスク直交性を提供できることを示した。 さらに、複数のドメインからの知識は非衝突パラメータのサブスペースに保存される。 この知見を生かして,低衝突速度を利用したLLMにおけるCL向上のための簡易かつ効果的な非衝突低ランク適応法(N-LoRA)を提案する。 複数のCLベンチマーク実験の結果、N-LoRAはSOTA法よりも優れた性能(+2.9)、高いタスク直交性(*4.1倍)、低いパラメータ衝突(*58.1倍)を達成することが示された。

Large Language Models (LLMs) often suffer from catastrophic forgetting when learning multiple tasks sequentially, making continual learning (CL) essential for their dynamic deployment. Existing state-of-the-art (SOTA) methods, such as O-LoRA, typically focus on constructing orthogonality tasks to decouple parameter interdependence from various domains.In this paper, we reveal that building non-collision parameters is a more critical factor in addressing CL challenges. Our theoretical and experimental analyses demonstrate that non-collision parameters can provide better task orthogonality, which is a sufficient but unnecessary condition. Furthermore, knowledge from multiple domains will be preserved in non-collision parameter subspaces, making it more difficult to forget previously seen data. Leveraging this insight, we propose Non-collision Low-Rank Adaptation (N-LoRA), a simple yet effective approach leveraging low collision rates to enhance CL in LLMs. Experimental results on multiple CL benchmarks indicate that N-LoRA achieves superior performance (+2.9), higher task orthogonality (*4.1 times), and lower parameter collision (*58.1 times) than SOTA methods.
翻訳日:2024-10-30 02:34:41 公開日:2024-10-14
# Aggregated Categorical Posteriorを用いたガウス混合ベクトル量子化

Gaussian Mixture Vector Quantization with Aggregated Categorical Posterior ( http://arxiv.org/abs/2410.10180v1 )

ライセンス: Link先を確認
Mingyuan Yan, Jiawei Wu, Rushi Shah, Dianbo Liu, (参考訳) ベクトル量子化は、連続表現を離散空間にマッピングするための広く使われている手法であり、生成モードのトークン化、ボトルネック情報、機械学習における多くのタスクに重要な応用がある。 ベクトル量子化変分オートエンコーダ(ベクトル量子化変分オートエンコーダ、VQ-VAE)は、離散埋め込みを潜時として使用する変分オートエンコーダの一種である。 我々はさらにこの手法を一般化し、ガウス混合を基礎となる生成モデルとして確率的枠組みを豊かにする。 このフレームワークは、遅延手段と適応分散のコードブックを利用して、複雑なデータ分散をキャプチャする。 この原則は、トレーニングの不安定性に対処し、コードブックの利用を改善するために、VQ-VAEで必要とされる様々なヒューリスティックや強い仮定を避ける。 このアプローチは、離散表現と連続表現の両方の利点を変分ベイズ的枠組みに統合する。 さらに,ALBO (the \textit{Aggregated Categorical Posterior Evidence Lower Bound}) を導入することで,変分分布と生成モデルとの整合性を示す。 実験の結果,GM-VQは手作りのヒューリスティックに頼らずに,コードブックの利用率の向上と情報損失の低減を図っている。

The vector quantization is a widely used method to map continuous representation to discrete space and has important application in tokenization for generative mode, bottlenecking information and many other tasks in machine learning. Vector Quantized Variational Autoencoder (VQ-VAE) is a type of variational autoencoder using discrete embedding as latent. We generalize the technique further, enriching the probabilistic framework with a Gaussian mixture as the underlying generative model. This framework leverages a codebook of latent means and adaptive variances to capture complex data distributions. This principled framework avoids various heuristics and strong assumptions that are needed with the VQ-VAE to address training instability and to improve codebook utilization. This approach integrates the benefits of both discrete and continuous representations within a variational Bayesian framework. Furthermore, by introducing the \textit{Aggregated Categorical Posterior Evidence Lower Bound} (ALBO), we offer a principled alternative optimization objective that aligns variational distributions with the generative model. Our experiments demonstrate that GM-VQ improves codebook utilization and reduces information loss without relying on handcrafted heuristics.
翻訳日:2024-10-30 02:34:41 公開日:2024-10-14
# 時間外クレジットスコーリングにおけるハミルトニアンニューラルネットワーク

Hamiltonian Neural Networks for Robust Out-of-Time Credit Scoring ( http://arxiv.org/abs/2410.10182v1 )

ライセンス: Link先を確認
Javier Marín, (参考訳) 本稿では、金融リスク管理におけるクラス不均衡とオフ・オブ・タイム(OOT)予測の課題に対処するために設計された、新しいハミルトン型ニューラルネットワークによるクレジットスコアリング手法を提案する。 ハミルトン力学の概念から、シンプレクティック・オプティマイザと新しい損失関数を開発し、信用リスク進化の複雑なダイナミクスを捉える。 Freddie Mac Single-Family Loan-Level Datasetを用いて、他の機械学習手法と比較してモデルの性能を評価する。 提案手法は,AUC(Area Under the Curve)により測定されたOOTシナリオにおいて優れた識別力を示し,クラス不均衡に対する格付け能力とロバスト性を示す。 ハミルトニアンに触発されたアプローチは、サンプル内テストセットとOOTテストセット間の一貫した性能を維持する上で、特に強みを示し、将来の目に見えないデータへの一般化の改善を示唆している。 これらの結果は、物理学にインスパイアされた技術が、特に不確実な経済状況において、より堅牢で信頼性の高い信用評価モデルを開発するための有望な方向を提供することを示唆している。

This paper introduces a novel Hamiltonian-inspired neural network approach to credit scoring, designed to address the challenges of class imbalance and out-of-time (OOT) prediction in financial risk management. Drawing from concepts in Hamiltonian mechanics, we develop a symplectic optimizer and a new loss function to capture the complex dynamics of credit risk evolution. Using the Freddie Mac Single-Family Loan-Level Dataset, we evaluate our model's performance against other machine learning approaches. Our method shows superior discriminative power in OOT scenarios, as measured by the Area Under the Curve (AUC), indicating better ranking ability and robustness to class imbalance. The Hamiltonian-inspired approach shows particular strength in maintaining consistent performance between in-sample and OOT test sets, suggesting improved generalization to future, unseen data. These findings suggest that physics-inspired techniques offer a promising direction for developing more robust and reliable credit scoring models, particularly in uncertain economic situations.
翻訳日:2024-10-30 02:34:41 公開日:2024-10-14
# きめ細かな因果介入による視覚質問応答のための言語バイアスの除去

Eliminating the Language Bias for Visual Question Answering with fine-grained Causal Intervention ( http://arxiv.org/abs/2410.10184v1 )

ライセンス: Link先を確認
Ying Liu, Ge Bai, Chenji Lu, Shilong Li, Zhang Zhang, Ruifang Liu, Wenbin Guo, (参考訳) VQA(Visual Question Answering)の顕著な進歩にもかかわらず、テキスト情報によってもたらされる言語バイアスを軽減するという課題は未解決のままである。 以前のアプローチでは、粗い視点から言語バイアスを捉えていた。 しかし、文脈やキーワードのような文内のよりきめ細かい情報は、異なるバイアスをもたらす可能性がある。 きめ細かい情報の無知のため、既存のほとんどの手法は言語バイアスを十分に捉えることができない。 本稿では,言語バイアスをきめ細かな視点から除去するCIBiという新たな因果介入訓練手法を提案する。 具体的には、言語バイアスを文脈バイアスとキーワードバイアスに分割する。 我々は、文脈バイアスを排除し、マルチモーダル表現を改善するために因果介入とコントラスト学習を用いる。 さらに,キーワードバイアスを抽出・排除するために,逆ファクト生成に基づく質問専用ブランチを新たに設計する。 実験結果からCIBiは様々なVQAモデルに適用可能であることが示され、競合性能が得られた。

Despite the remarkable advancements in Visual Question Answering (VQA), the challenge of mitigating the language bias introduced by textual information remains unresolved. Previous approaches capture language bias from a coarse-grained perspective. However, the finer-grained information within a sentence, such as context and keywords, can result in different biases. Due to the ignorance of fine-grained information, most existing methods fail to sufficiently capture language bias. In this paper, we propose a novel causal intervention training scheme named CIBi to eliminate language bias from a finer-grained perspective. Specifically, we divide the language bias into context bias and keyword bias. We employ causal intervention and contrastive learning to eliminate context bias and improve the multi-modal representation. Additionally, we design a new question-only branch based on counterfactual generation to distill and eliminate keyword bias. Experimental results illustrate that CIBi is applicable to various VQA models, yielding competitive performance.
翻訳日:2024-10-30 02:34:41 公開日:2024-10-14
# 局所測定による多部単光子経路絡み合いの量子状態推定

Quantum state estimation of multi-partite single photon path entanglement via local measurements ( http://arxiv.org/abs/2410.10185v1 )

ライセンス: Link先を確認
Hikaru Shimizu, Joe Yoshimoto, Kazufumi Tanji, Aruto Hosaka, Junko Ishi-Hayase, Tomoyuki Horikiri, Rikizo Ikuta, Masahiro Takeoka, (参考訳) マルチパーティの絡み合いは、量子インターネットの様々な応用において重要な役割を果たしている。 これらの応用では、絡み合いは通常遠方の当事者によって共有される。 実験では,局所的な測定のみで分散絡みを推定すべきである。 さらに,ネットワーク実験においては,実装が容易な計測技術が望ましい。 本稿では,局所的な測定のみにより,任意の光子経路の絡み合った状態を測定する手法を提案する。 理論的に合理的な仮定を考慮すれば,本手法の実装は比較的容易である。 本研究では,3量子W状態の密度行列を再構成することにより,本手法の有用性を実験的に実証する。

Multipartite entanglement plays a critical role in various applications of quantum internet. In these applications, the entanglement is usually shared by the distant parties. Experimentally, the distributed entanglement should be estimated by only local measurements. Furthermore, for network experiments, it is desirable to employ measurement techniques that are straightforward to implement. In this paper, we propose a method to measure arbitrary multipartite single photon path entangled states by only local measurements. By considering practically reasonable assumptions, our method is relatively easy to implement. We experimentally demonstrate the utility of this method by reconstructing the density matrix of a 3-qubit W-state.
翻訳日:2024-10-30 02:24:44 公開日:2024-10-14
# ワイヤコード

Wire Codes ( http://arxiv.org/abs/2410.10194v1 )

ライセンス: Link先を確認
Nouédyn Baspin, Dominic Williamson, (参考訳) 量子情報は脆弱であり、大規模な実用用途のために量子エラー訂正コードで保護されなければならない。 近年,高効率な空間接続を必要とする量子符号が発見されている。 これにより、物理的なハードウェア接続制約の下で、最小限のオーバーヘッドでこれらのコードを実現する方法が疑問視される。 ここでは、任意の量子安定化器コードを、重みと次数3の関連するコードパラメータを持つサブシステムコードに変換するための一般的なレシピと、与えられたグラフ上の局所的な相互作用を紹介する。 私たちは、レシピによって生成されたサブシステムコード(subsystem codes)を"ワイヤコード(wire codes)"と呼びます。 これらのコードは、入力タナーグラフの低密度埋め込みをサポートする任意のグラフに局所的な実装を持つように適応することができ、そのオーバーヘッドは埋め込みに依存する。 我々の結果を超立方格子に適用すると、任意の固定空間次元における最適なスケーリング符号パラメータを持つ局所的なサブシステム符号が構築される。 同様に、グラフの拡張の族に結果を適用すると、拡張の度合いに依存するコードパラメータを持つグラフ上の局所的なコードが得られる。 提案手法は,高効率な量子誤り訂正処理を制限された接続性を持つハードウェアに適用するために適用可能な,汎用グラフ上の低オーバーヘッドサブシステムコードを構築するための一般的な方法である。

Quantum information is fragile and must be protected by a quantum error-correcting code for large-scale practical applications. Recently, highly efficient quantum codes have been discovered which require a high degree of spatial connectivity. This raises the question of how to realize these codes with minimal overhead under physical hardware connectivity constraints. Here, we introduce a general recipe to transform any quantum stabilizer code into a subsystem code with related code parameters that has weight and degree three, and local interactions on a given graph. We call the subsystem codes produced by our recipe "wire codes". These codes can be adapted to have a local implementation on any graph that supports a low-density embedding of an input tanner graph, with an overhead that depends on the embedding. Applying our results to hypercubic lattices leads to a construction of local subsystem codes with optimal scaling code parameters in any fixed spatial dimension. Similarly, applying our results to families of expanding graphs leads to local codes on these graphs with code parameters that depend on the degree of expansion. Our results constitute a general method to construct low-overhead subsystem codes on general graphs, which can be applied to adapt highly efficient quantum error correction procedures to hardware with restricted connectivity.
翻訳日:2024-10-30 02:24:44 公開日:2024-10-14
# Fed-piLot: 効率的なフェデレーションモデルファインチューニングのためのLoRAアサインメントの最適化

Fed-piLot: Optimizing LoRA Assignment for Efficient Federated Foundation Model Fine-Tuning ( http://arxiv.org/abs/2410.10200v1 )

ライセンス: Link先を確認
Zikai Zhang, Jiahao Xu, Ping Liu, Rui Hu, (参考訳) ファンデーションモデル(FM)はインテリジェントなアプリケーションの性能向上に顕著な進歩を見せている。 FM微調整におけるデータプライバシの必要性に対処するため、フェデレート学習がデファクトフレームワークとして登場した。 具体的には、複数のクライアント上のフルモデルの代わりにローランク適応(LoRA)モジュールを使用したフェデレートFM(FedFM)の微調整は、パラメータ効率とデータのプライバシの両方を達成することができる。 しかし、最近の研究では、特にGPUメモリ容量が不均一なリソースを持つクライアントが抱える課題にほとんど対処していない。 本稿では、ヘテロジニアスクライアントのためのローカルLoRA割り当てを最適化したFedFMファインチューニングフレームワークであるFed-piLotを紹介する。 異なるLoRA層をトレーニングするための異なるメモリ消費と、モデル性能に対する異なるレイヤの様々な貢献を強調して、我々は、Knapsack Optimization ProblemとしてLoRAの割り当てを定式化する。 我々は、クライアントのメモリ制約下でのLoRA割り当てを最適化するために、IGスコア(Local-Global Information Gain Score)ベースの値関数を設計する。 モデル更新における不均一性の影響を緩和するため,動的重み調整(DWA)戦略を用いた空間時間モデルアグリゲーション(STAgg)ルールを提案する。 IIDおよび非IID条件下での3つのデータセットの実験結果は、Fed-piLotの有効性と効率を示す。 コードは公開されます。

Foundation models (FMs) have shown remarkable advancements in enhancing the performance of intelligent applications. To address the need for data privacy in FM fine-tuning, federated learning has emerged as the de facto framework. Specifically, Federated FMs (FedFMs) fine-tuning using low-rank adaptation (LoRA) modules instead of the full model over multiple clients can achieve both parameter efficiency and data privacy. However, recent studies rarely address the challenges posed by clients with heterogeneous resources, particularly in GPU memory capacity. In this paper, we introduce Fed-piLot, an efficient FedFM fine-tuning framework with optimized local LoRA assignments for heterogeneous clients. By emphasizing the different memory consumption for training different LoRA layers, as well as the varying contributions of different layers to model performance, we formulate the LoRA assignment as a Knapsack Optimization Problem. We design a Local-Global Information Gain Score (IG-Score) based value function to optimize LoRA assignment under clients' memory constraints. To further mitigate the impact of heterogeneity in model updates, we propose a novel Spatial-Temporal model aggregation (STAgg) rule using the Dynamic Weight Adjustment (DWA) strategy. Experimental results on three datasets under both IID and non-IID conditions demonstrate the effectiveness and efficiency of Fed-piLot. The code will be publicly available.
翻訳日:2024-10-30 02:24:44 公開日:2024-10-14
# MagicEraser: セマンティックス・アウェアコントロールによるオブジェクトの消去

MagicEraser: Erasing Any Objects via Semantics-Aware Control ( http://arxiv.org/abs/2410.10207v1 )

ライセンス: Link先を確認
Fan Li, Zixiao Zhang, Yi Huang, Jianzhuang Liu, Renjing Pei, Bin Shao, Songcen Xu, (参考訳) 従来の画像塗装作業は、周囲の背景や前景を参照することで、腐敗した地域を復元することを目的としている。 しかし, オブジェクト消去タスクは, 需要が高まっているため, オブジェクトを消去し, 調和した背景を生成することを目的としている。 従来のGANベースの塗布法は複雑なテクスチャ生成に苦慮していた。 安定拡散インペインティング(英語版)のような拡散モデルに基づくアルゴリズムは、新しいコンテンツを生成する能力を示すが、削除されたオブジェクトの場所において矛盾する結果をしばしば生成し、高品質なテキストプロンプト入力を必要とする。 これらの課題に対処するために,オブジェクト消去タスクに適した拡散モデルベースのフレームワークであるMagicEraserを紹介した。 コンテンツの初期化と制御可能な生成という2つのフェーズで構成されている。 後半の段階では,アクシデントチューニングとセマンティクスを意識した再焦点と呼ばれる2つのプラグイン・アンド・プレイモジュールを開発した。 さらに,本課題に適したトレーニングデータを生成するデータ構築戦略を提案する。 MagicEraserは、望ましくないアーティファクトを緩和しながら、コンテンツ生成の微細かつ効果的な制御を実現する。 実験結果から,オブジェクト消去作業におけるアプローチの貴重な進歩が明らかとなった。

The traditional image inpainting task aims to restore corrupted regions by referencing surrounding background and foreground. However, the object erasure task, which is in increasing demand, aims to erase objects and generate harmonious background. Previous GAN-based inpainting methods struggle with intricate texture generation. Emerging diffusion model-based algorithms, such as Stable Diffusion Inpainting, exhibit the capability to generate novel content, but they often produce incongruent results at the locations of the erased objects and require high-quality text prompt inputs. To address these challenges, we introduce MagicEraser, a diffusion model-based framework tailored for the object erasure task. It consists of two phases: content initialization and controllable generation. In the latter phase, we develop two plug-and-play modules called prompt tuning and semantics-aware attention refocus. Additionally, we propose a data construction strategy that generates training data specially suitable for this task. MagicEraser achieves fine and effective control of content generation while mitigating undesired artifacts. Experimental results highlight a valuable advancement of our approach in the object erasure task.
翻訳日:2024-10-30 02:24:44 公開日:2024-10-14
# 超伝導量子ビットにおける異方性逆相互作用のフロケット工学

Floquet Engineering of Anisotropic Transverse Interactions in Superconducting Qubits ( http://arxiv.org/abs/2410.10208v1 )

ライセンス: Link先を確認
Yongqi Liang, Wenhui Huang, Libo Zhang, Ziyu Tao, Kai Tang, Ji Chu, Jiawei Qiu, Xuandong Sun, Yuxuan Zhou, Jiawei Zhang, Jiajian Zhang, Weijie Guo, Yang Liu, Yuanzhen Chen, Song Liu, Youpeng Zhong, Jingjing Niu, Dapeng Yu, (参考訳) 超伝導トランスモン量子ビットは、量子計算の第一候補として確立され、エキゾチックな量子相とダイナミクスを探索するための柔軟なプラットフォームとなっている。 しかし、物理的結合は自然に量子ビット間の等方的逆相互作用をもたらし、空間依存的な相互作用を必要とする様々な量子相へのアクセスを制限する。 本稿では,Floquet 工学によるトランモン量子ビット間のペアリング (XX-YY) とホッピング (XX+YY) の同時実現を実証する。 これらの相互作用のコヒーレントな重ね合わせは、XX 項と YY 項の独立な制御を可能にし、異方的逆相互作用をもたらす。 合成空間におけるアハロノフ・ボーム干渉によって調整された6量子ビットの1次元鎖に沿って横方向の相互作用を整列させることにより、横方向のフィールドイジング連鎖モデルを合成し、その動的相転移を外部磁場下で探索する。 異方性交叉相互作用のスケーラブルな合成は、空間的依存的な相互作用を必要とするより複雑な物理系の実装の道を開く。

Superconducting transmon qubits have established as a leading candidate for quantum computation, as well as a flexible platform for exploring exotic quantum phases and dynamics. However, physical coupling naturally yields isotropic transverse interactions between qubits, restricting their access to diverse quantum phases that require spatially dependent interactions. Here, we demonstrate the simultaneous realization of both pairing (XX-YY) and hopping (XX+YY) interactions between transmon qubits by Floquet engineering. The coherent superposition of these interactions enables independent control over the XX and YY terms, yielding anisotropic transverse interactions. By aligning the transverse interactions along a 1D chain of six qubits, as calibrated via Aharonov-Bohm interference in synthetic space, we synthesize a transverse field Ising chain model and explore its dynamical phase transition under varying external field. The scalable synthesis of anisotropic transverse interactions paves the way for the implementation of more complex physical systems requiring spatially dependent interactions, enriching the toolbox for engineering quantum phases with superconducting qubits.
翻訳日:2024-10-30 02:24:44 公開日:2024-10-14
# 汎用バス保持制御のための大規模言語モデル強化強化学習

Large Language Model-Enhanced Reinforcement Learning for Generic Bus Holding Control Strategies ( http://arxiv.org/abs/2410.10212v1 )

ライセンス: Link先を確認
Jiajie Yu, Yuhong Wang, Wei Ma, (参考訳) バスの保持制御は、バスシステムの安定性を維持し、運転効率を向上させるために広く採用されている戦略である。 従来のモデルに基づく手法は、バスの状態予測と乗客の需要予測の精度の低い課題に直面することが多い。 対照的に、データ駆動型アプローチとしての強化学習(RL)は、バス保持戦略を定式化する大きな可能性を示している。 RLは、総制御目標を反映した累積報酬を最大化する最適制御戦略を決定する。 しかし、現実のタスクにおけるスパースと遅延制御目標をRLの高密度かつリアルタイムな報酬に変換することは困難であり、通常、広範囲な手動による試行錯誤が必要となる。 そこで本研究では,Large Language Models (LLM) の文脈内学習と推論機能を活用することで,自動報酬生成パラダイムを提案する。 LLM拡張RLと呼ばれるこの新しいパラダイムは、報奨初期化器、報奨修飾器、性能解析器、報奨精製器という、LLMベースのモジュールで構成されている。 これらのモジュールは、所定のRLベースのタスクのトレーニングおよびテスト結果からのフィードバックに応じて、報酬関数の初期化と反復的に改善に協力する。 LLMが生成した非効率な報酬関数をフィルタリングし、反復よりもRLエージェントの性能が安定に進化することを保証する。 提案するLLM拡張RLパラダイムの実現可能性を評価するため,合成単線システムや実世界の多線システムなど,様々なバス保持制御シナリオに適用した。 この結果は,バニラRL戦略やLLM制御,従来の空間方向フィードバック制御と比較して,提案手法の優位性とロバスト性を示すものである。 この研究は、様々なスマートモビリティアプリケーションでLLMを利用する大きな可能性について光を当てる。

Bus holding control is a widely-adopted strategy for maintaining stability and improving the operational efficiency of bus systems. Traditional model-based methods often face challenges with the low accuracy of bus state prediction and passenger demand estimation. In contrast, Reinforcement Learning (RL), as a data-driven approach, has demonstrated great potential in formulating bus holding strategies. RL determines the optimal control strategies in order to maximize the cumulative reward, which reflects the overall control goals. However, translating sparse and delayed control goals in real-world tasks into dense and real-time rewards for RL is challenging, normally requiring extensive manual trial-and-error. In view of this, this study introduces an automatic reward generation paradigm by leveraging the in-context learning and reasoning capabilities of Large Language Models (LLMs). This new paradigm, termed the LLM-enhanced RL, comprises several LLM-based modules: reward initializer, reward modifier, performance analyzer, and reward refiner. These modules cooperate to initialize and iteratively improve the reward function according to the feedback from training and test results for the specified RL-based task. Ineffective reward functions generated by the LLM are filtered out to ensure the stable evolution of the RL agents' performance over iterations. To evaluate the feasibility of the proposed LLM-enhanced RL paradigm, it is applied to various bus holding control scenarios, including a synthetic single-line system and a real-world multi-line system. The results demonstrate the superiority and robustness of the proposed paradigm compared to vanilla RL strategies, the LLM-based controller, and conventional space headway-based feedback control. This study sheds light on the great potential of utilizing LLMs in various smart mobility applications.
翻訳日:2024-10-30 02:24:44 公開日:2024-10-14
# Skill Aggregation: 参照不要 LLM-Dependent Aggregation

SkillAggregation: Reference-free LLM-Dependent Aggregation ( http://arxiv.org/abs/2410.10215v1 )

ライセンス: Link先を確認
Guangzhi Sun, Anmol Kagrecha, Potsawee Manakul, Phil Woodland, Mark Gales, (参考訳) 大規模言語モデル(LLM)は、人間のような判断を生成する能力のため、NLPタスクの評価にますます使用される。 最初は単一LSMが用いられたが、近年の研究では、審査員が性能を向上させるために複数のLSMを使用することが提案されている。 複数の判断を活用するための重要なステップは、組み合わせステージ、集約である。 NLPの既存の方法は全てのLLM判定に等しい重量を割り当てるか、幻覚検出のような特定のタスクのために設計されている。 この研究は、参照ラベルが使用できない複数のシステムからの予測を集約することに焦点を当てている。 SkillAggregationと呼ばれる新しい手法が提案され、LLMの審査員による推定を、追加のデータや地上の真実を必要とせずに組み合わせることを学ぶ。 これは、画像分類のために開発された群衆層集約法を拡張し、推論中の判定推定値を活用する。 このアプローチは、HaluEval-Dialogue、TruthfulQA、Chatbot Arenaタスクの一連の標準集約手法と比較される。 SkillAggregationは、すべてのタスクでCrowdlayerを上回り、ほとんどのタスクにおいて、すべてのアプローチで最高のパフォーマンスを得る。

Large Language Models (LLMs) are increasingly used to assess NLP tasks due to their ability to generate human-like judgments. Single LLMs were used initially, however, recent work suggests using multiple LLMs as judges yields improved performance. An important step in exploiting multiple judgements is the combination stage, aggregation. Existing methods in NLP either assign equal weight to all LLM judgments or are designed for specific tasks such as hallucination detection. This work focuses on aggregating predictions from multiple systems where no reference labels are available. A new method called SkillAggregation is proposed, which learns to combine estimates from LLM judges without needing additional data or ground truth. It extends the Crowdlayer aggregation method, developed for image classification, to exploit the judge estimates during inference. The approach is compared to a range of standard aggregation methods on HaluEval-Dialogue, TruthfulQA and Chatbot Arena tasks. SkillAggregation outperforms Crowdlayer on all tasks, and yields the best performance over all approaches on the majority of tasks.
翻訳日:2024-10-30 02:24:44 公開日:2024-10-14
# 負重み付きデータを用いた準確率的類似度推定

Neural Quasiprobabilistic Likelihood Ratio Estimation with Negatively Weighted Data ( http://arxiv.org/abs/2410.10216v1 )

ライセンス: Link先を確認
Matthew Drnevich, Stephen Jiggins, Judith Katzy, Kyle Cranmer, (参考訳) 高エネルギー粒子物理学で見られる実世界の状況に触発され、確率密度が負の準確率的環境への確率比推定タスクの一般化を考える。 このフレーミングは、重みが負となるような環境での重要サンプリングにも適用される。 負の密度と負の重みの存在は、従来のニューラルチャンス比推定法に様々な課題をもたらす。 新たな損失関数を導入することで,これらの課題に対処する。 さらに,符号付き混合モデルを用いた確率比の分解に基づく新しいモデルアーキテクチャを導入し,これらの課題を克服するための第2の戦略を提供する。 最後に、我々のアプローチを、粒子物理学の教育的な例と実世界の例で実証する。

Motivated by real-world situations found in high energy particle physics, we consider a generalisation of the likelihood-ratio estimation task to a quasiprobabilistic setting where probability densities can be negative. By extension, this framing also applies to importance sampling in a setting where the importance weights can be negative. The presence of negative densities and negative weights, pose an array of challenges to traditional neural likelihood ratio estimation methods. We address these challenges by introducing a novel loss function. In addition, we introduce a new model architecture based on the decomposition of a likelihood ratio using signed mixture models, providing a second strategy for overcoming these challenges. Finally, we demonstrate our approach on a pedagogical example and a real-world example from particle physics.
翻訳日:2024-10-30 02:24:44 公開日:2024-10-14
# ChakmaNMT: Chakma言語での低リソース機械翻訳

ChakmaNMT: A Low-resource Machine Translation On Chakma Language ( http://arxiv.org/abs/2410.10219v1 )

ライセンス: Link先を確認
Aunabil Chakma, Aditya Chakma, Soham Khisa, Chumui Tripura, Masum Hasan, Rifat Shahriyar, (参考訳) 先住民のチャクマ族とバングラデシュの主流派の間の地政学的区分は、チャクマ族が主にバングラデシュの丘陵地帯に住んでいるため、文化的・言語的なギャップを生じさせる。 機械翻訳(MT)モデルやチャクマをバングラに開発することは、この文化的・言語的な隔たりを緩和する上で重要な役割を果たす可能性がある。 そこで我々は, CCP-BN (Chakma-Bangla) 間のMTについて, 15,021個の並列サンプルと42,783個の単言語サンプルを新たに導入して検討した。 さらに、Chakma, Bangla, English間の600の並列サンプルを含むベンチマーク用の小さなセットも紹介する。 CCP-BN と BN-CCP でそれぞれ17.8 と4.41 の BLEU スコアを達成した。 私たちが知る限りでは、これがChakma言語のためのMTに関する最初の作業です。 この研究は、言語資源のギャップを埋め、絶滅危惧言語を保存するのに役立つことを期待している。 データセットのリンクとコードも間もなく公開される予定です。

The geopolitical division between the indigenous Chakma population and mainstream Bangladesh creates a significant cultural and linguistic gap, as the Chakma community, mostly residing in the hill tracts of Bangladesh, maintains distinct cultural traditions and language. Developing a Machine Translation (MT) model or Chakma to Bangla could play a crucial role in alleviating this cultural-linguistic divide. Thus, we have worked on MT between CCP-BN(Chakma-Bangla) by introducing a novel dataset of 15,021 parallel samples and 42,783 monolingual samples of the Chakma Language. Moreover, we introduce a small set for Benchmarking containing 600 parallel samples between Chakma, Bangla, and English. We ran traditional and state-of-the-art models in NLP on the training set, where fine-tuning BanglaT5 with back-translation using transliteration of Chakma achieved the highest BLEU score of 17.8 and 4.41 in CCP-BN and BN-CCP respectively on the Benchmark Dataset. As far as we know, this is the first-ever work on MT for the Chakma Language. Hopefully, this research will help to bridge the gap in linguistic resources and contribute to preserving endangered languages. Our dataset link and codes will be published soon.
翻訳日:2024-10-30 02:24:44 公開日:2024-10-14
# MRIデータを用いた拡散オートエンコーダ埋め込みによる予期せぬデータ特性の検出

Detecting Unforeseen Data Properties with Diffusion Autoencoder Embeddings using Spine MRI data ( http://arxiv.org/abs/2410.10220v1 )

ライセンス: Link先を確認
Robert Graf, Florian Hunecke, Soeren Pohl, Matan Atad, Hendrik Moeller, Sophie Starck, Thomas Kroencke, Stefanie Bette, Fabian Bamberg, Tobias Pischon, Thoralf Niendorf, Carsten Schmidt, Johannes C. Paetzold, Daniel Rueckert, Jan S Kirschke, (参考訳) 深層学習は、診断と予後を改善するために大規模なデータセットを利用することによって、医療画像に大きく貢献してきた。 しかし、大きなデータセットは、主題の選択と取得によって固有のエラーを伴うことが多い。 本稿では,DAE(Diffusion Autoencoder)埋め込みを用いて,性別などの保護変数に対するバイアスや,望ましくないプロトコルのバリエーションを示すデータ異常など,データ特性やバイアスの解明と理解を行う。 ドイツ国立コーホート(NAKO)11186名を対象に, 頚部, 胸部, 腰椎部の矢状T2強調MRI像を用いて検討した。 DAE埋め込みをStyleGANや変動オートエンコーダといった既存の生成モデルと比較する。 3つの脊椎領域の矢状T2強調MR画像からなる大規模データセットの評価は、DAE埋め込みが性や年齢などの保護変数を効果的に分離していることを示している。 さらに、t-SNE可視化を用いて、撮像プロトコルの不要な変動を識別し、頭部位置の違いを明らかにした。 私たちの埋め込みでは、セックス予測器が正しいセックスを学習する問題のあるサンプルを特定できます。 我々の研究は、DAEのような高度な埋め込み技術を用いて、医療画像データセットにおけるデータ品質の問題やバイアスを検出する可能性を浮き彫りにした。 このような隠れた関係を特定すれば、医療応用におけるディープラーニングモデルの信頼性と公正性を高め、最終的には患者のケアと結果を改善することができる。

Deep learning has made significant strides in medical imaging, leveraging the use of large datasets to improve diagnostics and prognostics. However, large datasets often come with inherent errors through subject selection and acquisition. In this paper, we investigate the use of Diffusion Autoencoder (DAE) embeddings for uncovering and understanding data characteristics and biases, including biases for protected variables like sex and data abnormalities indicative of unwanted protocol variations. We use sagittal T2-weighted magnetic resonance (MR) images of the neck, chest, and lumbar region from 11186 German National Cohort (NAKO) participants. We compare DAE embeddings with existing generative models like StyleGAN and Variational Autoencoder. Evaluations on a large-scale dataset consisting of sagittal T2-weighted MR images of three spine regions show that DAE embeddings effectively separate protected variables such as sex and age. Furthermore, we used t-SNE visualization to identify unwanted variations in imaging protocols, revealing differences in head positioning. Our embedding can identify samples where a sex predictor will have issues learning the correct sex. Our findings highlight the potential of using advanced embedding techniques like DAEs to detect data quality issues and biases in medical imaging datasets. Identifying such hidden relations can enhance the reliability and fairness of deep learning models in healthcare applications, ultimately improving patient care and outcomes.
翻訳日:2024-10-30 02:14:55 公開日:2024-10-14
# ファウショット学習のためのピラミッド型KNN変換器

KNN Transformer with Pyramid Prompts for Few-Shot Learning ( http://arxiv.org/abs/2410.10227v1 )

ライセンス: Link先を確認
Wenhao Li, Qiangchang Wang, Peng Zhao, Yilong Yin, (参考訳) FSL(Few-Shot Learning)は、ラベル付きデータに制限のある新しいクラスを認識することを目的としている。 近年の研究では、視覚的特徴を調節するためのテキストプロンプトを用いたまれなサンプルの課題に対処しようと試みている。 しかし、彼らは通常、テキスト的特徴と視覚的特徴の間の複雑な意味的関係を捉えるのに苦労する。 さらに、バニラ自己注意は画像の役に立たない情報の影響を強く受けており、相互作用中に多くの無関係なトークンが混同されるため、FSLにおける意味的先行の可能性を厳しく制限している。 これらの課題に対処するため、K-NN変換器(KTPP)が提案され、K-NNコンテキストアテンション(KCA)を用いて識別情報を選択し、Mraamid Cross-modal Prompts(PCP)を用いて視覚的特徴を適応的に調節する。 まず、各トークンについて、KCAは自己アテンション行列を計算するために最も関連性の高いトークンのみを選択し、すべてのトークンの平均をコンテキストプロンプトとして組み込んで、3つのケースでグローバルなコンテキストを提供する。 その結果、無関係なトークンを徐々に抑制することができる。 第二に、PCPでは、テキストベースのクラス認識プロンプトとマルチスケール視覚特徴との相互作用を通じて視覚的特徴を強調するためにピラミッドプロンプトが導入されている。 これにより、ViTは様々なスケールでリッチな意味情報に基づいて視覚的特徴の重み付けを動的に調整し、空間的変動に頑健にすることができる。 最後に、拡張視覚機能とクラス認識プロンプトはKCAを介して相互作用し、クラス固有の特徴を抽出する。 その結果,本モデルでは,ディープ・モーダル相互作用によるノイズフリーな視覚表現をさらに強化し,ラベル付きサンプルの少ないシナリオで一般化された視覚表現を抽出する。 4つのベンチマークデータセットの大規模な実験により,本手法の有効性が示された。

Few-Shot Learning (FSL) aims to recognize new classes with limited labeled data. Recent studies have attempted to address the challenge of rare samples with textual prompts to modulate visual features. However, they usually struggle to capture complex semantic relationships between textual and visual features. Moreover, vanilla self-attention is heavily affected by useless information in images, severely constraining the potential of semantic priors in FSL due to the confusion of numerous irrelevant tokens during interaction. To address these aforementioned issues, a K-NN Transformer with Pyramid Prompts (KTPP) is proposed to select discriminative information with K-NN Context Attention (KCA) and adaptively modulate visual features with Pyramid Cross-modal Prompts (PCP). First, for each token, the KCA only selects the K most relevant tokens to compute the self-attention matrix and incorporates the mean of all tokens as the context prompt to provide the global context in three cascaded stages. As a result, irrelevant tokens can be progressively suppressed. Secondly, pyramid prompts are introduced in the PCP to emphasize visual features via interactions between text-based class-aware prompts and multi-scale visual features. This allows the ViT to dynamically adjust the importance weights of visual features based on rich semantic information at different scales, making models robust to spatial variations. Finally, augmented visual features and class-aware prompts are interacted via the KCA to extract class-specific features. Consequently, our model further enhances noise-free visual representations via deep cross-modal interactions, extracting generalized visual representation in scenarios with few labeled samples. Extensive experiments on four benchmark datasets demonstrate the effectiveness of our method.
翻訳日:2024-10-30 02:14:55 公開日:2024-10-14
# QE-EBM:機械翻訳における品質推定器によるエネルギー損失

QE-EBM: Using Quality Estimators as Energy Loss for Machine Translation ( http://arxiv.org/abs/2410.10228v1 )

ライセンス: Link先を確認
Gahyun Yoo, Jay Yoon Lee, (参考訳) 強化学習は、機械翻訳を含む様々なテキスト生成タスクにおいて、言語モデルと人間の好みとの整合性を示す。 翻訳タスクでは、ラベルなしデータに対する報酬を生成する品質推定(QE)モデルから報酬を簡単に得ることができる。 その有用性にもかかわらず、強化学習はQEスコアに対する勾配を活用できない。 トレーニング可能な損失ネットワークとして品質推定器を用いるQE-EBMを提案する。 本稿では,ソース言語として英語を用いた低リソース・高リソースターゲット言語について検討する。 QE-EBMはREINFORCE(英語版)やPPO(英語版)のような強力なベースラインを上回り、ターゲット言語、特に低リソースターゲット言語に対する微調整を監督している。 特に,英語・モンゴル語訳では,2.5BLEU,7.1COMET-KIWI,5.3COMET,6.4XCOMETの改善が達成されている。

Reinforcement learning has shown great promise in aligning language models with human preferences in a variety of text generation tasks, including machine translation. For translation tasks, rewards can easily be obtained from quality estimation (QE) models which can generate rewards for unlabeled data. Despite its usefulness, reinforcement learning cannot exploit the gradients with respect to the QE score. We propose QE-EBM, a method of employing quality estimators as trainable loss networks that can directly backpropagate to the NMT model. We examine our method on several low and high resource target languages with English as the source language. QE-EBM outperforms strong baselines such as REINFORCE and proximal policy optimization (PPO) as well as supervised fine-tuning for all target languages, especially low-resource target languages. Most notably, for English-to-Mongolian translation, our method achieves improvements of 2.5 BLEU, 7.1 COMET-KIWI, 5.3 COMET, and 6.4 XCOMET relative to the supervised baseline.
翻訳日:2024-10-30 02:14:55 公開日:2024-10-14
# BanglaQuAD - ベンガルのオープンドメインの質問回答データセット

BanglaQuAD: A Bengali Open-domain Question Answering Dataset ( http://arxiv.org/abs/2410.10229v1 )

ライセンス: Link先を確認
Md Rashad Al Hasan Rony, Sudipto Kumar Shaha, Rakib Al Hasan, Sumon Kanti Dey, Amzad Hossain Rafi, Amzad Hossain Rafi, Ashraf Hasan Sirajee, Jens Lehmann, (参考訳) ベンガル語は地球上で7番目に話される言語であるが、自然言語処理(NLP)の分野では低リソース言語と考えられている。 非構造化テキストに対する質問応答は、問合せと問合せの両方を理解する必要があるため、難解なNLPタスクである。 ベンガル語(ネイティブに「バングラ」と発音される)のテキストに対する質問応答を試みようとする研究者はほとんどいなかった。 通常、既存のアプローチは、それらを直接英語からベンガル語に翻訳することでデータセットを構築し、ノイズや不適切な文構造を生成する。 さらに、ベンガル語や人々に関する話題や用語も欠落している。 本稿では,ベンガル語ウィキペディアの記事から構築した30,808組の質問応答ペアを母語話者によって構成したベンガル語質問応答データセットであるBanglaQuADを紹介する。 さらに,ローカルマシン上での質問応答データセット構築を容易にするアノテーションツールを提案する。 定性的分析は,提案したデータセットの品質を示す。

Bengali is the seventh most spoken language on earth, yet considered a low-resource language in the field of natural language processing (NLP). Question answering over unstructured text is a challenging NLP task as it requires understanding both question and passage. Very few researchers attempted to perform question answering over Bengali (natively pronounced as Bangla) text. Typically, existing approaches construct the dataset by directly translating them from English to Bengali, which produces noisy and improper sentence structures. Furthermore, they lack topics and terminologies related to the Bengali language and people. This paper introduces BanglaQuAD, a Bengali question answering dataset, containing 30,808 question-answer pairs constructed from Bengali Wikipedia articles by native speakers. Additionally, we propose an annotation tool that facilitates question-answering dataset construction on a local machine. A qualitative analysis demonstrates the quality of our proposed dataset.
翻訳日:2024-10-30 02:14:55 公開日:2024-10-14
# サロゲートPAC-Bayesによる学習

Learning via Surrogate PAC-Bayes ( http://arxiv.org/abs/2410.10230v1 )

ライセンス: Link先を確認
Antoine Picard-Weibel, Roman Moscoviz, Benjamin Guedj, (参考訳) PAC-Bayesの学習は総合的な設定 一 学習アルゴリズムの一般化能力及び一般化能力の研究 (II)一般化境界の最適化による新しい学習アルゴリズムの導出。 しかし、一般化境界の最適化は、常にトラクタブルあるいは計算上の理由、あるいはその両方に有効であるとは限らない。 例えば、経験的リスクを反復的にクエリすることで、計算コストが大きくなる可能性がある。 そこで本研究では,PAC-Bayes一般化境界から継承した一連の代理学習目標を最適化することで,反復学習アルゴリズムを構築するための新しい原則的戦略を提案する。 鍵となる議論は、構成可能な低次元汎函数空間への射影によって束縛された一般化における経験的リスク(仮説の関数として見られる)を置き換えることである。 PAC-Bayes境界による学習の汎用的レシピの提供に加えて、我々は、 i) シュロゲートの反復最適化が元の一般化境界の最適化を意味することを示す理論的結果に寄与する。 (II)メタ学習の枠組みにこの戦略をインスタンス化し、メタ学習のためのクローズドフォーム表現を提供するメタオブジェクトを導入する。 (III) 産業の生化学的問題から着想を得た数値実験により, 本手法を概説する。

PAC-Bayes learning is a comprehensive setting for (i) studying the generalisation ability of learning algorithms and (ii) deriving new learning algorithms by optimising a generalisation bound. However, optimising generalisation bounds might not always be viable for tractable or computational reasons, or both. For example, iteratively querying the empirical risk might prove computationally expensive. In response, we introduce a novel principled strategy for building an iterative learning algorithm via the optimisation of a sequence of surrogate training objectives, inherited from PAC-Bayes generalisation bounds. The key argument is to replace the empirical risk (seen as a function of hypotheses) in the generalisation bound by its projection onto a constructible low dimensional functional space: these projections can be queried much more efficiently than the initial risk. On top of providing that generic recipe for learning via surrogate PAC-Bayes bounds, we (i) contribute theoretical results establishing that iteratively optimising our surrogates implies the optimisation of the original generalisation bounds, (ii) instantiate this strategy to the framework of meta-learning, introducing a meta-objective offering a closed form expression for meta-gradient, (iii) illustrate our approach with numerical experiments inspired by an industrial biochemical problem.
翻訳日:2024-10-30 02:14:55 公開日:2024-10-14
# ワイル・ティッチマーシュ理論による定常シュレーディンガー方程式の透明境界条件

Transparent boundary conditions for the stationary Schroedinger equation via Weyl-Titchmarsh theory ( http://arxiv.org/abs/2410.10232v1 )

ライセンス: Link先を確認
V. A. Derkach, C. Trunk, J. R. Yusupov, D. U. Matrasulov, (参考訳) 任意のポテンシャルを持つ定常シュレーディンガー方程式の透明境界条件を導出する一般手法を提案する。 透明境界条件はワイル・ティッチマーシュ係数で記述できることが証明されている。 提案手法の適用例として、調和ポテンシャルとPoeschl-Tellerポテンシャルを持つ定常シュレーディンガー方程式の2つの特別な場合を考える。

We propose a general approach for deriving transparent boundary conditions for the stationary Schroedinger equation with arbitrary potential. It is proven that the transparent boundary conditions can be written in terms of the Weyl-Titchmarsh coefficients. As examples for the application of the proposed approach, two special cases for the stationary Schroedinger equation with the harmonic potential and the Poeschl-Teller potential are considered.
翻訳日:2024-10-30 02:14:55 公開日:2024-10-14
# 精神医療におけるAIの可能性を解き明かす上での患者信頼の重要性

The Importance of Justified Patient Trust in unlocking AI's potential in mental healthcare ( http://arxiv.org/abs/2410.10233v1 )

ライセンス: Link先を確認
Tita Alissa Bach, Niko Mannikko, (参考訳) 信頼がなければ、患者はAIシステムに関わることをためらうかもしれない。 本論文は、AIシステムにおいて、直接ユーザーであるメンタルヘルス患者が持つべき信頼に焦点を当て、AIシステムとそれらに影響を及ぼすメンタルヘルスの最も敏感で直接的な関係を明らかにする。 我々は、正当化された信頼の概念、それが患者のポジティブなケアの成果にとって重要である理由、そして、この信頼を育み維持するために必要な戦略を探求する。 これらの側面を調べることで、正当性のある信頼を育むことが、メンタルヘルスケアにおけるAIの潜在的影響を解き放つ鍵となる点を強調します。

Without trust, patients may hesitate to engage with AI systems, significantly limiting the technology's potential in mental healthcare. This paper focuses specifically on the trust that mental health patients, as direct users, must have in AI systems, highlighting the most sensitive and direct relationship between AI systems and those whose mental healthcare is impacted by them. We explore the concept of justified trust, why it is important for patient positive care outcomes, and the strategies needed to foster and maintain this trust. By examining these aspects, we highlight how cultivating justified trust is key to unlocking AI's potential impact in mental healthcare.
翻訳日:2024-10-30 02:14:55 公開日:2024-10-14
# LADMIM:離散遅延空間における仮面画像モデリングによる論理異常検出

LADMIM: Logical Anomaly Detection with Masked Image Modeling in Discrete Latent Space ( http://arxiv.org/abs/2410.10234v1 )

ライセンス: Link先を確認
Shunsuke Sakai, Tatushito Hasegawa, Makoto Koshino, (参考訳) 物体の不正な組み合わせや位置のずれなどの異常を検出することは、産業的異常検出において難しい問題である。 従来の手法は主に、傷や汚れなどの通常の画像の局所的な特徴に焦点を当てており、特徴間の関係の異常を検出することは困難である。 Masked Image Modeling(MIM)は、画像中のマスキング領域の特徴表現を予測する自己教師付き学習技術である。 マスクされた領域を再構築するには、画像がどのように構成されているかを理解し、画像内の特徴間の関係を学習する必要がある。 本稿では,MIMの特性を利用して論理異常を効果的に検出する手法を提案する。 再構成画像のぼかしに対処するため、トークン化器を用いて、マスキング領域の離散潜伏変数の確率分布を予測し、画素予測を置き換える。 提案手法をMVTecLOCOデータセット上で評価し,従来の再構築法と蒸留法に比較して平均0.867のAUCを達成した。

Detecting anomalies such as incorrect combinations of objects or deviations in their positions is a challenging problem in industrial anomaly detection. Traditional methods mainly focus on local features of normal images, such as scratches and dirt, making detecting anomalies in the relationships between features difficult. Masked image modeling(MIM) is a self-supervised learning technique that predicts the feature representation of masked regions in an image. To reconstruct the masked regions, it is necessary to understand how the image is composed, allowing the learning of relationships between features within the image. We propose a novel approach that leverages the characteristics of MIM to detect logical anomalies effectively. To address blurriness in the reconstructed image, we replace pixel prediction with predicting the probability distribution of discrete latent variables of the masked regions using a tokenizer. We evaluated the proposed method on the MVTecLOCO dataset, achieving an average AUC of 0.867, surpassing traditional reconstruction-based and distillation-based methods.
翻訳日:2024-10-30 02:14:55 公開日:2024-10-14
# ForgeryGPT: 説明可能な画像偽造検出と位置推定のための多モード大言語モデル

ForgeryGPT: Multimodal Large Language Model For Explainable Image Forgery Detection and Localization ( http://arxiv.org/abs/2410.10238v1 )

ライセンス: Link先を確認
Jiawei Li, Fanrui Zhang, Jiaying Zhu, Esther Sun, Qiang Zhang, Zheng-Jun Zha, (参考訳) GPT4oのようなマルチモーダル大言語モデル(MLLM)は、視覚的推論や説明生成において強力な能力を示している。 しかし、これらの強みにもかかわらず、画像偽造検出および局所化(IFDL)の重要課題がますます深刻化している。 さらに、既存のIFDL法は、通常、低レベルの意味不明な手がかりの学習に限られており、ただ一つの結果判定を提供するだけである。 これらの課題に対処するために,ForgeryGPTを提案する。このフレームワークは,多種多様な言語特徴空間から偽画像の高次法医学的知識相関を抽出し,新たにカスタマイズされたLarge Language Model (LLM)アーキテクチャによる説明可能な生成と対話を可能にする。 具体的には、ForgeryGPTはMask-Aware Forgery Extractorを統合し、入力画像から正確なフォージェリーマスク情報を抽出し、改ざん品のピクセルレベルの理解を容易にすることで、従来のLCMを強化している。 Mask-Aware Forgery Extractor は Forgery Localization Expert (FL-Expert) と Mask Encoder で構成されており、FL-Expert は Object-Agnostic Forgery Prompt と Vocabulary-enhanced Vision Encoder で拡張されており、マルチスケールの微細なフォージェリー詳細を効果的にキャプチャすることができる。 その性能を向上させるため,設計したMask-Text AlignmentとIFDL Task-Specific Instruction Tuningデータセットによって支援された3段階のトレーニング戦略を実装した。 大規模実験により提案手法の有効性が示された。

Multimodal Large Language Models (MLLMs), such as GPT4o, have shown strong capabilities in visual reasoning and explanation generation. However, despite these strengths, they face significant challenges in the increasingly critical task of Image Forgery Detection and Localization (IFDL). Moreover, existing IFDL methods are typically limited to the learning of low-level semantic-agnostic clues and merely provide a single outcome judgment. To tackle these issues, we propose ForgeryGPT, a novel framework that advances the IFDL task by capturing high-order forensics knowledge correlations of forged images from diverse linguistic feature spaces, while enabling explainable generation and interactive dialogue through a newly customized Large Language Model (LLM) architecture. Specifically, ForgeryGPT enhances traditional LLMs by integrating the Mask-Aware Forgery Extractor, which enables the excavating of precise forgery mask information from input images and facilitating pixel-level understanding of tampering artifacts. The Mask-Aware Forgery Extractor consists of a Forgery Localization Expert (FL-Expert) and a Mask Encoder, where the FL-Expert is augmented with an Object-agnostic Forgery Prompt and a Vocabulary-enhanced Vision Encoder, allowing for effectively capturing of multi-scale fine-grained forgery details. To enhance its performance, we implement a three-stage training strategy, supported by our designed Mask-Text Alignment and IFDL Task-Specific Instruction Tuning datasets, which align vision-language modalities and improve forgery detection and instruction-following capabilities. Extensive experiments demonstrate the effectiveness of the proposed method.
翻訳日:2024-10-30 02:14:55 公開日:2024-10-14
# グラフオートエンコーダの再検討とベンチマーク:対照的な学習の視点

Revisiting and Benchmarking Graph Autoencoders: A Contrastive Learning Perspective ( http://arxiv.org/abs/2410.10241v1 )

ライセンス: Link先を確認
Jintang Li, Ruofan Wu, Yuchang Zhu, Huizhe Zhang, Xinzhou Jin, Guibin Zhang, Zulun Zhu, Zibin Zheng, Liang Chen, (参考訳) グラフオートエンコーダ(GAE)は、低次元の潜在空間から入力グラフを再構成することにより、グラフ構造化データの意味のある表現を学習できる自己教師型学習モデルである。 過去数年間、GAEは学術と産業で大きな注目を集めてきた。 特に、マスク付き自動符号化方式によるGAEの近年の出現は、グラフ自己教師型学習研究において大きな進歩を見せている。 多数のGAEが提案されているが、基礎となるGAEのメカニズムはよく理解されておらず、GAEの包括的なベンチマークはいまだに欠落している。 本研究では,GAEとコントラスト学習のギャップを,概念的および方法論的つながりを確立することによって埋める。 我々は,従来の研究で研究されたGAEを再考し,GAEにいかに対照的な学習原則を適用できるかを実証する。 これらの知見に触発されて、コントラスト学習の原則を活用して意味のある表現を学習する汎用的で強力なGAEフレームワークであるlrGAE(left-right GAE)を紹介した。 提案したlrGAEは,GAEの理解を深めるだけでなく,多様なグラフベースの学習タスクにまたがるGAEのベンチマークを新たに設定する。 lrGAEのソースコードは、ベースラインと結果の再生のためのすべてのコードを含み、https://github.com/EdisonLeeeee/lrGAEで公開されている。

Graph autoencoders (GAEs) are self-supervised learning models that can learn meaningful representations of graph-structured data by reconstructing the input graph from a low-dimensional latent space. Over the past few years, GAEs have gained significant attention in academia and industry. In particular, the recent advent of GAEs with masked autoencoding schemes marks a significant advancement in graph self-supervised learning research. While numerous GAEs have been proposed, the underlying mechanisms of GAEs are not well understood, and a comprehensive benchmark for GAEs is still lacking. In this work, we bridge the gap between GAEs and contrastive learning by establishing conceptual and methodological connections. We revisit the GAEs studied in previous works and demonstrate how contrastive learning principles can be applied to GAEs. Motivated by these insights, we introduce lrGAE (left-right GAE), a general and powerful GAE framework that leverages contrastive learning principles to learn meaningful representations. Our proposed lrGAE not only facilitates a deeper understanding of GAEs but also sets a new benchmark for GAEs across diverse graph-based learning tasks. The source code for lrGAE, including the baselines and all the code for reproducing the results, is publicly available at https://github.com/EdisonLeeeee/lrGAE.
翻訳日:2024-10-30 02:14:55 公開日:2024-10-14
# 統計的学習の基本理論における測定可能性

Measurability in the Fundamental Theorem of Statistical Learning ( http://arxiv.org/abs/2410.10243v1 )

ライセンス: Link先を確認
Lothar Sebastian Krapp, Laura Wirth, (参考訳) 統計的学習の基本定理は、仮説空間がPAC学習可能であることと、そのVC次元が有限であることは同値である。 PAC学習の非依存モデルについて、これまでの文献では、この定理の証明を示しており、しばしば関連する集合や函数に対していくつかの可測性仮定を暗黙に課している。 我々は、厳密な議論に必要な仮定を抽出するために、これらの証明を測度理論の観点から精査する。 このことは、音のステートメントや、統計学習の基本理論の詳細な自己完結した証明につながり、必要最小限の可測性要件を示す。 次に、NIPおよびo-ミニマル構造を考慮したモデル理論の応用について論じる。 我々の主定理は、実数 O-極小展開上で定義される仮説空間のPAC学習可能性に関する十分条件を示す。

The Fundamental Theorem of Statistical Learning states that a hypothesis space is PAC learnable if and only if its VC dimension is finite. For the agnostic model of PAC learning, the literature so far presents proofs of this theorem that often tacitly impose several measurability assumptions on the involved sets and functions. We scrutinize these proofs from a measure-theoretic perspective in order to extract the assumptions needed for a rigorous argument. This leads to a sound statement as well as a detailed and self-contained proof of the Fundamental Theorem of Statistical Learning in the agnostic setting, showcasing the minimal measurability requirements needed. We then discuss applications in Model Theory, considering NIP and o-minimal structures. Our main theorem presents sufficient conditions for the PAC learnability of hypothesis spaces defined over o-minimal expansions of the reals.
翻訳日:2024-10-30 02:14:55 公開日:2024-10-14
# フィールド環境における量子セキュリティデータセンターの相互接続

Quantum-Secured Data Centre Interconnect in a field environment ( http://arxiv.org/abs/2410.10245v1 )

ライセンス: Link先を確認
Kaiwei Qiu, Jing Yan Haw, Hao Qin, Nelly H. Y. Ng, Michael Kasper, Alexander Ling, (参考訳) 量子技術の進化する状況において、量子コンピューティングの普及は、従来の公開鍵インフラストラクチャのセキュリティに重大な脅威をもたらす。 量子鍵分布(Quantum Key Distribution, QKD)は、高い準備性レベルで確立された量子技術であり、商業的採用の可能性を持つ実行可能なソリューションとして出現する。 QKDは、2つの地理的に分離された信頼できるエンティティ間のセキュアな対称なランダムビット文字列の確立を促進し、潜在的盗聴から通信を保護する。 特に、データセンタ相互接続は、保存されたデータの機密性、セキュリティ、整合性を維持する上で、重要な機密情報のセキュアな送信を保証するために、QKDデバイスの可能性を活用することができる。 本稿では,既存のファイバーネットワークインフラを活用した商用データセンター環境におけるQKDフィールドトライアルの実施について述べる。 達成された平均秘密鍵レートは2.392kbps、平均量子ビットエラーレートは2%未満であり、実世界のシナリオにおけるQKDの商業的実現可能性を示している。 ケーススタディでは、QKDデバイスが生成する秘密鍵を利用して、量子セキュアな仮想プライベートネットワークを介して、2つのデータセンター間でファイルをセキュアに転送することを実証する。

In the evolving landscape of quantum technology, the increasing prominence of quantum computing poses a significant threat to the security of conventional public key infrastructure. Quantum key distribution (QKD), an established quantum technology at a high readiness level, emerges as a viable solution with commercial adoption potential. QKD facilitates the establishment of secure symmetric random bit strings between two geographically separated, trustworthy entities, safeguarding communications from potential eavesdropping. In particular, data centre interconnects can leverage the potential of QKD devices to ensure the secure transmission of critical and sensitive information in preserving the confidentiality, security, and integrity of their stored data. In this article, we present the successful implementation of a QKD field trial within a commercial data centre environment that utilises the existing fibre network infrastructure. The achieved average secret key rate of 2.392 kbps and an average quantum bit error rate of less than 2% demonstrate the commercial feasibility of QKD in real-world scenarios. As a use case study, we demonstrate the secure transfer of files between two data centres through the Quantum-Secured Virtual Private Network, utilising secret keys generated by the QKD devices.
翻訳日:2024-10-30 02:14:55 公開日:2024-10-14
# 人民元:蘇州庭園パターンに基づくデジタル世界アナローグ科学基盤と科学普及コミュニケーションの概念に関する研究

Yuan: Research on the Concept of Digital World Analogue Scientific Infrastructure and Science Popularization Communication Based on Suzhou Gardens Pattern ( http://arxiv.org/abs/2410.10248v1 )

ライセンス: Link先を確認
Zhang Lvyang, Lu Wen, Zhao Yang, Li Jiaqi, Zhai Lidong, (参考訳) 現在のデジタル時代には、高いセキュリティはネイティブセキュリティのような高度な概念に大きく依存している。 しかし、これらの概念の設計と実装は、企業や組織の課題に直面している。 大型言語モデル(LLMs)の進歩を生かして,ユネスコの世界遺産である蘇州庭園の設計原則からインスピレーションを得た。 AIワールドシミュレーターのSoraと密接に一致したコア機能を調べることにより、将来のデジタルインフラストラクチャのセキュリティを強化するために、3つの同時コンセプトを抽出し、超大規模科学インフラであるSpace Spiderの予備的な構築を促進するための3つの指針原則を提案する。 これらの原則は「元」デジタルガーデンの発展を支え、元AI世界シミュレータの構築経路に焦点を当てた「中国シリーズ」を確立する。 人民元の最初のパイロットは、様々な超大規模科学インフラシナリオを一般化し、最終的には多数の高セキュリティデジタルアプリケーションへと拡張することが期待されており、蘇州ガーデンの設計概念の他に、サイバーセキュリティ分野における科学コミュニケーションと人材育成の促進を目標としている。 人民元の支援により、様々なデジタル建設分野への取り組みを拡大する。 このイニシアチブは、超大規模科学インフラと科学コミュニケーションと研究普及の統合を強調して、デジタルワールドシミュレータの将来に大きく貢献することを目指している。

In the current digital era, high security relies significantly on advanced concepts such as native security. However, the design and implementation of these concepts face challenges in enterprises and organizations. Leveraging advancements in Large Language Models (LLMs), we draw inspiration from the design principles of Suzhou Gardens, a UNESCO World Heritage site. By examining its core features, which align closely with those of the AI world simulator Sora, we extract three concurrent concepts to enhance the security of future digital infrastructures.We propose three guiding principles to facilitate the preliminary construction of the "Space Spider," a hyper-large scientific infrastructure. These principles will steer the development of the "Yuan" digital garden, establishing a "Chinese Series" focused on the construction pathways of the Yuan AI world simulator. The initial pilot of Yuan is expected to generalize various hyper-large scientific infrastructure scenarios, ultimately expanding into numerous high-security digital applications.Through the design concept of Suzhou Gardens, we aim to promote science communication and talent training in the field of cybersecurity. With the support of Yuan, we intend to extend our efforts to various digital construction domains. This initiative is poised to contribute significantly to the future of digital world simulators, emphasizing the integration of hyper-large scientific infrastructure with science communication and research dissemination.
翻訳日:2024-10-30 02:05:09 公開日:2024-10-14
# 映像記録からの4次元航空機軌道の自動抽出

Automated extraction of 4D aircraft trajectories from video recordings ( http://arxiv.org/abs/2410.10249v1 )

ライセンス: Link先を確認
Jean-François Villeforceix, (参考訳) d'Enqu{\^e}tes et d'Analyses pour la S{\'e}curit{\'e} de l'Aviation Civile (BEA)は、あらゆる種類の航空機を含む機内または地上カメラの事故映像を分析しなければならない。 これまでのところ、この分析は手作業と時間を要するものだった。 本研究の目的は,これらのビデオから4次元トラジェクトリの抽出を自動化することにある。 全ての潜在的な飛行構成を考慮して、IGNのMicMacソフトウェアに基づいてフォトグラムアルゴリズムが開発され、フィールドでテストされている。 これらの自動化プロセスの結果は、時々欠落するFDRやCVRなどのレコーダーからのフライトデータを置き換えることを意図している。 BEAへの関心の情報は、関連する時間成分による3次元位置、航空機の3つの軸(ピッチ、ロール、ヨーの航法角)の向き、平均速度(登山率を含む)である。

The Bureau d'Enqu{\^e}tes et d'Analyses pour la S{\'e}curit{\'e} de l'Aviation Civile (BEA) has to analyze accident videos from on-board or ground cameras involving all types of aircraft. Until now, this analysis has been manual and time-consuming. The aim of this study is to identify the applications of photogrammetry and to automate the extraction of 4D trajectories from these videos. Taking into account all potential flight configurations, photogrammetric algorithms are being developed on the basis of IGN's MicMac software and tested in the field. The results of these automated processes are intended to replace flight data from recorders such as FDRs or CVRs, which are sometimes missing. The information of interest to the BEA includes: three-dimensional position with the associated time component, the orientations of the aircraft's three axes (pitch, roll and yaw navigation angles) and average speeds (including rate of climb).
翻訳日:2024-10-30 02:05:09 公開日:2024-10-14
# フィードバックはニューラルネットワークの一般化を好む

Feedback Favors the Generalization of Neural ODEs ( http://arxiv.org/abs/2410.10253v1 )

ライセンス: Link先を確認
Jindou Jia, Zihan Yang, Meng Wang, Kexin Guo, Jianfei Yang, Xiang Yu, Lei Guo, (参考訳) よく知られた一般化問題は、様々な潜伏ダイナミクスを持つ連続時間予測タスクにおける人工知能ニューラルネットワークの適用を妨げる。 対照的に、生物学的システムはリアルタイムフィードバックメカニズムの恩恵を受けながら、進化する環境にきちんと適応することができる。 フィードバックの哲学に触発されて、フィードバックループがニューラル常微分方程式(ニューラルODE)の学習潜在力学を柔軟に補正できることを示す。 フィードバックニューラルネットワークは、新しい2自由度ニューラルネットワークであり、前のタスクで精度が失われることなく、目に見えないシナリオで堅牢なパフォーマンスを持つ。 線形フィードバック形式は、まず学習された潜在力学を収束保証とともに補正するために提示される。 次に、ドメインランダム化を用いて非線形神経フィードバック形式を学習する。 最後に, 実不規則物体の軌道予測や, 様々な不確実性をもつ四元体のモデル予測制御を含む広範囲な試験を実施し, 最先端のモデルベースおよび学習ベース手法に対する大幅な改善を示す。

The well-known generalization problem hinders the application of artificial neural networks in continuous-time prediction tasks with varying latent dynamics. In sharp contrast, biological systems can neatly adapt to evolving environments benefiting from real-time feedback mechanisms. Inspired by the feedback philosophy, we present feedback neural networks, showing that a feedback loop can flexibly correct the learned latent dynamics of neural ordinary differential equations (neural ODEs), leading to a prominent generalization improvement. The feedback neural network is a novel two-DOF neural network, which possesses robust performance in unseen scenarios with no loss of accuracy performance on previous tasks. A linear feedback form is presented to correct the learned latent dynamics firstly, with a convergence guarantee. Then, domain randomization is utilized to learn a nonlinear neural feedback form. Finally, extensive tests including trajectory prediction of a real irregular object and model predictive control of a quadrotor with various uncertainties, are implemented, indicating significant improvements over state-of-the-art model-based and learning-based methods.
翻訳日:2024-10-30 02:05:09 公開日:2024-10-14
# 拡散潜水剤の塩分誘導最適化

Saliency Guided Optimization of Diffusion Latents ( http://arxiv.org/abs/2410.10257v1 )

ライセンス: Link先を確認
Xiwen Wang, Jizhe Zhou, Xuekang Zhu, Cheng Li, Mao Li, (参考訳) 拡散モデルの急速な進歩により、テキストプロンプトから適切な画像を生成することはもはや困難ではない。 テキスト・ツー・イメージ生成の鍵となるのは、テキスト・ツー・イメージ生成モデルの結果を最適化して、人間の意図やプロンプトに適合するようにする方法である。 既存の最適化手法は、画像全体を一様に扱い、大域的な最適化を行う。 これらの手法は、画像を見るとき、人間の視覚系が自然に正常な領域への注意を優先し、少ない領域や非塩分領域を無視するという事実を見落としている。 つまり、人間は非塩分領域の最適化を無視する可能性が高い。 その結果、モデル保持は、追加の大規模および多様性モデルのガイダンスの下で行われるが、一様最適化を行う既存の方法により、準最適結果が得られる。 本稿では,このアライメント課題を効果的かつ効率的に解決するために,SGOOL(Saliency Guided Optimization of Diffusion Latents)を提案する。 まず、人間の視覚的注意を模倣し、健康な地域をマークアウトするために、塩分検知器を使用します。 追加モデルの再学習を避けるため,本手法は拡散潜水器を直接最適化する。 さらに、SGOOLは非可逆拡散プロセスを使用し、一定のメモリ実装の利点を付与する。 したがって,本手法はパラメータ効率とプラグアンドプレイの微調整法となる。 大規模な実験は、いくつかの指標と人間の評価で行われてきた。 SGOOLの画質および迅速なアライメントにおける優位性を示す実験結果を得た。

With the rapid advances in diffusion models, generating decent images from text prompts is no longer challenging. The key to text-to-image generation is how to optimize the results of a text-to-image generation model so that they can be better aligned with human intentions or prompts. Existing optimization methods commonly treat the entire image uniformly and conduct global optimization. These methods overlook the fact that when viewing an image, the human visual system naturally prioritizes attention toward salient areas, often neglecting less or non-salient regions. That is, humans are likely to neglect optimizations in non-salient areas. Consequently, although model retaining is conducted under the guidance of additional large and multimodality models, existing methods, which perform uniform optimizations, yield sub-optimal results. To address this alignment challenge effectively and efficiently, we propose Saliency Guided Optimization Of Diffusion Latents (SGOOL). We first employ a saliency detector to mimic the human visual attention system and mark out the salient regions. To avoid retraining an additional model, our method directly optimizes the diffusion latents. Besides, SGOOL utilizes an invertible diffusion process and endows it with the merits of constant memory implementation. Hence, our method becomes a parameter-efficient and plug-and-play fine-tuning method. Extensive experiments have been done with several metrics and human evaluation. Experimental results demonstrate the superiority of SGOOL in image quality and prompt alignment.
翻訳日:2024-10-30 02:05:09 公開日:2024-10-14
# バンドのマトリックススケッチ:現在の落とし穴と新しいフレームワーク

Matrix Sketching in Bandits: Current Pitfalls and New Framework ( http://arxiv.org/abs/2410.10258v1 )

ライセンス: Link先を確認
Dongxie Wen, Hanyan Yin, Xiao Zhang, Zhewei Wei, (参考訳) スケッチ技術の利用は、オンライン学習の効率を高めるための重要な方法として徐々に現れてきた。 線形バンディット設定では、現在のスケッチベースのアプローチは行列スケッチを利用して、円周時間の複雑さを \(\Omega\left(d^2\right)\) から \(O(d)\) に還元する。 この効率の改善にもかかわらず、これらのアプローチは臨界落とし穴に遭遇し、共分散行列のスペクトル尾部が急速に減少しない場合、線形後悔につながる可能性がある。 本稿では,線形帯域における行列スケッチを用いた共分散行列の近似に関する後悔解析とアルゴリズム設計について再検討する。 本研究では,不適切なスケッチサイズがスペクトル損失の非有界化を招き,線形後悔を引き起こすことを示す。 この問題を回避するために,グローバルスペクトル損失を抑えるためにスケッチサイズを適応的に管理する,革新的なストリーミング行列スケッチ手法であるDyadic Block Sketchingを提案する。 このアプローチは、オンラインで最高のランク-\(k \)近似を効果的に追跡し、共分散行列の幾何学が好まれるときに効率を確実にする。 そこで,提案したDyadic Block Sketchingを線形バンディットに適用し,最悪の場合であっても,共分散行列の事前知識を必要とせずに,結果として得られるバンディットアルゴリズムがサブ線形後悔を実現することを示す。 提案手法は,既存のスケッチベースアプローチのすべてに適用可能な,効率的なスケッチベース線形包帯の一般的なフレームワークであり,それに応じて改善された後悔境界を提供する。 さらに,我々の理論的な結果の精度を検証し,アルゴリズムの有効性を明らかにするために,合成データと実世界のデータの両方を用いて総合的な実証研究を行う。

The utilization of sketching techniques has progressively emerged as a pivotal method for enhancing the efficiency of online learning. In linear bandit settings, current sketch-based approaches leverage matrix sketching to reduce the per-round time complexity from \(\Omega\left(d^2\right)\) to \(O(d)\), where \(d\) is the input dimension. Despite this improved efficiency, these approaches encounter critical pitfalls: if the spectral tail of the covariance matrix does not decrease rapidly, it can lead to linear regret. In this paper, we revisit the regret analysis and algorithm design concerning approximating the covariance matrix using matrix sketching in linear bandits. We illustrate how inappropriate sketch sizes can result in unbounded spectral loss, thereby causing linear regret. To prevent this issue, we propose Dyadic Block Sketching, an innovative streaming matrix sketching approach that adaptively manages sketch size to constrain global spectral loss. This approach effectively tracks the best rank-\( k \) approximation in an online manner, ensuring efficiency when the geometry of the covariance matrix is favorable. Then, we apply the proposed Dyadic Block Sketching to linear bandits and demonstrate that the resulting bandit algorithm can achieve sublinear regret without prior knowledge of the covariance matrix, even under the worst case. Our method is a general framework for efficient sketch-based linear bandits, applicable to all existing sketch-based approaches, and offers improved regret bounds accordingly. Additionally, we conduct comprehensive empirical studies using both synthetic and real-world data to validate the accuracy of our theoretical findings and to highlight the effectiveness of our algorithm.
翻訳日:2024-10-30 02:05:09 公開日:2024-10-14
# スライド画像解析のためのスライドベースグラフ協調学習

Slide-based Graph Collaborative Training for Histopathology Whole Slide Image Analysis ( http://arxiv.org/abs/2410.10260v1 )

ライセンス: Link先を確認
Jun Shi, Tong Shu, Zhiguo Jiang, Wei Wang, Haibo Wu, Yushan Zheng, (参考訳) コンピュータ病理学の発展は、腫瘍の病理学的特徴ががん診断の重要な指針である、という意見の一致にある。 既存の研究のほとんどは、各WSIの内部コンテキスト情報に焦点を当てていますが、スライド間の相関関係は無視しています。 腫瘍の発生は、時間とともに蓄積される一連の組織学的、形態学的、遺伝的変化を含む連続的なプロセスであるので、WSIの様々な段階、段階、位置、患者間の類似性と相違は、WSIの表現に寄与する可能性があり、WSIモデリングにおいて考慮すべきである。 WSI の表現学習におけるスライド相互相関の導入の進展を検証するため,既存の多重インスタンス学習(MIL)フレームワークに適用可能な汎用 WSI 解析パイプライン SlideGCD を提案し,その性能を改善した。 新しいパラダイムにより、がんの先行知識は、スライドベースのグラフにおけるメッセージパッシングのガイドとして、スライド表現を同時に初期化し、洗練するエンドツーエンドワークフローに参加することができる。 7つのSOTA WSI分析フレームワークをバックボーンとして, 癌サブタイプ, がんステージング, 生存予測, 遺伝子突然変異予測を含む4つのタスクにまたがるパイプラインの有効性と堅牢性を検証するために, 大規模比較および実験を行った。

The development of computational pathology lies in the consensus that pathological characteristics of tumors are significant guidance for cancer diagnostics. Most existing research focuses on the inner-contextual information within each WSI yet ignores the possible inter-correlations between slides. As the development of tumors is a continuous process involving a series of histological, morphological, and genetic changes that accumulate over time, the similarities and differences between WSIs across various stages, grades, locations and patients should potentially contribute to the representation of WSIs and deserve to be taken into account in WSI modeling. To verify the advancement of introducing the slide inter-correlations into the representation learning of WSIs, we proposed a generic WSI analysis pipeline SlideGCD that can be adapted to any existing Multiple Instance Learning (MIL) frameworks and improve their performance. With the new paradigm, the prior knowledge of cancer development can participate in the end-to-end workflow, which concurrently initializes and refines the slide representation, as a guide for message passing in the slide-based graph. Extensive comparisons and experiments are conducted to validate the effectiveness and robustness of the proposed pipeline across 4 different tasks, including cancer subtyping, cancer staging, survival prediction, and gene mutation prediction, with 7 representative SOTA WSI analysis frameworks as backbones.
翻訳日:2024-10-30 02:05:09 公開日:2024-10-14
# big.LITTLE Vision Transformer for Efficient Visual Recognition

big.LITTLE Vision Transformer for Efficient Visual Recognition ( http://arxiv.org/abs/2410.10267v1 )

ライセンス: Link先を確認
He Guo, Yulong Wang, Zixuan Ye, Jifeng Dai, Yuwen Xiong, (参考訳) 本稿では,効率的な視覚認識を実現するための革新的なアーキテクチャであるBig.LITTLE Vision Transformerを紹介する。 この二重変圧器システムは2つの異なるブロックで構成されており、大きな性能ブロックは高いキャパシティと相当な計算要求を特徴とし、LITTLE効率ブロックは低いキャパシティを持つ速度のために設計されている。 このアプローチの重要な革新は、その動的推論メカニズムにあります。 本システムでは,画像の処理において,各トークンの重要性を判定し,それに応じて,重要なトークンを高性能なビッグモデルで処理し,クリティカルなトークンをより効率的な小さなモデルで処理する。 この選択処理は、最も重要な情報に対して詳細な解析が予約されていることを保証するため、モデル全体の性能を犠牲にすることなく、計算負荷を大幅に削減する。 LITTLE Vision Transformerの有効性を検証するため,画像分類とタスク分割に関する総合的な実験を行った。 以上の結果から,大きな.LITTLEアーキテクチャは高い精度を維持するだけでなく,計算量を大幅に削減できることが示唆された。 具体的には、性能と効率のトレードオフを動的にバランスさせることにより、大規模視覚認識タスクの効率的な処理を可能にする。 我々の手法の成功は、ビジュアル認識タスクにおける計算と性能の最適化におけるハイブリッドモデルの可能性を強調し、現実のアプリケーションにおける高度なニューラルネットワークのより実用的でスケーラブルな展開の道を開いた。

In this paper, we introduce the big.LITTLE Vision Transformer, an innovative architecture aimed at achieving efficient visual recognition. This dual-transformer system is composed of two distinct blocks: the big performance block, characterized by its high capacity and substantial computational demands, and the LITTLE efficiency block, designed for speed with lower capacity. The key innovation of our approach lies in its dynamic inference mechanism. When processing an image, our system determines the importance of each token and allocates them accordingly: essential tokens are processed by the high-performance big model, while less critical tokens are handled by the more efficient little model. This selective processing significantly reduces computational load without sacrificing the overall performance of the model, as it ensures that detailed analysis is reserved for the most important information. To validate the effectiveness of our big.LITTLE Vision Transformer, we conducted comprehensive experiments on image classification and segment anything task. Our results demonstrate that the big.LITTLE architecture not only maintains high accuracy but also achieves substantial computational savings. Specifically, our approach enables the efficient handling of large-scale visual recognition tasks by dynamically balancing the trade-offs between performance and efficiency. The success of our method underscores the potential of hybrid models in optimizing both computation and performance in visual recognition tasks, paving the way for more practical and scalable deployment of advanced neural networks in real-world applications.
翻訳日:2024-10-30 02:05:09 公開日:2024-10-14
# 脳MR画像合成のための2段階的アプローチ:2次元画像合成と3次元再構成

Two-Stage Approach for Brain MR Image Synthesis: 2D Image Synthesis and 3D Refinement ( http://arxiv.org/abs/2410.10269v1 )

ライセンス: Link先を確認
Jihoon Cho, Seunghyuck Park, Jinah Park, (参考訳) 自動脳腫瘍セグメンテーション法の進歩にもかかわらず、特定のMR配列が欠如している場合には、その性能は保証されない。 この課題に対処するためには, 欠損したMRI像を合成することが重要であり, その特異な特徴を, 正確な腫瘍像で反映することが重要である。 通常、MRI合成法は、計算上の制約により、フルサイズのボリュームではなく部分的な画像を生成する。 この制限により、包括的な3Dボリューム情報が欠落し、マージプロセス中に画像アーティファクトが発生する可能性がある。 本稿では,2次元スライスからMR画像を合成する2段階の手法を提案する。 提案したエンテンシティエンコーディングは,MRIを2次元スライスベースで合成する際のアーティファクトを低減する。 次に, 完全3次元ボリューム情報を活用する \textit{Refiner} により, 合成画像の品質が向上し, セグメンテーション法の適用性が向上する。 実験により, エンハンスエンコーディングは, 合成MRIのアーティファクトを効果的に最小化し, 知覚品質を向上させることを示した。 さらに, 合成MRIにおけるtextit{Refiner} の使用により, 脳腫瘍のセグメンテーションが有意に改善し, 実用化におけるアプローチの可能性を強調した。

Despite significant advancements in automatic brain tumor segmentation methods, their performance is not guaranteed when certain MR sequences are missing. Addressing this issue, it is crucial to synthesize the missing MR images that reflect the unique characteristics of the absent modality with precise tumor representation. Typically, MRI synthesis methods generate partial images rather than full-sized volumes due to computational constraints. This limitation can lead to a lack of comprehensive 3D volumetric information and result in image artifacts during the merging process. In this paper, we propose a two-stage approach that first synthesizes MR images from 2D slices using a novel intensity encoding method and then refines the synthesized MRI. The proposed intensity encoding reduces artifacts when synthesizing MRI on a 2D slice basis. Then, the \textit{Refiner}, which leverages complete 3D volume information, further improves the quality of the synthesized images and enhances their applicability to segmentation methods. Experimental results demonstrate that the intensity encoding effectively minimizes artifacts in the synthesized MRI and improves perceptual quality. Furthermore, using the \textit{Refiner} on synthesized MRI significantly improves brain tumor segmentation results, highlighting the potential of our approach in practical applications.
翻訳日:2024-10-30 02:05:09 公開日:2024-10-14
# 平面超伝導量子ビットを用いた高コヒーレンス量子音響

High-Coherence Quantum Acoustics with Planar Superconducting Qubits ( http://arxiv.org/abs/2410.10272v1 )

ライセンス: Link先を確認
W. J. M. Franse, C. A. Potts, V. A. S. V. Bittencourt, A. Metelmann, G. A. Steele, (参考訳) 量子音響は、機械振動の量子コヒーレント制御を可能にするハイブリッド量子技術のための新興プラットフォームである。 高オーバトンバルク音響共振器(HBAR)は、非常に高い機械的コヒーレンスの可能性から、量子音響の魅力的な機械的実装である。 本稿では、平面超伝導量子ビットアーキテクチャと統合された高コヒーレンスHBAR量子音響の実装を実証し、原子物理学における電気的に誘起される透明性に類似した、高コヒーレンスかつ弱い結合の音響誘起透明状態を示す。 平面超伝導デバイスによる高コヒーレンス量子音響の実証は、量子技術における音響共振器の新しい応用を可能にする。

Quantum acoustics is an emerging platform for hybrid quantum technologies enabling quantum coherent control of mechanical vibrations. High-overtone bulk acoustic resonators (HBARs) represent an attractive mechanical implementation of quantum acoustics due to their potential for exceptionally high mechanical coherence. Here, we demonstrate an implementation of high-coherence HBAR quantum acoustics integrated with a planar superconducting qubit architecture, demonstrating an acoustically-induced-transparency regime of high cooperativity and weak coupling, analogous to the electrically-induced transparency in atomic physics. Demonstrating high-coherence quantum acoustics with planar superconducting devices enables new applications for acoustic resonators in quantum technologies.
翻訳日:2024-10-30 02:05:09 公開日:2024-10-14
# ダイヤモンド量子センサを用いた加圧二層窒化物超伝導体におけるマイスナー効果の探索

Probing the Meissner effect in pressurized bilayer nickelate superconductors using diamond quantum sensors ( http://arxiv.org/abs/2410.10275v1 )

ライセンス: Link先を確認
Junyan Wen, Yue Xu, Gang Wang, Ze-Xu He, Yang Chen, Ningning Wang, Tenglong Lu, Xiaoli Ma, Feng Jin, Liucheng Chen, Miao Liu, Jing-Wei Fan, Xiaobing Liu, Xin-Yu Pan, Gang-Qin Liu, Jinguang Cheng, Xiaohui Yu, (参考訳) 臨界温度Tcが80K近い高温超伝導のサインに関する最近の報告は、大きな研究関心と広範なフォローアップ研究を引き起こしている。 改良された静水圧条件下ではゼロ抵抗状態が達成されているが、高圧条件下での低い超伝導体積率と限られた磁気測定技術により、加圧された$\mathrm{La_{3}Ni_{2}O_{7-\delta}}$における超伝導双磁性の明確な証拠はない。 ここでは,ダイヤモンドアンビルに埋もれた浅い窒素空孔中心をその場での量子センサとして使用し,多結晶試料$\mathrm{La_{3}Ni_{2}O_{7-\delta}}$および$\mathrm{La_{2}PrNi_{2}O_{7}}$:フィールド冷却および電場温暖化過程における磁場放出の証拠を観察する。 ラマンスペクトルとNV系磁気イメージングの相関測定は、非超伝導領域に出現する酸素イオンの変位に伴う不完全な構造変化を示す。 さらに、異なる圧力伝達媒体 (シリコーンオイルとKBr) とニッケル酸塩 (\mathrm{La_{3}Ni_{2}O_{7-\delta}}$) と$\mathrm{La_{2}PrNi_{2}O_{7}}$) の比較実験により、改良された静水圧条件と、$\mathrm{La_{3}Ni_{2}O_{7-\delta}}$のPrによるLaの置換により超伝導が劇的に増大することを示した。 本研究は, 二層ニケレートのマイスナー効果に関する論争を明らかにし, ニケレート高温超伝導体の機構のより深い理解に寄与する。

Recent reports on the signatures of high-temperature superconductivity with a critical temperature Tc close to 80 K have triggered great research interest and extensive follow-up studies. Although zero-resistance state has been successfully achieved under improved hydrostatic pressure conditions, there is no clear evidence of superconducting diamagnetism in pressurized $\mathrm{La_{3}Ni_{2}O_{7-\delta}}$ due to the low superconducting volume fraction and limited magnetic measurement techniques under high pressure conditions. Here, using shallow nitrogen-vacancy centers implanted on the culet of diamond anvils as in-situ quantum sensors, we observe convincing evidence for the Meissner effect in polycrystalline samples $\mathrm{La_{3}Ni_{2}O_{7-\delta}}$ and $\mathrm{La_{2}PrNi_{2}O_{7}}$: the magnetic field expulsion during both field cooling and field warming processes. The correlated measurements of Raman spectra and NV-based magnetic imaging indicate an incomplete structural transformation related to the displacement of oxygen ions emerging in the non-superconducting region. Furthermore, comparative experiments on different pressure transmitting media (silicone oil and KBr) and nickelates ($\mathrm{La_{3}Ni_{2}O_{7-\delta}}$ and $\mathrm{La_{2}PrNi_{2}O_{7}}$) reveal that an improved hydrostatic pressure conditions and the substitution of La by Pr in $\mathrm{La_{3}Ni_{2}O_{7-\delta}}$ can dramatically increase the superconductivity. Our work clarifies the controversy about the Meissner effect of bilayer nickelate and contributes to a deeper understanding of the mechanism of nickelate high-temperature superconductors.
翻訳日:2024-10-29 22:34:36 公開日:2024-10-14
# Wu Chineseの機械翻訳評価ベンチマーク:ワークフローと分析

Machine Translation Evaluation Benchmark for Wu Chinese: Workflow and Analysis ( http://arxiv.org/abs/2410.10278v1 )

ライセンス: Link先を確認
Hongjian Yu, Yiming Shi, Zherui Zhou, Christopher Haberland, (参考訳) 現代中国の機械翻訳モデルの評価ベンチマークとしてFLORES+データセットを導入し,既存のWuデータとの互換性を示す。 中国語は、マンダリン語やユエ語(カントネセ語)など他の新統諸語と相互に理解できないが、漢字のセットは他と大きく重なる。 ヴ語話者の人口は中国で2番目に多い言語であるが、特に若い世代では使用量が大幅に減少している。 我々は、Wu Chineseをテキスト的に低リソース言語として認識し、その機械翻訳モデルの課題に対処する。 コントリビューションには、(1)オープンソースで手動で翻訳されたデータセット、(2)データセット作成と検証実験のプロセスに関する完全なドキュメンテーション、(3)中国語の正規化とセグメンテーションのための予備ツール、(4)データセットの利点と制限、そして他の低リソース言語への影響が含まれる。

We introduce a FLORES+ dataset as an evaluation benchmark for modern Wu Chinese machine translation models and showcase its compatibility with existing Wu data. Wu Chinese is mutually unintelligible with other Sinitic languages such as Mandarin and Yue (Cantonese), but uses a set of Hanzi (Chinese characters) that profoundly overlaps with others. The population of Wu speakers is the second largest among languages in China, but the language has been suffering from significant drop in usage especially among the younger generations. We identify Wu Chinese as a textually low-resource language and address challenges for its machine translation models. Our contributions include: (1) an open-source, manually translated dataset, (2) full documentations on the process of dataset creation and validation experiments, (3) preliminary tools for Wu Chinese normalization and segmentation, and (4) benefits and limitations of our dataset, as well as implications to other low-resource languages.
翻訳日:2024-10-29 22:34:36 公開日:2024-10-14
# オンラインマッピングのための半教師付き学習の探索

Exploring Semi-Supervised Learning for Online Mapping ( http://arxiv.org/abs/2410.10279v1 )

ライセンス: Link先を確認
Adam Lilja, Erik Wallin, Junsheng Fu, Lars Hammarstrand, (参考訳) オンラインマッピングは、明確に定義された領域を越えて自動運転をスケールするために重要である。 レーンマーカー、道路端、歩行者横断といった局所地図を作成するためのモデルをトレーニングするには、車載感覚情報のみを使用して、伝統的に広範囲のラベル付きデータを必要とするため、入手が困難でコストがかかる。 本稿では,他の領域における半教師あり学習技術からインスピレーションを得て,オンラインマッピングへの適用性を実証する。 さらに,教師の擬似ラベルを複数のサンプルから抽出することにより,オンラインマッピングの特質を生かし,さらなる性能向上を図るための簡易かつ効果的な手法を提案する。 全てのラベルを使用するパフォーマンスギャップはArgoverseでは29.6mIoUから3.4mIoUに、NuScenesでは12mIoUから3.4mIoUに削減され、ラベル付きデータの10%しか利用できない。 また、トレーニングデータ以外の都市への外挿にも強いパフォーマンスを示す。 具体的には、ボストンからシンガポールへの適応において、シンガポールからの不正なデータがトレーニングに含まれると、パフォーマンスが6.6 mIoU向上する。

Online mapping is important for scaling autonomous driving beyond well-defined areas. Training a model to produce a local map, including lane markers, road edges, and pedestrian crossings using only onboard sensory information, traditionally requires extensive labelled data, which is difficult and costly to obtain. This paper draws inspiration from semi-supervised learning techniques in other domains, demonstrating their applicability to online mapping. Additionally, we propose a simple yet effective method to exploit inherent attributes of online mapping to further enhance performance by fusing the teacher's pseudo-labels from multiple samples. The performance gap to using all labels is reduced from 29.6 to 3.4 mIoU on Argoverse, and from 12 to 3.4 mIoU on NuScenes utilising only 10% of the labelled data. We also demonstrate strong performance in extrapolating to new cities outside those in the training data. Specifically, for challenging nuScenes, adapting from Boston to Singapore, performance increases by 6.6 mIoU when unlabelled data from Singapore is included in training.
翻訳日:2024-10-29 22:34:36 公開日:2024-10-14
# デュアルモードカロリメトリック超電導ナノワイヤ単光子検出器

Dual-Mode Calorimetric Superconducting Nanowire Single Photon Detectors ( http://arxiv.org/abs/2410.10280v1 )

ライセンス: Link先を確認
Hsin-Yeh Wu, Marc Besançon, Jia-Wern Chen, Pisin Chen, Jean-François Glicenstein, Shu-Xiao Liu, Yu-Jung Lu, Xavier-François Navick, Stathes Paganis, Boris Tuchming, Dimitra Tsionou, Feng-Yang Tsai, (参考訳) デュアルオペレーティングモードのSNSPDを実証する。 従来のGeiger SNSPDモードでは、センサーは臨界温度よりはるかに低い温度で動作し、センサーに衝突する光子の数に敏感なイベントカウンタとして機能する。 カロリー測定モードでは、検出器はTcの直下温度で動作し、光スペクトルの波長に対する光数感度を表示する。 このエネルギー感受性モードでは、光子吸収はラッチの存在なしに部分的に抵抗するSNSPDのジュール加熱を引き起こす。 アプリケーションによっては、同じ読み出しシステムを用いてサンプル温度とバイアス電流を調整することにより、SNSPDは2つのモードを簡単に切り替えることができる。 熱量測定モードでは, SNSPD回収時間がガイガーモードよりも短く, 580psの値が得られた。 デュアルモードのSNSPDは、正確なタイミング、光子計数、エネルギー分解能を必要とする分光とカロリー測定の大幅な進歩をもたらす可能性がある。

A dual-operation mode SNSPD is demonstrated. In the conventional Geiger SNSPD mode the sensor operates at temperatures well below the critical temperature, Tc, working as an event counter without sensitivity to the number of photons impinging the sensor. In the calorimetric mode, the detector is operated at temperatures just below Tc and displays photon-number sensitivity for wavelengths in the optical spectrum. In this energy sensitive mode, photon absorption causes Joule heating of the SNSPD that becomes partially resistive without the presence of latching. Depending on the application, by tuning the sample temperature and bias current using the same readout system, the SNSPD can readily switch between the two modes. In the calorimetric mode, SNSPD recovery times shorter than the ones in the Geiger mode are observed, reaching values as low as 580ps. Dual-mode SNSPD's may provide significant advancements in spectroscopy and calorimetry, where precise timing, photon counting and energy resolution are required.
翻訳日:2024-10-29 22:34:36 公開日:2024-10-14
# ABBA-VSM: エッジ上の記号表現を用いた時系列分類

ABBA-VSM: Time Series Classification using Symbolic Representation on the Edge ( http://arxiv.org/abs/2410.10285v1 )

ライセンス: Link先を確認
Meerzhan Kanatbekova, Shashikant Ilager, Ivona Brandic, (参考訳) 近年、Edge AIは、環境監視からスマートシティ管理に至るまで、さまざまな産業のアプリケーションで普及している。 Edge AIはIoT(Internet of Things)データの処理を容易にし、マシンラーニング(ML)アルゴリズム、例えば時系列分類(TSC)を使用して、プライバシ対応でレイテンシに敏感なサービスをアプリケーションユーザに提供します。 しかし、既存のTSCアルゴリズムは、完全な生データにアクセスし、実行時に効果的にトレーニングおよび使用するためにかなりの計算資源を必要とする。 これにより、リソース制約のあるEdge環境へのデプロイには実用的ではない。 そこで本稿では,適応的ブラウン橋を用いたシンボリックアグリゲーションベクトル空間モデル(ABBA-VSM)を提案する。 Edgeの分類サービス用に設計された新しいTSCモデルである。 ここでは、まず、生の時系列を記号表現に適応的に圧縮し、データの変化傾向を捉える。 その後、これらのシンボルに基づいて分類モデルをトレーニングする。 ABBA-VSMは、Edge上のリソース効率の良いTSCサービスの開発において、IoTとEdgeデバイス間の通信データと計算サイクルを削減する。 UCR時系列分類アーカイブのデータセットを用いた広範囲な実験により,提案手法の評価を行った。 その結果、ABBA-VSMは最大80%の圧縮比と90-100%の精度でバイナリ分類を行うことができた。 一方、非バイナリ分類では、平均圧縮比が60%、精度が60~80%に達する。

In recent years, Edge AI has become more prevalent with applications across various industries, from environmental monitoring to smart city management. Edge AI facilitates the processing of Internet of Things (IoT) data and provides privacy-enabled and latency-sensitive services to application users using Machine Learning (ML) algorithms, e.g., Time Series Classification (TSC). However, existing TSC algorithms require access to full raw data and demand substantial computing resources to train and use them effectively in runtime. This makes them impractical for deployment in resource-constrained Edge environments. To address this, in this paper, we propose an Adaptive Brownian Bridge-based Symbolic Aggregation Vector Space Model (ABBA-VSM). It is a new TSC model designed for classification services on Edge. Here, we first adaptively compress the raw time series into symbolic representations, thus capturing the changing trends of data. Subsequently, we train the classification model directly on these symbols. ABBA-VSM reduces communication data between IoT and Edge devices, as well as computation cycles, in the development of resource-efficient TSC services on Edge. We evaluate our solution with extensive experiments using datasets from the UCR time series classification archive. The results demonstrate that the ABBA-VSM achieves up to 80% compression ratio and 90-100% accuracy for binary classification. Whereas, for non-binary classification, it achieves an average compression ratio of 60% and accuracy ranging from 60-80%.
翻訳日:2024-10-29 22:34:36 公開日:2024-10-14
# アラビア文書のバック・オブ・ザ・ブックインデックス自動化

Back-of-the-Book Index Automation for Arabic Documents ( http://arxiv.org/abs/2410.10286v1 )

ライセンス: Link先を確認
Nawal Haidar, Fadi A. Zaraket, (参考訳) 書籍の読みやすさにはバック・オブ・ザ・ブックのインデックスが不可欠だ。 彼らの手作業による創造は退屈で、エラーを起こしやすい。 本稿では,アラビア書のバック・オブ・ザ・ブックの索引抽出を自動化し,作成・レビュー作業の簡略化を図る。 書籍のバック・オブ・ザ・ブックのインデックスが与えられた場合、関連するページに対するインデックス項の正確な発生を確認し、識別することを目的としている。 そこで我々はまず,関連するインデックスページに現れる段落から可能なすべての名詞句を抽出し,各項の候補のプールを定義する。 これらの名詞句は、音声分析によって識別され、ベクトルデータベースに格納され、効率的に検索される。 正確な一致、語彙的類似性、意味的類似性など、いくつかの指標を使用して、最も適切な事象を決定する。 これらの指標に基づいて最も高いスコアを持つ候補が、この用語の発生として選択される。 我々は、上記の指標を考慮し、F1スコアの.966(精度=.966、リコール=.966)を達成するヒューリスティックな手法を微調整した。 これらの優れた成果は、バック・オブ・ザ・ブックのインデックス生成とチェックの自動化に関連する将来の作業の扉を開く。

Back-of-the-book indexes are crucial for book readability. Their manual creation is laborious and error prone. In this paper, we consider automating back-of-the-book index extraction for Arabic books to help simplify both the creation and review tasks. Given a back-of-the-book index, we aim to check and identify the accurate occurrences of index terms relative to the associated pages. To achieve this, we first define a pool of candidates for each term by extracting all possible noun phrases from paragraphs appearing on the relevant index pages. These noun phrases, identified through part-of-speech analysis, are stored in a vector database for efficient retrieval. We use several metrics, including exact matches, lexical similarity, and semantic similarity, to determine the most appropriate occurrence. The candidate with the highest score based on these metrics is chosen as the occurrence of the term. We fine-tuned a heuristic method, that considers the above metrics and that achieves an F1-score of .966 (precision=.966, recall=.966). These excellent results open the door for future work related to automation of back-of-the-book index generation and checking.
翻訳日:2024-10-29 22:34:36 公開日:2024-10-14
# 半監督型医用画像分割のためのマニフォールド対応局所特徴モデリング

Manifold-Aware Local Feature Modeling for Semi-Supervised Medical Image Segmentation ( http://arxiv.org/abs/2410.10287v1 )

ライセンス: Link先を確認
Sicheng Shen, Jinming Cao, Yifang Yin, Roger Zimmermann, (参考訳) 正確な医用画像分割は、効果的な治療計画と正確な疾患診断に不可欠である。 従来の完全教師付きディープラーニング手法は非常に正確であるが、大量のラベル付きデータに大きく依存している。 これはラベル付きデータとラベルなしデータの両方を利用してラベル不足を緩和する半教師付き学習アプローチの台頭につながった。 本稿では,マニフォールド対応局所特徴モデリングネットワーク (MANet) について紹介する。 本手法は, 信頼性診断に欠かせない境界精度の向上に焦点をあてる。 本手法の汎用性をさらに拡張するため,MA-Sobel と MA-Canny の2つの変種を提案する。 MA-Sobelは2Dデータと3Dデータの両方に有効であるSobel演算子を使用し、MA-Cannyは2D画像用に特別に設計されたCanny演算子を使用して境界検出を洗練している。 これらの変種により,様々な医用画像のモダリティや次元に適応し,より広い適用性を確保することができる。 ACDC、LA、Pancreas-NIHといったデータセットに関する大規模な実験は、MANetがDiceやJaccardのスコアのようなパフォーマンス指標における最先端のメソッドを一貫して上回っていることを示している。 提案手法は, 半教師付きセグメンテーションネットワーク間の一般化を改良し, その堅牢性と有効性を強調した。 セグメンテーションの結果の視覚的分析により、MANetはより明確で正確なクラス境界を提供し、医用画像セグメンテーションにおける多様体情報の値を示す。

Achieving precise medical image segmentation is vital for effective treatment planning and accurate disease diagnosis. Traditional fully-supervised deep learning methods, though highly precise, are heavily reliant on large volumes of labeled data, which are often difficult to obtain due to the expertise required for medical annotations. This has led to the rise of semi-supervised learning approaches that utilize both labeled and unlabeled data to mitigate the label scarcity issue. In this paper, we introduce the Manifold-Aware Local Feature Modeling Network (MANet), which enhances the U-Net architecture by incorporating manifold supervision signals. This approach focuses on improving boundary accuracy, which is crucial for reliable medical diagnosis. To further extend the versatility of our method, we propose two variants: MA-Sobel and MA-Canny. The MA-Sobel variant employs the Sobel operator, which is effective for both 2D and 3D data, while the MA-Canny variant utilizes the Canny operator, specifically designed for 2D images, to refine boundary detection. These variants allow our method to adapt to various medical image modalities and dimensionalities, ensuring broader applicability. Our extensive experiments on datasets such as ACDC, LA, and Pancreas-NIH demonstrate that MANet consistently surpasses state-of-the-art methods in performance metrics like Dice and Jaccard scores. The proposed method also shows improved generalization across various semi-supervised segmentation networks, highlighting its robustness and effectiveness. Visual analysis of segmentation results confirms that MANet offers clearer and more accurate class boundaries, underscoring the value of manifold information in medical image segmentation.
翻訳日:2024-10-29 22:34:36 公開日:2024-10-14
# ゼロショット異常検出のためのきめ細かい異常学習

Fine-grained Abnormality Prompt Learning for Zero-shot Anomaly Detection ( http://arxiv.org/abs/2410.10289v1 )

ライセンス: Link先を確認
Jiawen Zhu, Yew-Soon Ong, Chunhua Shen, Guansong Pang, (参考訳) 現在のゼロショット異常検出(ZSAD)手法は、データセット固有のトレーニングやデモンストレーションを使わずに、大規模な事前訓練された視覚言語モデルにターゲットデータセットの異常を検出することの顕著な成功を示している。 しかしながら、これらの手法は、しばしば、異常の粗い粒度のセマンティクス(例えば、カーペット上の「損傷」、「不完全」、「欠陥」のような高レベルのセマンティクスのみをキャプチャするクラフト/ラーニングプロンプトに焦点が当てられている。 そのため、色染料、カット、穴、カーペット上の糸のような特定の欠陥タイプなど、視覚的な外観の異なる多様な異常を認識できる能力は限られている。 この制限に対処するために、より正確なZSADのためにきめ細かい異常点を学習するための新しいフレームワークであるFAPromptを提案する。 この目的のために,FAPromptの新規な複合異常促進モジュールを導入して,相補的・分解的異常促進剤の集合を学習し,各異常促進剤は共有正規トークンといくつかの学習可能な異常トークンによって形成される。 一方、粒度の細かい異常パターンは、あるデータセットから別のデータセットとは大きく異なる可能性がある。 さらに,各問合せ/テスト画像から異常点を抽出するデータ依存異常先行モジュールを,対象データセットの異常点を起点とするサンプリングワイド異常として導入する。 FAPromptは、画像レベルのZSADタスクとピクセルレベルのZSADタスクの両方で、少なくとも3%-5%のAUC/APで最先端の手法を大幅に上回ることを実証している。 コードはhttps://github.com/mala-lab/FAPrompt.comで入手できる。

Current zero-shot anomaly detection (ZSAD) methods show remarkable success in prompting large pre-trained vision-language models to detect anomalies in a target dataset without using any dataset-specific training or demonstration. However, these methods are often focused on crafting/learning prompts that capture only coarse-grained semantics of abnormality, e.g., high-level semantics like "damaged", "imperfect", or "defective" on carpet. They therefore have limited capability in recognizing diverse abnormality details with distinctive visual appearance, e.g., specific defect types like color stains, cuts, holes, and threads on carpet. To address this limitation, we propose FAPrompt, a novel framework designed to learn Fine-grained Abnormality Prompts for more accurate ZSAD. To this end, we introduce a novel compound abnormality prompting module in FAPrompt to learn a set of complementary, decomposed abnormality prompts, where each abnormality prompt is formed by a compound of shared normal tokens and a few learnable abnormal tokens. On the other hand, the fine-grained abnormality patterns can be very different from one dataset to another. To enhance their cross-dataset generalization, we further introduce a data-dependent abnormality prior module that learns to derive abnormality features from each query/test image as a sample-wise abnormality prior to ground the abnormality prompts in a given target dataset. Comprehensive experiments conducted across 19 real-world datasets, covering both industrial defects and medical anomalies, demonstrate that FAPrompt substantially outperforms state-of-the-art methods by at least 3%-5% AUC/AP in both image- and pixel-level ZSAD tasks. Code is available at https://github.com/mala-lab/FAPrompt.
翻訳日:2024-10-29 22:34:36 公開日:2024-10-14
# 自然言語説明付きマルチタスクテキスト分類パイプライン:ギリシャ語ツイートにおける感性分析と攻撃的言語識別におけるユーザ中心評価

A Multi-Task Text Classification Pipeline with Natural Language Explanations: A User-Centric Evaluation in Sentiment Analysis and Offensive Language Identification in Greek Tweets ( http://arxiv.org/abs/2410.10290v1 )

ライセンス: Link先を確認
Nikolaos Mylonas, Nikolaos Stylianou, Theodora Tsikrika, Stefanos Vrochidis, Ioannis Kompatsiaris, (参考訳) 解釈可能性(Interpretability)は、ここ数年注目を集めてきたトピックだ。 既存の解釈可能性技術の多くは、規則の形式や特徴的重要性の解釈を生み出している。 これらの解釈は情報的ではあるが、専門家でないユーザーにとっては理解が難しいため、必ずしも適切な説明とはみなせない。 そのために、自然言語による説明は理解しやすく、エンドユーザにもより提示しやすいため、しばしば好まれる。 この研究は、テキスト分類タスクで使用でき、自然言語の予測と説明を提供する新しいパイプラインの初期の概念を紹介している。 テキストをラベル付けする分類器と、説明を提供する説明生成器の2つのモデルから構成される。 提案したパイプラインは、説明ジェネレータのトレーニングに基礎的な真理的根拠が利用できることを考慮すれば、任意のテキスト分類タスクで採用することができる。 我々の実験は、ギリシャ語ツイートにおける感情分析と攻撃的言語識別のタスクを中心に、ギリシャ語大言語モデル(LLM)を用いて、合理的に作用するために必要な説明を得る。 実験は3つの異なるメトリクスに基づいてユーザスタディを通じて実施され、両方のデータセットに対して有望な結果を得た。

Interpretability is a topic that has been in the spotlight for the past few years. Most existing interpretability techniques produce interpretations in the form of rules or feature importance. These interpretations, while informative, may be harder to understand for non-expert users and therefore, cannot always be considered as adequate explanations. To that end, explanations in natural language are often preferred, as they are easier to comprehend and also more presentable to end-users. This work introduces an early concept for a novel pipeline that can be used in text classification tasks, offering predictions and explanations in natural language. It comprises of two models: a classifier for labelling the text and an explanation generator which provides the explanation. The proposed pipeline can be adopted by any text classification task, given that ground truth rationales are available to train the explanation generator. Our experiments are centred around the tasks of sentiment analysis and offensive language identification in Greek tweets, using a Greek Large Language Model (LLM) to obtain the necessary explanations that can act as rationales. The experimental evaluation was performed through a user study based on three different metrics and achieved promising results for both datasets.
翻訳日:2024-10-29 22:34:36 公開日:2024-10-14
# FunnelRAG:RAGのための粗大なプログレッシブ検索パラダイム

FunnelRAG: A Coarse-to-Fine Progressive Retrieval Paradigm for RAG ( http://arxiv.org/abs/2410.10293v1 )

ライセンス: Link先を確認
Xinping Zhao, Yan Zhong, Zetian Sun, Xinshuo Hu, Zhenyu Liu, Dongfang Li, Baotian Hu, Min Zhang, (参考訳) Retrieval-Augmented Generation (RAG) は、大規模言語モデルにおいて一般的である。 主に検索と生成で構成されている。 検索モジュール(a.k. retrievers)は、生成モジュール(a.k.generators)を容易にするための有用な情報を見つけることを目的としている。 そのため、発電機の性能は、レトリバーの有効性と効率に大きく依存する。 しかし、我々が設計し、使用する検索パラダイムは依然として平坦であり、検索手順を一定の粒度のワンオフ処理として扱う。 有効性にも拘わらず,1) 平坦な検索が1つのレトリバーに重大な負担を及ぼすこと,(2) 一定の粒度が検索性能の上限を制限すること,の2つの限界に悩まされていることを論じる。 本研究では,FunnelRAGと呼ばれるRAGの粒度が粗いプログレッシブ検索パラダイムを提案し,効率と効率のバランスをとる。 特に、FunnelRAGは、粗粒度、大小容量、低大容量を協調して進行性検索パイプラインを確立し、1つのレトリバーの負担を軽減し、検索性能の天井を促進させる。 大規模な実験では、FunnelRAGは同等の検索性能を達成し、時間オーバーヘッドは40%近く削減された。

Retrieval-Augmented Generation (RAG) prevails in Large Language Models. It mainly consists of retrieval and generation. The retrieval modules (a.k.a. retrievers) aim to find useful information used to facilitate generation modules (a.k.a. generators). As such, generators' performance largely depends on the effectiveness and efficiency of retrievers. However, the retrieval paradigm that we design and use remains flat, which treats the retrieval procedures as a one-off deal with constant granularity. Despite effectiveness, we argue that they suffer from two limitations: (1) flat retrieval exerts a significant burden on one retriever; (2) constant granularity limits the ceiling of retrieval performance. In this work, we propose a progressive retrieval paradigm with coarse-to-fine granularity for RAG, termed FunnelRAG, so as to balance effectiveness and efficiency. Specifically, FunnelRAG establishes a progressive retrieval pipeline by collaborating coarse-to-fine granularity, large-to-small quantity, and low-to-high capacity, which can relieve the burden on one retriever and also promote the ceiling of retrieval performance. Extensive experiments manifest that FunnelRAG achieves comparable retrieval performance while the time overhead is reduced by nearly 40 percent.
翻訳日:2024-10-29 22:34:36 公開日:2024-10-14
# 垂直および階層的な点群登録のための整合性対応スポットガイド変換器

A Consistency-Aware Spot-Guided Transformer for Versatile and Hierarchical Point Cloud Registration ( http://arxiv.org/abs/2410.10295v1 )

ライセンス: Link先を確認
Renlang Huang, Yufan Tang, Jiming Chen, Liang Li, (参考訳) 深層学習に基づく特徴マッチングは、ポーズの先行がない場合、ポイントクラウドの登録において大きな優位性を示している。 粗いマッチングアプローチが一般的であるが、既存の手法の粗いマッチングは通常、幾何的整合性を考慮しても疎く、従って、非効率な最適輸送法と仮説と選択法に依存している。 したがって、これらの手法はロボット工学におけるオドメトリーのようなリアルタイム応用には効率的でもスケーラブルでもない。 これらの問題に対処するため,無関係領域との干渉を避けるためにスポット誘導型クロスアテンションモジュールを組み込んだ整合性対応型スポットアテンショントランス (CAST) と,幾何的に整合した対応でマッチング能力を向上する整合性対応型自己アテンションモジュールを設計した。 さらに、スパースキーポイントと高密度特徴の両方に対する軽量な微細マッチングモジュールは、変換を正確に推定することができる。 屋外のLiDAR点クラウドデータセットと屋内のRGBD点クラウドデータセットの両方に対する大規模な実験により、我々の手法が最先端の精度、効率、堅牢性を達成することを示した。

Deep learning-based feature matching has shown great superiority for point cloud registration in the absence of pose priors. Although coarse-to-fine matching approaches are prevalent, the coarse matching of existing methods is typically sparse and loose without consideration of geometric consistency, which makes the subsequent fine matching rely on ineffective optimal transport and hypothesis-and-selection methods for consistency. Therefore, these methods are neither efficient nor scalable for real-time applications such as odometry in robotics. To address these issues, we design a consistency-aware spot-guided Transformer (CAST), which incorporates a spot-guided cross-attention module to avoid interfering with irrelevant areas, and a consistency-aware self-attention module to enhance matching capabilities with geometrically consistent correspondences. Furthermore, a lightweight fine matching module for both sparse keypoints and dense features can estimate the transformation accurately. Extensive experiments on both outdoor LiDAR point cloud datasets and indoor RGBD point cloud datasets demonstrate that our method achieves state-of-the-art accuracy, efficiency, and robustness.
翻訳日:2024-10-29 22:24:32 公開日:2024-10-14
# ROA-BEV:BEVベースの3Dオブジェクトのための2次元領域指向アテンション

ROA-BEV: 2D Region-Oriented Attention for BEV-based 3D Object ( http://arxiv.org/abs/2410.10298v1 )

ライセンス: Link先を確認
Jiwei Chen, Laiyan Ding, Chi Zhang, Feifei Li, Rui Huang, (参考訳) ビジョンベースのBEV (Bird-Eye-View) 3Dオブジェクト検出は、最近自動運転で人気になっている。 しかし、カメラの観点からは、背景と高い類似性を持つ物体は、既存の方法では検出できない。 本稿では,BEVに基づく3次元物体検出ネットワーク(ROA-BEV)のための2次元領域指向アテンションを提案する。 さらに,本手法はマルチスケール構造を用いてROAの情報量を増加させる。 さらに、ROAのすべてのブロックは、大きなカーネルを使用して、大きなオブジェクトの情報を取得するのに十分な受信フィールドを確実にする。 nuScenesの実験では、ROA-BEVはBEVDetとBEVDepthに基づいて性能を改善している。 コードはまもなくリリースされる。

Vision-based BEV (Bird-Eye-View) 3D object detection has recently become popular in autonomous driving. However, objects with a high similarity to the background from a camera perspective cannot be detected well by existing methods. In this paper, we propose 2D Region-oriented Attention for a BEV-based 3D Object Detection Network (ROA-BEV), which can make the backbone focus more on feature learning in areas where objects may exist. Moreover, our method increases the information content of ROA through a multi-scale structure. In addition, every block of ROA utilizes a large kernel to ensure that the receptive field is large enough to catch large objects' information. Experiments on nuScenes show that ROA-BEV improves the performance based on BEVDet and BEVDepth. The code will be released soon.
翻訳日:2024-10-29 22:24:32 公開日:2024-10-14
# 多言語大言語モデルにおける翻訳バイアスと精度の比較検討

A Comparative Study of Translation Bias and Accuracy in Multilingual Large Language Models for Cross-Language Claim Verification ( http://arxiv.org/abs/2410.10303v1 )

ライセンス: Link先を確認
Aryan Singhal, Veronica Shao, Gary Sun, Ryan Ding, Jonathan Lu, Kevin Zhu, (参考訳) デジタル誤報の出現により、ファクトチェックに多言語大言語モデル(LLM)を使うことへの関心が高まっている。 本研究は,ロマンス語,スラヴ語,テュルク語,インド・アーリア語,カルトヴェリア語という5つの言語族の15言語を対象に,翻訳バイアスとLLMの有効性を体系的に評価した。 XFACTデータセットを用いて、その精度とバイアスへの影響を評価し、事前翻訳と自己翻訳の2つの異なる翻訳手法について検討する。 我々は、英語データセット上でmBERTのパフォーマンスをベースラインとして使用し、言語固有の精度を比較する。 その結果,低リソース言語ではトレーニングデータの表現不足により直接推論の精度が著しく低下することが判明した。 さらに,より大規模なモデルでは,自己翻訳の性能が向上し,翻訳精度が向上し,バイアスの低減が図られた。 これらの結果は、信頼性の高い事実チェックツールへの公平なアクセスを促進し、異なる言語文脈で誤情報を拡散するリスクを最小限に抑えるために、特に低リソース言語におけるバランスの取れた多言語訓練の必要性を強調している。

The rise of digital misinformation has heightened interest in using multilingual Large Language Models (LLMs) for fact-checking. This study systematically evaluates translation bias and the effectiveness of LLMs for cross-lingual claim verification across 15 languages from five language families: Romance, Slavic, Turkic, Indo-Aryan, and Kartvelian. Using the XFACT dataset to assess their impact on accuracy and bias, we investigate two distinct translation methods: pre-translation and self-translation. We use mBERT's performance on the English dataset as a baseline to compare language-specific accuracies. Our findings reveal that low-resource languages exhibit significantly lower accuracy in direct inference due to underrepresentation in the training data. Furthermore, larger models demonstrate superior performance in self-translation, improving translation accuracy and reducing bias. These results highlight the need for balanced multilingual training, especially in low-resource languages, to promote equitable access to reliable fact-checking tools and minimize the risk of spreading misinformation in different linguistic contexts.
翻訳日:2024-10-29 22:24:32 公開日:2024-10-14
# Animate-X: 運動表現を増強したユニバーサルキャラクタ画像アニメーション

Animate-X: Universal Character Image Animation with Enhanced Motion Representation ( http://arxiv.org/abs/2410.10306v1 )

ライセンス: Link先を確認
Shuai Tan, Biao Gong, Xiang Wang, Shiwei Zhang, Dandan Zheng, Ruobing Zheng, Kecheng Zheng, Jingdong Chen, Ming Yang, (参考訳) 基準画像とターゲットポーズシーケンスから高品質な映像を生成するキャラクタ画像アニメーションは,近年,顕著な進歩を遂げている。 しかし、既存の手法のほとんどは人間にしか適用されないが、ゲームやエンターテイメントといった産業で一般的に使われる人格的キャラクターによく当てはまらない。 我々の詳細な分析では、この制限は、駆動映像の動作パターンを理解できない動きのモデリングが不十分なため、ターゲットキャラクタに強固にポーズシーケンスを付与することに起因することが示唆されている。 そこで本研究では,多種多様な文字タイプ(総称X)を対象とした汎用アニメーションフレームワークであるAnimate-Xを提案する。 動作表現を向上させるために,暗黙的かつ明示的な方法で動画から包括的な動作パターンをキャプチャするPose Indicatorを導入する。 前者は、駆動ビデオのCLIP視覚的特徴を利用して、全体の動きパターンや動き間の時間的関係のような動きのギストを抽出し、後者は推論中に生じる可能性のある入力を事前にシミュレートすることでLCMの一般化を強化する。 さらに,アニメーション画像に対してAnimate-Xの性能を評価するために,新しいアニメーション擬人化ベンチマーク(A^2Bench)を導入する。 大規模な実験は、最先端の手法と比較してAnimate-Xの優位性と有効性を示した。

Character image animation, which generates high-quality videos from a reference image and target pose sequence, has seen significant progress in recent years. However, most existing methods only apply to human figures, which usually do not generalize well on anthropomorphic characters commonly used in industries like gaming and entertainment. Our in-depth analysis suggests to attribute this limitation to their insufficient modeling of motion, which is unable to comprehend the movement pattern of the driving video, thus imposing a pose sequence rigidly onto the target character. To this end, this paper proposes Animate-X, a universal animation framework based on LDM for various character types (collectively named X), including anthropomorphic characters. To enhance motion representation, we introduce the Pose Indicator, which captures comprehensive motion pattern from the driving video through both implicit and explicit manner. The former leverages CLIP visual features of a driving video to extract its gist of motion, like the overall movement pattern and temporal relations among motions, while the latter strengthens the generalization of LDM by simulating possible inputs in advance that may arise during inference. Moreover, we introduce a new Animated Anthropomorphic Benchmark (A^2Bench) to evaluate the performance of Animate-X on universal and widely applicable animation images. Extensive experiments demonstrate the superiority and effectiveness of Animate-X compared to state-of-the-art methods.
翻訳日:2024-10-29 22:24:32 公開日:2024-10-14
# LG-CAV: 言語指導による概念活性化ベクトルのトレーニング

LG-CAV: Train Any Concept Activation Vector with Language Guidance ( http://arxiv.org/abs/2410.10308v1 )

ライセンス: Link先を確認
Qihan Huang, Jie Song, Mengqi Xue, Haofei Zhang, Bingde Hu, Huiqiong Wang, Hao Jiang, Xingen Wang, Mingli Song, (参考訳) 概念アクティベーションベクター(CAV)は、特定の概念にモデル予測をエレガントにもたらすことによって、説明可能なAIに幅広い研究関心を集めている。 しかし、CAVのトレーニングは、多くの高品質なイメージを必要とすることが多く、それはキュレートするのにコストがかかり、したがって事前に定義された概念のセットに制限される。 この問題に対処するために,ある事前学習された視覚言語モデル(例えば,CLIP)において,豊富な概念知識を活用するために,LG-CAV(Language-Guided CAV)を提案する。 この方法では、対応する概念記述をガイダンスとして利用することにより、ラベル付きデータなしで任意のCAVを訓練することができる。 視覚言語モデルと対象モデルとのギャップを埋めるため、画像の共通プール(プローブ画像)における概念記述のアクティベーション値を視覚言語モデルで算出し、LG-CAVの訓練に言語指導として活用する。 さらに,対象モデルにおける全ての予測クラスに関連する高品質なLG-CAVを訓練した後,モデル修正手法であるアクティベーションサンプル再重み付け(ASR)を提案する。 9つのアーキテクチャを対象とした4つのデータセット実験により,LG-CAVは従来のCAV手法よりもはるかに優れた品質が得られることが示された。 私たちのコードはhttps://github.com/hqhQAQ/LG-CAV.comから入手可能です。

Concept activation vector (CAV) has attracted broad research interest in explainable AI, by elegantly attributing model predictions to specific concepts. However, the training of CAV often necessitates a large number of high-quality images, which are expensive to curate and thus limited to a predefined set of concepts. To address this issue, we propose Language-Guided CAV (LG-CAV) to harness the abundant concept knowledge within the certain pre-trained vision-language models (e.g., CLIP). This method allows training any CAV without labeled data, by utilizing the corresponding concept descriptions as guidance. To bridge the gap between vision-language model and the target model, we calculate the activation values of concept descriptions on a common pool of images (probe images) with vision-language model and utilize them as language guidance to train the LG-CAV. Furthermore, after training high-quality LG-CAVs related to all the predicted classes in the target model, we propose the activation sample reweighting (ASR), serving as a model correction technique, to improve the performance of the target model in return. Experiments on four datasets across nine architectures demonstrate that LG-CAV achieves significantly superior quality to previous CAV methods given any concept, and our model correction method achieves state-of-the-art performance compared to existing concept-based methods. Our code is available at https://github.com/hqhQAQ/LG-CAV.
翻訳日:2024-10-29 22:24:32 公開日:2024-10-14
# 対数的対数類似性に対する最適下界

Optimal lower bounds for logistic log-likelihoods ( http://arxiv.org/abs/2410.10309v1 )

ライセンス: Link先を確認
Niccolò Anceschi, Tommaso Rigon, Giacomo Zanella, Daniele Durante, (参考訳) ロジット変換は、おそらく線形設定を超えて最も広く採用されているリンク関数である。 この変換は、バイナリデータの回帰モデルに常として現れ、明示的にも暗黙的にも、分類と回帰の両方のための最先端の手法の中核となるビルディングブロックを提供する。 ロージット変換を含む一般的な損失の最適化のための解析解の欠如と相まって、計算統計学における活発な研究の動機となっている。 探索された方向のうち、中央のものは、引き付け可能な最適化が可能な対数的対数的対数的対数的対数的対数的下界の設計に焦点を合わせ、これらの対数的対数的対数的対数的対数的対数的対数的対数的対数的対数的対数的対数的対数的対数的対数的対数的対数的対数的対数的対数的対数的対数的対数的対数的対数的対数的対数的対数的対数的対数的対数的対数的対数的対数的対数的対数的対数的対数的対数的対数的対数的対数的対数的対数的対数的対数的対数的対数的対数的対数的対数的対数的対数的対数的対数的 これらの線に沿った進歩は、いくつかのロジットモデルの下で近似ベイズ推定のための点推定と座標の漸進的変分推定スキームのための有効最小化(MM)アルゴリズムの開発に繋がっているが、文献の概略的な焦点は、2次分数分解器である。 実際、2次よりも鋭い接する下界が、結果として生じるマイノライザーのトラクタビリティを損なうことなく引き出せるかどうかはまだ不明である。 本稿では,古典的な一般化ラッソ問題の観点から直接的解釈を認めながら,最も鋭い部分を含む任意の接する二次分数分解器を均一に改善する,新しい2次下界の設計と研究を通じて,このような難解な問題に対処する。 リッジロジスティック回帰(英語版)で示されるように、このユニークな接続は、利用可能なピースワイド境界によって提供されるものよりもより効果的な実装を促進し、二次的結合の収束速度を向上する。

The logit transform is arguably the most widely-employed link function beyond linear settings. This transformation routinely appears in regression models for binary data and provides, either explicitly or implicitly, a core building-block within state-of-the-art methodologies for both classification and regression. Its widespread use, combined with the lack of analytical solutions for the optimization of general losses involving the logit transform, still motivates active research in computational statistics. Among the directions explored, a central one has focused on the design of tangent lower bounds for logistic log-likelihoods that can be tractably optimized, while providing a tight approximation of these log-likelihoods. Although progress along these lines has led to the development of effective minorize-maximize (MM) algorithms for point estimation and coordinate ascent variational inference schemes for approximate Bayesian inference under several logit models, the overarching focus in the literature has been on tangent quadratic minorizers. In fact, it is still unclear whether tangent lower bounds sharper than quadratic ones can be derived without undermining the tractability of the resulting minorizer. This article addresses such a challenging question through the design and study of a novel piece-wise quadratic lower bound that uniformly improves any tangent quadratic minorizer, including the sharpest ones, while admitting a direct interpretation in terms of the classical generalized lasso problem. As illustrated in a ridge logistic regression, this unique connection facilitates more effective implementations than those provided by available piece-wise bounds, while improving the convergence speed of quadratic ones.
翻訳日:2024-10-29 22:24:32 公開日:2024-10-14
# GlobalMamba: Vision Mambaのグローバルイメージシリアライズ

GlobalMamba: Global Image Serialization for Vision Mamba ( http://arxiv.org/abs/2410.10316v1 )

ライセンス: Link先を確認
Chengkun Wang, Wenzhao Zheng, Jie Zhou, Jiwen Lu, (参考訳) 視覚マンバは、視覚トークンの数に対して線形複雑度で強い性能を示した。 画像トークンを逐次処理することで効率が向上する。 しかし、既存のほとんどの手法では、パッチベースの画像トークン化を採用し、それらを因果処理のために1次元シーケンスにフラット化することで、画像の固有の2次元構造的相関を無視している。 また,局所パッチの逐次処理によるグローバル情報抽出も困難である。 本稿では,2次元画像のグローバルな情報を含む因果トークン列に変換するグローバルな画像シリアライズ手法を提案する。 まず、離散コサイン変換(DCT)を用いて空間領域から周波数領域に変換し、対応する周波数範囲の画素を配置する。 さらに、同じ周波数帯域内の各集合を空間領域に変換し、トークン化前に一連の画像を取得する。 視覚マンバモデルであるGlobalMambaを,提案したグローバル画像シリアライゼーションに基づく因果入力形式で構築し,画像列間の因果関係をよりよく活用する。 大規模な実験では、ImageNet-1Kの画像分類、COCOのオブジェクト検出、ADE20Kのセマンティックセグメンテーションなど、GlobalMambaの有効性が実証されている。

Vision mambas have demonstrated strong performance with linear complexity to the number of vision tokens. Their efficiency results from processing image tokens sequentially. However, most existing methods employ patch-based image tokenization and then flatten them into 1D sequences for causal processing, which ignore the intrinsic 2D structural correlations of images. It is also difficult to extract global information by sequential processing of local patches. In this paper, we propose a global image serialization method to transform the image into a sequence of causal tokens, which contain global information of the 2D image. We first convert the image from the spatial domain to the frequency domain using Discrete Cosine Transform (DCT) and then arrange the pixels with corresponding frequency ranges. We further transform each set within the same frequency band back to the spatial domain to obtain a series of images before tokenization. We construct a vision mamba model, GlobalMamba, with a causal input format based on the proposed global image serialization, which can better exploit the causal relations among image sequences. Extensive experiments demonstrate the effectiveness of our GlobalMamba, including image classification on ImageNet-1K, object detection on COCO, and semantic segmentation on ADE20K.
翻訳日:2024-10-29 22:24:32 公開日:2024-10-14
# QIANets: CNNモデルにおける遅延低減と推論時間改善のための量子集積型適応ネットワーク

QIANets: Quantum-Integrated Adaptive Networks for Reduced Latency and Improved Inference Times in CNN Models ( http://arxiv.org/abs/2410.10318v1 )

ライセンス: Link先を確認
Zhumazhan Balapanov, Edward Magongo, Vanessa Matvei, Olivia Holmberg, Jonathan Pei, Kevin Zhu, (参考訳) 畳み込みニューラルネットワーク(CNN)はコンピュータビジョンタスクにおいて大きな進歩を遂げているが、その高い推論時間とレイテンシは実世界の適用性を制限していることが多い。 モデル圧縮技術はソリューションとして人気があるが、低レイテンシと非圧縮精度の致命的なバランスを見落としていることが多い。 QIANets: 従来のGoogLeNet、DenseNet、ResNet-18モデルアーキテクチャを再設計する新しいアプローチで、推論時間を維持しながら、より多くのパラメータと計算を処理する。 実験の限界にもかかわらず, 提案手法を検証, 評価し, 推論時間の短縮を実証し, 有効精度の保存を行った。

Convolutional neural networks (CNNs) have made significant advances in computer vision tasks, yet their high inference times and latency often limit real-world applicability. While model compression techniques have gained popularity as solutions, they often overlook the critical balance between low latency and uncompromised accuracy. By harnessing quantum-inspired pruning, tensor decomposition, and annealing-based matrix factorization - three quantum-inspired concepts - we introduce QIANets: a novel approach of redesigning the traditional GoogLeNet, DenseNet, and ResNet-18 model architectures to process more parameters and computations whilst maintaining low inference times. Despite experimental limitations, the method was tested and evaluated, demonstrating reductions in inference times, along with effective accuracy preservations.
翻訳日:2024-10-29 22:24:32 公開日:2024-10-14
# 多層特徴アグリゲーションによるMLLMの空間認識能率プロジェクタ

Spatial-Aware Efficient Projector for MLLMs via Multi-Layer Feature Aggregation ( http://arxiv.org/abs/2410.10319v1 )

ライセンス: Link先を確認
Shun Qian, Bingquan Liu, Chengjie Sun, Zhen Xu, Baoxun Wang, (参考訳) プロジェクタはマルチモーダル言語モデル(MLLM)において重要な役割を果たす。 出力される視覚トークンの数はMLLMの効率に影響を与えるが、視覚トークンの品質はMLLMの視覚的理解能力に影響を与える。 プロジェクタにおける現在の探索は、効率を改善するために視覚トークンの数を減らし、しばしばシリアライズされた2次元の視覚トークンシーケンスと自然言語トークンシーケンスとの空間的な相違を見落としている。 この問題に対処するために空間認識効率プロジェクタ(SAEP)を提案する。 本手法では,視覚トークンの空間情報を高めるために,多層視覚特徴量に分離可能な修正型深度畳み込みモジュールを用いる。 その結果,SAEP法は視覚トークンの数を75%削減するだけでなく,MLLMのマルチモーダル空間理解能力を大幅に向上させることができた。 さらに,既存のプロジェクタと比較して,大規模なマルチモーダル評価ベンチマークで最高の性能を示し,モダリティギャップを埋める効果を示す。

The projector plays a crucial role in multi-modal language models (MLLMs). The number of visual tokens it outputs affects the efficiency of the MLLM, while the quality of the visual tokens influences the visual understanding capabilities of the MLLM. Current explorations on the projector focus on reducing the number of visual tokens to improve efficiency, often overlooking the inherent spatial discrepancy between the serialized 2-dimensional visual token sequences and natural language token sequences. A Spatial-Aware Efficient Projector (SAEP) is proposed to address this issue. In detail, our SAEP method employs an modified separable depthwise convolution module on multi-layer visual features to enhance the spatial information of visual tokens. As a result, our SAEP method can not only largely reduce the number of visual tokens by 75\%, but also significantly improve the multimodal spatial understanding capability of MLLMs. Moreover, compared to existing projectors, our SAEP gets best performances on massive multimodal evaluation benchmarks, which denotes its effectiveness on bridging the modality gap.
翻訳日:2024-10-29 22:24:32 公開日:2024-10-14
# DiRW:異所性学習のためのパス認識ダイグラフ学習

DiRW: Path-Aware Digraph Learning for Heterophily ( http://arxiv.org/abs/2410.10320v1 )

ライセンス: Link先を確認
Daohan Su, Xunkai Li, Zhenjun Li, Yinping Liao, Rong-Hua Li, Guoren Wang, (参考訳) 近年,グラフ構造化データの表現学習ツールとしてグラフニューラルネットワーク(GNN)が登場している。 しかし、ほとんどのアプローチは無向グラフ用に調整されており、有向グラフ(グラフ)の端に埋め込まれた豊富な情報を無視する。 実際、ダイグラフは現実世界(例えばソーシャルネットワークやレコメンデーション)で広く適用されており、また、トポロジカルな異種問題に対処するための新しい視点(すなわち、接続ノードは特徴分布やラベルの複雑なパターンを持つ)を提供することも確認されている。 近年のDGNNの進歩にもかかわらず、既存の空間的およびスペクトル的手法は、複雑な学習機構と高品質なトポロジに依存しているため固有の制限があり、効率の低下と不安定な性能をもたらす。 これらの問題に対処するために、ほとんどの空間的手法や図面に対してガイダンスや新しい学習パラダイムを提供する、プラグアンドプレイ戦略または革新的なニューラルアーキテクチャとみなすことができるDirected Random Walk (DiRW)を提案する。 具体的には、ノードプロファイルやトポロジカル構造を考慮し、歩行確率、長さ、数の観点から最適化された方向対応経路サンプリング器を無重量で組み込む。 そこでDIRWは,提案した適応歩行器から得られた一般化メッセージに対して,ノード知能パスアグリゲータを用いて現在のノードを表現した。 9つのデータセットに対する大規模な実験により、(1)プラグ・アンド・プレイ戦略としてほとんどの空間的手法を強化し、(2)新たなダイグラフ学習パラダイムとしてSOTA性能を達成することが示されている。

Recently, graph neural network (GNN) has emerged as a powerful representation learning tool for graph-structured data. However, most approaches are tailored for undirected graphs, neglecting the abundant information embedded in the edges of directed graphs (digraphs). In fact, digraphs are widely applied in the real world (e.g., social networks and recommendations) and are also confirmed to offer a new perspective for addressing topological heterophily challenges (i.e., connected nodes have complex patterns of feature distribution or labels). Despite recent significant advancements in DiGNNs, existing spatial- and spectral-based methods have inherent limitations due to the complex learning mechanisms and reliance on high-quality topology, leading to low efficiency and unstable performance. To address these issues, we propose Directed Random Walk (DiRW), which can be viewed as a plug-and-play strategy or an innovative neural architecture that provides a guidance or new learning paradigm for most spatial-based methods or digraphs. Specifically, DiRW incorporates a direction-aware path sampler optimized from the perspectives of walk probability, length, and number in a weight-free manner by considering node profiles and topological structure. Building upon this, DiRW utilizes a node-wise learnable path aggregator for generalized messages obtained by our proposed adaptive walkers to represent the current node. Extensive experiments on 9 datasets demonstrate that DiRW: (1) enhances most spatial-based methods as a plug-and-play strategy; (2) achieves SOTA performance as a new digraph learning paradigm.
翻訳日:2024-10-29 22:24:32 公開日:2024-10-14
# 特徴平均化:ニューラルネットワークの非破壊性に起因したグラディエント・ディフレッシュの暗黙のバイアス

Feature Averaging: An Implicit Bias of Gradient Descent Leading to Non-Robustness in Neural Networks ( http://arxiv.org/abs/2410.10322v1 )

ライセンス: Link先を確認
Binghui Li, Zhixuan Pan, Kaifeng Lyu, Jian Li, (参考訳) 本研究では、勾配降下訓練プロセスにおける特定の暗黙バイアスについて検討し、これを「機能平均化(Feature Averaging)」と呼び、ディープニューラルネットワークの非破壊性に寄与する主要な要因の1つとして論じる。 データを分類できる複数の識別的特徴があるにもかかわらず、勾配降下によって訓練されたニューラルネットワークは、それぞれの特徴を個別に区別し活用するのではなく、これらの特徴の平均(または特定の組み合わせ)を学ぶ傾向がある。 特に,データ分布は直交クラスタ中心ベクトルを持つ複数のクラスタから構成される2層ReLUネットワークにおいて,勾配降下のトレーニング力学の詳細な理論的解析を行う。 我々は,各隠れ層ニューロンに付随する重みがクラスター中心の平均(各中心が特徴に対応する)を表す特徴平均値に勾配勾配が収束することを厳密に証明した。 ネットワーク分類器は、平均的な特徴の負の方向と一致する攻撃のため、非破壊的になる。 さらに、よりきめ細かい教師付き情報を提供することで、2層ニューラルネットワークが個々の特徴を学習でき、そこから最適なロバスト性を持つバイナリ分類器を導出できることを示す。 さらに,合成データセットであるMNISTとCIFAR-10を用いて,特徴平均化現象と,ニューラルネットワークの対向的堅牢性におけるその役割を実証する広範囲な実験を行った。 理論的および実証的な洞察は、勾配降下訓練が特徴学習プロセスに与える影響をより深く理解し、それによってネットワークの堅牢性に影響を及ぼし、より詳細な監視がモデルの堅牢性を高めることを期待する。

In this work, we investigate a particular implicit bias in the gradient descent training process, which we term "Feature Averaging", and argue that it is one of the principal factors contributing to non-robustness of deep neural networks. Despite the existence of multiple discriminative features capable of classifying data, neural networks trained by gradient descent exhibit a tendency to learn the average (or certain combination) of these features, rather than distinguishing and leveraging each feature individually. In particular, we provide a detailed theoretical analysis of the training dynamics of gradient descent in a two-layer ReLU network for a binary classification task, where the data distribution consists of multiple clusters with orthogonal cluster center vectors. We rigorously prove that gradient descent converges to the regime of feature averaging, wherein the weights associated with each hidden-layer neuron represent an average of the cluster centers (each center corresponding to a distinct feature). It leads the network classifier to be non-robust due to an attack that aligns with the negative direction of the averaged features. Furthermore, we prove that, with the provision of more granular supervised information, a two-layer multi-class neural network is capable of learning individual features, from which one can derive a binary classifier with the optimal robustness under our setting. Besides, we also conduct extensive experiments using synthetic datasets, MNIST and CIFAR-10 to substantiate the phenomenon of feature averaging and its role in adversarial robustness of neural networks. We hope the theoretical and empirical insights can provide a deeper understanding of the impact of the gradient descent training on feature learning process, which in turn influences the robustness of the network, and how more detailed supervision may enhance model robustness.
翻訳日:2024-10-29 22:24:32 公開日:2024-10-14
# メンタルGLMシリーズ:中国のソーシャルメディアにおけるメンタルヘルス分析のための説明可能な大規模言語モデル

MentalGLM Series: Explainable Large Language Models for Mental Health Analysis on Chinese Social Media ( http://arxiv.org/abs/2410.10323v1 )

ライセンス: Link先を確認
Wei Zhai, Nan Bai, Qing Zhao, Jianqiang Li, Fan Wang, Hongzhi Qi, Meng Jiang, Xiaoqin Wang, Bing Xiang Yang, Guanghui Fu, (参考訳) メンタルヘルスの課題が流行するにつれ、個人が感情を表現するための重要なプラットフォームとしてソーシャルメディアが登場し、ディープラーニングはソーシャルメディア上でメンタルヘルスを分析するための有望な解決策となる傾向にある。 しかしながら、ブラックボックスモデルはタスクを切り替えるときにしばしば柔軟性がなく、その結果は説明に欠ける。 大きな言語モデル(LLM)の台頭とともに、その柔軟性はこの分野に新しいアプローチを導入した。 また、生成性のため、意思決定プロセスを説明するよう促すことができる。 しかし、複雑な心理学的分析における彼らの業績は、いまだにディープラーニングに遅れを取っている。 本稿では、品質管理と手作業による検証を行う9Kサンプルからなる、初のマルチタスク中国ソーシャルメディア解釈メンタルヘルス指導(C-IMHI)データセットを紹介する。 また,中国ソーシャルメディアをターゲットとしたメンタルヘルス分析を目的とした,初のオープンソースLCMであるMentalGLMシリーズモデルも提案する。 提案したモデルは,3つの下流タスクで評価され,ディープラーニングモデル,一般化LLM,タスク微調整LLMよりも優れた性能を示した。 得られた意思決定説明の一部を専門家と検証し、有望な結果を示した。 また, 提案したモデルを臨床データセットで評価し, 他のLSMよりも優れ, 臨床分野への応用可能性を示した。 私たちのモデルは、タスクと視点にまたがって検証される、強力なパフォーマンスを示しています。 決定説明はユーザビリティを高め、モデルの理解と実践的応用を促進する。 構築されたデータセットとモデルの両方は、https://github.com/zwzzzQAQ/MentalGLMを介して公開されている。

As the prevalence of mental health challenges, social media has emerged as a key platform for individuals to express their emotions.Deep learning tends to be a promising solution for analyzing mental health on social media. However, black box models are often inflexible when switching between tasks, and their results typically lack explanations. With the rise of large language models (LLMs), their flexibility has introduced new approaches to the field. Also due to the generative nature, they can be prompted to explain decision-making processes. However, their performance on complex psychological analysis still lags behind deep learning. In this paper, we introduce the first multi-task Chinese Social Media Interpretable Mental Health Instructions (C-IMHI) dataset, consisting of 9K samples, which has been quality-controlled and manually validated. We also propose MentalGLM series models, the first open-source LLMs designed for explainable mental health analysis targeting Chinese social media, trained on a corpus of 50K instructions. The proposed models were evaluated on three downstream tasks and achieved better or comparable performance compared to deep learning models, generalized LLMs, and task fine-tuned LLMs. We validated a portion of the generated decision explanations with experts, showing promising results. We also evaluated the proposed models on a clinical dataset, where they outperformed other LLMs, indicating their potential applicability in the clinical field. Our models show strong performance, validated across tasks and perspectives. The decision explanations enhance usability and facilitate better understanding and practical application of the models. Both the constructed dataset and the models are publicly available via: https://github.com/zwzzzQAQ/MentalGLM.
翻訳日:2024-10-29 22:24:32 公開日:2024-10-14
# ランダムフィールドXXZ鎖における系統的相関の統計:多体局在相における希少事象の重要性

Statistics of systemwide correlations in the random-field XXZ chain: Importance of rare events in the many-body localized phase ( http://arxiv.org/abs/2410.10325v1 )

ライセンス: Link先を確認
Jeanne Colbois, Fabien Alet, Nicolas Laflorencie, (参考訳) マルチボディローカライゼーション(MBL)問題,特にシステムワイド共鳴に対する安定性に関する最近の議論に触発されて,ランダムフィールドXXZモデルの位相図における長距離スピン-スピン相関を,特に強い障害状態に着目して検討した。 最先端のシフト-逆対角化技術に基づいて, 横方向相関関数と縦方向相関関数の高エネルギー挙動を最大距離で計算し, 幅広い障害と相互作用強度について検討した。 その結果, 横方向相関はXXZ相図全体に対してかなり安定な指数減衰を示すが, 縦方向相関は明らかに異なる挙動を示し, 異なる物理状態を示すことがわかった。 より正確には、標準観測値がよく収束したMBLの挙動を示す中間障害領域(J. Colbois et al , Phys. Lett. 133, 116502 (2024))を同定する。 これらの稀な事象は、仮定されたMBL位相内の広い領域で代数的であるのに対して、典型的な崩壊は主に指数関数的である縦相関の平均崩壊に強く影響を及ぼす。 強い障害と弱い相互作用において、この中間状態は、標準局在化の期待通り、通常の相関子と平均相関子の両方に対して短い相関長を持つより伝統的な指数関数的崩壊に置き換えられる。 本研究は,MBL相の安定性に対する,このような稀ながら大きな長距離相関の影響について,システム全体の不安定性に光を当て,重要な疑問を提起した。 最後に、この分野における最近の視点の文脈における中間領域の運命について論じる。

Motivated by recent debates around the many-body localization (MBL) problem, and in particular its stability against systemwide resonances, we investigate long-distance spin-spin correlations across the phase diagram of the random-field XXZ model, with a particular focus on the strong disorder regime. Building on state-of-the-art shift-invert diagonalization techniques, we study the high-energy behavior of transverse and longitudinal correlation functions, computed at the largest possible distance, for a broad range of disorder and interaction strengths. Our results show that while transverse correlations display a fairly stable exponential decay over the entire XXZ phase diagram, longitudinal correlations exhibit markedly different behavior, revealing distinct physical regimes. More precisely, we identify an intermediate disorder region where standard observables show well-converged MBL behavior [J. Colbois et al., Phys. Rev. Lett. 133, 116502 (2024)] while the distributions of longitudinal correlations reveal unexpected fat-tails towards large values. These rare events strongly influence the average decay of longitudinal correlations, which we find to be algebraic in a broad region inside the supposed MBL phase, whereas the typical decay remains mostly exponential. At stronger disorder and weaker interactions, this intermediate regime is replaced by a more conventional exponential decay with short correlation lengths for both typical and average correlators, as expected for standard localization. Our findings shed light on the systemwide instabilities and raise important questions about the impact of such rare but large long-range correlations on the stability of the MBL phase. Finally, we discuss the possible fate of the intermediate region in the context of recent perspectives in the field.
翻訳日:2024-10-29 22:24:32 公開日:2024-10-14
# ターゲットのアイデンティティをまたいだヘイトを遠ざける

Disentangling Hate Across Target Identities ( http://arxiv.org/abs/2410.10332v1 )

ライセンス: Link先を確認
Yiping Jin, Leo Wanner, Aneesh Moideen Koya, (参考訳) ヘイトスピーチ(HS)分類器は、異なるターゲットIDに対するヘイトフル表現の検出において等しく機能しない。 彼らはまた、予測された憎悪のスコアに体系的なバイアスを示す。 最近提案された2つのHS検出のための機能テストデータセットをタップして、異なる要因がHS予測に与える影響を定量的に分析する。 一般的な産業モデルや学術モデルの実験では、HS検出器は特定のターゲットのアイデンティティの言及に基づいて、より高いヘイトフルネススコアを割り当てている。 さらに、モデルはしばしば憎悪と感情の極性を混乱させる。 この結果が心配なのは、HS検出器の構築が、私たちが守りたいと願っている脆弱なアイデンティティグループに害を与える可能性があることだ。 また, ヘイトフルネス予測の精度がステレオタイプ強度と強く相関していることを明らかにする社会心理学理論に触発された研究を行った。

Hate speech (HS) classifiers do not perform equally well in detecting hateful expressions towards different target identities. They also demonstrate systematic biases in predicted hatefulness scores. Tapping on two recently proposed functionality test datasets for HS detection, we quantitatively analyze the impact of different factors on HS prediction. Experiments on popular industrial and academic models demonstrate that HS detectors assign a higher hatefulness score merely based on the mention of specific target identities. Besides, models often confuse hatefulness and the polarity of emotions. This result is worrisome as the effort to build HS detectors might harm the vulnerable identity groups we wish to protect: posts expressing anger or disapproval of hate expressions might be flagged as hateful themselves. We also carry out a study inspired by social psychology theory, which reveals that the accuracy of hatefulness prediction correlates strongly with the intensity of the stereotype.
翻訳日:2024-10-29 22:14:39 公開日:2024-10-14
# CoMAT: 数学的に注釈付けされた思考の連鎖が数学的推論を改善する

CoMAT: Chain of Mathematically Annotated Thought Improves Mathematical Reasoning ( http://arxiv.org/abs/2410.10336v1 )

ライセンス: Link先を確認
Joshua Ong Jun Leang, Aryo Pradipta Gema, Shay B. Cohen, (参考訳) 数学的推論は、Chain-of-Thought (CoT)のような技法の進歩にもかかわらず、大きな言語モデル(LLM)にとって重要な課題である。 本稿では、記号変換(自然言語クエリを記号形式に変換する)と推論実行(記号表現からの回答を導出する)という2つの段階を通して推論を強化する数学的アノテーション思考(CoMAT)の連鎖について述べる。 CoMATは、単一のLCMと外部解決器なしで完全に動作する。 4つのLCMで、CoMATは7つのベンチマークのうち6つのベンチマークで従来のCoTを上回り、MMLU-Redux (MATH)では4.48%、GaoKao MCQでは4.58%を記録した。 性能の改善に加えて、CoMATは複雑な数学的タスクに対する透明な推論プロセスを提供し、忠実さと妥当性を保証する。

Mathematical reasoning remains a significant challenge for large language models (LLMs), despite progress in prompting techniques such as Chain-of-Thought (CoT). We present Chain of Mathematically Annotated Thought (CoMAT), which enhances reasoning through two stages: Symbolic Conversion (converting natural language queries into symbolic form) and Reasoning Execution (deriving answers from symbolic representations). CoMAT operates entirely with a single LLM and without external solvers. Across four LLMs, CoMAT outperforms traditional CoT on six out of seven benchmarks, achieving gains of 4.48% on MMLU-Redux (MATH) and 4.58% on GaoKao MCQ. In addition to improved performance, CoMAT ensures faithfulness and verifiability, offering a transparent reasoning process for complex mathematical tasks
翻訳日:2024-10-29 22:14:39 公開日:2024-10-14
# ゼロノイズ外挿に基づく量子誤差緩和のシリコンスピン量子ビットへの応用

Application of zero-noise extrapolation-based quantum error mitigation to a silicon spin qubit ( http://arxiv.org/abs/2410.10339v1 )

ライセンス: Link先を確認
Hanseo Sohn, Jaewon Jung, Jaemin Park, Hyeongyu Jang, Lucas E. A. Stehouwer, Davide Degli Esposti, Giordano Scappucci, Dohun Kim, (参考訳) 量子コンピューティングが実用化に向けて進むにつれ、エラーを減らすことは、近い将来のデバイスを開発する上で重要なフロンティアである。 量子ゲートと量子状態の読み出しの誤差はノイズの多い回路となり、観測値の正確な期待値の取得が妨げられる。 エラーに対する究極のロバスト性は、量子エラー補正に基づくフォールトトレラント量子コンピューティングによって達成可能であることが知られているが、その実装の成功には、まだ広く利用できない平均エラー率の低い大規模量子プロセッサが必要である。 対照的に、QEM(Quantum error mitigation)はより緊急かつ実用的な技術を提供しており、大量のリソースを必要とせず、期待値の精度を向上させるために既存の量子デバイスに容易に適用することができる。 本稿では,シリコンスピン量子ビットプラットフォーム上でのゼロノイズ外挿に基づく誤差軽減手法の実装について報告する。 この技術は超伝導量子ビット、トラップイオン量子ビット、フォトニックプロセッサなどの他のプラットフォームで実証されている。 まず, 標準ランダム化ベンチマークプロトコルを用いて, 大域的折り畳み, 局所的折り畳み, パルスストレッチという, シリコンスピン量子ビット上の雑音を増幅する3つの手法について検討する。 次に,グローバルな折り畳み型ゼロノイズ外挿法を状態トモグラフィーに適用して99.96% (98.52%) の状態フィデリティを,異なる準備状態に対して75.82% (82.16%) の未緩和フィデリティと比較した。 その結果、ゼロノイズ外挿法は汎用的なアプローチであり、一般に適切な雑音増幅法により異なるノイズ特性を持つ量子コンピューティングプラットフォームに適応可能であることが示された。

As quantum computing advances towards practical applications, reducing errors remains a crucial frontier for developing near-term devices. Errors in the quantum gates and quantum state readout could result in noisy circuits, which would prevent the acquisition of the exact expectation values of the observables. Although ultimate robustness to errors is known to be achievable by quantum error correction-based fault-tolerant quantum computing, its successful implementation demands large-scale quantum processors with low average error rates that are not yet widely available. In contrast, quantum error mitigation (QEM) offers more immediate and practical techniques, which do not require extensive resources and can be readily applied to existing quantum devices to improve the accuracy of the expectation values. Here, we report the implementation of a zero-noise extrapolation-based error mitigation technique on a silicon spin qubit platform. This technique has recently been successfully demonstrated for other platforms such as superconducting qubits, trapped-ion qubits, and photonic processors. We first explore three methods for amplifying noise on a silicon spin qubit: global folding, local folding, and pulse stretching, using a standard randomized benchmarking protocol. We then apply global folding-based zero-noise extrapolation to the state tomography and achieve a state fidelity of 99.96% (98.52%), compared to the unmitigated fidelity of 75.82% (82.16%) for different preparation states. The results show that the zero-noise extrapolation technique is a versatile approach that is generally adaptable to quantum computing platforms with different noise characteristics through appropriate noise amplification methods.
翻訳日:2024-10-29 22:14:39 公開日:2024-10-14
# LLMの安全性を損なう

Locking Down the Finetuned LLMs Safety ( http://arxiv.org/abs/2410.10343v1 )

ライセンス: Link先を確認
Minjun Zhu, Linyi Yang, Yifan Wei, Ningyu Zhang, Yue Zhang, (参考訳) 特定の下流タスクのために最適化するためには、追加のデータセット上での微調整大型言語モデル(LLM)が必要であることが多い。 しかし、推定時の有害な行動を制限する既存の安全アライメント対策は、微調整時の安全性リスクを軽減するには不十分である。 わずか10の有毒な文で微調整することで、モデルに有害な指示を従わせることができる。 本稿では, 効率的かつ伝達性のある機構を通じて, 高速かつ高安全性な自動調整を行う新しいアライメント介入手法であるSafetyLockを紹介する。 SafetyLockは、細調整されたモデルがベースモデルと同じような安全関連アクティベーション表現を保持することを発見した。 そこで本研究では,メタセーフティロック(Meta-SafetyLock,メタセーフティロック,メタセーフティロック,メタセーフティロック,メタセーフティロック,メタセーフティロック,メタセーフティロック,メタセーフティロック,メタセーフティロック,メタセーフティロック,メタセーフティロック,メタセーフティロック,メタセーフティロック,メタセーフティロック)を抽出した。 そして、これらの方向を微調整されたモデルに普遍的に適用して安全性を高めることができる。 複数のトークン次元にわたるアクティベーション方向を探すことで、SafetyLockは堅牢性と転送性の向上を実現している。 SafetyLockは微調整されたモデルを0.01秒未満で追加の計算コストなしで再調整する。 本実験は, 有害な微調整モデルにおいて, 有害な命令応答率を60%から1%以下に低減できることを示した。 パフォーマンスと効率の両面で従来の手法を超越し、カスタマイズされたLLMの安全性を確保するためのスケーラブルで非侵襲的なソリューションを提供する。 各種微調整シナリオを対象とした解析により,セーフティロックのロバスト性が確認され,LCMの安全プロトコルへの統合が提唱された。 コードはhttps://github.com/zhu-minjun/SafetyLock.comで公開されている。

Fine-tuning large language models (LLMs) on additional datasets is often necessary to optimize them for specific downstream tasks. However, existing safety alignment measures, which restrict harmful behavior during inference, are insufficient to mitigate safety risks during fine-tuning. Alarmingly, fine-tuning with just 10 toxic sentences can make models comply with harmful instructions. We introduce SafetyLock, a novel alignment intervention method that maintains robust safety post-fine-tuning through efficient and transferable mechanisms. SafetyLock leverages our discovery that fine-tuned models retain similar safety-related activation representations to their base models. This insight enables us to extract what we term the Meta-SafetyLock, a set of safety bias directions representing key activation patterns associated with safe responses in the original model. We can then apply these directions universally to fine-tuned models to enhance their safety. By searching for activation directions across multiple token dimensions, SafetyLock achieves enhanced robustness and transferability. SafetyLock re-aligns fine-tuned models in under 0.01 seconds without additional computational cost. Our experiments demonstrate that SafetyLock can reduce the harmful instruction response rate from 60% to below 1% in toxic fine-tuned models. It surpasses traditional methods in both performance and efficiency, offering a scalable, non-invasive solution for ensuring the safety of customized LLMs. Our analysis across various fine-tuning scenarios confirms SafetyLock's robustness, advocating its integration into safety protocols for aligned LLMs. The code is released at https://github.com/zhu-minjun/SafetyLock.
翻訳日:2024-10-29 22:14:39 公開日:2024-10-14
# LLMのルーティングとカスケードへの統一的アプローチ

A Unified Approach to Routing and Cascading for LLMs ( http://arxiv.org/abs/2410.10347v1 )

ライセンス: Link先を確認
Jasper Dekoninck, Maximilian Baader, Martin Vechev, (参考訳) 大規模言語モデル(LLM)の広範な適用性は、特定のタスクをターゲットとした様々なサイズの細調整モデルの可用性を高めている。 このような特殊なモデルの集合が与えられた場合、全体的な性能を最大化するためには、与えられたユーザクエリに対して適切なモデルを選択するための最適な戦略を見つけることが重要である。 効果的な戦略は、全体的なパフォーマンスを大幅に向上させ、単一の大きなモノリシックモデルよりも改善を提供する。 既存のアプローチは、ルーティング(ルーティング)、クエリ毎に1つのモデルが選択される、カスケード(キャスケード)という2つのカテゴリに分類される。 しかし、どちらも注目すべき制限がある: コミットを柔軟性のない初期モデルにルーティングする一方、カスケーディングではすべてのモデルをシーケンスで実行する必要がある。 さらに、これらの戦略が確実に最適である条件は不明確である。 本研究では、ルーティングとカスケードの両方に最適な戦略を導出する。 そこで本研究では,カスケードルーティング(Cascade routing)と呼ばれる新しい手法を提案する。 実験により、カスケードルーティングは、様々な設定におけるルーティングとカスケードの両方を一貫して上回り、出力品質と計算コストの低下の両方を改善し、モデル選択問題に対する統一的で効率的な解を提供することを示した。

The widespread applicability of large language models (LLMs) has increased the availability of many fine-tuned models of various sizes targeting specific tasks. Given a set of such specialized models, to maximize overall performance, it is important to figure out the optimal strategy for selecting the right model for a given user query. An effective strategy could drastically increase overall performance and even offer improvements over a single large monolithic model. Existing approaches typically fall into two categories: routing, where a single model is selected for each query, and cascading, which runs a sequence of increasingly larger models until a satisfactory answer is obtained. However, both have notable limitations: routing commits to an initial model without flexibility, while cascading requires executing every model in sequence, which can be inefficient. Additionally, the conditions under which these strategies are provably optimal remain unclear. In this work, we derive optimal strategies for both routing and cascading. Building on this analysis, we propose a novel approach called cascade routing, which combines the adaptability of routing with the cost-efficiency of cascading. Our experiments demonstrate that cascade routing consistently outperforms both routing and cascading across a variety of settings, improving both output quality and lowering computational cost, thus offering a unified and efficient solution to the model selection problem.
翻訳日:2024-10-29 22:14:39 公開日:2024-10-14
# 自動ラベリング・リファインメントによるLLMにおけるインテクストラーニングの強化

Augmenting In-Context-Learning in LLMs via Automatic Data Labeling and Refinement ( http://arxiv.org/abs/2410.10348v1 )

ライセンス: Link先を確認
Joseph Shtok, Amit Alfassy, Foad Abo Dahood, Eliyahu Schwartz, Sivan Doveh, Assaf Arbelle, (参考訳) 大規模言語モデル(LLM)のパフォーマンスは、いくつかの例を使ってタスクの解決に必要なステップの実証を含む、Chain of Thought(CoT)やIn-Context Learning(ICL)を使用して、多くのタスクで改善可能であることが示されている。 しかし、入出力ペアのデータセットは比較的簡単に作成できるが、中間ステップを含むデモを提供するには、面倒な手作業が必要になる。 これらのステップは、エージェントフローのように実行可能なプログラムでもよいし、CoTのようにステップバイステップの推論でもよい。 本研究では,手作業によるサンプルの小さなシードから始まり,上記の中間ステップを含むデモを自動的に生成・フィルタリングする手法であるADLRを提案する。 コードベースのテーブルQAと数学的推論におけるADLRの利点を実証し、最大5.5%のゲインを達成した。 本手法を実装したコードは補足材料で提供され,利用可能となる。

It has been shown that Large Language Models' (LLMs) performance can be improved for many tasks using Chain of Thought (CoT) or In-Context Learning (ICL), which involve demonstrating the steps needed to solve a task using a few examples. However, while datasets with input-output pairs are relatively easy to produce, providing demonstrations which include intermediate steps requires cumbersome manual work. These steps may be executable programs, as in agentic flows, or step-by-step reasoning as in CoT. In this work, we propose Automatic Data Labeling and Refinement (ADLR), a method to automatically generate and filter demonstrations which include the above intermediate steps, starting from a small seed of manually crafted examples. We demonstrate the advantage of ADLR in code-based table QA and mathematical reasoning, achieving up to a 5.5% gain. The code implementing our method is provided in the Supplementary material and will be made available.
翻訳日:2024-10-29 22:14:39 公開日:2024-10-14
# LLMによる文法誤り訂正のためのコードスイッチトテキスト生成

LLM-based Code-Switched Text Generation for Grammatical Error Correction ( http://arxiv.org/abs/2410.10349v1 )

ライセンス: Link先を確認
Tom Potter, Zheng Yuan, (参考訳) グローバル化の進展に伴い、コードスイッチング(CSW)は多言語会話のユビキタスな部分となり、特に文法的誤り訂正(GEC)において自然言語処理(NLP)の新たな課題を提起している。 本研究は、CSWテキストにGECシステムを適用する複雑さについて考察する。 本研究の目的は,英語の第二言語学習者(ESL)からの真正CSWデータセット上での最先端ECCシステムの性能評価,データ不足の解決法としての合成データ生成の探索,単言語およびCSWテキストにおける文法的誤りの修正が可能なモデルの開発である。 我々は、合成CSW GECデータを生成し、その結果、このタスクの最初の実質的なデータセットの1つとなり、このデータに基づいてトレーニングされたモデルが既存のシステムよりも大幅に改善できることを示した。 本研究はESL学習者を対象に,自然多言語主義を制約することなく,英文法的正当性の発展を支援する教育技術の提供を目的とする。

With the rise of globalisation, code-switching (CSW) has become a ubiquitous part of multilingual conversation, posing new challenges for natural language processing (NLP), especially in Grammatical Error Correction (GEC). This work explores the complexities of applying GEC systems to CSW texts. Our objectives include evaluating the performance of state-of-the-art GEC systems on an authentic CSW dataset from English as a Second Language (ESL) learners, exploring synthetic data generation as a solution to data scarcity, and developing a model capable of correcting grammatical errors in monolingual and CSW texts. We generated synthetic CSW GEC data, resulting in one of the first substantial datasets for this task, and showed that a model trained on this data is capable of significant improvements over existing systems. This work targets ESL learners, aiming to provide educational technologies that aid in the development of their English grammatical correctness without constraining their natural multilingualism.
翻訳日:2024-10-29 22:14:39 公開日:2024-10-14
# 跳躍球問題

Scaled quantum theory. The bouncing ball problem ( http://arxiv.org/abs/2410.10351v1 )

ライセンス: Link先を確認
S. V. Mousavi, S. Miret-Artés, (参考訳) いわゆるスケールド量子論の中では、標準バウンスボール問題は重力場と調和ポテンシャルの存在下で解析される。 この枠組みでは、密度行列の量子-古典的遷移は混合状態に対する線形スケールフォン・ノイマン方程式によって記述され、その後は純状態の場合に特化される。 この研究の主な目的は、この理論が保守的なシステムに対してどのように機能し、量子-古典遷移が連続的かつ滑らかな方法で実行されるかを示すことである。 このパラメータは、全ての中間力学系が量子的特徴を示すが、古典的な値に近づくと徐々に減少する量子性の度合いと見なすことができる。

Within the so-called scaled quantum theory, the standard bouncing ball problem is analyzed under the presence of a gravitational field and harmonic potential. In this framework, the quantum-classical transition of the density matrix is described by the linear scaled von Neumann equation for mixed states and after it has been particularized to the case of pure states. The main purpose of this work is to show how this theory works for conservative systems and the quantum-classical transition is carried out in a continuous and smooth way, being equivalent to a nonlinear differential wave equation which contains a transition parameter ranging continuously from one to zero and covering all dynamical regimes in-between the two extreme quantum and classical regimes. This parameter can be seen as a degree of quantumness where all intermediate dynamical regimes show quantum features but are fading gradually when approaching to the classical value.
翻訳日:2024-10-29 22:04:40 公開日:2024-10-14
# FasterDiT: アーキテクチャを変更することなく、より高速な拡散変換器のトレーニングを目指す

FasterDiT: Towards Faster Diffusion Transformers Training without Architecture Modification ( http://arxiv.org/abs/2410.10356v1 )

ライセンス: Link先を確認
Jingfeng Yao, Wang Cheng, Wenyu Liu, Xinggang Wang, (参考訳) 拡散変換器 (DiT) は研究において大きな注目を集めている。 しかし、彼らは緩やかな収束率に悩まされている。 本稿では,アーキテクチャの変更を伴わずにDiTトレーニングを高速化することを目的としている。 まず、特定のトレーニング戦略は、異なるデータに対して一貫してうまく機能しない。 第二に、特定の時点における監督の有効性は限られている。 そこで我々は,(1)戦略の失敗を解釈する新たな視点を導入する。 具体的には、SNR(Signal-to-Noise Ratio)の定義を少し拡張し、SNRの確率密度関数(PDF)を観察して、戦略のデータロバスト性の本質を理解することを提案する。 2)実験を多数実施し,実験結果を100以上報告し,PDFの観点から統一的な加速戦略を実証的に要約した。 (3)DiTのトレーニングプロセスをさらに促進する新たな監督手法を開発する。 そこで本研究では,極めてシンプルで実践可能な設計戦略であるFasterDiTを提案する。 数行のコード修正で、1000kの繰り返しでImageNet 256の2.30 FIDを達成し、DiT(2.27 FID)に匹敵するが、トレーニングでは7倍高速である。

Diffusion Transformers (DiT) have attracted significant attention in research. However, they suffer from a slow convergence rate. In this paper, we aim to accelerate DiT training without any architectural modification. We identify the following issues in the training process: firstly, certain training strategies do not consistently perform well across different data. Secondly, the effectiveness of supervision at specific timesteps is limited. In response, we propose the following contributions: (1) We introduce a new perspective for interpreting the failure of the strategies. Specifically, we slightly extend the definition of Signal-to-Noise Ratio (SNR) and suggest observing the Probability Density Function (PDF) of SNR to understand the essence of the data robustness of the strategy. (2) We conduct numerous experiments and report over one hundred experimental results to empirically summarize a unified accelerating strategy from the perspective of PDF. (3) We develop a new supervision method that further accelerates the training process of DiT. Based on them, we propose FasterDiT, an exceedingly simple and practicable design strategy. With few lines of code modifications, it achieves 2.30 FID on ImageNet 256 resolution at 1000k iterations, which is comparable to DiT (2.27 FID) but 7 times faster in training.
翻訳日:2024-10-29 22:04:40 公開日:2024-10-14
# SpeGCL: 正のサンプルを持たない自己教師付きグラフスペクトルコントラスト学習

SpeGCL: Self-supervised Graph Spectrum Contrastive Learning without Positive Samples ( http://arxiv.org/abs/2410.10365v1 )

ライセンス: Link先を確認
Yuntao Shou, Xiangyong Cao, Deyu Meng, (参考訳) グラフコントラスト学習(GCL)は、入力データのノイズやゆらぎの管理に優れており、様々な分野(ソーシャルネットワーク、知識グラフなど)で人気がある。 本研究は, 拡張グラフ間の高周波情報の差が低周波情報よりも大きいことを示す。 しかし、既存のGCL法のほとんどは、ノード特徴表現の時間領域(低周波情報)に重点を置いており、モデルの収束を早めるために高周波情報をうまく利用することはできない。 さらに, 従来のGCLパラダイムでは, 正のサンプルペア間の距離を近づき, 正のサンプルペアと負のサンプルペア間の距離を遠ざけることによってグラフ埋め込み表現を最適化しているが, 理論解析により, 負のペア間の距離を近づくのではなく, 負のペアを遠ざけることによるグラフコントラスト学習のメリットが示されている。 以上の問題を解決するために,SpeGCLという正のサンプルを持たない新しいスペクトルGCLフレームワークを提案する。 具体的には、既存のGCL法では高周波情報を利用できないという問題を解決するため、SpeGCLはFourier変換を用いてノード特徴の高周波および低周波情報を抽出し、Fourier空間におけるコントラスト学習機構を構築し、より優れたノード特徴表現を得る。 さらに、SpeGCLはグラフ埋め込みを洗練させるために、完全に負のサンプルに依存している。 また,SpeGCLの陰性サンプルのみを使用することの有効性を理論的に正当化する。 教師なし学習,移動学習,半教師付き学習に関する大規模な実験は,最先端のGCL法よりもSpeGCLフレームワークの方が優れていることを実証した。

Graph Contrastive Learning (GCL) excels at managing noise and fluctuations in input data, making it popular in various fields (e.g., social networks, and knowledge graphs). Our study finds that the difference in high-frequency information between augmented graphs is greater than that in low-frequency information. However, most existing GCL methods focus mainly on the time domain (low-frequency information) for node feature representations and cannot make good use of high-frequency information to speed up model convergence. Furthermore, existing GCL paradigms optimize graph embedding representations by pulling the distance between positive sample pairs closer and pushing the distance between positive and negative sample pairs farther away, but our theoretical analysis shows that graph contrastive learning benefits from pushing negative pairs farther away rather than pulling positive pairs closer. To solve the above-mentioned problems, we propose a novel spectral GCL framework without positive samples, named SpeGCL. Specifically, to solve the problem that existing GCL methods cannot utilize high-frequency information, SpeGCL uses a Fourier transform to extract high-frequency and low-frequency information of node features, and constructs a contrastive learning mechanism in a Fourier space to obtain better node feature representation. Furthermore, SpeGCL relies entirely on negative samples to refine the graph embedding. We also provide a theoretical justification for the efficacy of using only negative samples in SpeGCL. Extensive experiments on un-supervised learning, transfer learning, and semi-supervised learning have validated the superiority of our SpeGCL framework over the state-of-the-art GCL methods.
翻訳日:2024-10-29 22:04:40 公開日:2024-10-14
# テキスト不要な医用画像分割のための親和性グラフ誘導型契約学習

Affinity-Graph-Guided Contractive Learning for Pretext-Free Medical Image Segmentation with Minimal Annotation ( http://arxiv.org/abs/2410.10366v1 )

ライセンス: Link先を確認
Zehua Cheng, Di Yuan, Thomas Lukasiewicz, (参考訳) 半教師付き学習 (SemiSL) とコントラスト学習 (CL) の組み合わせは, 限られたアノテーションによる医用画像のセグメンテーションに成功している。 しかしながら、これらの作業は、しばしば、ピクセルレベルのセグメンテーションに必要な特異性に欠けるプリテキストタスクに依存しており、アノテーションが多すぎるために、監視信号が不十分なため、過度に適合する問題に直面している。 そこで本稿では,親和性グラフを用いた半教師付きコントラスト学習フレームワーク(Semi-AGCL)を提案する。 このフレームワークは、まず、平均パッチエントロピー駆動型パッチ間サンプリング法を設計し、プリテキストタスクに頼ることなく、堅牢な初期特徴空間を提供する。 さらに、このフレームワークは親和性グラフ誘導損失関数を設計し、データ固有の構造を利用して学習された表現の質とモデル一般化能力を向上し、オーバーフィッティングを緩和する。 実験の結果, 完全アノテーションセットの10%に過ぎず, 完全に注釈付けされたベースラインの精度にアプローチし, 限界偏差は2.52%に過ぎなかった。 アノテーションの5%しか使用していない厳密な条件下では,本モデルでは,ダイス基準で23.09%,顕著なCRAGおよびACDCデータセットで26.57%向上した。

The combination of semi-supervised learning (SemiSL) and contrastive learning (CL) has been successful in medical image segmentation with limited annotations. However, these works often rely on pretext tasks that lack the specificity required for pixel-level segmentation, and still face overfitting issues due to insufficient supervision signals resulting from too few annotations. Therefore, this paper proposes an affinity-graph-guided semi-supervised contrastive learning framework (Semi-AGCL) by establishing additional affinity-graph-based supervision signals between the student and teacher network, to achieve medical image segmentation with minimal annotations without pretext. The framework first designs an average-patch-entropy-driven inter-patch sampling method, which can provide a robust initial feature space without relying on pretext tasks. Furthermore, the framework designs an affinity-graph-guided loss function, which can improve the quality of the learned representation and the model generalization ability by exploiting the inherent structure of the data, thus mitigating overfitting. Our experiments indicate that with merely 10% of the complete annotation set, our model approaches the accuracy of the fully annotated baseline, manifesting a marginal deviation of only 2.52%. Under the stringent conditions where only 5% of the annotations are employed, our model exhibits a significant enhancement in performance surpassing the second best baseline by 23.09% on the dice metric and achieving an improvement of 26.57% on the notably arduous CRAG and ACDC datasets.
翻訳日:2024-10-29 22:04:40 公開日:2024-10-14
# Innovative Thinking, Infinite Humor: Humor Research of Large Language Models through Structured Thought Leaps

Innovative Thinking, Infinite Humor: Humor Research of Large Language Models through Structured Thought Leaps ( http://arxiv.org/abs/2410.10370v1 )

ライセンス: Link先を確認
Han Wang, Yilin Zhao, Dian Li, Xiaohan Wang, Gang Liu, Xuguang Lan, Hui Wang, (参考訳) ヒューモア(英: Humor)は、人間の言語における文化的に曖昧な側面であり、理解と生成の課題を提示し、参加者に優れた創造性と強い連想的思考を持つことを要求する。 数学の問題を解決するような推論タスクと同様に、ユーモア生成は創造的思考を促進するために、Creative Leap-of-Thought(CLoT)パラダイムのような突然のインスピレーションに頼るのではなく、継続的なリフレクションとリビジョンを必要とします。 CLoTは、リモートアソシエーション生成の能力を実現することができるが、このパラダイムはユーモアコンテンツの生成に失敗する。 そこで本稿では,ユーモアを創造する体系的な考え方を提案し,それに基づいてCreative Leap of Structured Thought (CLoST) フレームを構築した。 ひとつは、現在、ユーモアのエキスパートモデルがなく、コンテンツがユーモラスかどうかを判断するためのルールがあるため、報酬モデルがエラーを修正できる目的を達成する必要がある。 判断指向の命令はモデルの能力を向上させるために設計されており、その可能性を完全に解き放つためのオープンドメイン命令進化法も提案する。 そして、強化学習を通じて、モデルは思考連鎖の合理的性を高め、使用する戦略を洗練することを学ぶ。 そのため、間違いを認識して修正することを学び、最終的に最もユーモラスで創造的な答えを生み出します。 これらの知見は、LLMの創造的能力の理解を深め、ドメイン横断の革新的なアプリケーションのためのLLMの創造的能力を強化する方法を提供する。

Humor is a culturally nuanced aspect of human language that presents challenges for understanding and generation, requiring participants to possess good creativity and strong associative thinking. Similar to reasoning tasks like solving math problems, humor generation requires continuous reflection and revision to foster creative thinking, rather than relying on a sudden flash of inspiration like Creative Leap-of-Thought (CLoT) paradigm. Although CLoT can realize the ability of remote association generation, this paradigm fails to generate humor content. Therefore, in this paper, we propose a systematic way of thinking about generating humor and based on it, we built Creative Leap of Structured Thought (CLoST) frame. First, a reward model is necessary achieve the purpose of being able to correct errors, since there is currently no expert model of humor and a usable rule to determine whether a piece of content is humorous. Judgement-oriented instructions are designed to improve the capability of a model, and we also propose an open-domain instruction evolutionary method to fully unleash the potential. Then, through reinforcement learning, the model learns to hone its rationales of the thought chain and refine the strategies it uses. Thus, it learns to recognize and correct its mistakes, and finally generate the most humorous and creative answer. These findings deepen our understanding of the creative capabilities of LLMs and provide ways to enhance LLMs' creative abilities for cross-domain innovative applications.
翻訳日:2024-10-29 22:04:40 公開日:2024-10-14
# Groningen: 岩盤ガス飽和の空間的予測

Groningen: Spatial Prediction of Rock Gas Saturation by Leveraging Selected and Augmented Well and Seismic Data with Classifier Ensembles ( http://arxiv.org/abs/2410.10371v1 )

ライセンス: Link先を確認
Dmitry Ivlev, (参考訳) 本稿では,巨大グローニンゲンガス田の例における分類器アンサンブル法を用いて,岩盤飽和確率の空間的予測に関する概念を実証する。 1481の地震場特性の生成と63の重要な特性の選択の段階について述べる。 提案手法の有効性を示し, トレーニングサンプルを9倍に増やした。 42井戸(盲井戸試験)の試験試料では, マシューズ相関係数は0.7689, F1スコアは0.7949であった。 フィールド内および隣接領域におけるガス貯留層の厚さの予測を行う。

This paper presents a proof of concept for spatial prediction of rock saturation probability using classifier ensemble methods on the example of the giant Groningen gas field. The stages of generating 1481 seismic field attributes and selecting 63 significant attributes are described. The effectiveness of the proposed method of augmentation of well and seismic data is shown, which increased the training sample by 9 times. On a test sample of 42 wells (blind well test), the results demonstrate good accuracy in predicting the ensemble of classifiers: the Matthews correlation coefficient is 0.7689, and the F1-score for the "gas reservoir" class is 0.7949. Prediction of gas reservoir thicknesses within the field and adjacent areas is made.
翻訳日:2024-10-29 22:04:40 公開日:2024-10-14
# BookWorm: 文字記述と分析のためのデータセット

BookWorm: A Dataset for Character Description and Analysis ( http://arxiv.org/abs/2410.10372v1 )

ライセンス: Link先を確認
Argyrios Papoudakis, Mirella Lapata, Frank Keller, (参考訳) キャラクターはあらゆる物語の中心にあり、プロットを駆り立て、読者を惹きつける。 本研究では,複雑な物語と多数の対話的キャラクターを含むフル長の書籍における文字の理解について検討する。 本稿では, 短い事実プロファイルを生成する文字記述と, 性格発達, 人格, 社会的文脈など, 深い解釈を提供する文字解析という2つのタスクを定義する。 本稿では,Gutenbergプロジェクトからの書籍と,人間による記述と分析のペアリングを行うBookWormデータセットを紹介する。 本データセットを用いて、検索ベースと階層処理の両方を用いて、ゼロショットおよび微調整設定における最先端の長文モデルの評価を行う。 その結果,検索に基づくアプローチは両タスクにおいて階層的アプローチよりも優れていた。 さらに、コア参照に基づく検索を用いた微調整モデルでは、ファクトベースとエンテーメントベースのメトリクスによって測定されるように、最も事実的な記述が生成される。 われわれのデータセット、実験、分析が、キャラクタベースの物語理解のさらなる研究を促すことを願っている。

Characters are at the heart of every story, driving the plot and engaging readers. In this study, we explore the understanding of characters in full-length books, which contain complex narratives and numerous interacting characters. We define two tasks: character description, which generates a brief factual profile, and character analysis, which offers an in-depth interpretation, including character development, personality, and social context. We introduce the BookWorm dataset, pairing books from the Gutenberg Project with human-written descriptions and analyses. Using this dataset, we evaluate state-of-the-art long-context models in zero-shot and fine-tuning settings, utilizing both retrieval-based and hierarchical processing for book-length inputs. Our findings show that retrieval-based approaches outperform hierarchical ones in both tasks. Additionally, fine-tuned models using coreference-based retrieval produce the most factual descriptions, as measured by fact- and entailment-based metrics. We hope our dataset, experiments, and analysis will inspire further research in character-based narrative understanding.
翻訳日:2024-10-29 22:04:40 公開日:2024-10-14
# 遅発性フラッターミニマを効果的に選択するシャープネスを意識した最小化法

Sharpness-Aware Minimization Efficiently Selects Flatter Minima Late in Training ( http://arxiv.org/abs/2410.10373v1 )

ライセンス: Link先を確認
Zhanpeng Zhou, Mingze Wang, Yuchen Mao, Bingrui Li, Junchi Yan, (参考訳) シャープネス認識最小化(SAM)は、さまざまな設定下でのニューラルネットワークの一般化を大幅に改善した。 成功にもかかわらず、その効果はよく分かっていない。 本研究では,SGD (Stochastic Gradient Descent) 上の平坦なミニマに対する暗黙の偏りを理解するために,SAMのトレーニング力学における興味深い現象を発見した。 具体的には, SAM はトレーニングの遅れ時に, フラットなミニマを効率よく選択する。 注目すべきは、トレーニングの終了時に応用されたSAMのエポックでさえ、完全なSAMトレーニングとほぼ同じ一般化と解のシャープネスをもたらすことである。 その後、この現象の背後にあるメカニズムを深く掘り下げる。 理論的には、SAMを適用した後に学習力学の2つの段階を同定する。 一 SAMは、最初に、SGDが指数的に高速に発見した最小限から脱出する。 二 急速に同じ谷内の平らな最低限に収束する。 さらに,初等訓練段階におけるSAMの役割を実証的に検討した。 我々は、最終解の物性を形作る上で、最終相で選択した最適化法がより重要であると推測する。 この観点から,SAMから逆行訓練へ知見を拡張した。

Sharpness-Aware Minimization (SAM) has substantially improved the generalization of neural networks under various settings. Despite the success, its effectiveness remains poorly understood. In this work, we discover an intriguing phenomenon in the training dynamics of SAM, shedding lights on understanding its implicit bias towards flatter minima over Stochastic Gradient Descent (SGD). Specifically, we find that SAM efficiently selects flatter minima late in training. Remarkably, even a few epochs of SAM applied at the end of training yield nearly the same generalization and solution sharpness as full SAM training. Subsequently, we delve deeper into the underlying mechanism behind this phenomenon. Theoretically, we identify two phases in the learning dynamics after applying SAM late in training: i) SAM first escapes the minimum found by SGD exponentially fast; and ii) then rapidly converges to a flatter minimum within the same valley. Furthermore, we empirically investigate the role of SAM during the early training phase. We conjecture that the optimization method chosen in the late phase is more crucial in shaping the final solution's properties. Based on this viewpoint, we extend our findings from SAM to Adversarial Training.
翻訳日:2024-10-29 22:04:40 公開日:2024-10-14
# アルツハイマー病診断と早期診断のためのクラスバランシング多様性多モードアンサンブル

Class Balancing Diversity Multimodal Ensemble for Alzheimer's Disease Diagnosis and Early Detection ( http://arxiv.org/abs/2410.10374v1 )

ライセンス: Link先を確認
Arianna Francesconi, Lazzaro di Biase, Donato Cappetta, Fabio Rebecchi, Paolo Soda, Rosa Sicilia, Valerio Guarrasi, (参考訳) アルツハイマー病(AD: Alzheimer's disease)は、その流行の増加と関連する社会的コストにより、世界的な健康上の問題を引き起こす。 ADの早期発見と診断は、進行を遅らせ、患者の結果を改善するために重要である。 従来の診断法と単一モダリティデータは、早期ADを識別し、軽度認知障害(MCI)と区別するのに不足することが多い。 本研究は,iMbalancEd Data (IMBALMED) のクラス・バランシング・ダイバーシティによるマルチモーダル・センス・マーブル (multImodal enseMble) という新しいアプローチを導入することで,これらの課題に対処する。 IMBALMEDは、アルツハイマー病の神経画像イニシアチブデータベースからのマルチモーダルデータを統合する。 モデルの分類器のアンサンブルを使用し、それぞれ異なるクラスのバランス技術で訓練され、クラスの不均衡を克服し、モデルの精度を高める。 IMBALMEDを2つの診断タスク(バイナリ分類と3次分類)と4つの早期検出タスク(12,24,36,48ヶ月)で評価し,その性能を最先端のアルゴリズムとアンバランスなデータセット手法と比較した。 IMBALMEDは2次および3次分類タスクにおいて診断精度と予測性能が優れており、48ヶ月の時点においてMCIの早期検出を著しく改善する。 本手法は分類性能とロバスト性を向上し,ADの早期検出と管理に有望なソリューションを提供する。

Alzheimer's disease (AD) poses significant global health challenges due to its increasing prevalence and associated societal costs. Early detection and diagnosis of AD are critical for delaying progression and improving patient outcomes. Traditional diagnostic methods and single-modality data often fall short in identifying early-stage AD and distinguishing it from Mild Cognitive Impairment (MCI). This study addresses these challenges by introducing a novel approach: multImodal enseMble via class BALancing diversity for iMbalancEd Data (IMBALMED). IMBALMED integrates multimodal data from the Alzheimer's Disease Neuroimaging Initiative database, including clinical assessments, neuroimaging phenotypes, biospecimen and subject characteristics data. It employs an ensemble of model classifiers, each trained with different class balancing techniques, to overcome class imbalance and enhance model accuracy. We evaluate IMBALMED on two diagnostic tasks (binary and ternary classification) and four binary early detection tasks (at 12, 24, 36, and 48 months), comparing its performance with state-of-the-art algorithms and an unbalanced dataset method. IMBALMED demonstrates superior diagnostic accuracy and predictive performance in both binary and ternary classification tasks, significantly improving early detection of MCI at 48-month time point. The method shows improved classification performance and robustness, offering a promising solution for early detection and management of AD.
翻訳日:2024-10-29 22:04:40 公開日:2024-10-14
# コンピュータネットワークにおけるサブセカンダリルーティング最適化の学習にはパケットレベルダイナミクスが必要である

Learning Sub-Second Routing Optimization in Computer Networks requires Packet-Level Dynamics ( http://arxiv.org/abs/2410.10377v1 )

ライセンス: Link先を確認
Andreas Boltres, Niklas Freymuth, Patrick Jahnke, Holger Karl, Gerhard Neumann, (参考訳) データパケットの効率的なルートを見つけることは、コンピュータネットワークにおいて重要な課題である。 最適な経路は、現在のネットワークトポロジ、状態、交通需要に大きく依存しており、ミリ秒で変更できる。 強化学習(Reinforcement Learning)は、新たな状況に対するルーティング決定を提供するネットワーク表現の学習を支援する。 これまでのところ、これは流体ネットワークモデルを使って行われてきた。 特にTCPトラフィックの存在下では,パケットレベルのネットワークモデルが真のダイナミックスを捉えるのに必要であることを示す。 この目的のために、汎用ネットワークトポロジにおけるルーティングのための最初のパケットレベル強化学習環境である$\textit{PackeRL}$を提示する。 実験の結果,流体環境下で訓練された学習ベースの戦略は,より現実的で,より困難な設定には適さないことが明らかとなった。 したがって、サブ秒間ルーティング最適化を学習するための2つの新しいアルゴリズムも導入する。 我々は,高トラフィック量で優れた高速パスアルゴリズムである$\textit{M-Slim}$,大規模ネットワークトポロジへのスケーリングが困難である$\textit{FieldLines}$,ネットワークトポロジのルーティングを1ミリ秒以内で再最適化する新しい次ホップポリシー設計である$\textit{FieldLines}$を提示した。 どちらのアルゴリズムも現在の学習ベースのアプローチよりも優れており、高トラフィックボリュームのシナリオでは静的ベースラインプロトコルが一般的である。 すべての発見は、我々の高速で多目的なトレーニングおよび評価フレームワークにおける、現実的なネットワーク条件に関する広範な実験によって裏付けられている。

Finding efficient routes for data packets is an essential task in computer networking. The optimal routes depend greatly on the current network topology, state and traffic demand, and they can change within milliseconds. Reinforcement Learning can help to learn network representations that provide routing decisions for possibly novel situations. So far, this has commonly been done using fluid network models. We investigate their suitability for millisecond-scale adaptations with a range of traffic mixes and find that packet-level network models are necessary to capture true dynamics, in particular in the presence of TCP traffic. To this end, we present $\textit{PackeRL}$, the first packet-level Reinforcement Learning environment for routing in generic network topologies. Our experiments confirm that learning-based strategies that have been trained in fluid environments do not generalize well to this more realistic, but more challenging setup. Hence, we also introduce two new algorithms for learning sub-second Routing Optimization. We present $\textit{M-Slim}$, a dynamic shortest-path algorithm that excels at high traffic volumes but is computationally hard to scale to large network topologies, and $\textit{FieldLines}$, a novel next-hop policy design that re-optimizes routing for any network topology within milliseconds without requiring any re-training. Both algorithms outperform current learning-based approaches as well as commonly used static baseline protocols in scenarios with high-traffic volumes. All findings are backed by extensive experiments in realistic network conditions in our fast and versatile training and evaluation framework.
翻訳日:2024-10-29 21:54:49 公開日:2024-10-14
# 非負・二項行列分解に基づく協調フィルタリング

Collaborative filtering based on nonnegative/binary matrix factorization ( http://arxiv.org/abs/2410.10381v1 )

ライセンス: Link先を確認
Yukino Terui, Yuka Inoue, Yohei Hamakawa, Kosuke Tatsumura, Kazue Kudo, (参考訳) 協調フィルタリングは、多数の未評価項目を含むレーティングデータを通じて、ユーザとイテムの類似性に基づいたレコメンデーションを生成する。 非負の行列因数分解(NMF)のような非負の項目のスコアを予測するためにしばしば用いられる。 NMFの拡張である非負行列分解(NBMF)は、非負行列と二項行列の積として非負行列を近似する。 過去の研究では、データが密集している画像解析にNBMFを使用していた。 本論文では,データを疎結合とする協調フィルタリングに適用可能な改良NBMFアルゴリズムを提案する。 修正手法では、評価行列の未定格要素をマスキングし、協調フィルタリング性能を向上させる。 NBMFにおける低レイテンシIsingマシンの利用は、計算時間の観点から有利であり、提案手法が有用である。

Collaborative filtering generates recommendations based on user-item similarities through rating data, which may involve numerous unrated items. To predict scores for unrated items, matrix factorization techniques, such as nonnegative matrix factorization (NMF), are often employed to predict scores for unrated items. Nonnegative/binary matrix factorization (NBMF), which is an extension of NMF, approximates a nonnegative matrix as the product of nonnegative and binary matrices. Previous studies have employed NBMF for image analysis where the data were dense. In this paper, we propose a modified NBMF algorithm that can be applied to collaborative filtering where data are sparse. In the modified method, unrated elements in a rating matrix are masked, which improves the collaborative filtering performance. Utilizing a low-latency Ising machine in NBMF is advantageous in terms of the computation time, making the proposed method beneficial.
翻訳日:2024-10-29 21:54:49 公開日:2024-10-14
# V2M:画像表現学習のための視覚2次元マンバ

V2M: Visual 2-Dimensional Mamba for Image Representation Learning ( http://arxiv.org/abs/2410.10382v1 )

ライセンス: Link先を確認
Chengkun Wang, Wenzhao Zheng, Yuanhui Huang, Jie Zhou, Jiwen Lu, (参考訳) Mambaは、ステートスペースモデル(SSM)に基づいた1Dシーケンスを処理するためのフレキシブルな設計と効率的なハードウェア性能のために、広く注目を集めている。 最近の研究では、マンバを2D画像をパッチに平らにすることで視覚領域に適用し、それらを1Dシークエンスとして扱うことが試みられている。 元の画像の2D構造情報損失(例えば、局所的な類似性)を補うために、既存のほとんどの手法は、トークンを順次処理するために異なる順序を設計することに重点を置いており、この問題をある程度緩和するしかなかった。 本稿では,2次元空間における画像トークンを直接処理する完全解として,視覚的2次元マンバ(V2M)モデルを提案する。 まず、SSMを2次元空間に一般化し、2次元の隣り合う2つの状態(例えば、列、行)を考慮して次の状態を生成する。 次に、2次元SSMの定式化に基づいてV2Mを構築し、Mambaを組み込んでハードウェア効率の並列処理を実現する。 提案したV2Mは2次元局所性を効果的に組み込むが,Mambaの効率性と入力依存性のスケーラビリティを継承する。 ADE20Kのオブジェクト検出やCOCOのインスタンスセグメンテーション,セマンティックセグメンテーションなど,画像ネット分類および下流視覚タスクに関する大規模な実験結果から,V2Mが他の視覚バックボーンと比較して有効であることが示された。

Mamba has garnered widespread attention due to its flexible design and efficient hardware performance to process 1D sequences based on the state space model (SSM). Recent studies have attempted to apply Mamba to the visual domain by flattening 2D images into patches and then regarding them as a 1D sequence. To compensate for the 2D structure information loss (e.g., local similarity) of the original image, most existing methods focus on designing different orders to sequentially process the tokens, which could only alleviate this issue to some extent. In this paper, we propose a Visual 2-Dimensional Mamba (V2M) model as a complete solution, which directly processes image tokens in the 2D space. We first generalize SSM to the 2-dimensional space which generates the next state considering two adjacent states on both dimensions (e.g., columns and rows). We then construct our V2M based on the 2-dimensional SSM formulation and incorporate Mamba to achieve hardware-efficient parallel processing. The proposed V2M effectively incorporates the 2D locality prior yet inherits the efficiency and input-dependent scalability of Mamba. Extensive experimental results on ImageNet classification and downstream visual tasks including object detection and instance segmentation on COCO and semantic segmentation on ADE20K demonstrate the effectiveness of our V2M compared with other visual backbones.
翻訳日:2024-10-29 21:54:49 公開日:2024-10-14
# 未知のハイパーパラメータによるベイズ最適化:レグレト境界は最適に対数的に接近する

Bayesian Optimisation with Unknown Hyperparameters: Regret Bounds Logarithmically Closer to Optimal ( http://arxiv.org/abs/2410.10384v1 )

ライセンス: Link先を確認
Juliusz Ziomek, Masaki Adachi, Michael A. Osborne, (参考訳) ベイズ最適化(BO)はブラックボックス関数の最適化に広く用いられているが、最適化者が考慮すべき関数の滑らかさを定義する長尺ハイパーパラメータを指定する必要がある。 現在のBOアルゴリズムの多くは、観測されたデータの限界確率を最大化することで、このハイパーパラメータを選択するが、まだ探索されていない領域では、目的関数がよりスムーズでない場合は、誤特定のリスクを負う。 A-GP-UCBはBerkenkamp et al (2019)によって提唱された。 このアルゴリズムは、オプティマイザが考慮する関数のクラスを拡張して、長さスケールを徐々に減少させる。 しかし、A-GP-UCBは停止機構がなく、過剰探索と緩やかな収束をもたらす。 これを解決するために、Longth Scale Balancing (LB) という新しいアプローチを導入し、異なる長さスケールで複数のベースサロゲートモデルを集約する。 LBは間欠的に、長いスケールを維持しながら、探索とエクスプロイトのバランスをとりながら、より小さい長さスケールの候補値を追加します。 我々はLBの累積残差を公式に導出し、最適な長さ尺度を用いたオラクルBOアルゴリズムの残差と比較する。 A-GP-UCB の後悔境界を $g(T)$ とすると、LB は oracle regret から $\log g(T)$ だけ離れていることを示す。 また,A-GP-UCB,最大推定,MCMCよりも優れた性能を示した。

Bayesian Optimization (BO) is widely used for optimising black-box functions but requires us to specify the length scale hyperparameter, which defines the smoothness of the functions the optimizer will consider. Most current BO algorithms choose this hyperparameter by maximizing the marginal likelihood of the observed data, albeit risking misspecification if the objective function is less smooth in regions we have not yet explored. The only prior solution addressing this problem with theoretical guarantees was A-GP-UCB, proposed by Berkenkamp et al. (2019). This algorithm progressively decreases the length scale, expanding the class of functions considered by the optimizer. However, A-GP-UCB lacks a stopping mechanism, leading to over-exploration and slow convergence. To overcome this, we introduce Length scale Balancing (LB) - a novel approach, aggregating multiple base surrogate models with varying length scales. LB intermittently adds smaller length scale candidate values while retaining longer scales, balancing exploration and exploitation. We formally derive a cumulative regret bound of LB and compare it with the regret of an oracle BO algorithm using the optimal length scale. Denoting the factor by which the regret bound of A-GP-UCB was away from oracle as $g(T)$, we show that LB is only $\log g(T)$ away from oracle regret. We also empirically evaluate our algorithm on synthetic and real-world benchmarks and show it outperforms A-GP-UCB, maximum likelihood estimation and MCMC.
翻訳日:2024-10-29 21:54:49 公開日:2024-10-14
# 高解像度衛星画像における狭い農村道路検出のためのリバースリファインメントネットワーク

Reverse Refinement Network for Narrow Rural Road Detection in High-Resolution Satellite Imagery ( http://arxiv.org/abs/2410.10389v1 )

ライセンス: Link先を確認
Ningjing Wang, Xinyu Wang, Yang Pan, Wanqiang Yao, Yanfei Zhong, (参考訳) 農村部の道路の自動抽出は、農村開発と交通計画において重要な役割を担い、社会経済の進展の基盤となっている。 現在の研究は主に都市部における道路の抽出に焦点を当てている。 しかし、田園部道路は狭く不規則な性質のため固有の課題があり、道路の抽出には重大な困難が伴う。 本稿では、狭い農村道路を抽出し、背景からの接続性や特徴性を高めるために、リバース・リファインメント・ネットワーク(R2-Net)を提案する。 具体的には、高解像度の特徴マップ内の道路の細部を保存するために、R2-Netは軸コンテキスト認識モジュール(ACAM)を用いて、様々な層における長距離空間コンテキスト情報をキャプチャする。 その後、グローバルアグリゲーションモジュール(GAM)を介してマルチレベル特徴を集約する。 さらに、デコーダの段階では、R2-Netは、ネットワークの注意を複雑な背景に向け、その分離性を増幅するために、リバース・アウェア・モジュール(RAM)を使用する。 実験では、R2-NetとDeepGlobeロード抽出データセットとWHU-RuR+グローバル大規模農村道路データセットを用いた最先端手法を比較した。 R2-Netは優れた性能を発揮し、特に狭い道路の正確な検出に優れていた。 さらに,大規模道路地図におけるR2-Netの適用性についても検討した。 その結果,提案するR2-Netは大規模道路地図アプリケーションにおいて大きな性能上の利点があることがわかった。

The automated extraction of rural roads is pivotal for rural development and transportation planning, serving as a cornerstone for socio-economic progress. Current research primarily focuses on road extraction in urban areas. However, rural roads present unique challenges due to their narrow and irregular nature, posing significant difficulties for road extraction. In this article, a reverse refinement network (R2-Net) is proposed to extract narrow rural roads, enhancing their connectivity and distinctiveness from the background. Specifically, to preserve the fine details of roads within high-resolution feature maps, R2-Net utilizes an axis context aware module (ACAM) to capture the long-distance spatial context information in various layers. Subsequently, the multi-level features are aggregated through a global aggregation module (GAM). Moreover, in the decoder stage, R2-Net employs a reverse-aware module (RAM) to direct the attention of the network to the complex background, thus amplifying its separability. In experiments, we compare R2-Net with several state-of-the-art methods using the DeepGlobe road extraction dataset and the WHU-RuR+ global large-scale rural road dataset. R2-Net achieved superior performance and especially excelled in accurately detecting narrow roads. Furthermore, we explored the applicability of R2-Net for large-scale rural road mapping. The results show that the proposed R2-Net has significant performance advantages for large-scale rural road mapping applications.
翻訳日:2024-10-29 21:54:49 公開日:2024-10-14
# 定常変分進化戦略

Stein Variational Evolution Strategies ( http://arxiv.org/abs/2410.10390v1 )

ライセンス: Link先を確認
Cornelius V. Braun, Robert T. Lange, Marc Toussaint, (参考訳) 非正規化確率分布から高効率なサンプリング法として, SVGD法(Stein Variational Gradient Descent)がある。 しかし、SVGDのアップデートはログ密度の勾配に依存しているため、常に利用できるとは限らない。 既存の SVGD の勾配のないバージョンは、単純なモンテカルロ近似や、サロゲート分布からの勾配を利用しており、どちらも制限がある。 勾配のないスタイン変分推論を改善するため、SVGDステップと進化戦略(ES)の更新を組み合わせる。 その結果, アルゴリズムは勾配情報を必要とせず, 正規化対象密度から高品質なサンプルを生成することを示した。 従来の勾配のないSVGD法と比較して,SVGDにおけるES更新の統合により,複数のベンチマーク問題に対する性能が大幅に向上することがわかった。

Stein Variational Gradient Descent (SVGD) is a highly efficient method to sample from an unnormalized probability distribution. However, the SVGD update relies on gradients of the log-density, which may not always be available. Existing gradient-free versions of SVGD make use of simple Monte Carlo approximations or gradients from surrogate distributions, both with limitations. To improve gradient-free Stein variational inference, we combine SVGD steps with evolution strategy (ES) updates. Our results demonstrate that the resulting algorithm generates high-quality samples from unnormalized target densities without requiring gradient information. Compared to prior gradient-free SVGD methods, we find that the integration of the ES update in SVGD significantly improves the performance on multiple challenging benchmark problems.
翻訳日:2024-10-29 21:54:49 公開日:2024-10-14
# 指導合成の最適化:木探索による進化空間の効率的な探索

Optimizing Instruction Synthesis: Effective Exploration of Evolutionary Space with Tree Search ( http://arxiv.org/abs/2410.10392v1 )

ライセンス: Link先を確認
Chenglin Li, Qianglong Chen, Zhi Li, Feng Tao, Yicheng Li, Hao Chen, Fei Yu, Yin Zhang, (参考訳) インストラクションチューニングは,実世界における言語モデルと人間の実際の目標を整合させる重要な手法である。 大規模な研究は、このアライメントの成功には、命令データの質が不可欠であることを強調している。 しかし、高品質なデータを手動で作成するのは労働集約的で時間を要するため、研究者はLLMを使ってデータを合成する方法を探ることになる。 近年の研究では、より強力なLCMを使用して既存の命令データを反復的に強化し、有望な結果を示すことに焦点が当てられている。 それにもかかわらず、以前の研究は進化方向の制御を欠くことが多く、結果としてデータ合成プロセスや低品質な命令に高い不確実性をもたらす。 本稿では,命令を効率的に合成するスケーラブルなフレームワークであるIDEA-MCTS (Instruction Data Enhancement using Monte Carlo Tree Search)を紹介する。 木探索と評価モデルにより、各命令を効率よくガイドして高品質な形式に進化させ、命令の微調整を支援することができる。 実験の結果、IDEA-MCTSはシードインストラクションデータを大幅に向上させ、品質、多様性、複雑さの平均評価スコアを2.19から3.81に引き上げた。 さらに、オープンドメインベンチマークでは、IDEA-MCTSは低リソース環境でのLLMにおける実世界の命令追従スキルの精度を平均5倍改善することを示した。

Instruction tuning is a crucial technique for aligning language models with humans' actual goals in the real world. Extensive research has highlighted the quality of instruction data is essential for the success of this alignment. However, creating high-quality data manually is labor-intensive and time-consuming, which leads researchers to explore using LLMs to synthesize data. Recent studies have focused on using a stronger LLM to iteratively enhance existing instruction data, showing promising results. Nevertheless, previous work often lacks control over the evolution direction, resulting in high uncertainty in the data synthesis process and low-quality instructions. In this paper, we introduce a general and scalable framework, IDEA-MCTS (Instruction Data Enhancement using Monte Carlo Tree Search), a scalable framework for efficiently synthesizing instructions. With tree search and evaluation models, it can efficiently guide each instruction to evolve into a high-quality form, aiding in instruction fine-tuning. Experimental results show that IDEA-MCTS significantly enhances the seed instruction data, raising the average evaluation scores of quality, diversity, and complexity from 2.19 to 3.81. Furthermore, in open-domain benchmarks, experimental results show that IDEA-MCTS improves the accuracy of real-world instruction-following skills in LLMs by an average of 5\% in low-resource settings.
翻訳日:2024-10-29 21:54:49 公開日:2024-10-14
# GIFT-Eval: 時系列予測モデル評価のためのベンチマーク

GIFT-Eval: A Benchmark For General Time Series Forecasting Model Evaluation ( http://arxiv.org/abs/2410.10393v1 )

ライセンス: Link先を確認
Taha Aksu, Gerald Woo, Juncheng Liu, Xu Liu, Chenghao Liu, Silvio Savarese, Caiming Xiong, Doyen Sahoo, (参考訳) 時系列基礎モデルはゼロショット予測に優れ、明示的なトレーニングなしで多様なタスクを処理する。 しかし、これらのモデルの進歩は、包括的なベンチマークの欠如によって妨げられている。 このギャップに対処するために,さまざまなデータセットを対象とした評価促進を目的とした先駆的ベンチマークである GIFT-Eval のGeneral Time Series Forecasting Model Evaluation を紹介した。 GIFT-Evalは、144,000の時系列と17700万のデータポイントにまたがる28のデータセットを含む。 基礎モデルの効果的な事前学習と評価を容易にするため,約2300億のデータポイントを含む非学習事前学習データセットも提供する。 さらに、統計モデル、ディープラーニングモデル、基礎モデルを含む17のベースラインを包括的に分析する。 様々なベンチマーク特性の文脈で各モデルを議論し、ディープラーニングモデルと基礎モデルの両方にまたがる定性的な分析を提供する。 この分析から得られた知見は、新しい標準のゼロショット時系列予測ベンチマークへのアクセスとともに、時系列基礎モデルにおける将来の発展を導くだろうと考えている。 コードベース、データセット、およびすべての結果を詳細に示すリーダボードが近く提供される。

Time series foundation models excel in zero-shot forecasting, handling diverse tasks without explicit training. However, the advancement of these models has been hindered by the lack of comprehensive benchmarks. To address this gap, we introduce the General Time Series Forecasting Model Evaluation, GIFT-Eval, a pioneering benchmark aimed at promoting evaluation across diverse datasets. GIFT-Eval encompasses 28 datasets over 144,000 time series and 177 million data points, spanning seven domains, 10 frequencies, multivariate inputs, and prediction lengths ranging from short to long-term forecasts. To facilitate the effective pretraining and evaluation of foundation models, we also provide a non-leaking pretraining dataset containing approximately 230 billion data points. Additionally, we provide a comprehensive analysis of 17 baselines, which includes statistical models, deep learning models, and foundation models. We discuss each model in the context of various benchmark characteristics and offer a qualitative analysis that spans both deep learning and foundation models. We believe the insights from this analysis, along with access to this new standard zero-shot time series forecasting benchmark, will guide future developments in time series foundation models. The codebase, datasets, and a leaderboard showing all the results in detail will be available soon.
翻訳日:2024-10-29 21:54:49 公開日:2024-10-14
# 専門家の混入に対するリスク境界の厳格化

Tighter Risk Bounds for Mixtures of Experts ( http://arxiv.org/abs/2410.10397v1 )

ライセンス: Link先を確認
Wissam Akretche, Frédéric LeBlanc, Mario Marchand, (参考訳) 本研究は, 局所微分プライバシー(LDP)をゲーティング機構に付与することにより, 専門家の混在リスクの上限を与える。 これらの理論的な保証は、従来の$n$-out-of-n$メカニズムとは対照的に、1-of-n$ゲーティングメカニズムを利用する専門家の混合に調整される。 境界は専門家数に対数依存を示し、LPPパラメータのゲーティング機構への依存をカプセル化し、合理的な条件下では既存の境界よりもかなり厳密である。 実験により,本手法が専門家の混合の一般化能力を高め,ゲーティング機構に LDP を付与する可能性を検証することが実証された。

In this work, we provide upper bounds on the risk of mixtures of experts by imposing local differential privacy (LDP) on their gating mechanism. These theoretical guarantees are tailored to mixtures of experts that utilize the one-out-of-$n$ gating mechanism, as opposed to the conventional $n$-out-of-$n$ mechanism. The bounds exhibit logarithmic dependence on the number of experts, and encapsulate the dependence on the gating mechanism in the LDP parameter, making them significantly tighter than existing bounds, under reasonable conditions. Experimental results support our theory, demonstrating that our approach enhances the generalization ability of mixtures of experts and validating the feasibility of imposing LDP on the gating mechanism.
翻訳日:2024-10-29 21:54:49 公開日:2024-10-14
# 決定論的Appleのテイスティング

Deterministic Apple Tasting ( http://arxiv.org/abs/2410.10404v1 )

ライセンス: Link先を確認
Zachary Chase, Idan Mehalel, (参考訳) リンゴの味付けフィードバックによるオンライン分類のバイナリ(0/1ドル)では、学習者は1ドルを予測したときにのみフィードバックを受け取る。 いくつかの退化学習タスクに加えて、以前知られていたこのモデルの学習アルゴリズムは全てランダム化されている。 そのため、この研究に先立ち、決定論的リンゴの味付けが一般的に可能であるかどうかは不明であった。 本研究は,初めて広く適用可能な決定論的リンゴテイスティング学習者を提供し,実現可能な場合には,それが決定論的に学習可能である場合に限り,仮説クラスが学習可能であることを証明し,[Raman, Subedi, Raman, Tewari-24] の予想を確認する。 定量的に言えば、すべてのクラス $\mathcal{H}$ は、間違った有界な$O \left(\sqrt{\matht{L}(\mathcal{H}) T \log T} \right)$ (ここで $\mathtt{L}(\mathcal{H})$ は $\mathcal{H}$ のリトルストーン次元であり、これはいくつかのクラスにとって厳密であることを示す。 さらに、最良の仮説が少なくとも$k$の誤りを犯し、すべてのクラス$\mathcal{H}$は簡単、困難、あるいは学習不能である、という三分法を証明する。 簡単なクラスは、(ランダム化と決定論的の両方の)誤りが$\Theta_{\mathcal{H}}(k)$に結びついている。 ハードクラスはランダムな誤りを$\tilde{\Theta}_{\mathcal{H}} \left(k + \sqrt{T} \right)$, and deterministic mis bound $\tilde{\Theta}_{\mathcal{H}} \left(\sqrt{k \cdot T} \right)$, ここで$T$は時間地平線である。 未学習クラスは(ランダム化および決定論的の両方の)誤りを$\Theta(T)$で有界に持つ。 私たちの上限は、リンゴの味付けフィードバックに関する専門家のアドバイスから学ぶための決定論的アルゴリズムに基づいています。 この問題に対して、最適決定論的誤り境界は、すべての$k$と$T \leq n \leq 2^T$に対して$\Theta \left(\sqrt{T (k + \log n)} \right)$である。

In binary ($0/1$) online classification with apple tasting feedback, the learner receives feedback only when predicting $1$. Besides some degenerate learning tasks, all previously known learning algorithms for this model are randomized. Consequently, prior to this work it was unknown whether deterministic apple tasting is generally feasible. In this work, we provide the first widely-applicable deterministic apple tasting learner, and show that in the realizable case, a hypothesis class is learnable if and only if it is deterministically learnable, confirming a conjecture of [Raman, Subedi, Raman, Tewari-24]. Quantitatively, we show that every class $\mathcal{H}$ is learnable with mistake bound $O \left(\sqrt{\mathtt{L}(\mathcal{H}) T \log T} \right)$ (where $\mathtt{L}(\mathcal{H})$ is the Littlestone dimension of $\mathcal{H}$), and that this is tight for some classes. We further study the agnostic case, in which the best hypothesis makes at most $k$ many mistakes, and prove a trichotomy stating that every class $\mathcal{H}$ must be either easy, hard, or unlearnable. Easy classes have (both randomized and deterministic) mistake bound $\Theta_{\mathcal{H}}(k)$. Hard classes have randomized mistake bound $\tilde{\Theta}_{\mathcal{H}} \left(k + \sqrt{T} \right)$, and deterministic mistake bound $\tilde{\Theta}_{\mathcal{H}} \left(\sqrt{k \cdot T} \right)$, where $T$ is the time horizon. Unlearnable classes have (both randomized and deterministic) mistake bound $\Theta(T)$. Our upper bound is based on a deterministic algorithm for learning from expert advice with apple tasting feedback, a problem interesting in its own right. For this problem, we show that the optimal deterministic mistake bound is $\Theta \left(\sqrt{T (k + \log n)} \right)$ for all $k$ and $T \leq n \leq 2^T$, where $n$ is the number of experts.
翻訳日:2024-10-29 21:44:49 公開日:2024-10-14
# MMCFND:低リソースインデックス言語のためのマルチモーダル多言語キャプション対応フェイクニュース検出

MMCFND: Multimodal Multilingual Caption-aware Fake News Detection for Low-resource Indic Languages ( http://arxiv.org/abs/2410.10407v1 )

ライセンス: Link先を確認
Shubhi Bansal, Nishit Sushil Singh, Shahid Shafi Dar, Nagendra Kumar, (参考訳) 偽のテキストと画像を組み合わせた操作戦術による偽情報の拡散は、信頼できる情報源の整合性を脅かす。 マルチモーダルアプローチを用いた高資源言語における偽ニュースの検出に関する研究は行われているが、低リソースのIndic言語のための手法は主にテキスト解析に依存している。 この違いは、Indic言語におけるマルチモーダルフェイクニュースに対処する堅牢なメソッドの必要性を強調している。 そこで本研究では,MMIFND(Indic Fake News Detection)のためのマルチモーダル多言語データセットを提案する。 この厳密にキュレートされたデータセットは、ヒンディー語、ベンガル語、マラタイ語、マラヤラム語、タミル語、グジャラート語、パンジャービ語にまたがる28,085のインスタンスで構成されている。 さらに,Fake News Detection (MMCFND) のためのマルチモーダル多言語対応フレームワークを提案する。 MMCFNDは、未学習の単調エンコーダとペアエンコーダを、視覚と言語を整合させた基礎モデルから利用し、ニュース記事の視覚的およびテキスト的コンポーネントから深い表現を抽出することができる。 基本モデルのマルチモーダル融合エンコーダは、そのペアエンコーダから派生したテキストと画像表現を統合し、包括的なクロスモーダル表現を生成する。 さらに、不整合や操作を検出するための追加のコンテキストを提供する記述的な画像キャプションを生成する。 検索した特徴を融合して分類器に入力し、ニュース記事の真正性を決定する。 キュレートされたデータセットは、低リソース環境における研究と開発を著しく加速させる可能性がある。 MMIFNDの詳細な実験により,提案手法は偽ニュース検出機能を抽出するための確立された手法よりも優れていることが示された。

The widespread dissemination of false information through manipulative tactics that combine deceptive text and images threatens the integrity of reliable sources of information. While there has been research on detecting fake news in high resource languages using multimodal approaches, methods for low resource Indic languages primarily rely on textual analysis. This difference highlights the need for robust methods that specifically address multimodal fake news in Indic languages, where the lack of extensive datasets and tools presents a significant obstacle to progress. To this end, we introduce the Multimodal Multilingual dataset for Indic Fake News Detection (MMIFND). This meticulously curated dataset consists of 28,085 instances distributed across Hindi, Bengali, Marathi, Malayalam, Tamil, Gujarati and Punjabi. We further propose the Multimodal Multilingual Caption-aware framework for Fake News Detection (MMCFND). MMCFND utilizes pre-trained unimodal encoders and pairwise encoders from a foundational model that aligns vision and language, allowing for extracting deep representations from visual and textual components of news articles. The multimodal fusion encoder in the foundational model integrates text and image representations derived from its pairwise encoders to generate a comprehensive cross modal representation. Furthermore, we generate descriptive image captions that provide additional context to detect inconsistencies and manipulations. The retrieved features are then fused and fed into a classifier to determine the authenticity of news articles. The curated dataset can potentially accelerate research and development in low resource environments significantly. Thorough experimentation on MMIFND demonstrates that our proposed framework outperforms established methods for extracting relevant fake news detection features.
翻訳日:2024-10-29 21:44:49 公開日:2024-10-14
# メディコ:マルチソースエビデンス融合による幻覚検出と補正を目指して

Medico: Towards Hallucination Detection and Correction with Multi-source Evidence Fusion ( http://arxiv.org/abs/2410.10408v1 )

ライセンス: Link先を確認
Xinping Zhao, Jindi Yu, Zhenyu Liu, Jifang Wang, Dongfang Li, Yibin Chen, Baotian Hu, Min Zhang, (参考訳) 私たちが知っているように、幻覚は大規模言語モデル(LLMs)で広まっており、生成したコンテンツは一貫性があるが、実際には正しくないため、LLMの広範な適用に大きな打撃を与えます。 以前の研究では、LLMは「私は知らない」と答えるよりも、確実に存在しない事実を述べることができた。 そのため、幻覚的内容の検出・修正には外部知識を活用する必要がある。 事実の誤りを手動で検出し修正することは、労働集約的であるため、自動エンドツーエンドの幻覚検査手法を開発することは、本当に必要なことだ。 この目的のために,マルチソースエビデンス融合による幻覚検出・修正フレームワークであるMedicoを提案する。 複数の情報源から様々な証拠を抽出し、生成されたコンテンツが事実的誤りを含むかどうかを検知し、判断の背後にある根拠を与え、幻覚されたコンテンツを反復的に修正する。 証拠検索 (0.964 HR@5, 0.908 MRR@5), 幻覚検出 (0.927-0.951 F1), 幻覚補正 (0.973-0.979 承認率) はメディコの大きな可能性を示す。 Medicoのビデオデモはhttps://youtu.be/RtsO6CSsBIで見ることができる。

As we all know, hallucinations prevail in Large Language Models (LLMs), where the generated content is coherent but factually incorrect, which inflicts a heavy blow on the widespread application of LLMs. Previous studies have shown that LLMs could confidently state non-existent facts rather than answering ``I don't know''. Therefore, it is necessary to resort to external knowledge to detect and correct the hallucinated content. Since manual detection and correction of factual errors is labor-intensive, developing an automatic end-to-end hallucination-checking approach is indeed a needful thing. To this end, we present Medico, a Multi-source evidence fusion enhanced hallucination detection and correction framework. It fuses diverse evidence from multiple sources, detects whether the generated content contains factual errors, provides the rationale behind the judgment, and iteratively revises the hallucinated content. Experimental results on evidence retrieval (0.964 HR@5, 0.908 MRR@5), hallucination detection (0.927-0.951 F1), and hallucination correction (0.973-0.979 approval rate) manifest the great potential of Medico. A video demo of Medico can be found at https://youtu.be/RtsO6CSesBI.
翻訳日:2024-10-29 21:44:49 公開日:2024-10-14
# 4DStyleGaussian:Gaussian Splattingを用いたゼロショット4Dスタイルトランスファー

4DStyleGaussian: Zero-shot 4D Style Transfer with Gaussian Splatting ( http://arxiv.org/abs/2410.10412v1 )

ライセンス: Link先を確認
Wanlin Liang, Hongbin Xu, Weitao Chen, Feng Xiao, Wenxiong Kang, (参考訳) 3Dニューラルスタイルの転送は、ユーザフレンドリーなスタイリゼーションと空間整合性を提供する可能性に大きな注目を集めている。 しかし、既存の3Dスタイルの転送手法は、推論効率、一般化能力、時間的一貫性のある動的なシーンを扱うのに苦労するといった点で、しばしば不足する。 本稿では、4DStyleGaussianについて紹介する。これは、任意のスタイル参照のリアルタイムスタイリングを実現するために設計された新しい4Dスタイル転送フレームワークで、合理的なコンテンツ親和性、マルチビュー一貫性、時間的コヒーレンスを保ちながら、任意のスタイル参照のリアルタイムスタイリングを実現する。 提案手法は, 可逆ニューラルネットワークを用いて, 特徴蒸留プロセスにおける内容損失を低減するために, 組込み4次元ガウススメッティング技術を利用する。 4D埋め込みガウシアンを用いて,空間的かつ時間的に一貫したガウシアンスプラッティングによる4D変換行列を予測した。 提案手法は,高効率・時空間整合性を有する4次元シナリオに対して,高品質かつゼロショットスタイリングを実現することができることを示す。

3D neural style transfer has gained significant attention for its potential to provide user-friendly stylization with spatial consistency. However, existing 3D style transfer methods often fall short in terms of inference efficiency, generalization ability, and struggle to handle dynamic scenes with temporal consistency. In this paper, we introduce 4DStyleGaussian, a novel 4D style transfer framework designed to achieve real-time stylization of arbitrary style references while maintaining reasonable content affinity, multi-view consistency, and temporal coherence. Our approach leverages an embedded 4D Gaussian Splatting technique, which is trained using a reversible neural network for reducing content loss in the feature distillation process. Utilizing the 4D embedded Gaussians, we predict a 4D style transformation matrix that facilitates spatially and temporally consistent style transfer with Gaussian Splatting. Experiments demonstrate that our method can achieve high-quality and zero-shot stylization for 4D scenarios with enhanced efficiency and spatial-temporal consistency.
翻訳日:2024-10-29 21:44:49 公開日:2024-10-14
# LLMを用いた信頼性コンテンツモデレーションのためのガードモデルの校正について

On Calibration of LLM-based Guard Models for Reliable Content Moderation ( http://arxiv.org/abs/2410.10414v1 )

ライセンス: Link先を確認
Hongfu Liu, Hengguan Huang, Hao Wang, Xiangming Gu, Ye Wang, (参考訳) 大規模言語モデル(LLM)は、有害なコンテンツを生成する可能性や、ガードレールを避けようとするユーザのために重大なリスクを負う。 既存の研究は、脅威LSMの入力と出力を緩和し、これらのプロトコルに違反するコンテンツをブロックすることで安全性ポリシーの遵守を確保するために、LSMベースのガードモデルを開発した。 しかし、これらのガードモデルの信頼性と校正には限定的な注意が払われている。 本研究では、ユーザ入力とモデル出力の分類の両方において、既存のLCMベースのガードモデル9つのベンチマークに対して、信頼性校正に関する総合的な調査を経験的に実施する。 以上の結果から,現在のLLMを用いたガードモデルでは,その傾向が示唆された。 1) 過信予測を作成する。 2)脱獄攻撃を受けた場合の重大な誤診,及び 3) 異なるタイプの応答モデルによって生成された出力に対して、限られた堅牢性を示す。 さらに,誤校正を緩和するためのポストホック校正法の有効性を評価する。 温度スケーリングの有効性を実証し、特に検証セットの欠如において、ガードモデルの信頼性校正に対する文脈校正の利点を初めて強調する。 我々の分析と実験は、現在のLLMベースのガードモデルの限界を浮き彫りにして、より信頼性の高いコンテンツモデレーションに向けた、十分に校正されたガードモデルの開発に向けた貴重な洞察を提供する。 また、将来のLCMベースのガードモデルをリリースする際に、信頼性校正の信頼性評価を取り入れることも提唱する。

Large language models (LLMs) pose significant risks due to the potential for generating harmful content or users attempting to evade guardrails. Existing studies have developed LLM-based guard models designed to moderate the input and output of threat LLMs, ensuring adherence to safety policies by blocking content that violates these protocols upon deployment. However, limited attention has been given to the reliability and calibration of such guard models. In this work, we empirically conduct comprehensive investigations of confidence calibration for 9 existing LLM-based guard models on 12 benchmarks in both user input and model output classification. Our findings reveal that current LLM-based guard models tend to 1) produce overconfident predictions, 2) exhibit significant miscalibration when subjected to jailbreak attacks, and 3) demonstrate limited robustness to the outputs generated by different types of response models. Additionally, we assess the effectiveness of post-hoc calibration methods to mitigate miscalibration. We demonstrate the efficacy of temperature scaling and, for the first time, highlight the benefits of contextual calibration for confidence calibration of guard models, particularly in the absence of validation sets. Our analysis and experiments underscore the limitations of current LLM-based guard models and provide valuable insights for the future development of well-calibrated guard models toward more reliable content moderation. We also advocate for incorporating reliability evaluation of confidence calibration when releasing future LLM-based guard models.
翻訳日:2024-10-29 21:44:49 公開日:2024-10-14
# 多関節系制御のための結合自己回帰活性推論剤

Coupled autoregressive active inference agents for control of multi-joint dynamical systems ( http://arxiv.org/abs/2410.10415v1 )

ライセンス: Link先を確認
Tim N. Nisslbeck, Wouter M. Kouw, (参考訳) 関節によって接続された複数の体を持つ機械系を同定・制御するための能動的推論エージェントを提案する。 複数のスカラー自己回帰モデルベースエージェントから構成され、記憶を共有することによって結合される。 各サブエージェントはベイズフィルタを通してパラメータを推論し、有限時間地平線上で期待される自由エネルギーを最小化することによって制御する。 本研究は, 複合エージェントが, ダブル・マス・スプリング・ダンパーシステムの力学を学習し, 爆発的, 搾取的行動のバランスによって, 所望の位置に移動できることを実証する。 これは、サプライズとゴールアライメントの点で、未結合のサブエージェントよりも優れています。

We propose an active inference agent to identify and control a mechanical system with multiple bodies connected by joints. This agent is constructed from multiple scalar autoregressive model-based agents, coupled together by virtue of sharing memories. Each subagent infers parameters through Bayesian filtering and controls by minimizing expected free energy over a finite time horizon. We demonstrate that a coupled agent of this kind is able to learn the dynamics of a double mass-spring-damper system, and drive it to a desired position through a balance of explorative and exploitative actions. It outperforms the uncoupled subagents in terms of surprise and goal alignment.
翻訳日:2024-10-29 21:44:49 公開日:2024-10-14
# 幾何学シャントインダクタの統合によるトランスモンの補間

Complementing the transmon by integrating a geometric shunt inductor ( http://arxiv.org/abs/2410.10416v1 )

ライセンス: Link先を確認
Simone D. Fasciati, Boris Shteynas, Giulio Campanaro, Mustafa Bakr, Shuxiang Cao, Vivek Chidambaram, James Wills, Peter J. Leek, (参考訳) 我々は,単純な幾何学的インダクタによる単一ジョセフソン接合トランスモン量子ビットを実現する。 従来のトランスモンと容量的に結合し、2つの量子ビット間のZZ相互作用は、フラックスバイアスが反対符号の非調和性を持つ場合、完全に抑制されることを示す。 導電性トランスモンのフラックススイートスポットとは別に, 1次側バンド遷移を用いた高速2量子相互作用を実証した。 この2-qubit-species回路の単純さは、コヒーレントな誤差とリッチゲートセットの少ない超伝導量子ビットの大きな格子を構築することを約束する。

We realize a single-Josephson-junction transmon qubit shunted by a simple geometric inductor. We couple it capacitively to a conventional transmon and show that the ZZ interaction between the two qubits is completely suppressed when they are flux-biased to have opposite-sign anharmonicities. Away from the flux sweet spot of the inductively-shunted transmon, we demonstrate fast two-qubit interactions using first-order sideband transitions. The simplicity of this two-qubit-species circuit makes it promising for building large lattices of superconducting qubits with low coherent error and a rich gate set.
翻訳日:2024-10-29 21:44:49 公開日:2024-10-14
# ハイパーパラメータ最適化とメタ学習のための双方向最適化の確率論的アプローチ

A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning ( http://arxiv.org/abs/2410.10417v1 )

ライセンス: Link先を確認
Minyoung Kim, Timothy M. Hospedales, (参考訳) 我々は,ハイパーパラメータ最適化,損失関数学習,少数ショット学習,不変学習など,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。 これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。 本稿では,与えられたBLO問題を確率的最適化に変換することで,内損失関数が滑らかな確率分布となり,外損失が内部分布に対する期待損失となるような新しい視点を導入する。 この確率的最適化のために、内部分布のサンプリングにStochastic Gradient Langevin Dynamics (SGLD) MCMCを採用し、MC推定過次度を計算するための再帰アルゴリズムを提案する。 我々の導出は前方モードの微分と似ているが、巨大モデルに対して巨大なヤコビ行列を格納する必要がないような新しい一階近似を導入する。 主な利点は2つある。 一 確率的定式化は、不確実性を考慮しており、過度なパラメータ化による最適内最適化又は非一意的多重内皮に頑健な方法である。 二 不安定な振舞いや過パラメータ感度を実際にしばしば示す既存手法と比較して、本手法はより信頼性の高い解をもたらす。 提案手法は,多様なメタ学習問題に対して有望な結果が得られ,視覚変換器の場合の8700万ハイパーパラメータの学習に容易に対応できることを実証する。

We tackle the general differentiable meta learning problem that is ubiquitous in modern deep learning, including hyperparameter optimization, loss function learning, few-shot learning, invariance learning and more. These problems are often formalized as Bi-Level optimizations (BLO). We introduce a novel perspective by turning a given BLO problem into a stochastic optimization, where the inner loss function becomes a smooth probability distribution, and the outer loss becomes an expected loss over the inner distribution. To solve this stochastic optimization, we adopt Stochastic Gradient Langevin Dynamics (SGLD) MCMC to sample inner distribution, and propose a recurrent algorithm to compute the MC-estimated hypergradient. Our derivation is similar to forward-mode differentiation, but we introduce a new first-order approximation that makes it feasible for large models without needing to store huge Jacobian matrices. The main benefits are two-fold: i) Our stochastic formulation takes into account uncertainty, which makes the method robust to suboptimal inner optimization or non-unique multiple inner minima due to overparametrization; ii) Compared to existing methods that often exhibit unstable behavior and hyperparameter sensitivity in practice, our method leads to considerably more reliable solutions. We demonstrate that the new approach achieves promising results on diverse meta learning problems and easily scales to learning 87M hyperparameters in the case of Vision Transformers.
翻訳日:2024-10-29 21:44:49 公開日:2024-10-14
# ビザンチン・ロバスト・ゴシップの最適ブレークダウン達成

Achieving Optimal Breakdown for Byzantine Robust Gossip ( http://arxiv.org/abs/2410.10418v1 )

ライセンス: Link先を確認
Renaud Gaucher, Aymeric Dieuleveut, Hadrien Hendrikx, (参考訳) 分散アプローチには多くの計算上の利点があるが、誤った情報を伝達するデバイスのサブセットからの攻撃に対して脆弱である。 本稿では,デバイス同士が直接通信する分散環境でのビザンチン耐性アルゴリズムについて検討する。 本稿では, 分解点の概念を考察し, 分散アルゴリズムが許容できる敵数に対する上限を示す。 我々は,$\mathrm{CG}^+$,$\mathrm{ClippedGossip}$と$\mathrm{NNA}$の交点にあるアルゴリズムを紹介した。 $\mathrm{CG}^+$ は私たちの上限を満たすので、どちらの2つもそうでないのに対して、最適なロバスト性を保証する。 このギャップに対する実験的な証拠として、スパースグラフに適合する攻撃が$\mathrm{NNA}$を破るが、$\mathrm{CG}^+$が堅牢であることを示す。

Distributed approaches have many computational benefits, but they are vulnerable to attacks from a subset of devices transmitting incorrect information. This paper investigates Byzantine-resilient algorithms in a decentralized setting, where devices communicate directly with one another. We investigate the notion of breakdown point, and show an upper bound on the number of adversaries that decentralized algorithms can tolerate. We introduce $\mathrm{CG}^+$, an algorithm at the intersection of $\mathrm{ClippedGossip}$ and $\mathrm{NNA}$, two popular approaches for robust decentralized learning. $\mathrm{CG}^+$ meets our upper bound, and thus obtains optimal robustness guarantees, whereas neither of the existing two does. We provide experimental evidence for this gap by presenting an attack tailored to sparse graphs which breaks $\mathrm{NNA}$ but against which $\mathrm{CG}^+$ is robust.
翻訳日:2024-10-29 21:44:49 公開日:2024-10-14
# Javaの循環的複雑度に対する変異性の影響

The Impact of Mutability on Cyclomatic Complexity in Java ( http://arxiv.org/abs/2410.10425v1 )

ライセンス: Link先を確認
Marat Bagaev, Alisa Khabibrakhmanova, Georgy Sabaev, Yegor Bugayenko, (参考訳) Javaでは、いくつかのオブジェクト属性は変更可能であり、他の属性は不変である("final"修飾子をアタッチした)。 少なくとも1つの可変属性を持つオブジェクトは、"可変"オブジェクトと呼ばれることがある。 可変物体は不変物体よりもマカベの循環複雑度(CC)が高いと仮定する。 この直感を検証するために、1,000のオープンGitHubリポジトリから852,446のJavaファイルを分析しました。 その結果,イミュータブルオブジェクトは不変オブジェクトの約3倍の複雑さを示した。 したがって、より不変なクラスを使用することで、コードベースの全体的な複雑さと保守性を減らすことができると仮定できる。

In Java, some object attributes are mutable, while others are immutable (with the "final" modifier attached to them). Objects that have at least one mutable attribute may be referred to as "mutable" objects. We suspect that mutable objects have higher McCabe's Cyclomatic Complexity (CC) than immutable ones. To validate this intuition, we analysed 862,446 Java files from 1,000 open-GitHub repositories. Our results demonstrated that immutable objects are almost three times less complex than mutable ones. It can be therefore assumed that using more immutable classes could reduce the overall complexity and maintainability of the code base.
翻訳日:2024-10-29 21:44:49 公開日:2024-10-14
# DOME: 拡散モデルから高忠実度制御可能な業務世界モデルへ

DOME: Taming Diffusion Model into High-Fidelity Controllable Occupancy World Model ( http://arxiv.org/abs/2410.10429v1 )

ライセンス: Link先を確認
Songen Gu, Wei Yin, Bu Jin, Xiaoyang Guo, Junming Wang, Haodong Li, Qian Zhang, Xiaoxiao Long, (参考訳) 本研究では,過去の占有状況から将来の占有状況を予測する拡散型世界モデルDOMEを提案する。 この世界のモデルが環境の進化を捉える能力は、自動運転の計画に不可欠である。 2Dビデオベースの世界モデルと比較して、占有する世界モデルはネイティブな3D表現を利用しており、容易に入手可能なアノテーションを備え、モダリティに依存しない。 この柔軟性は、より先進的な世界モデルの開発を促進する可能性がある。 既存の占有世界モデルは、離散的なトークン化による詳細な損失に悩まされるか、単純化された拡散アーキテクチャに依存するかのいずれかであり、制御可能性による将来の占有率を予測するための非効率性と困難をもたらす。 DOMEには,(1)高忠実度と長期耐久性の2つの特徴がある。 時空間拡散変換器を用いて,歴史的文脈に基づく将来の占有枠の予測を行う。 このアーキテクチャは、空間的時間情報を効率的にキャプチャし、高忠実度の詳細と長期にわたって予測を生成することができる。 (2)きめ細かい制御性 本稿では,モデルが制御された予測を生成する能力を大幅に向上させる軌道再サンプリング手法を導入することにより,予測における制御可能性の課題に対処する。 広範に使用されているnuScenesデータセットに関する大規模な実験により,本手法は定性評価と定量的評価の両方において既存のベースラインを超え,nuScenesの新たな最先端性能を確立した。 具体的には,IoUのベースラインを10.5%,IoUの21.2%,IoUの36.0%,IoUの24.6%を4次元占有予測で上回っている。

We propose DOME, a diffusion-based world model that predicts future occupancy frames based on past occupancy observations. The ability of this world model to capture the evolution of the environment is crucial for planning in autonomous driving. Compared to 2D video-based world models, the occupancy world model utilizes a native 3D representation, which features easily obtainable annotations and is modality-agnostic. This flexibility has the potential to facilitate the development of more advanced world models. Existing occupancy world models either suffer from detail loss due to discrete tokenization or rely on simplistic diffusion architectures, leading to inefficiencies and difficulties in predicting future occupancy with controllability. Our DOME exhibits two key features:(1) High-Fidelity and Long-Duration Generation. We adopt a spatial-temporal diffusion transformer to predict future occupancy frames based on historical context. This architecture efficiently captures spatial-temporal information, enabling high-fidelity details and the ability to generate predictions over long durations. (2)Fine-grained Controllability. We address the challenge of controllability in predictions by introducing a trajectory resampling method, which significantly enhances the model's ability to generate controlled predictions. Extensive experiments on the widely used nuScenes dataset demonstrate that our method surpasses existing baselines in both qualitative and quantitative evaluations, establishing a new state-of-the-art performance on nuScenes. Specifically, our approach surpasses the baseline by 10.5% in mIoU and 21.2% in IoU for occupancy reconstruction and by 36.0% in mIoU and 24.6% in IoU for 4D occupancy forecasting.
翻訳日:2024-10-29 21:44:49 公開日:2024-10-14
# デノボ医薬品設計のための多様性を考慮した強化学習

Diversity-Aware Reinforcement Learning for de novo Drug Design ( http://arxiv.org/abs/2410.10431v1 )

ライセンス: Link先を確認
Hampus Gummesson Svensson, Christian Tyrchan, Ola Engkvist, Morteza Haghir Chehreghani, (参考訳) 事前訓練された生成モデルの微調整は、有望な薬物分子の生成に優れた性能を示した。 微調整タスクは、しばしば強化学習問題として定式化され、従来の手法では報酬関数を効率的に学習し、潜在的な薬物分子を生成する。 それでも、報酬関数に対する適応的な更新機構がない場合、最適化プロセスは局所的な最適化で停止する可能性がある。 局所最適化における最適分子の有効性は、その後の薬物最適化プロセスにおける有用性や、潜在的に独立した臨床候補として有用性には変換されない。 したがって、様々な有望な分子の集合を生成することが重要である。 以前の研究は、構造的に類似した分子をペナル化することで報酬関数を修正し、主により高い報酬を持つ分子を見つけることに焦点を当てた。 これまで、報酬関数の適応的更新機構が生成分子の多様性にどのように影響するかを包括的に研究する研究は行われていない。 本研究では,外因性報酬をペナルティ化する多様な本質的動機づけ手法と戦略について検討し,生成分子群の多様性にどう影響するかを考察する。 我々の実験は、構造と予測に基づく手法を組み合わせることで、一般的に分子多様性の点でより良い結果が得られることを示した。

Fine-tuning a pre-trained generative model has demonstrated good performance in generating promising drug molecules. The fine-tuning task is often formulated as a reinforcement learning problem, where previous methods efficiently learn to optimize a reward function to generate potential drug molecules. Nevertheless, in the absence of an adaptive update mechanism for the reward function, the optimization process can become stuck in local optima. The efficacy of the optimal molecule in a local optimization may not translate to usefulness in the subsequent drug optimization process or as a potential standalone clinical candidate. Therefore, it is important to generate a diverse set of promising molecules. Prior work has modified the reward function by penalizing structurally similar molecules, primarily focusing on finding molecules with higher rewards. To date, no study has comprehensively examined how different adaptive update mechanisms for the reward function influence the diversity of generated molecules. In this work, we investigate a wide range of intrinsic motivation methods and strategies to penalize the extrinsic reward, and how they affect the diversity of the set of generated molecules. Our experiments reveal that combining structure- and prediction-based methods generally yields better results in terms of molecular diversity.
翻訳日:2024-10-29 21:44:49 公開日:2024-10-14
# コヒーレンス数秒を超える個々の固体核スピン量子ビット

Individual solid-state nuclear spin qubits with coherence exceeding seconds ( http://arxiv.org/abs/2410.10432v1 )

ライセンス: Link先を確認
James O'Sullivan, Jaime Travesedo, Louis Pallegoix, Zhiyuan W. Huang, Alexande May, Boris Yavkin, Patrick Hogan, Sen Lin, Renbao Liu, Thierry Chaneliere, Sylvain Bertaina, Philippe Goldner, Daniel Esteve, Denis Vion, Patrick Abgrall, Patrice Bertet, Emmanuel Flurin, (参考訳) スケーラブルなシステムにおいて、長いコヒーレンス時間で量子ビットをコヒーレントに制御し、読み取る能力は、あらゆる量子プロセッサにとって重要な要件である。 固体状態の核スピンは、長寿命の量子ビットとして大きな可能性を示してきた。 個々の核スピン量子ビットレジスタの制御と読み出しは、電気的にも光学的にも、個々の電子スピンアンシラを用いて近年大きく進歩している。 本稿では,CaWO$_4$結晶中のEr$^{3+}$不純物に隣接する$^{183}$W核スピン量子ビットからなる量子情報処理のための新しいプラットフォームについて述べる。 我々は、それぞれ$T_2^*$ of $0.8(2)~$s, $1.2(3)~$s, $T_2$ of $3.4(4)~$s, $4.4(6)~$sの2つの核スピン量子ビットについて研究する。 我々は、Er$^{3+}$ spin をアンシラとして使用して、各核スピン量子ビットの単一ショット量子非退化読み出しを実演する。 我々は、電子-核スピン系のラマン駆動を刺激した全マイクロ波単量子ゲートと2量子ゲートの新たなスキームを導入する。 我々は,数ミリ秒のタイムスケールで単一および2量子ゲートを実現し,88%の忠実度とT_2^*$1.7(2)~$sのデコヒーレンス保護ベル状態を作成する。 我々の結果は、量子情報処理のための有望なプラットフォームとして固体核スピン量子ビットの可能性を実証する原理実証である。 数十から数百の量子ビットにスケールする可能性があるため、このプラットフォームは長期間の量子ビットを持つスケーラブルな量子プロセッサの開発を予定している。

The ability to coherently control and read out qubits with long coherence times in a scalable system is a crucial requirement for any quantum processor. Nuclear spins in the solid state have shown great promise as long-lived qubits. Control and readout of individual nuclear spin qubit registers has made major progress in the recent years using individual electron spin ancilla addressed either electrically or optically. Here, we present a new platform for quantum information processing, consisting of $^{183}$W nuclear spin qubits adjacent to an Er$^{3+}$ impurity in a CaWO$_4$ crystal, interfaced via a superconducting resonator and detected using a microwave photon counter at 10mK. We study two nuclear spin qubits with $T_2^*$ of $0.8(2)~$s and $1.2(3)~$s, $T_2$ of $3.4(4)~$s and $4.4(6)~$ s, respectively. We demonstrate single-shot quantum non-demolition readout of each nuclear spin qubit using the Er$^{3+}$ spin as an ancilla. We introduce a new scheme for all-microwave single- and two-qubit gates, based on stimulated Raman driving of the coupled electron-nuclear spin system. We realize single- and two-qubit gates on a timescale of a few milliseconds, and prepare a decoherence-protected Bell state with 88% fidelity and $T_2^*$ of $1.7(2)~$s. Our results are a proof-of-principle demonstrating the potential of solid-state nuclear spin qubits as a promising platform for quantum information processing. With the potential to scale to tens or hundreds of qubits, this platform has prospects for the development of scalable quantum processors with long-lived qubits.
翻訳日:2024-10-29 21:44:49 公開日:2024-10-14
# LKASeg:大カーネルアテンションとフルスケールスキップ接続を用いたリモートセンシング画像セマンティックセマンティックセグメンテーション

LKASeg:Remote-Sensing Image Semantic Segmentation with Large Kernel Attention and Full-Scale Skip Connections ( http://arxiv.org/abs/2410.10433v1 )

ライセンス: Link先を確認
Xuezhi Xiang, Yibo Ning, Lei Zhang, Denis Ombati, Himaloy Himu, Xiantong Zhen, (参考訳) リモートセンシング画像のセマンティックセグメンテーションは地理空間研究の基本的な課題である。 しかし、広く使われている畳み込みニューラルネットワーク(CNN)とトランスフォーマーには、顕著な欠点がある。 本稿では,LKA(Large Kernel Attention)とFSC(Full-Scale Skip Connections)を組み合わせた,LKASegというリモートセンシング画像セマンティックセマンティックセマンティックネットワークを提案する。 具体的には,Large Kernel Attention (LKA)に基づくデコーダを提案する。これは,自己アテンションの計算オーバーヘッドを回避し,チャネル適応性を提供するとともに,グローバルな特徴を抽出する。 実大規模機能学習と融合を実現するために,エンコーダとデコーダの間にフルスケールスキップ接続(FSC)を適用する。 LKAをベースとしたデコーダとFSCを組み合わせた実験を行った。 ISPRSのベイヒンゲンデータセットでは、mF1とmIoUのスコアは90.33%と82.77%に達した。

Semantic segmentation of remote sensing images is a fundamental task in geospatial research. However, widely used Convolutional Neural Networks (CNNs) and Transformers have notable drawbacks: CNNs may be limited by insufficient remote sensing modeling capability, while Transformers face challenges due to computational complexity. In this paper, we propose a remote-sensing image semantic segmentation network named LKASeg, which combines Large Kernel Attention(LSKA) and Full-Scale Skip Connections(FSC). Specifically, we propose a decoder based on Large Kernel Attention (LKA), which extract global features while avoiding the computational overhead of self-attention and providing channel adaptability. To achieve full-scale feature learning and fusion, we apply Full-Scale Skip Connections (FSC) between the encoder and decoder. We conducted experiments by combining the LKA-based decoder with FSC. On the ISPRS Vaihingen dataset, the mF1 and mIoU scores achieved 90.33% and 82.77%.
翻訳日:2024-10-29 21:34:52 公開日:2024-10-14
# 個人化テキスト・画像拡散モデルにおける不正データ利用の信頼性検証に向けて

Towards Reliable Verification of Unauthorized Data Usage in Personalized Text-to-Image Diffusion Models ( http://arxiv.org/abs/2410.10437v1 )

ライセンス: Link先を確認
Boheng Li, Yanhao Wei, Yankai Fu, Zhenting Wang, Yiming Li, Jie Zhang, Run Wang, Tianwei Zhang, (参考訳) テキストから画像への拡散モデルは、私たちの人生で生成AIが達成できることの境界を押し広げている。 一般的な画像を生成する能力以外にも、特定のテーマやスタイルで画像を作成するためにトレーニング済みのベースモデルをカスタマイズする新たなパーソナライズ技術が提案されている。 このような軽量なソリューションにより、AI実践者や開発者が独自のパーソナライズされたモデルを簡単に構築できるようになる。 有望な解決策は、生成モデルにおいて、データ所有者がデータセットに外部のコーティング(画像透かしやバックドアトリガーなど)を埋め込む前に、積極的にデータトレーサビリティを有効にすることである。 その後、そのようなデータセットでトレーニングされたモデルは、コーティングを学習し、生成した模倣品で無意識に再現する。 しかし,既存のコーティングはパーソナライズタスクでは効果的に学習できないため,検証の信頼性が低下する。 本稿では,ブラックボックスパーソナライズされたテキスト・ツー・イメージ拡散モデルにおいて,非許可データの使用を積極的に追跡する新しい手法であるSIRENを紹介する。 本手法は, パーソナライズ作業に関連する特徴として, モデルによって認識されるような微妙な方法でコーティングを最適化し, 学習性を大幅に向上させる。 また,人間の知覚認識制約,ハイパースフィア分類法,仮説検証誘導検証法を用いて,コーティングのステルスネスと検出精度を高める。 SIRENの有効性は、さまざまなベンチマークデータセット、モデル、学習アルゴリズムに関する広範な実験を通じて検証される。 SIRENは様々な現実世界のシナリオでも有効であり、潜在的な対策に対して評価される。 私たちのコードは公開されています。

Text-to-image diffusion models are pushing the boundaries of what generative AI can achieve in our lives. Beyond their ability to generate general images, new personalization techniques have been proposed to customize the pre-trained base models for crafting images with specific themes or styles. Such a lightweight solution, enabling AI practitioners and developers to easily build their own personalized models, also poses a new concern regarding whether the personalized models are trained from unauthorized data. A promising solution is to proactively enable data traceability in generative models, where data owners embed external coatings (e.g., image watermarks or backdoor triggers) onto the datasets before releasing. Later the models trained over such datasets will also learn the coatings and unconsciously reproduce them in the generated mimicries, which can be extracted and used as the data usage evidence. However, we identify the existing coatings cannot be effectively learned in personalization tasks, making the corresponding verification less reliable. In this paper, we introduce SIREN, a novel methodology to proactively trace unauthorized data usage in black-box personalized text-to-image diffusion models. Our approach optimizes the coating in a delicate way to be recognized by the model as a feature relevant to the personalization task, thus significantly improving its learnability. We also utilize a human perceptual-aware constraint, a hypersphere classification technique, and a hypothesis-testing-guided verification method to enhance the stealthiness and detection accuracy of the coating. The effectiveness of SIREN is verified through extensive experiments on a diverse set of benchmark datasets, models, and learning algorithms. SIREN is also effective in various real-world scenarios and evaluated against potential countermeasures. Our code is publicly available.
翻訳日:2024-10-29 21:34:52 公開日:2024-10-14
# 完全テスト時間適応のための磁区形変圧器

Domain-Conditioned Transformer for Fully Test-time Adaptation ( http://arxiv.org/abs/2410.10442v1 )

ライセンス: Link先を確認
Yushun Tang, Shuoshuo Chen, Jiyuan Jia, Yi Zhang, Zhihai He, (参考訳) 完全なテスト時間適応は、推論段階における入力サンプルのシーケンシャル分析に基づいて、ネットワークモデルをオンラインで適応することを目的としている。 変換器ネットワークモデルを新しい領域に適用すると、対象領域のイメージサンプルの自己アテンションプロファイルは、ソース領域のそれと大きく異なっており、ドメイン変更時に大きな性能低下をもたらすことが観察された。 この重要な問題に対処するため、トランスにおける自己注意モジュールのための新しい構造を提案する。 具体的には、ドメインコンディショナと呼ばれる3つのドメインコンディショナを、セルフアテンションモジュールのクエリ、キー、バリューコンポーネントに組み込む。 各トランス層におけるクラストークンから,これら3つのドメインコンディショナを生成するネットワークを学習する。 完全オンラインテスト時間適応中、各トランスフォーメーションネットワーク層におけるこれらのドメインコンディショナーは、ドメインシフトの影響を徐々に取り除き、元の自己注意プロファイルをほぼ復元できることがわかった。 提案した領域条件変圧器は,オンライン完全テスト時間領域適応性能を大幅に向上し,既存の最先端手法を大きなマージンで上回ることを示す。

Fully test-time adaptation aims to adapt a network model online based on sequential analysis of input samples during the inference stage. We observe that, when applying a transformer network model into a new domain, the self-attention profiles of image samples in the target domain deviate significantly from those in the source domain, which results in large performance degradation during domain changes. To address this important issue, we propose a new structure for the self-attention modules in the transformer. Specifically, we incorporate three domain-conditioning vectors, called domain conditioners, into the query, key, and value components of the self-attention module. We learn a network to generate these three domain conditioners from the class token at each transformer network layer. We find that, during fully online test-time adaptation, these domain conditioners at each transform network layer are able to gradually remove the impact of domain shift and largely recover the original self-attention profile. Our extensive experimental results demonstrate that the proposed domain-conditioned transformer significantly improves the online fully test-time domain adaptation performance and outperforms existing state-of-the-art methods by large margins.
翻訳日:2024-10-29 21:34:52 公開日:2024-10-14
# QUITE:ベイジアン推論シナリオにおける自然言語テキストの不確かさの定量化

QUITE: Quantifying Uncertainty in Natural Language Text in Bayesian Reasoning Scenarios ( http://arxiv.org/abs/2410.10449v1 )

ライセンス: Link先を確認
Timo Pierre Schrader, Lukas Lange, Simon Razniewski, Annemarie Friedrich, (参考訳) 推論は多くの意思決定プロセスの鍵です。 結論を引き出すには、しばしば不確実性や観察の度合いと関連づけられる一連のルールのような前提を統合する必要がある。 本研究では,前提条件が数値確率規則として規定されている場合と,確度を表現した単語を用いて人間が見積を述べる場合の両方に対処する。 既存の確率論的推論データセットは、例えば、バイナリランダム変数のみを含むことによって、モデルにテキスト代替品のランク付けを要求したり、より少ないテキストをもたらす限られたテンプレートセットを使用することで、タスクを単純化する。 本稿では,カテゴリー的確率変数と複雑な関係を持つ実世界のベイズ推論シナリオの問合せデータセットであるQUITEを提案する。 QUITEは、エビデンスステートメントとともに、前提の高品質な自然言語の言語化を提供し、推定確率の形で質問に対する答えを期待する。 論理ベースのモデルは、すべての推論型(因果関係、明解性、説明責任)において、アウト・オブ・ボックスの大きい言語モデルよりも優れていることを発見した。 以上の結果から,ニューロシンボリックモデルが複雑な推論を改善する上で有望な方向であることを示す。 トレーニングと実験のためのQUITEとコードをGithubでリリースしています。

Reasoning is key to many decision making processes. It requires consolidating a set of rule-like premises that are often associated with degrees of uncertainty and observations to draw conclusions. In this work, we address both the case where premises are specified as numeric probabilistic rules and situations in which humans state their estimates using words expressing degrees of certainty. Existing probabilistic reasoning datasets simplify the task, e.g., by requiring the model to only rank textual alternatives, by including only binary random variables, or by making use of a limited set of templates that result in less varied text. In this work, we present QUITE, a question answering dataset of real-world Bayesian reasoning scenarios with categorical random variables and complex relationships. QUITE provides high-quality natural language verbalizations of premises together with evidence statements and expects the answer to a question in the form of an estimated probability. We conduct an extensive set of experiments, finding that logic-based models outperform out-of-the-box large language models on all reasoning types (causal, evidential, and explaining-away). Our results provide evidence that neuro-symbolic models are a promising direction for improving complex reasoning. We release QUITE and code for training and experiments on Github.
翻訳日:2024-10-29 21:34:52 公開日:2024-10-14
# KBLaM:知識ベース拡張言語モデル

KBLaM: Knowledge Base augmented Language Model ( http://arxiv.org/abs/2410.10450v1 )

ライセンス: Link先を確認
Xi Wang, Liana Mikaelyan, Taketomo Isazawa, James Hensman, (参考訳) 本稿では,Large Language Models (LLM) を外部知識で拡張する新しい手法であるKnowledge Base augmented Language Model (KBLaM)を提案する。 KBLaM は文書のコーパスから構築された知識ベース (KB) と連携し、KB の各知識を線形アダプタで訓練済みの文エンコーダを介して連続キー値ベクトル対に変換し、特殊な長方形の注意機構によって学習済みの LLM に統合する。 Retrieval-Augmented Generationとは異なり、KBLaMは外部検索モジュールを排除し、コンテキスト内学習とは異なり、計算オーバーヘッドは2次ではなくKBサイズで線形にスケールする。 提案手法では,A10080GBの1つのGPU上で,8Kコンテキストウィンドウのみを事前学習した8BのLLMに,10Kトリプル以上の大きなKBを組み込むことが可能である。 KBLaMの様々なタスクにおける有効性を示す実験は、質問応答やオープンエンド推論を含むとともに、拡張知識の使用に関する解釈可能な洞察を提供する。

In this paper, we propose Knowledge Base augmented Language Model (KBLaM), a new method for augmenting Large Language Models (LLMs) with external knowledge. KBLaM works with a knowledge base (KB) constructed from a corpus of documents, transforming each piece of knowledge in the KB into continuous key-value vector pairs via pre-trained sentence encoders with linear adapters and integrating them into pre-trained LLMs via a specialized rectangular attention mechanism. Unlike Retrieval-Augmented Generation, KBLaM eliminates external retrieval modules, and unlike in-context learning, its computational overhead scales linearly with KB size rather than quadratically. Our approach enables integrating a large KB of more than 10K triples into an 8B pre-trained LLM of only 8K context window on one single A100 80GB GPU and allows for dynamic updates without model fine-tuning or retraining. Experiments demonstrate KBLaM's effectiveness in various tasks, including question-answering and open-ended reasoning, while providing interpretable insights into its use of the augmented knowledge.
翻訳日:2024-10-29 21:34:52 公開日:2024-10-14
# 人間専門家とのコラボレーションにおけるベイズ最適化の原理

Principled Bayesian Optimisation in Collaboration with Human Experts ( http://arxiv.org/abs/2410.10452v1 )

ライセンス: Link先を確認
Wenjie Xu, Masaki Adachi, Colin N. Jones, Michael A. Osborne, (参考訳) 実世界の問題に対するベイズ最適化は、しばしば人間の専門家と対話的に行われ、それらのドメイン知識を統合することが最適化プロセスを加速する鍵となる。 我々は、バイナリアクセプション/リジェクトレコメンデーション(ラベル)を通じて、専門家が次のクエリポイントに対してアドバイスを提供する設定を検討します。 専門家のラベルは費用がかかることが多く、その努力を効率的に利用する必要がある。 2つの重要な保証を提供する、最初の原則付きアプローチを導入します。 1) ハンドオーバ保証: 非regretプロパティと同様、専門家のバイナリラベルの累積個数に基づくサブリニアを確立する。 当初はクエリ毎に複数のラベルが必要であるが、専門家ラベルの数は漸近的にゼロに収束し、専門家の努力と計算時間を節約する必要がある。 2)データ駆動型信頼水準調整によるノハーム保証:我々の適応的信頼水準は、専門家のアドバイスが敵対的であっても、アドバイスを使わずに収束率が悪くなることはないことを保証します。 信頼度調整を手作業で行うユーザ定義関数を用いた既存手法とは異なり,本手法はデータ駆動型調整を可能にする。 実世界のアプリケーションでは,本手法が既存のベースラインを上回り,ラベル付け精度が異なるにもかかわらず頑健性を維持することを実証的に実証している。

Bayesian optimisation for real-world problems is often performed interactively with human experts, and integrating their domain knowledge is key to accelerate the optimisation process. We consider a setup where experts provide advice on the next query point through binary accept/reject recommendations (labels). Experts' labels are often costly, requiring efficient use of their efforts, and can at the same time be unreliable, requiring careful adjustment of the degree to which any expert is trusted. We introduce the first principled approach that provides two key guarantees. (1) Handover guarantee: similar to a no-regret property, we establish a sublinear bound on the cumulative number of experts' binary labels. Initially, multiple labels per query are needed, but the number of expert labels required asymptotically converges to zero, saving both expert effort and computation time. (2) No-harm guarantee with data-driven trust level adjustment: our adaptive trust level ensures that the convergence rate will not be worse than the one without using advice, even if the advice from experts is adversarial. Unlike existing methods that employ a user-defined function that hand-tunes the trust level adjustment, our approach enables data-driven adjustments. Real-world applications empirically demonstrate that our method not only outperforms existing baselines, but also maintains robustness despite varying labelling accuracy, in tasks of battery design with human experts.
翻訳日:2024-10-29 21:34:52 公開日:2024-10-14
# 自己評価生成:実世界における光学フローとステレオマッチングのための信頼できるラベル生成

Self-Assessed Generation: Trustworthy Label Generation for Optical Flow and Stereo Matching in Real-world ( http://arxiv.org/abs/2410.10453v1 )

ライセンス: Link先を確認
Han Ling, Yinghui Sun, Quansen Sun, Ivor Tsang, Yuhui Zheng, (参考訳) 現在の光学的流れとステレオ法に直面する重要な課題は、それらを現実世界にうまく一般化することの難しさである。 これは、データセットを作成するのに必要な高コストと、ファジィな結果に対する既存の自己教師型メソッドの制限と複雑なモデルトレーニングの問題が主な原因である。 このような課題に対処するため、光学フローとステレオタスクのための統合された自己教師付き一般化フレームワーク(SAG: Self-Assessed Generation)を提案する。 従来の自己教師型手法とは異なり、SAGはデータ駆動であり、高度な再構成技術を用いてRGB画像から再構成フィールドを構築し、それに基づいてデータセットを生成する。 その後、再構成フィールド分布、幾何整合性、構造的類似性といった複数の視点から生成した結果の信頼性レベルを定量化し、生成プロセスにおける避けられない欠陥を排除した。 また,SAGにおける3次元飛行前景自動レンダリングパイプラインを設計し,ネットワークに閉塞や移動前景の学習を促す。 実験により、SAGはメソッドやロス関数の変更を伴わないため、最先端のディープネットワークを直接自己教師し、現在の主流の光学フローとステレオマッチングデータセット上での自己教師付きメソッドの一般化性能を大幅に向上させることができる。 従来の訓練モードと比較して、SAGはより一般化され、費用対効果があり、正確である。

A significant challenge facing current optical flow and stereo methods is the difficulty in generalizing them well to the real world. This is mainly due to the high costs required to produce datasets, and the limitations of existing self-supervised methods on fuzzy results and complex model training problems. To address the above challenges, we propose a unified self-supervised generalization framework for optical flow and stereo tasks: Self-Assessed Generation (SAG). Unlike previous self-supervised methods, SAG is data-driven, using advanced reconstruction techniques to construct a reconstruction field from RGB images and generate datasets based on it. Afterward, we quantified the confidence level of the generated results from multiple perspectives, such as reconstruction field distribution, geometric consistency, and structural similarity, to eliminate inevitable defects in the generation process. We also designed a 3D flight foreground automatic rendering pipeline in SAG to encourage the network to learn occlusion and motion foreground. Experimentally, because SAG does not involve changes to methods or loss functions, it can directly self-supervised train the state-of-the-art deep networks, greatly improving the generalization performance of self-supervised methods on current mainstream optical flow and stereo-matching datasets. Compared to previous training modes, SAG is more generalized, cost-effective, and accurate.
翻訳日:2024-10-29 21:34:52 公開日:2024-10-14
# タスクから得られるものすべてを用いたFew-Shotテキスト分類のためのメタラーニングの改善

Improve Meta-learning for Few-Shot Text Classification with All You Can Acquire from the Tasks ( http://arxiv.org/abs/2410.10454v1 )

ライセンス: Link先を確認
Xinyue Liu, Yunlong Gao, Linlin Zong, Bo Xu, (参考訳) メタラーニングは、数ショットのテキスト分類において顕著な技術として登場し、有望なパフォーマンスを達成した。 しかし、既存の手法では、サポートセットのサンプルから正確なクラスプロトタイプを作成するのが困難である場合が多く、主に、大きなクラス内差と、タスク内のクラス間差が小さいためである。 最近のアプローチでは、外部知識や事前訓練された言語モデルを組み込んでデータを拡張しようとするが、これは追加のリソースを必要とするため、いくつかのシナリオには適さない。 本稿では,タスク自体の情報を適切に活用して,この問題に対処する新しいソリューションを提案する。 具体的には,ラベル情報を用いてタスク適応距離空間を構築し,クラス内差を適応的に低減し,クラス間差を増大させる。 さらに,クエリセットのサンプルを用いてクラスプロトタイプを推定し,クラス内での大きな違いに起因する不正確で曖昧なサポートセットの問題を緩和するために,最適なトランスポート手法を用いる。 8つのベンチマークデータセットに対して広範な実験を行い、我々のアプローチは、すべてのデータセット上のすべてのタスクに対して、最先端のモデルよりも明らかなアドバンテージを示す。 再現性のために、すべてのデータセットとコードはhttps://github.com/YvoGao/LAQDA.comで入手できる。

Meta-learning has emerged as a prominent technology for few-shot text classification and has achieved promising performance. However, existing methods often encounter difficulties in drawing accurate class prototypes from support set samples, primarily due to probable large intra-class differences and small inter-class differences within the task. Recent approaches attempt to incorporate external knowledge or pre-trained language models to augment data, but this requires additional resources and thus does not suit many few-shot scenarios. In this paper, we propose a novel solution to address this issue by adequately leveraging the information within the task itself. Specifically, we utilize label information to construct a task-adaptive metric space, thereby adaptively reducing the intra-class differences and magnifying the inter-class differences. We further employ the optimal transport technique to estimate class prototypes with query set samples together, mitigating the problem of inaccurate and ambiguous support set samples caused by large intra-class differences. We conduct extensive experiments on eight benchmark datasets, and our approach shows obvious advantages over state-of-the-art models across all the tasks on all the datasets. For reproducibility, all the datasets and codes are available at https://github.com/YvoGao/LAQDA.
翻訳日:2024-10-29 21:34:52 公開日:2024-10-14
# LLM強調表現類似性融合による学術知識検索の促進

Advancing Academic Knowledge Retrieval via LLM-enhanced Representation Similarity Fusion ( http://arxiv.org/abs/2410.10455v1 )

ライセンス: Link先を確認
Wei Dai, Peng Fu, Chunjing Gan, (参考訳) 堅牢な技術的成長と迅速な情報更新を特徴とする時代には、研究者や大衆に様々な領域にまたがる先進的な学問的洞察を最上位層で与えることが急務となっている。 KDDカップ2024 AQAチャレンジは、科学調査に適した論文から関連する学術用語を識別する検索モデルの改善を目的としている。 本稿では,Robo Space が提案した LLM-KnowSimFuser について紹介する。 複数のタスクにおけるLLMの優れた性能からインスピレーションを得て、提案したデータセットを慎重に分析した後、まずLLM強化事前学習検索モデルを用いて微調整と推論を行い、このタスクにLLMの膨大な言語理解とオープンドメイン知識を導入し、続いて推論結果から得られた類似性行列に基づく重み付き融合を行う。 最後に,コンペティションデータセットを用いて行った実験から,最終リーダーボードで0.20726のスコアを得た提案の優位性を示した。

In an era marked by robust technological growth and swift information renewal, furnishing researchers and the populace with top-tier, avant-garde academic insights spanning various domains has become an urgent necessity. The KDD Cup 2024 AQA Challenge is geared towards advancing retrieval models to identify pertinent academic terminologies from suitable papers for scientific inquiries. This paper introduces the LLM-KnowSimFuser proposed by Robo Space, which wins the 2nd place in the competition. With inspirations drawed from the superior performance of LLMs on multiple tasks, after careful analysis of the provided datasets, we firstly perform fine-tuning and inference using LLM-enhanced pre-trained retrieval models to introduce the tremendous language understanding and open-domain knowledge of LLMs into this task, followed by a weighted fusion based on the similarity matrix derived from the inference results. Finally, experiments conducted on the competition datasets show the superiority of our proposal, which achieved a score of 0.20726 on the final leaderboard.
翻訳日:2024-10-29 21:34:52 公開日:2024-10-14
# マルチエージェントシステムのための構成遮蔽と強化学習

Compositional Shielding and Reinforcement Learning for Multi-Agent Systems ( http://arxiv.org/abs/2410.10460v1 )

ライセンス: Link先を確認
Asger Horn Brorholt, Kim Guldstrand Larsen, Christian Schilling, (参考訳) 高度な強化学習は、高性能なポリシーを得るための強力なツールとして登場した。 しかし、これらの政策の安全性は長年にわたる問題であった。 安全を保証するための有望なパラダイムの1つは、安全でない行動からポリシーを守るシールドである。 しかし、シールドの計算は状態変数の数で指数関数的にスケールする。 これは多くのエージェントを持つマルチエージェントシステムにおいて特に懸念される。 本研究では,マルチエージェント遮蔽のための新しい手法を提案する。 エージェント毎に個々のシールドを演算することでスケーラビリティに対処する。 問題なのは、典型的な安全仕様はグローバルな性質であるが、個々のエージェントのシールドはローカルな性質を保証するだけである。 この課題を克服する鍵は、前提指導者の推論を適用することです。 具体的には、個々のエージェントのシールドに対する(グローバルで複雑な)安全仕様を(局所的で単純な)義務に分解する健全な証明規則を提案する。 さらに,強化学習におけるシールドの適用により,所定のトレーニング予算で得られた方針の質が著しく向上することを示す。 マルチエージェント遮蔽フレームワークの有効性とスケーラビリティを2つのケーススタディで実証し、計算時間を数時間から秒に短縮し、高速な学習収束を実現する。

Deep reinforcement learning has emerged as a powerful tool for obtaining high-performance policies. However, the safety of these policies has been a long-standing issue. One promising paradigm to guarantee safety is a shield, which shields a policy from making unsafe actions. However, computing a shield scales exponentially in the number of state variables. This is a particular concern in multi-agent systems with many agents. In this work, we propose a novel approach for multi-agent shielding. We address scalability by computing individual shields for each agent. The challenge is that typical safety specifications are global properties, but the shields of individual agents only ensure local properties. Our key to overcome this challenge is to apply assume-guarantee reasoning. Specifically, we present a sound proof rule that decomposes a (global, complex) safety specification into (local, simple) obligations for the shields of the individual agents. Moreover, we show that applying the shields during reinforcement learning significantly improves the quality of the policies obtained for a given training budget. We demonstrate the effectiveness and scalability of our multi-agent shielding framework in two case studies, reducing the computation time from hours to seconds and achieving fast learning convergence.
翻訳日:2024-10-29 21:24:58 公開日:2024-10-14
# TABCF: Transformer-based VAE を用いた語彙データの非現実的説明

TABCF: Counterfactual Explanations for Tabular Data Using a Transformer-Based VAE ( http://arxiv.org/abs/2410.10463v1 )

ライセンス: Link先を確認
Emmanouil Panagiotou, Manuel Heurich, Tim Landgraf, Eirini Ntoutsi, (参考訳) 説明可能なAI(XAI: Explainable AI)の分野では、予測を変更する入力の変更を提案することによってブラックボックスモデルを解釈する、対実的(CF)説明が顕著な方法の1つである。 現実世界のアプリケーションでは、入力は主に表形式で行われ、混合データ型と複雑な特徴相互依存性から構成される。 これらのユニークなデータ特性はモデル化が困難であり、CFを生成する際に特定の特徴タイプに偏りがあることを経験的に示します。 この問題を解決するために,表データのモデリングに適した変分自動エンコーダ(VAE)を利用したCF説明手法であるABCFを導入する。 提案手法は変圧器を用いて連続的な潜伏空間と,エンドツーエンドの微分性を保ちながら正確な分類的再構成を可能にする新しいGumbel-Softmaxデトケナイザを学習する。 5つのファイナンシャルデータセットの大規模な定量的評価は、TABCFが特定の特徴タイプに偏りを示さないことを示し、一般的なCFデシラタと整合する有効なCFの生成において、既存の手法よりも優れていることを示している。

In the field of Explainable AI (XAI), counterfactual (CF) explanations are one prominent method to interpret a black-box model by suggesting changes to the input that would alter a prediction. In real-world applications, the input is predominantly in tabular form and comprised of mixed data types and complex feature interdependencies. These unique data characteristics are difficult to model, and we empirically show that they lead to bias towards specific feature types when generating CFs. To overcome this issue, we introduce TABCF, a CF explanation method that leverages a transformer-based Variational Autoencoder (VAE) tailored for modeling tabular data. Our approach uses transformers to learn a continuous latent space and a novel Gumbel-Softmax detokenizer that enables precise categorical reconstruction while preserving end-to-end differentiability. Extensive quantitative evaluation on five financial datasets demonstrates that TABCF does not exhibit bias toward specific feature types, and outperforms existing methods in producing effective CFs that align with common CF desiderata.
翻訳日:2024-10-29 21:24:58 公開日:2024-10-14
# 工学的任意フローケットハミルトニアンの摂動的枠組み

Perturbative Framework for Engineering Arbitrary Floquet Hamiltonian ( http://arxiv.org/abs/2410.10467v1 )

ライセンス: Link先を確認
Yingdan Xu, Lingzhen Guo, (参考訳) Floquet-Magnus展開に基づく周期駆動発振器のフロケ位相空間における任意の目標ハミルトニアンを設計するための体系的摂動フレームワークを開発する。 工学的なフロケ・ハミルトンの高次誤差は、高次駆動電位を摂動的に付加することによって緩和される。 特に,高次補正ドライブの計算を可能にするブラケット変換を導入する。 我々は、フォールトトレラントなハードウェア効率のボソニック量子計算において重要な位相空間における離散回転対称性とカイラル対称性を持つターゲットハミルトニアンを設計するために、本手法を適用した。

We develop a systematic perturbative framework to engineer an arbitrary target Hamiltonian in the Floquet phase space of a periodically driven oscillator based on Floquet-Magnus expansion. The high-order errors in the engineered Floquet Hamiltonian are mitigated by adding high-order driving potentials perturbatively. Especially, we introduce a bracket transformation that makes the calculation of high-order correction drives feasible. We apply our method to engineering a target Hamiltonian with discrete rotational and chiral symmetries in phase space that are important for fault-tolerant hardware-efficiency bosonic quantum computation.
翻訳日:2024-10-29 21:24:58 公開日:2024-10-14
# Moirai-MoE: 専門知識の少ない時系列モデル

Moirai-MoE: Empowering Time Series Foundation Models with Sparse Mixture of Experts ( http://arxiv.org/abs/2410.10469v1 )

ライセンス: Link先を確認
Xu Liu, Juncheng Liu, Gerald Woo, Taha Aksu, Yuxuan Liang, Roger Zimmermann, Chenghao Liu, Silvio Savarese, Caiming Xiong, Doyen Sahoo, (参考訳) 時系列基礎モデルは、ゼロショット予測器として素晴らしいパフォーマンスを示している。 しかしながら、時系列上で効果的に統一されたトレーニングを実現することは、未解決の課題である。 既存のアプローチでは、時系列データの非常にヘテロジニアスな性質を考慮するために、ある程度のモデルの特殊化を導入している。 例えば、Moiraiは複数の入出力プロジェクションレイヤを使用して、特定の周波数で時系列を処理するように調整された統合トレーニングを行っている。 同様に、TimesFMはこの目的のために周波数埋め込み辞書を維持している。 1)周波数は時系列における基本パターンの信頼性を示す指標ではない。 例えば、異なる周波数の時系列は同様のパターンを示すが、同じ周波数の時系列は異なるパターンを示すことがある。 2)非定常性は実世界の時系列の本質的な性質であり、単一の時系列の短いコンテキストウィンドウ内でも様々な分布をもたらす。 周波数レベルの特殊化は、このレベルの多様性を捉えるには大きすぎる。 これらの制約に対処するため,トランスフォーマー内のエキスパート(MoE)の疎混合に様々な時系列パターンのモデリングを委譲しながら,単一入出力プロジェクション層を用いたモイライ-MoEを提案する。 これらの設計により、Moirai-MoEは人間の定義したヒューリスティックスへの依存を減らし、トークンレベルの自動特殊化を可能にする。 39のデータセットに対する大規模な実験は、既存の基盤モデルよりも、分配シナリオとゼロショットシナリオの両方において、Moirai-MoEの優位性を実証している。 さらに,本研究では,時系列MOEファンデーションモデルの内部動作の総合的なモデル解析を行い,今後の研究に有用な知見を提供する。

Time series foundation models have demonstrated impressive performance as zero-shot forecasters. However, achieving effectively unified training on time series remains an open challenge. Existing approaches introduce some level of model specialization to account for the highly heterogeneous nature of time series data. For instance, Moirai pursues unified training by employing multiple input/output projection layers, each tailored to handle time series at a specific frequency. Similarly, TimesFM maintains a frequency embedding dictionary for this purpose. We identify two major drawbacks to this human-imposed frequency-level model specialization: (1) Frequency is not a reliable indicator of the underlying patterns in time series. For example, time series with different frequencies can display similar patterns, while those with the same frequency may exhibit varied patterns. (2) Non-stationarity is an inherent property of real-world time series, leading to varied distributions even within a short context window of a single time series. Frequency-level specialization is too coarse-grained to capture this level of diversity. To address these limitations, this paper introduces Moirai-MoE, using a single input/output projection layer while delegating the modeling of diverse time series patterns to the sparse mixture of experts (MoE) within Transformers. With these designs, Moirai-MoE reduces reliance on human-defined heuristics and enables automatic token-level specialization. Extensive experiments on 39 datasets demonstrate the superiority of Moirai-MoE over existing foundation models in both in-distribution and zero-shot scenarios. Furthermore, this study conducts comprehensive model analyses to explore the inner workings of time series MoE foundation models and provides valuable insights for future research.
翻訳日:2024-10-29 21:24:58 公開日:2024-10-14
# LLMはテンポラルリレーショナル分類においてエンコーダのみのモデルを置き換えるか?

Will LLMs Replace the Encoder-Only Models in Temporal Relation Classification? ( http://arxiv.org/abs/2410.10476v1 )

ライセンス: Link先を確認
Gabriel Roccabruna, Massimo Rizzoli, Giuseppe Riccardi, (参考訳) イベント間の時間関係の自動検出は,RoBERTaのようなエンコーダのみのモデルで主に研究されている。 大規模言語モデル(LLM)は、最近、時間的質問応答のような時間的推論タスクにおいて、有望なパフォーマンスを示している。 しかし、近年の研究では、閉ソースモデルの時間的関係のみを検出し、それらの解釈可能性を制限するためにLLMの性能を検証している。 本研究では,時間関係分類タスクにおけるLLMの性能と決定過程について検討する。 まず,コンテクスト内学習と軽量微調整手法を用いて,オープンでクローズドな7つのLLMの性能評価を行った。 結果,テキスト内学習を用いたLLMは,RoBERTaに基づくエンコーダのみのモデルでは著しく性能が劣ることがわかった。 そして、説明可能な方法を適用することによって、このギャップの考えられる理由を掘り下げる。 この結果は、自己回帰的な性質のため、このタスクにおけるLSMの制限が示され、配列の最後の部分にのみ焦点をあてることになる。 さらに、これらの2つのモデルの単語埋め込みを評価し、事前学習の違いをよりよく理解する。 コードと微調整されたモデルはそれぞれGitHubにある。

The automatic detection of temporal relations among events has been mainly investigated with encoder-only models such as RoBERTa. Large Language Models (LLM) have recently shown promising performance in temporal reasoning tasks such as temporal question answering. Nevertheless, recent studies have tested the LLMs' performance in detecting temporal relations of closed-source models only, limiting the interpretability of those results. In this work, we investigate LLMs' performance and decision process in the Temporal Relation Classification task. First, we assess the performance of seven open and closed-sourced LLMs experimenting with in-context learning and lightweight fine-tuning approaches. Results show that LLMs with in-context learning significantly underperform smaller encoder-only models based on RoBERTa. Then, we delve into the possible reasons for this gap by applying explainable methods. The outcome suggests a limitation of LLMs in this task due to their autoregressive nature, which causes them to focus only on the last part of the sequence. Additionally, we evaluate the word embeddings of these two models to better understand their pre-training differences. The code and the fine-tuned models can be found respectively on GitHub.
翻訳日:2024-10-29 21:24:58 公開日:2024-10-14
# TMGBench: LLMの戦略推論能力を評価するためのシステムゲームベンチマーク

TMGBench: A Systematic Game Benchmark for Evaluating Strategic Reasoning Abilities of LLMs ( http://arxiv.org/abs/2410.10479v1 )

ライセンス: Link先を確認
Haochuan Wang, Xiachong Feng, Lei Li, Zhanyue Qin, Dianbo Sui, Lingpeng Kong, (参考訳) 大規模言語モデル (LLMs) の急速な進歩は推論においてその適用を加速させ、戦略的推論が注目を集めている。 LLMの戦略的推論能力を評価するために、ゲーム理論は、その簡潔な構造で好まれるアプローチとなっている。 しかし、現在の研究は限定的なゲームの選択に焦点を当てており、その結果、カバー範囲が低くなる。 古典的なゲームシナリオはデータの漏洩を危険にさらすが、既存のベンチマークは拡張性に欠けることが多く、最先端のモデルを評価するには不十分である。 これらの課題に対処するため,ゲームタイプの包括的カバレッジ,新たなシナリオ,フレキシブルな組織のベンチマークであるTMGBenchを提案する。 具体的には、古典ゲームとして構築された2x2ゲームのロビンソン・ゴーフォース位相によって要約された144種類のゲームタイプをすべて組み込む。 我々はまた、ストーリーベースゲームと呼ばれるトピックガイダンスやヒューマンインスペクションを通じて、多彩で高品質なシナリオを作成するために、合成データ生成も採用している。 最後に、これらのゲームを原子単位として扱い、それらをシーケンシャル、並列、ネストされた構造を介してより複雑な形式に整理することで、より強力なLLMのための持続可能なフレームワークを提供する。 本稿では,論理的推論,ロバスト性,理論・オブ・ミンド(ToM),複雑な形式による推論を包括的に評価する。 その結果、ToMの精度、一貫性、および様々な熟達性の欠陥が明らかになった。 さらに、OpenAIの最新推論モデルであるo1-miniは、シーケンシャル、並列、ネストされたゲームで66.6%、60.0%、70.0%の精度を達成し、TMGBenchの課題を強調した。

The rapid advancement of large language models (LLMs) has accelerated their application in reasoning, with strategic reasoning drawing increasing attention. To evaluate LLMs' strategic reasoning capabilities, game theory, with its concise structure, has become a preferred approach. However, current research focuses on a limited selection of games, resulting in low coverage. Classic game scenarios risk data leakage, and existing benchmarks often lack extensibility, making them inadequate for evaluating state-of-the-art models. To address these challenges, we propose TMGBench, a benchmark with comprehensive game type coverage, novel scenarios, and flexible organization. Specifically, we incorporate all 144 game types summarized by the Robinson-Goforth topology of 2x2 games, constructed as classic games. We also employ synthetic data generation to create diverse, higher-quality scenarios through topic guidance and human inspection, referred to as story-based games. Lastly, we provide a sustainable framework for increasingly powerful LLMs by treating these games as atomic units and organizing them into more complex forms via sequential, parallel, and nested structures. Our comprehensive evaluation of mainstream LLMs covers tests on rational reasoning, robustness, Theory-of-Mind (ToM), and reasoning in complex forms. Results reveal flaws in accuracy, consistency, and varying mastery of ToM. Additionally, o1-mini, OpenAI's latest reasoning model, achieved accuracy rates of 66.6%, 60.0%, and 70.0% on sequential, parallel, and nested games, highlighting TMGBench's challenges.
翻訳日:2024-10-29 21:24:58 公開日:2024-10-14
# 大規模言語モデルに対するモデルベース差分的知識伝達

Model-Based Differentially Private Knowledge Transfer for Large Language Models ( http://arxiv.org/abs/2410.10481v1 )

ライセンス: Link先を確認
Zhaomin Wu, Jizhou Guo, Junyi Hou, Bingsheng He, Lixin Fan, Qiang Yang, (参考訳) 大規模言語モデル(LLM)がWebサービスでますます普及するにつれて、ドメイン固有の知識を効果的に活用し、プライバシの確保が重要になっている。 検索強化生成(RAG)や微分プライベートなデータ合成といった既存の手法は、ドメイン知識の実用性や機密データのプライバシーを損なうことが多く、特定のドメインにおける適用性を制限している。 これらの課題に対処するために、プライバシ保護、ドメイン固有のモデルをLLMに統合する新しいフレームワークである「textit{Llamdex}」を提案する。 提案手法はドメイン固有のタスクの精度を大幅に向上させ,同一の差分プライバシー制約下での既存手法と比較して最大26倍の改善を実現した。 実験の結果,Llamdex は LLM 応答の精度を向上するだけでなく,従来の LLM に匹敵する推論効率も維持し,実世界の応用の可能性を強調した。

As large language models (LLMs) become increasingly prevalent in web services, effectively leveraging domain-specific knowledge while ensuring privacy has become critical. Existing methods, such as retrieval-augmented generation (RAG) and differentially private data synthesis, often compromise either the utility of domain knowledge or the privacy of sensitive data, limiting their applicability in specialized domains. To address these challenges, we propose \textit{Llamdex}, a novel framework that integrates privacy-preserving, domain-specific models into LLMs. Our approach significantly enhances the accuracy of domain-specific tasks, achieving up to a 26\% improvement compared to existing methods under the same differential privacy constraints. Experimental results show that Llamdex not only improves the accuracy of LLM responses but also maintains comparable inference efficiency to the original LLM, highlighting its potential for real-world applications.
翻訳日:2024-10-29 21:24:58 公開日:2024-10-14
# 順応的正規化を用いたAI駆動型熱画像を用いた新生児ケアの精密出生時検出

Advancing Newborn Care: Precise Birth Time Detection Using AI-Driven Thermal Imaging with Adaptive Normalization ( http://arxiv.org/abs/2410.10483v1 )

ライセンス: Link先を確認
Jorge García-Torres, Øyvind Meinich-Bache, Anders Johannessen, Siren Rettedal, Vilde Kolstad, Kjersti Engan, (参考訳) 新生児の約5~10 %は呼吸を始めるのに補助が必要である。 現在、エビデンスに基づく研究、客観的データ収集、および本当の新生児蘇生緊急イベントから学ぶ機会の欠如がある。 Time of Birth (ToB)に対する自動新生児蘇生アルゴリズムのアクティビティタイムラインの生成と評価は、新生児ケアの実践を強化するための有望な機会を提供する。 出生直後の「黄金分」における即時蘇生介入の重要性を考えると、第2の精度の正確なToBは、新生児蘇生エピソードの効果的な分析に不可欠である。 代わりに、ToBは一般に手動で登録され、しばしば微小な精度で登録される。 本研究では,人工知能(AI)とサーマルイメージングの融合を探求し,AI駆動型ToB検出器を開発した。 温度情報の利用は、医療提供者や母親のプライバシーを尊重しながら新生児を検出するための有望な代替手段を提供する。 しかし、特にマルチカメラ装置における熱測定の不整合は、正規化戦略を重要視している。 まず、温度変動に関連する問題を緩和するため、ガウス混合モデル(GMM)に基づく適応正規化手法を提案し、次に、熱ビデオフレーム内の新生児の存在を検出するためにAIモデルを実装、デプロイし、第3に、モデルの予測を評価、後処理し、ToBを推定する。 熱フレーム内での新生児の検出において,88.1\%の精度と89.3\%のリコールが報告された。 提案手法は手動のアノテーションに対するToBの推定において,絶対的な2.7秒の偏差を実現する。

Around 5-10\% of newborns need assistance to start breathing. Currently, there is a lack of evidence-based research, objective data collection, and opportunities for learning from real newborn resuscitation emergency events. Generating and evaluating automated newborn resuscitation algorithm activity timelines relative to the Time of Birth (ToB) offers a promising opportunity to enhance newborn care practices. Given the importance of prompt resuscitation interventions within the "golden minute" after birth, having an accurate ToB with second precision is essential for effective subsequent analysis of newborn resuscitation episodes. Instead, ToB is generally registered manually, often with minute precision, making the process inefficient and susceptible to error and imprecision. In this work, we explore the fusion of Artificial Intelligence (AI) and thermal imaging to develop the first AI-driven ToB detector. The use of temperature information offers a promising alternative to detect the newborn while respecting the privacy of healthcare providers and mothers. However, the frequent inconsistencies in thermal measurements, especially in a multi-camera setup, make normalization strategies critical. Our methodology involves a three-step process: first, we propose an adaptive normalization method based on Gaussian mixture models (GMM) to mitigate issues related to temperature variations; second, we implement and deploy an AI model to detect the presence of the newborn within the thermal video frames; and third, we evaluate and post-process the model's predictions to estimate the ToB. A precision of 88.1\% and a recall of 89.3\% are reported in the detection of the newborn within thermal frames during performance evaluation. Our approach achieves an absolute median deviation of 2.7 seconds in estimating the ToB relative to the manual annotations.
翻訳日:2024-10-29 21:24:58 公開日:2024-10-14
# 衛星画像のシャープ性評価のための新しい非参照画像品質指標

A Novel No-Reference Image Quality Metric For Assessing Sharpness In Satellite Imagery ( http://arxiv.org/abs/2410.10488v1 )

ライセンス: Link先を確認
Lucas Gonzalo Antonel, (参考訳) 本研究では,画像のシャープネスを評価することを目的とした,新しい非参照画像品質指標を提案する。 ノイズ, 露出, コントラスト, 画像内容の変動に対して頑健なように設計され, 明瞭なエッジに沿った勾配の正規化減衰率を測定し, 基準画像のないシャープネス評価の客観的手法を提供する。 主に、シャープネスの人間の視覚的知覚に合わせるために衛星画像のために開発されたこの指標は、衛星画像の監視と品質評価をサポートする。 様々な画像タイプや操作条件にまたがる人間の知覚との整合性において、優れた実用性と優れた性能を示す。 従来のメトリクスとは異なり、このヒューリスティックなアプローチは、画像のシャープさを低くから高く評価する方法を提供しており、プリズムやグラウンドの真実比較を必要とせずに、品質評価プロセスを改善するための信頼性と汎用性を提供する。 さらに、このメトリクスはディープラーニング解析と比較して計算的に効率的であり、より高速でリソース効率の高いシャープネス評価を確実にする。

This study introduces a novel no-reference image quality metric aimed at assessing image sharpness. Designed to be robust against variations in noise, exposure, contrast, and image content, it measures the normalized decay rate of gradients along pronounced edges, offering an objective method for sharpness evaluation without reference images. Primarily developed for satellite imagery to align with human visual perception of sharpness, this metric supports monitoring and quality characterization of satellite fleets. It demonstrates significant utility and superior performance in consistency with human perception across various image types and operational conditions. Unlike conventional metrics, this heuristic approach provides a way to score images from lower to higher sharpness, making it a reliable and versatile tool for enhancing quality assessment processes without the need for pristine or ground truth comparison. Additionally, this metric is computationally efficient compared to deep learning analysis, ensuring faster and more resource-effective sharpness evaluations.
翻訳日:2024-10-29 21:24:58 公開日:2024-10-14
# 大規模言語モデルにおける文化的忠実度:価値表現におけるモデル性能の要因としてのオンライン言語資源の評価

Cultural Fidelity in Large-Language Models: An Evaluation of Online Language Resources as a Driver of Model Performance in Value Representation ( http://arxiv.org/abs/2410.10489v1 )

ライセンス: Link先を確認
Sharif Kazemi, Gloria Gerhardt, Jonty Katz, Caroline Ida Kuria, Estelle Pan, Umang Prabhakar, (参考訳) LLMのトレーニングデータは社会的価値を埋め込んでおり、言語文化への親しみを高めている。 分析の結果,世界価値観調査(World Values Survey)によると,GPT-4oの社会的価値を反映する能力の44%は,その言語におけるデジタルリソースの活用と相関していることがわかった。 特に、エラー率は、最も高いリソースの言語と比較して、最も低いリソースの言語では5倍以上であった。 GPT-4-turboの場合、この相関関係は72%まで上昇し、ウェブスクラッドデータ以外の英語以外の言語との親和性を改善する努力が示唆された。 本研究は,21の国語対を母国語話者が検証した94の質問を含む,このトピック領域で最大かつ最も堅牢なデータセットの1つを開発した。 この結果から,LLM性能とターゲット言語におけるディジタルデータ利用率の関係が明らかになった。 低リソース言語、特にグローバル・サウスで顕著なWeakerのパフォーマンスは、デジタル・ディビジョンを悪化させる可能性がある。 本稿では,アフリカにおける多言語 LLM の開発や,多言語データセットの微調整の強化など,この問題に対処するための戦略について論じる。

The training data for LLMs embeds societal values, increasing their familiarity with the language's culture. Our analysis found that 44% of the variance in the ability of GPT-4o to reflect the societal values of a country, as measured by the World Values Survey, correlates with the availability of digital resources in that language. Notably, the error rate was more than five times higher for the languages of the lowest resource compared to the languages of the highest resource. For GPT-4-turbo, this correlation rose to 72%, suggesting efforts to improve the familiarity with the non-English language beyond the web-scraped data. Our study developed one of the largest and most robust datasets in this topic area with 21 country-language pairs, each of which contain 94 survey questions verified by native speakers. Our results highlight the link between LLM performance and digital data availability in target languages. Weaker performance in low-resource languages, especially prominent in the Global South, may worsen digital divides. We discuss strategies proposed to address this, including developing multilingual LLMs from the ground up and enhancing fine-tuning on diverse linguistic datasets, as seen in African language initiatives.
翻訳日:2024-10-29 21:14:59 公開日:2024-10-14
# 忘れずに地上のVLMを学習する

Learning to Ground VLMs without Forgetting ( http://arxiv.org/abs/2410.10491v1 )

ライセンス: Link先を確認
Aritra Bhowmik, Mohammad Mahdi Derakhshani, Dennis Koelma, Martin R. Oswald, Yuki M. Asano, Cees G. M. Snoek, (参考訳) 空間認識は、具体化されたマルチモーダルAIシステムを実現するための鍵である。 しかし、膨大な空間的監督がなければ、現在のビジュアル言語モデル(VLM)はこの課題に苦慮する。 本稿では,既存の画像や言語理解スキルを忘れずに,事前学習したVLMに視覚的接地能力を持たせるフレームワークであるLynXを紹介する。 そこで本稿では,画像と言語理解に基づいて事前学習した1つのフリーズしたMixture of Experts(MoE)と,新たなグラウンド機能のための学習可能なMoEを用いて,言語モデルのデコーダ層のみを変更するDual Mixture of Expertsモジュールを提案する。 これにより、VLMは学習済みの知識とスキルを維持しながら、不足しているものを取得することができる。 モデルを効果的に訓練するために、私たちはSCouTと呼ばれる高品質な合成データセットを生成します。 このデータセットはリッチな監視信号を提供し、ステップバイステップのマルチモーダル推論プロセスを記述することにより、視覚的な接地作業を簡単にする。 我々は、LynXを複数のオブジェクト検出および視覚的グラウンドデータセットで評価し、オブジェクト検出、ゼロショットローカライゼーション、グラウンドド推論において強力な性能を示しながら、元の画像と言語理解能力を7つの標準ベンチマークデータセット上で維持する。

Spatial awareness is key to enable embodied multimodal AI systems. Yet, without vast amounts of spatial supervision, current Visual Language Models (VLMs) struggle at this task. In this paper, we introduce LynX, a framework that equips pretrained VLMs with visual grounding ability without forgetting their existing image and language understanding skills. To this end, we propose a Dual Mixture of Experts module that modifies only the decoder layer of the language model, using one frozen Mixture of Experts (MoE) pre-trained on image and language understanding and another learnable MoE for new grounding capabilities. This allows the VLM to retain previously learned knowledge and skills, while acquiring what is missing. To train the model effectively, we generate a high-quality synthetic dataset we call SCouT, which mimics human reasoning in visual grounding. This dataset provides rich supervision signals, describing a step-by-step multimodal reasoning process, thereby simplifying the task of visual grounding. We evaluate LynX on several object detection and visual grounding datasets, demonstrating strong performance in object detection, zero-shot localization and grounded reasoning while maintaining its original image and language understanding capabilities on seven standard benchmark datasets.
翻訳日:2024-10-29 21:14:59 公開日:2024-10-14
# プロンプトに基づく画像編集のための視覚誘導とマスク強化適応デノジング

Vision-guided and Mask-enhanced Adaptive Denoising for Prompt-based Image Editing ( http://arxiv.org/abs/2410.10496v1 )

ライセンス: Link先を確認
Kejie Wang, Xuemeng Song, Meng Liu, Weili Guan, Liqiang Nie, (参考訳) テキスト間拡散モデルは、テキストプロンプトから高品質な画像の合成において顕著な進歩を示し、ターゲットプロンプトに従ってソース画像を編集するプロンプトベースの画像編集の研究を促進する。 彼らの進歩にもかかわらず、既存の手法はまだ3つの重要な問題に直面している。 1)ターゲット画像生成を誘導する際のテキストプロンプトの制限容量 2)接地編集領域におけるワープ・ツー・パッチ・ツー・パッチ関係の不十分なマイニング 3) 各段階で全領域の編集強度を統一した。 これらの課題に対処するために,3つの重要な新デザインを持つ視覚誘導・マスク強調適応編集法(ViMAEdit)を提案する。 まず,CLIPに基づく目標画像埋め込み推定戦略を導入する,従来のテキストプロンプトに基づく記述プロセスを強化するために,画像埋め込みを明示的なガイダンスとして活用することを提案する。 第2に、自己注意誘導反復編集領域接地戦略を考案し、自己注意マップが伝達するパッチ・ツー・パッチ関係を反復的に活用し、横断注意マップに含まれるこれらの単語・パッチ関係を洗練させる。 最後に、空間適応型分散誘導サンプリングを行い、重要な画像領域のサンプリング分散を強調し、編集能力を向上する。 実験の結果,ViMAEditの編集能力は既存の方法よりも優れていた。

Text-to-image diffusion models have demonstrated remarkable progress in synthesizing high-quality images from text prompts, which boosts researches on prompt-based image editing that edits a source image according to a target prompt. Despite their advances, existing methods still encounter three key issues: 1) limited capacity of the text prompt in guiding target image generation, 2) insufficient mining of word-to-patch and patch-to-patch relationships for grounding editing areas, and 3) unified editing strength for all regions during each denoising step. To address these issues, we present a Vision-guided and Mask-enhanced Adaptive Editing (ViMAEdit) method with three key novel designs. First, we propose to leverage image embeddings as explicit guidance to enhance the conventional textual prompt-based denoising process, where a CLIP-based target image embedding estimation strategy is introduced. Second, we devise a self-attention-guided iterative editing area grounding strategy, which iteratively exploits patch-to-patch relationships conveyed by self-attention maps to refine those word-to-patch relationships contained in cross-attention maps. Last, we present a spatially adaptive variance-guided sampling, which highlights sampling variances for critical image regions to promote the editing capability. Experimental results demonstrate the superior editing capacity of ViMAEdit over all existing methods.
翻訳日:2024-10-29 21:14:59 公開日:2024-10-14
# 連続学習によるゼロショット動作認識の改善

Continual Learning Improves Zero-Shot Action Recognition ( http://arxiv.org/abs/2410.10497v1 )

ライセンス: Link先を確認
Shreyank N Gowda, Davide Moltisanti, Laura Sevilla-Lara, (参考訳) ゼロショットのアクション認識は、事前学習や見知らぬクラスから新しい見知らぬクラスまでを一般化する強力な能力を必要とする。 同様に、継続学習は、効果的に一般化し、以前に学んだことを忘れずに新しいタスクを学習できるモデルを開発することを目的としている。 ゼロショット学習と連続学習の一般化目標は密接に一致しているが、ゼロショット動作認識には連続学習の技法が適用されていない。 本稿では,ゼロショット動作認識のための連続学習に基づく新しい手法を提案する。 GILと呼ばれるこのモデルは、過去のクラスの合成特徴のメモリを使用し、これらの合成特徴を新しいクラスの実際の特徴と組み合わせる。 メモリは分類モデルをトレーニングするために使用され、古いクラスと新しいクラスの両方にバランスのとれた露出を確保する。 実験により、GILは未確認クラスの一般化を改善し、複数のベンチマークでゼロショット認識の新たな最先端を実現している。 重要なことは、モデルが微調整の前に見られるクラスに関する知識を保持する必要があるような、より難しい一般化されたゼロショット設定におけるパフォーマンスも向上することである。

Zero-shot action recognition requires a strong ability to generalize from pre-training and seen classes to novel unseen classes. Similarly, continual learning aims to develop models that can generalize effectively and learn new tasks without forgetting the ones previously learned. The generalization goals of zero-shot and continual learning are closely aligned, however techniques from continual learning have not been applied to zero-shot action recognition. In this paper, we propose a novel method based on continual learning to address zero-shot action recognition. This model, which we call {\em Generative Iterative Learning} (GIL) uses a memory of synthesized features of past classes, and combines these synthetic features with real ones from novel classes. The memory is used to train a classification model, ensuring a balanced exposure to both old and new classes. Experiments demonstrate that {\em GIL} improves generalization in unseen classes, achieving a new state-of-the-art in zero-shot recognition across multiple benchmarks. Importantly, {\em GIL} also boosts performance in the more challenging generalized zero-shot setting, where models need to retain knowledge about classes seen before fine-tuning.
翻訳日:2024-10-29 21:14:59 公開日:2024-10-14
# 時間的因果推論の実践的アプローチ

A Practical Approach to Causal Inference over Time ( http://arxiv.org/abs/2410.10502v1 )

ライセンス: Link先を確認
Martina Cinquini, Isacco Beretta, Salvatore Ruggieri, Isabel Valera, (参考訳) 本稿では,動的システムにおける介入の因果効果の時間的評価に焦点をあてる。 そこで我々は,因果介入とその時間的効果が離散時間確率過程(DSP)に与える影響を正式に定義する。 次に, 因果介入前後のDSPの平衡状態が, 構造因果モデル (SCM) によって捉えることができる条件を示す。 このような同値性を持ち、ベクトル自己回帰モデル(VAR)から、計量経済学において広く応用されるが、線形でありながら、非測定された共同設立者SCMの影響を受けうる、明示的なマッピングを提供する。 得られた因果VARフレームワークにより、観測時系列データから経時的に因果推論を行うことができる。 提案手法は, 動的システムに対する介入の因果的影響を正確に評価しながら, 観測予測の観点から高い性能を達成できることを示す。 ケーススタディを通じて、提案した因果VARフレームワークを用いて対処できる潜在的な実践的疑問を実証する。

In this paper, we focus on estimating the causal effect of an intervention over time on a dynamical system. To that end, we formally define causal interventions and their effects over time on discrete-time stochastic processes (DSPs). Then, we show under which conditions the equilibrium states of a DSP, both before and after a causal intervention, can be captured by a structural causal model (SCM). With such an equivalence at hand, we provide an explicit mapping from vector autoregressive models (VARs), broadly applied in econometrics, to linear, but potentially cyclic and/or affected by unmeasured confounders, SCMs. The resulting causal VAR framework allows us to perform causal inference over time from observational time series data. Our experiments on synthetic and real-world datasets show that the proposed framework achieves strong performance in terms of observational forecasting while enabling accurate estimation of the causal effect of interventions on dynamical systems. We demonstrate, through a case study, the potential practical questions that can be addressed using the proposed causal VAR framework.
翻訳日:2024-10-29 21:14:59 公開日:2024-10-14
# 深層学習と従来の病気発症予測法の比較

Comparison of deep learning and conventional methods for disease onset prediction ( http://arxiv.org/abs/2410.10505v1 )

ライセンス: Link先を確認
Luis H. John, Chungsoo Kim, Jan A. Kors, Junhyuk Chang, Hannah Morgan-Cooper, Priya Desai, Chao Pang, Peter R. Rijnbeek, Jenna M. Reps, Egill A. Fridgeirsson, (参考訳) 背景:ロジスティック回帰や勾配促進といった従来の予測手法は,その信頼性と解釈可能性の予測に広く利用されている。 深層学習法は臨床データから複雑なパターンを抽出することで予測性能を向上させるが、データの空間性や高次元性といった課題に直面している。 方法: 本研究は, 北米, ヨーロッパ, アジアの11つのデータベースから得られた観測データを用いて, 肺がん, 認知症, 双極性障害を予測するための従来の学習手法と深層学習法を比較した。 モデルはロジスティック回帰、勾配押し上げ、ResNet、Transformerを使用して開発され、内部および外部の両方のデータソースで検証された。 識別性能はAUROCを用いて評価し, キャリブレーションはEavgを用いて評価した。 発見:11のデータセット全体において、従来の手法は、特に外部の検証において、識別性能においてディープラーニングメソッドよりも優れており、より優れたトランスポート性を強調している。 学習曲線は、ディープラーニングモデルが従来の方法と同じパフォーマンスレベルに達するためには、かなり大きなデータセットを必要とすることを示唆している。 キャリブレーション性能は従来の手法よりも優れており、ResNetが最も低いキャリブレーションを示している。 解釈: 構造化された医療データの複雑なパターンを捉えるディープラーニングモデルの可能性にもかかわらず、従来のモデルは、特に小さなデータセットを含むシナリオや、長いトレーニング時間を避ける必要がある場合、病気の発症予測に非常に競争力がある。 この研究は、医療データセットに固有の空間性、高次元性、不均一性を扱うためにディープラーニングモデルを最適化することに焦点を当てた将来の研究の必要性を強調し、ディープラーニング手法の全能力を活用するための新しい戦略を見出す。

Background: Conventional prediction methods such as logistic regression and gradient boosting have been widely utilized for disease onset prediction for their reliability and interpretability. Deep learning methods promise enhanced prediction performance by extracting complex patterns from clinical data, but face challenges like data sparsity and high dimensionality. Methods: This study compares conventional and deep learning approaches to predict lung cancer, dementia, and bipolar disorder using observational data from eleven databases from North America, Europe, and Asia. Models were developed using logistic regression, gradient boosting, ResNet, and Transformer, and validated both internally and externally across the data sources. Discrimination performance was assessed using AUROC, and calibration was evaluated using Eavg. Findings: Across 11 datasets, conventional methods generally outperformed deep learning methods in terms of discrimination performance, particularly during external validation, highlighting their better transportability. Learning curves suggest that deep learning models require substantially larger datasets to reach the same performance levels as conventional methods. Calibration performance was also better for conventional methods, with ResNet showing the poorest calibration. Interpretation: Despite the potential of deep learning models to capture complex patterns in structured observational healthcare data, conventional models remain highly competitive for disease onset prediction, especially in scenarios involving smaller datasets and if lengthy training times need to be avoided. The study underscores the need for future research focused on optimizing deep learning models to handle the sparsity, high dimensionality, and heterogeneity inherent in healthcare datasets, and find new strategies to exploit the full capabilities of deep learning methods.
翻訳日:2024-10-29 21:14:59 公開日:2024-10-14
# インド亜大陸における毎日のスピーチ

Everyday Speech in the Indian Subcontinent ( http://arxiv.org/abs/2410.10508v1 )

ライセンス: Link先を確認
Utkarsh Pathak, Chandra Sai Krishna Gunda, Sujitha Sathiyamoorthy, Keshav Agarwal, Hema A. Murthy, (参考訳) インドには1369の言語があり、うち22が公用語である。 これらの言語を表現するために約13の異なるスクリプトが使用されている。 共通ラベルセット (CLS) は、多言語合成のためのエンド・トゥ・エンド (E2E) フレームワークで必要とされる大量の単位の語彙の問題に対処するために音声学に基づいて開発された。 これはシンセサイザーのフットプリントを減らし、同じファミリーに属する言語スクリプトを条件に、類似のフォノタクティクスを持つ新しい言語への迅速な適応を可能にした。 本稿では,音声合成の新たな知見として,文字が1つの家族に属するのに対して,音声合成は別の家族から来ていることを示す。 インド語のテキストはまずCLSに変換され、その後、言語の音韻律にマッチするシンセサイザーが使用される。 また、サンスクリット語とコンカニ語では、カンナダ語とマラティー語の合成器を用いて、適応データゼロで、母語話者と類似した品質が得られる。 さらにこのアプローチは、特定のネイティブ話者の声の中で13のインド語と英語をシームレスに切り替えることを可能にする。

India has 1369 languages of which 22 are official. About 13 different scripts are used to represent these languages. A Common Label Set (CLS) was developed based on phonetics to address the issue of large vocabulary of units required in the End to End (E2E) framework for multilingual synthesis. This reduced the footprint of the synthesizer and also enabled fast adaptation to new languages which had similar phonotactics, provided language scripts belonged to the same family. In this paper, we provide new insights into speech synthesis, where the script belongs to one family, while the phonotactics comes from another. Indian language text is first converted to CLS, and then a synthesizer that matches the phonotactics of the language is used. Quality akin to that of a native speaker is obtained for Sanskrit and Konkani with zero adaptation data, using Kannada and Marathi synthesizers respectively. Further, this approach also lends itself seamless code switching across 13 Indian languages and English in a given native speaker's voice.
翻訳日:2024-10-29 21:14:59 公開日:2024-10-14
# 人工知能による皮膚メラノサイトーシス病変のトリアージ

Artificial Intelligence-Based Triaging of Cutaneous Melanocytic Lesions ( http://arxiv.org/abs/2410.10509v1 )

ライセンス: Link先を確認
Ruben T. Lucassen, Nikolas Stathonikos, Gerben E. Breimer, Mitko Veta, Willeke A. M. Blokx, (参考訳) 患者数の増加とより包括的な診断の必要性により、病理学者は作業負荷の増大に直面している。 作業負荷低減とターンアラウンドタイムの高速化を目的として,全スライド画像に基づいて皮膚メラノサイト病変をトリアージする人工知能(AI)モデルを開発した。 AIモデルは、Utrechtのレトロスペクティブコホートを使用して開発され、検証された。 このデータセットは、27,167種の標本から52,202枚のスライド画像で構成され、20,707人の患者から取得された。 一般的なネビしか持たない標本は、低複雑性カテゴリー(86.6%)に割り当てられた。 対照的に、非一般的なネビ、メラノサイトーマ、メラノサイトーマを含む他のメラノサイトーシスのサブタイプを持つ標本は、高い複雑性カテゴリー(13.4%)に割り当てられた。 患者レベルでのデータセットは、独立した評価のための開発セット(80%)とテストセット(20%)に分割された。 予測性能は, 受信機動作特性曲線 (AUROC) の領域と高精度リコール曲線 (AUPRC) の領域を用いて測定した。 クリニックにおけるAIベースのトリアージの実装効果をシミュレーション実験により検討した。 AIモデルは、分配テストセットで0.966 (95% CI, 0.960-0.972)、AUPRCで0.857 (95% CI, 0.836-0.877)、AUROCで0.899 (95% CI, 0.860-0.934)、AUPRCで0.498 (95% CI, 0.360-0.639)に達した。 シミュレーション実験では、ランダムケースの割り当てをベースラインとして、AIベースのトリアージは平均43.9 (95% CI, 36-55) の高複雑性症例を500件毎の一般病理医による初期検査を妨げた。 結論として, 皮膚メラノサイト性病変の高度・低複雑性の鑑別において, AIモデルは高い予測性能を示した。 AIベースのトリアージによるワークフロー効率の改善は、大きな意味を持つ可能性がある。

Pathologists are facing an increasing workload due to a growing volume of cases and the need for more comprehensive diagnoses. Aiming to facilitate workload reduction and faster turnaround times, we developed an artificial intelligence (AI) model for triaging cutaneous melanocytic lesions based on whole slide images. The AI model was developed and validated using a retrospective cohort from the UMC Utrecht. The dataset consisted of 52,202 whole slide images from 27,167 unique specimens, acquired from 20,707 patients. Specimens with only common nevi were assigned to the low complexity category (86.6%). In contrast, specimens with any other melanocytic lesion subtype, including non-common nevi, melanocytomas, and melanomas, were assigned to the high complexity category (13.4%). The dataset was split on patient level into a development set (80%) and test sets (20%) for independent evaluation. Predictive performance was primarily measured using the area under the receiver operating characteristic curve (AUROC) and the area under the precision-recall curve (AUPRC). A simulation experiment was performed to study the effect of implementing AI-based triaging in the clinic. The AI model reached an AUROC of 0.966 (95% CI, 0.960-0.972) and an AUPRC of 0.857 (95% CI, 0.836-0.877) on the in-distribution test set, and an AUROC of 0.899 (95% CI, 0.860-0.934) and an AUPRC of 0.498 (95% CI, 0.360-0.639) on the out-of-distribution test set. In the simulation experiment, using random case assignment as baseline, AI-based triaging prevented an average of 43.9 (95% CI, 36-55) initial examinations of high complexity cases by general pathologists for every 500 cases. In conclusion, the AI model achieved a strong predictive performance in differentiating between cutaneous melanocytic lesions of high and low complexity. The improvement in workflow efficiency due to AI-based triaging could be substantial.
翻訳日:2024-10-29 21:14:59 公開日:2024-10-14
# 小データリアルタイムクラウドセマンティックセマンティックセグメンテーションのための局所特徴と範囲画像の爆発的抽出

Exploiting Local Features and Range Images for Small Data Real-Time Point Cloud Semantic Segmentation ( http://arxiv.org/abs/2410.10510v1 )

ライセンス: Link先を確認
Daniel Fusaro, Simone Mosco, Emanuele Menegatti, Alberto Pretto, (参考訳) ポイントクラウドのセマンティックセグメンテーションは、自律運転とロボット工学の環境を理解する上で不可欠なタスクである。 近年のレンジベース研究はリアルタイムな効率性を実現しているが、ポイントベースとボクセルベースの手法はより良い結果をもたらすが、計算の複雑さに影響される。 さらに、非常に複雑なディープラーニングモデルは、小さなデータセットから効率的に学習するのに適していないことが多い。 それらの一般化能力は、アーキテクチャ設計よりも大量のデータによって容易に駆動できる。 本稿では,3次元の表現から得られる情報を利用して局所的な特徴を巧みに捉えるとともに,範囲画像表現を導入して付加情報を取り入れ,高速な計算を容易にする。 GPUベースのKDTreeは、素早いビルド、クエリ、プロジェクションの強化を、簡単な操作で実現している。 SemanticKITTIとnuScenesデータセットに関する大規模な実験は、データセットの1つのシーケンスのみを使用してモデルをトレーニングする‘小さなデータ’セットアップにおいて、私たちの修正のメリットを実証している。 我々のモデルの縮小バージョンは、本格的な最先端モデルに対する強力な競争力を示すだけでなく、リアルタイムに動作できることを示し、現実のケースアプリケーションにとって実行可能な選択肢である。 私たちのメソッドのコードはhttps://github.com/Bender97/WaffleAndRange.orgで公開されています。

Semantic segmentation of point clouds is an essential task for understanding the environment in autonomous driving and robotics. Recent range-based works achieve real-time efficiency, while point- and voxel-based methods produce better results but are affected by high computational complexity. Moreover, highly complex deep learning models are often not suited to efficiently learn from small datasets. Their generalization capabilities can easily be driven by the abundance of data rather than the architecture design. In this paper, we harness the information from the three-dimensional representation to proficiently capture local features, while introducing the range image representation to incorporate additional information and facilitate fast computation. A GPU-based KDTree allows for rapid building, querying, and enhancing projection with straightforward operations. Extensive experiments on SemanticKITTI and nuScenes datasets demonstrate the benefits of our modification in a ``small data'' setup, in which only one sequence of the dataset is used to train the models, but also in the conventional setup, where all sequences except one are used for training. We show that a reduced version of our model not only demonstrates strong competitiveness against full-scale state-of-the-art models but also operates in real-time, making it a viable choice for real-world case applications. The code of our method is available at https://github.com/Bender97/WaffleAndRange.
翻訳日:2024-10-29 21:14:59 公開日:2024-10-14
# セット自動回帰モデリングによる視覚的自己回帰レシピのカスタマイズ

Customize Your Visual Autoregressive Recipe with Set Autoregressive Modeling ( http://arxiv.org/abs/2410.10511v1 )

ライセンス: Link先を確認
Wenze Liu, Le Zhuo, Yi Xin, Sheng Xia, Peng Gao, Xiangyu Yue, (参考訳) 本稿では,SAR(Set AutoRegressive Modeling)と呼ばれる,AutoRegressive(AR)画像生成のための新しいパラダイムを提案する。 SARは、従来のARを、固定されたラスタ順序で各トークンを出力するのではなく、複数のトークンを含む任意の集合に分割する、という次のセット設定に一般化する。 SARに対応するために、Fully Masked Transformerと呼ばれる簡単なアーキテクチャを開発した。 既存のAR変種は、SARフレームワーク内のシーケンス順序と出力間隔の特定の設計選択に対応しており、ARとMasked AR(MAR)は2つの極端なインスタンスである。 特に、SARはARからMARへのシームレスな移行を促進し、中間状態は、数ステップの推論とKVキャッシュアクセラレーションの両方から恩恵を受ける因果モデルのトレーニングを可能にし、ARとMARの両方の利点を活用する。 ImageNetベンチマークでは、シーケンス順序と出力間隔がパフォーマンスに与える影響、および推論順序とステップに関する一般化能力を分析することにより、SARの特性を慎重に検討する。 我々はさらに、9億枚のテキスト・ツー・イメージモデルを訓練し、任意の解像度で写真リアル画像の合成を可能にすることにより、SARの可能性を検証する。 私たちの研究が、さまざまなモダリティをまたいだARベースのモデリングの探求と応用に刺激を与えてくれることを期待しています。

We introduce a new paradigm for AutoRegressive (AR) image generation, termed Set AutoRegressive Modeling (SAR). SAR generalizes the conventional AR to the next-set setting, i.e., splitting the sequence into arbitrary sets containing multiple tokens, rather than outputting each token in a fixed raster order. To accommodate SAR, we develop a straightforward architecture termed Fully Masked Transformer. We reveal that existing AR variants correspond to specific design choices of sequence order and output intervals within the SAR framework, with AR and Masked AR (MAR) as two extreme instances. Notably, SAR facilitates a seamless transition from AR to MAR, where intermediate states allow for training a causal model that benefits from both few-step inference and KV cache acceleration, thus leveraging the advantages of both AR and MAR. On the ImageNet benchmark, we carefully explore the properties of SAR by analyzing the impact of sequence order and output intervals on performance, as well as the generalization ability regarding inference order and steps. We further validate the potential of SAR by training a 900M text-to-image model capable of synthesizing photo-realistic images with any resolution. We hope our work may inspire more exploration and application of AR-based modeling across diverse modalities.
翻訳日:2024-10-29 21:14:59 公開日:2024-10-14
# 量子インターネット:絡み合いルーティングのためのリソース推定

Quantum Internet: Resource Estimation for Entanglement Routing ( http://arxiv.org/abs/2410.10512v1 )

ライセンス: Link先を確認
Manik Dawar, Ralf Riedinger, Nilesh Vyas, Paulo Mendes, (参考訳) 本稿では,第1世代の量子リピータに基づく量子二部交絡ネットワークにおいて,任意の経路に沿った絡み合いをルーティングするために必要な物理資源を推定する問題を考える。 この資源消費は、浄化プロトコルと実験的不完全性に起因するエラーと密接に関連している。 本研究では, 異なる種類の誤差に対して不均一な確率分布を説明できるような, 浄化過程における実験誤差を考慮に入れた新しい手法を提案する。 さらに,資源消費の非再帰的推定を計算するための新しい手法を導入し,ネストされたリピータプロトコル上でのエラー処理について説明する。 これにより、リソース推定に必要な計算の時間的複雑さを、必要な浄化ステップ数の線形から定数に削減することができる。 量子情報の脆弱性と超短寿命を考えると、これは量子ネットワークの効果的な操作には特に重要である。 その結果、近似は広い範囲の誤差に対して合理的に機能することを示した。

We consider the problem of estimating the physical resources required for routing entanglement along an arbitrary path in a quantum bipartite entanglement network based on first-generation quantum repeaters. This resource consumption is intimately linked with the purification protocol and the errors that it introduces due to experimental imperfections. We propose a novel way of accounting for experimental errors in the purification process, which offers the flexibility of accounting for a non uniform probability distribution over different kinds of errors. Moreover, we introduce a novel approach for computing a non-recursive estimation of the resource consumption and illustrate it specifically for our error treatment on a nested repeater protocol. This allows for a reduction in the time complexity of the computation required for the resource estimation, from linear in the required number of purification steps, to constant. Given the fragility and ultra-short lifespans of quantum information, this is especially crucial for an effective operation of a quantum network. The results demonstrate that the approximation works reasonably well over a wide-range of errors.
翻訳日:2024-10-29 21:05:04 公開日:2024-10-14
# より複雑な構造表現は必要か? : 音楽変換器の音符持続時間表現の比較

Do we need more complex representations for structure? A comparison of note duration representation for Music Transformers ( http://arxiv.org/abs/2410.10515v1 )

ライセンス: Link先を確認
Gabriel Souza, Flavio Figueiredo, Alexei Machado, Deborah Guimarães, (参考訳) 近年、ディープラーニングはクリエイティブ・コンピューティングにおいて大きな成果を上げている。 音楽に関しては、音楽生成の実行可能なモデルのひとつがTransformerベースのモデルである。 しかし、トランスフォーマーモデルは音楽生成に人気がある一方で、アノテートされた構造情報に依存していることが多い。 そこで本研究では,既成のMusic Transformerモデルが,注釈のないMIDI情報のみを用いて,構造的類似度の測定を行うかどうかを問う。 最も一般的な表現の微妙な微調整が、小さなが重要な改善をもたらすことを示す。 我々はまた、大量のキュレートされた注釈付きデータを生成するよりも、より良い無意味な音楽表現を探す方がコスト効率が高いことを主張する。

In recent years, deep learning has achieved formidable results in creative computing. When it comes to music, one viable model for music generation are Transformer based models. However, while transformers models are popular for music generation, they often rely on annotated structural information. In this work, we inquire if the off-the-shelf Music Transformer models perform just as well on structural similarity metrics using only unannotated MIDI information. We show that a slight tweak to the most common representation yields small but significant improvements. We also advocate that searching for better unannotated musical representations is more cost-effective than producing large amounts of curated and annotated data.
翻訳日:2024-10-29 21:05:04 公開日:2024-10-14
# UniGEM: 分子の生成と特性予測への統一的なアプローチ

UniGEM: A Unified Approach to Generation and Property Prediction for Molecules ( http://arxiv.org/abs/2410.10516v1 )

ライセンス: Link先を確認
Shikun Feng, Yuyan Ni, Yan Lu, Zhi-Ming Ma, Wei-Ying Ma, Yanyan Lan, (参考訳) 分子生成と分子特性予測はどちらも薬物発見に不可欠であるが、しばしば独立して開発される。 近年の研究では, 予測的タスクを向上する有意義なデータ表現を, 拡散モデルによって学習できることが示されており, 分子生成と特性予測の両方に効果的に対処する分子領域における統一的生成モデルの開発の可能性を探っている。 しかし、これらのタスクの統合は固有の矛盾のため困難であり、単純なマルチタスク学習を非効率にする。 そこで本研究では,分子生成と特性予測をうまく統合する最初の統一モデルUniGEMを提案する。 我々の重要な革新は、分子足場が形成された後、後段で予測タスクが活性化される新しい2相生成プロセスにある。 革新的なトレーニング戦略を通じてタスクバランスをさらに強化する。 厳密な理論的解析と包括的実験は、両方のタスクにおいて重要な改善を示す。 UniGEMの背景にある原則は、自然言語処理やコンピュータビジョンなど幅広い応用を約束している。

Molecular generation and molecular property prediction are both crucial for drug discovery, but they are often developed independently. Inspired by recent studies, which demonstrate that diffusion model, a prominent generative approach, can learn meaningful data representations that enhance predictive tasks, we explore the potential for developing a unified generative model in the molecular domain that effectively addresses both molecular generation and property prediction tasks. However, the integration of these tasks is challenging due to inherent inconsistencies, making simple multi-task learning ineffective. To address this, we propose UniGEM, the first unified model to successfully integrate molecular generation and property prediction, delivering superior performance in both tasks. Our key innovation lies in a novel two-phase generative process, where predictive tasks are activated in the later stages, after the molecular scaffold is formed. We further enhance task balance through innovative training strategies. Rigorous theoretical analysis and comprehensive experiments demonstrate our significant improvements in both tasks. The principles behind UniGEM hold promise for broader applications, including natural language processing and computer vision.
翻訳日:2024-10-29 21:05:04 公開日:2024-10-14
# 参照フレーム非依存量子メトロジー

Reference-frame-independent quantum metrology ( http://arxiv.org/abs/2410.10518v1 )

ライセンス: Link先を確認
Satoya Imai, Otfried Gühne, Géza Tóth, (参考訳) 量子系に対する限定的な制御が与えられれば、どうやってメトロジー的なタスクを実行できるのか? 本稿では、共通参照フレームを欠いたシナリオにおいて、非線形量子メトロジーを実行するための体系的手法を提案する。 提案手法では, 量子システムの複数コピーを作成し, ランダム化可観測器を用いて局所的な測定を行う。 まず,局所的ユニタリ不変量のみに基づく誤差伝播式を用いて,選択した基底から独立な距離論的精度を導出する。 次に、1軸ねじれハミルトニアンのような2体相互作用を含む非線形距離論の様々な例において、精度スケーリングのための解析式を提供する。 最後に、局所的デコヒーレンス(英語版)の文脈で結果を分析し、観測されたスケーリングへの影響について議論する。

How can we perform a metrological task if only limited control over a quantum system is given? Here, we present systematic methods for conducting nonlinear quantum metrology in scenarios lacking a common reference frame. Our approach involves preparing multiple copies of quantum systems and then performing local measurements with randomized observables. First, we derive the metrological precision using an error propagation formula based solely on local unitary invariants, which are independent of the chosen basis. Next, we provide analytical expressions for the precision scaling in various examples of nonlinear metrology involving two-body interactions, like the one-axis twisting Hamiltonian. Finally, we analyze our results in the context of local decoherence and discuss its influences on the observed scaling.
翻訳日:2024-10-29 21:05:04 公開日:2024-10-14
# 撮像センサで読み出したシンチラティング繊維中のAIによる粒子トラック同定

AI-based particle track identification in scintillating fibres read out with imaging sensors ( http://arxiv.org/abs/2410.10519v1 )

ライセンス: Link先を確認
Noemi Bührer, Saúl Alonso-Monsalve, Matthew Franks, Till Dieminger, Davide Sgalaberna, (参考訳) 本稿では,画像センサで読み出したシンチラティングファイバーを用いた粒子トラック識別のためのAIベースの手法の開発と応用について述べる。 本研究では,SPADアレイセンサによって生成された実データからの信号を含むフレームを効率よくフィルタリングし,同定する可変オートエンコーダ(VAE)を提案する。 我々のVAEモデルは、背景雑音から粒子トラックを含むフレームを識別する能力を示した。 VAEに基づく異常検出の性能は実験データを用いて検証され、高速な処理時間で関連事象を効率的に識別できることが示され、リアルタイム異常検出のためのハードウェア上での高速な推論ツールとしての展開の可能性が示唆された。 この研究は、高度なセンサー技術と機械学習技術を組み合わせて粒子の検出と追跡を強化する可能性を強調している。

This paper presents the development and application of an AI-based method for particle track identification using scintillating fibres read out with imaging sensors. We propose a variational autoencoder (VAE) to efficiently filter and identify frames containing signal from the substantial data generated by SPAD array sensors. Our VAE model, trained on purely background frames, demonstrated a high capability to distinguish frames containing particle tracks from background noise. The performance of the VAE-based anomaly detection was validated with experimental data, demonstrating the method's ability to efficiently identify relevant events with rapid processing time, suggesting a solid prospect for deployment as a fast inference tool on hardware for real-time anomaly detection. This work highlights the potential of combining advanced sensor technology with machine learning techniques to enhance particle detection and tracking.
翻訳日:2024-10-29 21:05:04 公開日:2024-10-14
# ジャミング・ミティゲーションにおける破砕防止のための連続的深層強化学習

Continual Deep Reinforcement Learning to Prevent Catastrophic Forgetting in Jamming Mitigation ( http://arxiv.org/abs/2410.10521v1 )

ライセンス: Link先を確認
Kemal Davaslioglu, Sastry Kompella, Tugba Erpek, Yalin E. Sagduyu, (参考訳) 深層強化学習(DRL)は、RF環境から学習し、適応することで、信頼性の高い無線通信を容易にするジャミング効果の検出と緩和に非常に効果的である。 しかし、従来のDRL法は、特にジャマーパターンが時間とともに変化する動的な無線環境において、破滅的な忘れ(すなわち、新しいものを学ぶときに古いタスクを忘れる)の影響を受ける。 本稿では,抗ジャミングシステムについて考察し,ジャマー検出と緩和に応用したDRLの破滅的忘れ込みの課題に対処する。 まず,従来のジャムマーパターンをネットワークが忘れ,新たなジャムマーパターンに適応させることで,DRLの破滅的忘れがジャムマー検出および緩和タスクに与える影響を実証する。 この破滅的な干渉は、特に環境が静止していないシナリオにおいて、システムの有効性を損なう。 本稿では,ネットワークが古いジャマパターンの知識を維持しつつ,新しいジャマパターンの処理を学習することを可能にする手法を提案する。 提案手法は破滅的な忘れを著しく減らし,従来学習していた課題を効果的に遂行する能力を損なうことなく,新たな課題を学習することを可能にする。 さらに,アンチ・ジャミング・フレームワークにおけるタスクを逐次学習するための体系的手法を提案する。 PackNetに基づく連続DRL技術を利用することで、標準DRL法と比較して優れたアンチジャミング性能を実現する。 提案手法は破滅的な記憶だけでなく,動的ジャミング環境におけるシステムの適応性と堅牢性の向上にも寄与する。 従来のDRL手法と比較して,過去のジャマーパターンの知識を保存し,新しいタスクを効率的に学習し,優れたアンチジャミング性能を実現する上で,本手法の有効性を実証する。

Deep Reinforcement Learning (DRL) has been highly effective in learning from and adapting to RF environments and thus detecting and mitigating jamming effects to facilitate reliable wireless communications. However, traditional DRL methods are susceptible to catastrophic forgetting (namely forgetting old tasks when learning new ones), especially in dynamic wireless environments where jammer patterns change over time. This paper considers an anti-jamming system and addresses the challenge of catastrophic forgetting in DRL applied to jammer detection and mitigation. First, we demonstrate the impact of catastrophic forgetting in DRL when applied to jammer detection and mitigation tasks, where the network forgets previously learned jammer patterns while adapting to new ones. This catastrophic interference undermines the effectiveness of the system, particularly in scenarios where the environment is non-stationary. We present a method that enables the network to retain knowledge of old jammer patterns while learning to handle new ones. Our approach substantially reduces catastrophic forgetting, allowing the anti-jamming system to learn new tasks without compromising its ability to perform previously learned tasks effectively. Furthermore, we introduce a systematic methodology for sequentially learning tasks in the anti-jamming framework. By leveraging continual DRL techniques based on PackNet, we achieve superior anti-jamming performance compared to standard DRL methods. Our proposed approach not only addresses catastrophic forgetting but also enhances the adaptability and robustness of the system in dynamic jamming environments. We demonstrate the efficacy of our method in preserving knowledge of past jammer patterns, learning new tasks efficiently, and achieving superior anti-jamming performance compared to traditional DRL approaches.
翻訳日:2024-10-29 21:05:04 公開日:2024-10-14
# 逆問題とデータ同化:機械学習アプローチ

Inverse Problems and Data Assimilation: A Machine Learning Approach ( http://arxiv.org/abs/2410.10523v1 )

ライセンス: Link先を確認
Eviatar Bach, Ricardo Baptista, Daniel Sanz-Alonso, Andrew Stuart, (参考訳) これらのノートの目的は、機械学習におけるアイデアが逆問題やデータ同化の分野に影響を与える可能性を実証することである。 この視点は、主に、逆問題やデータ同化の研究者を対象としており、機械学習の数学的プレゼンテーションを、その分野に関連するものとして見たいと願っている。 副産物として、機械学習における様々なトピックの簡潔な数学的処理を含む。

The aim of these notes is to demonstrate the potential for ideas in machine learning to impact on the fields of inverse problems and data assimilation. The perspective is one that is primarily aimed at researchers from inverse problems and/or data assimilation who wish to see a mathematical presentation of machine learning as it pertains to their fields. As a by-product, we include a succinct mathematical treatment of various topics in machine learning.
翻訳日:2024-10-29 21:05:04 公開日:2024-10-14
# Get Rid of Task isolation: 継続的マルチタスク時空間学習フレームワーク

Get Rid of Task Isolation: A Continuous Multi-task Spatio-Temporal Learning Framework ( http://arxiv.org/abs/2410.10524v1 )

ライセンス: Link先を確認
Zhongchao Yi, Zhengyang Zhou, Qihe Huang, Yanjiang Chen, Liheng Yu, Xu Wang, Yang Wang, (参考訳) 時空間学習は都市知性を実現するための重要な技術となっている。 従来の時空間モデルは、トレーニングとテストセットの間に同じ分布を仮定することで、主に特定のタスクに焦点を当てる。 しかしながら、都市システムは、通常動的で、不均衡なデータ分布でマルチソースされているため、現在の特定のタスク固有モデルは、様々な次元や種類の都市データに対して相互依存性を明示的にモデル化することなく、新しい都市条件に一般化し、新しいドメインに適応することができない。 この目的のために,都市空間の時空間学習を単一ドメインから協調的に多次元・多タスク学習に改革する,集合的都市知能を高めるための連続マルチタスク時空間学習フレームワーク(CMuST)を提案することが不可欠である,と論じる。 具体的には、CMuSTは、空間的・時間的側面における自己相互作用と同様に、コンテキストと主観察の間の相互相互作用を可能にする、新しい多次元時空間相互作用ネットワーク(MSTI)を提案し、タスクレベルの共通性とパーソナライゼーションをキャプチャするコアとなる。 連続的なタスク学習を確保するために、データ要約駆動型タスクプロンプトを構築することでタスクの独特性を保ちつつ、反復モデル行動モデリングによりタスク間の相関パターンを利用する新しいローリング適応トレーニングスキーム(RoAda)が考案された。 さらに、マルチタスク時空間学習のための3つの都市のベンチマークを確立し、これらのデータセットに対する広範な評価を通じて、CMuSTの優位性を実証的に実証する。 数ショットのストリーミングデータと既存のSOATメソッドに対する新しいドメインタスクの両方に対する印象的な改善が達成されます。 コードはhttps://github.com/DILab-USTCSZ/CMuSTで入手できる。

Spatiotemporal learning has become a pivotal technique to enable urban intelligence. Traditional spatiotemporal models mostly focus on a specific task by assuming a same distribution between training and testing sets. However, given that urban systems are usually dynamic, multi-sourced with imbalanced data distributions, current specific task-specific models fail to generalize to new urban conditions and adapt to new domains without explicitly modeling interdependencies across various dimensions and types of urban data. To this end, we argue that there is an essential to propose a Continuous Multi-task Spatio-Temporal learning framework (CMuST) to empower collective urban intelligence, which reforms the urban spatiotemporal learning from single-domain to cooperatively multi-dimensional and multi-task learning. Specifically, CMuST proposes a new multi-dimensional spatiotemporal interaction network (MSTI) to allow cross-interactions between context and main observations as well as self-interactions within spatial and temporal aspects to be exposed, which is also the core for capturing task-level commonality and personalization. To ensure continuous task learning, a novel Rolling Adaptation training scheme (RoAda) is devised, which not only preserves task uniqueness by constructing data summarization-driven task prompts, but also harnesses correlated patterns among tasks by iterative model behavior modeling. We further establish a benchmark of three cities for multi-task spatiotemporal learning, and empirically demonstrate the superiority of CMuST via extensive evaluations on these datasets. The impressive improvements on both few-shot streaming data and new domain tasks against existing SOAT methods are achieved. Code is available at https://github.com/DILab-USTCSZ/CMuST.
翻訳日:2024-10-29 21:05:04 公開日:2024-10-14
# 一般化された敵対的コード提案:LLMに基づくコード補完の爆発的文脈

Generalized Adversarial Code-Suggestions: Exploiting Contexts of LLM-based Code-Completion ( http://arxiv.org/abs/2410.10526v1 )

ライセンス: Link先を確認
Karl Rubel, Maximilian Noppel, Christian Wressnegger, (参考訳) 便利だが、日々の作業でLLM駆動のコードアシスタントに頼ると、深刻な攻撃が発生する。 例えば、アシスタントは微妙な欠陥を導入し、脆弱性のあるコードをユーザに提案する。 これらの逆のコード提案は、データ中毒によって導入することができ、したがって、モデル作成者が無知にすることができる。 本稿では、このような攻撃を一般化した定式化を行い、この領域における関連する研究を創出し、拡張する。 この定式化は2つのコンポーネントで定義されている: まず、特定のユーザグループのプロンプトで発生するトリガーパターン、次に、プロンプトから逆のベイトへの埋め込み空間における学習可能なマップ。 後者は新規でフレキシブルな攻撃戦略を生み出し、敵はパターンのトークンを制限することなく、特定のユーザグループに対して最適なトリガーパターンを任意に選択できる。 我々の方向マップ攻撃と即時インデクシング攻撃は、決定的にステルスネスを高めます。 本研究は,これらの攻撃の有効性を広く評価し,汎用コードサジェストの限界を探索するための防御機構を慎重に検討する。 残念なことに、ほとんどの防衛は、ほとんど保護を提供していない。

While convenient, relying on LLM-powered code assistants in day-to-day work gives rise to severe attacks. For instance, the assistant might introduce subtle flaws and suggest vulnerable code to the user. These adversarial code-suggestions can be introduced via data poisoning and, thus, unknowingly by the model creators. In this paper, we provide a generalized formulation of such attacks, spawning and extending related work in this domain. This formulation is defined over two components: First, a trigger pattern occurring in the prompts of a specific user group, and, second, a learnable map in embedding space from the prompt to an adversarial bait. The latter gives rise to novel and more flexible targeted attack-strategies, allowing the adversary to choose the most suitable trigger pattern for a specific user-group arbitrarily, without restrictions on the pattern's tokens. Our directional-map attacks and prompt-indexing attacks increase the stealthiness decisively. We extensively evaluate the effectiveness of these attacks and carefully investigate defensive mechanisms to explore the limits of generalized adversarial code-suggestions. We find that most defenses unfortunately offer little protection only.
翻訳日:2024-10-29 21:05:04 公開日:2024-10-14
# 複合・非平面シーンにおける動き誘導型小型MAV検出

Motion-guided small MAV detection in complex and non-planar scenes ( http://arxiv.org/abs/2410.10527v1 )

ライセンス: Link先を確認
Hanqing Guo, Canlun Zheng, Shiyu Zhao, (参考訳) 近年,マイクロエアロビー(MAV)の視覚的検出への関心が高まっている。 しかし、背景が複雑であったり、MAVが小さすぎる場合、外観や動きの特徴に基づく既存の手法は困難に遭遇する。 本稿では,複雑なシーンや非平面シーンにおいて,小型MAVを正確に識別できる動き誘導型MAV検出器を提案する。 この検出器はまず、小さなMAVの運動特徴を捉えるために、運動特徴増強モジュールを利用する。 次に、多目的追跡と軌跡フィルタリングを用いて、運動視差による偽陽性を除去する。 最後に、刈り取られた領域で動作する外見に基づく分類器と外見に基づく検出器を用いて、正確な検出結果を得る。 提案手法は,画素レベルの動作特徴を集約し,MAVの動作特徴と外観特徴に基づいて偽陽性を除去するため,動的,複雑な背景から極めて小さなMAVを効果的かつ効率的に検出することができる。 ARD-MAVデータセットの実験により、提案手法は、課題条件下での小型MAV検出において高い性能を達成し、様々な指標における他の最先端手法よりも優れていることが示された。

In recent years, there has been a growing interest in the visual detection of micro aerial vehicles (MAVs) due to its importance in numerous applications. However, the existing methods based on either appearance or motion features encounter difficulties when the background is complex or the MAV is too small. In this paper, we propose a novel motion-guided MAV detector that can accurately identify small MAVs in complex and non-planar scenes. This detector first exploits a motion feature enhancement module to capture the motion features of small MAVs. Then it uses multi-object tracking and trajectory filtering to eliminate false positives caused by motion parallax. Finally, an appearance-based classifier and an appearance-based detector that operates on the cropped regions are used to achieve precise detection results. Our proposed method can effectively and efficiently detect extremely small MAVs from dynamic and complex backgrounds because it aggregates pixel-level motion features and eliminates false positives based on the motion and appearance features of MAVs. Experiments on the ARD-MAV dataset demonstrate that the proposed method could achieve high performance in small MAV detection under challenging conditions and outperform other state-of-the-art methods across various metrics
翻訳日:2024-10-29 21:05:04 公開日:2024-10-14
# 適応メモリ要求のない適応確率型ODEソルバ

Adaptive Probabilistic ODE Solvers Without Adaptive Memory Requirements ( http://arxiv.org/abs/2410.10530v1 )

ライセンス: Link先を確認
Nicholas Krämer, (参考訳) 近年のかなりの進歩にもかかわらず、適応的なステップサイズを持つ確率的解法は依然としてメモリ要求の微分方程式を解けない。 予測不能なメモリ要求は、我々のマシンの能力より容易に上回るので、我々のシミュレーションは予期せず、警告なしで失敗する。 それでも適応性の低下は、長年の進歩を捨てることになるでしょう。 本研究では,この問題を解く。 我々は、最近のロバストな状態推定技術に基づいて、メモリ要求を固定した適応確率解法を開発した。 私たちの方法に切り替える (i)長期連続のメモリ問題を排除する。 (ii)ジャスト・イン・タイムのコンパイルをアンロックすることで、桁違いのシミュレーションを加速し、 三)JAXにおける科学的計算と適応確率的解法を両立させる。

Despite substantial progress in recent years, probabilistic solvers with adaptive step sizes can still not solve memory-demanding differential equations -- unless we care only about a single point in time (which is far too restrictive; we want the whole time series). Counterintuitively, the culprit is the adaptivity itself: Its unpredictable memory demands easily exceed our machine's capabilities, making our simulations fail unexpectedly and without warning. Still, dropping adaptivity would abandon years of progress, which can't be the answer. In this work, we solve this conundrum. We develop an adaptive probabilistic solver with fixed memory demands building on recent developments in robust state estimation. Switching to our method (i) eliminates memory issues for long time series, (ii) accelerates simulations by orders of magnitude through unlocking just-in-time compilation, and (iii) makes adaptive probabilistic solvers compatible with scientific computing in JAX.
翻訳日:2024-10-29 21:05:04 公開日:2024-10-14
# データ駆動型深層学習における大域最小化への非収束性:ReLUアクティベーションを伴う深部ニューラルネットワークのトレーニングにおいて、アダムと確率勾配降下最適化は確実に大域最小化に収束しない

Non-convergence to global minimizers in data driven supervised deep learning: Adam and stochastic gradient descent optimization provably fail to converge to global minimizers in the training of deep neural networks with ReLU activation ( http://arxiv.org/abs/2410.10533v1 )

ライセンス: Link先を確認
Sonja Hannibal, Arnulf Jentzen, Do Minh Thang, (参考訳) ディープラーニング手法 - 確率勾配勾配勾配(SGD)最適化法によって訓練されたディープニューラルネットワーク(DNN)のクラスで構成されている - は、現在、データ駆動型教師あり学習問題を解決するための重要なツールである。 DNNの訓練においてSGD法が大きな成功を収めたにもかかわらず、厳密な理論的用語でそのような手法の成功と限界を説明することは研究の根本的なオープンな問題である。 特に、データ駆動型教師あり学習問題の標準設定においても、SGD法がDNNのトレーニングに収束し、一般的な修正線形単位(ReLU)アクティベーション関数が最適化ランドスケープのグローバル最小化に高い確率で収束することを証明(または不証明)するには、オープンな研究課題のままである。 この研究では、我々はこの疑問に否定的に答える。 具体的には、最適化問題の大域的最小化に収束しない確率の高い最適化者が行う、大規模なSGD手法の証明を行う。 その結果、大域最小化器に収束しない確率は、それぞれANNの第1隠れ層の幅とANNの深さが増大するにつれて、少なくとも指数関数的に1に収束することがわかった。 この研究の一般的な非収束結果は、通常のバニラ標準SGD法だけでなく、運動量SGD、ネステロフ加速SGD、アダグラード、RMSProp、アダム、アダックス、AMSGrad、ナダムオプティマイザといった多くの加速および適応SGD法にも適用される。

Deep learning methods - consisting of a class of deep neural networks (DNNs) trained by a stochastic gradient descent (SGD) optimization method - are nowadays key tools to solve data driven supervised learning problems. Despite the great success of SGD methods in the training of DNNs, it remains a fundamental open problem of research to explain the success and the limitations of such methods in rigorous theoretical terms. In particular, even in the standard setup of data driven supervised learning problems, it remained an open research problem to prove (or disprove) that SGD methods converge in the training of DNNs with the popular rectified linear unit (ReLU) activation function with high probability to global minimizers in the optimization landscape. In this work we answer this question negatively. Specifically, in this work we prove for a large class of SGD methods that the considered optimizer does with high probability not converge to global minimizers of the optimization problem. It turns out that the probability to not converge to a global minimizer converges at least exponentially quickly to one as the width of the first hidden layer of the ANN and the depth of the ANN, respectively, increase. The general non-convergence results of this work do not only apply to the plain vanilla standard SGD method but also to a large class of accelerated and adaptive SGD methods such as the momentum SGD, the Nesterov accelerated SGD, the Adagrad, the RMSProp, the Adam, the Adamax, the AMSGrad, and the Nadam optimizers.
翻訳日:2024-10-29 21:05:04 公開日:2024-10-14
# 多変量時系列のための透明ネットワーク

Transparent Networks for Multivariate Time Series ( http://arxiv.org/abs/2410.10535v1 )

ライセンス: Link先を確認
Minkyu Kim, Suan Lee, Jinho Kim, (参考訳) 本質的に解釈可能な予測を生成する機械学習モデルである透明モデルは、高い領域において大きな注目を集めている。 しかし、多くの実世界のデータが時系列として収集されているにもかかわらず、透明な時系列モデルの研究は乏しい。 このギャップに対処するために,GATSM(Generalized Additive Time Series Model)と呼ばれる時系列のための新しい透明ニューラルネットワークモデルを提案する。 GATSMは2つの部分から構成される。 1)特徴表現を学習する独立した特徴ネットワーク 2) 特徴表現を用いて時間段階の時間的パターンを学習する透過的時間的モジュール。 この構造により、GATSMは時間パターンを効果的にキャプチャし、透過性を維持しながら動的の長さの時系列を処理することができる。 実証実験により、GATSMは既存の一般化された付加モデルよりも大幅に優れており、繰り返しニューラルネットワークやTransformerのようなブラックボックスの時系列モデルに匹敵する性能を達成している。 さらに,GATSMが時系列に興味深いパターンを見出すことを示す。 ソースコードはhttps://github.com/gim4855744/GATSMで入手できる。

Transparent models, which are machine learning models that produce inherently interpretable predictions, are receiving significant attention in high-stakes domains. However, despite much real-world data being collected as time series, there is a lack of studies on transparent time series models. To address this gap, we propose a novel transparent neural network model for time series called Generalized Additive Time Series Model (GATSM). GATSM consists of two parts: 1) independent feature networks to learn feature representations, and 2) a transparent temporal module to learn temporal patterns across different time steps using the feature representations. This structure allows GATSM to effectively capture temporal patterns and handle dynamic-length time series while preserving transparency. Empirical experiments show that GATSM significantly outperforms existing generalized additive models and achieves comparable performance to black-box time series models, such as recurrent neural networks and Transformer. In addition, we demonstrate that GATSM finds interesting patterns in time series. The source code is available at https://github.com/gim4855744/GATSM.
翻訳日:2024-10-29 21:05:04 公開日:2024-10-14
# Reproducible Machine Learning-based Voice Pathology Detection: Introducing the Pitch difference Feature

Reproducible Machine Learning-based Voice Pathology Detection: Introducing the Pitch Difference Feature ( http://arxiv.org/abs/2410.10537v1 )

ライセンス: Link先を確認
Jan Vrba, Jakub Steinbach, Tomáš Jirsa, Laura Verde, Roberta De Fazio, Noriyasu Homma, Yuwen Zeng, Key Ichiji, Lukáš Hájek, Zuzana Sedláková, Jan Mareš, (参考訳) 本研究では,音声病理診断における現代的実践の徹底的な研究から得られた,ロバストな特徴セットを提案する。 特徴セットは、音響的手作りの特徴の組み合わせに基づいている。 さらに,新しい特徴としてピッチ差を導入する。 K-Means Synthetic Minority Over-Sampling Technique(K-Means Synthetic Over-Sampling Technique)アルゴリズムを用いて,クラス不均衡に対処する。 さらに,複数のMLモデルをバイナリ分類器として適用した。 我々は,サポートベクターマシン,k-ネアレスト隣人,ナイーブベイズ,決定木,ランダム林,AdaBoost分類器を利用した。 最良分類法を決定するために,各分類器の可能なハイパーパラメータと特徴のサブセクションのグリッドサーチを行った。 本手法は,SVDデータベースにおける音声病理診断において,非重み付き平均リコールによって測定された最先端の性能を達成している。 上記の指標と比較すると、不均衡なデータの場合、非常に偏りのある指標であるため、意図的に精度を省略する。 さらに, 層状交叉検証を繰り返す結果の潜在的過大評価を排除して, 結果をさらに強化する。 この進歩はML法の臨床的展開に有意義な可能性を示しており、声道の客観的検査に有用なツールである。 クレームをサポートするため、DOI 10.5281/zenodo.13771573で公開されているGitHubリポジトリを提供しています。 最後に、REFORMSチェックリストを提供します。

In this study, we propose a robust set of features derived from a thorough research of contemporary practices in voice pathology detection. The feature set is based on the combination of acoustic handcrafted features. Additionally, we introduce pitch difference as a novel feature. We combine this feature set, containing data from the publicly available Saarbr\"ucken Voice Database (SVD), with preprocessing using the K-Means Synthetic Minority Over-Sampling Technique algorithm to address class imbalance. Moreover, we applied multiple ML models as binary classifiers. We utilized support vector machine, k-nearest neighbors, naive Bayes, decision tree, random forest and AdaBoost classifiers. To determine the best classification approach, we performed grid search on feasible hyperparameters of respective classifiers and subsections of features. Our approach has achieved the state-of-the-art performance, measured by unweighted average recall in voice pathology detection on SVD database. We intentionally omit accuracy as it is highly biased metric in case of unbalanced data compared to aforementioned metrics. The results are further enhanced by eliminating the potential overestimation of the results with repeated stratified cross-validation. This advancement demonstrates significant potential for the clinical deployment of ML methods, offering a valuable tool for an objective examination of voice pathologies. To support our claims, we provide a publicly available GitHub repository with DOI 10.5281/zenodo.13771573. Finally, we provide REFORMS checklist.
翻訳日:2024-10-29 21:05:04 公開日:2024-10-14
# ターゲットビヘイビアをモデル化するためのデータ駆動アプローチ

Data-Driven Approaches for Modelling Target Behaviour ( http://arxiv.org/abs/2410.10538v1 )

ライセンス: Link先を確認
Isabel Schlangen, André Brandenburger, Mengwei Sun, James R. Hopgood, (参考訳) 追跡アルゴリズムの性能は、ターゲットの力学に関する選択されたモデル仮定に強く依存する。 選択したモデルと真の対象運動との間に強いミスマッチがある場合、トラックの品質は低下するか、トラックが失われやすい。 それでも、真の力学は先入観として知られていないかもしれないし、あるいは計算可能な数学的定式化で表すには複雑すぎるかもしれない。 本稿では、機械学習を用いて、トレーニングデータに基づいて、基礎となる物体の動きを記述する3つの異なる方法の比較研究を行う。 第1の方法は物体の動きを予測するためのガウス過程(GP)上に構築され、第2の方法は干渉多重モデル(IMM)フィルタのパラメータを学習し、第3の方法は移動モデルとしてLong Short-Term Memory(LSTM)ネットワークを使用する。 拡張カルマンフィルタ (EKF) とベンチマークとして解析運動モデルを比較し, それぞれの強みを1つのシミュレーションと2つの実世界のシナリオで強調する。

The performance of tracking algorithms strongly depends on the chosen model assumptions regarding the target dynamics. If there is a strong mismatch between the chosen model and the true object motion, the track quality may be poor or the track is easily lost. Still, the true dynamics might not be known a priori or it is too complex to be expressed in a tractable mathematical formulation. This paper provides a comparative study between three different methods that use machine learning to describe the underlying object motion based on training data. The first method builds on Gaussian Processes (GPs) for predicting the object motion, the second learns the parameters of an Interacting Multiple Model (IMM) filter and the third uses a Long Short-Term Memory (LSTM) network as a motion model. All methods are compared against an Extended Kalman Filter (EKF) with an analytic motion model as a benchmark and their respective strengths are highlighted in one simulated and two real-world scenarios.
翻訳日:2024-10-29 21:05:04 公開日:2024-10-14
# 大規模言語モデルにおける現実的シナリオにおける法的判断予測の再考

Rethinking Legal Judgement Prediction in a Realistic Scenario in the Era of Large Language Models ( http://arxiv.org/abs/2410.10542v1 )

ライセンス: Link先を確認
Shubham Kumar Nigam, Aniket Deroy, Subhankar Maity, Arnab Bhattacharya, (参考訳) InLegalBERT, BERT, XLNet などのトランスフォーマーモデルと Llama-2 や GPT-3.5 Turbo などの LLM モデルを用いて,インドにおける判断の文脈における現実的なシナリオにおける判断予測について検討した。 この現実的なシナリオでは、事件の事実、法令、前例、議論など、当時の情報のみを用いて、事件が裁判所で決定のために提示された時点での判断がどのように予測されるかをシミュレートする。 このアプローチは、過去の研究でよく見られる振り返り分析とは異なり、後見の利益なしに意思決定をしなければならない現実世界の条件を模倣する。 変圧器モデルに対しては,階層型変圧器と判断事実の要約を用いて実験を行い,これらのモデルに対する入力を最適化する。 LLMを用いた実験により, GPT-3.5 Turboは現実的なシナリオで優れており, 判定精度は高いことがわかった。 さらに、法令や前例などの追加の法的情報を取り入れることで、予測課題の成果が大幅に向上する。 LLMは予測についての説明も提供している。 これらの予測と説明の質を評価するために,ClarityとLinkingという2つの人的評価指標を導入する。 自動評価と人的評価の両方から, LLMの進歩にもかかわらず, 判定・説明作業において, 専門家レベルの性能をまだ達成できていないことが示唆された。

This study investigates judgment prediction in a realistic scenario within the context of Indian judgments, utilizing a range of transformer-based models, including InLegalBERT, BERT, and XLNet, alongside LLMs such as Llama-2 and GPT-3.5 Turbo. In this realistic scenario, we simulate how judgments are predicted at the point when a case is presented for a decision in court, using only the information available at that time, such as the facts of the case, statutes, precedents, and arguments. This approach mimics real-world conditions, where decisions must be made without the benefit of hindsight, unlike retrospective analyses often found in previous studies. For transformer models, we experiment with hierarchical transformers and the summarization of judgment facts to optimize input for these models. Our experiments with LLMs reveal that GPT-3.5 Turbo excels in realistic scenarios, demonstrating robust performance in judgment prediction. Furthermore, incorporating additional legal information, such as statutes and precedents, significantly improves the outcome of the prediction task. The LLMs also provide explanations for their predictions. To evaluate the quality of these predictions and explanations, we introduce two human evaluation metrics: Clarity and Linking. Our findings from both automatic and human evaluations indicate that, despite advancements in LLMs, they are yet to achieve expert-level performance in judgment prediction and explanation tasks.
翻訳日:2024-10-29 20:55:06 公開日:2024-10-14
# 拡張ボソニックジョセフソン接合におけるタキオニックおよびパラメトリック不安定性

Tachyonic and parametric instabilities in an extended bosonic Josephson Junction ( http://arxiv.org/abs/2410.10543v1 )

ライセンス: Link先を確認
Laura Batini, Sebastian Erne, Jörg Schmiedmayer, Jürgen Berges, (参考訳) トンネル結合型量子ワイヤにおけるボース・アインシュタイン凝縮体の量子相コヒーレンスのダイナミクスと崩壊について検討する。 2つの長いボース=アインシュタイン凝縮体は、量子ゆらぎが位相コヒーレンスを急速に減少させる様々な動的現象を示す。 両凝縮体の相対的集団不均衡における自己トラッピング現象について検討し,特に相対的位相が捕捉された場合に発生する$\pi$-trapped振動について検討した。 この状態は平均場説明では安定に見えるが、$\pi$-trapped状態は量子ゆらぎによって動的に不安定になる。 非平衡不安定性は、凝縮物からより高い運動量モードに励起されるペアの生成をもたらす。 本研究では, 拡散関係の想像的部分と, 相対位相と集団の振動によって引き起こされるパラメトリック共鳴不安定度を同定する。 早い段階で、線形化解析により特徴モードの不安定性チャートを計算し、基礎となる物理過程を同定する。 後の時点では、一次不安定性は非線形性の構築による二次不安定性を引き起こす。 我々は、この非線形状態においてもダイナミクスを観察するために、Trncated Wigner近似で数値シミュレーションを行う。 さらに、超低温原子配置における$\pi$-modeの実験的実現のための現実的パラメータについて論じる。

We study the dynamics and decay of quantum phase coherence for Bose-Einstein condensates in tunnel-coupled quantum wires. The two elongated Bose-Einstein condensates exhibit a wide variety of dynamic phenomena where quantum fluctuations can lead to a rapid loss of phase coherence. We investigate the phenomenon of self-trapping in the relative population imbalance of the two condensates, particularly $\pi$-trapped oscillations that occur when also the relative phase is trapped. Though this state appears stable in mean-field descriptions, the $\pi$-trapped state becomes dynamically unstable due to quantum fluctuations. Nonequilibrium instabilities result in the generation of pairs excited from the condensate to higher momentum modes. We identify tachyonic instabilities, which are associated with imaginary parts of the dispersion relation, and parametric resonance instabilities that are triggered by oscillations of the relative phase and populations. At early times, we compute the instability chart of the characteristic modes through a linearized analysis and identify the underlying physical process. At later times, the primary instabilities trigger secondary instabilities due to the build-up of non-linearities. We perform numerical simulations in the Truncated Wigner approximation in order to observe the dynamics also in this non-linear regime. Furthermore, we discuss realistic parameters for experimental realizations of the $\pi$-mode in ultracold atom setups.
翻訳日:2024-10-29 20:55:06 公開日:2024-10-14
# ホッジレットスペクトル特徴によるガウス過程のグラフ分類

Graph Classification Gaussian Processes via Hodgelet Spectral Features ( http://arxiv.org/abs/2410.10546v1 )

ライセンス: Link先を確認
Mathieu Alain, So Takao, Xiaowen Dong, Bastian Rieck, Emmanuel Noutahi, (参考訳) グラフを分類する問題は、機械学習においてユビキタスである。 このようなタスクにグラフニューラルネットワークを適用するのが一般的だが、グラフ特徴をスペクトル領域に変換し、その結果のスペクトル特徴を入力ポイントとして使用することにより、ガウス過程も利用できる。 しかし、このアプローチは頂点上の機能のみを考慮しており、グラフデータの中にはエッジ上の機能もサポートしているものもある。 本研究では,頂点およびエッジ機能を利用してグラフを分類するガウス過程に基づく分類アルゴリズムを提案する。 さらに,頂点とエッジのHodge分解を利用してモデルの柔軟性を向上させる。

The problem of classifying graphs is ubiquitous in machine learning. While it is standard to apply graph neural networks for such tasks, Gaussian processes can also be used, by transforming graph features into the spectral domain, and using the resulting spectral features as input points. However, this approach only takes into account features on vertices, whereas some graph data also support features on edges. In this work, we present a Gaussian process-based classification algorithm that can utilise vertex and/or edges features to help classify graphs. Furthermore, we take advantage of the Hodge decomposition of vertex and edge features to increase the flexibility of the model, which can be beneficial on some tasks.
翻訳日:2024-10-29 20:55:06 公開日:2024-10-14
# アルツハイマー早期発見のためのハイブリッドトランス:手書き2次元画像と1次元信号機能の統合

Hybrid Transformer for Early Alzheimer's Detection: Integration of Handwriting-Based 2D Images and 1D Signal Features ( http://arxiv.org/abs/2410.10547v1 )

ライセンス: Link先を確認
Changqing Gong, Huafeng Qin, Mounîm A. El-Yacoubi, (参考訳) アルツハイマー病(英語: Alzheimer's Disease、AD)は、早期発見が不可欠である神経変性疾患である。 ADの初期にしばしば影響を受ける手書き文字は、微妙な運動の変化を捉える非侵襲的でコスト効率のよい方法を提供する。 主にオンラインベースの手書き文字によるAD検出に関する最先端の研究は、手作業で抽出した機能に大きく依存しており、浅い機械学習モデルへの入力として提供されている。 近年の研究では、1D-CNNアーキテクチャや2D-CNNアーキテクチャなど、ディープラーニング(DL)ベースのモデルが提案されている。 しかし、これらの手法は、手書きストロークの2次元空間パターンとその1次元動的特性との本質的な関係を軽視し、手書きデータのマルチモーダルな性質を捉える能力を制限する。 さらに、Transformerモデルの適用は、基本的には未検討のままである。 このような制約に対処するために,2次元手書き画像と1次元動的手書き信号とを同時に統合した学習可能なマルチモーダルハイブリッドアテンションモデルによるAD検出手法を提案する。 本モデルでは,類似点と相違点を組み合わせ,2つのモードをブレンドし,異なるスケールの情報を組み込むことでロバストな特徴を学習するために,ゲート機構を利用する。 我々のモデルはDARWINデータセットの最先端性能を達成し、F1スコアは90.32\%、精度は90.91\%であり、それぞれ4.61%と6.06%を上回った。

Alzheimer's Disease (AD) is a prevalent neurodegenerative condition where early detection is vital. Handwriting, often affected early in AD, offers a non-invasive and cost-effective way to capture subtle motor changes. State-of-the-art research on handwriting, mostly online, based AD detection has predominantly relied on manually extracted features, fed as input to shallow machine learning models. Some recent works have proposed deep learning (DL)-based models, either 1D-CNN or 2D-CNN architectures, with performance comparing favorably to handcrafted schemes. These approaches, however, overlook the intrinsic relationship between the 2D spatial patterns of handwriting strokes and their 1D dynamic characteristics, thus limiting their capacity to capture the multimodal nature of handwriting data. Moreover, the application of Transformer models remains basically unexplored. To address these limitations, we propose a novel approach for AD detection, consisting of a learnable multimodal hybrid attention model that integrates simultaneously 2D handwriting images with 1D dynamic handwriting signals. Our model leverages a gated mechanism to combine similarity and difference attention, blending the two modalities and learning robust features by incorporating information at different scales. Our model achieved state-of-the-art performance on the DARWIN dataset, with an F1-score of 90.32\% and accuracy of 90.91\% in Task 8 ('L' writing), surpassing the previous best by 4.61% and 6.06% respectively.
翻訳日:2024-10-29 20:55:06 公開日:2024-10-14
# RICASSO:クラス対応型自己監督型外乱露光による強化型不均衡学習

RICASSO: Reinforced Imbalance Learning with Class-Aware Self-Supervised Outliers Exposure ( http://arxiv.org/abs/2410.10548v1 )

ライセンス: Link先を確認
Xuan Zhang, Sin Chee Chin, Tingxuan Gao, Wenming Yang, (参考訳) 現実世界のシナリオでは、ディープラーニングモデルは、不均衡(ロングテール)とアウト・オブ・ディストリビューション(OOD)の両方のデータから問題に直面します。 しかし、既存のジョイントメソッドは実際のOODデータに依存しており、不要なトレードオフを引き起こします。 対照的に、長い尾の認識のための強力な拡張技術であるデータミキシングは、分布内(ID)データとOODデータの両方の特徴を示す擬似OODデータを生成することができることを示す。 したがって、実際のOODデータの代わりに混合データを使用することで、長い尾の認識とOOD検出を論理的に扱うことができる。 RICASSO(Reinforced Im Balance Learning with Class-Aware Self-Supervised Outliers Exposure)と呼ばれる統合フレームワークを提案する。 Norm-Odd-Duality-Based Outlier Exposure: 混合データを擬似OODデータとして使用し、単一損失関数を通じてIDデータの再バランスとアウトレイラ露光を可能にする。 Ambiguity-Aware Logits Adjustment: IDデータのあいまいさを利用して、ログを適応的に再分類する。 対照的な境界中心学習: 仮想境界学習とデュアルエントロピーセンター学習を組み合わせて、特徴分離とクラスタリングを改善するために混合データを使用する。 広汎な実験により、RICASSOは長い尾の認識において最先端の性能を達成し、OOD検出をベースラインと比較して大幅に改善する(AUROCの27%の改善とiNaturalist2018データセットでのFPRの61%削減)。 iNaturalist2018では、実際のOODデータを用いた手法よりも優れています。 コードはまもなく公開されます。

In real-world scenarios, deep learning models often face challenges from both imbalanced (long-tailed) and out-of-distribution (OOD) data. However, existing joint methods rely on real OOD data, which leads to unnecessary trade-offs. In contrast, our research shows that data mixing, a potent augmentation technique for long-tailed recognition, can generate pseudo-OOD data that exhibit the features of both in-distribution (ID) data and OOD data. Therefore, by using mixed data instead of real OOD data, we can address long-tailed recognition and OOD detection holistically. We propose a unified framework called Reinforced Imbalance Learning with Class-Aware Self-Supervised Outliers Exposure (RICASSO), where "self-supervised" denotes that we only use ID data for outlier exposure. RICASSO includes three main strategies: Norm-Odd-Duality-Based Outlier Exposure: Uses mixed data as pseudo-OOD data, enabling simultaneous ID data rebalancing and outlier exposure through a single loss function. Ambiguity-Aware Logits Adjustment: Utilizes the ambiguity of ID data to adaptively recalibrate logits. Contrastive Boundary-Center Learning: Combines Virtual Boundary Learning and Dual-Entropy Center Learning to use mixed data for better feature separation and clustering, with Representation Consistency Learning for robustness. Extensive experiments demonstrate that RICASSO achieves state-of-the-art performance in long-tailed recognition and significantly improves OOD detection compared to our baseline (27% improvement in AUROC and 61% reduction in FPR on the iNaturalist2018 dataset). On iNaturalist2018, we even outperforms methods using real OOD data. The code will be made public soon.
翻訳日:2024-10-29 20:55:06 公開日:2024-10-14
# SLaNC: 静的レイヤNormキャリブレーション

SLaNC: Static LayerNorm Calibration ( http://arxiv.org/abs/2410.10553v1 )

ライセンス: Link先を確認
Mahsa Salmani, Nikita Trukhanov, Ilya Soloveychik, (参考訳) 数十億のパラメータを超えるLarge Language Models(LLM)のサイズは、専用ハードウェアアクセラレーターのメーカーに大きな圧力を与え、AI業界で最も急速に拡大している分野の1つとして、後者の革新的なデザインを生み出した。 計算量や記憶量に制限があるため、利用可能なアクセラレータ上でのLLMの効率的かつ正確な処理を実現するために、様々なアプローチが検討されている。 これらのうち、計算、通信、ストレージの要求を減らす手段として、様々な量子化技術がコミュニティの中心となっている。 より精度の低いフォーマットへの量子化は、利用可能な値表現の限られた範囲によって引き起こされる多くの課題を自然に引き起こす。 一般的なTransformerモデルをハードウェア上で処理する場合、主な問題のひとつは、分散の蓄積がハードウェアよりもはるかに広いダイナミックレンジを必要とするため、LayerNormの計算である。 本稿では,この問題に対処し,推論中のトランスフォーマーモデルに容易に適用可能な,計算効率のよいスケーリング手法を提案する。 提案手法は,直近の線形層の静的重みに基づくLayerNorm入力のスケーリング方法を提案する。 スケーリング係数は、線形層重みのみに基づいてオフラインで計算されるため、推論中に遅延や計算オーバーヘッドは追加されない。 最も重要なことは、計算中にオーバーフローやアンダーフローなどの数値的な問題が起こらないようにすることです。 このアプローチは、幅広いハードウェアアーキテクチャにわたってスムーズで正確でリソース効率の良い推論を提供する。 この論文は、理論的正当化と数値シミュレーションのサポートを提供する。

The ever increasing sizes of Large Language Models (LLMs) beyond hundreds of billions of parameters have generated enormous pressure on the manufacturers of dedicated hardware accelerators and made the innovative design of the latter one of the most rapidly expanding fields of the AI industry. Various approaches have been explored to enable efficient and accurate processing of LLMs on the available accelerators given their computational and storage limitations. Among these, various quantization techniques have become the main focus of the community as a means of reducing the compute, communication and storage requirements. Quantization to lower precision formats naturally poses a number of challenges caused by the limited range of the available value representations. When it comes to processing the popular Transformer models on hardware, one of the main issues becomes calculation of the LayerNorm simply because accumulation of the variance requires a much wider dynamic range than the hardware enables. In this article, we address this matter and propose a computationally-efficient scaling technique that can be easily applied to Transformer models during inference. Our method suggests a straightforward way of scaling the LayerNorm inputs based on the static weights of the immediately preceding linear layers. The scaling factors are computed offline, based solely on the linear layer weights, hence no latency or computational overhead is added during inference. Most importantly, our technique ensures that no numerical issues such as overflow or underflow could happen during the compute. This approach offers smooth, accurate and resource-effective inference across a wide range of hardware architectures. The article provides theoretical justification as well as supporting numerical simulations.
翻訳日:2024-10-29 20:55:06 公開日:2024-10-14
# ROSAR:ロバスト・サイドスキャン・ソナー・オブジェクト検出のための対向的再訓練フレームワーク

ROSAR: An Adversarial Re-Training Framework for Robust Side-Scan Sonar Object Detection ( http://arxiv.org/abs/2410.10554v1 )

ライセンス: Link先を確認
Martin Aubard, László Antal, Ana Madureira, Luis F. Teixeira, Erika Ábrahám, (参考訳) 本稿では,ソナーセンサを用いた自律型水中車両が生成するサイドスキャンソナー(SSS)画像に適した,ディープラーニング物体検出モデルの堅牢性を向上させる新しいフレームワークであるROSARを紹介する。 このフレームワークは、知識蒸留(KD)に関するこれまでの研究を拡張して、SSSノイズに対するモデル効率とロバスト性という2つの課題に対処するために、KDと敵対的再訓練を統合する。 我々は3つの新しい公開SSSデータセットを導入し、異なるソナー設定とノイズ条件をキャプチャする。 本研究では,2つのSSS安全性特性を定式化し,これを用いて逆向きのデータセットを生成して再訓練する。 ROSARは、投影勾配降下(PGD)とパッチベースの敵攻撃の比較分析を通じて、SSS固有の条件下でのモデルロバスト性と検出精度を大幅に改善し、モデルロバスト性を最大1.85%向上させる。 ROSARはhttps://github.com/remaro-network/ROSAR-frameworkで入手できる。

This paper introduces ROSAR, a novel framework enhancing the robustness of deep learning object detection models tailored for side-scan sonar (SSS) images, generated by autonomous underwater vehicles using sonar sensors. By extending our prior work on knowledge distillation (KD), this framework integrates KD with adversarial retraining to address the dual challenges of model efficiency and robustness against SSS noises. We introduce three novel, publicly available SSS datasets, capturing different sonar setups and noise conditions. We propose and formalize two SSS safety properties and utilize them to generate adversarial datasets for retraining. Through a comparative analysis of projected gradient descent (PGD) and patch-based adversarial attacks, ROSAR demonstrates significant improvements in model robustness and detection accuracy under SSS-specific conditions, enhancing the model's robustness by up to 1.85%. ROSAR is available at https://github.com/remaro-network/ROSAR-framework.
翻訳日:2024-10-29 20:55:06 公開日:2024-10-14
# 効率的なコミュニケーションのための構造依存は形づくられるか?-コーディネーションを事例として-

Is Structure Dependence Shaped for Efficient Communication?: A Case Study on Coordination ( http://arxiv.org/abs/2410.10556v1 )

ライセンス: Link先を確認
Kohei Kajikawa, Yusuke Kubota, Yohei Oseki, (参考訳) 自然言語は様々な普遍性を示す。 しかし、なぜこのような普遍性が存在するのか? 一つの説明は、効率的なコミュニケーションを実現するために機能的な圧力から生じる、というものである。 この仮説は、構成性やグリーンバーグ語順普遍性のようないくつかの統語的普遍性に対処することに成功している。 しかし、より抽象的な統語的普遍性は効率的なコミュニケーションの観点からは研究されていない。 そのような普遍性の中で、最も顕著なものは構造依存、すなわち階層的表現に決定的に依存する文法-内部演算の存在である。 この性質は伝統的に、自然言語の中心であり、コミュニケーションの効率性とは無関係に、ドメイン固有の知識を含むと考えられてきた。 本稿では, 構造依存が効率的なコミュニケーションを実現するかどうかを, 座標構造に着目して検討することで, 従来の考え方に挑戦する。 我々は3種類の人工言語を設計する。 一 自然言語に類似した構造依存還元演算を有するもの 二 減産業務を行わないもの、及び 三 線形(構造に依存しない)縮小運転を有するもの これらの言語のコミュニケーション効率を定量化する。 その結果, 構造に依存した縮小操作を施した言語は, 対実的言語よりもはるかにコミュニケーションのよい言語であることが示唆された。 このことは、効率的なコミュニケーションの観点から、構造に依存した性質の存在を説明することができることを示唆している。

Natural language exhibits various universal properties. But why do these universals exist? One explanation is that they arise from functional pressures to achieve efficient communication, a view which attributes cross-linguistic properties to domain-general cognitive abilities. This hypothesis has successfully addressed some syntactic universal properties such as compositionality and Greenbergian word order universals. However, more abstract syntactic universals have not been explored from the perspective of efficient communication. Among such universals, the most notable one is structure dependence, that is, the existence of grammar-internal operations that crucially depend on hierarchical representations. This property has traditionally been taken to be central to natural language and to involve domain-specific knowledge irreducible to communicative efficiency. In this paper, we challenge the conventional view by investigating whether structure dependence realizes efficient communication, focusing on coordinate structures. We design three types of artificial languages: (i) one with a structure-dependent reduction operation, which is similar to natural language, (ii) one without any reduction operations, and (iii) one with a linear (rather than structure-dependent) reduction operation. We quantify the communicative efficiency of these languages. The results demonstrate that the language with the structure-dependent reduction operation is significantly more communicatively efficient than the counterfactual languages. This suggests that the existence of structure-dependent properties can be explained from the perspective of efficient communication.
翻訳日:2024-10-29 20:55:06 公開日:2024-10-14
# Redditにおける気候活動の因果モデリング

Causal Modeling of Climate Activism on Reddit ( http://arxiv.org/abs/2410.10562v1 )

ライセンス: Link先を確認
Jacopo Lenti, Luca Maria Aiello, Corrado Monti, Gianmarco De Francisci Morales, (参考訳) 気候活動は、政治的圧力を通じて持続可能なプラクティスに対する集団的な社会的・行動的な変化を刺激するために重要である。 多くの要因がアクティビズムへの参加に寄与するが、それらの複雑な関係や相互作用に関するデータの不足は、先行研究を独立した研究に限定しているため、人々がアクティビズムに近づく理由に関する定量的、因果的な理解の発達を妨げている。 本研究では、Redditユーザーが大規模な気候抗議活動を行う活動家コミュニティ(主に2019 Earth Strike, Fridays for Future, Extinction Rebellion)との関わりについて、包括的な因果関係モデルを構築した。 ベイジアンネットワークに適用された確率的変分推論に基づいて,複数時間にわたって因果経路を学習する。 これまでの研究では,大規模できめ細かな縦断データ(2016年~2022年)を用いて,社会デミノグラフィーのメイクアップ,極端な気象イベントの経験,気候関連ニュースへの暴露,オンラインインタラクションによる社会的影響といった役割を共同でモデル化した。 気候変動に関心のあるユーザーの間では、オンライン活動家コミュニティへの参加は、活動家との直接の交流の影響を受けており、主に最近のメディアによる気候変動抗議の報道の影響を受けている。 気候変動を自覚する人々の中で、社会経済的背景の低い左派は特にオンライン活動家グループに代表される。 本研究は,メディア・インフルエンス理論と臨界質量理論の実証的検証を行い,介入を通知する基盤と,集団行動への一般参加を促進するための今後の研究を行う。

Climate activism is crucial in stimulating collective societal and behavioral change towards sustainable practices through political pressure. Although multiple factors contribute to the participation in activism, their complex relationships and the scarcity of data on their interactions have restricted most prior research to studying them in isolation, thus preventing the development of a quantitative, causal understanding of why people approach activism. In this work, we develop a comprehensive causal model of how and why Reddit users engage with activist communities driving mass climate protests (mainly the 2019 Earth Strike, Fridays for Future, and Extinction Rebellion). Our framework, based on Stochastic Variational Inference applied to Bayesian Networks, learns the causal pathways over multiple time periods. Distinct from previous studies, our approach uses large-scale and fine-grained longitudinal data (2016 to 2022) to jointly model the roles of sociodemographic makeup, experience of extreme weather events, exposure to climate-related news, and social influence through online interactions. We find that among users interested in climate change, participation in online activist communities is indeed influenced by direct interactions with activists and largely by recent exposure to media coverage of climate protests. Among people aware of climate change, left-leaning people from lower socioeconomic backgrounds are particularly represented in online activist groups. Our findings offer empirical validation for theories of media influence and critical mass, and lay the foundations to inform interventions and future studies to foster public participation in collective action.
翻訳日:2024-10-29 20:55:06 公開日:2024-10-14
# MEGA-Bench:500以上の実世界のタスクに対するマルチモーダル評価のスケールアップ

MEGA-Bench: Scaling Multimodal Evaluation to over 500 Real-World Tasks ( http://arxiv.org/abs/2410.10563v1 )

ライセンス: Link先を確認
Jiacheng Chen, Tianhao Liang, Sherman Siu, Zhengqing Wang, Kai Wang, Yubo Wang, Yuansheng Ni, Wang Zhu, Ziyan Jiang, Bohan Lyu, Dongfu Jiang, Xuan He, Yuan Liu, Hexiang Hu, Xiang Yue, Wenhu Chen, (参考訳) 本稿では,500以上の実世界のタスクにマルチモーダル評価をスケールする評価スイートMEGA-Benchについて述べる。 本研究の目的は,高度に多種多様なマルチモーダルタスクをカバーし,コスト効率と高精度なモデル評価を可能にする,高品質なデータサンプルのセットを最適化することである。 特に16のエキスパートアノテータから8000以上のサンプルを含む505の現実的なタスクを収集し、マルチモーダルなタスク空間を広範囲にカバーした。 これらの問題を(MMMU、MMBench、MMT-Benchのような)標準的なマルチ選択の質問に統一する代わりに、数値、フレーズ、コード、 \LaTeX、座標、JSON、フリーフォームなど、幅広い出力フォーマットを採用しています。 これらのフォーマットに対応するために、これらのタスクを評価するためのメトリクスを40以上開発しました。 既存のベンチマークとは異なり、MEGA-Benchは複数の次元(アプリケーション、入力タイプ、出力フォーマット、スキルなど)にわたる詳細な機能レポートを提供しており、ユーザーはモデル機能と深く対話し視覚化することができる。 我々は,MEGA-Bench上での様々なフロンティア視覚言語モデルを評価し,これらの次元にわたってそれらの能力を理解する。

We present MEGA-Bench, an evaluation suite that scales multimodal evaluation to over 500 real-world tasks, to address the highly heterogeneous daily use cases of end users. Our objective is to optimize for a set of high-quality data samples that cover a highly diverse and rich set of multimodal tasks, while enabling cost-effective and accurate model evaluation. In particular, we collected 505 realistic tasks encompassing over 8,000 samples from 16 expert annotators to extensively cover the multimodal task space. Instead of unifying these problems into standard multi-choice questions (like MMMU, MMBench, and MMT-Bench), we embrace a wide range of output formats like numbers, phrases, code, \LaTeX, coordinates, JSON, free-form, etc. To accommodate these formats, we developed over 40 metrics to evaluate these tasks. Unlike existing benchmarks, MEGA-Bench offers a fine-grained capability report across multiple dimensions (e.g., application, input type, output format, skill), allowing users to interact with and visualize model capabilities in depth. We evaluate a wide variety of frontier vision-language models on MEGA-Bench to understand their capabilities across these dimensions.
翻訳日:2024-10-29 20:55:06 公開日:2024-10-14
# 先代が断絶する時

When Precedents Clash ( http://arxiv.org/abs/2410.10567v1 )

ライセンス: Link先を確認
Cecilia Di Florio, Huimin Dong, Antonino Rotolo, (参考訳) ケースベースとの整合性は、新たなケースを決定する上で、矛盾する制約前例を回収する問題を回避するための手段である。 しかし、法律上の慣行では、ケースベースに対する整合性要件は満たされないかもしれない。 (Broughton 2019)で指摘されているように、前例的な制約のモデルは、考慮中の特定の法体系の階層構造とケースの時間的次元を考慮に入れなければならない。 本稿は、ブール分類器と判例に基づく推論の関連性を確立した(Liu et al 2022; Di Florio et al 2023)研究を継続する。 このベースで、裁判所の階層構造を考慮に入れた組織構造を持つ分類器モデルを強化し、裁判所がその後の事例に拘束・拘束する決定を下す。 我々は共通の法体系に焦点をあてる。 事例間の時間的関係も導入する。 このリッチな枠組みの中では、オーバールーされたケースの概念と、インキュアム毎に決定されたケースを定式化することができる:そのようなケースは後続のケースに束縛されるものとみなすべきではない。 最後に, 階層構造と時間次元に基づく条件原理が, 矛盾する結合前例が存在する場合に, 新たな事例に対して明確な意思決定プロセスを提供できることを示す。

Consistency of case bases is a way to avoid the problem of retrieving conflicting constraining precedents for new cases to be decided. However, in legal practice the consistency requirements for case bases may not be satisfied. As pointed out in (Broughton 2019), a model of precedential constraint should take into account the hierarchical structure of the specific legal system under consideration and the temporal dimension of cases. This article continues the research initiated in (Liu et al. 2022; Di Florio et al. 2023), which established a connection between Boolean classifiers and legal case-based reasoning. On this basis, we enrich the classifier models with an organisational structure that takes into account both the hierarchy of courts and which courts issue decisions that are binding/constraining on subsequent cases. We focus on common law systems. We also introduce a temporal relation between cases. Within this enriched framework, we can formalise the notions of overruled cases and cases decided per incuriam: such cases are not to be considered binding on later cases. Finally, we show under which condition principles based on the hierarchical structure and on the temporal dimension can provide an unambiguous decision-making process for new cases in the presence of conflicting binding precedents.
翻訳日:2024-10-29 20:55:06 公開日:2024-10-14
# 相互作用するボソンのカオス相における2粒子相関の伝播

Propagation of two-particle correlations across the chaotic phase for interacting bosons ( http://arxiv.org/abs/2410.10571v1 )

ライセンス: Link先を確認
Óscar Dueñas, David Peña, Alberto Rodríguez, (参考訳) 本研究では, 1次元相互作用ボソンに対する実験的な2粒子相関の伝播を詳細に解析し, 多体カオスが, 相互作用依存拡散係数を特徴とする完全コヒーレント相関ダイナミクスに対する効果的な拡散状態の出現を誘導することを示す。 この結果は、非常に最近の実験的な観察を支持し、非可積分な複合多体系の動的挙動の効率的な記述への道を開く。 さらに, 簡便に定義された2粒子相関輸送距離の時間スケールにおける動的特徴が, 多体量子カオスの直接的かつ曖昧な特徴を与えることを示した。

We present a detailed analysis of the propagation of experimentally relevant two-particle correlations for one-dimensional interacting bosons, and give evidence that many-body chaos induces the emergence of an effective diffusive regime for the fully coherent correlation dynamics, characterized by an interaction dependent diffusion coefficient, which we estimate. This result supports very recent experimental observations, and paves the way towards an efficient description of the dynamical behaviour of non-integrable complex many-body systems. Furthermore, we show that the dynamical features within experimentally accessible time scales of a conveniently defined two-particle correlation transport distance provide a direct and unambiguous characterization of many-body quantum chaos.
翻訳日:2024-10-29 20:55:06 公開日:2024-10-14
# ランダムに信頼性のある正規化学習者とインスタンスを標的とした攻撃

Regularized Robustly Reliable Learners and Instance Targeted Attacks ( http://arxiv.org/abs/2410.10572v1 )

ライセンス: Link先を確認
Avrim Blum, Donya Saless, (参考訳) インスタンスをターゲットとしたデータ中毒攻撃では、特定のテストポイントのエラーを誘発するトレーニングセットを敵が破損させ、重大な懸念が持ち上がっている。 Balcan et al (2022) は、データ中毒攻撃があっても、適切に定義された仮定の下で正当性の保証を提供する堅牢で信頼性の高い学習者の概念を定義することによって、この問題に対処するアプローチを提案した。 次に、汎用的な最適(しかし計算的に非効率)な学習者と、対数凹面分布上の線形分離器の場合の計算効率のよいアルゴリズムを与える。 本研究では,Balcan et al (2022) が残した2つの課題に対処する。 1つは、バルカンやアル(2022)における強信頼可能な学習者の定義が、高フレキシブルな仮説クラスに対して空となることである: もし2つの分類器 h_0, h_1 \in H が存在し、どちらも訓練セット上のゼロ誤差を持ち、h_0(x) \neq h_1(x) であるなら、強信頼な学習者は x を棄却しなければならない。 本稿では,非自明な文を許容する正規化頑健な学習者の修正概念を定義することで,この問題に対処する。 第二に、Balcan et al (2022) の一般的なアルゴリズムでは、各テストポイント x 上で ERM のオラクルを再実行(本質的には、分類器を再訓練)する必要がある。 この問題に対処するために、少なくともある興味深いケースでは、動的アルゴリズム設計の技術を用いて、トレーニング時間内に出力をサブ線形に生成できるアルゴリズムを設計できることを示す。

Instance-targeted data poisoning attacks, where an adversary corrupts a training set to induce errors on specific test points, have raised significant concerns. Balcan et al (2022) proposed an approach to addressing this challenge by defining a notion of robustly-reliable learners that provide per-instance guarantees of correctness under well-defined assumptions, even in the presence of data poisoning attacks. They then give a generic optimal (but computationally inefficient) robustly reliable learner as well as a computationally efficient algorithm for the case of linear separators over log-concave distributions. In this work, we address two challenges left open by Balcan et al (2022). The first is that the definition of robustly-reliable learners in Balcan et al (2022) becomes vacuous for highly-flexible hypothesis classes: if there are two classifiers h_0, h_1 \in H both with zero error on the training set such that h_0(x) \neq h_1(x), then a robustly-reliable learner must abstain on x. We address this problem by defining a modified notion of regularized robustly-reliable learners that allows for nontrivial statements in this case. The second is that the generic algorithm of Balcan et al (2022) requires re-running an ERM oracle (essentially, retraining the classifier) on each test point x, which is generally impractical even if ERM can be implemented efficiently. To tackle this problem, we show that at least in certain interesting cases we can design algorithms that can produce their outputs in time sublinear in training time, by using techniques from dynamic algorithm design.
翻訳日:2024-10-29 20:45:18 公開日:2024-10-14
# インクリメンタル全スライド画像分類のための視覚言語モデルを用いた質問型複数インスタンス学習

Queryable Prototype Multiple Instance Learning with Vision-Language Models for Incremental Whole Slide Image Classification ( http://arxiv.org/abs/2410.10573v1 )

ライセンス: Link先を確認
Jiaxiang Gou, Luping Ji, Pei Liu, Mao Ye, (参考訳) Whole Slide Image (WSI) 分類は臨床病理学、例えば腫瘍の同定、癌診断に非常に大きな応用がある。 現在、ほとんどの研究対象は静的データセットを使用したMIL(Multiple Instance Learning)に焦点を当てている。 これらの手法の最も明らかな弱点の1つは、学習済みの知識を効率的に保存・活用できないことである。 新しいデータが到着すると、分類モデルは以前のデータと現在のデータの両方で再訓練される必要がある。 本稿では、この欠点を克服し、従来の視覚モダリティを突破するために、WSI の段階的な分類のために特別に設計された、クエリ可能なプロトタイプ多重インスタンス学習(QPMIL-VL)を備えたビジョンランゲージベースのフレームワークを提案する。 このフレームワークは主に2つの情報処理ブランチで構成される。 ひとつは,インスタンス機能に基づいたプロトタイプガイドアグリゲーションによって,バッグレベルの機能を生成する方法だ。 もう1つは、クラスアンサンブル、可変ベクトル、およびクラス類似性損失によるクラス機能拡張のためのものだ。 TCGAデータセットの4つの実験は、我々のQPMIL-VLフレームワークが漸進的なWSI分類に有効であることを示し、しばしば他の比較手法よりも優れており、最先端(SOTA)性能を実現していることを示している。

Whole Slide Image (WSI) classification has very significant applications in clinical pathology, e.g., tumor identification and cancer diagnosis. Currently, most research attention is focused on Multiple Instance Learning (MIL) using static datasets. One of the most obvious weaknesses of these methods is that they cannot efficiently preserve and utilize previously learned knowledge. With any new data arriving, classification models are required to be re-trained on both previous and current new data. To overcome this shortcoming and break through traditional vision modality, this paper proposes the first Vision-Language-based framework with Queryable Prototype Multiple Instance Learning (QPMIL-VL) specially designed for incremental WSI classification. This framework mainly consists of two information processing branches. One is for generating the bag-level feature by prototype-guided aggregating on the instance features. While the other is for enhancing the class feature through class ensemble, tunable vector and class similarity loss. The experiments on four TCGA datasets demonstrate that our QPMIL-VL framework is effective for incremental WSI classification and often significantly outperforms other compared methods, achieving state-of-the-art (SOTA) performance.
翻訳日:2024-10-29 20:45:18 公開日:2024-10-14
# 表示のない共有: 信頼できる実行環境を備えたセキュアなクラウド分析

Sharing without Showing: Secure Cloud Analytics with Trusted Execution Environments ( http://arxiv.org/abs/2410.10574v1 )

ライセンス: Link先を確認
Marcus Birgersson, Cyrille Artho, Musard Balliu, (参考訳) 多くのアプリケーションは、機密性を保持しながら、複数のユーザのデータに対する計算の恩恵を受ける。 本稿では,複数のユーザのデータを相互に信頼できない状態で集約し,データを再暗号化することなく,ユーザをいつでもシステムに追加することが可能なソリューションを提案する。 この問題に対する当社のソリューションは,データ所有者のキーで機密データを暗号化し,サービスプロバイダを信頼せずにどこにでも保存できるような,信頼された実行環境(Intel SGX)を計算に使用することです。 私たちは、ユーザが計算フェーズ中にオンラインになる必要はなく、信頼された第三者がデータをプレーンテキストに格納する必要もありません。 それでも、データ所有者が明示的に許可を与えている場合のみ、計算を実行することができる。 和、最小二乗フィット、ヒストグラム、SVM分類などの共通関数を用いた実験では平均オーバーヘッドは1.6 \times$である。 これらの性能実験に加えて、他のタクシーの位置を明らかにすることなく、市内のタクシーの分布を計算するためのユースケースを提案する。

Many applications benefit from computations over the data of multiple users while preserving confidentiality. We present a solution where multiple mutually distrusting users' data can be aggregated with an acceptable overhead, while allowing users to be added to the system at any time without re-encrypting data. Our solution to this problem is to use a Trusted Execution Environment (Intel SGX) for the computation, while the confidential data is encrypted with the data owner's key and can be stored anywhere, without trust in the service provider. We do not require the user to be online during the computation phase and do not require a trusted party to store data in plain text. Still, the computation can only be carried out if the data owner explicitly has given permission. Experiments using common functions such as the sum, least square fit, histogram, and SVM classification, exhibit an average overhead of $1.6 \times$. In addition to these performance experiments, we present a use case for computing the distributions of taxis in a city without revealing the position of any other taxi to the other parties.
翻訳日:2024-10-29 20:45:18 公開日:2024-10-14
# Zero-shot POS タグ作成の準備 - 現実的なシナリオで有用か?

Recipe for Zero-shot POS Tagging: Is It Useful in Realistic Scenarios? ( http://arxiv.org/abs/2410.10576v1 )

ライセンス: Link先を確認
Zeno Vandenbulcke, Lukas Vermeire, Miryam de Lhoneux, (参考訳) POSタグは多くのアプリケーションにおいて基本的な役割を果たす。 POSタグは、十分にソースされた設定では極めて正確だが、限られたトレーニングデータや不足したトレーニングデータでは遅れている。 本稿では、限られたデータを持つ言語に対するPOSタグ付けに焦点を当てる。 対象言語からのラベル付きトレーニングデータを用いることなく,POSタグ付けモデルのトレーニングに好適なデータセットの特徴を特定する。 これはゼロショットアプローチです。 対象言語に関連する1つ以上の言語で微調整された多言語大言語モデル(mBERT)の精度を比較した。 さらに、これらの結果とターゲット言語自体を直接訓練したモデルを比較する。 ターゲットとする低リソース言語は3つです。 本研究は、効率的なゼロショットPOSタグ付けのための正確なデータセット選択の重要性を強調した。 特に、強い言語的関係と高品質なデータセットによって最適な結果が得られる。 極端に低リソースな言語では、ゼロショットモデルが有効な選択肢であることが証明されている。

POS tagging plays a fundamental role in numerous applications. While POS taggers are highly accurate in well-resourced settings, they lag behind in cases of limited or missing training data. This paper focuses on POS tagging for languages with limited data. We seek to identify the characteristics of datasets that make them favourable for training POS tagging models without using any labelled training data from the target language. This is a zero-shot approach. We compare the accuracies of a multilingual large language model (mBERT) fine-tuned on one or more languages related to the target language. Additionally, we compare these results with models trained directly on the target language itself. We do this for three target low-resource languages. Our research highlights the importance of accurate dataset selection for effective zero-shot POS tagging. Particularly, a strong linguistic relationship and high-quality datasets ensure optimal results. For extremely low-resource languages, zero-shot models prove to be a viable option.
翻訳日:2024-10-29 20:45:18 公開日:2024-10-14
# 符号混合文の多言語制御とゴールドスタンダード非依存評価

Multilingual Controlled Generation And Gold-Standard-Agnostic Evaluation of Code-Mixed Sentences ( http://arxiv.org/abs/2410.10580v1 )

ライセンス: Link先を確認
Ayushman Gupta, Akhil Bhogal, Kripabandhu Ghosh, (参考訳) コーデックス・ミキシング(Code-mixing)は、2つ以上の言語を発話で交互に交互に行う手法であり、多言語コミュニティでよく見られる現象である。 コードミキシングの口語的性質のため、英語の文をコードミキシングの文に変換する唯一の正しい方法はない。 このため、BLEUスコアなどの標準n-gramベースのMT評価指標は、符号混合評価には適さない。 そこで本研究では、コード混合度(CMD)をパラメータ化し、与えられた英文から複数の意味論的等価なコード混合文を生成するための、コード混合テキスト生成の新しい手法を提案する。 GAME: A Gold-Standard Agnostic Measure for Evaluation of Code-Mixed Sentences。 GAMEは言語非依存とゴールドスタンダード非依存の両方、すなわち他のメトリクスとは異なり、GAMEは評価のためにゴールドスタンダードのコード混在文を必要としないため、コード混在評価プロセスにおいて人間のアノテータは不要である。 意味論的に等価なコード混合文を評価する際、GAMEスコアはBLEUスコアよりも標準偏差が低いことがわかった。 さらに、コードミキシングに関するより計算的な研究を促進するために、4つの言語対(英語-{Hindi, Bengali, French, Spanish})にまたがるゴールドスタンダードのコードミキシング文を含むデータセットを作成し、リリースする。

Code-mixing, the practice of alternating between two or more languages in an utterance, is a common phenomenon in multilingual communities. Due to the colloquial nature of code-mixing, there is no singular correct way to translate an English sentence into a code-mixed sentence. For this reason, standard n-gram-based MT evaluation metrics such as the BLEU score are not appropriate for code-mixed evaluation. To demonstrate this, we propose a novel method for code-mixed text generation: Controlled Generation, which parameterizes the code-mixing degree (CMD) and enables the generation of multiple semantically equivalent code-mixed sentences from a given English sentence. We introduce a robust new evaluation metric: GAME: A Gold-Standard Agnostic Measure for Evaluation of Code-Mixed Sentences. GAME is both language-agnostic and gold-standard-agnostic, i.e. unlike other metrics, GAME does not require gold-standard code-mixed sentences for evaluation, thus eliminating the need for human annotators in the code-mixed evaluation process. When used to evaluate semantically equivalent code-mixed sentences, we find that GAME scores have a lower standard deviation than BLEU scores. Further, we create and release a dataset containing gold-standard code-mixed sentences across 4 language pairs: English-{Hindi, Bengali, French, Spanish} to encourage more computational research on code-mixing.
翻訳日:2024-10-29 20:45:18 公開日:2024-10-14
# STACKFEED:FeedBackによる構造化テキストアクター批判的知識ベース編集

STACKFEED: Structured Textual Actor-Critic Knowledge Base Editing with FeedBack ( http://arxiv.org/abs/2410.10584v1 )

ライセンス: Link先を確認
Naman Gupta, Shashank Kirtania, Priyanshu Gupta, Krishna Kariya, Sumit Gulwani, Arun Iyer, Suresh Parthasarathy, Arjun Radhakrishna, Sriram K. Rajamani, Gustavo Soares, (参考訳) 大規模言語モデル(LLM)は、特に低リソース設定やプライベートデータを扱う場合、誤った情報や時代遅れの情報を生成することが多い。 これを解決するために、Retrieval-Augmented Generation (RAG)は外部知識ベース(KB)を使用しているが、これらは不正確である。 STACKFEED(Structured Textual Actor-Critic Knowledge Base Editor with FEEDback approach)を紹介する。 各文書はアクターに割り当てられ、ReACTエージェントとしてモデル化され、中央集権的な批評家からの文書固有のターゲット命令に基づいて構造化された編集を行う。 実験の結果,STACKFEEDはKB品質とRAGシステム性能を向上し,ベースラインよりも最大8%精度が向上した。

Large Language Models (LLMs) often generate incorrect or outdated information, especially in low-resource settings or when dealing with private data. To address this, Retrieval-Augmented Generation (RAG) uses external knowledge bases (KBs), but these can also suffer from inaccuracies. We introduce STACKFEED, a novel Structured Textual Actor-Critic Knowledge base editing with FEEDback approach that iteratively refines the KB based on expert feedback using a multi-actor, centralized critic reinforcement learning framework. Each document is assigned to an actor, modeled as a ReACT agent, which performs structured edits based on document-specific targeted instructions from a centralized critic. Experimental results show that STACKFEED significantly improves KB quality and RAG system performance, enhancing accuracy by up to 8% over baselines.
翻訳日:2024-10-29 20:45:18 公開日:2024-10-14
# SemEval-2024 Task 1:Ensemble Learning for Semantic Relatedness Estimation

Tübingen-CL at SemEval-2024 Task 1:Ensemble Learning for Semantic Relatedness Estimation ( http://arxiv.org/abs/2410.10585v1 )

ライセンス: Link先を確認
Leixin Zhang, Çağrı Çöltekin, (参考訳) 本稿では,文対の関連性を予測することを目的としたSemEval-2024 Task 1を提案する。 意味的関連性は文の単なる類似性を超えて広がるより広い概念であるという仮説の下で,本研究は関係性推定に有用な特徴を特定することを目的としている。 我々は,関係性の予測のために,統計テキストの特徴や深層学習モデルの出力など,様々なシステムを統合するアンサンブルアプローチを採用する。 その結果, 意味的関連性は様々な情報源から推定でき, アンサンブルモデルは意味的関連性の推定において多くの個々のシステムより優れていることが示唆された。

The paper introduces our system for SemEval-2024 Task 1, which aims to predict the relatedness of sentence pairs. Operating under the hypothesis that semantic relatedness is a broader concept that extends beyond mere similarity of sentences, our approach seeks to identify useful features for relatedness estimation. We employ an ensemble approach integrating various systems, including statistical textual features and outputs of deep learning models to predict relatedness scores. The findings suggest that semantic relatedness can be inferred from various sources and ensemble models outperform many individual systems in estimating semantic relatedness.
翻訳日:2024-10-29 20:45:18 公開日:2024-10-14
# TopoFR: 顔認識のトポロジアライメント

TopoFR: A Closer Look at Topology Alignment on Face Recognition ( http://arxiv.org/abs/2410.10587v1 )

ライセンス: Link先を確認
Jun Dan, Yang Liu, Jiankang Deng, Haoyu Xie, Siyuan Li, Baigui Sun, Shan Luo, (参考訳) 顔認識(FR)の分野は、ディープラーニングの台頭とともに大きな進歩を遂げている。 近年,教師なし学習とグラフニューラルネットワークの成功により,データ構造情報の有効性が実証されている。 FRタスクは,本質的に重要な構造情報を含む大規模学習データを活用することができることを考慮し,そのような重要な構造情報を潜在空間にエンコードする方法を検討することを目的とする。 我々の観測から明らかになったように、入射空間と潜射空間の間の構造情報を直接整列させることは、必然的に過度な問題に悩まされ、潜射空間における構造崩壊現象を引き起こす。 この問題に対処するために,PTSAと呼ばれるトポロジカル構造アライメント戦略とSDEというハードサンプルマイニング戦略を利用する新しいFRモデルであるTopoFRを提案する。 具体的には、PTSAは持続的ホモロジーを用いて入力空間と潜在空間の位相構造を整列させ、構造情報を効果的に保存し、FRモデルの一般化性能を向上させる。 遅延空間構造に対するハードサンプルの影響を軽減するため、SDEは、各サンプルに対する構造損傷スコア(SDS)を自動的に計算することで、ハードサンプルを正確に識別し、これらのサンプルの最適化を優先するようモデルに指示する。 一般的な顔のベンチマーク実験の結果は、最先端の手法よりもTopoFRの方が優れていることを示している。 コードとモデルは以下の通りである。 https://github.com/modelscope/facechain/tree/main/face_module/TopoFR。

The field of face recognition (FR) has undergone significant advancements with the rise of deep learning. Recently, the success of unsupervised learning and graph neural networks has demonstrated the effectiveness of data structure information. Considering that the FR task can leverage large-scale training data, which intrinsically contains significant structure information, we aim to investigate how to encode such critical structure information into the latent space. As revealed from our observations, directly aligning the structure information between the input and latent spaces inevitably suffers from an overfitting problem, leading to a structure collapse phenomenon in the latent space. To address this problem, we propose TopoFR, a novel FR model that leverages a topological structure alignment strategy called PTSA and a hard sample mining strategy named SDE. Concretely, PTSA uses persistent homology to align the topological structures of the input and latent spaces, effectively preserving the structure information and improving the generalization performance of FR model. To mitigate the impact of hard samples on the latent space structure, SDE accurately identifies hard samples by automatically computing structure damage score (SDS) for each sample, and directs the model to prioritize optimizing these samples. Experimental results on popular face benchmarks demonstrate the superiority of our TopoFR over the state-of-the-art methods. Code and models are available at: https://github.com/modelscope/facechain/tree/main/face_module/TopoFR.
翻訳日:2024-10-29 20:45:18 公開日:2024-10-14
# TRESTLE: 構造化ドメインの概念形成モデル

TRESTLE: A Model of Concept Formation in Structured Domains ( http://arxiv.org/abs/2410.10588v1 )

ライセンス: Link先を確認
Christopher J. MacLellan, Erik Harpstead, Vincent Aleven, Kenneth R. Koedinger, (参考訳) 概念形成に関する文献は、人間が様々な属性タイプ、教師なしと教師なしの両方で、概念を漸進的に学習できることを実証している。 概念形成のモデルの多くはこれらの特徴のサブセットに焦点を当てているが、それら全てを考慮していない。 本稿では,従来の概念学習モデルを統一した構造化ドメインにおける確率論的概念形成の漸進的な説明であるTRESTLEを提案する。 TRESTLEは、欠落した属性値とサンプルのクラスタセットを概念的に意味のあるグループに予測するために使用できる階層的な分類木を作成することで機能する。 知識を部分的に一致させ、それらを分類木に分類することで更新する。 最後に、このシステムは、名目、数値、リレーショナル、コンポーネント属性を含む混合データ表現をサポートする。 教師なし学習タスクと教師なしクラスタリングタスクにおいて,TRESTLEの性能を評価する。 両方のタスクに対して、非インクリメンタルモデルと人間の参加者を比較します。 この新たな分類モデルは、非増分的アプローチと競合し、より密に両方のタスクにおける人間の振る舞いを近似する。 これらの結果は、TRESTLEの機能の最初のデモとして機能し、人間の学習の重要な特徴を考慮に入れれば、それを無視するアプローチよりも、振る舞いをモデル化できることを示す。

The literature on concept formation has demonstrated that humans are capable of learning concepts incrementally, with a variety of attribute types, and in both supervised and unsupervised settings. Many models of concept formation focus on a subset of these characteristics, but none account for all of them. In this paper, we present TRESTLE, an incremental account of probabilistic concept formation in structured domains that unifies prior concept learning models. TRESTLE works by creating a hierarchical categorization tree that can be used to predict missing attribute values and cluster sets of examples into conceptually meaningful groups. It updates its knowledge by partially matching novel structures and sorting them into its categorization tree. Finally, the system supports mixed-data representations, including nominal, numeric, relational, and component attributes. We evaluate TRESTLE's performance on a supervised learning task and an unsupervised clustering task. For both tasks, we compare it to a nonincremental model and to human participants. We find that this new categorization model is competitive with the nonincremental approach and more closely approximates human behavior on both tasks. These results serve as an initial demonstration of TRESTLE's capabilities and show that, by taking key characteristics of human learning into account, it can better model behavior than approaches that ignore them.
翻訳日:2024-10-29 20:45:18 公開日:2024-10-14
# MoTE: ビジュアル言語とビデオ知識伝達の専門化による一般化の再構築

MoTE: Reconciling Generalization with Specialization for Visual-Language to Video Knowledge Transfer ( http://arxiv.org/abs/2410.10589v1 )

ライセンス: Link先を確認
Minghao Zhu, Zhengpu Wang, Mengxian Hu, Ronghao Dang, Xiao Lin, Xun Zhou, Chengju Liu, Qijun Chen, (参考訳) 映像認識のための大規模基盤モデルから視覚言語知識を伝達することは有効であることが証明された。 ドメインギャップを埋めるために、時間情報を取得するためにパラメトリックモジュールが追加される。 しかし、ゼロショット一般化は特殊パラメータの数の増加とともに減少し、既存の作業はゼロショットとクローズセットのパフォーマンスのトレードオフとなる。 本稿では、一般化と特殊化を一つの統一モデルでバランスよく行える新しいフレームワークであるMoTEを提案する。 提案手法は,複数のタスクビューをさまざまなデータ適合度で学習するために,時間的専門家の混在をチューニングする。 各専門家の知識を最大限に保存するために、重み空間における専門家の合併過程を規則化する「emph{Weight Merging Regularization」を提案する。 さらに、時間的特徴変調により、テスト中の時間的特徴の寄与を規則化する。 我々は、ゼロショットとクローズセットのビデオ認識タスクの健全なバランスを達成し、Kinetics-400 \&600, UCF, HMDBなどの様々なデータセットで最先端または競合的な結果を得る。 コードは \url{https://github.com/ZMHH-H/MoTE} で入手できる。

Transferring visual-language knowledge from large-scale foundation models for video recognition has proved to be effective. To bridge the domain gap, additional parametric modules are added to capture the temporal information. However, zero-shot generalization diminishes with the increase in the number of specialized parameters, making existing works a trade-off between zero-shot and close-set performance. In this paper, we present MoTE, a novel framework that enables generalization and specialization to be balanced in one unified model. Our approach tunes a mixture of temporal experts to learn multiple task views with various degrees of data fitting. To maximally preserve the knowledge of each expert, we propose \emph{Weight Merging Regularization}, which regularizes the merging process of experts in weight space. Additionally with temporal feature modulation to regularize the contribution of temporal feature during test. We achieve a sound balance between zero-shot and close-set video recognition tasks and obtain state-of-the-art or competitive results on various datasets, including Kinetics-400 \& 600, UCF, and HMDB. Code is available at \url{https://github.com/ZMHH-H/MoTE}.
翻訳日:2024-10-29 20:45:18 公開日:2024-10-14
# 認知レーダのためのオンライン波形選択

Online waveform selection for cognitive radar ( http://arxiv.org/abs/2410.10591v1 )

ライセンス: Link先を確認
Thulasi Tholeti, Avinash Rangarajan, Sheetal Kalyani, (参考訳) パラメータを適応できる認知レーダーシステムの設計は、特に飛行全体を通して弾道ミサイルの追跡を行う場合、特に困難である。 本研究では,オンライン方式で波形パラメータを選択する適応アルゴリズムを提案する。 我々の新規性は、弾道軌道の特性から派生したドメイン知識を用いて学習問題を定式化することにある。 本稿では,帯域幅のスケーリング,Qラーニング,Qラーニングのルックアヘッドという3つの強化学習アルゴリズムを提案する。 これらのアルゴリズムは、受信したフィードバックに基づいて各送信の帯域幅を動的に選択する。 合成された弾道軌道の実験を通じて,提案アルゴリズムは,目標を失わずに範囲誤差を最小化し,連続的な追跡を維持するという2つの目的を達成できることを実証した。

Designing a cognitive radar system capable of adapting its parameters is challenging, particularly when tasked with tracking a ballistic missile throughout its entire flight. In this work, we focus on proposing adaptive algorithms that select waveform parameters in an online fashion. Our novelty lies in formulating the learning problem using domain knowledge derived from the characteristics of ballistic trajectories. We propose three reinforcement learning algorithms: bandwidth scaling, Q-learning, and Q-learning lookahead. These algorithms dynamically choose the bandwidth for each transmission based on received feedback. Through experiments on synthetically generated ballistic trajectories, we demonstrate that our proposed algorithms achieve the dual objectives of minimizing range error and maintaining continuous tracking without losing the target.
翻訳日:2024-10-29 20:45:18 公開日:2024-10-14
# 非相互作用ボソンのキャラクタリゼーションとその応用

Characterization of Noninteracting Bosons, with Applications ( http://arxiv.org/abs/2410.10593v1 )

ライセンス: Link先を確認
Shawn Geller, (参考訳) ボソンサンプリング(英: Boson sample)は、受動線形光ネットワークを走行する多くのボソンの数-基底分布からサンプルを生成するタスクである。 古典的に達成することが極めて困難であると考えられており、多くの「量子優位」のデモンストレーションの動機となっている。 本稿では、光子の代わりに原子を用いてJILAで行ったボソンサンプリング実験の結果を解釈するために開発された評価ツールについて論じる。 香港-奥羽-マンデル式測定により, 原子の識別不可能性を測定したところ, 99.5^{+0.5}_{-1.6}\%$であった。 その結果, 原子の識別不可能性は, 多粒子の凝集特性の優れた予測因子であり, 結果として, 多粒子の識別不可能性自体の測定値となった。 この後者の接続を明示するために、弱一般化束予想を導入し、既存の数学的予想と同値であることを示す。 実験中に存在する力学を特徴付けるため,Fock法に基づいて単一粒子のユニタリを推定するために実験設計を最適化する方法について議論した。 極めて低温な原子を持つことは、適切な時間で力学の推論を行うのに必要であることを示した。 次に, 1 と 2 の原子を用いた直接測定により, 単一粒子のユニタリを部分的に特徴付け, 測定結果を2 つのパラメータ間の偏差を記述する新しい統計量を用いて, 別個の評価値と比較した。

Boson sampling is the task of producing samples from the number-basis distribution of many bosons traveling through a passive linear optical network. It is believed to be extremely difficult to accomplish classically, and has been the motivation for many "quantum advantage" demonstrations. Here we discuss the characterization tools that were developed to interpret the results of a boson sampling experiment performed at JILA, using atoms instead of photons. We measured the indistinguishability of the atoms using a Hong-Ou-Mandel style measurement, and found that it was $99.5^{+0.5}_{-1.6}\%$. We then showed that the indistinguishability of the atoms was a good predictor of the multiparticle bunching features, which in turn was a measure of multiparticle indistinguishability itself. To make this latter connection explicit, we introduce the weak generalized bunching conjecture and show it is equivalent to an existing mathematical conjecture. For the purpose of characterizing the dynamics that were present in the experiment, we discuss how to optimize the experimental design for inferring the single-particle unitary from Fock basis measurements. We showed that having very cold atoms was necessary to perform the inference of the dynamics in a reasonable amount of time. We then partially characterized the single particle unitary via direct measurements using one and two atoms, and compared our measurements to a separate characterization using a new statistic that describes the deviation between the two characterization methods while being insensitive to uninferable parameters.
翻訳日:2024-10-29 20:45:18 公開日:2024-10-14
# VisRAG:マルチモダリティ文書の視覚的検索型生成

VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents ( http://arxiv.org/abs/2410.10594v1 )

ライセンス: Link先を確認
Shi Yu, Chaoyue Tang, Bokai Xu, Junbo Cui, Junhao Ran, Yukun Yan, Zhenghao Liu, Shuo Wang, Xu Han, Zhiyuan Liu, Maosong Sun, (参考訳) Retrieval-augmented Generation (RAG) は、大規模言語モデル(LLM)が外部知識ソースを生成に利用できるようにする効果的な手法である。 しかし、現在のRAGシステムはテキストのみをベースとしており、現実のマルチモダリティ文書において重要な役割を果たすレイアウトや画像のような視覚情報を活用することは不可能である。 本稿では,視覚言語モデル(VLM)に基づくRAGパイプラインを構築することで,この問題に対処するVisRAGを紹介する。 このパイプラインでは、まず文書を解析してテキストを取得する代わりに、VLMを画像として直接埋め込んで、VLMの生成を強化する。 従来のテキストベースのRAGと比較して、VisRAGは元の文書におけるデータ情報の保持と利用を最大化し、解析プロセスで導入された情報損失をなくす。 オープンソースと合成データの両方を収集し、VisRAGで検索者を訓練し、様々な生成方法を探索する。 VisRAGは検索と生成の両方の段階で従来のRAGよりも優れており、従来のテキストベースのRAGパイプラインよりも25-39-%のエンドツーエンドのパフォーマンス向上を実現している。 さらに、VisRAGはトレーニングデータを活用するのに有効であり、多モード文書上でRAGを有望なソリューションとして位置づけ、強力な一般化能力を示すことが判明した。 私たちのコードとデータはhttps://github.com/openbmb/visrag で公開されています。

Retrieval-augmented generation (RAG) is an effective technique that enables large language models (LLMs) to utilize external knowledge sources for generation. However, current RAG systems are solely based on text, rendering it impossible to utilize vision information like layout and images that play crucial roles in real-world multi-modality documents. In this paper, we introduce VisRAG, which tackles this issue by establishing a vision-language model (VLM)-based RAG pipeline. In this pipeline, instead of first parsing the document to obtain text, the document is directly embedded using a VLM as an image and then retrieved to enhance the generation of a VLM. Compared to traditional text-based RAG, VisRAG maximizes the retention and utilization of the data information in the original documents, eliminating the information loss introduced during the parsing process. We collect both open-source and synthetic data to train the retriever in VisRAG and explore a variety of generation methods. Experiments demonstrate that VisRAG outperforms traditional RAG in both the retrieval and generation stages, achieving a 25--39\% end-to-end performance gain over traditional text-based RAG pipeline. Further analysis reveals that VisRAG is effective in utilizing training data and demonstrates strong generalization capability, positioning it as a promising solution for RAG on multi-modality documents. Our code and data are available at https://github.com/openbmb/visrag .
翻訳日:2024-10-29 20:45:18 公開日:2024-10-14
# 実践を通して古典的な課題を克服するニューラルネットワーク

Neural networks that overcome classic challenges through practice ( http://arxiv.org/abs/2410.10596v1 )

ライセンス: Link先を確認
Kazuki Irie, Brenden M. Lake, (参考訳) 心と脳のニューラルネットワークモデルに関する最初期の提案以来、批評家は人間の認知能力と比較して、これらのモデルに重要な弱点を指摘してきた。 ここでは、メタラーニングを使ってこれらの課題を克服した最近の研究についてレビューする。 マシンにX(Xが望ましい能力を表す)を改善するインセンティブを与え、Xの明示的な最適化を通じてそれを実践する機会を与える。 我々は,この原則の応用を,体系性,破滅的忘れ,少数ショット学習,多段階推論という4つの古典的課題に見直し,自然環境における人間発達の関連面についても論じる。

Since the earliest proposals for neural network models of the mind and brain, critics have pointed out key weaknesses in these models compared to human cognitive abilities. Here we review recent work that has used metalearning to help overcome some of these challenges. We characterize their successes as addressing an important developmental problem: they provide machines with an incentive to improve X (where X represents the desired capability) and opportunities to practice it, through explicit optimization for X; unlike conventional approaches that hope for achieving X through generalization from related but different objectives. We review applications of this principle to four classic challenges: systematicity, catastrophic forgetting, few-shot learning and multi-step reasoning; we also discuss related aspects of human development in natural environments.
翻訳日:2024-10-29 20:35:30 公開日:2024-10-14
# BrainMVP:マルチパラメトリックMRIを用いた脳画像解析のためのマルチモーダルビジョン事前トレーニング

BrainMVP: Multi-modal Vision Pre-training for Brain Image Analysis using Multi-parametric MRI ( http://arxiv.org/abs/2410.10604v1 )

ライセンス: Link先を確認
Shaohao Rui, Lingzhi Chen, Zhenyu Tang, Lilong Wang, Mianxin Liu, Shaoting Zhang, Xiaosong Wang, (参考訳) 脳の異常の正確な診断は、相補的なマルチパラメトリックMRI画像データを含めることで大幅に向上する。 画像のモダリティや様々な臨床シナリオに迅速に適応できる、普遍的な事前学習モデルを開発する大きな可能性を秘めている。 しかし、現在のモデルは、しばしばユニモーダル画像データに依存し、異なる画像モダリティ間の相互モーダル相関を無視したり、欠落したモダリティデータの存在下で事前学習のスケールアップに苦労している。 本稿では,マルチパラメトリックMRIスキャンを用いた脳画像解析のためのマルチモーダル・ビジョン事前学習フレームワークであるBrainMVPを提案する。 まず16,022個の脳MRIスキャン(240万枚以上の画像)を収集し、さまざまなセンターやデバイスから得られた8つのMRIモダリティを含む。 そして,マルチモーダルMRIデータに対する新しい事前学習パラダイムを提案し,モダリティの欠如の問題に対処し,マルチモーダル情報融合を実現する。 クロスモーダル・コンストラクション(英語版)は、特徴ある脳画像の埋め込みと効率的なモーダル融合能力を学習するために研究されている。 プレトレーニングおよびダウンストリームの適用目的の両方に対して,各MR画像のモダリティの固有表現を抽出するために,モダリティワイズデータ蒸留モジュールを提案する。 さらに,モダリティを考慮したコントラスト学習モジュールを導入し,モダリティ間の関連性を高める。 Dice Scoreは6つのセグメンテーションベンチマークで0.28%-14.47%、一貫した精度の改善は0.65%-18.07%である。

Accurate diagnosis of brain abnormalities is greatly enhanced by the inclusion of complementary multi-parametric MRI imaging data. There is significant potential to develop a universal pre-training model that can be quickly adapted for image modalities and various clinical scenarios. However, current models often rely on uni-modal image data, neglecting the cross-modal correlations among different image modalities or struggling to scale up pre-training in the presence of missing modality data. In this paper, we propose BrainMVP, a multi-modal vision pre-training framework for brain image analysis using multi-parametric MRI scans. First, we collect 16,022 brain MRI scans (over 2.4 million images), encompassing eight MRI modalities sourced from a diverse range of centers and devices. Then, a novel pre-training paradigm is proposed for the multi-modal MRI data, addressing the issue of missing modalities and achieving multi-modal information fusion. Cross-modal reconstruction is explored to learn distinctive brain image embeddings and efficient modality fusion capabilities. A modality-wise data distillation module is proposed to extract the essence representation of each MR image modality for both the pre-training and downstream application purposes. Furthermore, we introduce a modality-aware contrastive learning module to enhance the cross-modality association within a study. Extensive experiments on downstream tasks demonstrate superior performance compared to state-of-the-art pre-training methods in the medical domain, with Dice Score improvement of 0.28%-14.47% across six segmentation benchmarks and a consistent accuracy improvement of 0.65%-18.07% in four individual classification tasks.
翻訳日:2024-10-29 20:35:30 公開日:2024-10-14
# Lambda-Skip Connections: ランク崩壊を防ぐアーキテクチャコンポーネント

Lambda-Skip Connections: the architectural component that prevents Rank Collapse ( http://arxiv.org/abs/2410.10609v1 )

ライセンス: Link先を確認
Federico Arangath Joseph, Jerome Sieber, Melanie N. Zeilinger, Carmen Amo Alonso, (参考訳) 列モデルの埋め込みベクトルが均一なトークンや平衡状態に急速に収束する現象であるランク崩壊は、近年、ディープラーニングの文献で注目されている。 この現象は、勾配の消失による表現性と潜在的な訓練不安定性を減少させる。 実証的な証拠は、スキップ接続、LayerNorm、MultiLayer Perceptrons (MLP)のようなアーキテクチャコンポーネントがランク崩壊の緩和に重要な役割を果たしていることを示している。 この問題はトランスフォーマーには十分に文書化されているが、最近注目されているState Space Models (SSMs)のような代替シーケンスモデルは、同様の脆弱性について徹底的に検討されていない。 本稿では、両アーキテクチャをキャプチャする統一フレームワークを用いて、トランスフォーマーからSSMへのランク崩壊の理論を拡張した。 古典的なスキップ接続コンポーネントのパラメータ化バージョンである 'emph{lambda-skip connection} は、ランク崩壊防止の保証を提供する。 分析結果から,上述のすべてのアーキテクチャにおいて,ランク崩壊防止のための十分な条件を提示する。 また、アブレーション研究や分析例を通して、この状態の必要性についても検討する。 我々の知る限り、これは階級崩壊防止の一般的な保証を提供する最初の研究であり、SSMの文脈で階級崩壊を調査し、理論家と実践者の両方にとって貴重な理解を提供する。 最後に,ランク崩壊防止におけるスキップ接続やゲーティング機構などのアーキテクチャコンポーネントの重要な役割を実証する実験により,本研究の成果を検証した。

Rank collapse, a phenomenon where embedding vectors in sequence models rapidly converge to a uniform token or equilibrium state, has recently gained attention in the deep learning literature. This phenomenon leads to reduced expressivity and potential training instabilities due to vanishing gradients. Empirical evidence suggests that architectural components like skip connections, LayerNorm, and MultiLayer Perceptrons (MLPs) play critical roles in mitigating rank collapse. While this issue is well-documented for transformers, alternative sequence models, such as State Space Models (SSMs), which have recently gained prominence, have not been thoroughly examined for similar vulnerabilities. This paper extends the theory of rank collapse from transformers to SSMs using a unifying framework that captures both architectures. We study how a parametrized version of the classic skip connection component, which we call \emph{lambda-skip connections}, provides guarantees for rank collapse prevention. Through analytical results, we present a sufficient condition to guarantee prevention of rank collapse across all the aforementioned architectures. We also study the necessity of this condition via ablation studies and analytical examples. To our knowledge, this is the first study that provides a general guarantee to prevent rank collapse, and that investigates rank collapse in the context of SSMs, offering valuable understanding for both theoreticians and practitioners. Finally, we validate our findings with experiments demonstrating the crucial role of architectural components such as skip connections and gating mechanisms in preventing rank collapse.
翻訳日:2024-10-29 20:35:30 公開日:2024-10-14
# インテリジェント・プロスペクタ v2.0: てんかんモデル不確実性下における探査掘削計画

Intelligent prospector v2.0: exploration drill planning under epistemic model uncertainty ( http://arxiv.org/abs/2410.10610v1 )

ライセンス: Link先を確認
John Mern, Anthony Corso, Damian Burch, Kurt House, Jef Caers, (参考訳) 取得すべき地質学的データに基づいて最適なベイズ決定を行うには、事前の不確実性のモデルを記述する必要がある。 そして、データ取得は、関心のあるいくつかの特性に対する不確実性を最大、そして平均的に減少させることで最適化される。 調査の文脈では、データ取得計画に先立って利用できるデータはほとんどない。 したがって、先行モデルは、空間的変動の性質や、探索されている領域に関連すると考えられる類似データに関する人間の解釈を含める必要がある。 例えば、鉱物探査において、人間は、鉱物化の特定の空間的多様性を表す複数の仮説を定義するために、鉱物化の成因に関する概念モデルに依存するかもしれない。 多くの場合、データが取得された後、全ての仮説が正しくないことが証明される。 間違った地質学的先行条件下でのプランニングデータ取得は、対象物に対する推定不確かさが不正確であるため、非効率である可能性が高いため、不確実性は、全く減少しない可能性がある。 本稿では,部分観測可能なマルコフ決定プロセスに基づく知的エージェントを開発し,空間変動の性質に関する複数の地質学的あるいは地質学的仮説を最適に計画する。 さらに、人工知能は、人間が主張する仮説が間違っているかどうかを早期に検出し、データ取得のかなりの費用を節約できる方法を備えている。 提案手法は,2023年のザンビアにおける超高品位鉱床のキャラクタリゼーションに有効である。

Optimal Bayesian decision making on what geoscientific data to acquire requires stating a prior model of uncertainty. Data acquisition is then optimized by reducing uncertainty on some property of interest maximally, and on average. In the context of exploration, very few, sometimes no data at all, is available prior to data acquisition planning. The prior model therefore needs to include human interpretations on the nature of spatial variability, or on analogue data deemed relevant for the area being explored. In mineral exploration, for example, humans may rely on conceptual models on the genesis of the mineralization to define multiple hypotheses, each representing a specific spatial variability of mineralization. More often than not, after the data is acquired, all of the stated hypotheses may be proven incorrect, i.e. falsified, hence prior hypotheses need to be revised, or additional hypotheses generated. Planning data acquisition under wrong geological priors is likely to be inefficient since the estimated uncertainty on the target property is incorrect, hence uncertainty may not be reduced at all. In this paper, we develop an intelligent agent based on partially observable Markov decision processes that plans optimally in the case of multiple geological or geoscientific hypotheses on the nature of spatial variability. Additionally, the artificial intelligence is equipped with a method that allows detecting, early on, whether the human stated hypotheses are incorrect, thereby saving considerable expense in data acquisition. Our approach is tested on a sediment-hosted copper deposit, and the algorithm presented has aided in the characterization of an ultra high-grade deposit in Zambia in 2023.
翻訳日:2024-10-29 20:35:30 公開日:2024-10-14
# 量子気体の位相顕微鏡

A phase microscope for quantum gases ( http://arxiv.org/abs/2410.10611v1 )

ライセンス: Link先を確認
Justus C. Brüggenjürgen, Mathis S. Fischer, Christof Weitenberg, (参考訳) コヒーレンス特性は量子系の中心であり、超伝導のような現象の中心にある。 ここでは, 熱相転移を横切る2次元光学格子における超低温ボースガスのコヒーレンス特性について検討する。 位相コヒーレンスと位相ゆらぎのプロファイルを推定するために,高次タルボットリバイバルの直接物質波イメージングと,物質波イメージング中の密度ゆらぎへの位相ゆらぎのサイト分解マッピングに基づく新しい位相顕微鏡を用いる。 超流動相における相相関の代数的崩壊と指数の線形温度上昇を観察する。 これらの技術は、完全な空間分解能を持つ強相関量子系におけるコヒーレンス特性の研究を可能にする。

Coherence properties are central to quantum systems and are at the heart of phenomena such as superconductivity. Here we study coherence properties of an ultracold Bose gas in a two-dimensional optical lattice across the thermal phase transition. To infer the phase coherence and phase fluctuation profile, we use direct matter-wave imaging of higher Talbot revivals as well as a new phase microscope based on a site-resolved mapping of phase fluctuations to density fluctuations during matter-wave imaging. We observe the algebraic decay of the phase correlations in the superfluid phase and a linear temperature increase of the exponent. These techniques will also allow studying coherence properties in strongly-correlated quantum systems with full spatial resolution.
翻訳日:2024-10-29 20:35:30 公開日:2024-10-14
# ニュースインタラクションのモデル化と金融市場予測への影響

Modeling News Interactions and Influence for Financial Market Prediction ( http://arxiv.org/abs/2410.10614v1 )

ライセンス: Link先を確認
Mengyu Wang, Shay B. Cohen, Tiejun Ma, (参考訳) 金融ニュースの市場価格への拡散は複雑なプロセスであり、ニュースイベントと市場の動きとの関係を評価することは困難である。 本稿では,ニュースと価格の関連だけでなく,ニュース項目間の相互作用も捉える新しい市場予測モデルであるFININ(Financial Interconnect News Influence Network)を紹介する。 FININは、市場データとニュース記事の両方からのマルチモーダル情報を効果的に統合する。 我々は、S&P 500とNASDAQ 100の指標を15年間にわたって含む2つのデータセットに関する広範な実験を行い、270万以上のニュース記事を掲載した。 その結果、FININの有効性が示され、2つの市場のシャープ比でそれぞれ0.429と0.341の改善を達成し、先進市場予測モデルを上回った。 さらに、ニュースの市場価格の遅れ、ニュースの長期記憶効果、ニュースデータから予測力を完全に抽出する際の財務感情分析の限界など、金融ニュースに関する知見を明らかにした。

The diffusion of financial news into market prices is a complex process, making it challenging to evaluate the connections between news events and market movements. This paper introduces FININ (Financial Interconnected News Influence Network), a novel market prediction model that captures not only the links between news and prices but also the interactions among news items themselves. FININ effectively integrates multi-modal information from both market data and news articles. We conduct extensive experiments on two datasets, encompassing the S&P 500 and NASDAQ 100 indices over a 15-year period and over 2.7 million news articles. The results demonstrate FININ's effectiveness, outperforming advanced market prediction models with an improvement of 0.429 and 0.341 in the daily Sharpe ratio for the two markets respectively. Moreover, our results reveal insights into the financial news, including the delayed market pricing of news, the long memory effect of news, and the limitations of financial sentiment analysis in fully extracting predictive power from news data.
翻訳日:2024-10-29 20:35:30 公開日:2024-10-14
# 適応対称性インフォームドベイズ戦略による低温原子実験における5倍精度向上

Five-fold precision enhancement in a cold atom experiment via adaptive symmetry-informed Bayesian strategies ( http://arxiv.org/abs/2410.10615v1 )

ライセンス: Link先を確認
Matt Overton, Jesús Rubio, Nathan Cooper, Daniele Baldolini, David Johnson, Janet Anders, Lucia Hackermüller, (参考訳) ベイジアン法はデバイス性能の向上とデータ収集の高速化を約束する。 量子技術実験において, 原子数推定のための適応ベイズ測定戦略を実証し, 対称性インフォームド損失関数を応用した。 提案手法は, 標準的な非最適化戦略と比較して, 原子数推定の分数分散を5倍に削減する。 同等に、40%少ないデータポイントで目標精度を達成する。 我々は、量子コンピューティング、通信、気象学、およびより広い量子技術分野におけるこれらの戦略の適用を容易にし、対称性インフォームド戦略に対応可能な任意の量に対する最適な推定値と誤差の一般的な式を提供する。

Bayesian methods promise enhanced device performance and accelerated data collection. We demonstrate an adaptive Bayesian measurement strategy for atom number estimation in a quantum technology experiment, utilising a symmetry-informed loss function. Compared to a standard unoptimised strategy, our method yields a five-fold reduction in the fractional variance of the atom number estimate. Equivalently, it achieves the target precision with 40% fewer data points. We provide general expressions for the optimal estimator and error for any quantity amenable to symmetry-informed strategies, facilitating the application of these strategies in quantum computing, communication, metrology, and the wider quantum technology sector.
翻訳日:2024-10-29 20:35:30 公開日:2024-10-14
# 高次元反断熱量子コンピューティング

High-dimensional counterdiabatic quantum computing ( http://arxiv.org/abs/2410.10622v1 )

ライセンス: Link先を確認
Diego Tancara, Francisco Albarrán-Arriagada, (参考訳) デジタル型断熱量子コンピューティング(Digitalized counterdiabatic quantum computing)として知られる、反断熱駆動によって強化された断熱量子コンピューティングのデジタルバージョンは、高速かつ低深度アルゴリズムへの扉を開くパラダイムとして登場した。 本研究では,このパラダイムの高次元システムへの拡張について検討する。 具体的には、2次問題の文脈で四分法を考慮し、四分法ハミルトニアンコーデフィケーションと反断熱駆動を得る。 その結果,Quatritsを使用すれば,qubitsと比較して90倍のクオリティが得られることがわかった。 提案手法は, マルチウェイ数分割, 最大3カット, ポートフォリオ最適化問題の1000個のランダムなインスタンス上で検証し, 一般に, 事前知識がなければ, キュービットの代わりに高次元システムを使う方がよいことを示す。 最後に、量子プラットフォームにおける最先端技術を考えると、少なくとも完全なデジタル形式で、我々の高次元の反断熱量子アルゴリズムの実験的実現可能性を示す。 この研究は、高次元空間における最適化問題の効率的な体系化と、反断熱量子コンピューティングを用いた効率的な実装の道を開いた。

The digital version of adiabatic quantum computing enhanced by counterdiabatic driving, known as digitized counterdiabatic quantum computing, has emerged as a paradigm that opens the door to fast and low-depth algorithms. In this work, we explore the extension of this paradigm to high-dimensional systems. Specifically, we consider qutrits in the context of quadratic problems, obtaining the qutrit Hamiltonian codifications and the counterdiabatic drivings. Our findings show that the use of qutrits can improve the quality of the solution up to 90 times compared to qubits counterpart. We test our proposal on 1000 random instances of the multi-way number partitioning, max 3-cut, and portfolio optimization problems, demonstrating that, in general, without prior knowledge, it is always better to use high-dimensional systems instead of qubits. Finally, considering the state-of-the-art in quantum platforms, we show the experimental feasibility of our high-dimensional counterdiabatic quantum algorithms at least in a full digital form. This work paves the way for the efficient codification of optimization problems in high-dimensional spaces and their efficient implementation using counterdiabatic quantum computing.
翻訳日:2024-10-29 20:35:30 公開日:2024-10-14
# 位相検索のためのロバストグラディエント染料

Robust Gradient Descent for Phase Retrieval ( http://arxiv.org/abs/2410.10623v1 )

ライセンス: Link先を確認
Alex Buna, Patrick Rebeschini, (参考訳) 頑健な統計的学習の最近の進歩は、平均推定や線形回帰といった凸問題に主に取り組み、非凸問題には注意が払われていない。 位相検索はそのような非凸問題を例示し、位相(符号)情報を使わずにその線形測定の大きさからのみ信号の回復を要求する。 Wirtinger Flowアルゴリズムを含むいくつかの非凸法は、ノイズレスまたは軽度のノイズ設定のために提案されているが、重い尾のノイズや敵の腐敗に対するソリューションの開発は依然としてオープンな課題である。 本稿では,頑健な勾配降下手法を活用して,入力(共変量)と出力(応答量)の両方において,第4モーメント境界雑音と対向汚染を同時に処理するワイティンガーフローアルゴリズムの能力を向上する手法について検討する。 ゼロ平均ノイズと全く未知ノイズの2つのシナリオに対処する。 後者では, 従来の位相探索手法に適合せず, ゼロ平均雑音文脈に対するアルゴリズムの調整版で解決可能な新しい形式に, 問題を変換する前処理ステップを提案する。

Recent progress in robust statistical learning has mainly tackled convex problems, like mean estimation or linear regression, with non-convex challenges receiving less attention. Phase retrieval exemplifies such a non-convex problem, requiring the recovery of a signal from only the magnitudes of its linear measurements, without phase (sign) information. While several non-convex methods, especially those involving the Wirtinger Flow algorithm, have been proposed for noiseless or mild noise settings, developing solutions for heavy-tailed noise and adversarial corruption remains an open challenge. In this paper, we investigate an approach that leverages robust gradient descent techniques to improve the Wirtinger Flow algorithm's ability to simultaneously cope with fourth moment bounded noise and adversarial contamination in both the inputs (covariates) and outputs (responses). We address two scenarios: known zero-mean noise and completely unknown noise. For the latter, we propose a preprocessing step that alters the problem into a new format that does not fit traditional phase retrieval approaches but can still be resolved with a tailored version of the algorithm for the zero-mean noise context.
翻訳日:2024-10-29 20:35:30 公開日:2024-10-14
# SensorLLM:人間の活動認識のための運動センサを用いた大規模言語モデルの作成

SensorLLM: Aligning Large Language Models with Motion Sensors for Human Activity Recognition ( http://arxiv.org/abs/2410.10624v1 )

ライセンス: Link先を確認
Zechen Li, Shohreh Deldari, Linyao Chen, Hao Xue, Flora D. Salim, (参考訳) 本研究では,ウェアラブルセンサ技術とパーソナライズされたAIアシスタントとのギャップを,Large Language Models(LLM)がヒューマンアクティビティ認識(HAR)のような時系列タスクを理解できるようにすることで埋める。 LLMの強い推論と一般化能力にもかかわらず、センサーデータタスクにそれらを活用することは、まだほとんど探索されていない。 このギャップは、時系列データにおける意味的文脈の欠如、計算上の制限、LLMの数値入力処理の難しさなどの課題に起因している。 これらの問題に対処するために、センサーデータタスクに対するLLMのポテンシャルを解放する2段階フレームワークであるSensorLLMを導入する。 Sensor-Language Alignment Stageでは,センサチャネル毎に特別なトークンを導入し,センサデータをテキスト入力と整合させるトレンド記述テキストを自動的に生成する。 次に,タスク・アウェア・チューニング・ステージにおいて,凍結LDMとアライメントモジュールを用いたHAR分類モデルの改良を行い,最先端モデルに匹敵する性能を実現する。 我々はさらに、SensorLLMがSensor-Language Alignmentを通じて、効果的なセンサ学習者、推論者、分類者へと進化し、HARタスクのための多様なデータセットを一般化できることを実証した。 我々は、我々の研究が将来の時系列とテキストアライメント研究の基盤を築き、センサデータの基礎モデルへの道筋を築いていると強く信じている。

In this work, we bridge the gap between wearable sensor technology and personalized AI assistants by enabling Large Language Models (LLMs) to understand time-series tasks like human activity recognition (HAR). Despite the strong reasoning and generalization capabilities of LLMs, leveraging them for sensor data tasks remains largely unexplored. This gap stems from challenges like the lack of semantic context in time-series data, computational limitations, and LLMs' difficulty processing numerical inputs. To address these issues, we introduce SensorLLM, a two-stage framework to unlock LLMs' potential for sensor data tasks. In the Sensor-Language Alignment Stage, we introduce special tokens for each sensor channel and automatically generate trend-descriptive text to align sensor data with textual inputs, enabling SensorLLM to capture numerical changes, channel-specific information, and sensor data of varying lengths-capabilities that existing LLMs typically struggle with, all without the need for human annotations. Next, in Task-Aware Tuning Stage, we refine the model for HAR classification using the frozen LLM and alignment module, achieving performance on par with or surpassing state-of-the-art models. We further demonstrate that SensorLLM evolves into an effective sensor learner, reasoner, and classifier through Sensor-Language Alignment, enabling it to generalize across diverse datasets for HAR tasks. We strongly believe our work lays the stepstone for future time-series and text alignment research, offering a path toward foundation models for sensor data.
翻訳日:2024-10-29 20:35:30 公開日:2024-10-14
# 言語ファミリーエキスパートの混在による50言語における医療用LLMの効率的な民主化

Efficiently Democratizing Medical LLMs for 50 Languages via a Mixture of Language Family Experts ( http://arxiv.org/abs/2410.10626v1 )

ライセンス: Link先を確認
Guorui Zheng, Xidong Wang, Juhao Liang, Nuo Chen, Yuping Zheng, Benyou Wang, (参考訳) 医療用大規模言語モデルをローカル言語に適応させることは、医療サービスへのアクセス障壁を減らすことができるが、データ不足は、特に低リソース言語にとって重要な課題である。 そこで我々はまず,高品質な医療データセットを構築し,その品質を確保するために分析を行う。 多言語 LLM の一般化能力を活用し,資源制約のある言語に効率よくスケールするために,Mixture of Experts (MoE) を用いた多言語の観点から LLM の内部情報フローについて検討する。 技術的には,言語固有の専門家と言語間ルーティングを用いた新しいMoEルーティング手法を提案する。 回路理論にインスパイアされたルーティング解析により,エンド情報フローにおけるスプレッドアウト(Spread Out in the End)が明らかになった。 この洞察が直接的にPost-MoEアーキテクチャの開発につながった。 実験の結果,解釈可能性を維持しつつ,多言語モデルの他言語への一般化を促進することが確認された。 最後に、モデルを50言語に効率的にスケールするために、言語学の先行概念に基づいて言語家族の専門家の概念を導入し、追加のパラメータを追加せずに言語数をスケールできるようにする。

Adapting medical Large Language Models to local languages can reduce barriers to accessing healthcare services, but data scarcity remains a significant challenge, particularly for low-resource languages. To address this, we first construct a high-quality medical dataset and conduct analysis to ensure its quality. In order to leverage the generalization capability of multilingual LLMs to efficiently scale to more resource-constrained languages, we explore the internal information flow of LLMs from a multilingual perspective using Mixture of Experts (MoE) modularity. Technically, we propose a novel MoE routing method that employs language-specific experts and cross-lingual routing. Inspired by circuit theory, our routing analysis revealed a Spread Out in the End information flow mechanism: while earlier layers concentrate cross-lingual information flow, the later layers exhibit language-specific divergence. This insight directly led to the development of the Post-MoE architecture, which applies sparse routing only in the later layers while maintaining dense others. Experimental results demonstrate that this approach enhances the generalization of multilingual models to other languages while preserving interpretability. Finally, to efficiently scale the model to 50 languages, we introduce the concept of language family experts, drawing on linguistic priors, which enables scaling the number of languages without adding additional parameters.
翻訳日:2024-10-29 20:35:30 公開日:2024-10-14
# LLM生成ユニットテストにおけるテスト臭

Test smells in LLM-Generated Unit Tests ( http://arxiv.org/abs/2410.10628v1 )

ライセンス: Link先を確認
Wendkûuni C. Ouédraogo, Yinghua Li, Kader Kaboré, Xunzhu Tang, Anil Koyuncu, Jacques Klein, David Lo, Tegawendé F. Bissyandé, (参考訳) 自動テスト生成におけるLarge Language Models (LLMs)の使用は、コンパイル可能性率、コードカバレッジ、バグ検出といったメトリクスに焦点を当てた研究で人気を集めている。 しかし、同様に重要な品質基準は、テストの臭いやテストコードにアンチパターンがあることで、保守性と可読性を妨げている。 本研究では,LLM生成単体テストスイートにおけるテスト匂いの拡散について検討し,人体で見られるものと比較する。 我々は,4つのモデル(GPT-3.5,GPT-4,Mistral 7B,Mixtral 8x7B)で生成された20,500 LLM生成テストスイートのベンチマークを,34,637件のプロジェクトから780,144件の人手によるテストスイートのデータセットとともに解析した。 TsDetectは21種類のテスト臭いを検知できる最先端のツールであり、人書きとLLM生成テストスイートの両方において、さまざまなテスト匂いの出現状況と発生状況を特定し、分析する。 その結果,LLMの強度と限界に対する新たな知見が得られた。 まず,LLMがマジックナンバーテストやAssertion Rouletteといった,一般的なテスト臭いの検査を頻繁に生成しているのが実例である。 第2に、共同発生の観点では、Long TestやUseless Testのような特定の臭いは、特定のプロンプト技術の影響を受けながら、LLM生成スイートで発生しがちである。 第三に、プロジェクトの複雑さとLLM特有の要因、例えばモデルのサイズやコンテキストの長さがテストの匂いの頻度に大きく影響していることがわかりました。 最後に、LLM生成テストにおけるテストの臭いのパターンは、しばしば人間が書いたテストの匂いを反映し、トレーニングデータセットから潜在的なデータ漏洩を示唆する。 これらの洞察は、よりクリーンなコードのためにLLMベースのテスト生成を洗練することの必要性を強調し、LLM機能とソフトウェアテストプラクティスの両方の改善を提案する。

The use of Large Language Models (LLMs) in automated test generation is gaining popularity, with much of the research focusing on metrics like compilability rate, code coverage and bug detection. However, an equally important quality metric is the presence of test smells design flaws or anti patterns in test code that hinder maintainability and readability. In this study, we explore the diffusion of test smells in LLM generated unit test suites and compare them to those found in human written ones. We analyze a benchmark of 20,500 LLM-generated test suites produced by four models (GPT-3.5, GPT-4, Mistral 7B, and Mixtral 8x7B) across five prompt engineering techniques, alongside a dataset of 780,144 human written test suites from 34,637 projects. Leveraging TsDetect, a state of the art tool capable of detecting 21 different types of test smells, we identify and analyze the prevalence and co-occurrence of various test smells in both human written and LLM-generated test suites. Our findings reveal new insights into the strengths and limitations of LLMs in test generation. First, regarding prevalence, we observe that LLMs frequently generate tests with common test smells, such as Magic Number Test and Assertion Roulette. Second, in terms of co occurrence, certain smells, like Long Test and Useless Test, tend to co occur in LLM-generated suites, influenced by specific prompt techniques. Third, we find that project complexity and LLM specific factors, including model size and context length, significantly affect the prevalence of test smells. Finally, the patterns of test smells in LLM-generated tests often mirror those in human-written tests, suggesting potential data leakage from training datasets. These insights underscore the need to refine LLM-based test generation for cleaner code and suggest improvements in both LLM capabilities and software testing practices.
翻訳日:2024-10-29 20:35:30 公開日:2024-10-14
# LLMを考える: 思考生成による一般的な指導

Thinking LLMs: General Instruction Following with Thought Generation ( http://arxiv.org/abs/2410.10630v1 )

ライセンス: Link先を確認
Tianhao Wu, Janice Lan, Weizhe Yuan, Jiantao Jiao, Jason Weston, Sainbayar Sukhbaatar, (参考訳) LLMは通常、ユーザーの質問に答えたり、人間の専門家がどう反応するかと同じように指示に従うように訓練されている。 しかし、標準アライメントフレームワークでは、答える前に明示的な思考の基本的な能力が欠けている。 思考は推論や計画を必要とする複雑な問題にとって重要であるが、どんなタスクにも適用できる。 本稿では,人体データの追加を使わずに,そのような思考能力を持つ既存LLMの訓練方法を提案する。 提案手法は,思考の空間を探索する反復的な探索・最適化手法によって実現され,モデルが直接の監督なしに思考の仕方を学ぶことができる。 各命令に対して、思考候補は判断モデルを用いて応答のみを評価し、好みの最適化によって最適化される。 この手法がAlpacaEvalやArena-Hardに優れたパフォーマンスをもたらすことを示すとともに,マーケティング,健康,一般知識といった非理性的なカテゴリーの考え方や,より伝統的な推論や問題解決の課題から得られる成果を示す。

LLMs are typically trained to answer user questions or follow instructions similarly to how human experts respond. However, in the standard alignment framework they lack the basic ability of explicit thinking before answering. Thinking is important for complex questions that require reasoning and planning -- but can be applied to any task. We propose a training method for equipping existing LLMs with such thinking abilities for general instruction following without use of additional human data. We achieve this by an iterative search and optimization procedure that explores the space of possible thought generations, allowing the model to learn how to think without direct supervision. For each instruction, the thought candidates are scored using a judge model to evaluate their responses only, and then optimized via preference optimization. We show that this procedure leads to superior performance on AlpacaEval and Arena-Hard, and shows gains from thinking on non-reasoning categories such as marketing, health and general knowledge, in addition to more traditional reasoning & problem-solving tasks.
翻訳日:2024-10-29 20:25:02 公開日:2024-10-14
# 量子計測の単発識別性と反識別性

Single-shot Distinguishability and Anti-distinguishability of Quantum Measurements ( http://arxiv.org/abs/2410.10632v1 )

ライセンス: Link先を確認
Satyaki Manna, Sneha Suresh, Manan Singh Kachhawaha, Debashis Saha, (参考訳) 量子測定の驚くべき特徴の1つとして、一般的な量子測定の区別と反識別の問題は、基本的に魅力的である。 量子論(Quantum theory)は、量子測定を区別する(および反識別する)ための4つの異なるシナリオを提供する。 一 単一の制度を整備し、かつ、事後状態にアクセスしないこと。 二 絡み合った制度を調査し、かつ、測定後の状態にアクセスしないこと。 三 事後状態にアクセス可能な単一制度の探究及び 四 計測後の状態にアクセスした絡み合ったシステムを探索すること。 これらのシナリオでは、単一ショット状態の与えられた集合からサンプリングされた量子測定を区別する(そして、反識別する)確率を考える。 いくつかのシナリオに対して、立方体射影測定の識別可能性(および非識別性)に関する解析式を導出する。 特に、シナリオでそれを実証します。 (iii)任意の立方体射影測定の区別可能性は常にシナリオよりも高い (II)。 興味深いことに、いくつかの立方体非射影測定において、シナリオにおける最も高い識別可能性 (ii)は、非最大エンタングル状態を用いて達成される。 その結果、あらゆる測定値に対して、シナリオにおける識別可能性(および識別不能性)が判明した。 (i)他のシナリオでは常にそれより小さいか等しいが、シナリオでは最も高い値に達する。 (4)。 これらの関係が厳密な階層を形成し、シナリオ間に階層的な関係が存在しないことを確立します。 (ii)および (三) 具体的には、シナリオにおいて完全に区別可能な(そして区別不能な)量子ビット測定のペア(と三重)を構築する。 (ii)しかしシナリオでは (三)またその逆。 さらに、シナリオのみにおいて完全な識別可能性(および識別不能性)を達成する量子ビットの測定を同定する。 (4)。

Among the surprising features of quantum measurements, the problem of distinguishing and anti-distinguishing general quantum measurements is fundamentally appealing. Quantum theory offers four distinct scenarios for distinguishing (and anti-distinguishing) quantum measurements - (i) probing single systems and without access to the post-measurement states, (ii) probing entangled systems and without access to the post-measurement states, (iii) probing single systems with access to the post-measurement states, and (iv) probing entangled systems with access to the post-measurement states. In these scenarios, we consider the probability of distinguishing (and anti-distinguishing) quantum measurements sampled from a given set in the single-shot regime. For some scenarios, we derive analytical expressions for the distinguishability (and anti-distinguishability) of qubit projective measurements. Notably, we demonstrate that in scenario (iii), the distinguishability of any pair of qubit projective measurements is always higher than in scenario (ii). Interestingly, for some qubit non-projective measurements, the highest distinguishability in scenario (ii) is achieved using a non-maximally entangled state. It turns out that, for any set of measurements, the distinguishability (and anti-distinguishability) in scenario (i) is always less than or equal to that in any other scenario, while it reaches its highest possible value in scenario (iv). We establish that these relations form a strict hierarchy, and there is no hierarchical relation between scenarios (ii) and (iii). Specifically, we construct pairs (and triples) of qubit measurements that are perfectly distinguishable (and anti-distinguishable) in scenario (ii) but not in scenario (iii), and vice versa. Furthermore, we identify qubit measurements that achieve perfect distinguishability (and anti-distinguishability) only in scenario (iv).
翻訳日:2024-10-29 20:25:02 公開日:2024-10-14
# Adapt-$\infty$: 動的データ選択によるスケーラブルなマルチモーダルインストラクションチューニング

Adapt-$\infty$: Scalable Lifelong Multimodal Instruction Tuning via Dynamic Data Selection ( http://arxiv.org/abs/2410.10636v1 )

ライセンス: Link先を確認
Adyasha Maharana, Jaehong Yoon, Tianlong Chen, Mohit Bansal, (参考訳) 様々なディストリビュータからの視覚的命令データセットは、異なるタイミングでリリースされ、多くの場合、タスク構成(例えば、スキル)や参照ソースに依存する、意味的に冗長なテキストイメージペアがかなりの数含まれている。 この冗長性は、生涯にわたって適応可能なマルチモーダルな大規模言語モデルの効率的な展開を著しく制限し、既存のスキルを洗練させ、時間とともに新たな能力を獲得する能力を妨げている。 そこでモデルでは,取得した知識の現在の状態に基づいて,より早いデータセットと新しいデータセットから学習する有用なサンプルを自動的に選択する。 静的な重要度尺度を用いて最適なデータサブセットを選択することは、分散が進化するマルチタスクデータセットではしばしば有効ではないことを示す経験的分析に基づいて、新しいマルチウェイおよび適応データ選択アプローチであるAdapt-$\infty$を提案し、LiIT中のサンプル効率と有効性を動的にバランスさせる。 勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。 次に、新たに提案したスコアリング機能、画像グラウンドスコアを含むセレクタ専門家のプールから、各スキルクラスタ毎の最高のパフォーマンスデータセレクタを選択する。 このデータセレクタは、トレーニングのために各スキルクラスタから最も重要なサンプルのサブセットをサンプリングする。 LiITにおけるデータセットプールのサイズの連続的な増加を防止するため,クラスタ単位の永続的なデータプルーニング戦略を導入し,各クラスタから最も意味論的に冗長なサンプルを取り除き,計算要件の管理を可能にする。 Adapt-$\infty$で選択されたサンプルを使用したトレーニングは、特に稀なタスクにおいて破滅的な忘れを軽減し、元のデータセットのごく一部を使用して連続体を横断する転送を促進する。

Visual instruction datasets from various distributors are released at different times and often contain a significant number of semantically redundant text-image pairs, depending on their task compositions (i.e., skills) or reference sources. This redundancy greatly limits the efficient deployment of lifelong adaptable multimodal large language models, hindering their ability to refine existing skills and acquire new competencies over time. To address this, we reframe the problem of Lifelong Instruction Tuning (LiIT) via data selection, where the model automatically selects beneficial samples to learn from earlier and new datasets based on the current state of acquired knowledge in the model. Based on empirical analyses that show that selecting the best data subset using a static importance measure is often ineffective for multi-task datasets with evolving distributions, we propose Adapt-$\infty$, a new multi-way and adaptive data selection approach that dynamically balances sample efficiency and effectiveness during LiIT. We construct pseudo-skill clusters by grouping gradient-based sample vectors. Next, we select the best-performing data selector for each skill cluster from a pool of selector experts, including our newly proposed scoring function, Image Grounding score. This data selector samples a subset of the most important samples from each skill cluster for training. To prevent the continuous increase in the size of the dataset pool during LiIT, which would result in excessive computation, we further introduce a cluster-wise permanent data pruning strategy to remove the most semantically redundant samples from each cluster, keeping computational requirements manageable. Training with samples selected by Adapt-$\infty$ alleviates catastrophic forgetting, especially for rare tasks, and promotes forward transfer across the continuum using only a fraction of the original datasets.
翻訳日:2024-10-29 20:25:02 公開日:2024-10-14
# 時間スコアマッチングを用いた指数族における高次元微分パラメータ推定

High-Dimensional Differential Parameter Inference in Exponential Family using Time Score Matching ( http://arxiv.org/abs/2410.10637v1 )

ライセンス: Link先を確認
Daniel J. Williams, Leyang Wang, Qizhen Ying, Song Liu, Mladen Kolar, (参考訳) 本稿では,時間変化パラメトリック確率モデルにおける差分推論に対処する。 各時間に高次元モデルを推定し、後で変化を推測する代わりに、微分パラメータ、すなわちパラメータの時間微分を直接学習する。 第一の考え方は、指数族モデルの時間スコア関数を、直接推定のための微分パラメータの線形モデルとして扱うことである。 時間スコアマッチングを用いてパラメータ微分を推定する。 正規化スコアマッチング目的の整合性を証明し、高次元設定における偏り推定器の有限サンプル正規性を示す。 本手法は,シミュレーションおよび実世界のデータセット上で検証された高次元グラフィカルモデルにおける微分構造を効果的に推定する。

This paper addresses differential inference in time-varying parametric probabilistic models, like graphical models with changing structures. Instead of estimating a high-dimensional model at each time and inferring changes later, we directly learn the differential parameter, i.e., the time derivative of the parameter. The main idea is treating the time score function of an exponential family model as a linear model of the differential parameter for direct estimation. We use time score matching to estimate parameter derivatives. We prove the consistency of a regularized score matching objective and demonstrate the finite-sample normality of a debiased estimator in high-dimensional settings. Our methodology effectively infers differential structures in high-dimensional graphical models, verified on simulated and real-world datasets.
翻訳日:2024-10-29 20:25:02 公開日:2024-10-14
# 時空間レベルデータのためのエコー状態ネットワーク

Echo State Networks for Spatio-Temporal Area-Level Data ( http://arxiv.org/abs/2410.10641v1 )

ライセンス: Link先を確認
Zhenhua Wang, Scott H. Holan, Christopher K. Wikle, (参考訳) 時空間レベルのデータセットは公式統計において重要な役割を担い、政策決定と地域計画に関する貴重な洞察を提供する。 これらのデータセットの正確なモデリングと予測は、政策立案者が将来の計画のための情報戦略を開発するのに極めて有用である。 エコー状態ネットワーク(ESN)は、非線形時間的ダイナミクスを捕捉し、予測を生成する効率的な方法である。 しかし、ESNは、地域レベルのデータに固有の近傍構造を説明する直接的なメカニズムを欠いている。 これらの空間関係を無視することは、予測の正確性と有用性を著しく損なう可能性がある。 本稿では,ESNの入力段階で近似グラフスペクトルフィルタを組み込むことにより,トレーニング中のモデルの計算効率を保ちながら予測精度を向上させる。 本研究では,エウロスタットの観光利用者データを用いたアプローチの有効性を実証し,政策や計画の文脈において,より情報に富んだ意思決定を支援する方法を示す。

Spatio-temporal area-level datasets play a critical role in official statistics, providing valuable insights for policy-making and regional planning. Accurate modeling and forecasting of these datasets can be extremely useful for policymakers to develop informed strategies for future planning. Echo State Networks (ESNs) are efficient methods for capturing nonlinear temporal dynamics and generating forecasts. However, ESNs lack a direct mechanism to account for the neighborhood structure inherent in area-level data. Ignoring these spatial relationships can significantly compromise the accuracy and utility of forecasts. In this paper, we incorporate approximate graph spectral filters at the input stage of the ESN, thereby improving forecast accuracy while preserving the model's computational efficiency during training. We demonstrate the effectiveness of our approach using Eurostat's tourism occupancy dataset and show how it can support more informed decision-making in policy and planning contexts.
翻訳日:2024-10-29 20:25:02 公開日:2024-10-14
# DR-MPC:現実世界のソーシャルナビゲーションのための奥行きモデル予測制御

DR-MPC: Deep Residual Model Predictive Control for Real-world Social Navigation ( http://arxiv.org/abs/2410.10646v1 )

ライセンス: Link先を確認
James R. Han, Hugues Thomas, Jian Zhang, Nicholas Rhinehart, Timothy D. Barfoot, (参考訳) ロボットは、複雑な動きのパターンを示す人々を安全にナビゲートできるのか? シミュレーションにおける強化学習(Reinforcement Learning、RL)やDeep RL(DRL)は、実際の人間の動きのニュアンスを正確に捉えることができないシミュレータに依存するが、いくつかの約束がある。 このギャップに対処するために,現実の群衆ナビゲーションデータからロボットがDRLを迅速かつ安全に実行できるようにするためのDR-MPC(Deep Residual Model Predictive Control)を提案する。 MPCとモデルフリーDRLを組み合わせることで、DR-MPCは大規模なデータ要求と安全でない初期動作という従来のDRL課題を克服する。 DR-MPCは、MPCベースの経路追跡と初期化され、徐々に人間とより効果的に対話することを学ぶ。 さらに学習を加速するため、安全コンポーネントは、ロボットがアウト・オブ・ディストリビューション状態に遭遇したときを推定し、衝突の可能性から引き離す。 シミュレーションでは,DR-MPCは従来のDRLモデルや残留DRLモデルなど,従来よりも大幅に優れていた。 実世界の実験では、ロボットが4時間未満のトレーニングデータを使って、少ないエラーでさまざまな混み合った状況をナビゲートできることを示す。

How can a robot safely navigate around people exhibiting complex motion patterns? Reinforcement Learning (RL) or Deep RL (DRL) in simulation holds some promise, although much prior work relies on simulators that fail to precisely capture the nuances of real human motion. To address this gap, we propose Deep Residual Model Predictive Control (DR-MPC), a method to enable robots to quickly and safely perform DRL from real-world crowd navigation data. By blending MPC with model-free DRL, DR-MPC overcomes the traditional DRL challenges of large data requirements and unsafe initial behavior. DR-MPC is initialized with MPC-based path tracking, and gradually learns to interact more effectively with humans. To further accelerate learning, a safety component estimates when the robot encounters out-of-distribution states and guides it away from likely collisions. In simulation, we show that DR-MPC substantially outperforms prior work, including traditional DRL and residual DRL models. Real-world experiments show our approach successfully enables a robot to navigate a variety of crowded situations with few errors using less than 4 hours of training data.
翻訳日:2024-10-29 20:25:02 公開日:2024-10-14
# ジェネレーティブAIとパーソナライズされたインテリジェントチューニングシステムへの影響

Generative AI and Its Impact on Personalized Intelligent Tutoring Systems ( http://arxiv.org/abs/2410.10650v1 )

ライセンス: Link先を確認
Subhankar Maity, Aniket Deroy, (参考訳) Generative Artificial Intelligence(AI)は、Intelligent Tutoring Systems(ITS)内で高度にパーソナライズされ適応的な学習環境を実現することで、教育技術に革命をもたらす。 本稿では、生成AI、特にGPT-4のような大規模言語モデル(LLM)をITSに統合し、動的コンテンツ生成、リアルタイムフィードバック、適応学習経路を通じてパーソナライズされた教育を強化する。 本稿では,個別の学習者のニーズに応じた質問自動生成,フィードバック機構のカスタマイズ,対話型対話システムなどの重要な応用について検討する。 このレポートは、教育的正確性を保証すること、AIモデル固有のバイアスを軽減すること、学習者のエンゲージメントを維持することなど、重要な課題にも対処している。 今後の方向性は、マルチモーダルAI統合の潜在的な進歩、学習システムにおける感情的知性、そしてAI駆動型教育の倫理的意味を強調する。 この報告は、現在の研究と実践的な実装を合成することによって、より効果的で公平で魅力的な教育経験を生み出すことにおけるジェネレーティブAIの変革の可能性を強調します。

Generative Artificial Intelligence (AI) is revolutionizing educational technology by enabling highly personalized and adaptive learning environments within Intelligent Tutoring Systems (ITS). This report delves into the integration of Generative AI, particularly large language models (LLMs) like GPT-4, into ITS to enhance personalized education through dynamic content generation, real-time feedback, and adaptive learning pathways. We explore key applications such as automated question generation, customized feedback mechanisms, and interactive dialogue systems that respond to individual learner needs. The report also addresses significant challenges, including ensuring pedagogical accuracy, mitigating inherent biases in AI models, and maintaining learner engagement. Future directions highlight the potential advancements in multimodal AI integration, emotional intelligence in tutoring systems, and the ethical implications of AI-driven education. By synthesizing current research and practical implementations, this report underscores the transformative potential of Generative AI in creating more effective, equitable, and engaging educational experiences.
翻訳日:2024-10-29 20:25:02 公開日:2024-10-14
# ジャイネス・カミングス進化下の非局所性:擬スピン作用素を超えて

Nonlocality under Jaynes-Cummings evolution: beyond pseudospin operators ( http://arxiv.org/abs/2410.10651v1 )

ライセンス: Link先を確認
Alexander Bernal, J. Alberto Casas, Jesus M. Moreno, (参考訳) 我々は、Jaynes-Cummings Hamiltonianによって動的に決定されるハイブリッドシナリオにおける(ベル)非局所性の生成と進化を再考する。 従来のアプローチでは、電磁場観測器(EM)に対する擬スピン演算子の組み合わせを用いて、よく知られた量子ビットCHSH式を通して非局所性を評価する。 このようなアプローチは理にかなっているが、最適とは程遠い。 本研究は, クォービット量子系におけるベルの最適違反に関する最近の研究結果を用いて, 非局所性は, 騒音と非雑音の双方で, 従来推定されていたよりもはるかに大きいことを示す。 また、ノイズの最適処理も行いますので、この意味でも結果が最適です。 EMフィールドの初期状態の異なる状態を用いて, 圧縮状態とコヒーレント状態を含む結果を示す。 さらに, エンタングルメントの漸近挙動について検討した。 注目すべきは、一般的な分離可能な(純粋な)コヒーレント状態から始めると、漸近的(混合された)状態は絡み合っているが、ベルの不等式には違反しない。

We re-visit the generation and evolution of (Bell) nonlocality in hybrid scenarios whose dynamics is determined by the Jaynes-Cummings Hamiltonian, a relevant example of which is the atom-cavity system. Previous approaches evaluate the nonlocality through the well-known qubit-qubit CHSH formulae, using combinations of pseudospin operators for the electromagnetic (EM) field observables. While such approach is sensible, it is far from optimal. In the present work we have used recent results on the optimal Bell violation in qubit-qudit systems, showing that the nonlocality is much greater than previously estimated, both with and without noise. We perform also an optimal treatment of the noise, so our results are optimal in this sense as well. We illustrate the results using different initial states for the EM field, including squeezed and coherent states. In addition, we study the asymptotic behavior of the entanglement. Remarkably, starting with a generic separable (pure) coherent state, the asymptotic (mixed) state is entangled, though does not violate Bell inequalities.
翻訳日:2024-10-29 20:25:02 公開日:2024-10-14
# QueST:Contrastive Subgraph Embeddingによる空間トラノドミクスデータ上の機能的および構造的ニッチの検索

QueST: Querying Functional and Structural Niches on Spatial Transcriptomics Data via Contrastive Subgraph Embedding ( http://arxiv.org/abs/2410.10652v1 )

ライセンス: Link先を確認
Mo Chen, Minsheng Hao, Xuegong Zhang, Lei Wei, (参考訳) 組織内の機能的または構造的空間領域は、空間ニッチと呼ばれ、多細胞生物の空間的文脈を説明する要素である。 鍵となる課題は、様々な組織にまたがる共有ニッチを問い合わせることであり、これは細胞集団の組織と表現型を包括的に理解するために重要である。 しかし、現在のデータ解析手法は主に、効率的なクエリのためのニッチレベルの表現の開発を無視して、細胞に空間認識の埋め込みを作成することに重点を置いている。 このギャップに対処するために、複数のサンプル間で空間ニッチを問合せするために設計された新しいニッチ表現学習モデルであるQueSTを紹介する。 QueSTは、ニッチレベルの特徴を明示的に捉えるために、新しいサブグラフコントラスト学習アプローチを使用し、バッチ効果を軽減するために、対逆訓練を取り入れている。 我々は,人間とマウスのデータセットを用いて確立されたベンチマーク上でQueSTを評価し,精度の高いニッチクエリにおける最先端グラフ表現学習法よりも優れていることを示す。 全体として、QueSTは空間ニッチなクエリのための特別なモデルを提供し、組織全体にわたる細胞空間構造のパターンとメカニズムについて深い洞察を得るための道を開く。 ソースコードはhttps://github.com/cmhimself/QueSTにある。

The functional or structural spatial regions within tissues, referred to as spatial niches, are elements for illustrating the spatial contexts of multicellular organisms. A key challenge is querying shared niches across diverse tissues, which is crucial for achieving a comprehensive understanding of the organization and phenotypes of cell populations. However, current data analysis methods predominantly focus on creating spatial-aware embeddings for cells, neglecting the development of niche-level representations for effective querying. To address this gap, we introduce QueST, a novel niche representation learning model designed for querying spatial niches across multiple samples. QueST utilizes a novel subgraph contrastive learning approach to explicitly capture niche-level characteristics and incorporates adversarial training to mitigate batch effects. We evaluate QueST on established benchmarks using human and mouse datasets, demonstrating its superiority over state-of-the-art graph representation learning methods in accurate niche queries. Overall, QueST offers a specialized model for spatial niche queries, paving the way for deeper insights into the patterns and mechanisms of cell spatial organization across tissues. Source code can be found at https://github.com/cmhimself/QueST.
翻訳日:2024-10-29 20:25:02 公開日:2024-10-14
# 不確実性下におけるナビゲーション:動的システムの切り換えによる軌道予測と閉塞推論

Navigation under uncertainty: Trajectory prediction and occlusion reasoning with switching dynamical systems ( http://arxiv.org/abs/2410.10653v1 )

ライセンス: Link先を確認
Ran Wei, Joseph Lee, Shohei Wakayama, Alexander Tschantz, Conor Heins, Christopher Buckley, John Carenbauer, Hari Thiruvengada, Mahault Albarracin, Miguel de Prado, Petter Horling, Peter Winzell, Renjith Rajagopal, (参考訳) 近くにある物体の将来の軌跡を予測することは、特に隠蔽下において、自律走行と安全なロボットナビゲーションにおいて重要な課題である。 先行研究は、通常、隠蔽対象の不確実性を維持することを無視し、大きなデータセットで訓練されたトランスフォーマーのような高容量モデルを使用して観測対象の軌跡を予測するのみである。 これらのアプローチは標準的なシナリオでは有効だが、長期的な安全クリティカルなシナリオへの一般化に苦労する可能性がある。 本研究では,軌道予測とオクルージョン推論を同じ種類の構造的確率的生成モデル,すなわち動的系を切り替える概念的枠組みについて検討する。 次に、Waymoのオープンデータセットを使用して、その能力を示す最初の実験を示す。

Predicting future trajectories of nearby objects, especially under occlusion, is a crucial task in autonomous driving and safe robot navigation. Prior works typically neglect to maintain uncertainty about occluded objects and only predict trajectories of observed objects using high-capacity models such as Transformers trained on large datasets. While these approaches are effective in standard scenarios, they can struggle to generalize to the long-tail, safety-critical scenarios. In this work, we explore a conceptual framework unifying trajectory prediction and occlusion reasoning under the same class of structured probabilistic generative model, namely, switching dynamical systems. We then present some initial experiments illustrating its capabilities using the Waymo open dataset.
翻訳日:2024-10-29 20:25:02 公開日:2024-10-14
# AutoTurb:大規模言語モデルを用いた乱流閉鎖の自動代数モデル発見

AutoTurb: Using Large Language Models for Automatic Algebraic Model Discovery of Turbulence Closure ( http://arxiv.org/abs/2410.10657v1 )

ライセンス: Link先を確認
Yu Zhang, Kefeng Zheng, Fei Liu, Qingfu Zhang, Zhenkun Wang, (参考訳) シンボリック回帰 (SR) 法は、レイノルズ平均Navier-Stokes (RANS) 方程式の乱流閉鎖のための明示的代数的レイノルズ応力モデル (EARSM) を探索するために広く研究されている。 推定されたEARSMは、既存の計算流体力学(CFD)コードで容易に実装でき、物理的に解釈可能な乱流モデルの同定を促進する。 遺伝的プログラミング、スパース回帰、人工知能ニューラルネットワークといった既存のSR手法では、ユーザ定義の関数演算子、候補のライブラリ、複雑な最適化アルゴリズムが必要となる。 本研究では, RSM の修正のための代数的表現を自動的に検出する LLM を用いた新しいフレームワークを提案する。 Reynolds応力の直接観察とCFDシミュレーションの間接出力は、データの一貫性を保証し、数値剛性を回避するためのトレーニングプロセスに関与している。 機能的複雑性と収束の制約は、LLMの膨大な柔軟性を考慮して、目的関数に補足的に課せられる。 進化的探索はグローバル最適化に使用される。 提案手法は,Re = 10,595 で周期的な丘を横断する流れを分離するためのものである。 得られたモデルの一般化性は、レイノルズ数とジオメトリの異なる2次元乱流分離流構成のセットで検証される。 The corrective RANS can improve the prediction for the Reynolds stress and mean velocity field。 他の研究で発見された代数モデルと比較すると、発見されたモデルは精度と一般化能力において優れている。 提案手法は, LLMを用いて与えられた流れの乱流モデリングを改善するための有望なパラダイムを提供する。

Symbolic regression (SR) methods have been extensively investigated to explore explicit algebraic Reynolds stress models (EARSM) for turbulence closure of Reynolds-averaged Navier-Stokes (RANS) equations. The deduced EARSM can be readily implemented in existing computational fluid dynamic (CFD) codes and promotes the identification of physically interpretable turbulence models. The existing SR methods, such as genetic programming, sparse regression, or artificial neural networks, require user-defined functional operators, a library of candidates, or complex optimization algorithms. In this work, a novel framework using LLMs to automatically discover algebraic expressions for correcting the RSM is proposed. The direct observation of Reynolds stress and the indirect output of the CFD simulation are both involved in the training process to guarantee data consistency and avoid numerical stiffness. Constraints of functional complexity and convergence are supplementally imposed in the objective function on account of the tremendous flexibility of LLMs. The evolutionary search is employed for global optimization. The proposed method is performed for separated flow over periodic hills at Re = 10,595. The generalizability of the discovered model is verified on a set of 2D turbulent separated flow configurations with different Reynolds numbers and geometries. It is demonstrated that the corrective RANS can improve the prediction for both the Reynolds stress and mean velocity fields. Compared with algebraic models discovered by other works, the discovered model performs better in accuracy and generalization capability. The proposed approach provides a promising paradigm for using LLMs to improve turbulence modeling for a given class of flows.
翻訳日:2024-10-29 20:25:02 公開日:2024-10-14
# グラフニューラルネットワークとソーシャルネットワーク分析に基づくMOOC学習グループとコース推薦手法

A Personalized MOOC Learning Group and Course Recommendation Method Based on Graph Neural Network and Social Network Analysis ( http://arxiv.org/abs/2410.10658v1 )

ライセンス: Link先を確認
Zijin Luo, Xu Wang, Yiquan Wang, Haotian Zhang, Zhuangzhuang Li, (参考訳) 本研究は,MOOC学習への学生の取り組みと参加を促進するために,SNA(Social Network Analysis)に基づくマルチレベルネットワークモデルを構築した。 このモデルは、様々な高等教育MOOCプラットフォームから4万人近いユーザーと数万のコースに関するデータを利用している。 さらに、収集したデータを利用して、学生のためのコースや研究グループに関するパーソナライズされたレコメンデーションを提供するAIベースのアシスタントも開発されている。 本研究の目的は,学生の授業選択選好と学力レベルとの関係を検討することである。 関係分析の結果に基づき、AIアシスタントはGNNなどの技術を用いて、学生に適切なコースや研究グループを推薦する。 本研究はMOOCプラットフォーム上でのパーソナライズされた教育の可能性に関する新たな洞察を提供し、オンライン学習体験の質の向上、学生のエンゲージメントの向上、学習成果の向上におけるデータ駆動型およびAI支援手法の価値を実証する。

In order to enhance students' initiative and participation in MOOC learning, this study constructed a multi-level network model based on Social Network Analysis (SNA). The model makes use of data pertaining to nearly 40,000 users and tens of thousands of courses from various higher education MOOC platforms. Furthermore, an AI-based assistant has been developed which utilises the collected data to provide personalised recommendations regarding courses and study groups for students. The objective is to examine the relationship between students' course selection preferences and their academic interest levels. Based on the results of the relationship analysis, the AI assistant employs technologies such as GNN to recommend suitable courses and study groups to students. This study offers new insights into the potential of personalised teaching on MOOC platforms, demonstrating the value of data-driven and AI-assisted methods in improving the quality of online learning experiences, increasing student engagement, and enhancing learning outcomes.
翻訳日:2024-10-29 20:25:02 公開日:2024-10-14
# PCF-Lift:確率論的コントラスト融合によるパノプティクスリフティング

PCF-Lift: Panoptic Lifting by Probabilistic Contrastive Fusion ( http://arxiv.org/abs/2410.10659v1 )

ライセンス: Link先を確認
Runsong Zhu, Shi Qiu, Qianyi Wu, Ka-Hei Hui, Pheng-Ann Heng, Chi-Wing Fu, (参考訳) 多視点から3次元のシーンへ2次元のパノプティクスを投影することで、3次元のパノプティクスセグメンテーションタスクに対処する効果的な手法である。 しかし、結果の質は2Dセグメンテーションに大きく依存しており、ノイズやエラーが発生しやすいため、複雑なシーンでは性能が著しく低下することが多い。 本研究では,不正確なセグメンテーションや一貫性のないインスタンスIDを積極的に検討するために,PCF(Probabilis-tic Contrastive Fusion)をベースとしたPCF-Liftという新しいパイプラインを設計する。 技術的には,まず多変量ガウス分布による確率的特徴埋め込みをモデル化する。 確率的特徴を融合するために、確率積カーネルを対照的な損失の定式化に組み込み、異なるビューにまたがる特徴整合性を高めるために、クロスビュー制約を設計する。 そこで本研究では,プロトタイプ機能と基礎となる3Dオブジェクトインスタンスを効果的に関連付けるための新しい確率的クラスタリング手法を導入し,一貫した汎視的セグメンテーション結果を生成する。 さらに、提案した確率的解の優越性を正当化する理論的解析を行う。 大規模な実験を行うことで、PCFリフトは、ScanNetデータセットや挑戦的なMessy Roomデータセット(4.4%のシーンレベルのPQの改善)など、広く使用されているベンチマークで最先端の手法を著しく上回るだけでなく、様々な2次元セグメンテーションモデルや異なる手作りノイズのレベルを取り入れた場合の強い堅牢性も示します。

Panoptic lifting is an effective technique to address the 3D panoptic segmentation task by unprojecting 2D panoptic segmentations from multi-views to 3D scene. However, the quality of its results largely depends on the 2D segmentations, which could be noisy and error-prone, so its performance often drops significantly for complex scenes. In this work, we design a new pipeline coined PCF-Lift based on our Probabilis-tic Contrastive Fusion (PCF) to learn and embed probabilistic features throughout our pipeline to actively consider inaccurate segmentations and inconsistent instance IDs. Technical-wise, we first model the probabilistic feature embeddings through multivariate Gaussian distributions. To fuse the probabilistic features, we incorporate the probability product kernel into the contrastive loss formulation and design a cross-view constraint to enhance the feature consistency across different views. For the inference, we introduce a new probabilistic clustering method to effectively associate prototype features with the underlying 3D object instances for the generation of consistent panoptic segmentation results. Further, we provide a theoretical analysis to justify the superiority of the proposed probabilistic solution. By conducting extensive experiments, our PCF-lift not only significantly outperforms the state-of-the-art methods on widely used benchmarks including the ScanNet dataset and the challenging Messy Room dataset (4.4% improvement of scene-level PQ), but also demonstrates strong robustness when incorporating various 2D segmentation models or different levels of hand-crafted noise.
翻訳日:2024-10-29 20:25:02 公開日:2024-10-14
# ゲームプレイの変容:強化学習におけるDCQNとDTQNアーキテクチャの比較研究

Transforming Game Play: A Comparative Study of DCQN and DTQN Architectures in Reinforcement Learning ( http://arxiv.org/abs/2410.10660v1 )

ライセンス: Link先を確認
William A. Stigall, (参考訳) 本研究では,3つの異なるゲーム間での畳み込みニューラルネットワーク(CNN)とトランスフォーマーアーキテクチャを用いたディープQ-Networksの性能について検討する。 DQNの出現により、強化学習が大幅に進歩し、エージェントはピクセルやRAMデータから高次元の知覚入力から直接最適なポリシーを学習できる。 CNNベースのDQNは、様々なドメインで広く研究され、デプロイされているが、TransformerベースのDQNは比較的探索されていない。 本研究の目的は、AtariゲームAsteroids, Space Invaders, CentipedeでDCQNとDTQNのパフォーマンスをベンチマークすることで、このギャップを埋めることである。 3億~4000万のパラメータ範囲において、DCQNは、ViTとProjection Architectureの両方でDTQNよりも高速であることがわかった。 また、DCQNはCentipedeを除く全てのゲームでDTQNより優れています。

In this study, we investigate the performance of Deep Q-Networks utilizing Convolutional Neural Networks (CNNs) and Transformer architectures across three different Atari games. The advent of DQNs has significantly advanced Reinforcement Learning, enabling agents to directly learn optimal policies from high-dimensional sensory inputs from pixel or RAM data. While CNN-based DQNs have been extensively studied and deployed in various domains, Transformer-based DQNs are relatively unexplored. Our research aims to fill this gap by benchmarking the performance of both DCQNs and DTQNs across the Atari games Asteroids, Space Invaders, and Centipede. We find that in the 35-40 million parameter range, the DCQN outperforms the DTQN in speed across both ViT and Projection Architectures. We also find the DCQN outperforms the DTQN in all games except for Centipede.
翻訳日:2024-10-29 20:15:14 公開日:2024-10-14
# 新興量子通信プロトコルのエネルギー解析

Energetic Analysis of Emerging Quantum Communication Protocols ( http://arxiv.org/abs/2410.10661v1 )

ライセンス: Link先を確認
Raja Yehia, Yoann Piétri, Carlos Pascual-García, Pascal Lefebvre, Federico Centrone, (参考訳) 量子技術の急速な発展と初期の工業化により、大規模な展開を計画する前に全体のエネルギー消費を分析することは大きな関心事である。 異なるネットワークは、量子信号を生成、配布、操作、検出、処理するために非常に異なる技術を必要とする。 本稿では,短期量子ネットワークに適用される様々な量子技術やプロトコルのエネルギー要求をモデル化する枠組みの基礎を定めている。 異なるメリットの数値を議論し、二部ネットワークプロトコルと多部ネットワークプロトコルのエネルギー消費に関するベンチマークを示す。 フォトニックセットアップのエネルギー消費を推定するオープンソースソフトウェアも提供する。

With the rapid development and early industrialization of quantum technologies, it is of great interest to analyze their overall energy consumption before planning for their wide-scale deployments. The evaluation of the total energy requirements of quantum networks is a challenging task: different networks require very disparate techniques to create, distribute, manipulate, detect, and process quantum signals. This paper aims to lay the foundations of a framework to model the energy requirements of different quantum technologies and protocols applied to near-term quantum networks. Different figures of merit are discussed and a benchmark on the energy consumption of bipartite and multipartite network protocols is presented. An open-source software to estimate the energy consumption of photonic setups is also provided.
翻訳日:2024-10-29 20:15:14 公開日:2024-10-14
# クロスモーダルなFew-Shotラーニング:ジェネレーティブトランスファーラーニングフレームワーク

Cross-Modal Few-Shot Learning: a Generative Transfer Learning Framework ( http://arxiv.org/abs/2410.10663v1 )

ライセンス: Link先を確認
Zhengwei Yang, Yuke Li, Qiang Sun, Basura Fernando, Heng Huang, Zheng Wang, (参考訳) 既存のほとんどの研究は単調な設定に重点を置いており、モデルは同じモダリティから少数のラベル付き例だけを用いて、目に見えないデータに一般化するよう訓練されている。 しかし、実世界のデータは本質的にマルチモーダルであり、単調なアプローチは数ショット学習の実践的応用を制限する。 このギャップに対処するために,いくつかのラベル付き例が利用可能である場合に,複数のモダリティからインスタンスを認識することを目的としたCFSLタスクを提案する。 この課題は、視覚的特徴と各モードに特有の構造的特性により、古典的な数ショット学習と比較して、さらなる課題を提起する。 これらの課題に対処するため、我々は生成的トランスファーラーニング(GTL)フレームワークを提案し、第1段階は豊富な単調なデータのトレーニングを伴い、第2段階は新しいデータに適応するためのトランスファーラーニングに焦点を当てた。 我々のGTLフレームワークは,両段階のモダリティと非モダリティの障害にまたがる潜在的共有概念を共同で推定すると同時に,トランスファーフェーズ中に生成モジュールを凍結することにより,学習された表現の安定性を保ち,限られたマルチモーダルサンプルへの過度な適合を防止する。 その結果,GTLは,Sketchy,TU-Berlin,Mask1K,SKSF-Aの4つの異なるマルチモーダルデータセットに対して,最先端の手法に比べて優れた性能を示した。 さらに、このモデルでは、膨大なユニモーダルデータから潜在概念を推定し、人間の認知プロセスのように、利用可能なサンプルの限られた数だけを用いて、これらの概念を目に見えないモダリティに一般化することができることを示唆している。

Most existing studies on few-shot learning focus on unimodal settings, where models are trained to generalize on unseen data using only a small number of labeled examples from the same modality. However, real-world data are inherently multi-modal, and unimodal approaches limit the practical applications of few-shot learning. To address this gap, this paper introduces the Cross-modal Few-Shot Learning (CFSL) task, which aims to recognize instances from multiple modalities when only a few labeled examples are available. This task presents additional challenges compared to classical few-shot learning due to the distinct visual characteristics and structural properties unique to each modality. To tackle these challenges, we propose a Generative Transfer Learning (GTL) framework consisting of two stages: the first stage involves training on abundant unimodal data, and the second stage focuses on transfer learning to adapt to novel data. Our GTL framework jointly estimates the latent shared concept across modalities and in-modality disturbance in both stages, while freezing the generative module during the transfer phase to maintain the stability of the learned representations and prevent overfitting to the limited multi-modal samples. Our finds demonstrate that GTL has superior performance compared to state-of-the-art methods across four distinct multi-modal datasets: Sketchy, TU-Berlin, Mask1K, and SKSF-A. Additionally, the results suggest that the model can estimate latent concepts from vast unimodal data and generalize these concepts to unseen modalities using only a limited number of available samples, much like human cognitive processes.
翻訳日:2024-10-29 20:15:14 公開日:2024-10-14
# 量子極限におけるTunable Einstein-Bohr reoiling-slit gedankenexperiment

Tunable Einstein-Bohr recoiling-slit gedankenexperiment at the quantum limit ( http://arxiv.org/abs/2410.10664v1 )

ライセンス: Link先を確認
Yu-Chen Zhang, Hao-Wen Cheng, Zhao-Qiu Zengxu, Zhan Wu, Rui Lin, Yu-Cheng Duan, Jun Rui, Ming-Cheng Chen, Chao-Yang Lu, Jian-Wei Pan, (参考訳) 1927年、第5回ソルヴェイ会議において、アインシュタインとボーアは1つの光子の運動量リコイルを検出する「可動スリット」を持つ二重スリット干渉計を記述した。 本稿では,光学式ツイーザの単一原子を用いたアインシュタイン・ボーア干渉計の忠実な実現を3次元の運動基底状態に冷却した。 単一原子は単一光子に匹敵する固有の運動量不確実性を持ち、最小のハイゼンベルクの不確実性原理に従う可動スリットとして機能する。 原子の運動量波動関数はツイーザーレーザーパワーによって動的に調整可能であり、浅いトラップで干渉計の視認率を低下させ、この干渉計の量子的性質を実証することができる。 さらに、原子の加熱と沈降による古典的なノイズを同定し、量子-古典的遷移を示す。

In 1927, during the fifth Solvay Conference, Einstein and Bohr described a double-slit interferometer with a "movable slit" that can detect the momentum recoil of one photon. Here, we report a faithful realization of the Einstein-Bohr interferometer using a single atom in an optical tweezer, cooled to the motional ground state in three dimensions. The single atom has an intrinsic momentum uncertainty comparable to a single photon, which serves as a movable slit obeying the minimum Heisenberg uncertainty principle. The atom's momentum wavefunction is dynamically tunable by the tweezer laser power, which enables observation of an interferometric visibility reduction at a shallower trap, demonstrating the quantum nature of this interferometer. We further identify classical noise due to atom heating and precession, illustrating a quantum-to-classical transition.
翻訳日:2024-10-29 20:15:14 公開日:2024-10-14
# 大規模言語モデルにおける二重幻覚と気候の影響:非英語話者の社会経済的格差と実用性低下

Double Jeopardy and Climate Impact in the Use of Large Language Models: Socio-economic Disparities and Reduced Utility for Non-English Speakers ( http://arxiv.org/abs/2410.10665v1 )

ライセンス: Link先を確認
Aivin V. Solatorio, Gabriel Stefanini Vicente, Holly Krambeck, Olivier Dupriez, (参考訳) 人工知能(AI)、特に大きな言語モデル(LLM)は、発展途上国の経済に恩恵をもたらす言語と情報ギャップを橋渡しする可能性を持っている。 しかし、FLORES-200、FLORES+、Ethnologue、World Development Indicatorsのデータから、これらの利点が英語話者に大きく影響していることが分かる。 低所得国と低所得国の言語話者は、システムが入力 -- トークン化を処理する方法のため、API経由でOpenAIのGPTモデルを使用する場合、より高いコストに直面します。 約15億人は、主に低所得国の言語を話し、英語話者が直面しているものよりも4倍から6倍のコストがかかる可能性がある。 LLMの性能の相違は重要であり、トークン当たりのトークン化はアクセス、コスト、ユーティリティの不平等を増幅する。 さらに,翻訳タスクの質をプロキシ尺度として用いて,低リソース言語ではLLMが低性能であり,高コストで低性能である「ダブル・ジャパディ」が提示されている。 また、低リソース言語をトークン化する際の断片化が気候に与える影響についても論じる。 このことは、全ての言語グループに利益をもたらすためのより公平なアルゴリズム開発の必要性を浮き彫りにしている。

Artificial Intelligence (AI), particularly large language models (LLMs), holds the potential to bridge language and information gaps, which can benefit the economies of developing nations. However, our analysis of FLORES-200, FLORES+, Ethnologue, and World Development Indicators data reveals that these benefits largely favor English speakers. Speakers of languages in low-income and lower-middle-income countries face higher costs when using OpenAI's GPT models via APIs because of how the system processes the input -- tokenization. Around 1.5 billion people, speaking languages primarily from lower-middle-income countries, could incur costs that are 4 to 6 times higher than those faced by English speakers. Disparities in LLM performance are significant, and tokenization in models priced per token amplifies inequalities in access, cost, and utility. Moreover, using the quality of translation tasks as a proxy measure, we show that LLMs perform poorly in low-resource languages, presenting a ``double jeopardy" of higher costs and poor performance for these users. We also discuss the direct impact of fragmentation in tokenizing low-resource languages on climate. This underscores the need for fairer algorithm development to benefit all linguistic groups.
翻訳日:2024-10-29 20:15:14 公開日:2024-10-14
# マトリックス核ノートによる大規模言語モデル評価

Large Language Model Evaluation via Matrix Nuclear-Norm ( http://arxiv.org/abs/2410.10672v1 )

ライセンス: Link先を確認
Yahan Li, Tingyu Xia, Yi Chang, Yuan Wu, (参考訳) 大規模言語モデル(LLM)が進化を続けるにつれて、情報の圧縮と冗長性の低下を評価する上で、効率的な評価指標が不可欠である。 マトリックスエントロピー(Matrix Entropy)のような伝統的なメトリクスは貴重な洞察を提供するが、それらは、Singular Value Decomposition (SVD) による \(O(n^3) \) 時間の複雑さのために、大規模モデルに対して計算的に集中的である。 この問題を軽減するため,LLMのデータ圧縮精度を定量化するための指標として機能するだけでなく,予測的識別性と多様性の両方を捉えるために,行列ランクの凸近似を提供するマトリックス核ノルムを導入する。 L_{1,2}\text{-norm} \) を用いて、核ノルムをさらに近似することで、モデルの情報圧縮能力を効果的に評価できる。 このアプローチは、時間の複雑さを \(O(n^2) \) に減らし、SVD計算の必要性をなくす。 その結果、CEREBRAS-GPTモデルでは、サイズが111Mから6.7Bに増加するにつれて、マトリックス核ノルムはマトリックスエントロピーの8倍から24倍の速度を達成する。 このパフォーマンスギャップは、Pythiaのような他のモデルによるテストで検証されるように、より大きなモデルでより顕著になる。 さらに、ベンチマークとモデル応答の評価により、提案したMatrix Nuclear-Normは、LCMの性能を評価するための信頼性が高く、スケーラブルで、効率的なツールであり、精度と計算効率のバランスを保っていることを確認した。 コードはhttps://github.com/MLGroupJLU/MatrixNuclearNorm.comで入手できる。

As large language models (LLMs) continue to evolve, efficient evaluation metrics are vital for assessing their ability to compress information and reduce redundancy. While traditional metrics like Matrix Entropy offer valuable insights, they are computationally intensive for large-scale models due to their \( O(n^3) \) time complexity with Singular Value Decomposition (SVD). To mitigate this issue, we introduce the Matrix Nuclear-Norm, which not only serves as a metric to quantify the data compression proficiency of LLM but also provides a convex approximation of matrix rank to capture both predictive discriminability and diversity. By employing the \( L_{1,2}\text{-norm} \) to further approximate the nuclear norm, we can effectively assess the model's information compression capabilities. This approach reduces the time complexity to \( O(n^2) \) and eliminates the need for SVD computation. Consequently, the Matrix Nuclear-Norm achieves speeds 8 to 24 times faster than Matrix Entropy for the CEREBRAS-GPT model as sizes increase from 111M to 6.7B. This performance gap becomes more pronounced with larger models, as validated in tests with other models like Pythia. Additionally, evaluations on benchmarks and model responses confirm that our proposed Matrix Nuclear-Norm is a reliable, scalable, and efficient tool for assessing LLMs' performance, striking a balance between accuracy and computational efficiency. The code is available at https://github.com/MLGroupJLU/MatrixNuclearNorm.
翻訳日:2024-10-29 20:15:14 公開日:2024-10-14
# 深層強化学習におけるロバスト性向上:リャプノフ指数的アプローチ

Enhancing Robustness in Deep Reinforcement Learning: A Lyapunov Exponent Approach ( http://arxiv.org/abs/2410.10674v1 )

ライセンス: Link先を確認
Rory Young, Nicolas Pugeault, (参考訳) 深層強化学習エージェントは、幅広いシミュレートされた制御タスクにおいて最先端の性能を達成する。 しかし、実世界の問題に対する成功例は依然として限られている。 この二分法が原因の1つは、学習された方針が騒音や敵の攻撃を観測するのに堅牢でないからである。 本稿では,決定論的連続制御タスクにおける1つの小状態摂動に対する深いRLポリシーの堅牢性について検討する。 システム状態に対する小さな摂動がその後の状態と報酬軌道に大きな影響を与えるため、RLポリシーは決定論的に混同される可能性があることを実証する。 不安定な非線形動作には2つの結果がある: まず、センサーの読み取りの不正確さ、または敵の攻撃は、大きなパフォーマンス劣化を引き起こす。 RL政策におけるカオスの2つの側面は、現実世界の問題への深いRLの適用を劇的に制限している。 この問題に対処するため,我々は,最大リアプノフ指数正規化を実装したDreamer V3アーキテクチャの改良を提案する。 この新しいアプローチはカオス状態のダイナミクスを減らし、センサノイズや敵攻撃に対してより回復力のある学習ポリシーを描画し、現実世界のアプリケーションに対するDeep Reinforcement Learningの適合性を向上させる。

Deep reinforcement learning agents achieve state-of-the-art performance in a wide range of simulated control tasks. However, successful applications to real-world problems remain limited. One reason for this dichotomy is because the learned policies are not robust to observation noise or adversarial attacks. In this paper, we investigate the robustness of deep RL policies to a single small state perturbation in deterministic continuous control tasks. We demonstrate that RL policies can be deterministically chaotic as small perturbations to the system state have a large impact on subsequent state and reward trajectories. This unstable non-linear behaviour has two consequences: First, inaccuracies in sensor readings, or adversarial attacks, can cause significant performance degradation; Second, even policies that show robust performance in terms of rewards may have unpredictable behaviour in practice. These two facets of chaos in RL policies drastically restrict the application of deep RL to real-world problems. To address this issue, we propose an improvement on the successful Dreamer V3 architecture, implementing a Maximal Lyapunov Exponent regularisation. This new approach reduces the chaotic state dynamics, rendering the learnt policies more resilient to sensor noise or adversarial attacks and thereby improving the suitability of Deep Reinforcement Learning for real-world applications.
翻訳日:2024-10-29 20:15:14 公開日:2024-10-14
# 両耳ともオープン:言語駆動型空間オーディオ生成を目指して

Both Ears Wide Open: Towards Language-Driven Spatial Audio Generation ( http://arxiv.org/abs/2410.10676v1 )

ライセンス: Link先を確認
Peiwen Sun, Sitong Cheng, Xiangtai Li, Zhen Ye, Huadai Liu, Honggang Zhang, Wei Xue, Yike Guo, (参考訳) 近年,拡散モデルは単チャンネル音声生成において大きな成功を収めている。 しかし、ステレオオーディオ生成に関しては、サウンドスケープは複数のオブジェクトや方向の複雑なシーンを持つことが多い。 ステレオオーディオを空間的コンテキストで制御することは、高いデータコストと不安定な生成モデルのために依然として困難である。 私たちの知る限りでは、この研究はこれらの問題に対処する最初の試みである。 まず, 大規模・シミュレーションベース・GPT支援型データセットBEWO-1Mを構築し, 移動・複数音源を含む豊富な音環境と記述を行った。 テキストモダリティ以外にも、検索によって画像と合理的にペアリングされたステレオオーディオも取得し、マルチモーダル生成を進めました。 既存の音声生成モデルは、かなりランダムで不明瞭な空間オーディオを生成する傾向がある。 本研究では,空間認識型エンコーダと方位状態行列を用いた空間音響モデルを提案する。 空間誘導を利用することにより,テキストや画像から没入型かつ制御可能な空間音声を生成するだけでなく,推論中に対話型音声生成を可能にする。 最後に、公正な条件下で、シミュレーションおよび実世界のデータに対して主観的および客観的な評価を行い、我々のアプローチと一般的な手法との比較を行う。 その結果,本手法の有効性を実証し,物理規則に準拠した空間音声を生成する能力を強調した。

Recently, diffusion models have achieved great success in mono-channel audio generation. However, when it comes to stereo audio generation, the soundscapes often have a complex scene of multiple objects and directions. Controlling stereo audio with spatial contexts remains challenging due to high data costs and unstable generative models. To the best of our knowledge, this work represents the first attempt to address these issues. We first construct a large-scale, simulation-based, and GPT-assisted dataset, BEWO-1M, with abundant soundscapes and descriptions even including moving and multiple sources. Beyond text modality, we have also acquired a set of images and rationally paired stereo audios through retrieval to advance multimodal generation. Existing audio generation models tend to generate rather random and indistinct spatial audio. To provide accurate guidance for latent diffusion models, we introduce the SpatialSonic model utilizing spatial-aware encoders and azimuth state matrices to reveal reasonable spatial guidance. By leveraging spatial guidance, our unified model not only achieves the objective of generating immersive and controllable spatial audio from text and image but also enables interactive audio generation during inference. Finally, under fair settings, we conduct subjective and objective evaluations on simulated and real-world data to compare our approach with prevailing methods. The results demonstrate the effectiveness of our method, highlighting its capability to generate spatial audio that adheres to physical rules.
翻訳日:2024-10-29 20:15:14 公開日:2024-10-14
# Combinatorial Multi-armed Bandits: グループテストによるアーム選択

Combinatorial Multi-armed Bandits: Arm Selection via Group Testing ( http://arxiv.org/abs/2410.10679v1 )

ライセンス: Link先を確認
Arpan Mukherjee, Shashanka Ubaru, Keerthiram Murugesan, Karthikeyan Shanmugam, Ali Tajer, (参考訳) 本稿では,半帯域フィードバックとスーパーアームサイズに対する濃度制約を併用した複合型マルチアームバンディットの問題について考察する。 既存のアルゴリズムでは、(1)ベースアームパラメータの集合を逐次推定するパラメータ推定ルーチン、(2)これらのパラメータに基づいて最適なベースアームのサブセットを選択するためのスーパーアーム選択ポリシーの2つの重要なサブルーチンが関係している。 最先端のアルゴリズムは、非有界な計算力を持つスーパーアーム選択のための正確なオラクルへのアクセスを前提としている。 それぞれの場合において、このオラクルはスコア関数の一覧を評価し、その数は、腕の数とともに、直線的に、指数的に増加する。 これは、多数の武器の体制において禁止される可能性がある。 本稿では,完全オラクルに代わる新しい現実的な代替案を紹介する。 このアルゴリズムは、スーパーアームの選択にグループテストとパラメータ推定に量子化されたトンプソンサンプリングを組み合わせたものである。 報奨関数に対する一般的な分離性仮定の下では,提案アルゴリズムは,正解法を用いる最先端アルゴリズムと同じ後悔順序を達成しつつ,ベースアーム数で対数となるスーパーアーム選択オラクルの複雑さを低減させる。 これは、少なくともオラクルベースのアプローチと比較して、複雑さが指数関数的に減少することを意味する。

This paper considers the problem of combinatorial multi-armed bandits with semi-bandit feedback and a cardinality constraint on the super-arm size. Existing algorithms for solving this problem typically involve two key sub-routines: (1) a parameter estimation routine that sequentially estimates a set of base-arm parameters, and (2) a super-arm selection policy for selecting a subset of base arms deemed optimal based on these parameters. State-of-the-art algorithms assume access to an exact oracle for super-arm selection with unbounded computational power. At each instance, this oracle evaluates a list of score functions, the number of which grows as low as linearly and as high as exponentially with the number of arms. This can be prohibitive in the regime of a large number of arms. This paper introduces a novel realistic alternative to the perfect oracle. This algorithm uses a combination of group-testing for selecting the super arms and quantized Thompson sampling for parameter estimation. Under a general separability assumption on the reward function, the proposed algorithm reduces the complexity of the super-arm-selection oracle to be logarithmic in the number of base arms while achieving the same regret order as the state-of-the-art algorithms that use exact oracles. This translates to at least an exponential reduction in complexity compared to the oracle-based approaches.
翻訳日:2024-10-29 20:15:14 公開日:2024-10-14
# SAMPa: シャープネスを意識した最小化を並列化

SAMPa: Sharpness-aware Minimization Parallelized ( http://arxiv.org/abs/2410.10683v1 )

ライセンス: Link先を確認
Wanyun Xie, Thomas Pethick, Volkan Cevher, (参考訳) シャープネスを意識した最小化(SAM)は、ニューラルネットワークの一般化を改善することが示されている。 しかし、SAMの更新には2つの勾配を計算することが必要であり、SGDのようなベースオプティマイザと比較して、効率よくイテレーション当たりのコストを2倍にする。 我々は,SAMPaと呼ばれるSAMの簡単な修正を提案し,この2つの勾配計算を完全に並列化することができる。 SAMPaは、デバイス間の通信コストが無視可能であるという前提のもと、SAMの2倍のスピードアップを達成する。 実験の結果、SAMPaはSAMの計算時間において最も効率的な変種であることがわかった。 さらに,本手法は視覚タスクと言語タスクの両方でSAMを上回っている。 特に、SAMPa は、新しいリャプノフ函数によって確立された 'emph{fixed} 摂動サイズであっても収束保証を理論的に維持する。 実際、私たちはこの収束保証をハード要件として扱うことでSAMPaに到達しました。 私たちのコードは \url{https://github.com/LIONS-EPFL/SAMPa} で利用可能です。

Sharpness-aware minimization (SAM) has been shown to improve the generalization of neural networks. However, each SAM update requires \emph{sequentially} computing two gradients, effectively doubling the per-iteration cost compared to base optimizers like SGD. We propose a simple modification of SAM, termed SAMPa, which allows us to fully parallelize the two gradient computations. SAMPa achieves a twofold speedup of SAM under the assumption that communication costs between devices are negligible. Empirical results show that SAMPa ranks among the most efficient variants of SAM in terms of computational time. Additionally, our method consistently outperforms SAM across both vision and language tasks. Notably, SAMPa theoretically maintains convergence guarantees even for \emph{fixed} perturbation sizes, which is established through a novel Lyapunov function. We in fact arrive at SAMPa by treating this convergence guarantee as a hard requirement -- an approach we believe is promising for developing SAM-based methods in general. Our code is available at \url{https://github.com/LIONS-EPFL/SAMPa}.
翻訳日:2024-10-29 20:15:14 公開日:2024-10-14
# 自然言語処理(NLP)にヒントを得た多変量時系列ベンチマークデータセットの構築

Building a Multivariate Time Series Benchmarking Datasets Inspired by Natural Language Processing (NLP) ( http://arxiv.org/abs/2410.10687v1 )

ライセンス: Link先を確認
Mohammad Asif Ibna Mustafa, Ferdinand Heinrich, (参考訳) 時系列分析は、様々な領域においてますます重要になってきており、効率的なモデルの開発は、高品質なベンチマークデータセットに大きく依存している。 学習済みモデルの進化における自然言語処理(NLP)ベンチマークデータセットの成功に触発されて、時系列分析のための包括的なベンチマークデータセットを作成するための新しいアプローチを提案する。 本稿では,NLPベンチマークデータセット作成で使用される手法について検討し,時系列データのユニークな課題に適応する。 我々は、多様で代表的で挑戦的な時系列データセットをキュレートするプロセスについて議論し、ドメイン関連性とデータの複雑さの重要性を強調した。 さらに,ベンチマークデータセットを利用して時系列モデルの性能を向上させるマルチタスク学習戦略について検討する。 本研究は、NLPドメインからの戦略を成功させることにより、時系列モデリングにおける最先端の進歩という、より広範な目標に寄与する。

Time series analysis has become increasingly important in various domains, and developing effective models relies heavily on high-quality benchmark datasets. Inspired by the success of Natural Language Processing (NLP) benchmark datasets in advancing pre-trained models, we propose a new approach to create a comprehensive benchmark dataset for time series analysis. This paper explores the methodologies used in NLP benchmark dataset creation and adapts them to the unique challenges of time series data. We discuss the process of curating diverse, representative, and challenging time series datasets, highlighting the importance of domain relevance and data complexity. Additionally, we investigate multi-task learning strategies that leverage the benchmark dataset to enhance the performance of time series models. This research contributes to the broader goal of advancing the state-of-the-art in time series modeling by adopting successful strategies from the NLP domain.
翻訳日:2024-10-29 20:15:14 公開日:2024-10-14
# 動的損失関数がランドスケープ地形を形作り、ニューラルネットワークにおける学習を改善する

Dynamical loss functions shape landscape topography and improve learning in artificial neural networks ( http://arxiv.org/abs/2410.10690v1 )

ライセンス: Link先を確認
Eduardo Lavin, Miguel Ruiz-Garcia, (参考訳) 動的損失関数は、教師付き分類タスクで使用される標準的な損失関数から導かれるが、各クラスからの寄与が周期的に増加し減少するように修正される。 これらの振動は、全世界のミニマに影響を与えずに、世界規模で損失景観を変化させる。 本稿では,クロスエントロピーと平均二乗誤差を動的損失関数に変換する方法を示す。 まず、ニューラルネットワークのサイズや学習速度が学習プロセスに与える影響について議論する。 この直感に基づいて、動的損失関数のいくつかのバージョンを提案し、異なるサイズのネットワークに対する検証精度を大幅に向上させる方法を示す。 最後に、これらの動的損失関数のランドスケープが、トレーニング中にどのように進化するかを考察し、不安定性の極小化と結びつく可能性のある不安定性の出現を浮き彫りにする。

Dynamical loss functions are derived from standard loss functions used in supervised classification tasks, but they are modified such that the contribution from each class periodically increases and decreases. These oscillations globally alter the loss landscape without affecting the global minima. In this paper, we demonstrate how to transform cross-entropy and mean squared error into dynamical loss functions. We begin by discussing the impact of increasing the size of the neural network or the learning rate on the learning process. Building on this intuition, we propose several versions of dynamical loss functions and show how they significantly improve validation accuracy for networks of varying sizes. Finally, we explore how the landscape of these dynamical loss functions evolves during training, highlighting the emergence of instabilities that may be linked to edge-of-instability minimization.
翻訳日:2024-10-29 20:15:14 公開日:2024-10-14
# マイクロ電極アレイを用いた神経伝達多機能神経からの神経ドライブと筋肉の分離

Separation of Neural Drives to Muscles from Transferred Polyfunctional Nerves using Implanted Micro-electrode Arrays ( http://arxiv.org/abs/2410.10694v1 )

ライセンス: Link先を確認
Laura Ferrante, Anna Boesendorfer, Deren Yusuf Barsakcioglu, Benedikt Baumgartner, Yazan Al-Ajam, Alex Woollard, Norbert Venantius Kang, Oskar Aszmann, Dario Farina, (参考訳) 下肢切断後、下肢機能の神経信号は末梢神経に持続する。 標的筋リナベーション(TMR)は、これらの信号を予備筋にリダイレクトし、筋電図(EMG)を介して神経情報を回復させる。 しかし、移行した神経から筋肉にリダイレクトされた異なる神経コマンドを分離する際、重要な課題が生じる。 EMG記録からの重なり合う信号の分離は、手足機能解釈を複雑にする混合神経情報を含むことができるため、依然として複雑である。 この課題に対処するために、再生末梢神経インタフェース(RPNIs)は、神経を特定の筋肉移植を活性化する個々の線維に外科的に分割し、筋電図信号のより正確な制御と解釈のために異なる神経源を分離する。 多価神経のTMR手術と高密度マイクロ電極アレイを併用した新しいバイオインタフェースを提案する。 異なる神経線維を外科的に同定する代わりに、マイクロ電極アレイの高時空間選択性と数学的ソース分離法を用いて、単一の筋肉にリダイレクトされるすべての神経信号を分離する。 4つの再神経筋からのEMG信号を記録し, ボランティアは幻肢作業を行った。 これらの信号の運動単位活動への分解により、様々な機能的タスクに関連する運動ニューロンの集団が明らかとなった。 特に, 再建筋内の複数の神経コマンドを抽出し, 外科的神経分割の必要性を排除した。 このアプローチは、補綴制御を増強する可能性だけでなく、TMRによる運動ニューロンのシナジーのメカニズムを解明し、中枢神経系が再活性化後の運動をコードする方法についての貴重な洞察を与える。

Following limb amputation, neural signals for limb functions persist in the residual peripheral nerves. Targeted muscle reinnervation (TMR) allows to redirected these signals into spare muscles to recover the neural information through electromyography (EMG). However, a significant challenge arises in separating distinct neural commands redirected from the transferred nerves to the muscles. Disentangling overlapping signals from EMG recordings remains complex, as they can contain mixed neural information that complicates limb function interpretation. To address this challenge, Regenerative Peripheral Nerve Interfaces (RPNIs) surgically partition the nerve into individual fascicles that reinnervate specific muscle grafts, isolating distinct neural sources for more precise control and interpretation of EMG signals. We introduce a novel biointerface that combines TMR surgery of polyvalent nerves with a high-density micro-electrode array implanted at a single site within a reinnervated muscle. Instead of surgically identifying distinct nerve fascicles, our approach separates all neural signals that are re-directed into a single muscle, using the high spatio-temporal selectivity of the micro-electrode array and mathematical source separation methods. We recorded EMG signals from four reinnervated muscles while volunteers performed phantom limb tasks. The decomposition of these signals into motor unit activity revealed distinct clusters of motor neurons associated with diverse functional tasks. Notably, our method enabled the extraction of multiple neural commands within a single reinnervated muscle, eliminating the need for surgical nerve division. This approach not only has the potential of enhancing prosthesis control but also uncovers mechanisms of motor neuron synergies following TMR, providing valuable insights into how the central nervous system encodes movement after reinnervation.
翻訳日:2024-10-29 20:15:14 公開日:2024-10-14
# talK-Act:拡散モデルを用いた2次元音声アバター再生におけるテクスチャ認識の強化

TALK-Act: Enhance Textural-Awareness for 2D Speaking Avatar Reenactment with Diffusion Model ( http://arxiv.org/abs/2410.10696v1 )

ライセンス: Link先を確認
Jiazhi Guan, Quanwei Yang, Kaisiyuan Wang, Hang Zhou, Shengyi He, Zhiliang Xu, Haocheng Feng, Errui Ding, Jingdong Wang, Hongtao Xie, Youjian Zhao, Ziwei Liu, (参考訳) 近年,顔のアニメーション技術が急速に発達しているため,2次元アバターは日常のシナリオにますます参加している。 しかし、現存する作品の多くは、人体の明確な制御を無視している。 本稿では,話し手の顔だけでなく,胴体やジェスチャーの動きを駆動することを提案する。 近年の拡散モデルの発展に触発されて,単眼映像の短い映像から高忠実度アバター再現を可能にするSpeaKing Avatar Reenactment (TALK-Act) フレームワークのMotion-Enhanced Textural-Aware ModeLingを提案する。 我々のキーとなる考え方は、拡散モデルにおける明示的な動き誘導によるテクスチャ認知を高めることである。 具体的には,中間ガイダンスとして2次元および3次元構造情報を慎重に構築する。 最近の拡散モデルでは、制御情報注入のためのサイドネットワークが採用されているが、人固有の微調整であっても、時間的に安定した結果の合成には失敗している。 本研究では、駆動信号と目標信号との結合性を高めるために、動き強化型テクスチュラルアライメントモジュールを提案する。 さらに,手形保存の難しさを解消するために,メモリベースのハンドリカバリモジュールを構築した。 プレトレーニング後,本モデルでは,30秒の個人データのみを用いて高忠実度2Dアバター再現を行うことができる。 大規模な実験により,提案フレームワークの有効性と優位性を実証した。 リソースはhttps://guanjz20.github.io/projects/TALK-Act.orgにある。

Recently, 2D speaking avatars have increasingly participated in everyday scenarios due to the fast development of facial animation techniques. However, most existing works neglect the explicit control of human bodies. In this paper, we propose to drive not only the faces but also the torso and gesture movements of a speaking figure. Inspired by recent advances in diffusion models, we propose the Motion-Enhanced Textural-Aware ModeLing for SpeaKing Avatar Reenactment (TALK-Act) framework, which enables high-fidelity avatar reenactment from only short footage of monocular video. Our key idea is to enhance the textural awareness with explicit motion guidance in diffusion modeling. Specifically, we carefully construct 2D and 3D structural information as intermediate guidance. While recent diffusion models adopt a side network for control information injection, they fail to synthesize temporally stable results even with person-specific fine-tuning. We propose a Motion-Enhanced Textural Alignment module to enhance the bond between driving and target signals. Moreover, we build a Memory-based Hand-Recovering module to help with the difficulties in hand-shape preserving. After pre-training, our model can achieve high-fidelity 2D avatar reenactment with only 30 seconds of person-specific data. Extensive experiments demonstrate the effectiveness and superiority of our proposed framework. Resources can be found at https://guanjz20.github.io/projects/TALK-Act.
翻訳日:2024-10-29 20:15:14 公開日:2024-10-14
# 非調整ランゲヴィンアルゴリズムと近距離サンプリングによる$$$-divergenceの高速収束

Fast Convergence of $Φ$-Divergence Along the Unadjusted Langevin Algorithm and Proximal Sampler ( http://arxiv.org/abs/2410.10699v1 )

ライセンス: Link先を確認
Siddharth Mitra, Andre Wibisono, (参考訳) 連続空間における2つの一般的な離散時間マルコフ連鎖の混合時間、調整されていないランゲヴィンアルゴリズムと、ランゲヴィン力学の離散化である近位サンプリング器について検討する。 これらのマルコフ連鎖に対する混合時間解析を$\Phi$-divergenceで保持するように拡張する。 二つの微分可能な厳密凸関数$\Phi$-divergence から生じる任意の$\Phi$-divergence がこれらのマルコフ連鎖に沿って指数関数的に$0$に収束することを示し、それらの定常分布が対応する$\Phi$-Sobolevの不等式を満たすことを仮定する。 我々の収束速度は厳密であり、特に一般的な混合時間体制、すなわちポアンカーの不等式の下でのカイ二乗発散の混合、対数ソボレフ不等式の下での相対エントロピーの混合を含む。 その結果, 適切なデータ処理の不等式に起因した収縮係数の有界化が得られた。

We study the mixing time of two popular discrete time Markov chains in continuous space, the unadjusted Langevin algorithm and the proximal sampler, which are discretizations of the Langevin dynamics. We extend mixing time analyses for these Markov chains to hold in $\Phi$-divergence. We show that any $\Phi$-divergence arising from a twice-differentiable strictly convex function $\Phi$ converges to $0$ exponentially fast along these Markov chains, under the assumption that their stationary distributions satisfies the corresponding $\Phi$-Sobolev inequality. Our rates of convergence are tight and include as special cases popular mixing time regimes, namely the mixing in chi-squared divergence under a Poincar\'e inequality, and the mixing in relative entropy under a log-Sobolev inequality. Our results follow by bounding the contraction coefficients arising in the appropriate strong data processing inequalities.
翻訳日:2024-10-29 20:15:14 公開日:2024-10-14
# 自走自走自走自走自走自走自走自走自走自走自走自走自走自走自走自走自走自走自走自走自走自走自走自走機

Derail Yourself: Multi-turn LLM Jailbreak Attack through Self-discovered Clues ( http://arxiv.org/abs/2410.10700v1 )

ライセンス: Link先を確認
Qibing Ren, Hao Li, Dongrui Liu, Zhanxu Xie, Xiaoya Lu, Yu Qiao, Lei Sha, Junchi Yan, Lizhuang Ma, Jing Shao, (参考訳) 本研究では,複数クエリにわたる有害な意図を悪用する多ターンインタラクションにおいて,LLM(Large Language Models)の安全性上の脆弱性を明らかにする。 本稿では,アクターネットワーク理論に触発された新しいマルチターン攻撃手法であるActorAttackを紹介した。 ActorAttack は,(1) アクターに関する無害な会話のトピックを作成することによって有害な意図を隠蔽すること,(2) LLM の知識を活用して,関係するアクターを様々な攻撃ヒントとして特定することによる,有害なターゲットへの多様な攻撃経路を明らかにすること,の2つの課題に対処する。 このように、ActorAttackは、GPT-o1であっても、高度に整列されたLCM間で、既存のシングルターンおよびマルチターンアタックメソッドよりも優れている。 我々は,ActorAttackが生成したマルチターン逆転プロンプトと安全アライメントデータを含むSafeMTDataというデータセットを公開する。 安全データセットを使用して安全性を調整したモデルは、マルチターン攻撃に対してより堅牢であることを示す。 コードはhttps://github.com/renqibing/ActorAttack.comで入手できる。

This study exposes the safety vulnerabilities of Large Language Models (LLMs) in multi-turn interactions, where malicious users can obscure harmful intents across several queries. We introduce ActorAttack, a novel multi-turn attack method inspired by actor-network theory, which models a network of semantically linked actors as attack clues to generate diverse and effective attack paths toward harmful targets. ActorAttack addresses two main challenges in multi-turn attacks: (1) concealing harmful intents by creating an innocuous conversation topic about the actor, and (2) uncovering diverse attack paths towards the same harmful target by leveraging LLMs' knowledge to specify the correlated actors as various attack clues. In this way, ActorAttack outperforms existing single-turn and multi-turn attack methods across advanced aligned LLMs, even for GPT-o1. We will publish a dataset called SafeMTData, which includes multi-turn adversarial prompts and safety alignment data, generated by ActorAttack. We demonstrate that models safety-tuned using our safety dataset are more robust to multi-turn attacks. Code is available at https://github.com/renqibing/ActorAttack.
翻訳日:2024-10-29 20:05:09 公開日:2024-10-14
# YOLOv8およびYOLOv11ディープラーニングモデルを用いた急性リンパ性白血病の早期診断

Early Diagnoses of Acute Lymphoblastic Leukemia Using YOLOv8 and YOLOv11 Deep Learning Models ( http://arxiv.org/abs/2410.10701v1 )

ライセンス: Link先を確認
Alaa Awad, Mohamed Hegazy, Salah A. Aly, (参考訳) 毎年数千人が白血病に罹患している。 本研究は, 急性リンパ性白血病(ALL)に対する画像処理および深層学習技術の応用について検討した。 人工知能技術が進歩するにつれて、現実世界のシナリオにおけるこれらの手法の信頼性が研究される。 この研究は、特に最新のYOLOシリーズモデルを用いて、悪性と良性白血球を区別し、早期を含むALLの異なるステージを特定するために、ALL検出の最近の発展に焦点を当てている。 さらに、これらのモデルは、しばしばALLと誤分類されるヘマトゴンを検出することができる。 YOLOv8やYOLOv11のような高度なディープラーニングモデルを利用することで、高い精度で98.8%に達し、これらのアルゴリズムが複数のデータセットやさまざまな実世界の状況で有効であることを実証した。

Thousands of individuals succumb annually to leukemia alone. This study explores the application of image processing and deep learning techniques for detecting Acute Lymphoblastic Leukemia (ALL), a severe form of blood cancer responsible for numerous annual fatalities. As artificial intelligence technologies advance, the research investigates the reliability of these methods in real-world scenarios. The study focuses on recent developments in ALL detection, particularly using the latest YOLO series models, to distinguish between malignant and benign white blood cells and to identify different stages of ALL, including early stages. Additionally, the models are capable of detecting hematogones, which are often misclassified as ALL. By utilizing advanced deep learning models like YOLOv8 and YOLOv11, the study achieves high accuracy rates reaching 98.8%, demonstrating the effectiveness of these algorithms across multiple datasets and various real-world situations.
翻訳日:2024-10-29 20:05:09 公開日:2024-10-14
# 有機結晶における高感度圧力と温度量子センシング

High sensitivity pressure and temperature quantum sensing in organic crystals ( http://arxiv.org/abs/2410.10705v1 )

ライセンス: Link先を確認
Harpreet Singh, Noella DSouza, Joseph Garrett, Angad Singh, Brian Blankenship, Emanuel Druga, Riccardo Montis, Liang Tan, Ashok Ajoy, (参考訳) 量子センサーの物理的環境に対する固有の感度は、温度、圧力、ひずみ、電場といったパラメータの優れたレポーターに役立てることができる。 本稿では,ペンタセンをドープしたパラテルフェニル結晶を用いた圧力(P)および温度(T)検出のための分子プラットフォームを提案する。 我々は、光励起三重項電子の光検出磁気共鳴(ODMR)を利用して、圧力や温度の変化による宿主パラテフェニルの格子変化の感度の高いプローブとして機能する。 ダイアモンド中の窒素空孔中心より1200倍以上3倍大きいdf/dP=1.8MHz/barとdf/dT=247kHz/Kの最大ODMR周波数変化を観測した。 その結果,前報よりも85倍の圧力感度が向上した。 より大きな変異は、パラテルフェニル格子の弱い性質を反映しており、第一原理のDFT計算は、P、Tの変化による分子軌道のピコメーターレベルのシフトでさえ測定可能であることを示している。 このプラットフォームには、高レベルのセンサードーピング、狭いODMRライン幅と高コントラスト、デプロイの容易さなどの利点があり、低コストで大きな単結晶の能力を利用することができる。 全体として、この研究は低コストで光学的に絶縁された圧力と温度センサーの道を切り開いており、デザイナー分子システムにおける合成チューナビリティによってさらに多用途なセンサーの基礎を築いている。

The inherent sensitivity of quantum sensors to their physical environment can make them good reporters of parameters such as temperature, pressure, strain, and electric fields. Here, we present a molecular platform for pressure (P) and temperature (T) sensing using para-terphenyl crystals doped with pentacene. We leverage the optically detected magnetic resonance (ODMR) of the photoexcited triplet electron in the pentacene molecule, that serves as a sensitive probe for lattice changes in the host para-terphenyl due to pressure or temperature variations. We observe maximal ODMR frequency variations of df/dP=1.8 MHz/bar and df/dT=247 kHz/K, which are over 1,200 times and three times greater, respectively, than those seen in nitrogen-vacancy centers in diamond. This results in a >85-fold improvement in pressure sensitivity over best previously reported. The larger variation reflects the weaker nature of the para-terphenyl lattice, with first-principles DFT calculations indicating that even picometer-level shifts in the molecular orbitals due to P, T changes are measurable. The platform offers additional advantages including high levels of sensor doping, narrow ODMR linewidths and high contrasts, and ease of deployment, leveraging the ability for large single crystals at low cost. Overall, this work paves the way for low-cost, optically-interrogated pressure and temperature sensors and lays the foundation for even more versatile sensors enabled by synthetic tunability in designer molecular systems.
翻訳日:2024-10-29 20:05:09 公開日:2024-10-14
# 厳密な探索

Exact Exploration ( http://arxiv.org/abs/2410.10706v1 )

ライセンス: Link先を確認
Andreas Blass, Nachum Dershowitz, Yuri Gurevich, (参考訳) 古典的アルゴリズムの最近の分析は、いくつかの単純な仮定を満たす遷移系として公理化され、抽象状態機械論(Abstract State Machine Theorem)の定式化によって、任意の古典的アルゴリズムが「抽象状態機械」と呼ばれる最も一般的な計算モデルによって段階的にエミュレートできることが保証された。 我々は、ステップ内動作の詳細を考慮に入れた分析を洗練し、実際には、与えられたアルゴリズムと同じ状態遷移を持つだけでなく、次の状態に進む方法を決定する際に、全く同じテストを実行する抽象状態マシンが存在することを示す。 この拡張により、部分的に定義された等式しか持たないアルゴリズムの抽象状態マシンフレームワーク内への包含や、計算可能実数の行列の逆転のように、他のネイティブ部分関数を用いることができる。

Recent analysis of classical algorithms resulted in their axiomatization as transition systems satisfying some simple postulates, and in the formulation of the Abstract State Machine Theorem, which assures us that any classical algorithm can be emulated step-by-step by a most general model of computation, called an ``abstract state machine''. We refine that analysis to take details of intra-step behavior into account, and show that there is in fact an abstract state machine that not only has the same state transitions as does a given algorithm but also performs the exact same tests on states when determining how to proceed to the next state. This enhancement allows the inclusion -- within the abstract-state-machine framework -- of algorithms whose states only have partially-defined equality, or employ other native partial functions, as is the case, for instance, with inversion of a matrix of computable reals.
翻訳日:2024-10-29 20:05:09 公開日:2024-10-14
# 透かし方式における構成可能性

Composability in Watermarking Schemes ( http://arxiv.org/abs/2410.10712v1 )

ライセンス: Link先を確認
Jiahui Liu, Mark Zhandry, (参考訳) ソフトウェア透かしは、マークをコード片に埋め込むことができ、マークを取り除こうとすると、コードは役に立たない。 現在、安全な透かし方式は、擬似乱数関数(PRF)の評価、署名メッセージの復号化、暗号文の復号化など、様々な暗号処理を扱うプログラムに限られているようである(後者は'traitor Trace'と呼ばれることが多い)。 さらに、これらの透かし方式にはそれぞれ独自のアドホックな構成がある。 しかし,大規模なプロトコルでは,多くの暗号オブジェクトがビルディングブロックとして使用されている。 より大きなプロトコルを得るためにビルディングブロックを組み立てられるように、ビルディングブロックのためのウォーターマーキングスキームを組み立てて、より大きなプロトコルのためのウォーターマーキングスキームを得ることができますか? 我々は、ウォーターマーキングスキームを構成するための一連の要件を正確に定式化することで、この問題に対して肯定的な回答を与える。 私たちの定式化は、多くのアプリケーションを引き出すのに役立ちます。

Software watermarking allows for embedding a mark into a piece of code, such that any attempt to remove the mark will render the code useless. Provably secure watermarking schemes currently seems limited to programs computing various cryptographic operations, such as evaluating pseudorandom functions (PRFs), signing messages, or decrypting ciphertexts (the latter often going by the name ``traitor tracing''). Moreover, each of these watermarking schemes has an ad-hoc construction of its own. We observe, however, that many cryptographic objects are used as building blocks in larger protocols. We ask: just as we can compose building blocks to obtain larger protocols, can we compose watermarking schemes for the building blocks to obtain watermarking schemes for the larger protocols? We give an affirmative answer to this question, by precisely formulating a set of requirements that allow for composing watermarking schemes. We use our formulation to derive a number of applications.
翻訳日:2024-10-29 20:05:09 公開日:2024-10-14
# 量子から得られるベネフィット : クラックセグメンテーションのためのQセグ、量子インスピレーション技術およびUネットの比較研究

Benefiting from Quantum? A Comparative Study of Q-Seg, Quantum-Inspired Techniques, and U-Net for Crack Segmentation ( http://arxiv.org/abs/2410.10713v1 )

ライセンス: Link先を確認
Akshaya Srinivasan, Alexander Geng, Antonio Macaluso, Maximilian Kiefer-Emmanouilidis, Ali Moghiseh, (参考訳) 古典的および現実世界のアプリケーションを強化するための量子ハードウェアの可能性を探ることは、現在進行中の課題である。 本研究は, クラックセグメンテーションの古典モデルと比較して, 量子および量子に着想を得た手法の性能を評価する。 コンクリート試料の注釈付きグレースケール画像パッチを用いて,古典平均ガウス混合法,量子インスパイアされたフェルミオン法,Q-Seg量子アニール法,U-Net深層学習アーキテクチャをベンチマークした。 以上の結果から,量子インスパイアされた量子法と量子法は,特に複雑なクラックパターンに対して,画像セグメンテーションに有望な代替手段を提供し,近未来の応用に応用できることが示唆された。

Exploring the potential of quantum hardware for enhancing classical and real-world applications is an ongoing challenge. This study evaluates the performance of quantum and quantum-inspired methods compared to classical models for crack segmentation. Using annotated gray-scale image patches of concrete samples, we benchmark a classical mean Gaussian mixture technique, a quantum-inspired fermion-based method, Q-Seg a quantum annealing-based method, and a U-Net deep learning architecture. Our results indicate that quantum-inspired and quantum methods offer a promising alternative for image segmentation, particularly for complex crack patterns, and could be applied in near-future applications.
翻訳日:2024-10-29 20:05:09 公開日:2024-10-14
# ニューラルプロジェクテッド量子ダイナミクス : 系統的研究

Neural Projected Quantum Dynamics: a systematic study ( http://arxiv.org/abs/2410.10720v1 )

ライセンス: Link先を確認
Luca Gravina, Vincenzo Savona, Filippo Vicentini, (参考訳) ニューラル量子状態を用いた大規模システムにおけるユニタリ量子力学のシミュレーションの課題に対処し、計算不安定性と既存手法の高コストを克服することに焦点を当てる。 この研究は、確率的不忠実性最小化とユニタリ進化の離散化という2つの必須成分を徹底的に分析することにより、予測時間依存変分モンテカルロ法(p-tVMC)の包括的な形式化を提供する。 自然勾配降下法を用いてニューラル不整合最小化を行い、最も安定な確率的推定法を同定し、動的に過度パラメータを手動で調整する必要をなくす適応正則化法を導入する。 我々は、p-tVMCが離散化スキームに課す特定の要求をより効率的にし、テイラー展開、Pad\'e近似、およびトロッター分割を組み合わせた高階積分スキームを導入し、精度とスケーラビリティを向上させる。 我々は2次元Isingクエンチに対して適応的手法をベンチマークし、ハイパーパラメータの手動チューニングなしで最先端技術に適合させる。 この研究は、p-tVMCを複雑な量子力学に対処するための非常に有望なフレームワークとして確立し、量子シミュレーションの境界を押し上げようとする研究者に魅力的な代替手段を提供する。

We address the challenge of simulating unitary quantum dynamics in large systems using Neural Quantum States, focusing on overcoming the computational instabilities and high cost of existing methods. This work offers a comprehensive formalization of the projected time-dependent Variational Monte Carlo (p-tVMC) method by thoroughly analyzing its two essential components: stochastic infidelity minimization and discretization of the unitary evolution. We investigate neural infidelity minimization using natural gradient descent strategies, identifying the most stable stochastic estimators and introducing adaptive regularization strategies that eliminate the need for manual adjustment of the hyperparameter along the dynamics. We formalize the specific requirements that p-tVMC imposes on discretization schemes for them to be efficient, and introduce four high-order integration schemes combining Taylor expansions, Pad\'e approximants, and Trotter splitting to enhance accuracy and scalability. We benchmark our adaptive methods against a 2D Ising quench, matching state of the art techniques without manual tuning of hyperparameters. This work establishes p-tVMC as a highly promising framework for addressing complex quantum dynamics, offering a compelling alternative for researchers looking to push the boundaries of quantum simulations.
翻訳日:2024-10-29 20:05:09 公開日:2024-10-14
# NLG評価における大規模言語モデルは積極的な批判である

Large Language Models Are Active Critics in NLG Evaluation ( http://arxiv.org/abs/2410.10724v1 )

ライセンス: Link先を確認
Shuying Xu, Junjie Hu, Ming Jiang, (参考訳) 自然言語生成(NLG)システムの評価に大規模言語モデル(LLM)を用いる従来のパラダイムは,(1)評価すべきNLGタスクの明確な定義と(2)事前定義された評価基準のリストという,2つの重要な入力に依存している。 このプロセスは、LLMを「受動的批評家」として扱うもので、人間による評価基準に厳格に従う。 しかし,新たなNLGタスクが出現すると,テキストの品質評価基準は大きく変化する。 その結果、これらの厳密な評価手法は、特定のタスクごとにカスタマイズされた広範なプロンプトエンジニアリングを伴わずに、多様なNLGタスクに適応するのに苦労する。 この制限に対処するため,我々は,LSMを「アクティブ批評家」として機能させる新しいLCG評価プロトコルであるActive-Criticを紹介した。 第1段階では、LSMは、対象のNLGタスクを推測し、データから関連する評価基準を確立するように指示される。 この自己推論情報に基づいて、第2段階は、LLMを人間と協調したスコアリング決定へ導くプロンプトを動的に最適化し、その評価を正当化するための詳細な説明を生成する。 4つのNLG評価課題にまたがる実験により,本手法は現状評価法よりも人的判断との整合性が高いことが示された。 包括的分析により,少量のラベル付きデータによるActive-Criticの有効性と説明性をさらに強調した。 コードとデータはGitHubで共有します。

The conventional paradigm of using large language models (LLMs) for evaluating natural language generation (NLG) systems typically relies on two key inputs: (1) a clear definition of the NLG task to be evaluated and (2) a list of pre-defined evaluation criteria. This process treats LLMs as ''passive critics,'' strictly following human-defined criteria for evaluation. However, as new NLG tasks emerge, the criteria for assessing text quality can vary greatly. Consequently, these rigid evaluation methods struggle to adapt to diverse NLG tasks without extensive prompt engineering customized for each specific task. To address this limitation, we introduce Active-Critic, a novel LLM-based NLG evaluation protocol that enables LLMs to function as ''active critics.'' Specifically, our protocol comprises two key stages. In the first stage, the LLM is instructed to infer the target NLG task and establish relevant evaluation criteria from the data. Building on this self-inferred information, the second stage dynamically optimizes the prompt to guide the LLM toward more human-aligned scoring decisions, while also generating detailed explanations to justify its evaluations. Experiments across four NLG evaluation tasks show that our approach achieves stronger alignment with human judgments than state-of-the-art evaluation methods. Our comprehensive analysis further highlights the effectiveness and explainability of Active-Critic with only a small amount of labeled data. We will share our code and data on GitHub.
翻訳日:2024-10-29 20:05:09 公開日:2024-10-14
# 画像登録における対策

A Counterexample in Image Registration ( http://arxiv.org/abs/2410.10725v1 )

ライセンス: Link先を確認
Serap A. Savari, (参考訳) 画像登録は、画像変換や画像類似性に関するモデルを適用して、同じシーンの離散的な画像をアライメントする一般的な問題である。 しかし、その精度に関する理論的限界は、一次元のデータであっても理解されていない。 ナイキストのサンプリング定理(英語版)がサンプルからの信号の完全再構成の条件を述べるのと同様に、追加の仮定がなければ理想的でノイズのないサンプルの集合からの量子関数の再現の質に制限がある。 本研究では、2つ以上のノイズレスサンプリングパターンから空間的に制限されたピースワイド定値信号を推定する。 主に誤差関数のエネルギーに着目し、関数の不連続点の位置の不確かさは信号の基準点として選択された不連続点に依存する。 その結果、信号の推定精度はその信号の基準点に依存する。

Image registration is a widespread problem which applies models about image transformation or image similarity to align discrete images of the same scene. Nevertheless, the theoretical limits on its accuracy are not understood even in the case of one-dimensional data. Just as Nyquist's sampling theorem states conditions for the perfect reconstruction of signals from samples, there are bounds to the quality of reproductions of quantized functions from sets of ideal, noiseless samples in the absence of additional assumptions. In this work we estimate spatially-limited piecewise constant signals from two or more sets of noiseless sampling patterns. We mainly focus on the energy of the error function and find that the uncertainties of the positions of the discontinuity points of the function depend on the discontinuity point selected as the reference point of the signal. As a consequence, the accuracy of the estimate of the signal depends on the reference point of that signal.
翻訳日:2024-10-29 20:05:09 公開日:2024-10-14
# 放物型光学格子におけるウェーブパケットダイナミックス:ブロッホ振動から長距離動的トンネルまで

Wave packet dynamics in parabolic optical lattices: From Bloch oscillations to long-range dynamical tunneling ( http://arxiv.org/abs/2410.10727v1 )

ライセンス: Link先を確認
Usman Ali, Martin Holthaus, Torsten Meier, (参考訳) 本稿では,光格子と大域パラボラトラップを組み合わせたパラボラ光学格子における波パケットのダイナミクスについて検討する。 本研究では, システム固有状態の位相空間表現を振り子の古典位相空間と比較し, システムを効果的にマッピングする。 この分析により、量子状態はセパラトリクスにまたがって混合力学を示すことが判明した。 鍵となる発見は、セパラトリクスの周りのダイナミクスが、振り子の古典的な振動力学や回転力学と区別して、非常に古典的な状態の制御を可能にすることである。 初期波動パケットの有限運動量を考慮することにより、様々な動的状態を示す。 さらに、ほぼ退化状態間のわずかなエネルギーミスマッチは、制御された長距離力学トンネルをもたらす。 これらの結果は、時計回りの回転と反時計回りの振り子の間の量子的ビーティングと解釈できる。

We investigate the dynamics of wave packets in a parabolic optical lattice formed by combining an optical lattice with a global parabolic trap. Our study examines the phase space representation of the systems eigenstates by comparing them to the classical phase space of a pendulum, to which the system effectively maps. The analysis reveals that quantum states can exhibit mixed dynamics by straddling the separatrix. A key finding is that the dynamics around the separatrix enables the controlled creation of highly non-classical states, distinguishing them from the classical oscillatory or rotational dynamics of the pendulum. By considering a finite momentum of the initial wave packet, we demonstrate various dynamical regimes. Furthermore, a slight energy mismatch between nearly-degenerate states results in controlled long-range dynamical tunneling. These results can be interpreted as quantum beating between a clockwise rotating and a counterclockwise rotating pendulum.
翻訳日:2024-10-29 19:55:21 公開日:2024-10-14
# LLM誘導型効率的かつ解釈可能なマルチ線形テンソルネットワークランク選択に向けて

Towards LLM-guided Efficient and Interpretable Multi-linear Tensor Network Rank Selection ( http://arxiv.org/abs/2410.10728v1 )

ライセンス: Link先を確認
Giorgos Iacovides, Wuyang Zhou, Danilo Mandic, (参考訳) 本稿では,大規模言語モデル(LLM)を活用してテンソルネットワークモデルにおけるランク選択を高次データ解析に導く新しいフレームワークを提案する。 LLMの本質的な推論能力とドメイン知識を利用することで、ランク選択の解釈可能性を高め、目的関数を効果的に最適化することができる。 このフレームワークにより、ドメインの専門知識のないユーザは、テンソルネットワークの分解を利用して、ランク選択プロセスの根底にある根拠を理解することができる。 実験により,提案手法を財務上の高次データセット上で検証し,解釈可能な推論,未確認テストデータへの強い一般化,連続反復による自己改善の可能性を示した。 この研究は、大規模言語モデルと高次データ分析の交差点に置かれている。

We propose a novel framework that leverages large language models (LLMs) to guide the rank selection in tensor network models for higher-order data analysis. By utilising the intrinsic reasoning capabilities and domain knowledge of LLMs, our approach offers enhanced interpretability of the rank choices and can effectively optimise the objective function. This framework enables users without specialised domain expertise to utilise tensor network decompositions and understand the underlying rationale within the rank selection process. Experimental results validate our method on financial higher-order datasets, demonstrating interpretable reasoning, strong generalisation to unseen test data, and its potential for self-enhancement over successive iterations. This work is placed at the intersection of large language models and higher-order data analysis.
翻訳日:2024-10-29 19:55:21 公開日:2024-10-14
# 分散誘電体物体と相互作用する量子エミッタ--Langevin雑音定式化に基づくモデル

Quantum emitter interacting with a dispersive dielectric object: a model based on the modified Langevin noise formalism ( http://arxiv.org/abs/2410.10730v1 )

ライセンス: Link先を確認
Giovanni Miano, Loris Maria Cangemi, Carlo Forestiere, (参考訳) 本稿では,Langevinノイズフォーマリズムを用いて,量子エミッタと有限サイズの分散誘電体物体との相互作用を,マクロな量子電磁力学の枠組み内での非有界空間における相互作用をモデル化する。 量子化された電磁場は、誘電体の雑音分極電流によって生じる電磁場を考慮に入れた中助電場と、遠心性からの電磁場を考慮に入れ、誘電体によって散乱する散乱助電場の2つの寄与からなる。 その結果,エミッタは中級補助浴と散乱補助浴の2つの異なるボソニック浴に結合しており,それぞれにスペクトル密度が特徴的であることがわかった。 これら2つの浴からなる電磁環境を1つのボゾン浴に効果的に置き換えることができる条件を特定し、量子エミッタの還元力学が変化し続けることを保証した。 特に、中・散乱支援浴の初期状態が同じ温度の熱状態である場合、中・散乱支援のスペクトル密度の和に等しいスペクトル密度の単一ボソニック浴が元の電磁環境と同値であることが判明した。

In this paper, we model the interaction of a quantum emitter with a finite-size dispersive dielectric object in an unbounded space within the framework of macroscopic quantum electrodynamics, using the modified Langevin noise formalism. The quantized electromagnetic field consists of two contributions: the medium-assisted field, which accounts for the electromagnetic field generated by the noise polarization currents of the dielectric, and the scattering-assisted field, which takes into account the electromagnetic field incoming from infinity and scattered by the dielectric. We show that the emitter couples to two distinct bosonic baths: a medium-assisted bath and a scattering-assisted bath, each characterized by its own spectral density. We identify the conditions under which the electromagnetic environment composed of these two baths can be effectively replaced by a single bosonic bath, ensuring that the reduced dynamics of the quantum emitter remain unchanged. In particular, when the initial states of the medium- and scattering-assisted baths are thermal states with the same temperature, we find that a single bosonic bath with a spectral density equal to the sum of the medium-assisted and scattering-assisted spectral densities is equivalent to the original electromagnetic environment.
翻訳日:2024-10-29 19:55:21 公開日:2024-10-14
# NISQデバイス上でのオープン量子システムの効率的なシミュレーション

Efficient Simulation of Open Quantum Systems on NISQ Devices ( http://arxiv.org/abs/2410.10732v1 )

ライセンス: Link先を確認
Colin Burdine, Nora Bauer, George Siopsis, Enrique P. Blair, (参考訳) 外部環境と相互作用するオープン量子システムのシミュレーションは、限られた量子ビット資源とノイズのためにノイズの多い中間スケール量子(NISQ)デバイスに重大な課題をもたらす。 本稿では,NISQハードウェア上でのオープン量子システムのシミュレーションに,システムのダイナミクスの時間摂動的Kraus演算子表現を活用することで,効率的なフレームワークを提案する。 提案手法は計算コストのかかるトロッタライズ法を回避し,特に特定の通勤関係を満たすシステムにおいて,コンパクトな時間発展を表すためにリンドブラッド・マスター方程式を利用する。 我々は、IonQ Harmony や Quantinuum H1-1 などの NISQ デバイス上で、連続時間パウリチャネルや減衰調和振動子などの量子チャネルをシミュレートして、本手法の有効性を実証した。 さらに、量子シミュレーションの忠実性を高めるために、Pauliチャネルフィッティングや量子脱分極チャネルインバージョンなど、ハードウェアに依存しないエラー軽減手法を導入する。 以上の結果から,NISQデバイス上でのオープン量子システムのスケーラブルかつ高精度なシミュレーションを行うKrausベースの手法の可能性を明らかにする。 このフレームワークは、近い将来、現実的な条件下でより複雑なシステムをシミュレートするための経路を開く。

Simulating open quantum systems, which interact with external environments, presents significant challenges on noisy intermediate-scale quantum (NISQ) devices due to limited qubit resources and noise. In this paper, we propose an efficient framework for simulating open quantum systems on NISQ hardware by leveraging a time-perturbative Kraus operator representation of the system's dynamics. Our approach avoids the computationally expensive Trotterization method and exploits the Lindblad master equation to represent time evolution in a compact form, particularly for systems satisfying specific commutation relations. We demonstrate the efficiency of our method by simulating quantum channels, such as the continuous-time Pauli channel and damped harmonic oscillators, on NISQ devices, including IonQ Harmony and Quantinuum H1-1. Additionally, we introduce hardware-agnostic error mitigation techniques, including Pauli channel fitting and quantum depolarizing channel inversion, to enhance the fidelity of quantum simulations. Our results show strong agreement between the simulations on real quantum hardware and exact solutions, highlighting the potential of Kraus-based methods for scalable and accurate simulation of open quantum systems on NISQ devices. This framework opens pathways for simulating more complex systems under realistic conditions in the near term.
翻訳日:2024-10-29 19:55:21 公開日:2024-10-14
# 高分解能拡散モデルのためのディープ圧縮オートエンコーダ

Deep Compression Autoencoder for Efficient High-Resolution Diffusion Models ( http://arxiv.org/abs/2410.10733v1 )

ライセンス: Link先を確認
Junyu Chen, Han Cai, Junsong Chen, Enze Xie, Shang Yang, Haotian Tang, Muyang Li, Yao Lu, Song Han, (参考訳) 本稿では,高分解能拡散モデルの高速化を目的とした,新しいオートエンコーダモデルであるDeep Compression Autoencoder (DC-AE)を提案する。 既存のオートエンコーダモデルは、中程度の空間圧縮比 (eg, 8x) で印象的な結果を示したが、高い空間圧縮比 (eg, 64x) に対して良好な再構成精度を維持することはできなかった。 本研究では,(1)空間圧縮型オートエンコーダの最適化の難しさを軽減するため,空間圧縮型オートエンコーダを用いた残差学習モデルの設計,(2)空間圧縮型オートエンコーダの一般化ペナルティを緩和する3段階学習戦略であるデカップリング型高分解能適応方式を提案する。 これらの設計により、再構成品質を維持しつつ、オートエンコーダの空間圧縮比を128まで改善する。 遅延拡散モデルへの直流-AEの適用により,精度低下のない大幅な高速化を実現した。 例えば、ImageNet 512x512では、私たちのDC-AEは、広く使用されているSD-VAE-f8オートエンコーダと比較して、UViT-H用のH100 GPU上で19.1倍の推論スピードアップと17.9倍のトレーニングスピードアップを提供します。 私たちのコードはhttps://github.com/mit-han-lab/efficientvit.comから入手可能です。

We present Deep Compression Autoencoder (DC-AE), a new family of autoencoder models for accelerating high-resolution diffusion models. Existing autoencoder models have demonstrated impressive results at a moderate spatial compression ratio (e.g., 8x), but fail to maintain satisfactory reconstruction accuracy for high spatial compression ratios (e.g., 64x). We address this challenge by introducing two key techniques: (1) Residual Autoencoding, where we design our models to learn residuals based on the space-to-channel transformed features to alleviate the optimization difficulty of high spatial-compression autoencoders; (2) Decoupled High-Resolution Adaptation, an efficient decoupled three-phases training strategy for mitigating the generalization penalty of high spatial-compression autoencoders. With these designs, we improve the autoencoder's spatial compression ratio up to 128 while maintaining the reconstruction quality. Applying our DC-AE to latent diffusion models, we achieve significant speedup without accuracy drop. For example, on ImageNet 512x512, our DC-AE provides 19.1x inference speedup and 17.9x training speedup on H100 GPU for UViT-H while achieving a better FID, compared with the widely used SD-VAE-f8 autoencoder. Our code is available at https://github.com/mit-han-lab/efficientvit.
翻訳日:2024-10-29 19:55:21 公開日:2024-10-14
# 拡張数学的推論のための大規模言語モデルにおける因果的能力としての自己補正の埋め込み

Embedding Self-Correction as an Inherent Ability in Large Language Models for Enhanced Mathematical Reasoning ( http://arxiv.org/abs/2410.10735v1 )

ライセンス: Link先を確認
Kuofeng Gao, Huanqia Cai, Qingyao Shuai, Dihong Gong, Zhifeng Li, (参考訳) LLM(Large Language Models)による正確な数学的推論は、そのような推論に大きく依存する領域の革命に不可欠である。 しかし、LSMは数学的推論の特定の側面において困難に遭遇し、誤った推論と誤った結果をもたらす。 これらの問題を緩和するために, 自己補正の連鎖 (CoSC) という新しいメカニズムを導入する。 CoSC機構は、一連の自己補正段階を通して機能する。 各段階で、LLMは与えられた問題に対処するプログラムを生成し、プログラムベースのツールを使用してこのプログラムを実行して出力を取得し、その後、その出力を検証する。 検証に基づいて、LSMは次の修正段階に進むか、答えを確定する。 この反復的な自己補正プロセスにより、LSMは推論ステップを洗練し、数学的推論の精度を向上させることができる。 低コストでCoSC機構を実現するために, 2相微調整方式を用いる。 第1段階では、LCMは、GPT-4から生成される比較的少量のシードデータで訓練され、初期CoSC能力が確立される。 第2フェーズでは、有償のGPT-4に頼ることなく、トレーニングされたモデルを用いて、より大量の自己生成データをトレーニングすることで、CoSC能力をさらに強化する。 包括的実験により,CoSC は既存のオープンソース LLM における従来の数学的データセットの性能を大幅に向上することが示された。 特に,我々の CoSC-Code-34B モデルは,ChatGPT や GPT-4,さらには GPT-4V, Gemini-1.0 Pro, Gemini-1.0 Ultra などのマルチモーダル LLM など,確立されたモデルの性能を上回り,公共領域における最も難しい数学的推論データセットである MATH で53.5% のスコアを達成した。

Accurate mathematical reasoning with Large Language Models (LLMs) is crucial in revolutionizing domains that heavily rely on such reasoning. However, LLMs often encounter difficulties in certain aspects of mathematical reasoning, leading to flawed reasoning and erroneous results. To mitigate these issues, we introduce a novel mechanism, the Chain of Self-Correction (CoSC), specifically designed to embed self-correction as an inherent ability in LLMs, enabling them to validate and rectify their own results. The CoSC mechanism operates through a sequence of self-correction stages. In each stage, the LLMs generate a program to address a given problem, execute this program using program-based tools to obtain an output, subsequently verify this output. Based on the verification, the LLMs either proceed to the next correction stage or finalize the answer. This iterative self-correction process allows the LLMs to refine their reasoning steps and improve the accuracy of their mathematical reasoning. To enable the CoSC mechanism at a low cost, we employ a two-phase finetuning approach. In the first phase, the LLMs are trained with a relatively small volume of seeding data generated from GPT-4, establishing an initial CoSC capability. In the second phase, the CoSC capability is further enhanced by training with a larger volume of self-generated data using the trained model in the first phase, without relying on the paid GPT-4. Our comprehensive experiments demonstrate that CoSC significantly improves performance on traditional mathematical datasets among existing open-source LLMs. Notably, our CoSC-Code-34B model achieved a 53.5% score on MATH, the most challenging mathematical reasoning dataset in the public domain, surpassing the performance of well-established models such as ChatGPT, GPT-4, and even multi-modal LLMs like GPT-4V, Gemini-1.0 Pro, and Gemini-1.0 Ultra.
翻訳日:2024-10-29 19:55:21 公開日:2024-10-14
# 逆ロバスト・リジェクション・オプション分類のための校正損失に向けて

Towards Calibrated Losses for Adversarial Robust Reject Option Classification ( http://arxiv.org/abs/2410.10736v1 )

ライセンス: Link先を確認
Vrund Shah, Tejas Chaudhari, Naresh Manwani, (参考訳) 対人攻撃に対するロバスト性は、自律運転や診断などのいくつかの応用において、分類器にとって重要な性質である。 また、このようなシナリオでは、誤分類のコストが非常に高く、いつ予測を控えるかを知ることが重要である。 自然な疑問は、どのサロゲートを使って、入力ポイントが逆向きに摂動し、分類器が予測を妨げうるシナリオでの学習を確実にすることができるかということです。 本稿では,"Adversarial Robust Reject Option"設定でキャリブレーションされたサロゲートのキャラクタリゼーションと設計を行う。 まず,線形分類器の仮説集合 (\mathcal{H}_{\textrm{lin}}$) に対して,正反対の頑健な拒絶オプション損失 $\ell_{d}^{\gamma}$ を提案し,解析する。 次に、任意のサロゲートが $(\ell_{d}^{\gamma},\mathcal{H}_{\textrm{lin}})$- となるような完全な特徴づけ結果を与える。 共役を$\ell_{d}^{\gamma}$に設計することの難しさを示すために、凸共役と準凸共役条件付きリスクケースの負の校正結果を示す(これらは拒否オプションのない対向的な設定で正の校正を行った)。 また、シフト二重ランプ損失(DRL)とシフト二重シグモノイド損失(DSL)が校正条件を満たすことを実証的に論じる。 最後に, 合成されたデータセット上での逆方向の摂動に対する移動DRLとシフトDSLの堅牢性を示す。

Robustness towards adversarial attacks is a vital property for classifiers in several applications such as autonomous driving, medical diagnosis, etc. Also, in such scenarios, where the cost of misclassification is very high, knowing when to abstain from prediction becomes crucial. A natural question is which surrogates can be used to ensure learning in scenarios where the input points are adversarially perturbed and the classifier can abstain from prediction? This paper aims to characterize and design surrogates calibrated in "Adversarial Robust Reject Option" setting. First, we propose an adversarial robust reject option loss $\ell_{d}^{\gamma}$ and analyze it for the hypothesis set of linear classifiers ($\mathcal{H}_{\textrm{lin}}$). Next, we provide a complete characterization result for any surrogate to be $(\ell_{d}^{\gamma},\mathcal{H}_{\textrm{lin}})$- calibrated. To demonstrate the difficulty in designing surrogates to $\ell_{d}^{\gamma}$, we show negative calibration results for convex surrogates and quasi-concave conditional risk cases (these gave positive calibration in adversarial setting without reject option). We also empirically argue that Shifted Double Ramp Loss (DRL) and Shifted Double Sigmoid Loss (DSL) satisfy the calibration conditions. Finally, we demonstrate the robustness of shifted DRL and shifted DSL against adversarial perturbations on a synthetically generated dataset.
翻訳日:2024-10-29 19:55:21 公開日:2024-10-14
# 時間変化サンプル平均Q-ラーニングのためのオンライン統計的推測

Online Statistical Inference for Time-varying Sample-averaged Q-learning ( http://arxiv.org/abs/2410.10737v1 )

ライセンス: Link先を確認
Saunak Kumar Panda, Ruiqi Liu, Yisha Xiang, (参考訳) 強化学習(Reinforcement Learning, RL)は、複雑で不確実な環境でエージェントを訓練するための重要なアプローチである。 RLアルゴリズムに統計的推論を組み込むことは、モデル性能の不確実性を理解し管理するために不可欠である。 本稿では,サンプル平均Q-ラーニングと呼ばれるバッチ平均Q-ラーニングアルゴリズムを提案する。 我々は、関数型中央極限定理(FCLT)を利用して、温和な条件下でのサンプル平均アルゴリズムの漸近正規性に関する洞察を提供する新しい枠組みを確立する。 さらに,余分なハイパーパラメータを必要としない信頼区間の構築が可能な区間推定のためのランダムなスケーリング手法を開発した。 古典的なOpenAI Gym環境下で行った数値実験により、サンプル平均Q-ラーニング法は単サンプルと定バッチQ-ラーニング法の両方を一貫して上回っており、同等の学習速度を維持しながら精度が向上していることが示された。

Reinforcement learning (RL) has emerged as a key approach for training agents in complex and uncertain environments. Incorporating statistical inference in RL algorithms is essential for understanding and managing uncertainty in model performance. This paper introduces a time-varying batch-averaged Q-learning algorithm, termed sampleaveraged Q-learning, which improves upon traditional single-sample Q-learning by aggregating samples of rewards and next states to better account for data variability and uncertainty. We leverage the functional central limit theorem (FCLT) to establish a novel framework that provides insights into the asymptotic normality of the sample-averaged algorithm under mild conditions. Additionally, we develop a random scaling method for interval estimation, enabling the construction of confidence intervals without requiring extra hyperparameters. Numerical experiments conducted on classic OpenAI Gym environments show that the time-varying sample-averaged Q-learning method consistently outperforms both single-sample and constant-batch Q-learning methods, achieving superior accuracy while maintaining comparable learning speeds.
翻訳日:2024-10-29 19:55:21 公開日:2024-10-14
# DrivingDojo Dataset: インタラクティブで知識に富んだドライビングワールドモデルの改善

DrivingDojo Dataset: Advancing Interactive and Knowledge-Enriched Driving World Model ( http://arxiv.org/abs/2410.10738v1 )

ライセンス: Link先を確認
Yuqi Wang, Ke Cheng, Jiawei He, Qitai Wang, Hengchen Dai, Yuntao Chen, Fei Xia, Zhaoxiang Zhang, (参考訳) 複雑な物理力学をモデル化する能力によって、ドライビングワールドモデルは注目を集めている。 しかしながら、現在の運転データセットにおけるビデオの多様性が制限されているため、それらのスーパーブモデリング機能は、まだ完全にはリリースされていない。 私たちは、複雑な駆動ダイナミクスを備えたインタラクティブな世界モデルのトレーニング用に作られた最初のデータセットであるDrivingDojoを紹介します。 当社のデータセットには、運転操作の完全なセット、多様なマルチエージェント・インタープレイ、豊富なオープンワールド・ドライビングの知識を備えたビデオクリップが備わっており、将来の世界モデル開発のための足場となっている。 さらに、世界モデルに対するアクション命令追従(AIF)ベンチマークを定義し、アクション制御された将来の予測を生成するために提案したデータセットの優位性を実証する。

Driving world models have gained increasing attention due to their ability to model complex physical dynamics. However, their superb modeling capability is yet to be fully unleashed due to the limited video diversity in current driving datasets. We introduce DrivingDojo, the first dataset tailor-made for training interactive world models with complex driving dynamics. Our dataset features video clips with a complete set of driving maneuvers, diverse multi-agent interplay, and rich open-world driving knowledge, laying a stepping stone for future world model development. We further define an action instruction following (AIF) benchmark for world models and demonstrate the superiority of the proposed dataset for generating action-controlled future predictions.
翻訳日:2024-10-29 19:55:21 公開日:2024-10-14
# 連続事前学習と指導ファインチューニングのバランス: LLMにおける指示追従の最適化

Balancing Continuous Pre-Training and Instruction Fine-Tuning: Optimizing Instruction-Following in LLMs ( http://arxiv.org/abs/2410.10739v1 )

ライセンス: Link先を確認
Ishan Jindal, Chandana Badrinath, Pranjal Bharti, Lakkidi Vinay, Sachin Dev Sharma, (参考訳) パブリック使用のための大規模言語モデル(LLM)は、最新のデータと最新の状態を維持するために、継続的な事前トレーニングを必要とする。 モデルは、正確に指示に従う能力を維持するために、特定の命令で微調整される必要がある。 通常、LLMは様々なデータに基づいて事前訓練されたベースLLMと、命令修正されたLLMの2つのバージョンでリリースされる。 問題は、どのモデルが命令追従能力を維持しつつ、最新のデータで現在の状態を保つために、継続事前トレーニングを行うべきかということだ。 本研究では,LLMの継続事前学習と命令微調整の複雑な関係を探索し,連続事前学習がベースモデルと命令微調整モデルの両方の命令追従能力に与える影響について検討する。 さらに、命令の微調整プロセスは計算的に強力であり、モデルが効果的に学習するためには、かなりの数の手書きの例を必要とする。 本研究では、命令データや微調整を必要とせず、最新の知識と命令追従能力を得るための最も計算効率の良い戦略を見つけることを目的とする。 LLaMa 3, 3.1およびQwen 2, 2.5ファミリのベースおよびインストラクションモデルで得られた知見を実証的に証明し、事前学習データコーパスと異なるLLM設定のさまざまなサイズにわたる仮説を包括的に探索する。

Large Language Models (LLMs) for public use require continuous pre-training to remain up-to-date with the latest data. The models also need to be fine-tuned with specific instructions to maintain their ability to follow instructions accurately. Typically, LLMs are released in two versions: the Base LLM, pre-trained on diverse data, and the instruction-refined LLM, additionally trained with specific instructions for better instruction following. The question arises as to which model should undergo continuous pre-training to maintain its instruction-following abilities while also staying current with the latest data. In this study, we delve into the intricate relationship between continuous pre-training and instruction fine-tuning of the LLMs and investigate the impact of continuous pre-training on the instruction following abilities of both the base and its instruction finetuned model. Further, the instruction fine-tuning process is computationally intense and requires a substantial number of hand-annotated examples for the model to learn effectively. This study aims to find the most compute-efficient strategy to gain up-to-date knowledge and instruction-following capabilities without requiring any instruction data and fine-tuning. We empirically prove our findings on the LLaMa 3, 3.1 and Qwen 2, 2.5 family of base and instruction models, providing a comprehensive exploration of our hypotheses across varying sizes of pre-training data corpus and different LLMs settings.
翻訳日:2024-10-29 19:55:21 公開日:2024-10-14
# NT-LLM:大規模言語モデルにグラフ構造を統合する新しいノードトケナイザ

NT-LLM: A Novel Node Tokenizer for Integrating Graph Structure into Large Language Models ( http://arxiv.org/abs/2410.10743v1 )

ライセンス: Link先を確認
Yanbiao Ji, Chang Liu, Xin Chen, Yue Ding, Dan Luo, Mei Li, Wenqing Lin, Hongtao Lu, (参考訳) グラフは、現実世界のシナリオにおける関係を表現するための基本的なデータ構造である。 様々な自然言語処理(NLP)タスクにわたるLarge Language Models(LLM)の成功により、グラフ学習のためのLLMの統合への関心が高まっている。 しかし、LLMをグラフ関連タスクに適用することは、これらのモデルが本質的にグラフに存在する複雑な構造情報をキャプチャするために設計されていないため、大きな課題となる。 既存のアプローチでは、グラフニューラルネットワーク(GNN)を使用してグラフ構造を符号化し、LLMが空間的位置の理解から解放されるようなタスクのチェーンと、LLMが処理できるセマンティックテキスト表現にグラフ構造を変換するグラフからテキストへの変換という2つの戦略によってこの問題に対処している。 これらの手法は、その進歩にもかかわらず、しばしばグラフのトポロジ的情報を完全に保存したり、広範な計算資源を必要とし、実用性を制限するのに苦労する。 本研究では,キーノードをアンカーとして選択し,そのアンカーとの相対距離に基づいて各ノードを表現することにより,グラフ構造を効率的に符号化する新しいフレームワークであるNode Tokenizer for Large Language Models (NT-LLM)を紹介する。 この位置アンコール符号化はグラフトポロジを効果的にキャプチャし、グラフデータ上のLLMの推論能力を向上する。 さらに,LLM内の構造的理解をさらに向上するために,タスク固有のチューニング手順を実装した。 広範な経験的評価を通じて、NT-LLMは、様々なグラフ関連タスクにおいて、大幅なパフォーマンス向上を示す。

Graphs are a fundamental data structure for representing relationships in real-world scenarios. With the success of Large Language Models (LLMs) across various natural language processing (NLP) tasks, there has been growing interest in integrating LLMs for graph learning. However, applying LLMs to graph-related tasks poses significant challenges, as these models are not inherently designed to capture the complex structural information present in graphs. Existing approaches address this challenge through two strategies: the chain of tasks approach, which uses Graph Neural Networks (GNNs) to encode the graph structure so that LLMs are relieved from understanding spatial positions; and Graph-to-Text Conversion, which translates graph structures into semantic text representations that LLMs can process. Despite their progress, these methods often struggle to fully preserve the topological information of graphs or require extensive computational resources, limiting their practical applicability. In this work, we introduce Node Tokenizer for Large Language Models (NT-LLM), a novel framework that efficiently encodes graph structures by selecting key nodes as anchors and representing each node based on its relative distance to these anchors. This position-anchored encoding effectively captures the graph topology, enabling enhanced reasoning capabilities in LLMs over graph data. Additionally, we implement a task-specific tuning procedure to further improve structural understanding within LLMs. Through extensive empirical evaluations, NT-LLM demonstrates significant performance improvements across a variety of graph-related tasks.
翻訳日:2024-10-29 19:55:21 公開日:2024-10-14
# Lyapunov-Stabilized Embeddings を用いた逆ロバストアウトオブディストリビューション検出

Adversarially Robust Out-of-Distribution Detection Using Lyapunov-Stabilized Embeddings ( http://arxiv.org/abs/2410.10744v1 )

ライセンス: Link先を確認
Hossein Mirzaei, Mackenzie W. Mathis, (参考訳) アウト・オブ・ディストリビューション(OOD)検出の大幅な進歩にもかかわらず、既存の手法は敵の攻撃に対する堅牢性を維持するのに苦慮し、重要な現実世界のアプリケーションにおいて彼らの信頼性を損なう。 従来の研究は、敵の訓練と共に補助的なOODデータセットに検出器を露出させることで、この問題に対処しようと試みてきた。 しかし、データ複雑性の増大は、敵のトレーニングに固有のものであり、OODサンプルがテスト中に起こりうる無数の方法によって、堅牢な意思決定境界が確立されることを防いでいることが多い。 これらの制約に対処するため、我々は、線形常微分方程式(NODE)とリアプノフ安定定理を併用した新しいアプローチであるAROSを提案し、OOD検出のためのロバストな埋め込みを得る。 調整された損失関数を組み込むことにより、リアプノフ安定性理論を適用し、分散内(ID)データとOODデータの両方が力学系内の安定平衡点に収束することを保証する。 このアプローチは任意の摂動入力を安定平衡に戻すことを奨励し、それによってモデルの対向摂動に対する堅牢性を高める。 追加データを使用しないために,IDデータ特徴空間の低次領域をサンプリングし,OODデータが居住する可能性のある境界を近似することにより,偽のOOD埋め込みを生成する。 さらに頑健性を高めるために,IDとOODの平衡点の分離を最大化する,安定な特徴空間に沿った直交二層法を提案する。 提案手法は,いくつかのベンチマークで広範な実験を行い,特に敵攻撃下での優れた性能を示す。 特に,CIFAR-100では37.8%から80.1%に,CIFAR-100では29.0%から67.0%に改善した。

Despite significant advancements in out-of-distribution (OOD) detection, existing methods still struggle to maintain robustness against adversarial attacks, compromising their reliability in critical real-world applications. Previous studies have attempted to address this challenge by exposing detectors to auxiliary OOD datasets alongside adversarial training. However, the increased data complexity inherent in adversarial training, and the myriad of ways that OOD samples can arise during testing, often prevent these approaches from establishing robust decision boundaries. To address these limitations, we propose AROS, a novel approach leveraging neural ordinary differential equations (NODEs) with Lyapunov stability theorem in order to obtain robust embeddings for OOD detection. By incorporating a tailored loss function, we apply Lyapunov stability theory to ensure that both in-distribution (ID) and OOD data converge to stable equilibrium points within the dynamical system. This approach encourages any perturbed input to return to its stable equilibrium, thereby enhancing the model's robustness against adversarial perturbations. To not use additional data, we generate fake OOD embeddings by sampling from low-likelihood regions of the ID data feature space, approximating the boundaries where OOD data are likely to reside. To then further enhance robustness, we propose the use of an orthogonal binary layer following the stable feature space, which maximizes the separation between the equilibrium points of ID and OOD samples. We validate our method through extensive experiments across several benchmarks, demonstrating superior performance, particularly under adversarial attacks. Notably, our approach improves robust detection performance from 37.8% to 80.1% on CIFAR-10 vs. CIFAR-100 and from 29.0% to 67.0% on CIFAR-100 vs. CIFAR-10.
翻訳日:2024-10-29 19:55:21 公開日:2024-10-14
# FlexGen: テキストと画像入力からフレキシブルなマルチビュー生成

FlexGen: Flexible Multi-View Generation from Text and Image Inputs ( http://arxiv.org/abs/2410.10745v1 )

ライセンス: Link先を確認
Xinli Xu, Wenhang Ge, Jiantao Lin, Jiawei Feng, Lie Xu, HanFeng Zhao, Shunsi Zhang, Ying-Cong Chen, (参考訳) この作業でFlexGenを紹介します。これは、コントロール可能で一貫したマルチビュー画像を生成するように設計されたフレキシブルなフレームワークで、単一のビューイメージやテキストプロンプトに条件付けされています。 FlexGenは、3D対応のテキストアノテーションの条件付けを通じて、コントロール可能なマルチビュー合成の課題に取り組む。 我々は、GPT-4Vの強い推論能力を利用して、3D対応のテキストアノテーションを生成する。 タイル付き多視点画像として配置されたオブジェクトの4つの直交ビューを解析することにより、GPT-4Vは空間的関係を持つ3D認識情報を含むテキストアノテーションを生成することができる。 制御信号と適応的な二重制御モジュールを組み合わせることで、本モデルは指定されたテキストに対応する多視点画像を生成することができる。 FlexGenは複数のコントロール可能な機能をサポートしており、ユーザーはテキストプロンプトを変更して、合理的で対応する見えない部分を生成することができる。 さらに、ユーザは金属や粗さなど、外観や材料特性などの特性に影響を与えることができる。 広汎な実験により,本手法は,既存の多視点拡散モデルに対する顕著な進歩を示すとともに,多重制御性の向上を図っている。 この研究は、ゲーム開発、アニメーション、バーチャルリアリティーを含む、迅速で柔軟な3Dコンテンツ作成を必要とする分野に重大な影響を及ぼす。 プロジェクトページ: https://xxu068.github.io/flexgen.github.io/

In this work, we introduce FlexGen, a flexible framework designed to generate controllable and consistent multi-view images, conditioned on a single-view image, or a text prompt, or both. FlexGen tackles the challenges of controllable multi-view synthesis through additional conditioning on 3D-aware text annotations. We utilize the strong reasoning capabilities of GPT-4V to generate 3D-aware text annotations. By analyzing four orthogonal views of an object arranged as tiled multi-view images, GPT-4V can produce text annotations that include 3D-aware information with spatial relationship. By integrating the control signal with proposed adaptive dual-control module, our model can generate multi-view images that correspond to the specified text. FlexGen supports multiple controllable capabilities, allowing users to modify text prompts to generate reasonable and corresponding unseen parts. Additionally, users can influence attributes such as appearance and material properties, including metallic and roughness. Extensive experiments demonstrate that our approach offers enhanced multiple controllability, marking a significant advancement over existing multi-view diffusion models. This work has substantial implications for fields requiring rapid and flexible 3D content creation, including game development, animation, and virtual reality. Project page: https://xxu068.github.io/flexgen.github.io/.
翻訳日:2024-10-29 19:55:21 公開日:2024-10-14
# 半導体デバイスにおける量子強調電場マッピング

Quantum enhanced electric field mapping within semiconductor devices ( http://arxiv.org/abs/2410.10750v1 )

ライセンス: Link先を確認
D. Scheller, F. Hrunski, J. H. Schwarberg, W. Knolle, Ö. O. Soykal, P. Udvarhelyi, P. Narang, H. B. Weber, M. Hollendonner, R. Nagy, (参考訳) 炭化ケイ素(SiC)をベースとした半導体部品は、高出力エレクトロニクスの鍵となるコンポーネントである。 それらの振舞いは電荷と電場との相互作用によって決定され、典型的には非局所的な電気特性によって校正されるモデリングとシミュレーションによって説明される。 今のところ、電子装置内の電界と自由電荷キャリアの濃度の両方を3次元マッピングできる実験方法はない。 この情報ギャップを実現するために,4H-SiCの単一シリコン空孔(VSi)センターを利用するオペランド手法を提案する。 VSiセンターはピンダイオードの内在領域の様々な位置にある。 局所的な静電場を監視するため,光発光励起(PLE)に基づくスタークシフト測定を行い,劣化領域の膨張を推定し,従ってドーパントの局所濃度を決定する。 さらに, 自由電荷担体の局所濃度を測定した結果, 局所濃度を測定できることが示唆された。 そこで本研究では,移動電荷と電場との相互作用をナノメートル精度でマッピング可能な,新しい量子強化電子デバイス技術の道を開いた。

Semiconductor components based on silicon carbide (SiC) are a key component for high-power electronics. Their behavior is determined by the interplay of charges and electric fields, which is typically described by modeling and simulations that are calibrated by nonlocal electric properties. So far, there are no experimental methods that allow for the 3D mapping of both the electric field and the concentrations of free charge carriers inside an electronic device. To fulfill this information gap, we propose an operando method that utilizes single silicon vacancy (VSi) centers in 4H-SiC. The VSi centers are at various positions in the intrinsic region of a pin-diode. To monitor the local static electric field, we perform Stark shift measurements based on photoluminescence excitation (PLE), which allows us to infer the expansion of the depletion zone and therefore to determine the local concentration of dopants. Besides this, we show that our measurements allow us to additionally obtain the local concentration of free charge carriers. The method presented here therefore paves the way for a new quantum-enhanced electronic device technology, capable of mapping the interplay of mobile charges and electric fields in a working semiconductor device with nanometer precision.
翻訳日:2024-10-29 19:44:46 公開日:2024-10-14
# DragEntity: エンティティと位置関係を用いた軌道案内映像生成

DragEntity: Trajectory Guided Video Generation using Entity and Positional Relationships ( http://arxiv.org/abs/2410.10751v1 )

ライセンス: Link先を確認
Zhang Wan, Sheng Tang, Jiawei Wei, Ruize Zhang, Juan Cao, (参考訳) 近年,映像生成の分野では拡散モデルが非常に成功し,制御可能な映像生成が注目されている。 しかし,既存の制御手法には2つの制限がある: まず,通常のユーザが直接入手することが困難である制御条件(深度マップ,3Dメッシュなど)。 第二に、複数の軌道を持つ複雑な動きを通して複数の物体を同時に駆動することは困難である。 本稿では,複数のオブジェクトの動作を制御するためにエンティティ表現を利用するビデオ生成モデルであるDragEntityを紹介する。 以前の方法と比較して、DragEntityには2つの大きな利点がある。 1)本手法は,個々のピクセルではなく,画像内のエンティティをドラッグできるので,インタラクションに使いやすくなっている。 2)画像内の任意のオブジェクトを表現するためにエンティティ表現を使用し,複数のオブジェクトが相対的な空間関係を維持することができる。 したがって,画像内の複数のオブジェクトを,異なるレベルの複雑さで同時に制御することが可能となる。 本実験はDragEntityの有効性を検証し,ビデオ生成における微粒化制御の優れた性能を示す。

In recent years, diffusion models have achieved tremendous success in the field of video generation, with controllable video generation receiving significant attention. However, existing control methods still face two limitations: Firstly, control conditions (such as depth maps, 3D Mesh) are difficult for ordinary users to obtain directly. Secondly, it's challenging to drive multiple objects through complex motions with multiple trajectories simultaneously. In this paper, we introduce DragEntity, a video generation model that utilizes entity representation for controlling the motion of multiple objects. Compared to previous methods, DragEntity offers two main advantages: 1) Our method is more user-friendly for interaction because it allows users to drag entities within the image rather than individual pixels. 2) We use entity representation to represent any object in the image, and multiple objects can maintain relative spatial relationships. Therefore, we allow multiple trajectories to control multiple objects in the image with different levels of complexity simultaneously. Our experiments validate the effectiveness of DragEntity, demonstrating its excellent performance in fine-grained control in video generation.
翻訳日:2024-10-29 19:44:46 公開日:2024-10-14
# 現在におけるランダム選択の活用: LLMによるテキストの分類用拡張におけるFew-Shot選択方略の検討

Use Random Selection for Now: Investigation of Few-Shot Selection Strategies in LLM-based Text Augmentation for Classification ( http://arxiv.org/abs/2410.10756v1 )

ライセンス: Link先を確認
Jan Cegin, Branislav Pecher, Jakub Simko, Ivan Srba, Maria Bielikova, Peter Brusilovsky, (参考訳) 生成型大規模言語モデル(LLM)は、テキストサンプルをパラフレーズ化(あるいは新たに生成された)し、次に分類器の微調整に使用されるデータ拡張タスクにますます使用される。 既存の拡張作業では,プロンプトの一部としてLLMにサンプルを付与する,いくつかのシナリオが活用されている。 しかし、サンプルはほとんどランダムに選択され、他の(より「インフォームド」な)サンプル選択戦略の効果の包括的概要が欠落している。 本研究は,少人数の学習文献に存在するサンプル選択戦略を比較し,LLMに基づくテキスト拡張におけるそれらの効果について検討する。 分布内および分布外分類器の性能について評価する。 結果から,「インフォームド」の選択戦略によってモデルの性能が向上する一方で,特にアウト・オブ・ディストリビューションデータでは,ごくまれにのみ発生し,限界性能が増大することが明らかとなった。 さらなる進歩が得られない限り、ランダムなサンプル選択のデフォルトは、拡張実践者にとって良い選択肢である。

The generative large language models (LLMs) are increasingly used for data augmentation tasks, where text samples are paraphrased (or generated anew) and then used for classifier fine-tuning. Existing works on augmentation leverage the few-shot scenarios, where samples are given to LLMs as part of prompts, leading to better augmentations. Yet, the samples are mostly selected randomly and a comprehensive overview of the effects of other (more ``informed'') sample selection strategies is lacking. In this work, we compare sample selection strategies existing in few-shot learning literature and investigate their effects in LLM-based textual augmentation. We evaluate this on in-distribution and out-of-distribution classifier performance. Results indicate, that while some ``informed'' selection strategies increase the performance of models, especially for out-of-distribution data, it happens only seldom and with marginal performance increases. Unless further advances are made, a default of random sample selection remains a good option for augmentation practitioners.
翻訳日:2024-10-29 19:44:46 公開日:2024-10-14
# 相関行列に基づくグラフニューラルネットワークを用いた不整脈分類

Arrhythmia Classification Using Graph Neural Networks Based on Correlation Matrix ( http://arxiv.org/abs/2410.10758v1 )

ライセンス: Link先を確認
Seungwoo Han, (参考訳) グラフニューラルネットワークの進歩に伴い、このネットワークをECG信号解析に適用することへの関心が高まっている。 本研究では,抽出された特徴の相関行列を用いて隣接行列を生成し,不整脈の分類にグラフニューラルネットワークを適用した。 提案手法は文献からの既存手法と比較した。 その結果,不整脈分類の精度は50%以上であり,不整脈分類のアプローチである可能性が示唆された。

With the advancements in graph neural network, there has been increasing interest in applying this network to ECG signal analysis. In this study, we generated an adjacency matrix using correlation matrix of extracted features and applied a graph neural network to classify arrhythmias. The proposed model was compared with existing approaches from the literature. The results demonstrated that precision and recall for all arrhythmia classes exceeded 50%, suggesting that this method can be considered an approach for arrhythmia classification.
翻訳日:2024-10-29 19:44:46 公開日:2024-10-14
# 大規模言語モデルに対するサービス停止攻撃

Denial-of-Service Poisoning Attacks against Large Language Models ( http://arxiv.org/abs/2410.10760v1 )

ライセンス: Link先を確認
Kuofeng Gao, Tianyu Pang, Chao Du, Yong Yang, Shu-Tao Xia, Min Lin, (参考訳) 近年の研究では、LDMはDoS(DoS)攻撃に弱いことが示されており、スペルエラーや非セマンティックプロンプトのような敵対的な入力が[EOS]トークンを発生させることなく無限のアウトプットをトリガーする。 これらの攻撃によってレイテンシが高くなり、LLMサービスが他のユーザやタスクにアクセス不能になる可能性がある。 しかし,音声から音声へのインタフェース(例えばロボットへの音声コマンド)が存在する場合には,音声によるスペルエラーや非意味的なプロンプトの導入が難しいため,このようなDoS攻撃の実行が困難になる。 これらのシナリオでは、単純なDoS攻撃はモデルに"Keep repeating Hello"を指示するが、自然命令のみに依存すると出力長が制限され、LLMの教師付き微調整(SFT)データの最大長が制限される。 この限界を克服するため,本研究では, LLM に対する毒素ベースの DoS (P-DoS) 攻撃を提案し, DoS 用に設計された単一毒素試料を注入することで, 出力長制限を破ることができることを示した。 例えば、有毒試料は1ドル未満でGPT-4oとGPT-4o miniを攻撃できる(OpenAIの微調整API経由で)。 さらに、オープンソースLLMの総合的アブレーション研究を行い、その手法をLLMエージェントに拡張し、攻撃者が微調整データセットとアルゴリズムの両方を制御できるようにする。 LLMの安全性を確保するため,P-DoS攻撃に対する緊急の防御の必要性が示唆された。 私たちのコードはhttps://github.com/sail-sg/P-DoS.comで利用可能です。

Recent studies have shown that LLMs are vulnerable to denial-of-service (DoS) attacks, where adversarial inputs like spelling errors or non-semantic prompts trigger endless outputs without generating an [EOS] token. These attacks can potentially cause high latency and make LLM services inaccessible to other users or tasks. However, when there are speech-to-text interfaces (e.g., voice commands to a robot), executing such DoS attacks becomes challenging, as it is difficult to introduce spelling errors or non-semantic prompts through speech. A simple DoS attack in these scenarios would be to instruct the model to "Keep repeating Hello", but we observe that relying solely on natural instructions limits output length, which is bounded by the maximum length of the LLM's supervised finetuning (SFT) data. To overcome this limitation, we propose poisoning-based DoS (P-DoS) attacks for LLMs, demonstrating that injecting a single poisoned sample designed for DoS purposes can break the output length limit. For example, a poisoned sample can successfully attack GPT-4o and GPT-4o mini (via OpenAI's finetuning API) using less than $1, causing repeated outputs up to the maximum inference length (16K tokens, compared to 0.5K before poisoning). Additionally, we perform comprehensive ablation studies on open-source LLMs and extend our method to LLM agents, where attackers can control both the finetuning dataset and algorithm. Our findings underscore the urgent need for defenses against P-DoS attacks to secure LLMs. Our code is available at https://github.com/sail-sg/P-DoS.
翻訳日:2024-10-29 19:44:46 公開日:2024-10-14
# AFlow: エージェントワークフロー生成を自動化する

AFlow: Automating Agentic Workflow Generation ( http://arxiv.org/abs/2410.10762v1 )

ライセンス: Link先を確認
Jiayi Zhang, Jinyu Xiang, Zhaoyang Yu, Fengwei Teng, Xionghui Chen, Jiaqi Chen, Mingchen Zhuge, Xin Cheng, Sirui Hong, Jinlin Wang, Bingnan Zheng, Bang Liu, Yuyu Luo, Chenglin Wu, (参考訳) 大規模言語モデル(LLM)は、様々な領域にわたる複雑なタスクの解決において、典型的には詳細な命令と操作シーケンスに従うエージェントワークフローを使用することで、顕著な可能性を証明している。 しかしながら、これらのワークフローを構築するには、スケーラビリティと一般化性を制限する、多大な人的努力が必要である。 最近の研究はこれらのワークフローの生成と最適化を自動化しようとしたが、既存の手法はまだ手作業によるセットアップに依存しており、完全な自動化と効果的なワークフロー生成を実現するには至っていない。 この課題に対処するため、LLM呼び出しノードをエッジで接続するコード表現ワークフロー上での探索問題としてワークフロー最適化を再構成する。 我々は、Monte Carlo Tree Searchを使ってこの空間を効率的に探索する自動化フレームワークであるAFlowを紹介します。 6つのベンチマークデータセットに対する実証的な評価は、AFlowの有効性を示し、最先端のベースラインよりも平均5.7%向上している。 さらに、AFlowはより小さなモデルで、推論コストの4.55%のコストで、特定のタスクでGPT-4oを上回ります。 コードはhttps://github.com/geekan/MetaGPTで入手できる。

Large language models (LLMs) have demonstrated remarkable potential in solving complex tasks across diverse domains, typically by employing agentic workflows that follow detailed instructions and operational sequences. However, constructing these workflows requires significant human effort, limiting scalability and generalizability. Recent research has sought to automate the generation and optimization of these workflows, but existing methods still rely on initial manual setup and fall short of achieving fully automated and effective workflow generation. To address this challenge, we reformulate workflow optimization as a search problem over code-represented workflows, where LLM-invoking nodes are connected by edges. We introduce AFlow, an automated framework that efficiently explores this space using Monte Carlo Tree Search, iteratively refining workflows through code modification, tree-structured experience, and execution feedback. Empirical evaluations across six benchmark datasets demonstrate AFlow's efficacy, yielding a 5.7% average improvement over state-of-the-art baselines. Furthermore, AFlow enables smaller models to outperform GPT-4o on specific tasks at 4.55% of its inference cost in dollars. The code will be available at https://github.com/geekan/MetaGPT.
翻訳日:2024-10-29 19:44:46 公開日:2024-10-14
# 障害のない超真空ボソニックネットワークにおけるコンパクトおよびアンダーソン様局在状態の実現法

How to realize compact and Anderson-like localized states in disorder-free hypercube bosonic networks ( http://arxiv.org/abs/2410.10763v1 )

ライセンス: Link先を確認
Ievgen I. Arkhipov, Fabrizio Minganti, Franco Nori, (参考訳) 障害のないハイパーキューブグラフ上で、様々なゼロエネルギー局所化状態を設計する手法を提案する。 それまでの研究では、障害は非相互作用系における局所化現象の観測に必須ではないことが示されており、例えば1D Aubry-Andr\'eモデルでは、非共振ポテンシャルを特徴とする1D Aubry-Andr\'eモデルや、平らなバンドスペクトルによる局所化を示す2D incommensurate Moir\'e格子を特徴とするいくつかの顕著な例がある。 さらに、翻訳不変性を持つ平らなバンド系は、格子の有限領域の外のまさにゼロ振幅によって特徴づけられる、いわゆるコンパクトな局在状態を持つこともできる。 ここでは、コンパクトかつ非コンパクトな(すなわちアンダーソン様の)局在状態が、カルタン生成物を介して標準的反復的に構築できる障害のないハイパーキューブ上で観察可能であることを示す。 この構造により、これらの局所状態は摂動に対して堅牢である。 ペトリ多角形に投影された8ドルのハイパーキューブの例を例に、その結果を説明し、視覚化する。 本研究は,光共振器と導波路を結合したボソニックネットワークを用いて,ハイパーキューブグラフをエミュレートし,様々な情報や波動操作プロトコルの開発において潜在的に進展する可能性がある,既存のフォトニック実験装置で容易に検証することができる。

We present a method to engineer various zero-energy localized states on disorder-free hypercube graphs. Previous works have already indicated that disorder is not essential for observing localization phenomena in noninteracting systems, with some prominent examples including the 1D Aubry-Andr\'e model, characterized solely by incommensurate potentials, or 2D incommensurate Moir\'e lattices, which exhibit localization due to the flat band spectrum. Moreover, flat band systems with translational invariance can also possess so-called compact localized states, characterized by exactly zero amplitude outside a finite region of the lattice. Here we show that both compact and non-compact (i.e., Anderson-like) localized states can be observed on disorder-free hypercubes that can be constructed in a standard iterative manner via Cartan products. This construction also makes these localized states robust against perturbations. We illustrate and visualize our results on the example of an $8$D hypercube projected on its Petrie polygon. Our findings can be readily tested on existing photonic experimental setups, where hypercube graphs studied can be emulated by bosonic networks of coupled optical cavities and/or waveguides, thus offering potential advancements in the development of various information and wave manipulation protocols.
翻訳日:2024-10-29 19:44:46 公開日:2024-10-14
# 自律的不均一測地ナビゲーションのための適応拡散測地発電機

Adaptive Diffusion Terrain Generator for Autonomous Uneven Terrain Navigation ( http://arxiv.org/abs/2410.10766v1 )

ライセンス: Link先を確認
Youwei Yu, Junhong Xu, Lantao Liu, (参考訳) モデルレス強化学習は、複雑で非構造的な地形をナビゲートできる堅牢なロボット制御ポリシーを開発するための強力な方法として登場した。 これらの手法の有効性は,(1)政策訓練の迅速化のための大規模並列物理シミュレーションの利用,(2)継続的な政策改善を促進するために十分な困難で達成可能な地形を製作する環境ジェネレータの2つの重要な要素に依存している。 既存の環境生成の方法は、しばしばパラメータの集合によって制約されたヒューリスティックに依存し、多様性とリアリズムを制限する。 本研究では,適応拡散地雷発生器(adaptive Diffusion Terrain Generator,ADTG)について紹介する。これはデノイング拡散確率モデルを利用して,現在の方針に適応したより多様な複雑な地形を追加することで,既存のトレーニング環境を動的に拡張する新しい手法である。 ADTGは、初期ノイズ最適化を通じて拡散モデルの生成過程をガイドし、各環境における政策の性能によって重み付けられた既存の訓練環境からの騒音崩壊地形をブレンドする。 ADTGは騒音の劣化レベルを操作することで、政策微調整のための同様の地形を生成することと、トレーニングの多様性を拡大する新しい地形をシームレスに遷移させる。 ADTGにより訓練されたポリシーは、一般的なナビゲーション手法とともに、プロシージャ生成環境と自然環境の両方を上回ります。

Model-free reinforcement learning has emerged as a powerful method for developing robust robot control policies capable of navigating through complex and unstructured terrains. The effectiveness of these methods hinges on two essential elements: (1) the use of massively parallel physics simulations to expedite policy training, and (2) an environment generator tasked with crafting sufficiently challenging yet attainable terrains to facilitate continuous policy improvement. Existing methods of environment generation often rely on heuristics constrained by a set of parameters, limiting the diversity and realism. In this work, we introduce the Adaptive Diffusion Terrain Generator (ADTG), a novel method that leverages Denoising Diffusion Probabilistic Models to dynamically expand existing training environments by adding more diverse and complex terrains adaptive to the current policy. ADTG guides the diffusion model's generation process through initial noise optimization, blending noise-corrupted terrains from existing training environments weighted by the policy's performance in each corresponding environment. By manipulating the noise corruption level, ADTG seamlessly transitions between generating similar terrains for policy fine-tuning and novel ones to expand training diversity. Our experiments show that the policy trained by ADTG outperforms both procedural generated and natural environments, along with popular navigation methods.
翻訳日:2024-10-29 19:44:46 公開日:2024-10-14
# 精製距離における古典量子チャネルシミュレーションの指数

Exponents for classical-quantum channel simulation in purified distance ( http://arxiv.org/abs/2410.10770v1 )

ライセンス: Link先を確認
Aadil Oufkir, Yongsheng Yao, Mario Berta, (参考訳) 我々は, 絡み合い支援型古典量子チャネルシミュレーションにおいて, 正確な誤差と強い逆指数を, 最悪の場合の純化距離で決定する。 エラー指数は、古典量子チャネル符号化のエラー指数と対照的に、特に臨界レートを必要とせず、サンドイッチしたR\'enyiの発散数$\alpha \in [1, \infty)$に最適化されたシングルレター式として表される。 強い逆指数は、次数$\alpha\in [\frac{1}{2},1]$のサンドイッチされたR'enyi発散に最適化されたシングルレター式として表される。 古典的な作品(Oufkir et al , arXiv:2410.07051]と同様に、我々は関連する体制におけるチャネルシミュレーションのためのメタコンバースを漸近的に拡張するという目標から始める。 しかし、古典的量子チャネルと絡み合いの支援から生じる非可換性問題に対処するために、量子忠実性、追加補助チャネル技術、チェビシェフ不等式による近似、エントロピー連続性境界の様々な性質を批判的に用いている。

We determine the exact error and strong converse exponent for entanglement-assisted classical-quantum channel simulation in worst case input purified distance. The error exponent is expressed as a single-letter formula optimized over sandwiched R\'enyi divergences of order $\alpha \in [1, \infty)$, notably without the need for a critical rate--a sharp contrast to the error exponent for classical-quantum channel coding. The strong converse exponent is expressed as a single-letter formula optimized over sandwiched R\'enyi divergences of order $\alpha\in [\frac{1}{2},1]$. As in the classical work [Oufkir et al., arXiv:2410.07051], we start with the goal of asymptotically expanding the meta-converse for channel simulation in the relevant regimes. However, to deal with non-commutativity issues arising from classical-quantum channels and entanglement-assistance, we critically use various properties of the quantum fidelity, additional auxiliary channel techniques, approximations via Chebyshev inequalities, and entropic continuity bounds.
翻訳日:2024-10-29 19:44:46 公開日:2024-10-14
# 空間条件付きJEPAの強化:ロバストで効率的な表現学習

Enhancing JEPAs with Spatial Conditioning: Robust and Efficient Representation Learning ( http://arxiv.org/abs/2410.10773v1 )

ライセンス: Link先を確認
Etai Littwin, Vimal Thilak, Anand Gopalakrishnan, (参考訳) Image-based Joint-Embedding Predictive Architecture (IJEPA)は、Masked Image Modelingフレームワークを使用した表現学習のためのMasked Autoencoder(MAE)の魅力的な代替手段を提供する。 IJEPAは表現を駆動し、入力空間ではなく潜在領域で予測することで有用な意味情報をキャプチャする。 しかし、IJEPAは表現的崩壊を避けるために、慎重に設計されたコンテキストとターゲットウィンドウに依存している。 IJEPAのエンコーダモジュールは、コンテキストとターゲットの両方の十分な情報が与えられていないため、マスク付き予測タスクの実現可能性に基づいて予測および/またはターゲット特徴のタイプを適応的に調整することはできない。 自然画像では、情報は空間的偏見が強く、空間的局所的な領域は、遠方の領域に比べて高い予測力を持つ。 IJEPAでは,ターゲットエンコーダとコンテキストエンコーダモジュールをそれぞれ,コンテキスト位置とターゲットウィンドウの位置で条件付けする。 我々の"条件付き"エンコーダは、いくつかの画像分類ベンチマークデータセットのパフォーマンス向上、コンテキストウィンドウサイズへの堅牢性の改善、事前トレーニング時のサンプル効率を示す。

Image-based Joint-Embedding Predictive Architecture (IJEPA) offers an attractive alternative to Masked Autoencoder (MAE) for representation learning using the Masked Image Modeling framework. IJEPA drives representations to capture useful semantic information by predicting in latent rather than input space. However, IJEPA relies on carefully designed context and target windows to avoid representational collapse. The encoder modules in IJEPA cannot adaptively modulate the type of predicted and/or target features based on the feasibility of the masked prediction task as they are not given sufficient information of both context and targets. Based on the intuition that in natural images, information has a strong spatial bias with spatially local regions being highly predictive of one another compared to distant ones. We condition the target encoder and context encoder modules in IJEPA with positions of context and target windows respectively. Our "conditional" encoders show performance gains on several image classification benchmark datasets, improved robustness to context window size and sample-efficiency during pretraining.
翻訳日:2024-10-29 19:44:46 公開日:2024-10-14
# Cavia:ビュー・インテグレート・アテンションによるカメラ制御型多視点ビデオ拡散

Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention ( http://arxiv.org/abs/2410.10774v1 )

ライセンス: Link先を確認
Dejia Xu, Yifan Jiang, Chen Huang, Liangchen Song, Thorsten Gernoth, Liangliang Cao, Zhangyang Wang, Hao Tang, (参考訳) 近年、画像からビデオへの生成が目覚ましい進歩を遂げている。 しかし、生成されたフレームの3D一貫性とカメラ制御性は未解決のままである。 近年の研究では、カメラ制御を生成プロセスに組み込むことが試みられているが、その結果は単純な軌跡に限られる場合や、同じシーンで複数の異なるカメラパスから一貫したビデオを生成する能力に欠ける場合が多い。 これらの制約に対処するため、カメラ制御可能なマルチビュービデオ生成のための新しいフレームワークであるCaviaを導入し、入力画像を複数の時空間的に一貫したビデオに変換する。 我々のフレームワークは、空間的および時間的注意モジュールをビュー統合された注意モジュールに拡張し、視点と時間的整合性の両方を改善した。 このフレキシブルなデザインは、シーンレベルの静的ビデオ、オブジェクトレベルの合成マルチビューダイナミックビデオ、現実世界のモノクロダイナミックビデオなど、さまざまなキュレートされたデータソースとのジョイントトレーニングを可能にする。 われわれの知る限りでは、Caviaはカメラの動きを正確に指定し、オブジェクトの動きを取得できる最初のシステムだ。 大規模な実験により、カビアは幾何学的一貫性と知覚的品質の点で最先端の手法を超越していることが示された。 Project Page: https://ir1d.github.io/Cavia/

In recent years there have been remarkable breakthroughs in image-to-video generation. However, the 3D consistency and camera controllability of generated frames have remained unsolved. Recent studies have attempted to incorporate camera control into the generation process, but their results are often limited to simple trajectories or lack the ability to generate consistent videos from multiple distinct camera paths for the same scene. To address these limitations, we introduce Cavia, a novel framework for camera-controllable, multi-view video generation, capable of converting an input image into multiple spatiotemporally consistent videos. Our framework extends the spatial and temporal attention modules into view-integrated attention modules, improving both viewpoint and temporal consistency. This flexible design allows for joint training with diverse curated data sources, including scene-level static videos, object-level synthetic multi-view dynamic videos, and real-world monocular dynamic videos. To our best knowledge, Cavia is the first of its kind that allows the user to precisely specify camera motion while obtaining object motion. Extensive experiments demonstrate that Cavia surpasses state-of-the-art methods in terms of geometric consistency and perceptual quality. Project Page: https://ir1d.github.io/Cavia/
翻訳日:2024-10-29 19:44:46 公開日:2024-10-14
# サードパーティ製クッキーのないブラウザ:何が見えるか?

Browsing without Third-Party Cookies: What Do You See? ( http://arxiv.org/abs/2410.10775v1 )

ライセンス: Link先を確認
Maxwell Lin, Shihan Lin, Helen Wu, Karen Wang, Xiaowei Yang, (参考訳) サードパーティのWebクッキーは、プライバシーを侵害する行動追跡によく使用される。 プライバシー上の懸念もあって、ブラウザベンダーは近年、サードパーティ製のクッキーをすべてブロックし始めている。 サードパーティのクッキーレスブラウジングの効果を理解するために、私たちはTrancoのトップ1万のウェブサイトをクロールして測定しました。 我々は,サードパーティ製クッキーを削除し,これらのクッキーを使用せずにWebページの外観の違いを分析するためのフレームワークを開発した。 サードパーティ製のクッキーを無効にすることは、レイアウトやテキスト、画像など、ウェブサイトの外観に大きな影響を与えない。 これにより、ユーザエクスペリエンスを損なうことなく、ユーザのプライバシを保護する手段として、業界全体のクッキーレスブラウジングへのシフトを検証することができる。

Third-party web cookies are often used for privacy-invasive behavior tracking. Partly due to privacy concerns, browser vendors have started to block all third-party cookies in recent years. To understand the effects of such third-party cookieless browsing, we crawled and measured the top 10,000 Tranco websites. We developed a framework to remove third-party cookies and analyze the differences between the appearance of web pages with and without these cookies. We find that disabling third-party cookies has no substantial effect on website appearance including layouts, text, and images. This validates the industry-wide shift towards cookieless browsing as a way to protect user privacy without compromising on the user experience.
翻訳日:2024-10-29 19:44:46 公開日:2024-10-14
# UniMatch V2: 半スーパービジョンセマンティックセグメンテーションの限界を押し上げる

UniMatch V2: Pushing the Limit of Semi-Supervised Semantic Segmentation ( http://arxiv.org/abs/2410.10777v1 )

ライセンス: Link先を確認
Lihe Yang, Zhen Zhao, Hengshuang Zhao, (参考訳) 半教師付きセマンティックセグメンテーション(SSS)は、安価な未ラベル画像から豊富な視覚知識を学習し、セマンティックセグメンテーション能力を高めることを目的としている。 最近の研究の中で、UniMatchは、弱い一貫性の規則化の実践を増幅することによって、その先例を大幅に改善している。 その後の作品は一般的に同様のパイプラインを踏襲し、様々な繊細な設計を提案する。 達成された進歩にもかかわらず、奇妙なことに、多くの強力なビジョンモデルが栄えたこの時代にも、ほとんど全てのSSS作品が今も続いている。 1) 小型ImageNet-1K事前学習による時代遅れResNetエンコーダの使用 2)単純なPascalおよびCityscapesデータセットの評価 本研究では,SSS のベースラインを ResNet ベースのエンコーダから,より有能な ViT ベースのエンコーダ (例えば DINOv2) に切り替える必要があることを論じる。 エンコーダの簡単なアップデート(2倍のパラメータを使用しても)は、注意深いメソッド設計よりも大幅に改善される可能性がある。 この競合するベースライン上に構築されたUniMatch V2は、V1から弱い一貫性という中核的な精神を継承するが、トレーニングコストの削減と、一貫してより良い結果を提供する。 さらに、PascalやCityscapesで徐々に飽和しているパフォーマンスを見て、ADE20KやCOCOデータセットのような複雑な分類学でより難しいベンチマークに注力すべきだとアピールします。 すべての報告された値のコード、モデル、ログはhttps://github.com/LiheYoung/UniMatch-V2.comで入手できる。

Semi-supervised semantic segmentation (SSS) aims at learning rich visual knowledge from cheap unlabeled images to enhance semantic segmentation capability. Among recent works, UniMatch improves its precedents tremendously by amplifying the practice of weak-to-strong consistency regularization. Subsequent works typically follow similar pipelines and propose various delicate designs. Despite the achieved progress, strangely, even in this flourishing era of numerous powerful vision models, almost all SSS works are still sticking to 1) using outdated ResNet encoders with small-scale ImageNet-1K pre-training, and 2) evaluation on simple Pascal and Cityscapes datasets. In this work, we argue that, it is necessary to switch the baseline of SSS from ResNet-based encoders to more capable ViT-based encoders (e.g., DINOv2) that are pre-trained on massive data. A simple update on the encoder (even using 2x fewer parameters) can bring more significant improvement than careful method designs. Built on this competitive baseline, we present our upgraded and simplified UniMatch V2, inheriting the core spirit of weak-to-strong consistency from V1, but requiring less training cost and providing consistently better results. Additionally, witnessing the gradually saturated performance on Pascal and Cityscapes, we appeal that we should focus on more challenging benchmarks with complex taxonomy, such as ADE20K and COCO datasets. Code, models, and logs of all reported values, are available at https://github.com/LiheYoung/UniMatch-V2.
翻訳日:2024-10-29 19:44:46 公開日:2024-10-14
# Focused ReAct: ReiterateとEarly StopによるReActの改善

Focused ReAct: Improving ReAct through Reiterate and Early Stop ( http://arxiv.org/abs/2410.10779v1 )

ライセンス: Link先を確認
Shuoqiu Li, Han Xu, Haipeng Chen, (参考訳) 大規模言語モデル(LLM)は、ReActのようなメソッドで見られるように、推論と意思決定能力を大幅に改善した。 しかし、複雑なタスクに対処する効果があるにもかかわらず、ReActは2つの大きな課題に直面している。 これらの問題に対処するために,再試行と早期停止機構を組み込んだReActパラダイムの拡張版であるFocused ReActを紹介した。 これらの改善により、モデルは元のクエリに集中し、反復的な振る舞いを避けることができる。 実験の結果,元のReAct法と比較して18%から530%の精度向上と34%のランタイム削減が得られた。

Large language models (LLMs) have significantly improved their reasoning and decision-making capabilities, as seen in methods like ReAct. However, despite its effectiveness in tackling complex tasks, ReAct faces two main challenges: losing focus on the original question and becoming stuck in action loops. To address these issues, we introduce Focused ReAct, an enhanced version of the ReAct paradigm that incorporates reiteration and early stop mechanisms. These improvements help the model stay focused on the original query and avoid repetitive behaviors. Experimental results show accuracy gains of 18% to 530% and a runtime reduction of up to 34% compared to the original ReAct method.
翻訳日:2024-10-29 19:34:54 公開日:2024-10-14
# 制御MM:制御可能なマスク運動生成

ControlMM: Controllable Masked Motion Generation ( http://arxiv.org/abs/2410.10780v1 )

ライセンス: Link先を確認
Ekkasit Pinyoanuntapong, Muhammad Usama Saleem, Korrawe Karunratanakul, Pu Wang, Hongfei Xue, Chen Chen, Chuan Guo, Junli Cao, Jian Ren, Sergey Tulyakov, (参考訳) 近年の移動拡散モデルにより、空間的に制御可能なテキスト・ツー・モーション生成が可能になった。 しかし、制御精度が許容できるにもかかわらず、これらのモデルは生成速度と忠実度制限に悩まされる。 これらの課題に対処するために,空間制御信号を生成マスク運動モデルに組み込む新しい手法であるControlMMを提案する。 ControlMMは、リアルタイム、高忠実、高精度な制御可能なモーション生成を同時に達成する。 このアプローチには2つの重要なイノベーションがあります。 まず,入力制御信号と抽出制御信号との整合性を最小化しつつ,ランダムマスキングと再構成による高忠実な動作生成を実現するマスク整合性モデリングを提案する。 制御精度をさらに高めるために、予測された条件運動分布を操作する推論時ロジット編集を導入し、調整された分布からサンプリングされた生成された動きが入力制御信号に密着するようにした。 推論中、ControlMMは複数のモーショントークンの並列かつ反復的な復号化を可能にし、高速なモーション生成を可能にする。 広汎な実験により、制御MMは最先端技術と比較して、より優れたFIDスコア(0.061 vs 0.271)と高い制御精度(平均誤差0.0091 vs 0.0108)で、運動品質の優れた結果をもたらすことが示された。 ControlMMは拡散法よりも20倍速く動きを生成する。 さらに、ControlMMは、どんな関節でもフレームコントロール、ボディ部分のタイムライン制御、障害物回避などの多様なアプリケーションをアンロックする。 ビデオの可視化はhttps://exitudio.github.io/ControlMM-pageで見ることができる。

Recent advances in motion diffusion models have enabled spatially controllable text-to-motion generation. However, despite achieving acceptable control precision, these models suffer from generation speed and fidelity limitations. To address these challenges, we propose ControlMM, a novel approach incorporating spatial control signals into the generative masked motion model. ControlMM achieves real-time, high-fidelity, and high-precision controllable motion generation simultaneously. Our approach introduces two key innovations. First, we propose masked consistency modeling, which ensures high-fidelity motion generation via random masking and reconstruction, while minimizing the inconsistency between the input control signals and the extracted control signals from the generated motion. To further enhance control precision, we introduce inference-time logit editing, which manipulates the predicted conditional motion distribution so that the generated motion, sampled from the adjusted distribution, closely adheres to the input control signals. During inference, ControlMM enables parallel and iterative decoding of multiple motion tokens, allowing for high-speed motion generation. Extensive experiments show that, compared to the state of the art, ControlMM delivers superior results in motion quality, with better FID scores (0.061 vs 0.271), and higher control precision (average error 0.0091 vs 0.0108). ControlMM generates motions 20 times faster than diffusion-based methods. Additionally, ControlMM unlocks diverse applications such as any joint any frame control, body part timeline control, and obstacle avoidance. Video visualization can be found at https://exitudio.github.io/ControlMM-page
翻訳日:2024-10-29 19:34:54 公開日:2024-10-14
# 言語モデルにおける注意シンクの創出 : 実証的視点

When Attention Sink Emerges in Language Models: An Empirical View ( http://arxiv.org/abs/2410.10781v1 )

ライセンス: Link先を確認
Xiangming Gu, Tianyu Pang, Chao Du, Qian Liu, Fengzhuo Zhang, Cunxiao Du, Ye Wang, Min Lin, (参考訳) 言語モデル(LM)は、たとえ意味的に重要でないとしても、最初のトークンに注意を向ける。 この現象は、ストリーミング/ロングコンテキスト生成、KVキャッシュ最適化、推論アクセラレーション、モデル量子化などのアプリケーションで広く採用されている。 広く使われているにもかかわらず、LMの注意シンクの深い理解はいまだに不足している。 本研究ではまず,小型モデルにおいても様々な入力を持つLMにおいて,注目シンクが普遍的に存在することを示す。 さらに、LM事前学習中に注目シンクが出現し、LM事前学習における最適化、データ分散、損失関数、モデルアーキテクチャがその出現にどのように影響するかを調べる動機となる。 十分なトレーニングデータに対して効果的な最適化を行った後、注意シンクが出現することを強調する。 シンク位置は損失関数とデータ分布と強く相関している。 最も重要なことは、注意シンクが鍵バイアスのように振る舞うことであり、付加的な注意スコアを格納することであり、これは非形式的であり、価値計算に寄与しない可能性がある。 また、この現象は(少なくとも部分的には)トークンの注意点への内的依存がソフトマックス正規化の結果に起因することも観察した。 ソフトマックスアテンションを正規化せずにシグモイドアテンションなどの他のアテンション操作に置き換えることで、そのような依存を緩和した後、アテンションシンクは最大1BパラメータまでLMに現れない。 コードはhttps://github.com/sail-sg/Attention-Sink.comで公開されている。

Language Models (LMs) assign significant attention to the first token, even if it is not semantically important, which is known as attention sink. This phenomenon has been widely adopted in applications such as streaming/long context generation, KV cache optimization, inference acceleration, model quantization, and others. Despite its widespread use, a deep understanding of attention sink in LMs is still lacking. In this work, we first demonstrate that attention sinks exist universally in LMs with various inputs, even in small models. Furthermore, attention sink is observed to emerge during the LM pre-training, motivating us to investigate how optimization, data distribution, loss function, and model architecture in LM pre-training influence its emergence. We highlight that attention sink emerges after effective optimization on sufficient training data. The sink position is highly correlated with the loss function and data distribution. Most importantly, we find that attention sink acts more like key biases, storing extra attention scores, which could be non-informative and not contribute to the value computation. We also observe that this phenomenon (at least partially) stems from tokens' inner dependence on attention scores as a result of softmax normalization. After relaxing such dependence by replacing softmax attention with other attention operations, such as sigmoid attention without normalization, attention sinks do not emerge in LMs up to 1B parameters. The code is available at https://github.com/sail-sg/Attention-Sink.
翻訳日:2024-10-29 19:34:54 公開日:2024-10-14
# 3DArticCyclists:Human-Object Interaction(HOI)と自律運転用シミュレーション3Dサイクルの生成

3DArticCyclists: Generating Simulated Dynamic 3D Cyclists for Human-Object Interaction (HOI) and Autonomous Driving Applications ( http://arxiv.org/abs/2410.10782v1 )

ライセンス: Link先を確認
Eduardo R. Corral-Soto, Yang Liu, Tongtong Cao, Yuan Ren, Liu Bingbing, (参考訳) 人-物体間相互作用(HOI)と人-シーン間相互作用(HSI)は、身体人工知能(EAI)、ロボット工学、拡張現実(AR)における人間中心のシーン理解アプリケーションに不可欠である。 これらの研究領域で直面する一般的な制限は、入力画像上にラベル付けされた人間とシーンのオブジェクトペアが不十分で、相互作用の複雑さと粒度が制限されている、というデータ不足の問題である。 近年のHOI法とHSI法は、剛体物体との動的相互作用を生成することでこの問題に対処している。 しかし、人間のライダーが自転車をペダルで踏むような複雑な動的相互作用は、まだ解明されていない。 本稿では,この制限に対処し,複雑な動的人-人-人-物間相互作用の研究を可能にするために,シミュレーションされた3次元動的サイクリストの資産と相互作用を生成する方法を提案する。 我々は3DArticBikesと呼ばれ,NeRFと3DGSをベースとした3次元再構築手法の訓練に使用できる,新しいパートベース多視点合成3D自転車データセットを作成するための方法論を考案した。 次に,8-DoFのポーズ制御可能な3D自転車を組み立てるための3DGSに基づくパラメトリック自転車合成モデルを提案する。 最後に、サイクリストビデオからの動的情報を用いて、選択可能な合成3D人物を再配置し、提案した3Dキーポイント最適化ベースの逆キネマティクスを用いて、ライダーを新しい3D自転車の1つに自動的に配置することで、完全な合成3Dサイクリスト(自転車をペダリングするライダー)を構築する。 近年の安定拡散法と比べ, 定性的, 定量的な結果が得られた。

Human-object interaction (HOI) and human-scene interaction (HSI) are crucial for human-centric scene understanding applications in Embodied Artificial Intelligence (EAI), robotics, and augmented reality (AR). A common limitation faced in these research areas is the data scarcity problem: insufficient labeled human-scene object pairs on the input images, and limited interaction complexity and granularity between them. Recent HOI and HSI methods have addressed this issue by generating dynamic interactions with rigid objects. But more complex dynamic interactions such as a human rider pedaling an articulated bicycle have been unexplored. To address this limitation, and to enable research on complex dynamic human-articulated object interactions, in this paper we propose a method to generate simulated 3D dynamic cyclist assets and interactions. We designed a methodology for creating a new part-based multi-view articulated synthetic 3D bicycle dataset that we call 3DArticBikes that can be used to train NeRF and 3DGS-based 3D reconstruction methods. We then propose a 3DGS-based parametric bicycle composition model to assemble 8-DoF pose-controllable 3D bicycles. Finally, using dynamic information from cyclist videos, we build a complete synthetic dynamic 3D cyclist (rider pedaling a bicycle) by re-posing a selectable synthetic 3D person while automatically placing the rider onto one of our new articulated 3D bicycles using a proposed 3D Keypoint optimization-based Inverse Kinematics pose refinement. We present both, qualitative and quantitative results where we compare our generated cyclists against those from a recent stable diffusion-based method.
翻訳日:2024-10-29 19:34:54 公開日:2024-10-14
# 予測不確かさの情報理論について

On Information-Theoretic Measures of Predictive Uncertainty ( http://arxiv.org/abs/2410.10786v1 )

ライセンス: Link先を確認
Kajetan Schweighofer, Lukas Aichberger, Mykyta Ielanskyi, Sepp Hochreiter, (参考訳) 予測の不確実性の信頼性の高い推定は、マシンラーニングアプリケーション、特にリスクに対するヘッジが不可欠である高度なシナリオにおいて不可欠である。 その重要性にも拘わらず、予測の不確実性の正しい測定に関するコンセンサスはいまだに解明されていない。 本研究は、情報理論予測の不確実性尺度の基本的な枠組みを開発するための第一原理に回帰する。 提案手法は, 予測の不確かさを, (I) 予測モデル (II) 真の予測分布の近似の2つの要因により分類する。 これら2つの要因の組合せを全て検討し、既知のものと新しく導入されたものの両方を含む予測の不確実性対策のセットを導出する。 本研究では, 誤分類検出, 選択的予測, アウト・オブ・ディストリビューション検出など, 典型的な不確実性推定設定において, これらの指標を実証的に評価する。 結果は、単一の測度は普遍的ではないが、有効性は特定の設定に依存することを示している。 したがって,本研究は,その暗黙の仮定と関係を明らかにすることによって,予測不確実性尺度の適合性を明らかにする。

Reliable estimation of predictive uncertainty is crucial for machine learning applications, particularly in high-stakes scenarios where hedging against risks is essential. Despite its significance, a consensus on the correct measurement of predictive uncertainty remains elusive. In this work, we return to first principles to develop a fundamental framework of information-theoretic predictive uncertainty measures. Our proposed framework categorizes predictive uncertainty measures according to two factors: (I) The predicting model (II) The approximation of the true predictive distribution. Examining all possible combinations of these two factors, we derive a set of predictive uncertainty measures that includes both known and newly introduced ones. We empirically evaluate these measures in typical uncertainty estimation settings, such as misclassification detection, selective prediction, and out-of-distribution detection. The results show that no single measure is universal, but the effectiveness depends on the specific setting. Thus, our work provides clarity about the suitability of predictive uncertainty measures by clarifying their implicit assumptions and relationships.
翻訳日:2024-10-29 19:34:54 公開日:2024-10-14
# 光キャビティにより媒介される中性原子による誤り検出量子演算

Error-Detected Quantum Operations with Neutral Atoms Mediated by an Optical Cavity ( http://arxiv.org/abs/2410.10787v1 )

ライセンス: Link先を確認
Brandon Grinkemeyer, Elmer Guardado-Sanchez, Ivana Dimitrova, Danilo Shchepanovich, G. Eirini Mandopoulou, Johannes Borregaard, Vladan Vuletić, Mikhail D. Lukin, (参考訳) ニュートラル原子量子プロセッサは大規模量子コンピューティングのための有望なプラットフォームである。 光キャビティと統合することで、高速な非破壊量子ビット読み出しと、量子ネットワークのための高速なリモート絡み合わせ生成へのアクセスが可能になる。 本稿では,光ツイーザの単一原子をファブリペロファイバキャビティに結合するプラットフォームを提案する。 強い原子空洞結合を利用すると、99.960$^{+14}_{-24}\%$フィディリティと、積分誤差検出による空洞型エンタングルメント生成の2つの手法で高速量子ビット状態の読み出しを実演する。 まず空洞彫刻を用いて91(4)$\%$忠実度と32(1)$\%$成功率のベル状態を生成する。 第2に, 52.5(18)$\%$, increased to 76(2)$\%$ with error detection。 このプラットフォームによって実現された新しい機能は、モジュラー量子コンピューティングとネットワークへの道を開いた。

Neutral atom quantum processors are a promising platform for large-scale quantum computing. Integrating them with an optical cavity enables fast nondestructive qubit readout and access to fast remote entanglement generation for quantum networking. Here, we introduce a platform for coupling single atoms in optical tweezers to a Fabry-Perot Fiber Cavity. Leveraging the strong atom-cavity coupling, we demonstrate fast qubit state readout with 99.960$^{+14}_{-24}\%$ fidelity and two methods for cavity-mediated entanglement generation with integrated error detection. First, we use cavity-carving to generate a Bell state with 91(4)$\%$ fidelity and a 32(1)$\%$ success rate. Second, we perform a cavity-mediated gate with a deterministic entanglement fidelity of 52.5(18)$\%$, increased to 76(2)$\%$ with error detection. The new capabilities enabled by this platform pave the way towards modular quantum computing and networking.
翻訳日:2024-10-29 19:34:54 公開日:2024-10-14
# Sitcom-Crafter:3Dシーンにおけるプロット駆動型人体モーション生成システム

Sitcom-Crafter: A Plot-Driven Human Motion Generation System in 3D Scenes ( http://arxiv.org/abs/2410.10790v1 )

ライセンス: Link先を確認
Jianqi Chen, Panwen Hu, Xiaojun Chang, Zhenwei Shi, Michael Christian Kampffmeyer, Xiaodan Liang, (参考訳) 近年のヒトの運動合成の進歩は、人間とシーンの相互作用、移動、人間と人間の相互作用など、特定のタイプの運動に焦点を当てている。 Sitcom-Crafterは3次元空間における人間の動き生成を包括的かつ拡張可能なシステムであり、アニメーションやゲームデザイナーのワークフロー効率を向上させるために、プロットコンテキストの広い範囲でガイドすることができる。 システムは8つのモジュールから構成されており、そのうち3つはモーション生成に特化しており、残りの5つはモーションシーケンスとシステム機能の一貫した融合を保証する拡張モジュールである。 生成モジュールの中心となるのは、3Dシーン対応の人間と人間の相互作用モジュールで、これは暗黙の3D署名距離関数(SDF)点を運動空間周辺に合成することで衝突問題に対処し、追加のデータ収集コストを伴わずに人間とシーンの衝突を最小限に抑える。 これに補完するため、我々の移動モジュールと人間とシーンの相互作用モジュールは、既存の手法を利用してシステムのモーション生成機能を強化します。 拡張モジュールは、コマンド生成のためのプロット理解、異なるモーションタイプのシームレスな統合のためのモーション同期、モーションリアリズムを強化するハンドポーズ検索、人間の衝突を防ぐためのモーション衝突修正、視覚的忠実性を確保するための3Dリターゲットを含む。 実験的な評価は、高品質で多様性があり、物理的に現実的な動作を生成するシステムの能力を評価し、創造的なワークフローを前進させる可能性を強調している。

Recent advancements in human motion synthesis have focused on specific types of motions, such as human-scene interaction, locomotion or human-human interaction, however, there is a lack of a unified system capable of generating a diverse combination of motion types. In response, we introduce Sitcom-Crafter, a comprehensive and extendable system for human motion generation in 3D space, which can be guided by extensive plot contexts to enhance workflow efficiency for anime and game designers. The system is comprised of eight modules, three of which are dedicated to motion generation, while the remaining five are augmentation modules that ensure consistent fusion of motion sequences and system functionality. Central to the generation modules is our novel 3D scene-aware human-human interaction module, which addresses collision issues by synthesizing implicit 3D Signed Distance Function (SDF) points around motion spaces, thereby minimizing human-scene collisions without additional data collection costs. Complementing this, our locomotion and human-scene interaction modules leverage existing methods to enrich the system's motion generation capabilities. Augmentation modules encompass plot comprehension for command generation, motion synchronization for seamless integration of different motion types, hand pose retrieval to enhance motion realism, motion collision revision to prevent human collisions, and 3D retargeting to ensure visual fidelity. Experimental evaluations validate the system's ability to generate high-quality, diverse, and physically realistic motions, underscoring its potential for advancing creative workflows.
翻訳日:2024-10-29 19:34:54 公開日:2024-10-14
# 運転シーンのロバストなセマンティック知覚のための条件付きマルチモーダルフュージョン

Condition-Aware Multimodal Fusion for Robust Semantic Perception of Driving Scenes ( http://arxiv.org/abs/2410.10791v1 )

ライセンス: Link先を確認
Tim Broedermann, Christos Sakaridis, Yuqian Fu, Luc Van Gool, (参考訳) 複数のセンサーを活用することは、自律運転における堅牢なセマンティック認識に不可欠であり、それぞれのセンサータイプは相補的な強度と弱点を持っている。 しかし、既存のセンサー融合法は、全ての条件でセンサを均一に処理し、最適以下の性能をもたらすことがよくある。 対照的に、運転シーンのロバストな意味認識のための条件対応マルチモーダル融合手法を提案する。 CAFuserは、RGBカメラ入力を用いて環境条件を分類し、複数のセンサの融合を誘導するコンディショントークンを生成する。 さらに,多種多様なセンサ入力を共有潜在空間に整列させ,単一かつ共有された事前学習されたバックボーンとの効率的な統合を実現するために,モダリティ特化機能アダプタを新たに導入する。 実際の条件に基づいてセンサフュージョンを動的に適応させることで、特に悪条件シナリオにおいて、ロバスト性と精度が大幅に向上する。 59.7 PQ,78.2 mIoU,セマンティックセマンティクスセマンティクスセマンティクスセマンティクスセマンティクスセマンティクスセマンティクスをMUSESデータセット上に設定し,公開ベンチマークで上位にランク付けした。

Leveraging multiple sensors is crucial for robust semantic perception in autonomous driving, as each sensor type has complementary strengths and weaknesses. However, existing sensor fusion methods often treat sensors uniformly across all conditions, leading to suboptimal performance. By contrast, we propose a novel, condition-aware multimodal fusion approach for robust semantic perception of driving scenes. Our method, CAFuser uses an RGB camera input to classify environmental conditions and generate a Condition Token that guides the fusion of multiple sensor modalities. We further newly introduce modality-specific feature adapters to align diverse sensor inputs into a shared latent space, enabling efficient integration with a single and shared pre-trained backbone. By dynamically adapting sensor fusion based on the actual condition, our model significantly improves robustness and accuracy, especially in adverse-condition scenarios. We set the new state of the art with CAFuser on the MUSES dataset with 59.7 PQ for multimodal panoptic segmentation and 78.2 mIoU for semantic segmentation, ranking first on the public benchmarks.
翻訳日:2024-10-29 19:34:54 公開日:2024-10-14
# 確率微分方程式を用いた意味的画像インバージョンと編集

Semantic Image Inversion and Editing using Rectified Stochastic Differential Equations ( http://arxiv.org/abs/2410.10792v1 )

ライセンス: Link先を確認
Litu Rout, Yujia Chen, Nataniel Ruiz, Constantine Caramanis, Sanjay Shakkottai, Wen-Sheng Chu, (参考訳) 生成モデルはランダムノイズを画像に変換する。 本稿では,2つの課題に対処する。 (i)逆転・逆転 (II) 整流モデル(Flux など)の確率的等価値を用いた実画像の編集。 近年,拡散モデル (DM) は画像生成モデリングの分野を支配しているが,その逆転はドリフトや拡散の非線形性による忠実さや編集可能性の課題を呈している。 既存の最先端のDMインバージョンアプローチは、追加パラメータのトレーニングや潜伏変数のテスト時間最適化に依存している。 Rectified Flows (RF) は拡散モデルに代わる有望な代替手段を提供するが、その逆転は過小評価されている。 線形2次レギュレータによる動的最適制御を用いたRFインバージョンを提案する。 得られたベクトル場が正則確率微分方程式と等価であることを証明する。 さらに、フレームワークを拡張して、Fluxの確率的なサンプルを設計する。 インバージョン法では、ゼロショットのインバージョンと編集における最先端のパフォーマンスを実現し、ストローク・ツー・イメージの合成やセマンティック・イメージの編集において、人間の大規模な評価によりユーザの好みを確認する。

Generative models transform random noise into images; their inversion aims to transform images back to structured noise for recovery and editing. This paper addresses two key tasks: (i) inversion and (ii) editing of a real image using stochastic equivalents of rectified flow models (such as Flux). Although Diffusion Models (DMs) have recently dominated the field of generative modeling for images, their inversion presents faithfulness and editability challenges due to nonlinearities in drift and diffusion. Existing state-of-the-art DM inversion approaches rely on training of additional parameters or test-time optimization of latent variables; both are expensive in practice. Rectified Flows (RFs) offer a promising alternative to diffusion models, yet their inversion has been underexplored. We propose RF inversion using dynamic optimal control derived via a linear quadratic regulator. We prove that the resulting vector field is equivalent to a rectified stochastic differential equation. Additionally, we extend our framework to design a stochastic sampler for Flux. Our inversion method allows for state-of-the-art performance in zero-shot inversion and editing, outperforming prior works in stroke-to-image synthesis and semantic image editing, with large-scale human evaluations confirming user preference.
翻訳日:2024-10-29 19:34:54 公開日:2024-10-14
# ディジタル量子コンピュータにおける近熱力学のロバスト性

Robustness of near-thermal dynamics on digital quantum computers ( http://arxiv.org/abs/2410.10794v1 )

ライセンス: Link先を確認
Eli Chertkov, Yi-Hsiang Chen, Michael Lubasch, David Hayes, Michael Foss-Feig, (参考訳) 量子回路におけるゲートエラーの影響を理解することは、量子コンピュータの潜在的な応用、特に大規模なエラー訂正ハードウェアが存在しない場合、決定に不可欠である。 熱平衡付近の系の時間進化をシミュレートするトロッター化量子回路は、広く仮定されるよりも量子ゲート誤差とトロッター(離散化)誤差の両方に対してかなり堅牢である。 Quantinuumの閉じ込められたイオンコンピュータでは、トロッター回路に現れる弱いエンタングリングゲートをネイティブに実装でき、そのエラー率は、より少ないエンタングメントを生成するときに小さくなります。 このスケーリングは、ゲートおよび離散化エラーに対する近熱力学の堅牢性とともに、短期量子コンピュータ上でのトロッタライズドダイナミクスの達成可能な精度を大幅に向上させる。 我々は、量子コンピュータ上の低ノイズで効率的に準備できる熱状態を近似する、ランダムな生成状態の統計的アンサンブルである新しい理論ツールを多用している。 準熱量子系のハミルトンシミュレーション実験を予測、最適化、設計するために、ランダムな積状態アンサンブルがどのように使用できるのかを概説する。

Understanding the impact of gate errors on quantum circuits is crucial to determining the potential applications of quantum computers, especially in the absence of large-scale error-corrected hardware. We put forward analytical arguments, corroborated by extensive numerical and experimental evidence, that Trotterized quantum circuits simulating the time-evolution of systems near thermal equilibrium are substantially more robust to both quantum gate errors and Trotter (discretization) errors than is widely assumed. In Quantinuum's trapped-ion computers, the weakly entangling gates that appear in Trotterized circuits can be implemented natively, and their error rate is smaller when they generate less entanglement; from benchmarking, we know that the error for a gate $\exp[-i (Z\otimes Z) \tau]$ decreases roughly linearly with $\tau$, up to a small offset at $\tau = 0$. We provide extensive evidence that this scaling, together with the robustness of near-thermal dynamics to both gate and discretization errors, facilitates substantial improvements in the achievable accuracy of Trotterized dynamics on near-term quantum computers. We make heavy use of a new theoretical tool -- a statistical ensemble of random product states that approximates a thermal state, which can be efficiently prepared with low noise on quantum computers. We outline how the random product state ensemble can be used to predict, optimize, and design Hamiltonian simulation experiments on near-thermal quantum systems.
翻訳日:2024-10-29 19:34:54 公開日:2024-10-14
# 3Dビジョンのための基礎モデルに向けて - どれくらい近いのか?

Towards Foundation Models for 3D Vision: How Close Are We? ( http://arxiv.org/abs/2410.10799v1 )

ライセンス: Link先を確認
Yiming Zuo, Karhan Kayan, Maggie Wang, Kevin Jeon, Jia Deng, Thomas L. Griffiths, (参考訳) 3Dビジョンのための基礎モデルを構築することは、未解決の複雑な課題である。 その目標に向けて、現在のモデルの3D推論能力を理解するとともに、これらのモデルと人間のギャップを特定することが重要である。 そこで我々は,視覚質問応答(VQA)フォーマットの基本的な3次元視覚タスクをカバーする新しい3次元視覚理解ベンチマークを構築した。 我々は、最先端のビジョン・ランゲージ・モデル(VLM)、専門モデル、その上の人的対象について評価する。 以上の結果から, VLMの精度は低いが, 精度は高いが, 幾何的摂動では頑健でないことが示唆された。 対照的に、人間の視覚は最も信頼できる3D視覚システムである。 さらに、ニューラルネットワークは従来のコンピュータビジョン方式と比較して人間の3D視覚機構とより密に一致していることを示し、ViTのようなトランスフォーマーベースのネットワークはCNNよりも人間の3D視覚機構とより密に一致している。 我々は3Dビジョンのための基礎モデルの開発に利益をもたらすことを願っている。

Building a foundation model for 3D vision is a complex challenge that remains unsolved. Towards that goal, it is important to understand the 3D reasoning capabilities of current models as well as identify the gaps between these models and humans. Therefore, we construct a new 3D visual understanding benchmark that covers fundamental 3D vision tasks in the Visual Question Answering (VQA) format. We evaluate state-of-the-art Vision-Language Models (VLMs), specialized models, and human subjects on it. Our results show that VLMs generally perform poorly, while the specialized models are accurate but not robust, failing under geometric perturbations. In contrast, human vision continues to be the most reliable 3D visual system. We further demonstrate that neural networks align more closely with human 3D vision mechanisms compared to classical computer vision methods, and Transformer-based networks such as ViT align more closely with human 3D vision mechanisms than CNNs. We hope our study will benefit the future development of foundation models for 3D vision.
翻訳日:2024-10-29 19:24:59 公開日:2024-10-14
# 混合データかマージモデルか? 多様なマルチタスク学習のための最適化

Mix Data or Merge Models? Optimizing for Diverse Multi-Task Learning ( http://arxiv.org/abs/2410.10801v1 )

ライセンス: Link先を確認
Aakanksha, Arash Ahmadian, Seraphina Goldfarb-Tarrant, Beyza Ermis, Marzieh Fadaee, Sara Hooker, (参考訳) 大きな言語モデル(LLM)は、様々なアプリケーションのために世界中で採用され、デプロイされている。 しかし、安全の確保は依然として大きな課題である。 推奨トレーニングと安全性対策は、西洋中心のデータセットでよく見られる問題に過度に適合することが多く、安全プロトコルは多言語設定に拡張できないことが多い。 本研究では,多言語コンテキストにおける安全性と汎用タスクを組み合わせたマルチタスク環境におけるモデルマージについて検討する。 各言語はタスクにまたがって、ユニークで多様な学習課題を導入します。 客観的なマージはデータ混合よりも有効であり, 全般的な性能と安全性は最大8%, 10%向上した。 モノリンガルに微調整されたモデルをマージすることで、一般的なパフォーマンスが4%向上し、同じデータを使用したデータミックス方式上で、すべての言語に対する害が7%減少する。 全体として、マージアプローチに関する包括的な研究は、強力で安全な多言語モデルを構築するのに有用なフレームワークを提供する。

Large Language Models (LLMs) have been adopted and deployed worldwide for a broad variety of applications. However, ensuring their safe use remains a significant challenge. Preference training and safety measures often overfit to harms prevalent in Western-centric datasets, and safety protocols frequently fail to extend to multilingual settings. In this work, we explore model merging in a diverse multi-task setting, combining safety and general-purpose tasks within a multilingual context. Each language introduces unique and varied learning challenges across tasks. We find that objective-based merging is more effective than mixing data, with improvements of up to 8% and 10% in general performance and safety respectively. We also find that language-based merging is highly effective -- by merging monolingually fine-tuned models, we achieve a 4% increase in general performance and 7% reduction in harm across all languages on top of the data mixtures method using the same available data. Overall, our comprehensive study of merging approaches provides a useful framework for building strong and safe multilingual models.
翻訳日:2024-10-29 19:24:59 公開日:2024-10-14
# ビデオ拡散変換器のブースティングカメラ動作制御

Boosting Camera Motion Control for Video Diffusion Transformers ( http://arxiv.org/abs/2410.10802v1 )

ライセンス: Link先を確認
Soon Yau Cheong, Duygu Ceylan, Armin Mustafa, Andrew Gilbert, Chun-Hao Paul Huang, (参考訳) 拡散モデルの最近の進歩は、ビデオ生成の品質を大幅に向上させた。 しかし、カメラのポーズのきめ細かい制御は依然として難しい。 U-Netベースのモデルはカメラ制御に有望な結果を示しているが、トランスフォーマーベースの拡散モデル(DiT)は大規模ビデオ生成に好まれるアーキテクチャであり、カメラモーションの精度が著しく低下している。 本稿では,この問題の根本原因を考察し,DiTアーキテクチャに適したソリューションを提案する。 本研究により, カメラ制御性能は, 一般的に信じられているカメラポーズ表現よりも, コンディショニング手法の選択に大きく依存していることが明らかとなった。 DiTの持続的な動き劣化に対処するため,分類器なし誘導に基づくカメラモーションガイダンス(CMG)を導入し,400%以上のカメラ制御を向上した。 さらに,スペアカメラ制御パイプラインを提示し,長編ビデオ用のカメラポーズを特定するプロセスを大幅に単純化する。 提案手法はU-NetモデルとDiTモデルの両方に適用され,ビデオ生成タスクに改良されたカメラ制御を提供する。

Recent advancements in diffusion models have significantly enhanced the quality of video generation. However, fine-grained control over camera pose remains a challenge. While U-Net-based models have shown promising results for camera control, transformer-based diffusion models (DiT)-the preferred architecture for large-scale video generation - suffer from severe degradation in camera motion accuracy. In this paper, we investigate the underlying causes of this issue and propose solutions tailored to DiT architectures. Our study reveals that camera control performance depends heavily on the choice of conditioning methods rather than camera pose representations that is commonly believed. To address the persistent motion degradation in DiT, we introduce Camera Motion Guidance (CMG), based on classifier-free guidance, which boosts camera control by over 400%. Additionally, we present a sparse camera control pipeline, significantly simplifying the process of specifying camera poses for long videos. Our method universally applies to both U-Net and DiT models, offering improved camera control for video generation tasks.
翻訳日:2024-10-29 19:24:59 公開日:2024-10-14
# 3次元拡散法を改良した汎用ヒューマノイドマニピュレーション

Generalizable Humanoid Manipulation with Improved 3D Diffusion Policies ( http://arxiv.org/abs/2410.10803v1 )

ライセンス: Link先を確認
Yanjie Ze, Zixuan Chen, Wenhao Wang, Tianyi Chen, Xialin He, Ying Yuan, Xue Bin Peng, Jiajun Wu, (参考訳) 多様な環境で自律的な操作が可能なヒューマノイドロボットは、長年ロボット工学者の目標だった。 しかしながら、ヒューマノイドロボットによる自律的な操作は、主に一般化可能なスキルの獲得が困難であるため、特定のシーンに限られている。 3D拡散政策(DP3)のような3Dビジュモータ政策の最近の進歩は、これらの能力をより荒野の環境に拡張することを約束している。 しかし、3Dビジュモータポリシーは、しばしばカメラキャリブレーションとポイントクラウドセグメンテーションに依存しており、ヒューマノイドのようなモバイルロボットにデプロイする上での課題を提示している。 本研究では,エゴセントリックな3次元視覚表現を活用することで,これらの制約を解消する新しい3次元ビジュモータポリシーである,改良された3次元拡散ポリシー(iDP3)を紹介する。 iDP3は,実験室で収集したデータのみを用いて,多種多様な実世界のシナリオにおいて,ロボットが自律的にスキルを発揮できることを実証した。 ビデオは、https://humanoid-manipulation.github.ioで公開されている。

Humanoid robots capable of autonomous operation in diverse environments have long been a goal for roboticists. However, autonomous manipulation by humanoid robots has largely been restricted to one specific scene, primarily due to the difficulty of acquiring generalizable skills. Recent advances in 3D visuomotor policies, such as the 3D Diffusion Policy (DP3), have shown promise in extending these capabilities to wilder environments. However, 3D visuomotor policies often rely on camera calibration and point-cloud segmentation, which present challenges for deployment on mobile robots like humanoids. In this work, we introduce the Improved 3D Diffusion Policy (iDP3), a novel 3D visuomotor policy that eliminates these constraints by leveraging egocentric 3D visual representations. We demonstrate that iDP3 enables a full-sized humanoid robot to autonomously perform skills in diverse real-world scenarios, using only data collected in the lab. Videos are available at: https://humanoid-manipulation.github.io
翻訳日:2024-10-29 19:24:59 公開日:2024-10-14
# TrajDiffuse:環境を考慮した軌道予測のための条件拡散モデル

TrajDiffuse: A Conditional Diffusion Model for Environment-Aware Trajectory Prediction ( http://arxiv.org/abs/2410.10804v1 )

ライセンス: Link先を確認
Qingze, Liu, Danrui Li, Samuel S. Sohn, Sejong Yoon, Mubbasir Kapadia, Vladimir Pavlovic, (参考訳) 確率的な性質を捉えた優れた多様性を持つ人や車の軌道の正確な予測は、多くのアプリケーションにとって必須の課題である。 しかし、多くの軌道予測モデルは、周囲環境との衝突回避のような他の重要な要件を無視しながら、多様性や正確性を改善することに焦点を当てた不合理な軌道サンプルを生成する。 本研究では,新しい条件付き拡散モデルを用いた計画に基づく軌道予測手法であるTrajDiffuseを提案する。 本研究では, 軌道予測問題を不特定課題として定式化し, 拡散過程の地図に基づくガイダンス項を設計する。 TrajDiffuseは、環境制約にほぼ完全に準拠しながら、SOTAの正確さと多様性を一致または超過する軌道予測を生成することができる。 我々は, nuScenesとPFSDデータセットの実験を通じて, モデルの有用性を実証し, SOTA法に対する広範なベンチマーク分析を行う。

Accurate prediction of human or vehicle trajectories with good diversity that captures their stochastic nature is an essential task for many applications. However, many trajectory prediction models produce unreasonable trajectory samples that focus on improving diversity or accuracy while neglecting other key requirements, such as collision avoidance with the surrounding environment. In this work, we propose TrajDiffuse, a planning-based trajectory prediction method using a novel guided conditional diffusion model. We form the trajectory prediction problem as a denoising impaint task and design a map-based guidance term for the diffusion process. TrajDiffuse is able to generate trajectory predictions that match or exceed the accuracy and diversity of the SOTA, while adhering almost perfectly to environmental constraints. We demonstrate the utility of our model through experiments on the nuScenes and PFSD datasets and provide an extensive benchmark analysis against the SOTA methods.
翻訳日:2024-10-29 19:24:59 公開日:2024-10-14
# TL-PCA:主成分分析の伝達学習

TL-PCA: Transfer Learning of Principal Component Analysis ( http://arxiv.org/abs/2410.10805v1 )

ライセンス: Link先を確認
Sharon Hendy, Yehuda Dar, (参考訳) 主成分分析(PCA)は、対象とするデータのサンプルが多すぎると著しく制限される。 そこで本研究では,対象タスクの少ないデータに加えて,関連するソースタスクからの知識が使用されるPCA(TL-PCA)への転送学習手法を提案する。 我々のTL-PCAには2つのバージョンがあり、1つはソースタスクの事前訓練PCAソリューションを使用し、もう1つはソースデータを使用する。 提案手法は,PCA最適化の目的を,事前学習したソースモデルやソースデータから与えられたターゲット部分空間とソース部分空間の近さをペナルティとして拡張する。 この最適化は、データ依存固有ベクトル(TL-PCAの主方向)の数が対象データ例の数に制限されない固有分解によって解決される。 そこで,画像データセットの結果から,学習した部分空間次元が対象データ例の数よりも小さい次元削減のためのTL-PCAにより,テストデータの表現が改善されることが判明した。

Principal component analysis (PCA) can be significantly limited when there is too few examples of the target data of interest. We propose a transfer learning approach to PCA (TL-PCA) where knowledge from a related source task is used in addition to the scarce data of a target task. Our TL-PCA has two versions, one that uses a pretrained PCA solution of the source task, and another that uses the source data. Our proposed approach extends the PCA optimization objective with a penalty on the proximity of the target subspace and the source subspace as given by the pretrained source model or the source data. This optimization is solved by eigendecomposition for which the number of data-dependent eigenvectors (i.e., principal directions of TL-PCA) is not limited to the number of target data examples, which is a root cause that limits the standard PCA performance. Accordingly, our results for image datasets show that the representation of test data is improved by TL-PCA for dimensionality reduction where the learned subspace dimension is lower or higher than the number of target data examples.
翻訳日:2024-10-29 19:24:59 公開日:2024-10-14
# ユニバーサル近似保証付きハードコントラストニューラルネットワーク

Hard-Constrained Neural Networks with Universal Approximation Guarantees ( http://arxiv.org/abs/2410.10807v1 )

ライセンス: Link先を確認
Youngjae Min, Anoopkumar Sonar, Navid Azizan, (参考訳) 機械学習モデルにインプット・アウトプット関係の事前の知識や仕様を組み込むことは、限られたデータからの一般化を高め、出力の適合につながるため、大きな注目を集めている。 しかし、既存のほとんどのアプローチは、規則化によって違反を罰することでソフトな制約を使用する。 一方、ニューラルネットワークに厳しい制約を課すことは、表現力を妨げる可能性があり、性能に悪影響を及ぼす。 これを解決するために、モデル容量を犠牲にすることなく、本質的に制約を満たすニューラルネットワークを構築するための実践的なフレームワークであるHardNetを提案する。 具体的には、ネットワークの出力に微分可能なプロジェクション層を付加することにより、入力と出力の両方に依存するアフィンと凸のハード制約を符号化する。 このアーキテクチャは、構築による制約満足度を確保しつつ、標準アルゴリズムを用いてネットワークパラメータの制約のない最適化を可能にする。 さらに,HardNetはニューラルネットワークの普遍近似能力を保っていることを示す。 本稿では,制約下での関数の適合,最適化問題の学習,安全クリティカルシステムにおける制御ポリシの最適化,航空機システムに対する安全な決定ロジックの学習など,さまざまな応用におけるHardNetの汎用性と有効性を示す。

Incorporating prior knowledge or specifications of input-output relationships into machine learning models has gained significant attention, as it enhances generalization from limited data and leads to conforming outputs. However, most existing approaches use soft constraints by penalizing violations through regularization, which offers no guarantee of constraint satisfaction -- an essential requirement in safety-critical applications. On the other hand, imposing hard constraints on neural networks may hinder their representational power, adversely affecting performance. To address this, we propose HardNet, a practical framework for constructing neural networks that inherently satisfy hard constraints without sacrificing model capacity. Specifically, we encode affine and convex hard constraints, dependent on both inputs and outputs, by appending a differentiable projection layer to the network's output. This architecture allows unconstrained optimization of the network parameters using standard algorithms while ensuring constraint satisfaction by construction. Furthermore, we show that HardNet retains the universal approximation capabilities of neural networks. We demonstrate the versatility and effectiveness of HardNet across various applications: fitting functions under constraints, learning optimization solvers, optimizing control policies in safety-critical systems, and learning safe decision logic for aircraft systems.
翻訳日:2024-10-29 19:24:59 公開日:2024-10-14
# 局所ギャップ系に対する応答論

Response theory for locally gapped systems ( http://arxiv.org/abs/2410.10809v1 )

ライセンス: Link先を確認
Joscha Henheik, Tom Wessel, (参考訳) 我々は,多体量子格子系を相互作用する「emph{local gap}」の概念を導入し,そのような条件下での局所摂動に対する応答理論と久保の公式の有効性を証明した。 その結果,システム全体としての通常のスペクトルギャップ条件は,システムの局所的性質を理解する上で必要条件ではないことがわかった。 より正確には、ハミルトニアンの$H_0$の平衡状態 $\rho_0$ は、$\Lambda^{\mathrm{gap}} \subset \Lambda$ において局所的にギャップがあり、Liouvillian $- \mathrm{i} \, [H_0, \, \cdot \, ]$ が $\Lambda^{\mathrm{gap}}$ でテストされると、ほぼ可逆である。 これを文脈として、局所的ギャップという別の概念を提供し、それらの関係について論じる。 応答理論の妥当性は \emph{non-equilibrium almost stationary state} (NEASSs) の構成に基づいている。 NEASS の構成の局所性を制御することによって、応答論は任意の順序で成り立つことを示し、摂動 \(\epsilon V\) が非拡大領域 $\Lambda \setminus \Lambda^{\mathrm{gap}}$ から$|\log \epsilon|$ を超える領域で作用する。

We introduce a notion of a \emph{local gap} for interacting many-body quantum lattice systems and prove the validity of response theory and Kubo's formula for localized perturbations in such settings. On a high level, our result shows that the usual spectral gap condition, concerning the system as a whole, is not a necessary condition for understanding local properties of the system. More precisely, we say that an equilibrium state $\rho_0$ of a Hamiltonian $H_0$ is locally gapped in $\Lambda^{\mathrm{gap}} \subset \Lambda$, whenever the Liouvillian $- \mathrm{i} \, [H_0, \, \cdot \, ]$ is almost invertible on local observables supported in $\Lambda^{\mathrm{gap}}$ when tested in $\rho_0$. To put this into context, we provide other alternative notions of a local gap and discuss their relations. The validity of response theory is based on the construction of \emph{non-equilibrium almost stationary states} (NEASSs). By controlling locality properties of the NEASS construction, we show that response theory holds to any order, whenever the perturbation \(\epsilon V\) acts in a region which is further than $|\log \epsilon|$ away from the non-gapped region $\Lambda \setminus \Lambda^{\mathrm{gap}}$.
翻訳日:2024-10-29 19:24:58 公開日:2024-10-14
# テキスト生成における局所デコードとグローバルデコード

Local and Global Decoding in Text Generation ( http://arxiv.org/abs/2410.10810v1 )

ライセンス: Link先を確認
Daniel Gareev, Thomas Hofmann, Ezhilmathi Krishnasamy, Tiago Pimentel, (参考訳) 対話システムのようなアプリケーションにおける重要なコンポーネントであるテキスト生成は、言語モデル分布から文字列をサンプリングする復号アルゴリズムに依存している。 top-k$ や top-\pi$ のような伝統的なメソッドは、モデルの出力分布に局所正規化を適用し、それを歪ませることができる。 本稿では,これらの復号化手法のグローバル正規化版を導入することにより,この歪みの影響について検討する。 さらに,グローバルな正規分布からのサンプリングを明示的に計算せずに近似する独立なメトロポリス・ハスティングスアルゴリズムを提案する。 我々の実証分析は、Pythia言語モデルを用いて、2つの復号アルゴリズム(top-k$とtop-\pi$)における局所正規化とグローバル正規化のパフォーマンスを比較した。 その結果、ほとんどの構成では、グローバルデコーディングは、同じアルゴリズムのローカルデコーディングバージョンよりもパフォーマンスが悪く、ディストリビューションの整合性は保たれている。 この結果から,歪みは局所復号アルゴリズムの重要な特徴であることが示唆された。

Text generation, a key component in applications such as dialogue systems, relies on decoding algorithms that sample strings from a language model distribution. Traditional methods, such as top-$k$ and top-$\pi$, apply local normalisation to the model's output distribution, which can distort it. In this paper, we investigate the effect of this distortion by introducing globally-normalised versions of these decoding methods. Additionally, we propose an independent Metropolis-Hastings algorithm to approximate sampling from globally-normalised distributions without explicitly computing them. Our empirical analysis compares the performance of local and global normalisation across two decoding algorithms (top-$k$ and top-$\pi$) with various hyperparameters, using Pythia language models. Results show that, in most configurations, global decoding performs worse than the local decoding version of the same algorithms -- despite preserving the distribution's integrity. Our results suggest that distortion is an important feature of local decoding algorithms.
翻訳日:2024-10-29 19:24:58 公開日:2024-10-14
# 重み付き宇宙学習用深部線形プローブ発電機

Deep Linear Probe Generators for Weight Space Learning ( http://arxiv.org/abs/2410.10811v1 )

ライセンス: Link先を確認
Jonathan Kahana, Eliahu Horwitz, Imri Shuval, Yedid Hoshen, (参考訳) 重み付き空間学習は、トレーニングデータセットや一般化エラーなどのニューラルネットワークに関する情報を抽出することを目的としている。 近年のアプローチでは、モデルウェイトから直接学習するが、これは重みが高次元であり、ニューロン間の置換対称性を含むため、多くの課題を呈している。 別のアプローチであるProbingは、学習した入力(プローブ)のセットをモデルに渡すことでモデルを表し、対応する出力の上に予測器をトレーニングする。 予備的な実験では、バニラプローブのベースラインが驚くほどうまく機能していることがわかりました。 しかし、現在のプローブ学習戦略は効果がないことが判明した。 そこで我々は,探索手法の簡易かつ効果的な修正であるDeep Linear Probe Generators (ProbeGen)を提案する。 ProbeGenは、深い線形アーキテクチャを持つ共有ジェネレータモジュールを追加し、構造化プローブに対する誘導バイアスを与え、オーバーフィッティングを減らす。 シンプルながら、ProbeGenは最先端よりも大幅にパフォーマンスが良く、非常に効率的で、他のトップアプローチの30~1000倍のFLOPを必要とする。

Weight space learning aims to extract information about a neural network, such as its training dataset or generalization error. Recent approaches learn directly from model weights, but this presents many challenges as weights are high-dimensional and include permutation symmetries between neurons. An alternative approach, Probing, represents a model by passing a set of learned inputs (probes) through the model, and training a predictor on top of the corresponding outputs. Although probing is typically not used as a stand alone approach, our preliminary experiment found that a vanilla probing baseline worked surprisingly well. However, we discover that current probe learning strategies are ineffective. We therefore propose Deep Linear Probe Generators (ProbeGen), a simple and effective modification to probing approaches. ProbeGen adds a shared generator module with a deep linear architecture, providing an inductive bias towards structured probes thus reducing overfitting. While simple, ProbeGen performs significantly better than the state-of-the-art and is very efficient, requiring between 30 to 1000 times fewer FLOPs than other top approaches.
翻訳日:2024-10-29 19:24:58 公開日:2024-10-14
# HART:ハイブリッド自己回帰変換器を用いた効率的なビジュアル生成

HART: Efficient Visual Generation with Hybrid Autoregressive Transformer ( http://arxiv.org/abs/2410.10812v1 )

ライセンス: Link先を確認
Haotian Tang, Yecheng Wu, Shang Yang, Enze Xie, Junsong Chen, Junyu Chen, Zhuoyang Zhang, Han Cai, Yao Lu, Song Han, (参考訳) 本稿では、1024×1024画像を直接生成できる自己回帰型視覚生成モデルであるHybrid Autoregressive Transformer(HART)を紹介する。 既存のARモデルは、1024px画像の生成に伴う、個々のトークンのイメージ再構成品質の低下と、禁止的なトレーニングコストによる制限に直面している。 これらの課題に対処するため,オートエンコーダから連続ラテントを分解するハイブリットトークンを,大画面を表す離散トークンと,離散トークンで表現できない残留成分を表す連続トークンの2つのコンポーネントに分割する。 離散成分はスケーラブル解像度の離散ARモデルでモデル化され、連続成分は37Mパラメータしか持たない軽量残留拡散モジュールで学習される。 離散型VARトークン化器と比較して,MJHQ-30Kでは2.11から0.30に改良され,7.85から5.38に31%のFIDが向上した。 HARTはまた、FIDとCLIPスコアの両方において、4.5-7.7倍高いスループットと6.9-13.4倍低いMACで最先端の拡散モデルより優れている。 私たちのコードはhttps://github.com/mit-han-lab/hart.comで公開されている。

We introduce Hybrid Autoregressive Transformer (HART), an autoregressive (AR) visual generation model capable of directly generating 1024x1024 images, rivaling diffusion models in image generation quality. Existing AR models face limitations due to the poor image reconstruction quality of their discrete tokenizers and the prohibitive training costs associated with generating 1024px images. To address these challenges, we present the hybrid tokenizer, which decomposes the continuous latents from the autoencoder into two components: discrete tokens representing the big picture and continuous tokens representing the residual components that cannot be represented by the discrete tokens. The discrete component is modeled by a scalable-resolution discrete AR model, while the continuous component is learned with a lightweight residual diffusion module with only 37M parameters. Compared with the discrete-only VAR tokenizer, our hybrid approach improves reconstruction FID from 2.11 to 0.30 on MJHQ-30K, leading to a 31% generation FID improvement from 7.85 to 5.38. HART also outperforms state-of-the-art diffusion models in both FID and CLIP score, with 4.5-7.7x higher throughput and 6.9-13.4x lower MACs. Our code is open sourced at https://github.com/mit-han-lab/hart.
翻訳日:2024-10-29 19:24:58 公開日:2024-10-14
# LongMemEval: 長期的な対話型メモリ上でのチャットアシスタントのベンチマーク

LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory ( http://arxiv.org/abs/2410.10813v1 )

ライセンス: Link先を確認
Di Wu, Hongwei Wang, Wenhao Yu, Yuwei Zhang, Kai-Wei Chang, Dong Yu, (参考訳) 近年の大規模言語モデル(LLM)によるチャットアシスタントシステムでは,ユーザ支援のチャット履歴を追跡するメモリコンポーネントが統合されており,より正確でパーソナライズされた応答が可能になっている。 しかし、持続的相互作用における長期記憶能力は未解明のままである。 本稿では,情報抽出,マルチセッション推論,時間的推論,知識更新,棄権という,チャットアシスタントの5つのコア長期記憶能力を評価するための総合的なベンチマークであるLongMemEvalを紹介する。 500の厳密にキュレートされた質問が、自由にスケーラブルなユーザアシストのチャット履歴に埋め込まれているため、LongMemEvalは、既存の長期記憶システムに重要な課題を提示している。 次に、長期記憶設計をインデクシング、検索、読み出しの4つの設計選択に分割する統合されたフレームワークを提案する。 鍵となる実験的な知見に基づいて,提案するメモリ設計は,値の粒度を最適化するためのセッション分解,インデックス構造を拡張するためのファクト拡張キー拡張,検索範囲を改良するための時間対応クエリ拡張などである。 実験の結果,これらの最適化はLongMemEval上でのメモリリコールとダウンストリーム質問応答の両方を大幅に改善することがわかった。 全体として、我々の研究はLLMベースのチャットアシスタントの長期記憶能力を向上するための貴重なリソースとガイダンスを提供し、よりパーソナライズされ信頼性の高い会話型AIへの道を開いた。

Recent large language model (LLM)-driven chat assistant systems have integrated memory components to track user-assistant chat histories, enabling more accurate and personalized responses. However, their long-term memory capabilities in sustained interactions remain underexplored. This paper introduces LongMemEval, a comprehensive benchmark designed to evaluate five core long-term memory abilities of chat assistants: information extraction, multi-session reasoning, temporal reasoning, knowledge updates, and abstention. With 500 meticulously curated questions embedded within freely scalable user-assistant chat histories, LongMemEval presents a significant challenge to existing long-term memory systems, with commercial chat assistants and long-context LLMs showing 30% accuracy drop on memorizing information across sustained interactions. We then present a unified framework that breaks down the long-term memory design into four design choices across the indexing, retrieval, and reading stages. Built upon key experimental insights, we propose several memory designs including session decomposition for optimizing value granularity, fact-augmented key expansion for enhancing the index structure, and time-aware query expansion for refining the search scope. Experiment results show that these optimizations greatly improve both memory recall and downstream question answering on LongMemEval. Overall, our study provides valuable resources and guidance for advancing the long-term memory capabilities of LLM-based chat assistants, paving the way toward more personalized and reliable conversational AI.
翻訳日:2024-10-29 19:24:58 公開日:2024-10-14
# スケーラブルな合成データによるビデオの深さ

Depth Any Video with Scalable Synthetic Data ( http://arxiv.org/abs/2410.10815v1 )

ライセンス: Link先を確認
Honghui Yang, Di Huang, Wei Yin, Chunhua Shen, Haifeng Liu, Xiaofei He, Binbin Lin, Wanli Ouyang, Tong He, (参考訳) ビデオ深度推定は、一貫性と拡張性のある地上真実データの不足によって長い間妨げられてきた。 本稿では,2つの重要なイノベーションを通じて課題に取り組むモデルであるDepth Any Videoを紹介する。 まず, 多様な合成環境からリアルタイムのビデオ深度データを抽出し, 5秒間のビデオクリップを4万本生成し, それぞれに正確な深度アノテーションを付与する,スケーラブルな合成データパイプラインを開発した。 第2に,実世界の映像を効果的に扱うために生成ビデオ拡散モデルの強力な先行技術を活用し,回転位置符号化やフローマッチングといった高度な技術を統合し,柔軟性と効率を向上させる。 固定長動画列に限られる従来のモデルとは異なり,本手法では,異なるフレーム長の動画を処理し,フレーム単位のフレームレートで頑健に処理する,新しい混合デューレーショントレーニング手法を導入する。 本稿では,最大150フレームのシーケンスにまたがる高解像度映像深度を推定できる深度補間法を提案する。 我々のモデルは、空間的精度と時間的一貫性の観点から、過去のすべての生成深度モデルより優れている。

Video depth estimation has long been hindered by the scarcity of consistent and scalable ground truth data, leading to inconsistent and unreliable results. In this paper, we introduce Depth Any Video, a model that tackles the challenge through two key innovations. First, we develop a scalable synthetic data pipeline, capturing real-time video depth data from diverse synthetic environments, yielding 40,000 video clips of 5-second duration, each with precise depth annotations. Second, we leverage the powerful priors of generative video diffusion models to handle real-world videos effectively, integrating advanced techniques such as rotary position encoding and flow matching to further enhance flexibility and efficiency. Unlike previous models, which are limited to fixed-length video sequences, our approach introduces a novel mixed-duration training strategy that handles videos of varying lengths and performs robustly across different frame rates-even on single frames. At inference, we propose a depth interpolation method that enables our model to infer high-resolution video depth across sequences of up to 150 frames. Our model outperforms all previous generative depth models in terms of spatial accuracy and temporal consistency.
翻訳日:2024-10-29 19:24:58 公開日:2024-10-14
# LVD-2M:テンポラリDenseキャプション付きロングテイクビデオデータセット

LVD-2M: A Long-take Video Dataset with Temporally Dense Captions ( http://arxiv.org/abs/2410.10816v1 )

ライセンス: Link先を確認
Tianwei Xiong, Yuqing Wang, Daquan Zhou, Zhijie Lin, Jiashi Feng, Xihui Liu, (参考訳) ビデオ生成モデルの有効性は、トレーニングデータセットの品質に大きく依存する。 従来のビデオ生成モデルは、短いビデオクリップでトレーニングされているが、最近では、長いビデオ生成モデルを直接、より長いビデオ上でトレーニングすることへの関心が高まっている。 しかし、このような高品質な長編ビデオの欠如は、長編ビデオ生成の進歩を妨げている。 長ビデオ生成における研究を促進するために,(1)10秒以上の長ビデオ,(2)カットなしの長ビデオ,(3)大きな動きと多様な内容,(4)時間的に密集したキャプションという,長ビデオ生成モデルのトレーニングに不可欠な4つの重要な特徴を持つ新たなデータセットが望まれている。 そこで本稿では,高品質なロングテイクビデオを選択し,時間的に密接なキャプションを生成するパイプラインを提案する。 具体的には、シーンカット、ダイナミック度、セマンティックレベルの品質などのビデオ品質を定量的に評価する指標を定義し、大量のソースビデオから高品質なロングテイクビデオをフィルタリングする。 その後,時間的に細かな字幕で長大なビデオに注釈を付けるための階層型ビデオキャプションパイプラインを開発した。 このパイプラインでは,200万本の長手ビデオからなる最初の長手ビデオデータセットであるLVD-2Mをキュレートし,それぞれ10秒以上をカバーし,時間的に密度の高いキャプションを付加する。 動画像を生成するための微調整ビデオ生成モデルにより,LVD-2Mの有効性をさらに検証する。 私たちの研究は、長いビデオ生成における将来の研究に大きく貢献すると考えています。

The efficacy of video generation models heavily depends on the quality of their training datasets. Most previous video generation models are trained on short video clips, while recently there has been increasing interest in training long video generation models directly on longer videos. However, the lack of such high-quality long videos impedes the advancement of long video generation. To promote research in long video generation, we desire a new dataset with four key features essential for training long video generation models: (1) long videos covering at least 10 seconds, (2) long-take videos without cuts, (3) large motion and diverse contents, and (4) temporally dense captions. To achieve this, we introduce a new pipeline for selecting high-quality long-take videos and generating temporally dense captions. Specifically, we define a set of metrics to quantitatively assess video quality including scene cuts, dynamic degrees, and semantic-level quality, enabling us to filter high-quality long-take videos from a large amount of source videos. Subsequently, we develop a hierarchical video captioning pipeline to annotate long videos with temporally-dense captions. With this pipeline, we curate the first long-take video dataset, LVD-2M, comprising 2 million long-take videos, each covering more than 10 seconds and annotated with temporally dense captions. We further validate the effectiveness of LVD-2M by fine-tuning video generation models to generate long videos with dynamic motions. We believe our work will significantly contribute to future research in long video generation.
翻訳日:2024-10-29 19:24:58 公開日:2024-10-14
# 知覚的アライメント・ベネフィット・ビジョンはいつ表現されるか?

When Does Perceptual Alignment Benefit Vision Representations? ( http://arxiv.org/abs/2410.10817v1 )

ライセンス: Link先を確認
Shobhita Sundaram, Stephanie Fu, Lukas Muttenthaler, Netanel Y. Tamir, Lucy Chai, Simon Kornblith, Trevor Darrell, Phillip Isola, (参考訳) 人間は、シーンのレイアウト、被写体の位置、カメラのポーズなど、様々な視覚特性に応じて知覚的類似性を判断する。 既存の視覚モデルは、幅広いセマンティック抽象化を理解するが、これらの属性を不適切に重み付けすることにより、推論を人間の知覚と一致させる。 視覚表現は、画像生成のようなコンテキストにおけるアライメントの恩恵を受けてきたが、より汎用的な設定における知覚的にアライメントされた表現の有用性は、まだ不明である。 本稿では,視覚モデル表現と人間の知覚的判断との整合が,コンピュータビジョンタスクにおけるユーザビリティに与える影響について検討する。 我々は、画像三重項の人間類似性判定の最先端モデルを微調整し、標準的な視覚ベンチマークで評価する。 知覚的判断にモデルを合わせることで、カウント、セグメンテーション、深さ推定、インスタンス検索、検索強化生成など、多くの下流タスクにおける元のバックボーンを改善する表現が得られることがわかった。 また,医用画像や3D環境フレームなど,専門分野の特化など,他のタスクでもパフォーマンスが維持されていることが判明した。 その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。

Humans judge perceptual similarity according to diverse visual attributes, including scene layout, subject location, and camera pose. Existing vision models understand a wide range of semantic abstractions but improperly weigh these attributes and thus make inferences misaligned with human perception. While vision representations have previously benefited from alignment in contexts like image generation, the utility of perceptually aligned representations in more general-purpose settings remains unclear. Here, we investigate how aligning vision model representations to human perceptual judgments impacts their usability across diverse computer vision tasks. We finetune state-of-the-art models on human similarity judgments for image triplets and evaluate them across standard vision benchmarks. We find that aligning models to perceptual judgments yields representations that improve upon the original backbones across many downstream tasks, including counting, segmentation, depth estimation, instance retrieval, and retrieval-augmented generation. In addition, we find that performance is widely preserved on other tasks, including specialized out-of-distribution domains such as in medical imaging and 3D environment frames. Our results suggest that injecting an inductive bias about human perceptual knowledge into vision models can contribute to better representations.
翻訳日:2024-10-29 19:24:58 公開日:2024-10-14
# DuoAttention: 検索とストリーミングによるLLM推論の効率化

DuoAttention: Efficient Long-Context LLM Inference with Retrieval and Streaming Heads ( http://arxiv.org/abs/2410.10819v1 )

ライセンス: Link先を確認
Guangxuan Xiao, Jiaming Tang, Jingwei Zuo, Junxian Guo, Shang Yang, Haotian Tang, Yao Fu, Song Han, (参考訳) LLM(Long-context Large Language Model)の展開は不可欠だが、計算とメモリの面で大きな課題がある。 すべての注目ヘッドにキーとバリュー(KV)のステートをキャッシュすると、かなりのメモリが消費される。 既存のKVキャッシュプルーニング手法は、LLMの長期コンテキスト能力を損なうか、限られた効率改善しか提供しない。 本稿では,長いコンテキストの処理に重要であり,すべてのトークンに完全に注意を要するのは,少数の注意頭(Retrieval Heads)のみであることを示す。 対照的に、近年のトークンと注目に重点を置く他のすべての頭は、ストリーミングヘッドとして参照され、完全な注意を必要としない。 この知見に基づいて,DuoAttentionは,ストリーミングヘッドに軽量で一定長のKVキャッシュを使用しながら,検索ヘッドにフルKVキャッシュのみを適用するフレームワークである。 DuoAttentionは、合成データによる軽量な最適化ベースのアルゴリズムを使用して、検索ヘッドを正確に識別する。 提案手法は,GQAモデルに対して最大2.55倍,GQAモデルに対して最大1.67倍,復号化を最大2.18倍,GQAモデルに対して最大1.73倍,GQAモデルに対して最大1.63倍の高速化を実現した。 特に量子化と組み合わせて、DuoAttentionは単一のA100 GPU上で330万のコンテキスト長を持つLlama-3-8Bデコードを可能にする。 コードはhttps://github.com/mit-han-lab/duo-attention.comで提供されている。

Deploying long-context large language models (LLMs) is essential but poses significant computational and memory challenges. Caching all Key and Value (KV) states across all attention heads consumes substantial memory. Existing KV cache pruning methods either damage the long-context capabilities of LLMs or offer only limited efficiency improvements. In this paper, we identify that only a fraction of attention heads, a.k.a, Retrieval Heads, are critical for processing long contexts and require full attention across all tokens. In contrast, all other heads, which primarily focus on recent tokens and attention sinks--referred to as Streaming Heads--do not require full attention. Based on this insight, we introduce DuoAttention, a framework that only applies a full KV cache to retrieval heads while using a light-weight, constant-length KV cache for streaming heads, which reduces both LLM's decoding and pre-filling memory and latency without compromising its long-context abilities. DuoAttention uses a lightweight, optimization-based algorithm with synthetic data to identify retrieval heads accurately. Our method significantly reduces long-context inference memory by up to 2.55x for MHA and 1.67x for GQA models while speeding up decoding by up to 2.18x and 1.50x and accelerating pre-filling by up to 1.73x and 1.63x for MHA and GQA models, respectively, with minimal accuracy loss compared to full attention. Notably, combined with quantization, DuoAttention enables Llama-3-8B decoding with 3.3 million context length on a single A100 GPU. Code is provided in https://github.com/mit-han-lab/duo-attention.
翻訳日:2024-10-29 19:24:58 公開日:2024-10-14