このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240925となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 深部線形ニューラルネットワークのロスランドスケープ--第2次
分析
The loss landscape of deep linear neural networks: a second-order analysis ( http://arxiv.org/abs/2107.13289v1 ) ライセンス: Link先を確認 | El Mehdi Achour, Fran\c{c}ois Malgouyres (IMT), S\'ebastien Gerchinovitz (IMT) | (参考訳) 正方形損失を伴う深部線形ニューラルネットワークの最適化環境について検討する。
弱い仮定の下では、急激な局所ミニマは存在せず、局所的な極小マも存在しないことが知られている。
しかし、一階アルゴリズムの力学において重要な役割を果たしうる非制限サドル点の存在と多様性は、わずかに研究されているだけである。
最適化の展望を順2で完全に分析し、さらに一歩進める。
我々は、すべての臨界点の中で、大域最小化点、厳格なサドル点、非制限サドル点を特徴づける。
関連するすべての臨界値を列挙する。
特徴付けは単純で、部分行列積のランクの条件を伴い、線形ニューラルネットワークを最適化する際に証明または観察された大域収束や暗黙の正則化にいくらか光を当てる。
通過において、全大域最小化器の集合の明示的なパラメータ化を提供し、厳密で非制限的なサドル点の集合を示す。
We study the optimization landscape of deep linear neural networks with the square loss. It is known that, under weak assumptions, there are no spurious local minima and no local maxima. However, the existence and diversity of non-strict saddle points, which can play a role in first-order algorithms' dynamics, have only been lightly studied. We go a step further with a full analysis of the optimization landscape at order 2. We characterize, among all critical points, which are global minimizers, strict saddle points, and non-strict saddle points. We enumerate all the associated critical values. The characterization is simple, involves conditions on the ranks of partial matrix products, and sheds some light on global convergence or implicit regularization that have been proved or observed when optimizing linear neural networks. In passing, we provide an explicit parameterization of the set of all global minimizers and exhibit large sets of strict and non-strict saddle points. | 翻訳日:2024-11-09 15:57:56 公開日:2024-09-25 |
# 深部線形ニューラルネットワークのロスランドスケープ:2次解析
The loss landscape of deep linear neural networks: a second-order analysis ( http://arxiv.org/abs/2107.13289v3 ) ライセンス: Link先を確認 | El Mehdi Achour, François Malgouyres, Sébastien Gerchinovitz, | (参考訳) 正方形損失を伴う深部線形ニューラルネットワークの最適化環境について検討する。
弱い仮定の下では、急激な局所ミニマは存在せず、局所的な極小マも存在しないことが知られている。
しかし、一階アルゴリズムの力学において重要な役割を果たしうる非制限サドル点の存在と多様性は、わずかに研究されているだけである。
最適化の展望を順2で完全に分析し、さらに一歩進める。
我々は、すべての臨界点の中で、大域最小化点、厳格なサドル点、非制限サドル点を特徴づける。
関連するすべての臨界値を列挙する。
特徴付けは単純で、部分行列積のランクの条件を伴い、線形ニューラルネットワークを最適化する際に証明または観察された大域収束や暗黙の正則化にいくらか光を当てる。
通過において、全大域最小化器の集合の明示的なパラメータ化を提供し、厳密で非制限的なサドル点の集合を示す。
We study the optimization landscape of deep linear neural networks with the square loss. It is known that, under weak assumptions, there are no spurious local minima and no local maxima. However, the existence and diversity of non-strict saddle points, which can play a role in first-order algorithms' dynamics, have only been lightly studied. We go a step further with a full analysis of the optimization landscape at order 2. We characterize, among all critical points, which are global minimizers, strict saddle points, and non-strict saddle points. We enumerate all the associated critical values. The characterization is simple, involves conditions on the ranks of partial matrix products, and sheds some light on global convergence or implicit regularization that have been proved or observed when optimizing linear neural networks. In passing, we provide an explicit parameterization of the set of all global minimizers and exhibit large sets of strict and non-strict saddle points. | 翻訳日:2024-11-09 15:57:56 公開日:2024-09-25 |
# ZXダイアグラムの微分積分と量子機械学習への応用
Differentiating and Integrating ZX Diagrams with Applications to Quantum Machine Learning ( http://arxiv.org/abs/2201.13250v7 ) ライセンス: Link先を確認 | Quanlong Wang, Richie Yeung, Mark Koch, | (参考訳) ZX計算は、幅広い応用が成功した量子技術にとって有用なツールであることが証明されている。
これらの応用のほとんどは代数的性質のものである。
しかし、差別化と統合を含む他のタスクは、現在のZX技術では到達できないままである。
ここでは、ZX-計算の枠組み内での微分と積分を実現することにより、ZXを解析的視点に高める。
本稿では,バレンプラトーの解析に量子機械学習を応用し,ZX計算の新しい解析フレームワークを具体的に解説する。
ZX-calculus has proved to be a useful tool for quantum technology with a wide range of successful applications. Most of these applications are of an algebraic nature. However, other tasks that involve differentiation and integration remain unreachable with current ZX techniques. Here we elevate ZX to an analytical perspective by realising differentiation and integration entirely within the framework of ZX-calculus. We explicitly illustrate the new analytic framework of ZX-calculus by applying it in context of quantum machine learning for the analysis of barren plateaus. | 翻訳日:2024-11-09 15:46:48 公開日:2024-09-25 |
# 量子マルチパラメータ推定のためのギャップパーシステンス定理
The gap persistence theorem for quantum multiparameter estimation ( http://arxiv.org/abs/2208.07386v3 ) ライセンス: Link先を確認 | Lorcán O. Conlon, Jun Suzuki, Ping Koy Lam, Syed M. Assad, | (参考訳) 量子距離論の1つの重要な側面は、複数のパラメータの同時推定によってのみ明らかである。
対称対数微分 Cram\'er-Rao bound (SLDCRB) は、各パラメータの可換性を推定するための最適な測定値である場合、達成可能な精度を与える。
最適測定が通勤しない場合、SLDCRBは必ずしも到達できない。
この点において、ホレボ・クラム・ラオ境界(HCRB)は基本的役割を担い、量子状態の無限に多くのコピーを同時に測定できるとき、最終的な到達可能な精度を提供する。
実用的な目的のために、長岡クラム・ラオ境界(NCRB)はより関係があり、個別に量子状態を測定することに制限される。
これら3つの境界の間の相互作用は、プローブ状態の有限コピーの集合的測定によって、究極の気象学的精度がいかに早くアプローチできるかを定めている。
まず2つのパラメータ推定を考慮し、HCRBがプローブ状態の1つのコピーで飽和できない場合、プローブ状態の有限個のコピーに対して飽和できないことを証明した。
そこで本研究では, HCRB を物理的に動機づけたいくつかの問題に対して飽和させることは不可能であることを示す。
パラメータの数を推定するためには,SLDCRBの到達可能性に必要かつ十分な条件を分離可能な測定で提供する。
さらに、SLDCRBがプローブ状態の1つのコピーで到達できない場合、プローブ状態の有限個のコピーの集合的な測定では到達できないことを示す。
これらの結果は、プローブ状態の有限個のコピーに対して、SLDCRBが到達可能であるために必要かつ十分な条件を提供する。
これは、最近[P. Horodecki et al, Phys. Rev. X Quantum 3, 010101 (2022)] によって強調された5つの問題の1つを顕著に一般化する。
One key aspect of quantum metrology, measurement incompatibility, is evident only through the simultaneous estimation of multiple parameters. The symmetric logarithmic derivative Cram\'er-Rao bound (SLDCRB), gives the attainable precision, if the optimal measurements for estimating each individual parameter commute. When the optimal measurements do not commute, the SLDCRB is not necessarily attainable. In this regard, the Holevo Cram\'er-Rao bound (HCRB) plays a fundamental role, providing the ultimate attainable precisions when one allows simultaneous measurements on infinitely many copies of a quantum state. For practical purposes, the Nagaoka Cram\'er-Rao bound (NCRB) is more relevant, applying when restricted to measuring quantum states individually. The interplay between these three bounds dictates how rapidly the ultimate metrological precisions can be approached through collective measurements on finite copies of the probe state. We first consider two parameter estimation and prove that if the HCRB cannot be saturated with a single copy of the probe state, then it cannot be saturated for any finite number of copies of the probe state. With this, we show that it is impossible to saturate the HCRB for several physically motivated problems. For estimating any number of parameters, we provide necessary and sufficient conditions for the attainability of the SLDCRB with separable measurements. We further prove that if the SLDCRB cannot be reached with a single copy of the probe state, it cannot be reached with collective measurements on any finite number of copies of the probe state. These results together provide necessary and sufficient conditions for the attainability of the SLDCRB for any finite number of copies of the probe state. This solves a significant generalisation of one of the five problems recently highlighted by [P.Horodecki et al, Phys. Rev. X Quantum 3, 010101 (2022)]. | 翻訳日:2024-11-09 15:46:48 公開日:2024-09-25 |
# Solidago: モジュール型のコラボレーションスコーリングパイプライン
Solidago: A Modular Collaborative Scoring Pipeline ( http://arxiv.org/abs/2211.01179v3 ) ライセンス: Link先を確認 | Lê Nguyên Hoang, Romain Beylerian, Bérangère Colbois, Julien Fageot, Louis Faucon, Aidan Jungo, Alain Le Noac'h, Adrien Matissart, Oscar Villemaud, | (参考訳) 本稿では,任意のユーザコミュニティが任意のエンティティを共同でスコアすることを可能にする,エンドツーエンドのモジュールパイプラインであるSolidagoを提案する。
Solidagoは6つのモジュールの分解を提案している。
まず、プリトラストとピアツーピアのブーチを使用して、信頼スコアをユーザーに割り当てる。
第2に、参加に基づいて、信頼スコアは、エンティティごとのユーザ当たりの投票権に変換される。
第3に、各ユーザに対して、ユーザの評価データから嗜好モデルを学ぶ。
第4に、ユーザーのモデルは同様の規模に置かれる。
第5に、これらのモデルは安全に集約されます。
6番目は、人間が読めるグローバルスコアを得るために後処理される。
また、新しい信頼伝播アルゴリズム、最先端スケーリングおよび集約ソリューションの適応を含む6つのモジュールのデフォルト実装も提案する。
当社のパイプラインはオープンソースプラットフォームである Tournesol.app にデプロイされています。
これにより、あらゆる種類のエンティティの協調的、効果的、スケーラブル、公正、解釈可能、セキュアなスコアリングのための魅力的な基盤を築きます。
This paper presents Solidago, an end-to-end modular pipeline to allow any community of users to collaboratively score any number of entities. Solidago proposes a six-module decomposition. First, it uses pretrust and peer-to-peer vouches to assign trust scores to users. Second, based on participation, trust scores are turned into voting rights per user per entity. Third, for each user, a preference model is learned from the user's evaluation data. Fourth, users' models are put on a similar scale. Fifth, these models are securely aggregated. Sixth, models are post-processed to yield human-readable global scores. We also propose default implementations of the six modules, including a novel trust propagation algorithm, and adaptations of state-of-the-art scaling and aggregation solutions. Our pipeline has been successfully deployed on the open-source platform tournesol.app. We thereby lay an appealing foundation for the collaborative, effective, scalable, fair, interpretable and secure scoring of any set of entities. | 翻訳日:2024-11-09 15:35:37 公開日:2024-09-25 |
# 解釈型機械学習を用いたIctal-Interictal-Injull Continuumにおける脳波パターン分類における臨床成績の改善
Improving Clinician Performance in Classification of EEG Patterns on the Ictal-Interictal-Injury Continuum using Interpretable Machine Learning ( http://arxiv.org/abs/2211.05207v5 ) ライセンス: Link先を確認 | Alina Jade Barnett, Zhicheng Guo, Jin Jing, Wendong Ge, Peter W. Kaplan, Wan Yee Kong, Ioannis Karakis, Aline Herlopian, Lakshman Arcot Jayagopal, Olga Taraschenko, Olga Selioutski, Gamaleldin Osman, Daniel Goldenholz, Cynthia Rudin, M. Brandon Westover, | (参考訳) 集中治療室(ICUs)では、重度の脳損傷を防ぐために、重度疾患のある患者は脳波(EEGs)で監視される。
モニター可能な患者の数は、訓練された医師が脳波を読むために利用できることによって制限され、脳波の解釈は主観的であり、サーバ間の変動が難しくなる。
脳波のための自動ディープラーニングシステムは、人間のバイアスを減らし、診断プロセスを加速する。
しかし、ブラックボックスのディープラーニングモデルは信頼できない、トラブルシューティングが難しい、現実のアプリケーションでは説明責任が欠如しているため、臨床医による信頼と採用の欠如につながっている。
これらの課題に対処するために、有害な脳波パターンの存在を予測するだけでなく、その決定に関する高品質なケースベース説明を提供する、解釈可能な新しいディープラーニングモデルを提案する。
我々のモデルは解釈可能であることを制約されているにもかかわらず、対応するブラックボックスモデルよりも優れた性能を発揮する。
学習した2次元埋め込み空間は、頭蓋内損傷連続体脳波パターンの構造に関する最初の大域的概要を提供する。
我々のモデルがどのように決定に達したかを理解する能力は、臨床医が有害な脳活動の診断と治療をより正確に行うのに役立つだけでなく、臨床実践における機械学習モデルの信頼と採用を高めるのに役立つ。
In intensive care units (ICUs), critically ill patients are monitored with electroencephalograms (EEGs) to prevent serious brain injury. The number of patients who can be monitored is constrained by the availability of trained physicians to read EEGs, and EEG interpretation can be subjective and prone to inter-observer variability. Automated deep learning systems for EEG could reduce human bias and accelerate the diagnostic process. However, black box deep learning models are untrustworthy, difficult to troubleshoot, and lack accountability in real-world applications, leading to a lack of trust and adoption by clinicians. To address these challenges, we propose a novel interpretable deep learning model that not only predicts the presence of harmful brainwave patterns but also provides high-quality case-based explanations of its decisions. Our model performs better than the corresponding black box model, despite being constrained to be interpretable. The learned 2D embedded space provides the first global overview of the structure of ictal-interictal-injury continuum brainwave patterns. The ability to understand how our model arrived at its decisions will not only help clinicians to diagnose and treat harmful brain activities more accurately but also increase their trust and adoption of machine learning models in clinical practice; this could be an integral component of the ICU neurologists' standard workflow. | 翻訳日:2024-11-09 15:35:37 公開日:2024-09-25 |
# テンソルネットを用いた量子フーリエ変換のシミュレーション、グローバーのアルゴリズム、および限定絡み付き量子カウントアルゴリズム
Simulating the quantum Fourier transform, Grover's algorithm, and the quantum counting algorithm with limited entanglement using tensor-networks ( http://arxiv.org/abs/2304.01751v2 ) ライセンス: Link先を確認 | Marcel Niedermeier, Jose L. Lado, Christian Flindt, | (参考訳) 量子アルゴリズムは、計算問題を大きなヒルベルト空間における量子進化として再構成する。
ほとんどの量子アルゴリズムは、時間進化は完全にユニタリであり、完全なヒルベルト空間が利用できると仮定する。
しかし実際には、利用可能な絡み合いは限られており、量子アルゴリズムの忠実度は低下する。
量子回路の絡み合いを制限できるため、量子アルゴリズムの実行を限定的にシミュレートするため、テンソルネットワーク法は有用なフレームワークを提供する。
そこで本研究では,量子フーリエ変換,グロバーのアルゴリズム,および量子カウントアルゴリズムのエンタングルメントが減少するにつれて,テンソルネットワークを用いて量子フーリエ変換の忠実度を解析し,各アルゴリズムの実行時に発生するエンタングルメントをマッピングする。
いずれの場合も,絡み合いが幾分小さくても,アルゴリズムは高い忠実度で実行可能であることがわかった。
この結果は将来の量子コンピュータ上でこれらのアルゴリズムを実行することを約束しており、テンソルネットワークに基づくシミュレーション手法は他の量子アルゴリズムにも適用することができる。
Quantum algorithms reformulate computational problems as quantum evolutions in a large Hilbert space. Most quantum algorithms assume that the time-evolution is perfectly unitary and that the full Hilbert space is available. However, in practice, the available entanglement may be limited, leading to a reduced fidelity of the quantum algorithms. To simulate the execution of quantum algorithms with limited entanglement, tensor-network methods provide a useful framework, since they allow us to restrict the entanglement in a quantum circuit. Thus, we here use tensor-networks to analyze the fidelity of the quantum Fourier transform, Grover's algorithm, and the quantum counting algorithm as the entanglement is reduced, and we map out the entanglement that is generated during the execution of each algorithm. In all three cases, we find that the algorithms can be executed with high fidelity even if the entanglement is somewhat reduced. Our results are promising for the execution of these algorithms on future quantum computers, and our simulation method based on tensor networks may also be applied to other quantum algorithms. | 翻訳日:2024-11-09 15:24:36 公開日:2024-09-25 |
# 非凸非平滑最適化問題に対する射影近位勾配:クルディカ・ロジャシエヴィチ(KL)特性のない高速収束
Projective Proximal Gradient Descent for A Class of Nonconvex Nonsmooth Optimization Problems: Fast Convergence Without Kurdyka-Lojasiewicz (KL) Property ( http://arxiv.org/abs/2304.10499v2 ) ライセンス: Link先を確認 | Yingzhen Yang, Ping Li, | (参考訳) 非凸および非滑らかな最適化問題は統計学と機械学習にとって重要かつ困難な問題である。
本稿では,非凸・非平滑な最適化問題のクラスを非凸・非平滑な非平滑な正規化項から解き,非凸・非平滑な最適化問題であるPGD(Projected Proximal Gradient Descent)を提案する。
クルディカ・オジャシエヴィチ(K\L{}ojasiewicz)の性質に基づく非凸および非滑らか問題に対する加速PGD法の既存の収束解析とは対照的に、PPGDの局所的高速収束を示す新しい理論解析を提供する。
PPGDは、緩やかな仮定の下での非凸および非滑らかな問題のクラスにおいて、反復数 $k \ge k_0$ for a finite $k_0$ に対して $\cO(1/k^2)$ の高速収束率を達成することが証明された。
実験の結果, PPGDの有効性が示された。
Nonconvex and nonsmooth optimization problems are important and challenging for statistics and machine learning. In this paper, we propose Projected Proximal Gradient Descent (PPGD) which solves a class of nonconvex and nonsmooth optimization problems, where the nonconvexity and nonsmoothness come from a nonsmooth regularization term which is nonconvex but piecewise convex. In contrast with existing convergence analysis of accelerated PGD methods for nonconvex and nonsmooth problems based on the Kurdyka-\L{}ojasiewicz (K\L{}) property, we provide a new theoretical analysis showing local fast convergence of PPGD. It is proved that PPGD achieves a fast convergence rate of $\cO(1/k^2)$ when the iteration number $k \ge k_0$ for a finite $k_0$ on a class of nonconvex and nonsmooth problems under mild assumptions, which is locally Nesterov's optimal convergence rate of first-order methods on smooth and convex objective function with Lipschitz continuous gradient. Experimental results demonstrate the effectiveness of PPGD. | 翻訳日:2024-11-09 15:13:22 公開日:2024-09-25 |
# 移動エゴ車からのイベントフリー移動物体セグメンテーション
Event-Free Moving Object Segmentation from Moving Ego Vehicle ( http://arxiv.org/abs/2305.00126v3 ) ライセンス: Link先を確認 | Zhuyun Zhou, Zongwei Wu, Danda Pani Paudel, Rémi Boutteau, Fan Yang, Luc Van Gool, Radu Timofte, Dominique Ginhac, | (参考訳) 動的シーンにおける移動物体セグメンテーション(MOS)は、特に移動するエゴ車から得られるシーケンスについて、重要な、難しい、しかし未調査の研究テーマである。
ほとんどのセグメンテーション法は、光学フローマップから得られるモーションキューを利用する。
しかし、これらの手法は連続するRGBフレームから事前計算される光学的流れに基づいていることが多いため、フレーム内で発生した事象の時間的考慮を無視して、相対的な静的性を示すが実際に動いている物体を識別する能力を制限する。
これらの制約に対処するために,光学的フローに頼ることなくリッチなモーションキューを提供する,より優れた映像理解のためのイベントカメラの利用を提案する。
この分野での研究を促進するために、我々はまずDSEC-MOSと呼ばれる新しい大規模データセットを導入し、移動中のエゴ車から物体のセグメンテーションを移動させる。
ベンチマークでは、さまざまな主流メソッドを選択し、データセット上でそれらを厳格に評価する。
その後、イベントデータを活用可能な新しいネットワークであるEmoFormerを考案した。
この目的のために、時間的前兆を空間意味マップと融合させ、実際に動く物体を静的な背景から区別し、興味のある物体の周囲に別のレベルの集中的な監督を加える。
提案するネットワークは,トレーニングにイベントデータのみに依存するが,推論時にイベント入力を必要としないため,効率の面でフレームのみの手法と直接的に比較でき,多くのアプリケーションでより広く利用することができる。
徹底的な比較は、他のすべての方法と比較して、我々の手法の大幅な性能向上を浮き彫りにしている。
ソースコードとデータセットは、https://github.com/ZZY-Zhou/DSEC-MOSで公開されている。
Moving object segmentation (MOS) in dynamic scenes is an important, challenging, but under-explored research topic for autonomous driving, especially for sequences obtained from moving ego vehicles. Most segmentation methods leverage motion cues obtained from optical flow maps. However, since these methods are often based on optical flows that are pre-computed from successive RGB frames, this neglects the temporal consideration of events occurring within the inter-frame, consequently constraining its ability to discern objects exhibiting relative staticity but genuinely in motion. To address these limitations, we propose to exploit event cameras for better video understanding, which provide rich motion cues without relying on optical flow. To foster research in this area, we first introduce a novel large-scale dataset called DSEC-MOS for moving object segmentation from moving ego vehicles, which is the first of its kind. For benchmarking, we select various mainstream methods and rigorously evaluate them on our dataset. Subsequently, we devise EmoFormer, a novel network able to exploit the event data. For this purpose, we fuse the event temporal prior with spatial semantic maps to distinguish genuinely moving objects from the static background, adding another level of dense supervision around our object of interest. Our proposed network relies only on event data for training but does not require event input during inference, making it directly comparable to frame-only methods in terms of efficiency and more widely usable in many application cases. The exhaustive comparison highlights a significant performance improvement of our method over all other methods. The source code and dataset are publicly available at: https://github.com/ZZY-Zhou/DSEC-MOS. | 翻訳日:2024-11-09 15:13:22 公開日:2024-09-25 |
# 大規模言語モデルのための高速分散推論
Fast Distributed Inference Serving for Large Language Models ( http://arxiv.org/abs/2305.05920v2 ) ライセンス: Link先を確認 | Bingyang Wu, Yinmin Zhong, Zili Zhang, Gang Huang, Xuanzhe Liu, Xin Jin, | (参考訳) 大規模言語モデル(LLM)は、ChatGPTで実証された対話型AIアプリケーションの新しい世代のパワーである。
これらのアプリケーションのインタラクティブな性質は、LLM推論に低レイテンシを必要とする。
既存のLLMサービスシステムは、ライン・オブ・ラインのブロッキングと長時間の待ち時間に悩まされる推論ジョブに対して、実行から補完処理を使用する。
LLMのための分散推論サービスシステムであるFastServeについて述べる。
FastServeはLLM推論の自己回帰パターンを利用して、各出力トークンの粒度のプリエンプションを可能にする。
FastServeはプリエンプティブスケジューリングを使用して、新しいスキップジョイントマルチレベルフィードバックキュースケジューラでレイテンシを最小限にする。
LLM推論の新たな半情報非依存設定に基づいて、スケジューラは入力長情報を利用して、到着する各ジョブに適切な初期キューを割り当てる。
結合キューよりも優先度の高いキューは、削除を減らすためにスキップされる。
我々は、LLM推論のためのGPUメモリとホストメモリの中間状態を積極的にオフロードし、アップロードする効率的なGPUメモリ管理機構を設計する。
我々は,FastServeのシステムプロトタイプを構築し,最先端のソリューションであるvLLMと比較して,同じ平均および末尾遅延条件下でのスループットを最大31.4xと17.9xに改善したことを示す。
Large language models (LLMs) power a new generation of interactive AI applications exemplified by ChatGPT. The interactive nature of these applications demands low latency for LLM inference. Existing LLM serving systems use run-to-completion processing for inference jobs, which suffers from head-of-line blocking and long latency. We present FastServe, a distributed inference serving system for LLMs. FastServe exploits the autoregressive pattern of LLM inference to enable preemption at the granularity of each output token. FastServe uses preemptive scheduling to minimize latency with a novel skip-join Multi-Level Feedback Queue scheduler. Based on the new semi-information-agnostic setting of LLM inference, the scheduler leverages the input length information to assign an appropriate initial queue for each arrival job to join. The higher priority queues than the joined queue are skipped to reduce demotions. We design an efficient GPU memory management mechanism that proactively offloads and uploads intermediate state between GPU memory and host memory for LLM inference. We build a system prototype of FastServe and experimental results show that compared to the state-of-the-art solution vLLM, FastServe improves the throughput by up to 31.4x and 17.9x under the same average and tail latency requirements, respectively. | 翻訳日:2024-11-09 15:13:22 公開日:2024-09-25 |
# 大規模言語モデルのための高速分散推論
Fast Distributed Inference Serving for Large Language Models ( http://arxiv.org/abs/2305.05920v3 ) ライセンス: Link先を確認 | Bingyang Wu, Yinmin Zhong, Zili Zhang, Shengyu Liu, Fangyue Liu, Yuanhang Sun, Gang Huang, Xuanzhe Liu, Xin Jin, | (参考訳) 大規模言語モデル(LLM)は、ChatGPTで実証された対話型AIアプリケーションの新しい世代のパワーである。
これらのアプリケーションのインタラクティブな性質は、LLM推論に低レイテンシを必要とする。
既存のLLMサービスシステムは、ライン・オブ・ラインのブロッキングと長時間の待ち時間に悩まされる推論ジョブに対して、実行から補完処理を使用する。
LLMのための分散推論サービスシステムであるFastServeについて述べる。
FastServeはLLM推論の自己回帰パターンを利用して、各出力トークンの粒度のプリエンプションを可能にする。
FastServeはプリエンプティブスケジューリングを使用して、新しいスキップジョイントマルチレベルフィードバックキュースケジューラでレイテンシを最小限にする。
LLM推論の新たな半情報非依存設定に基づいて、スケジューラは入力長情報を利用して、到着する各ジョブに適切な初期キューを割り当てる。
結合キューよりも優先度の高いキューは、削除を減らすためにスキップされる。
我々は、LLM推論のためのGPUメモリとホストメモリの中間状態を積極的にオフロードし、アップロードする効率的なGPUメモリ管理機構を設計する。
我々は,FastServeのシステムプロトタイプを構築し,最先端のソリューションであるvLLMと比較して,同じ平均および末尾遅延条件下でのスループットを最大31.4xと17.9xに改善したことを示す。
Large language models (LLMs) power a new generation of interactive AI applications exemplified by ChatGPT. The interactive nature of these applications demands low latency for LLM inference. Existing LLM serving systems use run-to-completion processing for inference jobs, which suffers from head-of-line blocking and long latency. We present FastServe, a distributed inference serving system for LLMs. FastServe exploits the autoregressive pattern of LLM inference to enable preemption at the granularity of each output token. FastServe uses preemptive scheduling to minimize latency with a novel skip-join Multi-Level Feedback Queue scheduler. Based on the new semi-information-agnostic setting of LLM inference, the scheduler leverages the input length information to assign an appropriate initial queue for each arrival job to join. The higher priority queues than the joined queue are skipped to reduce demotions. We design an efficient GPU memory management mechanism that proactively offloads and uploads intermediate state between GPU memory and host memory for LLM inference. We build a system prototype of FastServe and experimental results show that compared to the state-of-the-art solution vLLM, FastServe improves the throughput by up to 31.4x and 17.9x under the same average and tail latency requirements, respectively. | 翻訳日:2024-11-09 15:13:22 公開日:2024-09-25 |
# 言語モデルに追従する: バイアス監査のためのシステムベンチマーク拡張
Keeping Up with the Language Models: Systematic Benchmark Extension for Bias Auditing ( http://arxiv.org/abs/2305.12620v2 ) ライセンス: Link先を確認 | Ioana Baldini, Chhavi Yadav, Manish Nagireddy, Payel Das, Kush R. Varshney, | (参考訳) 言語モデル (LM) のバイアス監査は, LM が普及するにつれて注目されている。
このように、バイアス監査のためのいくつかのベンチマークが提案されている。
同時に、LMの急速な進化は、これらのベンチマークをすぐに無関係にすることができる。
バイアス監査は、LMの脆性によってさらに複雑である: おそらくバイアスのある結果が観察された場合、それはモデルバイアスかモデル脆性によるものか?
モデル自体を登録して、困難なままのバイアス監査データセットの構築を支援し、異なるタイプのモデルエラーを区別するバイアス測定を導入することを提案する。
まず,NLI(BBNLI)の既存のバイアスベンチマークを,LM生成語彙の変動,逆フィルタリング,人間による検証の組み合わせを用いて拡張する。
BBNLI-nextは平均して最先端のNLIモデルの精度を95.3%から57.5%に下げる。
次に、BBNLI-nextを用いて、ロバスト性とバイアスの相互作用を示す。現在のバイアススコアの欠点を指摘し、バイアスとモデルの脆さを考慮に入れたバイアス対策を提案する。
第三に、BBNLI-nextは非生成モデルを念頭に設計されているにもかかわらず、新しいデータセットは、最先端のオープンソース生成LMのバイアスを明らかにすることが可能であることを示す。
注: この研究に含まれるすべてのデータセットは英語で書かれており、米国中心の社会的偏見に対処している。
効率的なNLP研究の精神において、この研究を行うためのモデルトレーニングや微調整は行われなかった。
警告: 攻撃的なテキスト例を含む。
Bias auditing of language models (LMs) has received considerable attention as LMs are becoming widespread. As such, several benchmarks for bias auditing have been proposed. At the same time, the rapid evolution of LMs can make these benchmarks irrelevant in no time. Bias auditing is further complicated by LM brittleness: when a presumably biased outcome is observed, is it due to model bias or model brittleness? We propose enlisting the models themselves to help construct bias auditing datasets that remain challenging, and introduce bias measures that distinguish between different types of model errors. First, we extend an existing bias benchmark for NLI (BBNLI) using a combination of LM-generated lexical variations, adversarial filtering, and human validation. We demonstrate that the newly created dataset BBNLI-next is more challenging than BBNLI: on average, BBNLI-next reduces the accuracy of state-of-the-art NLI models from 95.3%, as observed by BBNLI, to a strikingly low 57.5%. Second, we employ BBNLI-next to showcase the interplay between robustness and bias: we point out shortcomings in current bias scores and propose bias measures that take into account both bias and model brittleness. Third, despite the fact that BBNLI-next was designed with non-generative models in mind, we show that the new dataset is also able to uncover bias in state-of-the-art open-source generative LMs. Note: All datasets included in this work are in English and they address US-centered social biases. In the spirit of efficient NLP research, no model training or fine-tuning was performed to conduct this research. Warning: This paper contains offensive text examples. | 翻訳日:2024-11-09 15:13:22 公開日:2024-09-25 |
# 絡み合うコンパスとしてのグリュナイゼンパラメータとヘルマン・ファインマンの定理の分解
Grüneisen parameter as an entanglement compass and the breakdown of the Hellmann-Feynman theorem ( http://arxiv.org/abs/2306.00566v2 ) ライセンス: Link先を確認 | Lucas Squillante, Luciano S. Ricco, Aniekan Magnus Ukpong, Roberto E. Lagos-Monaco, Antonio C. Seridonio, Mariano de Souza, | (参考訳) Gr\"uneisen ratio $\Gamma$, すなわち、熱膨張と比熱の比の特異部分は、有限のT$と量子臨界点(QCP)の両方を探索するために広く用いられている。
真の量子相転移(QPT)では、熱ゆらぎが欠如しており、熱力学的な$\Gamma$は使用できない。
チューニングパラメータ $\lambda$ の関数として絡み合いを計算する$\Gamma$ の量子アナログを提案し、基底状態エネルギーが非直線的に$\lambda$ に依存するシステムに対してのみ QPT が実行されることを示す。
さらに、任意のQCPにおける熱力学極限におけるヘルマン・ファインマンの定理の分解を実証する。
本稿では,逆場をもつ量子1次元イジングモデルとケーンの量子コンピュータを用いたアプローチを紹介する。
ダイナミクスの減速と、QCP/QPTに近い「質量の創出」についても論じる。
The Gr\"uneisen ratio $\Gamma$, i.e., the singular part of the ratio of thermal expansion to the specific heat, has been broadly employed to explore both finite-$T$ and quantum critical points (QCPs). For a genuine quantum phase transition (QPT), thermal fluctuations are absent and thus the thermodynamic $\Gamma$ cannot be employed. We propose a quantum analogue to $\Gamma$ that computes entanglement as a function of a tuning parameter $\lambda$ and show that QPTs take place only for systems in which the ground-state energy depends on $\lambda$ non-linearly. Furthermore, we demonstrate the breakdown of the Hellmann-Feynman theorem in the thermodynamic limit at any QCP. We showcase our approach using the quantum 1D Ising model with transverse field and Kane's quantum computer. The slowing down of the dynamics and thus the "creation of mass" close to any QCP/QPT is also discussed. | 翻訳日:2024-11-09 15:02:22 公開日:2024-09-25 |
# Etsy Searchにおける統一埋め込みに基づくパーソナライズされた検索
Unified Embedding Based Personalized Retrieval in Etsy Search ( http://arxiv.org/abs/2306.04833v2 ) ライセンス: Link先を確認 | Rishikesh Jha, Siddharth Subramaniyam, Ethan Benjamin, Thrivikrama Taula, | (参考訳) 埋め込みベースのニューラル検索は、末尾クエリの製品検索でしばしば発生するセマンティックギャップ問題に対処するための一般的なアプローチである。
対照的に、一般的なクエリにはコンテキストが欠如しており、ユーザの過去のインタラクションから追加のコンテキストが役に立つような、幅広い意図がある。
本稿では、セマンティックギャップ問題と、パーソナライズされたセマンティック検索のためのエンド・ツー・エンド・トレーニングモデルの両方に対処する新しいアプローチを共有する。
グラフ, トランスフォーマー, 項ベースの埋め込みを終端から終端まで組み込んだ統合埋め込みモデルを学習し, 性能と効率の最適なトレードオフのための設計選択を共有することを提案する。
我々は、機能工学、ハードネガティブサンプリング戦略、トランスフォーマーモデルの適用に関する知見を共有し、新しい事前学習戦略や、検索関連性を改善し、そのようなモデルを産業規模で展開するための他の手法を含む。
我々のパーソナライズされた検索モデルは、検索購入率の5.58%、サイト全体のコンバージョン率の2.63%、複数のA/Bテストにまたがるライブトラフィックにおいて、検索体験を著しく改善する。
Embedding-based neural retrieval is a prevalent approach to address the semantic gap problem which often arises in product search on tail queries. In contrast, popular queries typically lack context and have a broad intent where additional context from users historical interaction can be helpful. In this paper, we share our novel approach to address both: the semantic gap problem followed by an end to end trained model for personalized semantic retrieval. We propose learning a unified embedding model incorporating graph, transformer and term-based embeddings end to end and share our design choices for optimal tradeoff between performance and efficiency. We share our learnings in feature engineering, hard negative sampling strategy, and application of transformer model, including a novel pre-training strategy and other tricks for improving search relevance and deploying such a model at industry scale. Our personalized retrieval model significantly improves the overall search experience, as measured by a 5.58% increase in search purchase rate and a 2.63% increase in site-wide conversion rate, aggregated across multiple A/B tests - on live traffic. | 翻訳日:2024-11-09 15:02:22 公開日:2024-09-25 |
# Mnemonic Codeによるワンショット機械の学習
One-Shot Machine Unlearning with Mnemonic Code ( http://arxiv.org/abs/2306.05670v2 ) ライセンス: Link先を確認 | Tomoya Yamashita, Masanori Yamada, Takashi Shibata, | (参考訳) 人工知能(AI)アプリケーションに固有の倫理的およびプライバシー上の問題は、ディープラーニングの急速な普及に対する懸念が高まっている。
機械学習(MU)は、トレーニングされたAIモデルを望ましくないトレーニングデータを忘れさせることによって、これらの問題に対処する研究領域である。
残念なことに、既存のMUメソッドの多くは、忘れるのにかなりの時間と計算コストを必要とする。
したがって、これらの手法を実用的なデータセットや高度なアーキテクチャ、例えば ImageNet や Transformer に適用することは、しばしば困難である。
この問題に対処するために,軽量かつ効率的なMU法を提案する。
本手法は, 忘れる対象に敏感なモデルパラメータを同定し, モデルパラメータに摂動を追加する。
本稿では,FIM(Fisher Information Matrix)を計算し,その感度パラメータを同定する。
このアプローチでは、忘れるのに時間を要する追加のトレーニングは必要ありません。
さらに,Mnemonic codeと呼ばれるクラス固有のランダム信号を導入し,FIM計算のコストを削減する。
本手法では, ムネモニック符号を用いてモデルを訓練し, ムネモニック符号を少数使用してFIMを計算し, 効率的に摂動し, 忘れる。
包括的実験により,本手法は既存のMU法よりも高速で,忘れやすいことが示された。
さらに,本手法は,より実用的なデータセットや高度なアーキテクチャに拡張可能であることを示す。
Ethical and privacy issues inherent in artificial intelligence (AI) applications have been a growing concern with the rapid spread of deep learning. Machine unlearning (MU) is the research area that addresses these issues by making a trained AI model forget about undesirable training data. Unfortunately, most existing MU methods incur significant time and computational costs for forgetting. Therefore, it is often difficult to apply these methods to practical datasets and sophisticated architectures, e.g., ImageNet and Transformer. To tackle this problem, we propose a lightweight and effective MU method. Our method identifies the model parameters sensitive to the forgetting targets and adds perturbation to such model parameters. We identify the sensitive parameters by calculating the Fisher Information Matrix (FIM). This approach does not require time-consuming additional training for forgetting. In addition, we introduce class-specific random signals called mnemonic code to reduce the cost of FIM calculation, which generally requires the entire training data and incurs significant computational costs. In our method, we train the model with mnemonic code; when forgetting, we use a small number of mnemonic codes to calculate the FIM and get the effective perturbation for forgetting. Comprehensive experiments demonstrate that our method is faster and better at forgetting than existing MU methods. Furthermore, we show that our method can scale to more practical datasets and sophisticated architectures. | 翻訳日:2024-11-09 15:02:22 公開日:2024-09-25 |
# オルタナティブ・テレスコープ・アライメント : 効率的なマルチモーダルアライメント法
Alternative Telescopic Displacement: An Efficient Multimodal Alignment Method ( http://arxiv.org/abs/2306.16950v4 ) ライセンス: Link先を確認 | Jiahao Qin, Yitao Xu, Zong Lu, Xiaojun Zhang, | (参考訳) マルチモーダルデータ統合の領域では、機能アライメントが重要な役割を果たす。
本稿では,マルチモーダル情報の融合に革命をもたらす機能アライメントに対する革新的なアプローチを提案する。
提案手法では,異なるモードをまたいだ特徴表現の遠隔的変位と拡張の新たな反復的プロセスを用いて,共有特徴空間内の一貫性のある統一表現を導出する。
この高度な技術は、抽象の最高レベルにおいて複雑なクロスモーダル相互作用を捕捉し、活用する驚くべき能力を示している。
その結果,マルチモーダル学習タスクの性能は大幅に向上した。
厳密な比較分析により、様々なアプリケーションにまたがる既存のマルチモーダル融合パラダイムに対するアプローチの優位性を確立する。
時系列,視覚データ,テキスト情報を含む多面的データセットを用いた総合的な経験的評価は,本手法がこの分野における前例のないベンチマークを達成していることを示す証拠となる。
この研究は、マルチモーダル学習における最先端の進歩だけでなく、複雑な分析シナリオにおける異なるデータモダリティ間の相乗効果を探求するための新たな道を開いた。
In the realm of multimodal data integration, feature alignment plays a pivotal role. This paper introduces an innovative approach to feature alignment that revolutionizes the fusion of multimodal information. Our method employs a novel iterative process of telescopic displacement and expansion of feature representations across different modalities, culminating in a coherent unified representation within a shared feature space. This sophisticated technique demonstrates a remarkable ability to capture and leverage complex crossmodal interactions at the highest levels of abstraction. As a result, we observe significant enhancements in the performance of multimodal learning tasks. Through rigorous comparative analysis, we establish the superiority of our approach over existing multimodal fusion paradigms across a diverse array of applications. Comprehensive empirical evaluations conducted on multifaceted datasets encompassing temporal sequences, visual data, and textual information provide compelling evidence that our method achieves unprecedented benchmarks in the field. This work not only advances the state of the art in multimodal learning but also opens new avenues for exploring the synergies between disparate data modalities in complex analytical scenarios. | 翻訳日:2024-11-09 14:51:04 公開日:2024-09-25 |
# TempFuser: 長期の短期核融合変換器を使って、アジャイル、戦術、およびアクロバティックな飛行マニアを学ぶ
TempFuser: Learning Agile, Tactical, and Acrobatic Flight Maneuvers Using a Long Short-Term Temporal Fusion Transformer ( http://arxiv.org/abs/2308.03257v4 ) ライセンス: Link先を確認 | Hyunki Seong, David Hyunchul Shim, | (参考訳) ドッグファイティングは、戦略的操作とアジャイル航空機の空気力学の両方を包括的に理解する必要がある航空アプリケーションにおいて難しいシナリオである。
航空エージェントは、長期的視点から戦闘機の戦術的に進化する操縦を理解できるだけでなく、短期的な視点から航空機の空気力学を急速に変化させることも必要である。
本稿では, 複雑なドッグファイト問題におけるアジャイル, 戦術的, アクロバティックな飛行操作を学習できる, 時間的長期統合型トランスフォーマーアーキテクチャである TempFuser を紹介する。
当社のアプローチでは、2つの異なる時間的遷移の埋め込みをトランスフォーマーベースのネットワークに統合し、航空エージェントの長期的戦術と短期的機敏性の両方を包括的に捉える。
これらの視点を取り入れることで、当社のポリシネットワークは、長期にわたって支配的な位置を確保し、効果的にアジャイル反対者を上回る、エンドツーエンドのフライトコマンドを生成します。
高忠実度飛行シミュレーターで訓練した後、我々のモデルは戦略的な操作をうまく学習し、様々な種類の敵機に対して基本方針モデルより優れた性能を発揮する。
特に,本モデルでは,先行知識を必要とせず,優れた仕様の敵に面しても,人間のようなアクロバティックな操作が可能である。
さらに,超音速・低高度の課題において,強靭な追尾性能を示す。
デモビデオはhttps://sites.google.com/view/tempfuser.comで公開されている。
Dogfighting is a challenging scenario in aerial applications that requires a comprehensive understanding of both strategic maneuvers and the aerodynamics of agile aircraft. The aerial agent needs to not only understand tactically evolving maneuvers of fighter jets from a long-term perspective but also react to rapidly changing aerodynamics of aircraft from a short-term viewpoint. In this paper, we introduce TempFuser, a novel long short-term temporal fusion transformer architecture that can learn agile, tactical, and acrobatic flight maneuvers in complex dogfight problems. Our approach integrates two distinct temporal transition embeddings into a transformer-based network to comprehensively capture both the long-term tactics and short-term agility of aerial agents. By incorporating these perspectives, our policy network generates end-to-end flight commands that secure dominant positions over the long term and effectively outmaneuver agile opponents. After training in a high-fidelity flight simulator, our model successfully learns to execute strategic maneuvers, outperforming baseline policy models against various types of opponent aircraft. Notably, our model exhibits human-like acrobatic maneuvers even when facing adversaries with superior specifications, all without relying on prior knowledge. Moreover, it demonstrates robust pursuit performance in challenging supersonic and low-altitude situations. Demo videos are available at https://sites.google.com/view/tempfuser. | 翻訳日:2024-11-09 14:40:04 公開日:2024-09-25 |
# ブリザード2023チャレンジにおけるフルートシェルフランスの合成システム
The FruitShell French synthesis system at the Blizzard 2023 Challenge ( http://arxiv.org/abs/2309.00223v3 ) ライセンス: Link先を確認 | Xin Qi, Xiaopeng Wang, Zhiyong Wang, Wang Liu, Mingming Ding, Shuchen Shi, | (参考訳) 本稿では,Blizzard Challenge 2023のためのフランス語音声合成システムを提案する。
この課題は、女性話者から高品質な音声を生成することと、特定の個人によく似た音声を生成することの2つのタスクから構成される。
競合データについては,欠落したテキストデータや誤テキストデータを除去するスクリーニング処理を行った。
音素以外のすべての記号を整理し,発音や持続時間を持たない記号を除去した。
さらに、テキストに単語境界と開始/終了記号を追加し、過去の経験を基にした音声品質の向上を図った。
Spokeタスクでは,競合ルールに従ってデータ拡張を行った。
我々は、オープンソースのG2Pモデルを使用して、フランス語のテキストを音素に書き起こした。
G2PモデルはIPA(International Phonetic Alphabet)を用いており、提案した競合データに同じ書き起こし処理を適用して標準化した。
しかし、IPAチャートから特殊記号を認識する際のコンパイラの制限により、全ての音素を競合データに使用する音素に変換する規則に従った。
最後に,全競合音声を均一サンプリングレート16kHzに再サンプリングした。
ハイフィガンボコーダを用いたVITSを用いた音響モデルを用いた。
Spokeタスクでは,複数話者モデルを訓練し,モデルの持続時間予測器,ボコーダ,フロー層に話者情報を組み込んだ。
システム評価の結果,Hubタスクが3.6,Spokeタスクが3.4,システムの平均レベルが全参加チーム中の平均値となった。
This paper presents a French text-to-speech synthesis system for the Blizzard Challenge 2023. The challenge consists of two tasks: generating high-quality speech from female speakers and generating speech that closely resembles specific individuals. Regarding the competition data, we conducted a screening process to remove missing or erroneous text data. We organized all symbols except for phonemes and eliminated symbols that had no pronunciation or zero duration. Additionally, we added word boundary and start/end symbols to the text, which we have found to improve speech quality based on our previous experience. For the Spoke task, we performed data augmentation according to the competition rules. We used an open-source G2P model to transcribe the French texts into phonemes. As the G2P model uses the International Phonetic Alphabet (IPA), we applied the same transcription process to the provided competition data for standardization. However, due to compiler limitations in recognizing special symbols from the IPA chart, we followed the rules to convert all phonemes into the phonetic scheme used in the competition data. Finally, we resampled all competition audio to a uniform sampling rate of 16 kHz. We employed a VITS-based acoustic model with the hifigan vocoder. For the Spoke task, we trained a multi-speaker model and incorporated speaker information into the duration predictor, vocoder, and flow layers of the model. The evaluation results of our system showed a quality MOS score of 3.6 for the Hub task and 3.4 for the Spoke task, placing our system at an average level among all participating teams. | 翻訳日:2024-11-09 14:40:04 公開日:2024-09-25 |
# ロバストオンライン分類:見積もりからデノイングへ
Robust Online Classification: From Estimation to Denoising ( http://arxiv.org/abs/2309.01698v2 ) ライセンス: Link先を確認 | Changlong Wu, Ananth Grama, Wojciech Szpankowski, | (参考訳) 一般仮説クラスを用いて,特徴のオンライン分類をラベルに分類する。
我々の設定では、真のラベルは仮説クラス内の何らかの関数によって決定されるが、未知の確率ノイズによって破損し、その特徴は逆向きに生成される。
観測されたノイズラベルとノイズレス特徴を用いて予測を行い、真のラベルと比較した場合の最小リスクを用いて性能を計測する。
ノイズ機構は、個々のデータポイントに対して、実際のノイズラベル分布が選択された分布のセットを指定する一般的なノイズカーネルを介してモデル化される。
提案手法は,カーネルが誘導するノイズラベル分布のHellingerギャップによって(仮説クラスサイズの対数係数まで)極小リスクを強く特徴付け,ノイズの手段や分散といった他の特性に依存しないことを示す。
本手法は,オンライン設定に適したLe Cam-Birg\'eテストの条件付きバージョンとともに,2つの仮説のオンライン比較スキームへの新規な削減に基づく。
本研究は,一般の雑音観測に対処しながら,基礎的真理を保証した,ノイズの多いオンライン分類の包括的特徴を初めて提供する。
We study online classification of features into labels with general hypothesis classes. In our setting, true labels are determined by some function within the hypothesis class but are corrupted by unknown stochastic noise, and the features are generated adversarially. Predictions are made using observed noisy labels and noiseless features, while the performance is measured via minimax risk when comparing against true labels. The noise mechanism is modeled via a general noise kernel that specifies, for any individual data point, a set of distributions from which the actual noisy label distribution is chosen. We show that minimax risk is tightly characterized (up to a logarithmic factor of the hypothesis class size) by the Hellinger gap of the noisy label distributions induced by the kernel, independent of other properties such as the means and variances of the noise. Our main technique is based on a novel reduction to an online comparison scheme of two hypotheses, along with a new conditional version of Le Cam-Birg\'e testing suitable for online settings. Our work provides the first comprehensive characterization for noisy online classification with guarantees with respect to the ground truth while addressing general noisy observations. | 翻訳日:2024-11-09 14:40:04 公開日:2024-09-25 |
# YCB-Ev 1.1:6DoFオブジェクトポーズ推定のためのイベントビジョンデータセット
YCB-Ev 1.1: Event-vision dataset for 6DoF object pose estimation ( http://arxiv.org/abs/2309.08482v2 ) ライセンス: Link先を確認 | Pavel Rojtberg, Thomas Pöllabauer, | (参考訳) 本研究は,同期RGB-Dフレームとイベントデータを含むYCB-Evデータセットを導入し,これらのモダリティを用いた6DoFオブジェクトポーズ推定アルゴリズムの評価を可能にする。
このデータセットは、YCB-Video(YCB-V)データセットで使用されたのと同じ21のYCBオブジェクトに対して、6DoFオブジェクトのポーズを提供する。
データセットは21の同期イベントとRGB-Dシーケンスで構成され、合計で13,851フレーム(7分43秒)である。
特に、これらのシーケンスのうち12は、BOPチャレンジで使用されるYCB-Vサブセットと同じオブジェクト配列である。
地中真実のポーズは、RGB-Dフレーム内のオブジェクトを検出し、イベントタイムスタンプに合わせるためにポーズを補間し、外的キャリブレーションを用いてイベント座標フレームに転送することで生成される。
私たちのデータセットは、イベントストリームに6DoFのポーズデータを提供する最初のものです。
さらに,新しいYCB-Vシークエンスを用いて,BOPチャレンジのために事前学習された2つの最先端アルゴリズムの一般化能力を評価する。
データセットはhttps://github.com/paroj/ycbev.comで公開されている。
Our work introduces the YCB-Ev dataset, which contains synchronized RGB-D frames and event data that enables evaluating 6DoF object pose estimation algorithms using these modalities. This dataset provides ground truth 6DoF object poses for the same 21 YCB objects that were used in the YCB-Video (YCB-V) dataset, allowing for cross-dataset algorithm performance evaluation. The dataset consists of 21 synchronized event and RGB-D sequences, totalling 13,851 frames (7 minutes and 43 seconds of event data). Notably, 12 of these sequences feature the same object arrangement as the YCB-V subset used in the BOP challenge. Ground truth poses are generated by detecting objects in the RGB-D frames, interpolating the poses to align with the event timestamps, and then transferring them to the event coordinate frame using extrinsic calibration. Our dataset is the first to provide ground truth 6DoF pose data for event streams. Furthermore, we evaluate the generalization capabilities of two state-of-the-art algorithms, which were pre-trained for the BOP challenge, using our novel YCB-V sequences. The dataset is publicly available at https://github.com/paroj/ycbev. | 翻訳日:2024-11-09 14:28:50 公開日:2024-09-25 |
# ウィグナーの友情シナリオと非古典的因果適合性, モノガミー関係, 微調整との関係
Relating Wigner's Friend scenarios to Nonclassical Causal Compatibility, Monogamy Relations, and Fine Tuning ( http://arxiv.org/abs/2309.12987v3 ) ライセンス: Link先を確認 | Yìlè Yīng, Marina Maciel Ansanelli, Andrea Di Biagio, Elie Wolfe, Eric Gama Cavalcanti, | (参考訳) 非古典的因果モデリングは、相対論的因果構造と忠実性に固執しつつ、ベルの不平等の違反を説明するために開発された。
近年、ベルの定理より強いと見なせるノーゴー定理が導出され、ウィグナーの友人の思考実験であるローカルフレンドリー(LF)のノーゴー定理の拡張に基づいている。
ここでは、LFのノーゴー定理は、非古典的あるいは循環的因果的説明が考慮されたとしても、因果的モデリングの分野において重大な課題をもたらすことを示す。
我々はまず、統計的境界問題から生じる単ガミー関係の特別な場合として、LFノゴー定理の重要な要素の一つであるLF不等式をリキャストした。
さらに,不等式を非古典的因果補間問題から生じる因果補間不等式として,よく動機付けられた因果補間仮定によって示唆される因果構造について再検討した。
この因果構造からLF不等式が現れるのは、一般に確率論やさらにエキゾチックな理論のように、観測された事象の潜伏原因が量子後記述を許容する場合であってもである。
さらに、非古典的因果モデルでは、No Fine-Tuning原則に違反することなくLF不平等の違反を説明できないことを証明している。
最後に、循環因果モデルに訴えてもこれらの障害は克服できないことに留意し、因果モデリングフレームワークのさらなる拡張の可能性について論じる。
Nonclassical causal modeling was developed in order to explain violations of Bell inequalities while adhering to relativistic causal structure and faithfulness -- that is, avoiding fine-tuned causal explanations. Recently, a no-go theorem that can be viewed as being stronger than Bell's theorem has been derived, based on extensions of the Wigner's friend thought experiment: the Local Friendliness (LF) no-go theorem. Here we show that the LF no-go theorem poses formidable challenges for the field of causal modeling, even when nonclassical and/or cyclic causal explanations are considered. We first recast the LF inequalities, one of the key elements of the LF no-go theorem, as special cases of monogamy relations stemming from a statistical marginal problem. We then further recast LF inequalities as causal compatibility inequalities stemming from a nonclassical causal marginal problem, for a causal structure implied by well-motivated causal-metaphysical assumptions. We find that the LF inequalities emerge from this causal structure even when one allows the latent causes of observed events to admit post-quantum descriptions, such as in a generalized probabilistic theory or in an even more exotic theory. We further prove that no nonclassical causal model can explain violations of LF inequalities without violating the No Fine-Tuning principle. Finally, we note that these obstacles cannot be overcome even if one appeals to cyclic causal models, and we discuss potential directions for further extensions of the causal modeling framework. | 翻訳日:2024-11-09 14:28:50 公開日:2024-09-25 |
# ウィグナーの友人シナリオと非古典的因果適合性, モノガミー関係, 微調整との関連性
Relating Wigner's Friend Scenarios to Nonclassical Causal Compatibility, Monogamy Relations, and Fine Tuning ( http://arxiv.org/abs/2309.12987v4 ) ライセンス: Link先を確認 | Yìlè Yīng, Marina Maciel Ansanelli, Andrea Di Biagio, Elie Wolfe, David Schmid, Eric Gama Cavalcanti, | (参考訳) 非古典的因果モデリングは、相対論的因果構造と忠実性に固執しつつ、ベルの不平等の違反を説明するために開発された。
近年、ベルの定理より強いと見なせるノーゴー定理が導出され、ウィグナーの友人の思考実験であるローカルフレンドリー(LF)のノーゴー定理の拡張に基づいている。
ここでは、LFのノーゴー定理は、非古典的あるいは循環的因果的説明が考慮されたとしても、因果的モデリングの分野において重大な課題をもたらすことを示す。
我々はまず、統計的境界問題から生じる単ガミー関係の特別な場合として、LFノゴー定理の重要な要素の一つであるLF不等式をリキャストした。
さらに,不等式を非古典的因果補間問題から生じる因果補間不等式として,よく動機付けられた因果補間仮定によって示唆される因果構造について再検討した。
この因果構造からLF不等式が現れるのは、一般に確率論やさらにエキゾチックな理論のように、観測された事象の潜伏原因が量子後記述を許容する場合であってもである。
さらに、非古典的因果モデルでは、No Fine-Tuning原則に違反することなくLF不平等の違反を説明できないことを証明している。
最後に、循環因果モデルに訴えてもこれらの障害は克服できないことに留意し、因果モデリングフレームワークのさらなる拡張の可能性について論じる。
Nonclassical causal modeling was developed in order to explain violations of Bell inequalities while adhering to relativistic causal structure and faithfulness -- that is, avoiding fine-tuned causal explanations. Recently, a no-go theorem that can be viewed as being stronger than Bell's theorem has been derived, based on extensions of the Wigner's friend thought experiment: the Local Friendliness (LF) no-go theorem. Here we show that the LF no-go theorem poses formidable challenges for the field of causal modeling, even when nonclassical and/or cyclic causal explanations are considered. We first recast the LF inequalities, one of the key elements of the LF no-go theorem, as special cases of monogamy relations stemming from a statistical marginal problem. We then further recast LF inequalities as causal compatibility inequalities stemming from a nonclassical causal marginal problem, for a causal structure implied by well-motivated causal-metaphysical assumptions. We find that the LF inequalities emerge from this causal structure even when one allows the latent causes of observed events to admit post-quantum descriptions, such as in a generalized probabilistic theory or in an even more exotic theory. We further prove that no nonclassical causal model can explain violations of LF inequalities without violating the No Fine-Tuning principle. Finally, we note that these obstacles cannot be overcome even if one appeals to cyclic causal models, and we discuss potential directions for further extensions of the causal modeling framework. | 翻訳日:2024-11-09 14:28:50 公開日:2024-09-25 |
# 評価指標としての大規模言語モデルにおける認知バイアスのベンチマーク
Benchmarking Cognitive Biases in Large Language Models as Evaluators ( http://arxiv.org/abs/2309.17012v3 ) ライセンス: Link先を確認 | Ryan Koo, Minhwa Lee, Vipul Raheja, Jong Inn Park, Zae Myung Kim, Dongyeop Kang, | (参考訳) 大規模言語モデルは認知的に偏見のある裁判官である。
大規模言語モデル(LLM)は、最近、簡単なプロンプトと文脈内学習を備えた自動評価器として有効であることが示されている。
本研究では,4つの異なるサイズ範囲の15個のLLMを組み立て,システムスターがシステムスクエアよりも優れているような評価器として,他のLLMからの優先順位付けによる出力応答の評価を行う。
次に、LCM評価出力の6つの異なる認知バイアスを測定するベンチマークであるCoBBLEr(CoBBLEr)として、LCMの認知バイアスベンチマークを導入したランキングアウトプットの品質を評価する。
LLMはテキスト品質評価器であり、評価器としての頑健性に疑問を呈する評価のそれぞれにおいて、バイアスベンチマーク(すべてのモデルで比較される平均40%)に強い指標を示す。
さらに,人間と機械の嗜好の相関について検討し,平均ランクバイアスオーバーラップ(RBO)スコアを49.6%と算出し,機械選好が人間と不一致であることを示唆した。
以上の結果から,LLMは人間の嗜好に沿った自動アノテーションには利用できない可能性が示唆された。
私たちのプロジェクトページは以下の通りです。
Large Language Models are cognitively biased judges. Large Language Models (LLMs) have recently been shown to be effective as automatic evaluators with simple prompting and in-context learning. In this work, we assemble 15 LLMs of four different size ranges and evaluate their output responses by preference ranking from the other LLMs as evaluators, such as System Star is better than System Square. We then evaluate the quality of ranking outputs introducing the Cognitive Bias Benchmark for LLMs as Evaluators (CoBBLEr), a benchmark to measure six different cognitive biases in LLM evaluation outputs, such as the Egocentric bias where a model prefers to rank its own outputs highly in evaluation. We find that LLMs are biased text quality evaluators, exhibiting strong indications on our bias benchmark (average of 40% of comparisons across all models) within each of their evaluations that question their robustness as evaluators. Furthermore, we examine the correlation between human and machine preferences and calculate the average Rank-Biased Overlap (RBO) score to be 49.6%, indicating that machine preferences are misaligned with humans. According to our findings, LLMs may still be unable to be utilized for automatic annotation aligned with human preferences. Our project page is at: https://minnesotanlp.github.io/cobbler. | 翻訳日:2024-11-09 10:12:15 公開日:2024-09-25 |
# 大規模言語モデル生成データのソース属性
Source Attribution for Large Language Model-Generated Data ( http://arxiv.org/abs/2310.00646v2 ) ライセンス: Link先を確認 | Jingtan Wang, Xinyang Lu, Zitong Zhao, Zhongxiang Dai, Chuan-Sheng Foo, See-Kiong Ng, Bryan Kian Hsiang Low, | (参考訳) LLM(Large Language Models)の印象的なパフォーマンスと商業化の可能性は、トレーニングデータの知的財産権(IP)に対する深刻な懸念を引き起こしている。
特に、LLMによって生成された合成テキストは、LLMのトレーニングに使用されるデータのIPを侵害する可能性がある。
この目的のために、LLMによる合成テキストの生成に寄与したデータ提供者を特定することにより、ソース属性を実現できることが不可欠である。
そこで本稿では,LLMが電子透かしを組み込んだ合成テキストを作成できるようにし,電子透かしによってこの問題に対処できることを述べる。
このようなウォーターマーキングフレームワーク(例えば、ソース属性の精度、敵に対するロバスト性)の鍵となる特性を特定し、アルゴリズム設計によりこれらの重要な特性を満たすソース属性フレームワークを提案する。
我々のフレームワークは,LLMが生成したテキストからデータ提供者への正確なマッピングを学習することを可能にする。
大規模な実証実験により,本フレームワークが効果的な情報源属性を達成できることが示唆された。
The impressive performances of Large Language Models (LLMs) and their immense potential for commercialization have given rise to serious concerns over the Intellectual Property (IP) of their training data. In particular, the synthetic texts generated by LLMs may infringe the IP of the data being used to train the LLMs. To this end, it is imperative to be able to perform source attribution by identifying the data provider who contributed to the generation of a synthetic text by an LLM. In this paper, we show that this problem can be tackled by watermarking, i.e., by enabling an LLM to generate synthetic texts with embedded watermarks that contain information about their source(s). We identify the key properties of such watermarking frameworks (e.g., source attribution accuracy, robustness against adversaries), and propose a source attribution framework that satisfies these key properties due to our algorithmic designs. Our framework enables an LLM to learn an accurate mapping from the generated texts to data providers, which sets the foundation for effective source attribution. Extensive empirical evaluations show that our framework achieves effective source attribution. | 翻訳日:2024-11-09 10:12:15 公開日:2024-09-25 |
# 会話型健康エージェント:パーソナライズされたLDM駆動エージェントフレームワーク
Conversational Health Agents: A Personalized LLM-Powered Agent Framework ( http://arxiv.org/abs/2310.02374v5 ) ライセンス: Link先を確認 | Mahyar Abbasian, Iman Azimi, Amir M. Rahmani, Ramesh Jain, | (参考訳) 会話型健康エージェント(英: Conversational Health Agents、CHA)は、援助や診断などの医療サービスを提供する対話型システムである。
現在のCHA、特にLLM(Large Language Models)を利用するものは、主に会話の側面に焦点を当てています。
しかし、彼らは限られたエージェント機能を提供し、特にマルチステップの問題解決、パーソナライズされた会話、マルチモーダルデータ分析を欠いている。
私たちの目標はこれらの制限を克服することです。
我々は,対話エージェントがユーザの医療クエリに対してパーソナライズされた応答を生成するために,オープンソースのLLMフレームワークであるopenCHAを提案する。
このフレームワークにより、開発者はデータソース、知識ベース、分析モデルを含む外部ソースをLLMベースのソリューションに統合できる。
openCHAには、外部ソースからの情報を収集するためのアクションを計画し実行するためのオーケストレータが含まれている。
知識獲得、問題解決機能、多言語とマルチモーダルの会話を促進し、さまざまなAIプラットフォームとのインタラクションを促進する。
2つのデモと4つのユースケースを通じて、複雑なヘルスケアタスクを扱うためのフレームワークの能力について説明する。
さらに、GitHubを通じてコミュニティが利用可能なオープンソースとしてopenCHAをリリースしています。
Conversational Health Agents (CHAs) are interactive systems that provide healthcare services, such as assistance and diagnosis. Current CHAs, especially those utilizing Large Language Models (LLMs), primarily focus on conversation aspects. However, they offer limited agent capabilities, specifically lacking multi-step problem-solving, personalized conversations, and multimodal data analysis. Our aim is to overcome these limitations. We propose openCHA, an open-source LLM-powered framework, to empower conversational agents to generate a personalized response for users' healthcare queries. This framework enables developers to integrate external sources including data sources, knowledge bases, and analysis models, into their LLM-based solutions. openCHA includes an orchestrator to plan and execute actions for gathering information from external sources, essential for formulating responses to user inquiries. It facilitates knowledge acquisition, problem-solving capabilities, multilingual and multimodal conversations, and fosters interaction with various AI platforms. We illustrate the framework's proficiency in handling complex healthcare tasks via two demonstrations and four use cases. Moreover, we release openCHA as open source available to the community via GitHub. | 翻訳日:2024-11-09 10:12:15 公開日:2024-09-25 |
# ヒューマンデータアノテーションのための一般化可能なエラーモデリング:産業規模の検索データアノテーションプログラムからの証拠
Generalizable Error Modeling for Human Data Annotation: Evidence From an Industry-Scale Search Data Annotation Program ( http://arxiv.org/abs/2310.05286v2 ) ライセンス: Link先を確認 | Heinrich Peters, Alireza Hashemi, James Rae, | (参考訳) 機械学習(ML)と人工知能(AI)システムは、トレーニングと評価のために人間の注釈付きデータに大きく依存している。
この文脈における大きな課題は、その効果がモデルパフォーマンスを劣化させる可能性があるため、アノテーションエラーの発生である。
本稿では,3つの産業規模のMLアプリケーション(音楽ストリーミング,ビデオストリーミング,モバイルアプリ)を対象とした検索関連アノテーションタスクにおいて,潜在的なエラーを検出するよう訓練された予測誤差モデルを提案する。
大規模な検索関連アノテーションプログラムから実世界のデータを描画し、中程度のモデル性能(AUC=0.65-0.75)でエラーを予測できること、そしてモデル性能がアプリケーション間でよく一般化できることを実証する(つまり、グローバルなタスクに依存しないモデルがタスク固有のモデルと同等に動作する)。
タスク固有の特徴からアノテーションラベルを予測することに集中してきた過去の研究とは対照的に,我々のモデルは,高い一般化性を達成するために,タスク特徴とアノテーションプロセスから派生した行動特徴の組合せから直接エラーを予測するように訓練されている。
本研究では,高い予測誤差確率を持つタスクの優先順位付けが誤り訂正量(例えば,音楽ストリーミングアプリケーションにおいて40%の効率向上)を大幅に増加させるという,監査の文脈におけるモデルの有用性を実証する。
これらの結果は、行動誤り検出モデルがデータアノテーションプロセスの効率と品質を大幅に改善できることを示している。
以上の結果から,データアノテーションプロセスにおける効率的なエラー管理に関する重要な洞察が得られ,より広範なヒューマン・イン・ザ・ループ・MLの分野に寄与することが明らかとなった。
Machine learning (ML) and artificial intelligence (AI) systems rely heavily on human-annotated data for training and evaluation. A major challenge in this context is the occurrence of annotation errors, as their effects can degrade model performance. This paper presents a predictive error model trained to detect potential errors in search relevance annotation tasks for three industry-scale ML applications (music streaming, video streaming, and mobile apps). Drawing on real-world data from an extensive search relevance annotation program, we demonstrate that errors can be predicted with moderate model performance (AUC=0.65-0.75) and that model performance generalizes well across applications (i.e., a global, task-agnostic model performs on par with task-specific models). In contrast to past research, which has often focused on predicting annotation labels from task-specific features, our model is trained to predict errors directly from a combination of task features and behavioral features derived from the annotation process, in order to achieve a high degree of generalizability. We demonstrate the usefulness of the model in the context of auditing, where prioritizing tasks with high predicted error probabilities considerably increases the amount of corrected annotation errors (e.g., 40% efficiency gains for the music streaming application). These results highlight that behavioral error detection models can yield considerable improvements in the efficiency and quality of data annotation processes. Our findings reveal critical insights into effective error management in the data annotation process, thereby contributing to the broader field of human-in-the-loop ML. | 翻訳日:2024-11-09 10:12:15 公開日:2024-09-25 |
# 非バックトラックグラフニューラルネットワーク
Non-backtracking Graph Neural Networks ( http://arxiv.org/abs/2310.07430v2 ) ライセンス: Link先を確認 | Seonghyun Park, Narae Ryu, Gahee Kim, Dongyeop Woo, Se-Young Yun, Sungsoo Ahn, | (参考訳) グラフニューラルネットワークの有望なメッセージパス更新により、局所的および計算学的に抽出可能なアップデートで、大規模グラフを表現することができる。
しかし、更新はバックトラッキング、すなわち、同じエッジを2回流し、以前訪問したノードを再訪するメッセージに悩まされる。
更新数に応じてメッセージフローの数が指数関数的に増加するため、ローカル更新の冗長性により、下流タスクに関連する特定のメッセージフローを正確に認識することができない。
本研究では、これまで訪れたノードからのメッセージを組み込むことなくメッセージを更新する非バックトラックグラフニューラルネットワーク(NBA-GNN)を介して、そのような冗長性問題を解決することを提案する。
理論的には、NBA-GNNがGNNの過度な監視を緩和し、NBA-GNNと確率的ブロックモデル回復のための非バックトラック更新の顕著なパフォーマンスとの接続を確立する。
さらに,長距離グラフベンチマークとトランスダクティブノード分類問題に対するNBA-GNNの有効性を実証的に検証した。
The celebrated message-passing updates for graph neural networks allow representing large-scale graphs with local and computationally tractable updates. However, the updates suffer from backtracking, i.e., a message flowing through the same edge twice and revisiting the previously visited node. Since the number of message flows increases exponentially with the number of updates, the redundancy in local updates prevents the graph neural network from accurately recognizing a particular message flow relevant for downstream tasks. In this work, we propose to resolve such a redundancy issue via the non-backtracking graph neural network (NBA-GNN) that updates a message without incorporating the message from the previously visited node. We theoretically investigate how NBA-GNN alleviates the over-squashing of GNNs, and establish a connection between NBA-GNN and the impressive performance of non-backtracking updates for stochastic block model recovery. Furthermore, we empirically verify the effectiveness of our NBA-GNN on the long-range graph benchmark and transductive node classification problems. | 翻訳日:2024-11-09 10:01:09 公開日:2024-09-25 |
# 時系列予測における量子長短期記憶(QLSTM)と古典LSTM:太陽電力予測の比較研究
Quantum Long Short-Term Memory (QLSTM) vs Classical LSTM in Time Series Forecasting: A Comparative Study in Solar Power Forecasting ( http://arxiv.org/abs/2310.17032v3 ) ライセンス: Link先を確認 | Saad Zafar Khan, Nazeefa Muzammil, Salman Ghafoor, Haibat Khan, Syed Mohammad Hasan Zaidi, Abdulah Jeza Aljohani, Imran Aziz, | (参考訳) 太陽エネルギーの正確な予測は、持続可能なエネルギーシステムへの世界的移行の鍵となる。
本研究では,ソーラー発電予測のための量子長短期記憶(QLSTM)モデルと古典長短期記憶(LSTM)モデルとの微妙な比較を行った。
第一の目的は、再生可能エネルギーデータに固有の複雑な時空間パターンを捉える際に、その指数表現能力を活用するQLSTMの潜在的な利点を評価することである。
実世界の太陽光発電データセットの制御実験により,従来のLSTMと比較して,トレーニング収束の加速や初期エポックにおけるテスト損失の大幅な削減など,QLSTMによる有望な改善が示された。
これらの経験的な結果は、QLSTMが重畳のような量子現象によって実現される複雑な時系列関係を素早く同化する可能性を示している。
しかし、QLSTMの全機能を実現するには、様々な条件、系統的なハイパーパラメータ最適化、ハードウェアノイズの回復性、および相関した再生可能予測問題への応用など、モデル検証のさらなる研究が必要である。
継続的な進歩により、量子機械学習は再生可能エネルギー時系列予測のパラダイムシフトを提供することができ、世界中の太陽エネルギー予測において前例のない精度と信頼性の時代に取って代わる可能性がある。
この先駆的な研究は、現在の制限を認めながら、古典的なLSTMモデルよりも量子的優位性を実証する最初の証拠を提供する。
実世界のデータに基づく厳密なベンチマークを通じて、我々の研究は再生可能予測における量子学習の道筋を示す。
Accurate solar power forecasting is pivotal for the global transition towards sustainable energy systems. This study conducts a meticulous comparison between Quantum Long Short-Term Memory (QLSTM) and classical Long Short-Term Memory (LSTM) models for solar power production forecasting. The primary objective is to evaluate the potential advantages of QLSTMs, leveraging their exponential representational capabilities, in capturing the intricate spatiotemporal patterns inherent in renewable energy data. Through controlled experiments on real-world photovoltaic datasets, our findings reveal promising improvements offered by QLSTMs, including accelerated training convergence and substantially reduced test loss within the initial epoch compared to classical LSTMs. These empirical results demonstrate QLSTM's potential to swiftly assimilate complex time series relationships, enabled by quantum phenomena like superposition. However, realizing QLSTM's full capabilities necessitates further research into model validation across diverse conditions, systematic hyperparameter optimization, hardware noise resilience, and applications to correlated renewable forecasting problems. With continued progress, quantum machine learning can offer a paradigm shift in renewable energy time series prediction, potentially ushering in an era of unprecedented accuracy and reliability in solar power forecasting worldwide. This pioneering work provides initial evidence substantiating quantum advantages over classical LSTM models while acknowledging present limitations. Through rigorous benchmarking grounded in real-world data, our study illustrates a promising trajectory for quantum learning in renewable forecasting. | 翻訳日:2024-11-09 09:50:02 公開日:2024-09-25 |
# キュレーションを科学出版に統合してAIモデルを訓練する
Integrating curation into scientific publishing to train AI models ( http://arxiv.org/abs/2310.20440v2 ) ライセンス: Link先を確認 | Jorge Abreu-Vicente, Hannah Sonntag, Thomas Eidens, Cassie S. Mitchell, Thomas Lemberger, | (参考訳) 学術論文からのデータの高スループット抽出と構造化ラベリングは、下流の機械学習アプリケーションと二次解析を可能にするために重要である。
我々は,複数モーダルデータキュレーションを学術出版プロセスに組み込んで,セグメント化された図形パネルやキャプションに注釈を付ける。
自然言語処理(NLP)は、オリジナルの著者からのフィードバックと組み合わせて、アノテーションの精度を高めた。
注釈には8種類の生物種(小分子、遺伝子産物、細胞内成分、細胞株、細胞タイプ、組織、生物、病気)と、実験設計と方法論における実体の役割を規定する追加クラスが含まれていた。
結果として得られたデータセットSourceData-NLPは、620,000以上の注釈付き生体医学的実体を含み、分子生物学および細胞生物学の3,223の論文で18,689の数字から算出された。
我々は、名前付き認識、図形キャプションを構成パネルに分割することでAIモデルを訓練するためのデータセットの有用性を評価し、エンティティが制御された介入対象であるか、あるいは測定対象であるかを評価する新しい文脈依存意味タスクについて検討する。
また、図形をパネル画像とその対応するキャプションに分割するマルチモーダルタスクを行う際のデータセットの利用についても解説する。
High throughput extraction and structured labeling of data from academic articles is critical to enable downstream machine learning applications and secondary analyses. We have embedded multimodal data curation into the academic publishing process to annotate segmented figure panels and captions. Natural language processing (NLP) was combined with human-in-the-loop feedback from the original authors to increase annotation accuracy. Annotation included eight classes of bioentities (small molecules, gene products, subcellular components, cell lines, cell types, tissues, organisms, and diseases) plus additional classes delineating the entities' roles in experiment designs and methodologies. The resultant dataset, SourceData-NLP, contains more than 620,000 annotated biomedical entities, curated from 18,689 figures in 3,223 articles in molecular and cell biology. We evaluate the utility of the dataset to train AI models using named-entity recognition, segmentation of figure captions into their constituent panels, and a novel context-dependent semantic task assessing whether an entity is a controlled intervention target or a measurement object. We also illustrate the use of our dataset in performing a multi-modal task for segmenting figures into panel images and their corresponding captions. | 翻訳日:2024-11-09 09:50:02 公開日:2024-09-25 |
# ニューラルネットワークを用いた冗長性制御によるグループ機能(センサ)選択
Group-Feature (Sensor) Selection With Controlled Redundancy Using Neural Networks ( http://arxiv.org/abs/2310.20524v2 ) ライセンス: Link先を確認 | Aytijhya Saha, Nikhil R. Pal, | (参考訳) 本稿では,MLP(Multi-layer Perceptron)ネットワークに基づく新しい特徴選択手法を提案する。
さらに,機能選択のためのグループラッソペナルティを一般化し,冗長性の制御を同時に維持しつつ,価値あるグループ特徴を選択するメカニズムを包含した。
提案アルゴリズムの単調性と収束性を,適切な仮定の下でスムーズなペナルティ項を用いて確立する。
いくつかのベンチマークデータセットによる実験結果から,提案手法は,いくつかの最先端手法に対して,特徴選択とグループ特徴選択の両方に対して有望な性能を示す。
In this paper, we present a novel embedded feature selection method based on a Multi-layer Perceptron (MLP) network and generalize it for group-feature or sensor selection problems, which can control the level of redundancy among the selected features or groups. Additionally, we have generalized the group lasso penalty for feature selection to encompass a mechanism for selecting valuable group features while simultaneously maintaining a control over redundancy. We establish the monotonicity and convergence of the proposed algorithm, with a smoothed version of the penalty terms, under suitable assumptions. Experimental results on several benchmark datasets demonstrate the promising performance of the proposed methodology for both feature selection and group feature selection over some state-of-the-art methods. | 翻訳日:2024-11-09 09:50:02 公開日:2024-09-25 |
# 夫婦の引き抜きが可能:病院・居住者問題に対する新しいアルゴリズムと難易度
Couples can be tractable: New algorithms and hardness results for the Hospitals / Residents problem with Couples ( http://arxiv.org/abs/2311.00405v3 ) ライセンス: Link先を確認 | Gergely Csáji, David Manlove, Iain McBride, James Trimble, | (参考訳) 本稿では,ソリューションが安定したマッチングや,存在しないレポートであるHRCを用いて,病院・居住者問題について検討する。
本研究は,カップルの嗜好がサブレスポンシブであるHRCインスタンスにおいて,ほぼ実現可能な安定なマッチング(少なくとも病院の容量を最大1で調整する)とサブコンプリート(各会員がより良い病院に切り替える場合,カップルも改善する)を実現するための新しい多項式時間アルゴリズムを提案する。
また、サブレスポンシブでサブコンプリートなインスタンスがデュアルマーケットである場合や、全てのカップルがいくつかの可能なタイプの1つである場合において、HRCの多項式時間アルゴリズムを提案する。
また,本アルゴリズムは,グラフがループを持つ多重グラフである安定なbマッチング問題の多項式時間可解性についても示唆する。
我々はアルゴリズムをいくつかの難しい結果で補完する。
サブレスポンシブカップルとサブコンプリートカップルのHRCは,他の強い制約を伴ってもNPハードであることを示す。
また、複数の同時制限の下で、デュアルマーケットを持つHRCがNPハードであることも示している。
最後に,HRCにおけるブロックペア数の最小値とのマッチングを求める問題は,各カップルが1組の病院にのみ適用される場合を除き,病院の選好リストの総長が$m$である場合,$m^{1-\varepsilon}$に対して$m^{1-\varepsilon}$で近似できないことを示す。
多項式時間可解性は, HRCの既知の抽出可能なインスタンスのクラスを大きく拡張し, 将来, より効率的かつ優れた機構を設計するための有用なツールを提供する。
In this paper, we study the Hospitals / Residents problem with Couples (HRC), where a solution is a stable matching or a report that none exists. We present a novel polynomial-time algorithm that can find a near-feasible stable matching (adjusting the hospitals' capacities by at most 1) in an HRC instance where the couples' preferences are sub-responsive (i.e., if one member switches to a better hospital, then the couple also improves) and sub-complete (i.e., each pair of hospitals that are individually acceptable to both members are jointly acceptable for the couple) by reducing it to an instance of the Stable Fixtures problem. We also present a polynomial-time algorithm for HRC in a sub-responsive, sub-complete instance that is a Dual Market, or where all couples are one of several possible types. We show that our algorithm also implies the polynomial-time solvability of a stable b-matching problem, where the underlying graph is a multigraph with loops. We complement our algorithms with several hardness results. We show that HRC with sub-responsive and sub-complete couples is NP-hard, even with other strong restrictions. We also show that HRC with a Dual Market is NP-hard under several simultaneous restrictions. Finally, we show that the problem of finding a matching with the minimum number of blocking pairs in HRC is not approximable within $m^{1-\varepsilon}$, for any $\varepsilon>0$, where $m$ is the total length of the hospitals' preference lists, unless P=NP, even if each couple applies to only one pair of hospitals. Our polynomial-time solvability results greatly expand the class of known tractable instances of HRC and provide a useful tool for designing better and more efficient mechanisms in the future. | 翻訳日:2024-11-09 09:50:02 公開日:2024-09-25 |
# 非線形選好を用いた多目的強化学習:期待されるスカラーリターンの最大化のための確率近似
Multi-objective Reinforcement Learning with Nonlinear Preferences: Provable Approximation for Maximizing Expected Scalarized Return ( http://arxiv.org/abs/2311.02544v3 ) ライセンス: Link先を確認 | Nianli Peng, Muhang Tian, Brandon Fain, | (参考訳) 軌道上の非線形選好を用いた多目的強化学習について検討した。
すなわち、多目的マルコフ決定過程(MOMDP)において、累積報酬(予測スカラー化リターンまたはESR)よりも非線形関数の期待値を最大化する。
我々は、時間と現在の累積報酬を明示的に考慮した非線形最適化のためのベルマン最適性の拡張形式を導出する。
この定式化を用いて,一定数の報酬を持つ滑らかなスキャラライゼーション関数に対して,擬ポリノミカル時間でほぼ最適な非定常ポリシーを計算するための近似アルゴリズムを記述する。
この近似を解析的に証明し,そのアルゴリズムを実験的に実証し,アルゴリズムが計算する最適方針と代替基準との間に大きなギャップがあることを証明した。
We study multi-objective reinforcement learning with nonlinear preferences over trajectories. That is, we maximize the expected value of a nonlinear function over accumulated rewards (expected scalarized return or ESR) in a multi-objective Markov Decision Process (MOMDP). We derive an extended form of Bellman optimality for nonlinear optimization that explicitly considers time and current accumulated reward. Using this formulation, we describe an approximation algorithm for computing an approximately optimal non-stationary policy in pseudopolynomial time for smooth scalarization functions with a constant number of rewards. We prove the approximation analytically and demonstrate the algorithm experimentally, showing that there can be a substantial gap between the optimal policy computed by our algorithm and alternative baselines. | 翻訳日:2024-11-09 09:50:02 公開日:2024-09-25 |
# MMoE:マルチモーダルインタラクションエキスパートの混在によるマルチモーダルモデルの実現
MMoE: Enhancing Multimodal Models with Mixtures of Multimodal Interaction Experts ( http://arxiv.org/abs/2311.09580v2 ) ライセンス: Link先を確認 | Haofei Yu, Zhengyang Qi, Lawrence Jang, Ruslan Salakhutdinov, Louis-Philippe Morency, Paul Pu Liang, | (参考訳) マルチモーダルモデルの進歩は、様々なタスクに関連するインタラクションのモデル化方法を大幅に改善した。
今日のマルチモーダルモデルは、主に画像とテキストの対応に焦点を当て、画像とテキストのマッチングのようなタスクにこれを使用する。
しかし、これは現実世界の相互作用のサブセットのみをカバーしている。
反対の言葉やジェスチャーを通して表現されるサルカズムや、発声や声のトーンを通して表現されるユーモアといった新しい相互作用は、依然として困難なままである。
本稿では,MMOE(Multimodal Mixtures of Experts)と呼ばれるマルチモーダルモデルの拡張手法を提案する。
MMoEの鍵となる考え方は、モーダル性、一様性における特異性、両方のモーダル性が融合されたときに現れるシナジーなど、多モード相互作用のタイプごとに異なる専門家モデルを訓練することである。
サルカズム検出タスク (MUStARD) とユーモア検出タスク (URFUNNY) では, 最新の結果が得られる。
MMoEは様々な種類のモデルにも適用でき、改善されている。
Advances in multimodal models have greatly improved how interactions relevant to various tasks are modeled. Today's multimodal models mainly focus on the correspondence between images and text, using this for tasks like image-text matching. However, this covers only a subset of real-world interactions. Novel interactions, such as sarcasm expressed through opposing spoken words and gestures or humor expressed through utterances and tone of voice, remain challenging. In this paper, we introduce an approach to enhance multimodal models, which we call Multimodal Mixtures of Experts (MMoE). The key idea in MMoE is to train separate expert models for each type of multimodal interaction, such as redundancy present in both modalities, uniqueness in one modality, or synergy that emerges when both modalities are fused. On a sarcasm detection task (MUStARD) and a humor detection task (URFUNNY), we obtain new state-of-the-art results. MMoE is also able to be applied to various types of models to gain improvement. | 翻訳日:2024-11-09 09:38:58 公開日:2024-09-25 |
# MMoE:マルチモーダルインタラクションエキスパートの混在によるマルチモーダルモデルの実現
MMoE: Enhancing Multimodal Models with Mixtures of Multimodal Interaction Experts ( http://arxiv.org/abs/2311.09580v3 ) ライセンス: Link先を確認 | Haofei Yu, Zhengyang Qi, Lawrence Jang, Ruslan Salakhutdinov, Louis-Philippe Morency, Paul Pu Liang, | (参考訳) マルチモーダルモデルの進歩は、様々なタスクに関連するインタラクションのモデル化方法を大幅に改善した。
今日のマルチモーダルモデルは、主に画像とテキストの対応に焦点を当て、画像とテキストのマッチングのようなタスクにこれを使用する。
しかし、これは現実世界の相互作用のサブセットのみをカバーしている。
反対の言葉やジェスチャーを通して表現されるサルカズムや、発声や声のトーンを通して表現されるユーモアといった新しい相互作用は、依然として困難なままである。
本稿では,MMOE(Multimodal Mixtures of Experts)と呼ばれるマルチモーダルモデルの拡張手法を提案する。
MMoEの鍵となる考え方は、モーダル性、一様性における特異性、両方のモーダル性が融合されたときに現れるシナジーなど、多モード相互作用のタイプごとに異なる専門家モデルを訓練することである。
サルカズム検出タスク (MUStARD) とユーモア検出タスク (URFUNNY) では, 最新の結果が得られる。
MMoEは様々な種類のモデルにも適用でき、改善されている。
Advances in multimodal models have greatly improved how interactions relevant to various tasks are modeled. Today's multimodal models mainly focus on the correspondence between images and text, using this for tasks like image-text matching. However, this covers only a subset of real-world interactions. Novel interactions, such as sarcasm expressed through opposing spoken words and gestures or humor expressed through utterances and tone of voice, remain challenging. In this paper, we introduce an approach to enhance multimodal models, which we call Multimodal Mixtures of Experts (MMoE). The key idea in MMoE is to train separate expert models for each type of multimodal interaction, such as redundancy present in both modalities, uniqueness in one modality, or synergy that emerges when both modalities are fused. On a sarcasm detection task (MUStARD) and a humor detection task (URFUNNY), we obtain new state-of-the-art results. MMoE is also able to be applied to various types of models to gain improvement. | 翻訳日:2024-11-09 09:38:58 公開日:2024-09-25 |
# 事前学習型言語モデルは自動回帰テキスト・画像生成に役立たない
Pre-trained Language Models Do Not Help Auto-regressive Text-to-Image Generation ( http://arxiv.org/abs/2311.16201v2 ) ライセンス: Link先を確認 | Yuhui Zhang, Brandon McKinzie, Zhe Gan, Vaishaal Shankar, Alexander Toshev, | (参考訳) VQ-VAEのような画像トークン化装置の最近の進歩は、言語モデリングと同様、自動回帰法によるテキスト・ツー・イメージ生成を可能にしている。
しかし、これらの手法は、様々な下流タスクへの適応性にもかかわらず、まだ事前訓練された言語モデルを利用していない。
本研究では、自動回帰テキスト・画像生成のための事前学習言語モデルを適用することにより、このギャップを解明し、事前学習言語モデルが限られた助けを提供することを示す。
それぞれのモダリティからトークンを分析することによって,2つの説明を行う。
まず,画像トークンがテキストトークンとは大きく異なる意味を持っていることを実証し,事前学習した言語モデルをランダムに初期化したものよりもモデル化に効果的でないことを示す。
第二に、画像テキストデータセットのテキストトークンは、通常の言語モデルの事前学習データに比べて単純すぎるため、言語モデルの能力が壊滅的に低下する。
Recent advances in image tokenizers, such as VQ-VAE, have enabled text-to-image generation using auto-regressive methods, similar to language modeling. However, these methods have yet to leverage pre-trained language models, despite their adaptability to various downstream tasks. In this work, we explore this gap by adapting a pre-trained language model for auto-regressive text-to-image generation, and find that pre-trained language models offer limited help. We provide a two-fold explanation by analyzing tokens from each modality. First, we demonstrate that image tokens possess significantly different semantics compared to text tokens, rendering pre-trained language models no more effective in modeling them than randomly initialized ones. Second, the text tokens in the image-text datasets are too simple compared to normal language model pre-training data, which causes the catastrophic degradation of language models' capability. | 翻訳日:2024-11-09 09:27:53 公開日:2024-09-25 |
# Ego-Exo4D:初対三対人の視点からの技能的活動の理解
Ego-Exo4D: Understanding Skilled Human Activity from First- and Third-Person Perspectives ( http://arxiv.org/abs/2311.18259v4 ) ライセンス: Link先を確認 | Kristen Grauman, Andrew Westbury, Lorenzo Torresani, Kris Kitani, Jitendra Malik, Triantafyllos Afouras, Kumar Ashutosh, Vijay Baiyya, Siddhant Bansal, Bikram Boote, Eugene Byrne, Zach Chavis, Joya Chen, Feng Cheng, Fu-Jen Chu, Sean Crane, Avijit Dasgupta, Jing Dong, Maria Escobar, Cristhian Forigua, Abrham Gebreselasie, Sanjay Haresh, Jing Huang, Md Mohaiminul Islam, Suyog Jain, Rawal Khirodkar, Devansh Kukreja, Kevin J Liang, Jia-Wei Liu, Sagnik Majumder, Yongsen Mao, Miguel Martin, Effrosyni Mavroudi, Tushar Nagarajan, Francesco Ragusa, Santhosh Kumar Ramakrishnan, Luigi Seminara, Arjun Somayazulu, Yale Song, Shan Su, Zihui Xue, Edward Zhang, Jinxu Zhang, Angela Castillo, Changan Chen, Xinzhu Fu, Ryosuke Furuta, Cristina Gonzalez, Prince Gupta, Jiabo Hu, Yifei Huang, Yiming Huang, Weslie Khoo, Anush Kumar, Robert Kuo, Sach Lakhavani, Miao Liu, Mi Luo, Zhengyi Luo, Brighid Meredith, Austin Miller, Oluwatumininu Oguntola, Xiaqing Pan, Penny Peng, Shraman Pramanick, Merey Ramazanova, Fiona Ryan, Wei Shan, Kiran Somasundaram, Chenan Song, Audrey Southerland, Masatoshi Tateno, Huiyu Wang, Yuchen Wang, Takuma Yagi, Mingfei Yan, Xitong Yang, Zecheng Yu, Shengxin Cindy Zha, Chen Zhao, Ziwei Zhao, Zhifan Zhu, Jeff Zhuo, Pablo Arbelaez, Gedas Bertasius, David Crandall, Dima Damen, Jakob Engel, Giovanni Maria Farinella, Antonino Furnari, Bernard Ghanem, Judy Hoffman, C. V. Jawahar, Richard Newcombe, Hyun Soo Park, James M. Rehg, Yoichi Sato, Manolis Savva, Jianbo Shi, Mike Zheng Shou, Michael Wray, | (参考訳) Ego-Exo4Dは多種多様なマルチモーダル・マルチビュー・ビデオ・データセットとベンチマーク・チャレンジである。
Ego-Exo4Dは、熟練した人間の活動(スポーツ、音楽、ダンス、自転車修理など)を同時に撮影する。
世界の13都市から740人の参加者が、123の異なる自然シーンでこれらの活動を行い、それぞれ1分から42分、1,286時間の映像を収録した。
ビデオにはマルチチャンネルのオーディオ、視線、3Dポイントの雲、カメラポーズ、IMU、そして複数のペア言語の説明が添付されている。
熟練した人間の活動に関する一対一のビデオ理解のフロンティアを推し進めるために,我々は,詳細な活動理解,習熟度推定,クロスビュー翻訳,3Dハンド/ボディポーズなど,一連のベンチマークタスクとそのアノテーションも提示する。
すべてのリソースがオープンソースとして公開され、コミュニティで新たな研究が進められている。
プロジェクトページ: http://ego-exo4d-data.org/
We present Ego-Exo4D, a diverse, large-scale multimodal multiview video dataset and benchmark challenge. Ego-Exo4D centers around simultaneously-captured egocentric and exocentric video of skilled human activities (e.g., sports, music, dance, bike repair). 740 participants from 13 cities worldwide performed these activities in 123 different natural scene contexts, yielding long-form captures from 1 to 42 minutes each and 1,286 hours of video combined. The multimodal nature of the dataset is unprecedented: the video is accompanied by multichannel audio, eye gaze, 3D point clouds, camera poses, IMU, and multiple paired language descriptions -- including a novel "expert commentary" done by coaches and teachers and tailored to the skilled-activity domain. To push the frontier of first-person video understanding of skilled human activity, we also present a suite of benchmark tasks and their annotations, including fine-grained activity understanding, proficiency estimation, cross-view translation, and 3D hand/body pose. All resources are open sourced to fuel new research in the community. Project page: http://ego-exo4d-data.org/ | 翻訳日:2024-11-09 09:27:53 公開日:2024-09-25 |
# 帰納的推論はいつ可能か?
When Is Inductive Inference Possible? ( http://arxiv.org/abs/2312.00170v2 ) ライセンス: Link先を確認 | Zhou Lu, | (参考訳) 物理学者は、自然の法則を明らかにするための永遠の探求において、限られた数の誤りしか作れないだろうか?
この千年紀の哲学的問題は、帰納的推論(inductive inference)として知られ、認識論の中心にある。
人間の推論を理解することの重要性にもかかわらず、帰納的推論の厳密な正当化はいまだ解明されていない。
高いレベルでは、帰納的推論(inductive inference)は、与えられた仮説クラスから正しい仮説を導出する際に、無限の観測列の中で少なくとも有限の誤りを犯すことができるかどうかを問う。
歴史的に、唯一の理論的保証は、仮説クラスが可算であれば、チューリング機械を学習するためにソロモノフ帰納法によって例示されるように、帰納的推論が可能であることである。
本稿では,オンライン学習理論の新たなリンクを確立することにより,帰納的推論の厳密な評価を行う。
本結果から, 帰納的推論が可能であること, 仮説クラスがオンライン学習可能クラスの可算和であり, 潜在的に可算な大きさの場合に限り, 観察が適応的に選択されたり, サンプリングされたりしても, 帰納的推論が可能であることを証明した。
さらに、この条件を満たす任意の仮説クラスが$\tilde{O}(\sqrt{T})$ regret bound for any time step $T$を楽しんでいる一方で、他は任意に遅い後悔の速度を必要とする。
私たちの主要な技術ツールは、新しい一様でないオンライン学習フレームワークです。
Can a physicist make only a finite number of errors in the eternal quest to uncover the law of nature? This millennium-old philosophical problem, known as inductive inference, lies at the heart of epistemology. Despite its significance to understanding human reasoning, a rigorous justification of inductive inference has remained elusive. At a high level, inductive inference asks whether one can make at most finite errors amidst an infinite sequence of observations, when deducing the correct hypothesis from a given hypothesis class. Historically, the only theoretical guarantee has been that if the hypothesis class is countable, inductive inference is possible, as exemplified by Solomonoff induction for learning Turing machines. In this paper, we provide a tight characterization of inductive inference by establishing a novel link to online learning theory. As our main result, we prove that inductive inference is possible if and only if the hypothesis class is a countable union of online learnable classes, potentially with an uncountable size, no matter the observations are adaptively chosen or iid sampled. Moreover, the same condition is also sufficient and necessary in the agnostic setting, where any hypothesis class meeting this criterion enjoys an $\tilde{O}(\sqrt{T})$ regret bound for any time step $T$, while others require an arbitrarily slow rate of regret. Our main technical tool is a novel non-uniform online learning framework, which may be of independent interest. | 翻訳日:2024-11-09 09:27:53 公開日:2024-09-25 |
# TaskMet: モデル学習のためのタスク駆動型メトリクス学習
TaskMet: Task-Driven Metric Learning for Model Learning ( http://arxiv.org/abs/2312.05250v2 ) ライセンス: Link先を確認 | Dishank Bansal, Ricky T. Q. Chen, Mustafa Mukadam, Brandon Amos, | (参考訳) ディープラーニングモデルは、トレーニング手順が認識していない可能性のある下流タスクにデプロイされることが多い。
例えば、正確な予測を行うためにのみ訓練されたモデルは、小さな予測エラーが急激なタスクエラーを引き起こす可能性があるため、下流のタスクでうまく実行するのに苦労する可能性がある。
標準的なエンドツーエンドの学習アプローチは、タスクの損失を差別化させるか、モデルをトレーニングできるような、差別化可能なサロゲートを導入することである。
これらの設定では、タスク損失は、目標に矛盾する可能性があるため、予測損失と注意深くバランスする必要がある。
本稿では,モデルのパラメータよりも1段階深いタスク損失信号を用いて,モデルがトレーニングした損失関数のパラメータを学習する。
このアプローチは、最適な予測モデル自体を変更するのではなく、下流のタスクにとって重要な情報を強調するためにモデル学習を変更する。
これにより、元の予測空間で訓練された予測モデルと、所望の下流タスクに価値ある予測モデルという、両方の世界のベストを達成できます。
我々は,2つの主要な設定で実施した実験を通じて,我々のアプローチを検証する。
1)ポートフォリオ最適化と予算配分を含む意思決定型モデル学習シナリオ
2) ノイズの多い環境下での強化学習
実験を再現するソースコードはhttps://github.com/facebookresearch/taskmetで公開されている。
Deep learning models are often deployed in downstream tasks that the training procedure may not be aware of. For example, models solely trained to achieve accurate predictions may struggle to perform well on downstream tasks because seemingly small prediction errors may incur drastic task errors. The standard end-to-end learning approach is to make the task loss differentiable or to introduce a differentiable surrogate that the model can be trained on. In these settings, the task loss needs to be carefully balanced with the prediction loss because they may have conflicting objectives. We propose take the task loss signal one level deeper than the parameters of the model and use it to learn the parameters of the loss function the model is trained on, which can be done by learning a metric in the prediction space. This approach does not alter the optimal prediction model itself, but rather changes the model learning to emphasize the information important for the downstream task. This enables us to achieve the best of both worlds: a prediction model trained in the original prediction space while also being valuable for the desired downstream task. We validate our approach through experiments conducted in two main settings: 1) decision-focused model learning scenarios involving portfolio optimization and budget allocation, and 2) reinforcement learning in noisy environments with distracting states. The source code to reproduce our experiments is available at https://github.com/facebookresearch/taskmet | 翻訳日:2024-11-09 09:27:53 公開日:2024-09-25 |
# 継続的な敵防衛
Continual Adversarial Defense ( http://arxiv.org/abs/2312.09481v4 ) ライセンス: Link先を確認 | Qian Wang, Yaoyao Liu, Hefei Ling, Yingwei Li, Qihao Liu, Ping Li, Jiazhong Chen, Alan Yuille, Ning Yu, | (参考訳) 視覚的分類器に対する敵の攻撃は、月々急速に進化しているため、可能な限り多くの既知の攻撃に対して、多くの防衛策が提案されている。
しかし、防衛システムが動作している環境は動的であり、時間とともに現れる様々なユニークな攻撃を含むため、あらゆる種類の攻撃に一般化する防衛手法を設計することは現実的ではない。
動的環境に対するよく整合したアプローチは、敵データをオンラインで継続的に収集し、自らを迅速に改善する防衛システムにある。
そこで,我々は,挑戦的脅威モデルに対する実践的な防衛展開を提唱し,(1)壊滅的忘れを伴わない新たな攻撃への継続的な適応,(2)少数ショット適応,(3)メモリ効率の適応,(4)クリーンデータと逆データの両方において高い精度で攻撃列に適応する継続的敵防衛(CAD)フレームワークを初めて提案した。
最先端の継続的学習、少数ショット学習、およびアンサンブル学習技術を探求し、統合し、原則を立証する。
大規模な実験により, 現代の敵攻撃の複数段階に対するアプローチの有効性が検証され, 多数のベースライン法に対して有意な改善が見られた。
特にCADは、前回の攻撃に対して優れた性能を維持しつつ、最小限の予算と低コストの防衛失敗に迅速に適応することができる。
我々の研究は、動的および進化的攻撃に対する継続的な防御適応のための、新しいパラダイムに光を当てています。
In response to the rapidly evolving nature of adversarial attacks against visual classifiers on a monthly basis, numerous defenses have been proposed to generalize against as many known attacks as possible. However, designing a defense method that generalizes to all types of attacks is not realistic because the environment in which defense systems operate is dynamic and comprises various unique attacks that emerge as time goes on. A well-matched approach to the dynamic environment lies in a defense system that continuously collects adversarial data online to quickly improve itself. Therefore, we put forward a practical defense deployment against a challenging threat model and propose, for the first time, the Continual Adversarial Defense (CAD) framework that adapts to attack sequences under four principles: (1) continual adaptation to new attacks without catastrophic forgetting, (2) few-shot adaptation, (3) memory-efficient adaptation, and (4) high accuracy on both clean and adversarial data. We explore and integrate cutting-edge continual learning, few-shot learning, and ensemble learning techniques to qualify the principles. Extensive experiments validate the effectiveness of our approach against multiple stages of modern adversarial attacks and demonstrate significant improvements over numerous baseline methods. In particular, CAD is capable of quickly adapting with minimal budget and a low cost of defense failure while maintaining good performance against previous attacks. Our research sheds light on a brand-new paradigm for continual defense adaptation against dynamic and evolving attacks. | 翻訳日:2024-11-09 09:16:50 公開日:2024-09-25 |
# 凸確率計画における平均平均近似のための計量エントロピー自由サンプル複素境界
Metric Entropy-Free Sample Complexity Bounds for Sample Average Approximation in Convex Stochastic Programming ( http://arxiv.org/abs/2401.00664v4 ) ライセンス: Link先を確認 | Hongcheng Liu, Jindong Tong, | (参考訳) 本稿では、凸あるいは強凸確率計画(SP)問題の解法におけるサンプル平均近似(SAA)について検討する。
いくつかの共通正規性条件の下では、SAAのサンプルの複雑さは(被覆数の対数のような)計量エントロピーの量子化から完全に解放され、既存のほとんどの結果よりも次元$d$のかなり効率的な速度が得られることを示す。
新たに確立された複雑性境界から、SAAと正準確率ミラー降下(SMD)法は、SPに対する2つの主流解法であり、サンプル効率のほぼ同じ率を伴い、$O(d)$の順序でSAAの永続的理論的相違をSMDから修正する。
さらに,SAAが証明可能な有効性を維持している非リプシッツ的シナリオについて検討するが,SMDの対応する結果はほとんど探索されていないままであり,不規則な条件下でのSAAのよりよい適用可能性を示している。
This paper studies sample average approximation (SAA) in solving convex or strongly convex stochastic programming (SP) problems. Under some common regularity conditions, we show -- perhaps for the first time -- that SAA's sample complexity can be completely free from any quantification of metric entropy (such as the logarithm of the covering number), leading to a significantly more efficient rate with dimensionality $d$ than most existing results. From the newly established complexity bounds, an important revelation is that SAA and the canonical stochastic mirror descent (SMD) method, two mainstream solution approaches to SP, entail almost identical rates of sample efficiency, rectifying a persistent theoretical discrepancy of SAA from SMD by the order of $O(d)$. Furthermore, this paper explores non-Lipschitzian scenarios where SAA maintains provable efficacy but the corresponding results for SMD remain mostly unexplored, indicating the potential of SAA's better applicability in some irregular settings. | 翻訳日:2024-11-09 05:28:28 公開日:2024-09-25 |
# コンテンツ一貫性超解法における拡散モデルの安定性と効率の改善
Improving the Stability and Efficiency of Diffusion Models for Content Consistent Super-Resolution ( http://arxiv.org/abs/2401.00877v2 ) ライセンス: Link先を確認 | Lingchen Sun, Rongyuan Wu, Jie Liang, Zhengqiang Zhang, Hongwei Yong, Lei Zhang, | (参考訳) 画像超解像 (SR) 結果の視覚的品質を高めるために, 事前学習型潜伏拡散モデル (DM) の生成先行が大きな可能性を示唆している。
しかし、DMにおけるノイズサンプリングプロセスは、SR出力のランダム性を導入し、生成した内容は異なるノイズサンプルと大きく異なる可能性がある。
多段拡散過程は蒸留法により加速することができるが, 生成能力の制御は困難である。
これらの課題に対処するため、DMとGANのそれぞれの利点を分析し、生成SR過程を2段階に分割し、DMを画像構造再構築に、GANをきめ細かな詳細改善に使用することを提案する。
具体的には,第1段階における一様でないタイムステップサンプリング戦略を提案する。
入力画像から粗い情報を抽出するために、まず1つの時間ステップサンプリングを適用し、その後、いくつかの逆ステップを使用して、主構造を再構築する。
第2段階では,事前学習した変分オートエンコーダのデコーダを逆GAN訓練により微調整し,決定論的詳細化を図る。
トレーニングを済ませると、提案手法、すなわちコンテンツ一貫性超解像(CCSR)は、推論段階における異なる拡散ステップの柔軟な利用を可能にする。
広汎な実験により、CCSRは2または1の拡散ステップにより、高い知覚品質を維持しながら、SR出力のコンテント一貫性を著しく向上させることができることが示された。
コードとモデルは \href{https://github.com/csslc/CCSR}{https://github.com/csslc/CCSR} で見ることができる。
The generative priors of pre-trained latent diffusion models (DMs) have demonstrated great potential to enhance the visual quality of image super-resolution (SR) results. However, the noise sampling process in DMs introduces randomness in the SR outputs, and the generated contents can differ a lot with different noise samples. The multi-step diffusion process can be accelerated by distilling methods, but the generative capacity is difficult to control. To address these issues, we analyze the respective advantages of DMs and generative adversarial networks (GANs) and propose to partition the generative SR process into two stages, where the DM is employed for reconstructing image structures and the GAN is employed for improving fine-grained details. Specifically, we propose a non-uniform timestep sampling strategy in the first stage. A single timestep sampling is first applied to extract the coarse information from the input image, then a few reverse steps are used to reconstruct the main structures. In the second stage, we finetune the decoder of the pre-trained variational auto-encoder by adversarial GAN training for deterministic detail enhancement. Once trained, our proposed method, namely content consistent super-resolution (CCSR),allows flexible use of different diffusion steps in the inference stage without re-training. Extensive experiments show that with 2 or even 1 diffusion step, CCSR can significantly improve the content consistency of SR outputs while keeping high perceptual quality. Codes and models can be found at \href{https://github.com/csslc/CCSR}{https://github.com/csslc/CCSR}. | 翻訳日:2024-11-09 05:28:28 公開日:2024-09-25 |
# モデル平均化とダブル機械学習
Model Averaging and Double Machine Learning ( http://arxiv.org/abs/2401.01645v2 ) ライセンス: Link先を確認 | Achim Ahrens, Christian B. Hansen, Mark E. Schaffer, Thomas Wiemann, | (参考訳) 本稿では,複数の候補学習者を組み合わせたモデル平均化手法である重ね合わせと組み合わせて構造パラメーターを推定する。
DDMLのクロスフィッティングステップを利用して計算負担を大幅に軽減し、プール積み重ねはクロスフィッティング・フォールドに対して共通積み重ね重みを強制する。
キャリブレーションされたシミュレーション研究と、引用と賃金の男女差を推定する2つの応用を用いて、重ね合わせによるDDMLは、単一の事前選択学習者に基づく一般的な代替手法よりも、部分的に未知の機能形式に対して頑健であることを示す。
提案を実装したStaとRのソフトウェアを提供する。
This paper discusses pairing double/debiased machine learning (DDML) with stacking, a model averaging method for combining multiple candidate learners, to estimate structural parameters. In addition to conventional stacking, we consider two stacking variants available for DDML: short-stacking exploits the cross-fitting step of DDML to substantially reduce the computational burden and pooled stacking enforces common stacking weights over cross-fitting folds. Using calibrated simulation studies and two applications estimating gender gaps in citations and wages, we show that DDML with stacking is more robust to partially unknown functional forms than common alternative approaches based on single pre-selected learners. We provide Stata and R software implementing our proposals. | 翻訳日:2024-11-09 05:28:28 公開日:2024-09-25 |
# リアル・イン・アクション: YOLOv8とDeiTを用いた医用画像からの脳腫瘍の異常診断
Realism in Action: Anomaly-Aware Diagnosis of Brain Tumors from Medical Images Using YOLOv8 and DeiT ( http://arxiv.org/abs/2401.03302v3 ) ライセンス: Link先を確認 | Seyed Mohammad Hossein Hashemi, Leila Safari, Amirhossein Dadashzadeh Taromi, | (参考訳) 医療科学の分野では、画像からの脳腫瘍の信頼できる検出と分類は、患者の集団内の腫瘍の希少性のために、依然として深刻な課題である。
したがって、異常シナリオにおける腫瘍を検出する能力は、タイムリーな介入を確実にし、患者の結果を改善するために最重要である。
本研究は,脳腫瘍の診断・分類に深層学習(DL)技術を活用することでこの問題に対処する。
NBML(National Brain Mapping Lab)は、30の腫瘍患者と51の正常患者を含む81の患者を対象とする。
検出および分類パイプラインは、2つの連続するタスクに分割される。
検出フェーズには、画像サンプル数と各クラスの患者数を変更するための包括的データ分析と前処理が含まれており、実世界のシナリオに対応するために、異常分布(正常1例あたり9例)が検出された。
次に, 患者に対する患者評価(PTP)と呼ばれる新しい評価手法を, モデルの現実的評価に焦点をあてて導入した。
検出段階では,腫瘍領域を検出するためにYOLOv8n検出モデルを微調整した。
その後のテストと評価の結果、共通評価メトリクスとPTPメトリクスの両方で競合性能が得られた。
さらに,データ高能率画像変換器(DeiT)モジュールを用いて,微調整されたResNet152のViTモデルを分類段階の教師として蒸留した。
このアプローチは、信頼できる腫瘍の検出と分類において有望な進歩を示し、現実の医療画像シナリオにおける腫瘍診断の潜在的な進歩を提供する。
In the field of medical sciences, reliable detection and classification of brain tumors from images remains a formidable challenge due to the rarity of tumors within the population of patients. Therefore, the ability to detect tumors in anomaly scenarios is paramount for ensuring timely interventions and improved patient outcomes. This study addresses the issue by leveraging deep learning (DL) techniques to detect and classify brain tumors in challenging situations. The curated data set from the National Brain Mapping Lab (NBML) comprises 81 patients, including 30 Tumor cases and 51 Normal cases. The detection and classification pipelines are separated into two consecutive tasks. The detection phase involved comprehensive data analysis and pre-processing to modify the number of image samples and the number of patients of each class to anomaly distribution (9 Normal per 1 Tumor) to comply with real world scenarios. Next, in addition to common evaluation metrics for the testing, we employed a novel performance evaluation method called Patient to Patient (PTP), focusing on the realistic evaluation of the model. In the detection phase, we fine-tuned a YOLOv8n detection model to detect the tumor region. Subsequent testing and evaluation yielded competitive performance both in Common Evaluation Metrics and PTP metrics. Furthermore, using the Data Efficient Image Transformer (DeiT) module, we distilled a Vision Transformer (ViT) model from a fine-tuned ResNet152 as a teacher in the classification phase. This approach demonstrates promising strides in reliable tumor detection and classification, offering potential advancements in tumor diagnosis for real-world medical imaging scenarios. | 翻訳日:2024-11-09 05:28:28 公開日:2024-09-25 |
# 現代量子コンピュータにおける動的冷却
Dynamic Cooling on Contemporary Quantum Computers ( http://arxiv.org/abs/2401.09134v3 ) ライセンス: Link先を確認 | Lindsay Bassman Oftelie, Antonella De Pasquale, Michele Campisi, | (参考訳) 我々は,大域的ユニタリ演算を用いて,N-1$以上の同一量子ビットを加熱することにより,ターゲット量子ビットを冷却する動的冷却の問題を考察した。
標準的なバック・オブ・ザ・エンベロープの高温推定では、目標量子ビット温度は少なくとも1/\sqrt{N}$の係数で動的に冷却できる。
ここでは、ターゲット量子ビットを冷却できる最小温度の正確な式を提供し、スケーリングが実際に1/\sqrt{N}$である高い初期温度状態から、はるかに高速なスケーリングが1/N$となる低い初期温度状態へのクロスオーバーが存在することを明らかにする。
この遅い1/\sqrt{N}$スケールは、初期の高温NMR量子コンピュータに関係していたが、20年ほど前に動的冷却が非効率であった理由である。
さらに,低温条件下では,冷却に伴う作業コストが指数関数的に有利であることを示す。
本稿では,量子回路の動的冷却の実装について検討し,ハードウェアノイズの影響について検討する。
実量子プロセッサ上での3量子系における動的冷却の実証に成功した。
回路サイズは$N$で急速に大きくなるため、ノイズの多いデバイス上の大規模システムへの動的冷却のスケーリングは困難である。
そこで本研究では,少数の冷却能力の放棄によって回路の複雑化が大幅に低減され,近未来の量子コンピュータにおける動的冷却の実現が大幅に促進される準最適冷却アルゴリズムを提案する。
We study the problem of dynamic cooling whereby a target qubit is cooled at the expense of heating up $N-1$ further identical qubits, by means of a global unitary operation. A standard back-of-the-envelope high temperature estimate establishes that the target qubit temperature can only be dynamically cooled by at most a factor of $1/\sqrt{N}$. Here, we provide the exact expression for the minimum temperature to which the target qubit can be cooled and reveal that there is a crossover from the high initial temperature regime where the scaling is in fact $1/\sqrt{N}$ to a low initial temperature regime where a much faster scaling of $1/N$ occurs. This slow $1/\sqrt{N}$ scaling, which was relevant for early high-temperature NMR quantum computers, is the reason dynamic cooling was dismissed as ineffectual around 20 years ago; the fact that current low-temperature quantum computers fall in the fast $1/N$ scaling regime, reinstates the appeal of dynamic cooling today. We further show that the associated work cost of cooling is exponentially more advantageous in the low temperature regime. We discuss the implementation of dynamic cooling in terms of quantum circuits and examine the effects of hardware noise. We successfully demonstrate dynamic cooling in a 3-qubit system on a real quantum processor. Since the circuit size grows quickly with $N$, scaling dynamic cooling to larger systems on noisy devices poses a challenge. We therefore propose a suboptimal cooling algorithm, whereby relinquishing a small amount of cooling capability results in a drastically reduced circuit complexity, greatly facilitating the implementation of dynamic cooling on near-future quantum computers. | 翻訳日:2024-11-09 05:17:12 公開日:2024-09-25 |
# 自律型サプライチェーンを目指して:定義,特徴,概念的枠組み,自律性レベル
Towards Autonomous Supply Chains: Definition, Characteristics, Conceptual Framework, and Autonomy Levels ( http://arxiv.org/abs/2401.14183v2 ) ライセンス: Link先を確認 | Liming Xu, Stephen Mak, Yaniv Proselkov, Alexandra Brintrup, | (参考訳) パンデミックや地政学的な紛争のような近年の世界的な混乱は、伝統的なサプライチェーンの脆弱性を著しく暴露し、より回復力のある代替手段を探究する必要がある。
自律的なサプライチェーン(ASC)が潜在的なソリューションとして登場し、乱流貿易環境における可視性、柔軟性、レジリエンスを高めている。
数年にわたる産業とアカデミックに関する議論にもかかわらず、ASCは十分に確立された理論基盤を欠いている。
本稿では,ASCの形式的定義と,その定義特性と補助概念を併用して,この研究ギャップに対処する。
MIISIモデルと呼ばれる階層構造の概念的枠組みを提案する。
食肉サプライチェーンに着目した実証的なケーススタディは、この概念モデルに基づく初期ASC実装を実証する。
さらに,7段階のサプライチェーン自律モデルを導入し,完全なサプライチェーン自律の実現に向けた軌道を定めている。
この作業が最初の取り組みであることを認識して、この新興領域における継続的な調査の必要性を強調します。
我々は,この研究が理論と技術の両方においてさらなる研究を刺激し,ASCの継続的な進化に寄与することを期待している。
Recent global disruptions, such as the pandemic and geopolitical conflicts, have profoundly exposed vulnerabilities in traditional supply chains, requiring exploration of more resilient alternatives. Autonomous supply chains (ASCs) have emerged as a potential solution, offering increased visibility, flexibility, and resilience in turbulent trade environments. Despite discussions in industry and academia over several years, ASCs lack well-established theoretical foundations. This paper addresses this research gap by presenting a formal definition of ASC along with its defining characteristics and auxiliary concepts. We propose a layered conceptual framework called the MIISI model. An illustrative case study focusing on the meat supply chain demonstrates an initial ASC implementation based on this conceptual model. Additionally, we introduce a seven-level supply chain autonomy reference model, delineating a trajectory towards achieving a full supply chain autonomy. Recognising that this work represents an initial endeavour, we emphasise the need for continued exploration in this emerging domain. We anticipate that this work will stimulate further research, both theoretical and technical, and contribute to the continual evolution of ASCs. | 翻訳日:2024-11-09 05:17:11 公開日:2024-09-25 |
# インストラクションIR:人間のインストラクションによる高画質画像復元
InstructIR: High-Quality Image Restoration Following Human Instructions ( http://arxiv.org/abs/2401.16468v5 ) ライセンス: Link先を確認 | Marcos V. Conde, Gregor Geigle, Radu Timofte, | (参考訳) 画像復元は、その劣化した観察から高品質なクリーンなイメージを復元する、基本的な問題である。
オールインワン画像復元モデルは, 劣化特異的情報を用いて, 様々な種類の画像や劣化レベルの画像の復元を効果的に行うことができる。
本研究では,人間の手書きによる画像復元モデルを導出する最初の手法を提案する。
自然言語のプロンプトを前提としたモデルでは, 劣化した画像から, 複数の劣化型を考慮し, 高品質な画像の復元が可能となる。
InstructIRは、画像のデノイング、デライニング、デブロアリング、デハージング、(低照度)画像の強調など、いくつかの修復作業に対して、最先端の結果を得る。
InstructIRは以前のオールインワンの復元方法よりも+1dBを改善する。
さらに,本データセットは,テキスト誘導画像の復元と改善に関する新たな研究のベンチマークである。
私たちのコード、データセット、モデルは、https://github.com/mv-lab/InstructIRで利用可能です。
Image restoration is a fundamental problem that involves recovering a high-quality clean image from its degraded observation. All-In-One image restoration models can effectively restore images from various types and levels of degradation using degradation-specific information as prompts to guide the restoration model. In this work, we present the first approach that uses human-written instructions to guide the image restoration model. Given natural language prompts, our model can recover high-quality images from their degraded counterparts, considering multiple degradation types. Our method, InstructIR, achieves state-of-the-art results on several restoration tasks including image denoising, deraining, deblurring, dehazing, and (low-light) image enhancement. InstructIR improves +1dB over previous all-in-one restoration methods. Moreover, our dataset and results represent a novel benchmark for new research on text-guided image restoration and enhancement. Our code, datasets and models are available at: https://github.com/mv-lab/InstructIR | 翻訳日:2024-11-09 05:06:11 公開日:2024-09-25 |
# 階層的木構造知識グラフによる学術的洞察調査
Hierarchical Tree-structured Knowledge Graph For Academic Insight Survey ( http://arxiv.org/abs/2402.04854v7 ) ライセンス: Link先を確認 | Jinghong Li, Huy Phan, Wen Gu, Koichi Ota, Shinobu Hasegawa, | (参考訳) 調査は、研究トレーニングが不足している初心者研究者にとって、常に課題となっている。
これらの研究者は、研究トピックの方向性や、新しい研究結果の発見を短期間で理解するのに苦労しています。
初心者研究者に直感的な支援を提供する一つの方法は、関連する知識グラフ(KG)を提供し、関連する学術論文を推薦することである。
しかし、既存のナビゲーション知識グラフは主に研究分野のキーワードに依存しており、複数の関連論文の論理的階層をはっきりと示さないことが多い。
さらに、学術論文の推薦システムの多くは、単に高いテキスト類似性に依存しており、研究者は、ある記事が推奨されている理由について混乱させる可能性がある。
また, 「Issue Solution」 と 「Issue Find」 の間に得られる洞察の関連性について, 重要な情報が欠如している可能性がある。
これらの課題に対処するために,本研究では,研究トピックの継承洞察と学術論文の関連洞察を反映した階層的木構造知識グラフを確立することにより,初心者研究者を対象とした研究洞察調査を支援することを目的とする。
Research surveys have always posed a challenge for beginner researchers who lack of research training. These researchers struggle to understand the directions within their research topic, and the discovery of new research findings within a short time. One way to provide intuitive assistance to beginner researchers is by offering relevant knowledge graphs(KG) and recommending related academic papers. However, existing navigation knowledge graphs primarily rely on keywords in the research field and often fail to present the logical hierarchy among multiple related papers clearly. Moreover, most recommendation systems for academic papers simply rely on high text similarity, which can leave researchers confused as to why a particular article is being recommended. They may lack of grasp important information about the insight connection between "Issue resolved" and "Issue finding" that they hope to obtain. To address these issues, this study aims to support research insight surveys for beginner researchers by establishing a hierarchical tree-structured knowledge graph that reflects the inheritance insight of research topics and the relevance insight among the academic papers. | 翻訳日:2024-11-09 04:54:55 公開日:2024-09-25 |
# LLMは現実世界の材料発見の準備が整っているか?
Are LLMs Ready for Real-World Materials Discovery? ( http://arxiv.org/abs/2402.05200v2 ) ライセンス: Link先を確認 | Santiago Miret, N M Anoop Krishnan, | (参考訳) 大規模言語モデル(LLM)は、材料科学の研究を加速する強力な言語処理ツールのエキサイティングな可能性を生み出します。
LLMは、物質理解と発見を加速する大きな可能性を秘めているが、現在は実用的な材料科学ツールとして不足している。
本稿では, 材料科学におけるLLMの失敗事例について, 複雑で相互接続された材料科学知識に対する理解と推論に関連するLLMの現在の限界を明らかにする。
これらの欠点を踏まえ、材料科学知識と仮説生成を基盤とした材料科学LLM(MatSci-LLMs)の開発のための枠組みを概説する。
MatSci-LLMの達成への道は、様々な情報抽出の課題が持続する科学文献から得られた高品質でマルチモーダルなデータセットの構築に大きく依存している。
そこで本稿では,資料科学の貴重な知識を収集する大規模マルチモーダルデータセットを構築するためには,克服すべき重要な資料情報抽出課題について述べる。
最後に、実際の材料発見に将来のMatSci-LLMを適用するロードマップを概説する。
1.知識ベースの自動生成
2. シリコン内材料設計の自動化
3.MtSci-LLM統合自動運転材料研究所
Large Language Models (LLMs) create exciting possibilities for powerful language processing tools to accelerate research in materials science. While LLMs have great potential to accelerate materials understanding and discovery, they currently fall short in being practical materials science tools. In this position paper, we show relevant failure cases of LLMs in materials science that reveal current limitations of LLMs related to comprehending and reasoning over complex, interconnected materials science knowledge. Given those shortcomings, we outline a framework for developing Materials Science LLMs (MatSci-LLMs) that are grounded in materials science knowledge and hypothesis generation followed by hypothesis testing. The path to attaining performant MatSci-LLMs rests in large part on building high-quality, multi-modal datasets sourced from scientific literature where various information extraction challenges persist. As such, we describe key materials science information extraction challenges which need to be overcome in order to build large-scale, multi-modal datasets that capture valuable materials science knowledge. Finally, we outline a roadmap for applying future MatSci-LLMs for real-world materials discovery via: 1. Automated Knowledge Base Generation; 2. Automated In-Silico Material Design; and 3. MatSci-LLM Integrated Self-Driving Materials Laboratories. | 翻訳日:2024-11-09 04:54:55 公開日:2024-09-25 |
# StruQ: 構造化クエリによるプロンプトインジェクションの回避
StruQ: Defending Against Prompt Injection with Structured Queries ( http://arxiv.org/abs/2402.06363v2 ) ライセンス: Link先を確認 | Sizhe Chen, Julien Piet, Chawin Sitawarin, David Wagner, | (参考訳) 近年のLarge Language Models (LLMs) は,高度な言語理解機能を活用してテキストベースのタスクを実行する,エキサイティングなLLM統合アプリケーションを実現する。
しかし、LSMは改善されているため、それらに対する攻撃も行われている。
プロンプトインジェクション攻撃は重要な脅威であり、それらはモデルを騙して元のアプリケーションの命令から逸脱させ、代わりにユーザーディレクティブに従う。
これらの攻撃は、LSMが命令に従う能力と、プロンプトとユーザーデータを分離できない能力に依存している。
この問題に対処するための一般的なアプローチである構造化クエリを導入する。
構造化クエリはプロンプトとデータを2つのチャネルに分離する。
構造化クエリをサポートするシステムを実装している。
本システムは,(1)プロンプトとユーザデータを特別なフォーマットにフォーマットするセキュアなフロントエンドと,(2)これらの入力から高品質な出力を生成できる特別に訓練されたLCMとから構成される。
LLMは、新しい微調整戦略を用いて訓練される: ベース(命令なし)のLSMを、クエリの即時部分の命令のみに従う構造化命令調整モデルに変換する。
そのため、クエリのデータ部分にインストラクションを含む例で標準のインストラクションチューニングデータセットを拡張し、これらを無視してモデルを微調整する。
本システムでは, インジェクション攻撃に対する抵抗性を著しく改善し, 実用性にはほとんど, あるいは全く影響を与えない。
私たちのコードはhttps://github.com/Sizhe-Chen/StruQ.comで公開されています。
Recent advances in Large Language Models (LLMs) enable exciting LLM-integrated applications, which perform text-based tasks by utilizing their advanced language understanding capabilities. However, as LLMs have improved, so have the attacks against them. Prompt injection attacks are an important threat: they trick the model into deviating from the original application's instructions and instead follow user directives. These attacks rely on the LLM's ability to follow instructions and inability to separate prompts and user data. We introduce structured queries, a general approach to tackle this problem. Structured queries separate prompts and data into two channels. We implement a system that supports structured queries. This system is made of (1) a secure front-end that formats a prompt and user data into a special format, and (2) a specially trained LLM that can produce high-quality outputs from these inputs. The LLM is trained using a novel fine-tuning strategy: we convert a base (non-instruction-tuned) LLM to a structured instruction-tuned model that will only follow instructions in the prompt portion of a query. To do so, we augment standard instruction tuning datasets with examples that also include instructions in the data portion of the query, and fine-tune the model to ignore these. Our system significantly improves resistance to prompt injection attacks, with little or no impact on utility. Our code is released at https://github.com/Sizhe-Chen/StruQ. | 翻訳日:2024-11-09 04:54:55 公開日:2024-09-25 |
# ソース批判規則化による生成逆モデルに基づく最適化
Generative Adversarial Model-Based Optimization via Source Critic Regularization ( http://arxiv.org/abs/2402.06532v2 ) ライセンス: Link先を確認 | Michael S. Yao, Yimeng Zeng, Hamsa Bastani, Jacob Gardner, James C. Gee, Osbert Bastani, | (参考訳) オフラインモデルに基づく最適化は、最適化中に真のオラクルの目的関数を問い合わせることなく、学習した代理モデルに対して最適化することを目指している。
このようなタスクは、タンパク質設計、ロボティクス、臨床医学において一般的に見られ、オラクル機能の評価は違法に高価である。
しかし、オフライン最適化軌道に沿って不正確な代理モデル予測が頻繁に発生する。
この制限に対処するため,アダプティブ・ソース・アジャイライゼーション(aSCR)を用いて,サロゲート関数が信頼される設計空間の領域に最適化軌道を制約するタスク・アンド・オプティマイザ・アグノスティック・フレームワークを提案する。
本稿では,この制約の強度を動的に調整する計算処理可能なアルゴリズムを提案する。また,標準的なベイズ最適化によるaSCRの利用が,オフライン生成設計タスクのスイートにおいて,既存の手法よりも優れていることを示す。
私たちのコードはhttps://github.com/michael-s-yao/gaboで利用可能です。
Offline model-based optimization seeks to optimize against a learned surrogate model without querying the true oracle objective function during optimization. Such tasks are commonly encountered in protein design, robotics, and clinical medicine where evaluating the oracle function is prohibitively expensive. However, inaccurate surrogate model predictions are frequently encountered along offline optimization trajectories. To address this limitation, we propose generative adversarial model-based optimization using adaptive source critic regularization (aSCR) -- a task- and optimizer- agnostic framework for constraining the optimization trajectory to regions of the design space where the surrogate function is reliable. We propose a computationally tractable algorithm to dynamically adjust the strength of this constraint, and show how leveraging aSCR with standard Bayesian optimization outperforms existing methods on a suite of offline generative design tasks. Our code is available at https://github.com/michael-s-yao/gabo | 翻訳日:2024-11-09 04:54:55 公開日:2024-09-25 |
# 可積分散逸性Bose-HubbardモデルにおけるLiouvillian皮膚効果と分断凝縮物
Liouvillian skin effects and fragmented condensates in an integrable dissipative Bose-Hubbard model ( http://arxiv.org/abs/2402.10261v3 ) ライセンス: Link先を確認 | Christopher Ekman, Emil J. Bergholtz, | (参考訳) 強い相互作用を持つ非平衡系は、非常に基本的な関心を持つが、その固有の複雑さは分析を困難にしている。
ボース・ハッバードモデルの力学は, ホッピング振幅に適合する速度に調整された損失の有無で, その相互作用強度を正確に解けることを実証した。
注目すべきは、対応するリウヴィリアの完全な可溶性と、関連する有効でないエルミート・ハミルトンの可積分性は、障害と一般境界条件の付加を生き残ることである。
ベーテ・アンザッツ解を解析することにより、弱い相互作用でさえシステムの定性的特徴を変化させ、非エルミート・モットスキン効果、障害誘発局在化、高度に退化した例外点、および断片化された凝縮物のボースガラス様相を特徴とする複雑な動的位相図が導かれる。
本稿では,このモデルと冷水原子の現実的な実装について論じる。
Strongly interacting non-equilibrium systems are of great fundamental interest, yet their inherent complexity make then notoriously hard to analyze. We demonstrate that the dynamics of the Bose-Hubbard model, which by itself evades solvability, can be solved exactly at any interaction strength in the presence of loss tuned to a rate matching the hopping amplitude. Remarkably, the full solvability of the corresponding Liouvillian, and the integrability of the pertinent effective non-Hermitian Hamiltonian, survives the addition of disorder and generic boundary conditions. By analyzing the Bethe ansatz solutions we find that even weak interactions change the qualitative features of the system, leading to an intricate dynamical phase diagram featuring non-Hermitian Mott-skin effects, disorder induced localization, highly degenerate exceptional points, and a Bose glass-like phase of fragmented condensates. We discuss realistic implementations of this model with cold atoms. | 翻訳日:2024-11-09 04:43:41 公開日:2024-09-25 |
# 信頼できる再評価に向けて - シンプルだが効果的な回避メカニズム
Towards Trustworthy Reranking: A Simple yet Effective Abstention Mechanism ( http://arxiv.org/abs/2402.12997v5 ) ライセンス: Link先を確認 | Hippolyte Gisserot-Boukhlef, Manuel Faysse, Emmanuel Malherbe, Céline Hudelot, Pierre Colombo, | (参考訳) ニューラル情報検索 (NIR) はヒューリスティックベースの情報検索 (IR) システムで大幅に改善されている。
しかし、失敗は頻繁であり、使用されていたモデルは、ユーザのクエリに関連するドキュメントを取得できないことが多い。
我々は、現実世界の制約に合わせた軽量な禁制機構を提案することで、この問題に対処する。
ブラックボックスシナリオ(一般的にAPIサービスに依存している場合に発生する)における禁忌戦略を評価するためのプロトコルを導入し、その有効性を実証し、シンプルで効果的なデータ駆動機構を提案する。
我々は、様々な状況下で広く採用され応用されるように、実験的なレプリケーションと禁忌実装のためのオープンソースコードを提供しています。
Neural Information Retrieval (NIR) has significantly improved upon heuristic-based Information Retrieval (IR) systems. Yet, failures remain frequent, the models used often being unable to retrieve documents relevant to the user's query. We address this challenge by proposing a lightweight abstention mechanism tailored for real-world constraints, with particular emphasis placed on the reranking phase. We introduce a protocol for evaluating abstention strategies in black-box scenarios (typically encountered when relying on API services), demonstrating their efficacy, and propose a simple yet effective data-driven mechanism. We provide open-source code for experiment replication and abstention implementation, fostering wider adoption and application in diverse contexts. | 翻訳日:2024-11-09 04:32:42 公開日:2024-09-25 |
# クラスタリングによる3次元ガウススティングの高速レンダリングのための不要な3次元ガウスの同定
Identifying Unnecessary 3D Gaussians using Clustering for Fast Rendering of 3D Gaussian Splatting ( http://arxiv.org/abs/2402.13827v2 ) ライセンス: Link先を確認 | Joongho Jo, Hyeongwon Kim, Jongsun Park, | (参考訳) 3D Gaussian splatting (3D-GS) はニューラル放射場(NeRF)を速度と画質の両方で上回る新しいレンダリング手法である。
3D-GSは、何百万もの3Dガウシアンを活用して3Dシーンを表現し、これらのガウシアンをレンダリングのために2Dイメージプレーンに投影する。
しかし、レンダリングの過程では、現在の視点ではかなり多くの不要な3Dガウスアンが存在し、その結果、それらの識別に関係した計算コストが大幅に増大する。
本稿では、画像品質を損なうことなく、現在のビューをレンダリングするために、不要な3Dガウスをリアルタイムに高速に識別する計算還元手法を提案する。
これは、距離が近い3Dガウスのオフラインクラスタリングと、実行中にこれらのクラスタを2Dイメージプレーンに投影することで実現される。
さらに,GPU上で実行された場合,提案手法に関連するボトルネックを分析し,提案方式をシームレスにサポートする効率的なハードウェアアーキテクチャを提案する。
Mip-NeRF360データセットでは、2D画像投影の前に平均して3Dガウスの63%を除外し、ピーク信号対雑音比(PSNR)を犠牲にすることなく、全体のレンダリング計算を約38.3%削減する。
提案されたアクセラレータは、GPUと比較して10.7倍のスピードアップも達成している。
3D Gaussian splatting (3D-GS) is a new rendering approach that outperforms the neural radiance field (NeRF) in terms of both speed and image quality. 3D-GS represents 3D scenes by utilizing millions of 3D Gaussians and projects these Gaussians onto the 2D image plane for rendering. However, during the rendering process, a substantial number of unnecessary 3D Gaussians exist for the current view direction, resulting in significant computation costs associated with their identification. In this paper, we propose a computational reduction technique that quickly identifies unnecessary 3D Gaussians in real-time for rendering the current view without compromising image quality. This is accomplished through the offline clustering of 3D Gaussians that are close in distance, followed by the projection of these clusters onto a 2D image plane during runtime. Additionally, we analyze the bottleneck associated with the proposed technique when executed on GPUs and propose an efficient hardware architecture that seamlessly supports the proposed scheme. For the Mip-NeRF360 dataset, the proposed technique excludes 63% of 3D Gaussians on average before the 2D image projection, which reduces the overall rendering computation by almost 38.3% without sacrificing peak-signal-to-noise-ratio (PSNR). The proposed accelerator also achieves a speedup of 10.7x compared to a GPU. | 翻訳日:2024-11-09 04:32:42 公開日:2024-09-25 |
# 微分不能な規則誘導拡散を用いたシンボリック音楽生成
Symbolic Music Generation with Non-Differentiable Rule Guided Diffusion ( http://arxiv.org/abs/2402.14285v4 ) ライセンス: Link先を確認 | Yujia Huang, Adishree Ghatare, Yuanzhe Liu, Ziniu Hu, Qinsheng Zhang, Chandramouli S Sastry, Siddharth Gururani, Sageev Oore, Yisong Yue, | (参考訳) 本研究では,非微分不可能なルールガイダンスに焦点をあてて,記号的音楽生成(例えばピアノロール生成)の問題について検討する。
音楽規則は、音の密度やコード進行などの音符の特徴に象徴的な形で表されることが多いが、その多くが微分不可能であり、誘導拡散のためにそれらを使用する際には困難である。
本稿では,事前学習した拡散モデルにプラグイン・アンド・プレイで対応可能なルール関数の前方評価のみを必要とする新しいガイダンス手法であるStochastic Control Guidance(SCG)を提案する。
さらに,SCGをプラグ・アンド・プレイ方式で構成可能な,高解像度のシンボリック・ミュージック・ジェネレーションのための潜時拡散アーキテクチャを提案する。
シンボリック・ミュージック・ジェネレーションにおける標準的な強靭なベースラインと比較すると、このフレームワークは音楽の質と規則に基づく制御性において顕著な進歩を示し、様々な設定で現在の最先端のジェネレータよりも優れていた。
詳細なデモ、コード、モデルチェックポイントについては、プロジェクトのWebサイトを参照してください。
We study the problem of symbolic music generation (e.g., generating piano rolls), with a technical focus on non-differentiable rule guidance. Musical rules are often expressed in symbolic form on note characteristics, such as note density or chord progression, many of which are non-differentiable which pose a challenge when using them for guided diffusion. We propose Stochastic Control Guidance (SCG), a novel guidance method that only requires forward evaluation of rule functions that can work with pre-trained diffusion models in a plug-and-play way, thus achieving training-free guidance for non-differentiable rules for the first time. Additionally, we introduce a latent diffusion architecture for symbolic music generation with high time resolution, which can be composed with SCG in a plug-and-play fashion. Compared to standard strong baselines in symbolic music generation, this framework demonstrates marked advancements in music quality and rule-based controllability, outperforming current state-of-the-art generators in a variety of settings. For detailed demonstrations, code and model checkpoints, please visit our project website: https://scg-rule-guided-music.github.io/. | 翻訳日:2024-11-09 04:32:42 公開日:2024-09-25 |
# コンパイルされたXORゲームの価値に関する計算的Tsirelsonの理論
A Computational Tsirelson's Theorem for the Value of Compiled XOR Games ( http://arxiv.org/abs/2402.17301v2 ) ライセンス: Link先を確認 | David Cui, Giulio Malavolta, Arthur Mehta, Anand Natarajan, Connor Paddock, Simon Schmidt, Michael Walter, Tina Zhang, | (参考訳) 非局所ゲームは、複数の空間的に分離された量子デバイスの設定において、絡み合いを理解し、量子プロトコルを構築するための基本的なツールである。
本研究は,古典的検証器と暗号的に制限された単一量子デバイスの間で,コンパイルされた非局所ゲームであるKalai et al (STOC '23) によって開始された研究を継続する。本研究の主な成果は,Kalai et al が提案したコンパイラが任意の2つのプレイヤ XOR ゲームに対して健全であることである。Tsirelson の有名な定理は,XOR ゲームに対して,量子値が正確に半定値プログラムによって与えられることを示し,この結果は,コンパイルされたゲームに対する SDP 上界が,コンパイルから生じる無視可能な誤りを負うことを示し,Natarajan と Zhang (FOCS '23) が提起した質問に答える。
本手法を用いて,(1)並列繰り返しXORゲームのコンパイル値の厳密な境界,(2)コンパイルされたXORゲームに対する演算子自己検証文,(3)演算子剛性を示す任意のXORゲームに対する ``nice'' の総和証明など,いくつかの追加結果を得た。
Nonlocal games are a foundational tool for understanding entanglement and constructing quantum protocols in settings with multiple spatially separated quantum devices. In this work, we continue the study initiated by Kalai et al. (STOC '23) of compiled nonlocal games, played between a classical verifier and a single cryptographically limited quantum device. Our main result is that the compiler proposed by Kalai et al. is sound for any two-player XOR game. A celebrated theorem of Tsirelson shows that for XOR games, the quantum value is exactly given by a semidefinite program, and we obtain our result by showing that the SDP upper bound holds for the compiled game up to a negligible error arising from the compilation. This answers a question raised by Natarajan and Zhang (FOCS '23), who showed soundness for the specific case of the CHSH game. Using our techniques, we obtain several additional results, including (1) tight bounds on the compiled value of parallel-repeated XOR games, (2) operator self-testing statements for any compiled XOR game, and (3) a ``nice'' sum-of-squares certificate for any XOR game, from which operator rigidity is manifest. | 翻訳日:2024-11-09 04:32:42 公開日:2024-09-25 |
# ChatDiet: LLM拡張フレームワークによるパーソナライズされた栄養指向食品レコメンデーションチャットボットの活用
ChatDiet: Empowering Personalized Nutrition-Oriented Food Recommender Chatbots through an LLM-Augmented Framework ( http://arxiv.org/abs/2403.00781v3 ) ライセンス: Link先を確認 | Zhongqi Yang, Elahe Khatibi, Nitish Nagesh, Mahyar Abbasian, Iman Azimi, Ramesh Jain, Amir M. Rahmani, | (参考訳) 食品が健康に与える影響は、先進的な栄養指向の食品レコメンデーションサービスを必要とする。
従来の手法は、パーソナライゼーション、説明可能性、対話性といった重要な要素を欠いていることが多い。
大きな言語モデル(LLM)は解釈可能性と説明可能性をもたらすが、彼らのスタンドアロンの使用は真のパーソナライゼーションを達成するには不十分である。
本稿では、栄養指向食品レコメンデーションチャットボットに特化して設計された、新しいLLMフレームワークChatDietを紹介する。
ChatDietは、オーケストラが補完する個人モデルと人口モデルを統合し、シームレスに関連する情報を検索し、処理する。
個人モデルは、因果発見と推論技術を活用して、特定のユーザに対してパーソナライズされた栄養効果を評価する一方、人口モデルは、食品栄養内容に関する一般化された情報を提供する。
オーケストレータは、両方のモデルの出力をLLMに回収し、シナジー化し、提供し、ターゲットとする健康結果をサポートするように設計された、調整された食品レコメンデーションを提供する。
その結果、個人の好みに合わせて、パーソナライズされた説明可能な食品レコメンデーションが動的に配信される。
ChatDietの評価には説得力のあるケーススタディが含まれており、個別の栄養効果を推定するための因果的個人モデルを確立している。
評価では,99%の有効率を示す食品推薦試験や,説明可能性,パーソナライゼーション,対話性といったChatDietの強みが評価された。
The profound impact of food on health necessitates advanced nutrition-oriented food recommendation services. Conventional methods often lack the crucial elements of personalization, explainability, and interactivity. While Large Language Models (LLMs) bring interpretability and explainability, their standalone use falls short of achieving true personalization. In this paper, we introduce ChatDiet, a novel LLM-powered framework designed specifically for personalized nutrition-oriented food recommendation chatbots. ChatDiet integrates personal and population models, complemented by an orchestrator, to seamlessly retrieve and process pertinent information. The personal model leverages causal discovery and inference techniques to assess personalized nutritional effects for a specific user, whereas the population model provides generalized information on food nutritional content. The orchestrator retrieves, synergizes and delivers the output of both models to the LLM, providing tailored food recommendations designed to support targeted health outcomes. The result is a dynamic delivery of personalized and explainable food recommendations, tailored to individual user preferences. Our evaluation of ChatDiet includes a compelling case study, where we establish a causal personal model to estimate individual nutrition effects. Our assessments, including a food recommendation test showcasing a 92\% effectiveness rate, coupled with illustrative dialogue examples, underscore ChatDiet's strengths in explainability, personalization, and interactivity. | 翻訳日:2024-11-09 04:21:34 公開日:2024-09-25 |
# 音声ロバストベンチ:音声認識のためのロバストネスベンチマーク
Speech Robust Bench: A Robustness Benchmark For Speech Recognition ( http://arxiv.org/abs/2403.07937v2 ) ライセンス: Link先を確認 | Muhammad A. Shah, David Solans Noguero, Mikko A. Heikkila, Bhiksha Raj, Nicolas Kourtellis, | (参考訳) 音声認識(ASR)モデルがより広く普及するにつれて、物理・デジタルの世界に存在する汚職の下で信頼性の高い予測を行うことが重要である。
本稿では,多様な汚職に対するASRモデルの堅牢性を評価するための総合的なベンチマークであるSingech Robust Bench (SRB)を提案する。
SRBは114の入力摂動で構成されており、ASRモデルが野生に展開する際の不均一な破損をシミュレートする。
我々は、SRBを用いて、最先端のASRモデルのロバスト性を評価し、モデルのサイズと、離散表現の使用や自己学習がロバスト性に寄与するように見えるような特定のモデル選択を観察する。
本研究では,ASRモデルのロバスト性を評価するために,英語とスペイン語の話者,男性と女性など,様々なサブグループからのデータを用いて分析を行った。
その結果,サブグループ間のモデルの堅牢性には顕著な相違が認められた。
我々はSRBがより包括的かつ同等の堅牢性評価を行うことにより、より堅牢なASRモデルに向けた将来の研究を大いに促進すると考えている。
As Automatic Speech Recognition (ASR) models become ever more pervasive, it is important to ensure that they make reliable predictions under corruptions present in the physical and digital world. We propose Speech Robust Bench (SRB), a comprehensive benchmark for evaluating the robustness of ASR models to diverse corruptions. SRB is composed of 114 input perturbations which simulate an heterogeneous range of corruptions that ASR models may encounter when deployed in the wild. We use SRB to evaluate the robustness of several state-of-the-art ASR models and observe that model size and certain modeling choices such as the use of discrete representations, or self-training appear to be conducive to robustness. We extend this analysis to measure the robustness of ASR models on data from various demographic subgroups, namely English and Spanish speakers, and males and females. Our results revealed noticeable disparities in the model's robustness across subgroups. We believe that SRB will significantly facilitate future research towards robust ASR models, by making it easier to conduct comprehensive and comparable robustness evaluations. | 翻訳日:2024-11-09 04:10:35 公開日:2024-09-25 |
# MambaTalk: 選択状態空間モデルを用いた効率的なホロスティックジェスチャー合成
MambaTalk: Efficient Holistic Gesture Synthesis with Selective State Space Models ( http://arxiv.org/abs/2403.09471v2 ) ライセンス: Link先を確認 | Zunnan Xu, Yukang Lin, Haonan Han, Sicheng Yang, Ronghui Li, Yachao Zhang, Xiu Li, | (参考訳) ジェスチャー合成は人間とコンピュータの相互作用において重要な領域であり、映画、ロボティクス、バーチャルリアリティーといった様々な分野に幅広く応用されている。
近年の進歩はジェスチャ合成を改善するために拡散モデルと注意機構を活用している。
しかし、これらの手法の計算複雑性が高いため、低レイテンシで長く多様なシーケンスを生成することは依然として困難である。
この課題に対処するための状態空間モデル(SSM)の可能性を探り、ジェスチャーの質を高めるために、離散的な動きを持つ2段階のモデリング戦略を実装した。
基礎となるMambaブロックを活用し,MambaTalkを導入し,マルチモーダル統合によるジェスチャーの多様性とリズムを向上させる。
大規模な実験により、我々の手法は最先端モデルの性能と一致しているか、上回っていることが示された。
Gesture synthesis is a vital realm of human-computer interaction, with wide-ranging applications across various fields like film, robotics, and virtual reality. Recent advancements have utilized the diffusion model and attention mechanisms to improve gesture synthesis. However, due to the high computational complexity of these techniques, generating long and diverse sequences with low latency remains a challenge. We explore the potential of state space models (SSMs) to address the challenge, implementing a two-stage modeling strategy with discrete motion priors to enhance the quality of gestures. Leveraging the foundational Mamba block, we introduce MambaTalk, enhancing gesture diversity and rhythm through multimodal integration. Extensive experiments demonstrate that our method matches or exceeds the performance of state-of-the-art models. | 翻訳日:2024-11-09 04:10:35 公開日:2024-09-25 |
# 擬似絡み合いのダイナミクス
Dynamics of Pseudoentanglement ( http://arxiv.org/abs/2403.09619v2 ) ライセンス: Link先を確認 | Xiaozhou Feng, Matteo Ippoliti, | (参考訳) 量子絡み合いの力学は、孤立多体系における熱平衡の出現を説明する上で中心的な役割を果たす。
しかし、絡み合いは測ることが難しいことで知られており、近年の著作は、多体のアンサンブルを記述する擬似絡み合いの概念を導入しており、弱い絡み合いがあるにもかかわらず、より高い絡み合いを持つ状態とは効率的に区別できない。
量子系の熱平衡を達成するためには、どの程度の絡み合いが必要か?
この研究では、量子力学のランダム回路モデルを導入することでこの問題に対処する。
これらのモデルは熱平衡の効率的な観測可能な予測を全て再現し、少量の絡み合いしか生成せず、熱力学の基盤となる「最大エントロピー原理」から逸脱する。
検討する
(i)小さなサブシステム上の擬似絡み合いが時間関数としてシステム全体にどのように広がるか、
(ii)初期積状態から擬アンタングルアンサンブルを生成する方法。
上記の問題を計算基底の部分集合上の古典マルコフ連鎖の族に写像する。
このようなマルコフ連鎖の混合時間は、各統計モーメントのレベルにおけるハールランダム状態と力学から生成される状態が区別できない時間スケールに関係している。
数値によって支えられる厳密な境界と予想の組み合わせに基づいて、各マルコフ連鎖の緩和時間と混合時間は、大きな系の大きさの極限において異なる漸近的挙動を持つと論じる。
これはカットオフ現象に必要な条件であり、急激な動的遷移から平衡への遷移である。
したがって、我々のランダム回路は漸近的に鋭い擬熱化遷移をもたらすと推測する。
The dynamics of quantum entanglement plays a central role in explaining the emergence of thermal equilibrium in isolated many-body systems. However, entanglement is notoriously hard to measure: recent works have introduced a notion of pseudoentanglement describing ensembles of many-body states that, while only weakly entangled, cannot be efficiently distinguished from states with much higher entanglement. This prompts the question: how much entanglement is truly necessary to achieve thermal equilibrium in quantum systems? In this work we address this question by introducing random circuit models of quantum dynamics that, at late times, equilibrate to pseudoentangled ensembles -- a phenomenon we name pseudothermalization. These models replicate all the efficiently observable predictions of thermal equilibrium, while generating only a small amount of entanglement, thus deviating from the "maximum-entropy principle" that underpins thermodynamics. We examine (i) how a pseudoentangled ensemble on a small subsystem spreads to the whole system as a function of time, and (ii) how a pseudoentangled ensemble can be generated from an initial product state. We map the above problems onto a family of classical Markov chains on subsets of the computational basis. The mixing times of such Markov chains are related to the time scales at which the states produced from the dynamics become indistinguishable from Haar-random states at the level of each statistical moment. Based on a combination of rigorous bounds and conjectures supported by numerics, we argue that each Markov chain's relaxation time and mixing time have different asymptotic behavior in the limit of large system size. This is a necessary condition for a cutoff phenomenon: an abrupt dynamical transition to equilibrium. We thus conjecture that our random circuits give rise to asymptotically sharp pseudothermalization transitions. | 翻訳日:2024-11-09 04:10:35 公開日:2024-09-25 |
# ScanTalk: 登録されていないスカンの3Dトーキングヘッド
ScanTalk: 3D Talking Heads from Unregistered Scans ( http://arxiv.org/abs/2403.10942v3 ) ライセンス: Link先を確認 | Federico Nocentini, Thomas Besnier, Claudio Ferrari, Sylvain Arguillere, Stefano Berretti, Mohamed Daoudi, | (参考訳) 音声駆動の3D音声ヘッド生成は、研究者の間で重要な関心領域として現れており、多くの課題が提示されている。
既存の方法は、点対応が確立された固定位相の顔のアニメーションによって制約され、そのモデルがアニメーションできるすべてのアイデンティティにおいて、点の数と順序は一貫して保持される。
本研究では,スキャンデータを含む任意のトポロジで3次元顔をアニメーションできる新しいフレームワークである「textbf{ScanTalk}」を提案する。
我々のアプローチは、固定トポロジ制約を克服するためにDiffusionNetアーキテクチャに依存しており、より柔軟でリアルな3Dアニメーションのための有望な道を提供する。
DiffusionNetのパワーを活用することで、ScanTalkは多様な顔構造に適応するだけでなく、スキャンされたデータを扱う際の忠実さも維持し、生成された3D音声ヘッドの信頼性と汎用性を向上させる。
本研究では,最先端手法との総合的な比較を通じて,既存の手法に匹敵する現実的な話し声を生成する能力を示すとともに,アプローチの有効性を検証した。
我々の主な目的は、トポロジカル制約のない汎用的な手法を開発することであるが、最先端の方法論はすべてそのような制約によって拘束されている。
結果の再現のためのコードと事前トレーニング済みのモデルはhttps://github.com/miccunifi/ScanTalk.orgで公開されている。
Speech-driven 3D talking heads generation has emerged as a significant area of interest among researchers, presenting numerous challenges. Existing methods are constrained by animating faces with fixed topologies, wherein point-wise correspondence is established, and the number and order of points remains consistent across all identities the model can animate. In this work, we present \textbf{ScanTalk}, a novel framework capable of animating 3D faces in arbitrary topologies including scanned data. Our approach relies on the DiffusionNet architecture to overcome the fixed topology constraint, offering promising avenues for more flexible and realistic 3D animations. By leveraging the power of DiffusionNet, ScanTalk not only adapts to diverse facial structures but also maintains fidelity when dealing with scanned data, thereby enhancing the authenticity and versatility of generated 3D talking heads. Through comprehensive comparisons with state-of-the-art methods, we validate the efficacy of our approach, demonstrating its capacity to generate realistic talking heads comparable to existing techniques. While our primary objective is to develop a generic method free from topological constraints, all state-of-the-art methodologies are bound by such limitations. Code for reproducing our results, and the pre-trained model are available at https://github.com/miccunifi/ScanTalk . | 翻訳日:2024-11-09 03:59:25 公開日:2024-09-25 |
# ZoDi:拡散画像転送によるゼロショット領域適応
ZoDi: Zero-Shot Domain Adaptation with Diffusion-Based Image Transfer ( http://arxiv.org/abs/2403.13652v2 ) ライセンス: Link先を確認 | Hiroki Azuma, Yusuke Matsui, Atsuto Maki, | (参考訳) ディープラーニングモデルはセグメンテーションタスクにおいて高い精度を達成するが、ドメインシフトはしばしばモデルのパフォーマンスを低下させる。
本稿では,ZoDiと呼ばれる拡散モデルに基づくゼロショット領域適応手法を提案する。
まず,原画像の領域を対象領域に転送することで,対象画像の合成にオフザシェルフ拡散モデルを用いる。
本稿では,レイアウト・ツー・イメージ拡散モデルと確率的逆転を用いたレイアウト・ツー・イメージ拡散モデルを用いて,レイアウトとコンテンツを具体的に維持することを試みる。
次に、2つの領域の画像の特徴的類似性を最大化しながら、ソース画像と元のセグメンテーションマップによる合成画像の両方を用いてモデルを訓練し、ドメイン・ロバスト表現を学習する。
実験を通して、最先端手法による画像分割作業におけるZoDiの利点を示す。
特定のバックボーンやモデルを前提としないため、既存のCLIPベースのメソッドよりも適用性が高く、生成されたイメージを検査することで、ターゲット画像なしでモデルのパフォーマンスを推定できる。
私たちの実装は公開されます。
Deep learning models achieve high accuracy in segmentation tasks among others, yet domain shift often degrades the models' performance, which can be critical in real-world scenarios where no target images are available. This paper proposes a zero-shot domain adaptation method based on diffusion models, called ZoDi, which is two-fold by the design: zero-shot image transfer and model adaptation. First, we utilize an off-the-shelf diffusion model to synthesize target-like images by transferring the domain of source images to the target domain. In this we specifically try to maintain the layout and content by utilising layout-to-image diffusion models with stochastic inversion. Secondly, we train the model using both source images and synthesized images with the original segmentation maps while maximizing the feature similarity of images from the two domains to learn domain-robust representations. Through experiments we show benefits of ZoDi in the task of image segmentation over state-of-the-art methods. It is also more applicable than existing CLIP-based methods because it assumes no specific backbone or models, and it enables to estimate the model's performance without target images by inspecting generated images. Our implementation will be publicly available. | 翻訳日:2024-11-09 03:59:23 公開日:2024-09-25 |
# 内在混合位相秩序に対する雑音的アプローチ
A Noisy Approach to Intrinsically Mixed-State Topological Order ( http://arxiv.org/abs/2403.13879v3 ) ライセンス: Link先を確認 | Ramanjit Sohal, Abhinav Prem, | (参考訳) 局所相関誤差を受ける2次元(2次元)位相秩序状態の研究のための一般的な枠組みを提案し,その混合状態が2次元局所ギャップハミルトンの基底状態では起こり得ないような内在混合状態位相秩序(imTO)を示すことを示す。
具体的には、以前は二重ヒルベルト空間の任意の凝縮と解釈されていたデコヒーレンス(decoherence)は、より自然に言い換えられ、元のヒルベルト空間の「ゲージアウト(gauging out)」アーノンに対して物理的なメカニズムを提供する。
我々は、ある異常な1-形式対称性の下でデコヒートされた混合状態が強い対称性を持つ、イムト(ImTO)を総称的にガグアウトすることは、イムト(ImTO)をもたらすことを見出した。
このフレームワークは、デコヒード密度行列とトポロジカルサブシステム符号の間の顕著な接続をほとんど含んでおり、3次元トポロジカル秩序の異常な表面状態として現れる。
一連の例を通して、デコヒーレント状態は古典的なメモリを表示し、論理量子ビットを符号化し(量子メモリを表示する)、キラルあるいは非モジュラー位相秩序をホストすることさえできることを示した。
我々は、ImTOの部分的な分類は、非モジュラーブレイド融合圏(英語版)の観点で与えられると論じる。
We propose a general framework for studying two-dimensional (2D) topologically ordered states subject to local correlated errors and show that the resulting mixed-state can display intrinsically mixed-state topological order (imTO) -- topological order which is not expected to occur in the ground state of 2D local gapped Hamiltonians. Specifically, we show that decoherence, previously interpreted as anyon condensation in a doubled Hilbert space, is more naturally phrased as, and provides a physical mechanism for, ``gauging out" anyons in the original Hilbert space. We find that gauging out anyons generically results in imTO, with the decohered mixed-state strongly symmetric under certain anomalous 1-form symmetries. This framework lays bare a striking connection between the decohered density matrix and topological subsystem codes, which can appear as anomalous surface states of 3D topological orders. Through a series of examples, we show that the decohered state can display a classical memory, encode logical qubits (i.e., exhibit a quantum memory), and even host chiral or non-modular topological order. We argue that a partial classification of imTO is given in terms of non-modular braided fusion categories. | 翻訳日:2024-11-09 03:59:23 公開日:2024-09-25 |
# データ増幅学習による簡潔で高品質な顔作り
Toward Tiny and High-quality Facial Makeup with Data Amplify Learning ( http://arxiv.org/abs/2403.15033v4 ) ライセンス: Link先を確認 | Qiaoqiao Jin, Xuanhong Chen, Meiguang Jin, Ying Chen, Rui Shi, Yucheng Zheng, Yupeng Zhu, Bingbing Ni, | (参考訳) 現代の化粧は、主に障害のない学習パラダイムにヒンジでアプローチするが、不正確な監督(例えば、顔の修正)と洗練された顔のプロンプト(顔解析、ランドマーク検出を含む)の課題に対処する。
これらの課題は、特にモバイルデバイスにおける顔化粧モデルの低コスト展開を禁止している。
以上の問題を解決するために、我々は「データ増幅学習(DAL)」と呼ばれる新しい学習パラダイムを提案し、さらに「TinyBeauty」というコンパクトメイクモデルも提案する。
DALの中核となる考え方は、DDA(Diffusion-based Data Amplifier)を使用して、モデルトレーニングのための制限されたイメージを"増幅する"ことである。
1)残差拡散モデル(RDM)は、高忠実度の詳細を生成し、バニラ拡散モデルにおける詳細化問題を回避し、(2)ファイングラインドメイクアップモジュール(FGMM)は、顔認証を維持しながら正確なメイクアップ制御と組み合わせを実現するために提案されている。
DALと組み合わせて、TinyBeautyは80Kパラメータを必要とせず、複雑な顔プロンプトなしで最先端のパフォーマンスを実現する。
一方、TinyBeautyはiPhone 13で460fpsという驚くべき速度を実現している。
大規模な実験により、DALは5つの画像ペアだけで非常に競争力のあるメイクモデルを作成できることが示された。
Contemporary makeup approaches primarily hinge on unpaired learning paradigms, yet they grapple with the challenges of inaccurate supervision (e.g., face misalignment) and sophisticated facial prompts (including face parsing, and landmark detection). These challenges prohibit low-cost deployment of facial makeup models, especially on mobile devices. To solve above problems, we propose a brand-new learning paradigm, termed "Data Amplify Learning (DAL)," alongside a compact makeup model named "TinyBeauty." The core idea of DAL lies in employing a Diffusion-based Data Amplifier (DDA) to "amplify" limited images for the model training, thereby enabling accurate pixel-to-pixel supervision with merely a handful of annotations. Two pivotal innovations in DDA facilitate the above training approach: (1) A Residual Diffusion Model (RDM) is designed to generate high-fidelity detail and circumvent the detail vanishing problem in the vanilla diffusion models; (2) A Fine-Grained Makeup Module (FGMM) is proposed to achieve precise makeup control and combination while retaining face identity. Coupled with DAL, TinyBeauty necessitates merely 80K parameters to achieve a state-of-the-art performance without intricate face prompts. Meanwhile, TinyBeauty achieves a remarkable inference speed of up to 460 fps on the iPhone 13. Extensive experiments show that DAL can produce highly competitive makeup models using only 5 image pairs. | 翻訳日:2024-11-09 03:48:22 公開日:2024-09-25 |
# 視覚外乱検出のためのハイパーボリック・メトリック・ラーニング
Hyperbolic Metric Learning for Visual Outlier Detection ( http://arxiv.org/abs/2403.15260v2 ) ライセンス: Link先を確認 | Alvaro Gonzalez-Jimenez, Simone Lionetti, Dena Bazazian, Philippe Gottfrois, Fabian Gröger, Marc Pouly, Alexander Navarini, | (参考訳) Out-Of-Distribution (OOD)検出は、ディープラーニングモデルを安全クリティカルなアプリケーションにデプロイするために重要である。
しかし、OOD検出に有効な視覚データの固有階層的概念構造は、ユークリッド幾何学に基づく従来の手法では、しばしば不十分である。
本研究は,OOD検出における双曲幾何学の強みを利用する計量フレームワークを提案する。
OODデータの決定境界を合成外れ値で洗練する以前の研究から着想を得て,この手法をハイパーボリック空間に拡張する。
興味深いことに、人工外乱器はユークリッド空間のように双曲空間におけるOOD検出の恩恵を受けない。
さらに,OOD検出性能とハイパーボリック埋込み寸法の関係を考察し,資源制約環境における実用上の懸念に対処する。
CIFAR-10 と CIFAR-100 でそれぞれ 22 % から 15 % に,CIFAR-10 と CIFAR-100 では 49% から 28% に改善した。
Out-Of-Distribution (OOD) detection is critical to deploy deep learning models in safety-critical applications. However, the inherent hierarchical concept structure of visual data, which is instrumental to OOD detection, is often poorly captured by conventional methods based on Euclidean geometry. This work proposes a metric framework that leverages the strengths of Hyperbolic geometry for OOD detection. Inspired by previous works that refine the decision boundary for OOD data with synthetic outliers, we extend this method to Hyperbolic space. Interestingly, we find that synthetic outliers do not benefit OOD detection in Hyperbolic space as they do in Euclidean space. Furthermore we explore the relationship between OOD detection performance and Hyperbolic embedding dimension, addressing practical concerns in resource-constrained environments. Extensive experiments show that our framework improves the FPR95 for OOD detection from 22\% to 15\% and from 49% to 28% on CIFAR-10 and CIFAR-100 respectively compared to Euclidean methods. | 翻訳日:2024-11-09 03:48:22 公開日:2024-09-25 |
# Integer Fluxonium Qubit
Integer Fluxonium Qubit ( http://arxiv.org/abs/2403.16780v2 ) ライセンス: Link先を確認 | Raymond A. Mencia, Wei-Ju Lin, Hyunheung Cho, Maxim G. Vavilov, Vladimir E. Manucharyan, | (参考訳) ゼロ磁場中において、適切に設計されたフラクソニウム回路を動作させることから導かれる超伝導量子ビットについて述べる。
キュービットは、回路部品の誘電損失品質係数が低い10^5$範囲であっても、約4GHzの周波数とエネルギー緩和品質係数$Q \approx 0.7\times 10^7$を有する。
ラムゼーのコヒーレンス時間は100$\mu$sを超え、クリフォードゲートの平均忠実度は$\mathcal{F} > 0.999$にベンチマークされる。
これらの数値は、最適化された製造および測定手順により改善されることが期待されている。
我々の研究は、従来のトランスモンの周波数範囲で機能する「部分的に保護された」超伝導量子ビットを確立する。
We describe a superconducting qubit derived from operating a properly designed fluxonium circuit in a zero magnetic field. The qubit has a frequency of about 4 GHz and an energy relaxation quality factor $Q \approx 0.7\times 10^7$, even though the dielectric loss quality factor of the circuit components is in the low $10^5$ range. The Ramsey coherence time exceeds 100 $\mu$s, and the average fidelity of Clifford gates is benchmarked to $\mathcal{F} > 0.999$. These figures are expected to improve with optimized fabrication and measurement procedures. Our work establishes a ready-to-use ``partially protected" superconducting qubit functioning in the frequency range of conventional transmons. | 翻訳日:2024-11-09 03:48:22 公開日:2024-09-25 |
# RAP: 教育ビデオにおける適応的手続き計画のための検索型プランナー
RAP: Retrieval-Augmented Planner for Adaptive Procedure Planning in Instructional Videos ( http://arxiv.org/abs/2403.18600v2 ) ライセンス: Link先を確認 | Ali Zare, Yulei Niu, Hammad Ayyubi, Shih-fu Chang, | (参考訳) 指導ビデオにおけるプロシージャプランニングでは、初期状態と対象状態の視覚的観察に基づいて一連のアクションステップを生成する。
1)適応的手順: 先行研究は、アクションステップの数が知られ、固定されているという非現実的な仮定を持ち、シーケンスの長さが変化する現実世界のシナリオでは、一般化不可能なモデルに繋がる。
2)時間的関係:段階的関係知識を理解することは合理的かつ実行可能な計画の作成に不可欠である。
アノテーションコスト: ステップレベルのラベル(タイムスタンプ)やシーケンスレベルのラベル(アクションカテゴリ)で動画に注釈を付けることで、大規模データセットにその一般化性を制限することができる。
そこで本研究では,プロシージャ長の固定や事前決定を行わない,適応的プロシージャ計画(Adaptive procedure planning)という,新しい実践的な設定を提案する。
これらの課題に対処するために、Retrieval-Augmented Planner(RAP)モデルを導入する。
具体的には、適応的な手続きにおいて、RAPは自動回帰モデルアーキテクチャを用いて行動の結論を適応的に決定する。
時間的関係のために、RAPはトレーニングビデオから最も関連性の高い状態-アクションペアを明示的に検索し、生成されたプロシージャを更新する外部メモリモジュールを確立する。
高アノテーションコストに対処するため、RAPは弱い教師付き学習手法を使用して、トレーニングデータセットをアクションステップの擬似ラベルを生成することで、他のタスク関連無注釈ビデオに拡張する。
CrossTaskとCOINベンチマークの実験では、従来の固定長モデルよりもRAPの方が優れていることが示され、適応プロシージャ計画のための強力なベースラインソリューションとして確立された。
Procedure Planning in instructional videos entails generating a sequence of action steps based on visual observations of the initial and target states. Despite the rapid progress in this task, there remain several critical challenges to be solved: (1) Adaptive procedures: Prior works hold an unrealistic assumption that the number of action steps is known and fixed, leading to non-generalizable models in real-world scenarios where the sequence length varies. (2) Temporal relation: Understanding the step temporal relation knowledge is essential in producing reasonable and executable plans. (3) Annotation cost: Annotating instructional videos with step-level labels (i.e., timestamp) or sequence-level labels (i.e., action category) is demanding and labor-intensive, limiting its generalizability to large-scale datasets. In this work, we propose a new and practical setting, called adaptive procedure planning in instructional videos, where the procedure length is not fixed or pre-determined. To address these challenges, we introduce Retrieval-Augmented Planner (RAP) model. Specifically, for adaptive procedures, RAP adaptively determines the conclusion of actions using an auto-regressive model architecture. For temporal relation, RAP establishes an external memory module to explicitly retrieve the most relevant state-action pairs from the training videos and revises the generated procedures. To tackle high annotation cost, RAP utilizes a weakly-supervised learning manner to expand the training dataset to other task-relevant, unannotated videos by generating pseudo labels for action steps. Experiments on CrossTask and COIN benchmarks show the superiority of RAP over traditional fixed-length models, establishing it as a strong baseline solution for adaptive procedure planning. | 翻訳日:2024-11-09 03:37:10 公開日:2024-09-25 |
# マニフォールド仮説のレンズによる深部生成モデル:調査と新しいつながり
Deep Generative Models through the Lens of the Manifold Hypothesis: A Survey and New Connections ( http://arxiv.org/abs/2404.02954v2 ) ライセンス: Link先を確認 | Gabriel Loaiza-Ganem, Brendan Leigh Ross, Rasa Hosseinzadeh, Anthony L. Caterini, Jesse C. Cresswell, | (参考訳) 近年、深層生成モデル(DGM)と多様体仮説の相互作用を理解することへの関心が高まっている。
本研究は,DGMが未知の低次元多様体上で支持される分布の学習に成功あるいは失敗する理由の解明と,多様体支援データを考慮した新しいモデルの開発に焦点をあてる。
この多様体レンズは、サンプル生成時にDGM(例えば拡散モデルや生成逆数ネットワーク)が他のDGM(例えば、変分オートエンコーダ、正規化フロー、エネルギーベースモデル)を経験的に上回る理由と、より高性能なDGMを考案するためのガイダンスの両方を提供する。
我々は、このレンズを通して見るDGMの最初の調査を行い、その過程で2つの新しい貢献をした。
まず,低内在次元のデータモデリングにおいて,高周囲次元の確率の数値不安定性は避けられないことを正式に証明する。
次に、自動エンコーダの学習表現上のDGMは、ワッサーシュタイン距離を概ね最小化するものとして解釈できることを示し、この結果は潜伏拡散モデルに適用され、その卓越した経験的結果の正当化に役立つ。
多様体レンズは、DGMを理解するためのリッチな視点を提供する。
In recent years there has been increased interest in understanding the interplay between deep generative models (DGMs) and the manifold hypothesis. Research in this area focuses on understanding the reasons why commonly-used DGMs succeed or fail at learning distributions supported on unknown low-dimensional manifolds, as well as developing new models explicitly designed to account for manifold-supported data. This manifold lens provides both clarity as to why some DGMs (e.g. diffusion models and some generative adversarial networks) empirically surpass others (e.g. likelihood-based models such as variational autoencoders, normalizing flows, or energy-based models) at sample generation, and guidance for devising more performant DGMs. We carry out the first survey of DGMs viewed through this lens, making two novel contributions along the way. First, we formally establish that numerical instability of likelihoods in high ambient dimensions is unavoidable when modelling data with low intrinsic dimension. We then show that DGMs on learned representations of autoencoders can be interpreted as approximately minimizing Wasserstein distance: this result, which applies to latent diffusion models, helps justify their outstanding empirical results. The manifold lens provides a rich perspective from which to understand DGMs, and we aim to make this perspective more accessible and widespread. | 翻訳日:2024-11-09 03:26:10 公開日:2024-09-25 |
# コミットは統計的に検証可能なワンウェイ状態ジェネレータと等価である
Commitments are equivalent to statistically-verifiable one-way state generators ( http://arxiv.org/abs/2404.03220v3 ) ライセンス: Link先を確認 | Rishabh Batra, Rahul Jain, | (参考訳) ワンウェイ状態発生器 (OWSG) は古典的なワンウェイ関数の自然な量子アナログである。
統計的に検証可能なOWSG(sv-OWSG)を考える。
O(n/log(n))-copy sv-OWSGs(nは入力長を表す)がpoly(n)-copy sv-OWSGsおよび量子コミットメントに等しいことを示す。
既知の結果は、o(n/log(n))-copy OWSGsがコミットメントを示唆できないことを示しているので、このことは、O(n/log(n))-copy sv-OWSGsがコミットメントを得ることのできる最も弱いOWSGであることを示している。
我々の構成は、古典的な片方向関数(OWF)から古典的な擬似ランダム生成器(PRG)を得たハスタッド、インパグリアッツォ、レヴィン、ルビーの線に沿っている。
我々の構成は、古典的な場合に適用すると、古典的な OWF から古典的に一様でない古典的な PRG を得るための古典的な構成の代替となる。
出力 $f(x)$ の条件は議論しないので、我々の構成と解析は間違いなく単純であり、独立した関心を持つかもしれない。
軽度の非一様PRGを一様PRGに変換するためには、古典的な構成を用いることができる。
One-way state generators (OWSG) are natural quantum analogs to classical one-way functions. We consider statistically-verifiable OWSGs (sv-OWSG), which are potentially weaker objects than OWSGs. We show that O(n/log(n))-copy sv-OWSGs (n represents the input length) are equivalent to poly(n)-copy sv-OWSGs and to quantum commitments. Since known results show that o(n/log(n))-copy OWSGs cannot imply commitments, this shows that O(n/log(n))-copy sv-OWSGs are the weakest OWSGs from which we can get commitments (and hence much of quantum cryptography). Our construction follows along the lines of Hastad, Impagliazzo, Levin and Luby, who obtained classical pseudorandom generators (PRG) from classical one-way functions (OWF), however with crucial modifications. Our construction, when applied to the classical case, provides an alternative to the classical construction to obtain a classical mildly non-uniform PRG from any classical OWF. Since we do not argue conditioned on the output $f(x)$, our construction and analysis is arguably simpler and may be of independent interest. For converting a mildly non-uniform PRG to a uniform PRG, we can use the classical construction. | 翻訳日:2024-11-09 03:26:10 公開日:2024-09-25 |
# CodecNeRF: 高速エンコーディング・デコード・コンパクト・高品質ノベルビュー合成を目指して
CodecNeRF: Toward Fast Encoding and Decoding, Compact, and High-quality Novel-view Synthesis ( http://arxiv.org/abs/2404.04913v3 ) ライセンス: Link先を確認 | Gyeongjin Kang, Younggeun Lee, Seungjun Oh, Eunbyung Park, | (参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、3Dオブジェクトやシーンを効果的に捉え、表現することで大きな成功を収めた。
しかし、画像やビデオなどの日常的なメディア形式において、ユビキタスな存在を確立するためには、3つの重要な目標を達成する必要がある。
1 高速符号化及び復号時間
2.コンパクトモデルサイズ、及び
3. 高品質なレンダリング。
近年の進歩にもかかわらず、全ての目的に適切に対処する包括的アルゴリズムはまだ完全には実現されていない。
本研究では,1つのフォワードパスでNeRF表現を生成可能なエンコーダとデコーダアーキテクチャからなる,NeRF表現のためのニューラルコーデックであるCodecNeRFを提案する。
さらに,近年のパラメータ効率向上手法に着想を得て,生成したNeRF表現を新しいテストインスタンスに効率よく適応させるファインタニング手法を提案し,高品質な画像レンダリングとコンパクトなコードサイズを実現した。
The proposed CodecNeRF, a new proposed encoding-decoding-finetuning pipeline for NeRFは、100倍以上の前例のない圧縮性能を達成し、広く使われている3Dオブジェクトデータセットの画質を維持しつつ、符号化時間を大幅に短縮した。
Neural Radiance Fields (NeRF) have achieved huge success in effectively capturing and representing 3D objects and scenes. However, to establish a ubiquitous presence in everyday media formats, such as images and videos, we need to fulfill three key objectives: 1. fast encoding and decoding time, 2. compact model sizes, and 3. high-quality renderings. Despite recent advancements, a comprehensive algorithm that adequately addresses all objectives has yet to be fully realized. In this work, we present CodecNeRF, a neural codec for NeRF representations, consisting of an encoder and decoder architecture that can generate a NeRF representation in a single forward pass. Furthermore, inspired by the recent parameter-efficient finetuning approaches, we propose a finetuning method to efficiently adapt the generated NeRF representations to a new test instance, leading to high-quality image renderings and compact code sizes. The proposed CodecNeRF, a newly suggested encoding-decoding-finetuning pipeline for NeRF, achieved unprecedented compression performance of more than 100x and remarkable reduction in encoding time while maintaining (or improving) the image quality on widely used 3D object datasets. | 翻訳日:2024-11-09 03:26:10 公開日:2024-09-25 |
# 量子光学系におけるトポロジカル光子励起
Topological photon pumping in quantum optical systems ( http://arxiv.org/abs/2404.05570v3 ) ライセンス: Link先を確認 | Mathias B. M. Svendsen, Marcel Cech, Max Schemmer, Beatriz Olmos, | (参考訳) 長距離結合を持つ一次元系におけるトポロジカルポンプの概念を確立し、量子光学系における光子の輸送に適用する。
理論的研究において、全対全結合を持つライス・ミールモデルの拡張版を導入する。
その性質を解析することにより、トポロジカルポンピングの一般的な条件を特定し、一次元エミッタ鎖上の光子のトポロジカルに保護され分散しない輸送を理論的に数値的に示す。
具体例として、Ryd\-berg原子格子、低電子状態に励起される原子の高密度格子、導波路に結合した原子の3つの一般的な量子光学プラットフォームについて実験的なパラメータを用いて検討する。
双極子-双極子相互作用の長距離特性にもかかわらず、トポロジカルポンピングは、99.9\%に達する1サイクルあたりの忠実度を持つ光子の輸送を促進する。
さらに,光子ポンプ法は結合パラメータの局所的障害に対して位相的に保護されていることが判明した。
We establish the concept of topological pumping in one-dimensional systems with long-range couplings and apply it to the transport of a photon in quantum optical systems. In our theoretical investigation, we introduce an extended version of the Rice-Mele model with all-to-all couplings. By analyzing its properties, we identify the general conditions for topological pumping and theoretically and numerically demonstrate topologically protected and dispersionless transport of a photon on a one-dimensional emitter chain. As concrete examples, we investigate three different popular quantum optics platforms, namely Ryd\-berg atom lattices, dense lattices of atoms excited to low-lying electronic states, and atoms coupled to waveguides, using experimentally relevant parameters. We observe that despite the long-ranged character of the dipole-dipole interactions, topological pumping facilitates the transport of a photon with a fidelity per cycle which can reach 99.9\%. Moreover, we find that the photon pumping process remains topologically protected against local disorder in the coupling parameters. | 翻訳日:2024-11-09 03:26:10 公開日:2024-09-25 |
# Global Context Guidance を用いた簡易画像信号処理
Simple Image Signal Processing using Global Context Guidance ( http://arxiv.org/abs/2404.11569v2 ) ライセンス: Link先を確認 | Omar Elezabi, Marcos V. Conde, Radu Timofte, | (参考訳) 現代のスマートフォンカメラでは、画像信号処理装置(ISP)はセンサーからのRAW読み出しをエンドユーザーにとって知覚的に快適なRGB画像に変換するコア要素である。
ISPは通常プロプライエタリで手作りで、ホワイトバランス、色補正、トーンマッピングなどいくつかのブロックで構成されている。
ディープラーニングベースのISPは、深層ニューラルネットワークを使用してRAW画像をDSLRライクなRGBイメージに変換することを目指している。
しかし、ほとんどの学習済みISPは、計算上の制限のためにパッチ(小さな領域)を使って訓練されている。
このような方法にはグローバルなコンテキストが欠如しており、フル解像度画像に対する有効性を制限し、色濃度や照明などのグローバルな特性をキャプチャする能力を損なう。
まず,全RAW画像からグローバルなコンテキスト情報をキャプチャするために,任意のニューラルISPに統合可能な新しいモジュールを提案する。
次に,提案するモジュールを利用した,効率的でシンプルなニューラルISPを提案する。
本モデルでは,多種多様な実スマートフォン画像を用いて,様々なベンチマークで最新の結果が得られる。
In modern smartphone cameras, the Image Signal Processor (ISP) is the core element that converts the RAW readings from the sensor into perceptually pleasant RGB images for the end users. The ISP is typically proprietary and handcrafted and consists of several blocks such as white balance, color correction, and tone mapping. Deep learning-based ISPs aim to transform RAW images into DSLR-like RGB images using deep neural networks. However, most learned ISPs are trained using patches (small regions) due to computational limitations. Such methods lack global context, which limits their efficacy on full-resolution images and harms their ability to capture global properties such as color constancy or illumination. First, we propose a novel module that can be integrated into any neural ISP to capture the global context information from the full RAW images. Second, we propose an efficient and simple neural ISP that utilizes our proposed module. Our model achieves state-of-the-art results on different benchmarks using diverse and real smartphone images. | 翻訳日:2024-11-09 03:14:33 公開日:2024-09-25 |
# 予算を考慮した確率的マルチラウンドサブモジュール最適化
Stochastic Multi-round Submodular Optimization with Budget ( http://arxiv.org/abs/2404.13737v3 ) ライセンス: Link先を確認 | Vincenzo Auletta, Diodato Ferraioli, Cosimo Vinci, | (参考訳) 本研究では,SBMSm(Stochastic Budgeted Multi-round Submodular Maximization)問題について考察する。
目的関数は確率的事象の実現にも依存し、全てのラウンドで選択できるアイテムの総数は、限られた予算で制限される。
この問題は拡張され、(適応的な)影響の最大化や確率的探索のようなよく研究された問題に一般化される。
項目数と確率事象が何らかの境界付けられた場合、SBMSmの多項式時間動的プログラミングアルゴリズムが存在することを示す。
次に,SBMSmに対する1/2(1-1/e-\epsilon)\approx 0.316$-approximationアルゴリズムを提案し,まず,各ラウンドに費やされる予算を非適応的に割り当てる。
最後に、我々は、SBMSmの適応ポリシーが最適部分適応ポリシーよりもどれだけ優れているかを測る、予算適応性ギャップ(英語版)を導入し、我々の欲求アルゴリズムのように、前もって予算配分を決定する。
予算と適応性のギャップは$e/(e-1)\approx 1.582$から$2$の間にある。
In this work, we study the Stochastic Budgeted Multi-round Submodular Maximization (SBMSm) problem, where we aim to adaptively maximize the sum, over multiple rounds, of a monotone and submodular objective function defined on subsets of items. The objective function also depends on the realization of stochastic events, and the total number of items we can select over all rounds is bounded by a limited budget. This problem extends, and generalizes to multiple round settings, well-studied problems such as (adaptive) influence maximization and stochastic probing. We show that, if the number of items and stochastic events is somehow bounded, there is a polynomial time dynamic programming algorithm for SBMSm. Then, we provide a simple greedy $1/2(1-1/e-\epsilon)\approx 0.316$-approximation algorithm for SBMSm, that first non-adaptively allocates the budget to be spent at each round, and then greedily and adaptively maximizes the objective function by using the budget assigned at each round. Finally, we introduce the {\em budget-adaptivity gap}, by which we measure how much an adaptive policy for SBMSm is better than an optimal partially adaptive one that, as in our greedy algorithm, determines the budget allocation in advance. We show that the budget-adaptivity gap lies between $e/(e-1)\approx 1.582$ and $2$. | 翻訳日:2024-11-09 03:03:34 公開日:2024-09-25 |
# 予算を考慮した確率的マルチラウンドサブモジュール最適化
Stochastic Multi-round Submodular Optimization with Budget ( http://arxiv.org/abs/2404.13737v4 ) ライセンス: Link先を確認 | Vincenzo Auletta, Diodato Ferraioli, Cosimo Vinci, | (参考訳) 本研究では,SBMSm(Stochastic Budgeted Multi-round Submodular Maximization)問題について考察する。
目的関数は確率的事象の実現にも依存し、全てのラウンドで選択できるアイテムの総数は、限られた予算で制限される。
この問題は拡張され、(適応的な)影響の最大化や確率的探索のようなよく研究された問題に一般化される。
項目数と確率事象が何らかの境界付けられた場合、SBMSmの多項式時間動的プログラミングアルゴリズムが存在することを示す。
次に,SBMSmに対する1/2(1-1/e-\epsilon)\approx 0.316$-approximationアルゴリズムを提案し,まず,各ラウンドに費やされる予算を非適応的に割り当てる。
最後に、我々は、SBMSmの適応ポリシーが最適部分適応ポリシーよりもどれだけ優れているかを測る、予算適応性ギャップ(英語版)を導入し、我々の欲求アルゴリズムのように、前もって予算配分を決定する。
予算と適応性のギャップは$e/(e-1)\approx 1.582$から$2$の間にある。
In this work, we study the Stochastic Budgeted Multi-round Submodular Maximization (SBMSm) problem, where we aim to adaptively maximize the sum, over multiple rounds, of a monotone and submodular objective function defined on subsets of items. The objective function also depends on the realization of stochastic events, and the total number of items we can select over all rounds is bounded by a limited budget. This problem extends, and generalizes to multiple round settings, well-studied problems such as (adaptive) influence maximization and stochastic probing. We show that, if the number of items and stochastic events is somehow bounded, there is a polynomial time dynamic programming algorithm for SBMSm. Then, we provide a simple greedy $1/2(1-1/e-\epsilon)\approx 0.316$-approximation algorithm for SBMSm, that first non-adaptively allocates the budget to be spent at each round, and then greedily and adaptively maximizes the objective function by using the budget assigned at each round. Finally, we introduce the {\em budget-adaptivity gap}, by which we measure how much an adaptive policy for SBMSm is better than an optimal partially adaptive one that, as in our greedy algorithm, determines the budget allocation in advance. We show that the budget-adaptivity gap lies between $e/(e-1)\approx 1.582$ and $2$. | 翻訳日:2024-11-09 03:03:34 公開日:2024-09-25 |
# 機械翻訳システムの再学習を伴わない多面的データの翻訳
Translation of Multifaceted Data without Re-Training of Machine Translation Systems ( http://arxiv.org/abs/2404.16257v2 ) ライセンス: Link先を確認 | Hyeonseok Moon, Seungyoon Lee, Seongtae Hong, Seungjun Lee, Chanjun Park, Heuiseok Lim, | (参考訳) 主要な言語リソースを翻訳してマイナーな言語リソースを構築することは、広く使われているアプローチである。
特に、複数のコンポーネントで構成される複雑なデータポイントの翻訳では、各コンポーネントを別々に翻訳することが一般的である。
しかし、このプラクティスは、しばしば同じデータポイント内のコンポーネント間の相互関係を見落としている。
この制限に対処するため,トレーニングデータにMTを実装する際のデータ内関係を考慮した新しいMTパイプラインを提案する。
MTパイプラインでは、データポイント内のすべてのコンポーネントを連結して単一の翻訳シーケンスを形成し、その後、データコンポーネントに変換後、再構築する。
本稿では,データ内関係を高めるための触媒ステートメント (CS) と,各データコンポーネントへの翻訳配列の分解を支援する指標トークン (IT) を導入する。
提案手法は,学習データとしての有効性とともに,翻訳品質自体の大幅な向上を実現している。
XGLUEベンチマークでは,Webページランキング(WPR)タスクは2.690ポイント,質問生成(QG)タスクは0.845ポイント向上した。
Translating major language resources to build minor language resources becomes a widely-used approach. Particularly in translating complex data points composed of multiple components, it is common to translate each component separately. However, we argue that this practice often overlooks the interrelation between components within the same data point. To address this limitation, we propose a novel MT pipeline that considers the intra-data relation in implementing MT for training data. In our MT pipeline, all the components in a data point are concatenated to form a single translation sequence and subsequently reconstructed to the data components after translation. We introduce a Catalyst Statement (CS) to enhance the intra-data relation, and Indicator Token (IT) to assist the decomposition of a translated sequence into its respective data components. Through our approach, we have achieved a considerable improvement in translation quality itself, along with its effectiveness as training data. Compared with the conventional approach that translates each data component separately, our method yields better training data that enhances the performance of the trained model by 2.690 points for the web page ranking (WPR) task, and 0.845 for the question generation (QG) task in the XGLUE benchmark. | 翻訳日:2024-11-09 03:03:34 公開日:2024-09-25 |
# バックフローのない情報再生:非マルコフ量子確率過程の非因果的説明
Information revival without backflow: non-causal explanations for non-Markovian quantum stochastic processes ( http://arxiv.org/abs/2405.05326v2 ) ライセンス: Link先を確認 | Francesco Buscemi, Rajeev Gangwar, Kaumudibikash Goswami, Himanshu Badhani, Tanmoy Pandit, Brij Mohan, Siddhartha Das, Manabendra Nath Bera, | (参考訳) 情報回復の研究は、あるデータ処理の不平等の違反を目撃するものであり、非マルコフ量子確率過程の研究において重要なパラダイムとなっている。
ここでは「リバイバル」と「バックフロー」という概念、すなわち環境からシステムに戻す情報の流れは異なっており、バックフローが起こらずに情報リバイバルが発生する可能性があると論じる。
本稿では,非因果リバイバル現象を詳細に検討し,短いマルコフ鎖の理論と非マルコフ鎖の正解性との関係について考察する。
また、システムのみの自由度の観点からは、非因果リバイバルでは説明できない真の逆流の存在を目撃するための運用条件も提供します。
副産物として、真のバックフローを持つプロセスに焦点を合わせながら、非因果リバイバルしか持たないプロセスを除いて、マルコビアン性の非凸性の問題を解決し、真の量子的非マルコビアン性の凸資源理論の構築を可能にすることを実証する。
The study of information revivals, witnessing the violation of certain data-processing inequalities, has provided an important paradigm in the study of non-Markovian quantum stochastic processes. Although often used interchangeably, we argue here that the notions of "revivals" and "backflows", i.e., flows of information from the environment back into the system, are distinct: an information revival can occur without any backflow ever taking place. In this paper, we examine in detail the phenomenon of non-causal revivals and relate them to the theory of short Markov chains and squashed non-Markovianity. We also provide an operational condition, in terms of system-only degrees of freedom, to witness the presence of genuine backflow that cannot be explained by non-causal revivals. As a byproduct, we demonstrate that focusing on processes with genuine backflows, while excluding those with only non-causal revivals, resolves the issue of non-convexity of Markovianity, thus enabling the construction of a convex resource theory of genuine quantum non-Markovianity. | 翻訳日:2024-11-09 02:41:28 公開日:2024-09-25 |
# 多目的進化アルゴリズムにおけるパレートフロントのハウスドルフ近似の新手法
A Newton Method for Hausdorff Approximations of the Pareto Front within Multi-objective Evolutionary Algorithms ( http://arxiv.org/abs/2405.05721v2 ) ライセンス: Link先を確認 | Hao Wang, Angel E. Rodriguez-Fernandez, Lourdes Uribe, André Deutz, Oziel Cortés-Piña, Oliver Schütze, | (参考訳) 進化的多目的最適化における共通のゴールは、与えられた多目的最適化問題のパレートフロントの適切な有限サイズ近似を見つけることである。
多くの多目的進化的アルゴリズムは、優れたパレートフロント近似を見つけるのに非常に効率的であることが証明されているが、かなりのリソースが必要かもしれないし、最適あるいはほぼ近似を得ることができないかもしれない。
これにより、最適性は選択された性能指標によって暗黙的に定義される。
本研究では,多目的進化アルゴリズムで用いられるパレートフロントのハウスドルフ近似に対するセットベースニュートン法を提案する。
この目的のために、我々はまず、一般的な参照集合に対する制約付き問題を扱うための性能指標として、先に提案されたニュートンステップを一般化する。
ターゲットパレートフロントを近似するために,進化的アルゴリズムが実行中に収集したデータを利用する参照セットを生成するための具体的な戦略を提案する。
最後に、いくつかのベンチマークテスト関数と異なる基底進化アルゴリズムにおける後処理ステップとしてNewton法の利点を示す。
A common goal in evolutionary multi-objective optimization is to find suitable finite-size approximations of the Pareto front of a given multi-objective optimization problem. While many multi-objective evolutionary algorithms have proven to be very efficient in finding good Pareto front approximations, they may need quite a few resources or may even fail to obtain optimal or nearly approximations. Hereby, optimality is implicitly defined by the chosen performance indicator. In this work, we propose a set-based Newton method for Hausdorff approximations of the Pareto front to be used within multi-objective evolutionary algorithms. To this end, we first generalize the previously proposed Newton step for the performance indicator for the treatment of constrained problems for general reference sets. To approximate the target Pareto front, we propose a particular strategy for generating the reference set that utilizes the data gathered by the evolutionary algorithm during its run. Finally, we show the benefit of the Newton method as a post-processing step on several benchmark test functions and different base evolutionary algorithms. | 翻訳日:2024-11-09 02:41:28 公開日:2024-09-25 |
# セグメントレベル交通渋滞関数のスケーラブル学習
Scalable Learning of Segment-Level Traffic Congestion Functions ( http://arxiv.org/abs/2405.06080v2 ) ライセンス: Link先を確認 | Shushman Choudhury, Abdul Rahman Kreidieh, Iveel Tsogsuren, Neha Arora, Carolina Osorio, Alexandre Bayen, | (参考訳) 本研究では,グローバルスケールにおける交通渋滞関数(交通変数の観測値間の数値関係)とセグメントレベルの粒度を同定するためのデータ駆動型フレームワークを提案する。
道路毎に異なるパラメータの集合を推定する手法とは対照的に,大都市圏のすべての道路を横断する単一のブラックボックス関数を学習する。
まず、すべてのセグメントからのトラフィックデータを1つのデータセットにまとめ、静的属性と動的時間依存の機能を組み合わせる。
次に、このデータセット上でフィードフォワードニューラルネットワークをトレーニングします。
我々は,観測されたセグメント上での混雑関数の同定と未観測セグメントへの一般化方法を評価し,世界中の複数の都市を対象とした大規模データセット上でセグメント属性を予測する。
観測されたセグメントの識別誤差については,道路におけるセグメント固有のモデルベース関数と比較して,単一のデータ駆動の渋滞関数が好ましいが,動脈道では改善の余地がある。
一般化のために,同市の未観測区間と都市間のゼロショット移動学習の両方において,都市と道路タイプ間で高い性能を示す。
最後に, セグメント属性の予測において, 静的特性を用いて各セグメントの臨界密度を近似できることを示す。
We propose and study a data-driven framework for identifying traffic congestion functions (numerical relationships between observations of traffic variables) at global scale and segment-level granularity. In contrast to methods that estimate a separate set of parameters for each roadway, ours learns a single black-box function over all roadways in a metropolitan area. First, we pool traffic data from all segments into one dataset, combining static attributes with dynamic time-dependent features. Second, we train a feed-forward neural network on this dataset, which we can then use on any segment in the area. We evaluate how well our framework identifies congestion functions on observed segments and how it generalizes to unobserved segments and predicts segment attributes on a large dataset covering multiple cities worldwide. For identification error on observed segments, our single data-driven congestion function compares favorably to segment-specific model-based functions on highway roads, but has room to improve on arterial roads. For generalization, our approach shows strong performance across cities and road types: both on unobserved segments in the same city and on zero-shot transfer learning between cities. Finally, for predicting segment attributes, we find that our approach can approximate critical densities for individual segments using their static properties. | 翻訳日:2024-11-09 02:41:28 公開日:2024-09-25 |
# フェアミックスエフェクト支援ベクトルマシン
Fair Mixed Effects Support Vector Machine ( http://arxiv.org/abs/2405.06433v4 ) ライセンス: Link先を確認 | João Vitor Pamplona, Jan Pablo Burgard, | (参考訳) 偏見のない倫理的自動予測を保証するためには、公正性は機械学習アプリケーションにおける中核的な原則でなければならない。
機械学習の公正性は、トレーニングデータに存在するバイアスを緩和し、差別的な結果につながる可能性のある欠陥をモデル化することを目的としている。
これは、モデルが民族性や性的指向といった繊細な特徴に基づいて決定するのを防ぐことで達成される。
機械学習の基本的な前提は観察の独立である。
しかし、この仮定は、しばしばデータポイントがクラスタ化された社会現象を記述するデータには当てはまらないことが多い。
したがって、機械学習モデルがクラスタ相関を考慮していない場合、結果はバイアスを受ける可能性がある。
特に、クラスタ割り当てが関心の変数と相関している場合のバイアスが高い。
両問題を同時に処理できるベクターマシンアルゴリズムを提案する。
再現可能なシミュレーション研究により、クラスタ化されたデータが公正な機械学習予測の品質に与える影響を実証する。
To ensure unbiased and ethical automated predictions, fairness must be a core principle in machine learning applications. Fairness in machine learning aims to mitigate biases present in the training data and model imperfections that could lead to discriminatory outcomes. This is achieved by preventing the model from making decisions based on sensitive characteristics like ethnicity or sexual orientation. A fundamental assumption in machine learning is the independence of observations. However, this assumption often does not hold true for data describing social phenomena, where data points are often clustered based. Hence, if the machine learning models do not account for the cluster correlations, the results may be biased. Especially high is the bias in cases where the cluster assignment is correlated to the variable of interest. We present a fair mixed effects support vector machine algorithm that can handle both problems simultaneously. With a reproducible simulation study we demonstrate the impact of clustered data on the quality of fair machine learning predictions. | 翻訳日:2024-11-09 02:41:28 公開日:2024-09-25 |
# 任意物体とロボットによる接触合成の汎用ロボット操作のためのマニファウンデーションモデル
ManiFoundation Model for General-Purpose Robotic Manipulation of Contact Synthesis with Arbitrary Objects and Robots ( http://arxiv.org/abs/2405.06964v2 ) ライセンス: Link先を確認 | Zhixuan Xu, Chongkai Gao, Zixuan Liu, Gang Yang, Chenrui Tie, Haozhuo Zheng, Haoyu Zhou, Weikun Peng, Debang Wang, Tianrun Hu, Tianyi Chen, Zhouliang Yu, Lin Shao, | (参考訳) ロボットインテリジェンスを大幅に向上させるためには、LLMが提示する多目的タスクプランニング能力に類似した、汎用ロボットが幅広い操作タスクを十分にこなせるような、大規模なモデルを開発する必要がある。
オブジェクト、ロボット、操作タスクの膨大な多様性は、大きな課題を示します。
本研究は,接触合成として操作タスクを形式化する汎用ロボット操作の基礎モデルを構築するための包括的枠組みを提案する。
具体的には、入力対象とロボットマニピュレータ点雲、物体の物理的属性、目標運動、操作領域マスクをモデルとして扱う。
対象物に接触点を出力し、ロボットが所望の操作作業を達成するための接触力や後接触動作を出力する。
シミュレーションと実世界の設定の両方において、ロープのような1次元物から布のような2次元物まで、プラスチックのような3次元物まで様々に形状が変化する剛体物体、剛体物体、変形可能な物体を操作し、広範囲にわたる実験を行った。
私たちのモデルは、平均的な成功率を約90%達成します。
追加資料とビデオはプロジェクトのWebサイトhttps://manifoundationmodel.github.io/.com/で公開されている。
To substantially enhance robot intelligence, there is a pressing need to develop a large model that enables general-purpose robots to proficiently undertake a broad spectrum of manipulation tasks, akin to the versatile task-planning ability exhibited by LLMs. The vast diversity in objects, robots, and manipulation tasks presents huge challenges. Our work introduces a comprehensive framework to develop a foundation model for general robotic manipulation that formalizes a manipulation task as contact synthesis. Specifically, our model takes as input object and robot manipulator point clouds, object physical attributes, target motions, and manipulation region masks. It outputs contact points on the object and associated contact forces or post-contact motions for robots to achieve the desired manipulation task. We perform extensive experiments both in the simulation and real-world settings, manipulating articulated rigid objects, rigid objects, and deformable objects that vary in dimensionality, ranging from one-dimensional objects like ropes to two-dimensional objects like cloth and extending to three-dimensional objects such as plasticine. Our model achieves average success rates of around 90\%. Supplementary materials and videos are available on our project website at https://manifoundationmodel.github.io/. | 翻訳日:2024-11-09 02:41:28 公開日:2024-09-25 |
# 時系列解析のためのKAN(Kolmogorov-Arnold Networks)
Kolmogorov-Arnold Networks (KANs) for Time Series Analysis ( http://arxiv.org/abs/2405.08790v2 ) ライセンス: Link先を確認 | Cristian J. Vaca-Rubio, Luis Blanco, Roberto Pereira, Màrius Caus, | (参考訳) 本稿では,KAN(Kolmogorov-Arnold Networks)の時系列予測への応用について紹介する。
コルモゴロフ・アルノルドの表現定理に着想を得たカンスは、伝統的な線型重みをスプラインパラメタライズされた単変数関数に置き換え、活性化パターンを動的に学習する。
実世界の衛星交通予測タスクにおいて,kansが従来のMLP(Multi-Layer Perceptrons)よりも優れており,学習可能なパラメータがかなり少ない精度で結果が得られることを示す。
また,kan固有のパラメータが性能に与える影響について,アブレーション研究を行った。
提案手法は適応予測モデルに対する新たな道を開き、予測分析の強力なツールとしてKansの可能性を強調した。
This paper introduces a novel application of Kolmogorov-Arnold Networks (KANs) to time series forecasting, leveraging their adaptive activation functions for enhanced predictive modeling. Inspired by the Kolmogorov-Arnold representation theorem, KANs replace traditional linear weights with spline-parametrized univariate functions, allowing them to learn activation patterns dynamically. We demonstrate that KANs outperforms conventional Multi-Layer Perceptrons (MLPs) in a real-world satellite traffic forecasting task, providing more accurate results with considerably fewer number of learnable parameters. We also provide an ablation study of KAN-specific parameters impact on performance. The proposed approach opens new avenues for adaptive forecasting models, emphasizing the potential of KANs as a powerful tool in predictive analytics. | 翻訳日:2024-11-09 02:30:11 公開日:2024-09-25 |
# ReCycle: パイプライン適応を用いた大規模DNNのレジリエンストレーニング
ReCycle: Resilient Training of Large DNNs using Pipeline Adaptation ( http://arxiv.org/abs/2405.14009v2 ) ライセンス: Link先を確認 | Swapnil Gandhi, Mark Zhao, Athinagoras Skiadopoulos, Christos Kozyrakis, | (参考訳) 大規模なDeep Neural Network(DNN)モデルのトレーニングには,数日ないし数週間にわたって数千のGPUが必要になる。
この規模では、障害は頻繁に発生し、トレーニングのスループットに大きな影響を与えます。
モデルのサイズが大きくなるにつれて、余分なGPUサーバを使用してパフォーマンス損失を軽減します。
ReCycleは、予備サーバに頼ることなく、障害発生時に効率的なDNNトレーニングのために設計されたシステムである。
データ並列グループにまたがるサーバが同じモデルパラメータを格納する分散トレーニングシステムに固有の機能的冗長性を活用し、各データ並列グループ内でバブルをパイプラインする。
サーバがフェールすると、ReCycleはマイクロバッチをデータ並列ピアに動的に再ルーティングし、複数の障害があっても未中断のトレーニングを可能にする。
しかし、この再ルーティングはパイプラインステージ間の不均衡を生じさせ、トレーニングのスループットを低下させる。
これを解決するため、ReCycleは2つの重要な最適化を導入し、再ルートされたマイクロバッチが元のパイプラインスケジュールのバブル内で確実に処理されるようにした。
1つは入力の勾配を計算するためのもので、もう1つはパラメータの勾配を計算するためのものである。
第2に、オプティマイザステップをステージングすることで、パイプラインステージ間の同期を回避する。
これらの最適化により、適応的なパイプラインスケジュールが実現され、障害時のトレーニングスループットの低下を最小化または排除できる。
我々はReCycleのプロトタイプを説明し、複数の障害下で高いトレーニングスループットを実現し、OobleckやBambooといったフォールトトレラントトレーニングの最近の提案を最大1.46\times$と1.64\times$で上回っていることを示す。
Training large Deep Neural Network (DNN) models requires thousands of GPUs over the course of several days or weeks. At this scale, failures are frequent and can have a big impact on training throughput. Utilizing spare GPU servers to mitigate performance loss becomes increasingly costly as model sizes grow. ReCycle is a system designed for efficient DNN training in the presence of failures, without relying on spare servers. It exploits the inherent functional redundancy in distributed training systems -- where servers across data-parallel groups store the same model parameters -- and pipeline schedule bubbles within each data-parallel group. When servers fails, ReCycle dynamically re-routes micro-batches to data-parallel peers, allowing for uninterrupted training despite multiple failures. However, this re-routing can create imbalances across pipeline stages, leading to reduced training throughput. To address this, ReCycle introduces two key optimizations that ensure re-routed micro-batches are processed within the original pipeline schedule's bubbles. First, it decouples the backward pass into two phases: one for computing gradients for the input and another for calculating gradients for the parameters. Second, it avoids synchronization across pipeline stages by staggering the optimizer step. Together, these optimizations enable adaptive pipeline schedules that minimize or even eliminate training throughput degradation during failures. We describe a prototype for ReCycle and show that it achieves high training throughput under multiple failures, outperforming recent proposals for fault-tolerant training such as Oobleck and Bamboo by up to $1.46\times$ and $1.64\times$, respectively. | 翻訳日:2024-11-09 02:18:45 公開日:2024-09-25 |
# 摂動フォージェリによる逆データ検出
Detecting Adversarial Data via Perturbation Forgery ( http://arxiv.org/abs/2405.16226v3 ) ライセンス: Link先を確認 | Qian Wang, Chen Li, Yuchen Luo, Hefei Ling, Ping Li, Jiazhong Chen, Shijuan Huang, Ning Yu, | (参考訳) 敵対的攻撃に対する防御戦略として、敵対的検出は、自然・敵対的データ間の分布の相違とノイズパターンに基づいて、データフローから敵対的データを識別・フィルタリングすることを目的としている。
従来の検出手法は勾配に基づく対向攻撃の検出では高い性能を示すが,不均衡および異方性雑音パターンを回避した生成モデルに基づく新たな攻撃は回避される。
さらに悪いことに、既存のテクニックは、防衛を展開する前に攻撃データへのアクセスを必要とするか、推論にかなりの時間的コストを要し、防御者が目にしない新たな攻撃を防御するためには実用的ではない。
本稿では, 対向雑音分布間の近接関係について検討し, 開放被覆の存在を実証する。
このオープンカバーと自然データの分布を区別することで、あらゆる種類の敵攻撃に対して強力な一般化能力を持つ検出器を開発することができる。
この知見に基づいて,ノイズ分布の摂動,スパースマスク生成,擬似逆数データ生成を含む摂動フォージェリを提案し,特定のモデルに依存せず,未知の勾配ベース,生成モデルベース,物理的逆数攻撃を検出可能な逆数検出器を訓練する。
複数の汎用的および顔的データセットに対して行われた総合的な実験は、幅広い攻撃範囲で、我々の手法の強力な一般化を検証した。
As a defense strategy against adversarial attacks, adversarial detection aims to identify and filter out adversarial data from the data flow based on discrepancies in distribution and noise patterns between natural and adversarial data. Although previous detection methods achieve high performance in detecting gradient-based adversarial attacks, new attacks based on generative models with imbalanced and anisotropic noise patterns evade detection. Even worse, existing techniques either necessitate access to attack data before deploying a defense or incur a significant time cost for inference, rendering them impractical for defending against newly emerging attacks that are unseen by defenders. In this paper, we explore the proximity relationship between adversarial noise distributions and demonstrate the existence of an open covering for them. By learning to distinguish this open covering from the distribution of natural data, we can develop a detector with strong generalization capabilities against all types of adversarial attacks. Based on this insight, we heuristically propose Perturbation Forgery, which includes noise distribution perturbation, sparse mask generation, and pseudo-adversarial data production, to train an adversarial detector capable of detecting unseen gradient-based, generative-model-based, and physical adversarial attacks, while remaining agnostic to any specific models. Comprehensive experiments conducted on multiple general and facial datasets, with a wide spectrum of attacks, validate the strong generalization of our method. | 翻訳日:2024-11-09 02:07:29 公開日:2024-09-25 |
# EF-Calib:連続時間軌道を用いたイベント・フレームカメラの時空間校正
EF-Calib: Spatiotemporal Calibration of Event- and Frame-Based Cameras Using Continuous-Time Trajectories ( http://arxiv.org/abs/2405.17278v2 ) ライセンス: Link先を確認 | Shaoan Wang, Zhanhua Xin, Yaoqing Hu, Dongyue Li, Mingzhu Zhu, Junzhi Yu, | (参考訳) バイオインスパイアされた非同期トリガカメラであるイベントカメラは、低レイテンシと高ダイナミックレンジのため、フレームベースのカメラと融合する見込みがある。
しかし、イベントベースのカメラとフレームベースのカメラの両方を組み込んだステレオビジョンシステムの校正は大きな課題である。
本稿では,連続時間軌道を用いたイベント・フレームベースカメラの時空間キャリブレーションフレームワークであるEF-Calibを提案する。
カメラタイプとそれに対応するイベント認識アルゴリズムの両方に適用可能な,新しいキャリブレーションパターンを提案する。
イベントの非同期性を活用して、カメラポーズを連続的に表現するための導出可能なB-スプラインを導入し、分析的ヤコビアンによる内在パラメータ、外在パラメータ、時間オフセットの校正を可能にする。
EF-Calibのキャリブレーション性能を評価するために, 固有パラメータ, 外部パラメータ, 時間オフセットのキャリブレーション実験を行った。
実験結果から, EF-Calibは, 現在のSOTAと比較して最も正確な内在パラメータ, フレームベースの結果と比較して外在パラメータの精度, 正確な時間オフセット推定を実現していることがわかった。
EF-Calibは、イベントとフレームを融合するシステムを調整するための便利で正確なツールボックスを提供する。
この論文のコードは、https://github.com/wsakobe/EF-Calib.comでオープンソース化される。
Event camera, a bio-inspired asynchronous triggered camera, offers promising prospects for fusion with frame-based cameras owing to its low latency and high dynamic range. However, calibrating stereo vision systems that incorporate both event and frame-based cameras remains a significant challenge. In this letter, we present EF-Calib, a spatiotemporal calibration framework for event- and frame-based cameras using continuous-time trajectories. A novel calibration pattern applicable to both camera types and the corresponding event recognition algorithm is proposed. Leveraging the asynchronous nature of events, a derivable piece-wise B-spline to represent camera pose continuously is introduced, enabling calibration for intrinsic parameters, extrinsic parameters, and time offset, with analytical Jacobians provided. Various experiments are carried out to evaluate the calibration performance of EF-Calib, including calibration experiments for intrinsic parameters, extrinsic parameters, and time offset. Experimental results show that EF-Calib achieves the most accurate intrinsic parameters compared to current SOTA, the close accuracy of the extrinsic parameters compared to the frame-based results, and accurate time offset estimation. EF-Calib provides a convenient and accurate toolbox for calibrating the system that fuses events and frames. The code of this paper will also be open-sourced at: https://github.com/wsakobe/EF-Calib. | 翻訳日:2024-11-09 02:07:29 公開日:2024-09-25 |
# Wannier-Stark ladder を用いた非エルミート自由フェルミオンの研究
Fate of non-Hermitian free fermions with Wannier-Stark ladder ( http://arxiv.org/abs/2405.19155v5 ) ライセンス: Link先を確認 | Han-Ze Li, Minhui Wan, Jian-Xin Zhong, | (参考訳) ワニエ・スタークの局在は非エルミート自由フェルミオンの絡み合い挙動を動的に変化させる。
単一粒子相関行列法を用いて,これらのフェルミオンの有効ハミルトニアンをワニエ・スターク・はしごを用いて解析する。
開境界条件下では、定常状態半鎖絡みのエントロピーを観察し、2つの異なる領域法則領域と代数的スケーリング領域を同定する。
有限サイズスケーリング解析は、半鎖絡みエントロピーの臨界スケーリング挙動を明らかにする。
特に、このシステムは周期的境界条件下での特異な絡み合い特性を示し、アンダーソン局所化のための (1+1)d 共形場理論の予測から分岐する。
本研究は,非エルミート皮膚効果と無障害局所化との相互作用から出現する新規な絡み合い相について考察した。
The Wannier-Stark localization dynamically alters the entanglement behavior of non-Hermitian free fermions. Utilizing the single-particle correlation matrix technique, we analyze the effective Hamiltonian of these fermions with a Wannier-Stark ladder. Under open boundary conditions, we observe the steady state half-chain entanglement entropy and identify two distinct area law regions and an algebraic scaling region. Finite-size scaling analysis reveals critical scaling behavior of the half-chain entanglement entropy. Notably, the system demonstrates unique entanglement characteristics under periodic boundary conditions, which diverge from the (1+1)d conformal field theory predictions for Anderson localization. Our findings highlight novel entanglement phases emerging from the interplay between the non-Hermitian skin effect and disorder-free localization. | 翻訳日:2024-11-09 02:07:29 公開日:2024-09-25 |
# オンラインeコマース検索におけるロバストインタラクションに基づく関連性モデリング
Robust Interaction-Based Relevance Modeling for Online e-Commerce Search ( http://arxiv.org/abs/2406.02135v2 ) ライセンス: Link先を確認 | Ben Chen, Huangyu Dai, Xiang Ma, Wen Jiang, Wei Ning, | (参考訳) セマンティックな関連性計算はeコマース検索エンジンにとって重要であり、選択した項目が顧客の意図と密接に一致していることを保証する。
この側面に対する不適切な注意は、ユーザエクスペリエンスとエンゲージメントに有害な影響を与える可能性がある。
従来のテキストマッチング技術は一般的であるが、しばしば検索意図のニュアンスを正確に捉えることができないため、ニューラルネットワークはそのような複雑なテキストマッチングを処理するための好ましいソリューションとなっている。
既存の手法は主に表現に基づくアーキテクチャを採用しており、これは高トラフィック容量と低レイテンシのバランスをとる。
しかし、それらは相互作用ベースのアーキテクチャと比較して、一般化と堅牢性において重大な欠点を示す。
本稿では,これらの欠点に対処するために,ロバストな相互作用に基づくモデリングパラダイムを導入する。
包含する
1) 高速推論のための動的長さ表現方式
2)複雑な文構造から主題と中核属性を識別する専門用語認識方法
3)モデルの堅牢性と整合性を高めるための対照的な敵トレーニングプロトコル。
大規模なオフライン評価は、我々のアプローチの堅牢性と有効性を示し、オンラインA/Bテストは、同じ露出位置における関連性を改善する能力を確認し、より多くのクリックと変換をもたらす。
我々の知る限りでは、この手法は大規模なeコマース検索関連性計算のための対話に基づく最初のアプローチである。
Alibaba.comは世界最大のB2B電子商取引プラットフォームだ。
Semantic relevance calculation is crucial for e-commerce search engines, as it ensures that the items selected closely align with customer intent. Inadequate attention to this aspect can detrimentally affect user experience and engagement. Traditional text-matching techniques are prevalent but often fail to capture the nuances of search intent accurately, so neural networks now have become a preferred solution to processing such complex text matching. Existing methods predominantly employ representation-based architectures, which strike a balance between high traffic capacity and low latency. However, they exhibit significant shortcomings in generalization and robustness when compared to interaction-based architectures. In this work, we introduce a robust interaction-based modeling paradigm to address these shortcomings. It encompasses 1) a dynamic length representation scheme for expedited inference, 2) a professional terms recognition method to identify subjects and core attributes from complex sentence structures, and 3) a contrastive adversarial training protocol to bolster the model's robustness and matching capabilities. Extensive offline evaluations demonstrate the superior robustness and effectiveness of our approach, and online A/B testing confirms its ability to improve relevance in the same exposure position, resulting in more clicks and conversions. To the best of our knowledge, this method is the first interaction-based approach for large e-commerce search relevance calculation. Notably, we have deployed it for the entire search traffic on alibaba.com, the largest B2B e-commerce platform in the world. | 翻訳日:2024-11-09 01:56:09 公開日:2024-09-25 |
# 対話型検索エンジンにおけるランキング操作
Ranking Manipulation for Conversational Search Engines ( http://arxiv.org/abs/2406.03589v3 ) ライセンス: Link先を確認 | Samuel Pfrommer, Yatong Bai, Tanmay Gautam, Somayeh Sojoudi, | (参考訳) 主要な検索エンジンプロバイダは、ユーザクエリに応答して、Large Language Model (LLM)生成コンテンツを急速に取り入れている。
これらの対話型検索エンジンは、検索したWebサイトテキストをLLMコンテキストにロードして、要約と解釈を行う。
近年の研究では、LLMはジェイルブレイクやインジェクション攻撃に対して非常に脆弱であることが示されており、敵弦を用いたLLMの安全性と品質の目標を阻害している。
本研究では,対話型検索エンジンが参照するソースのランク付け順序に対するインジェクションのインジェクションの影響について検討する。
そこで本研究では,現実の消費者製品Webサイトの集中データセットを導入し,対話型検索ランキングを敵問題として定式化する。
実験により, 対向注入のない会話型検索ランキングを解析し, 製品名, 文書内容, コンテキスト位置の優先順位付けにおいて, 異なるLLMが著しく異なることを示す。
次に、低ランク製品を確実に促進する攻撃木ベースのジェイルブレイク手法を提案する。
重要なのは、これらの攻撃はPerplexity$のような最先端の会話検索エンジンに効果的に転送されることだ。
さようなら
ウェブサイト所有者が検索ランクを上げるための強力な金銭的インセンティブを考えると、我々の問題定式化は将来の堅牢性作業にとって重要であると論じる。
Major search engine providers are rapidly incorporating Large Language Model (LLM)-generated content in response to user queries. These conversational search engines operate by loading retrieved website text into the LLM context for summarization and interpretation. Recent research demonstrates that LLMs are highly vulnerable to jailbreaking and prompt injection attacks, which disrupt the safety and quality goals of LLMs using adversarial strings. This work investigates the impact of prompt injections on the ranking order of sources referenced by conversational search engines. To this end, we introduce a focused dataset of real-world consumer product websites and formalize conversational search ranking as an adversarial problem. Experimentally, we analyze conversational search rankings in the absence of adversarial injections and show that different LLMs vary significantly in prioritizing product name, document content, and context position. We then present a tree-of-attacks-based jailbreaking technique which reliably promotes low-ranked products. Importantly, these attacks transfer effectively to state-of-the-art conversational search engines such as perplexity$.$ai. Given the strong financial incentive for website owners to boost their search ranking, we argue that our problem formulation is of critical importance for future robustness work. | 翻訳日:2024-11-09 01:44:51 公開日:2024-09-25 |
# 畳み込みニューラルネットワークを用いた非ネイティブ手書き文字の分類
Classification of Non-native Handwritten Characters Using Convolutional Neural Network ( http://arxiv.org/abs/2406.04511v2 ) ライセンス: Link先を確認 | F. A. Mamun, S. A. H. Chowdhury, J. E. Giti, H. Sarker, | (参考訳) 畳み込みニューラルネットワーク(CNN)の使用により、手書き文字分類/認識の進展が加速した。
手書き文字認識(HCR)は、交通信号の検出、言語翻訳、文書情報の抽出など、様々な分野で応用されている。
しかし、既存のHCR技術が広く使われていることは、信頼性の高い文字認識を優れた精度で提供していないため、まだ見受けられていない。
信頼できないHCRの理由の1つは、既存のHCRメソッドが非ネイティブな作者の手書きスタイルを考慮に入れていないことである。
したがって、重要なタスクに対する文字認識技術の信頼性と広範な展開を保証するために、さらなる改善が必要である。
本研究では,非ネイティブユーザによる英語文字の分類について,カスタマイズされたCNNモデルを提案する。
我々はこのCNNを、HIECデータセットと呼ばれる新しいデータセットでトレーニングする。
このデータセットは、260人から集められた16,496枚の画像で構成されている。
本稿では、HIECデータセットの最適モデルを特定するために、ハイパーパラメータを調整することで、我々のCNNのアブレーション研究についても述べる。
提案モデルでは5つの畳み込み層と1つの隠蔽層が文字認識精度で最先端モデルより優れ、$\mathbf{97.04}$%の精度が得られる。
第2のモデルと比較して、分類精度の点で、我々のモデルの相対的な改善は$\mathbf{4.38}$%である。
The use of convolutional neural networks (CNNs) has accelerated the progress of handwritten character classification/recognition. Handwritten character recognition (HCR) has found applications in various domains, such as traffic signal detection, language translation, and document information extraction. However, the widespread use of existing HCR technology is yet to be seen as it does not provide reliable character recognition with outstanding accuracy. One of the reasons for unreliable HCR is that existing HCR methods do not take the handwriting styles of non-native writers into account. Hence, further improvement is needed to ensure the reliability and extensive deployment of character recognition technologies for critical tasks. In this work, the classification of English characters written by non-native users is performed by proposing a custom-tailored CNN model. We train this CNN with a new dataset called the handwritten isolated English character (HIEC) dataset. This dataset consists of 16,496 images collected from 260 persons. This paper also includes an ablation study of our CNN by adjusting hyperparameters to identify the best model for the HIEC dataset. The proposed model with five convolutional layers and one hidden layer outperforms state-of-the-art models in terms of character recognition accuracy and achieves an accuracy of $\mathbf{97.04}$%. Compared with the second-best model, the relative improvement of our model in terms of classification accuracy is $\mathbf{4.38}$%. | 翻訳日:2024-11-09 01:44:51 公開日:2024-09-25 |
# Bits-to-Photon: 直接レンダリングのためのエンドツーエンド学習型スケーラブルポイントクラウド圧縮
Bits-to-Photon: End-to-End Learned Scalable Point Cloud Compression for Direct Rendering ( http://arxiv.org/abs/2406.05915v2 ) ライセンス: Link先を確認 | Yueyu Hu, Ran Gong, Yao Wang, | (参考訳) ポイントクラウドは、新興AR/VRアプリケーションにおけるボリュームストリーミングのための有望な3D表現である。
ポイントクラウド圧縮の最近の進歩にもかかわらず、圧縮された圧縮されたポイントクラウドから高品質なイメージをデコードしてレンダリングすることは、品質と複雑さという点で依然として困難であり、リアルタイムの6自由度ビデオストリーミングを実現するための大きな障害となっている。
本稿では,レンダリング可能な3Dガウスアンに直接デコード可能なビットストリームを生成するポイントクラウド圧縮スキームを開発することにより,この問題に対処する。
エンコーダとデコーダは、ビットレートとレンダリング品質の両方を考慮するように共同最適化されている。
既存のポイントクラウド圧縮手法と比較して、デコードやレンダリング時間を大幅に削減しながら、レンダリング品質を大幅に改善する。
さらに、提案手法はスケーラブルなビットストリームを生成し、異なるビットレート範囲で複数の詳細レベルを実現する。
提案手法は,高品質な点雲のリアルタイムカラーデコーディングとレンダリングをサポートし,自由視点でインタラクティブな3Dストリーミングアプリケーションを実現する。
Point cloud is a promising 3D representation for volumetric streaming in emerging AR/VR applications. Despite recent advances in point cloud compression, decoding and rendering high-quality images from lossy compressed point clouds is still challenging in terms of quality and complexity, making it a major roadblock to achieve real-time 6-Degree-of-Freedom video streaming. In this paper, we address this problem by developing a point cloud compression scheme that generates a bit stream that can be directly decoded to renderable 3D Gaussians. The encoder and decoder are jointly optimized to consider both bit-rates and rendering quality. It significantly improves the rendering quality while substantially reducing decoding and rendering time, compared to existing point cloud compression methods. Furthermore, the proposed scheme generates a scalable bit stream, allowing multiple levels of details at different bit-rate ranges. Our method supports real-time color decoding and rendering of high quality point clouds, thus paving the way for interactive 3D streaming applications with free view points. | 翻訳日:2024-11-09 01:44:51 公開日:2024-09-25 |
# 離散時間におけるアクティブ推論の簡潔な数学的記述
A Concise Mathematical Description of Active Inference in Discrete Time ( http://arxiv.org/abs/2406.07726v2 ) ライセンス: Link先を確認 | Jesse van Oostrum, Carlotta Langer, Nihat Ay, | (参考訳) 本稿では,離散時間における能動推論の簡潔な数学的記述について述べる。
本論文の主部は、アクション選択の理論を詳述した詳細な例を含む、このトピックの基本的紹介として機能する。
付録では、より微妙な数学的詳細が議論されている。
この部分は、既に活発な推論文学を研究しているが、数学的詳細や導出を理解するのに苦労している読者を対象としている。
写本全体を通して、標準的な数学的テキストと正確かつ一致した表記法を採用することに特に注意が払われている。
すべての方程式と導出は、トピック上の他の人気のあるテキストの特定の方程式数に関連付けられている。
さらに,本論文で記述したアクション選択機構を実装し,pymdp環境と互換性を持つPythonコードも提供される。
In this paper we present a concise mathematical description of active inference in discrete time. The main part of the paper serves as a basic introduction to the topic, including a detailed example illustrating the theory on action selection. In the appendix the more subtle mathematical details are discussed. This part is aimed at readers who have already studied the active inference literature but struggle to make sense of the mathematical details and derivations. Throughout the whole manuscript, special attention has been paid to adopting notation that is both precise and in line with standard mathematical texts. All equations and derivations are linked to specific equation numbers in other popular text on the topic. Furthermore, Python code is provided that implements the action selection mechanism described in this paper and is compatible with pymdp environments. | 翻訳日:2024-11-09 01:33:31 公開日:2024-09-25 |
# 科学の酒のためのブラックボックスを解説する: 生成人工知能時代の科学的方法
Explain the Black Box for the Sake of Science: the Scientific Method in the Era of Generative Artificial Intelligence ( http://arxiv.org/abs/2406.10557v3 ) ライセンス: Link先を確認 | Gianmarco Mengaldo, | (参考訳) 科学的手法は、人間の身体の理解から宇宙の仕組みの説明に至るまで、自然科学と応用科学のすべての分野における人間の進歩の基盤となっている。
科学的手法は、実験的な証拠を通じて検証できる再現可能な方法で興味の現象を記述する体系的な規則や原則を識別することに基づいている。
人工知能(AI)の時代、AIシステムが新しい知識を発見する方法について議論がある。
我々は、人類の科学的発見のための複雑な推論が、少なくとも人工知能の出現以前には重要な存在であると主張している。
しかし、AIは説明可能なAIを介して科学的発見に活用することができる。
具体的には、決定を下す上で重要なデータAIシステムが何かを知ることは、ドメインの専門家や科学者との接触点になり得る。
ダイバージェントな見解は、新たな科学的知識に繋がるさらなる科学的調査を引き起こす可能性がある。
The scientific method is the cornerstone of human progress across all branches of the natural and applied sciences, from understanding the human body to explaining how the universe works. The scientific method is based on identifying systematic rules or principles that describe the phenomenon of interest in a reproducible way that can be validated through experimental evidence. In the era of artificial intelligence (AI), there are discussions on how AI systems may discover new knowledge. We argue that human complex reasoning for scientific discovery remains of vital importance, at least before the advent of artificial general intelligence. Yet, AI can be leveraged for scientific discovery via explainable AI. More specifically, knowing what data AI systems deemed important to make decisions can be a point of contact with domain experts and scientists, that can lead to divergent or convergent views on a given scientific problem. Divergent views may spark further scientific investigations leading to new scientific knowledge. | 翻訳日:2024-11-09 01:33:31 公開日:2024-09-25 |
# 科学的概念の理解を促進する:教師モデルからのアナロジーは学生モデルに有効か?
Boosting Scientific Concepts Understanding: Can Analogy from Teacher Models Empower Student Models? ( http://arxiv.org/abs/2406.11375v2 ) ライセンス: Link先を確認 | Siyu Yuan, Cheng Jiayang, Lin Qiu, Deqing Yang, | (参考訳) アナロジカル推論は人間の認知において重要な役割を担い、慣れ親しんだ概念と結びつけて新しい概念を理解することができる。
AIコミュニティにおけるこれまでの研究は、主にアナログを識別して生成し、その品質を人間の評価の下で調べることに重点を置いており、現実の環境でこれらのアナログの実践的応用を見落としている。
本稿では,教師言語モデル(LM)が生み出したアナロジーが,理科概念の理解において学生のLMをどのように支援し,実践的なシナリオとより緊密に整合させるかを検討する。
以上の結果から,自由形式類似は概念理解におけるLMの助けとなることが示唆された。
さらに、学生のLMが生成したアナロジーは、科学的な質問応答における自身のパフォーマンスを改善し、自己学習の新しい知識にアナロジーを使用する能力を示すことができる。
リソースはhttps://github.com/siyuyuan/SCUA.comで入手できる。
Analogical reasoning plays a critical role in human cognition, enabling us to understand new concepts by associating them with familiar ones. Previous research in the AI community has mainly focused on identifying and generating analogies and then examining their quality under human evaluation, which overlooks the practical application of these analogies in real-world settings. Inspired by the human education process, in this paper, we propose to investigate how analogies created by teacher language models (LMs) can assist student LMs in understanding scientific concepts, thereby aligning more closely with practical scenarios. Our results suggest that free-form analogies can indeed aid LMs in understanding concepts. Additionally, analogies generated by student LMs can improve their own performance on scientific question answering, demonstrating their capability to use analogies for self-learning new knowledge. Resources are available at https://github.com/siyuyuan/SCUA. | 翻訳日:2024-11-09 01:22:29 公開日:2024-09-25 |
# TroL: 大規模言語とビジョンモデルのためのレイヤのトラバース
TroL: Traversal of Layers for Large Language and Vision Models ( http://arxiv.org/abs/2406.12246v3 ) ライセンス: Link先を確認 | Byung-Kwan Lee, Sangyun Chung, Chae Won Kim, Beomchan Park, Yong Man Ro, | (参考訳) 大規模言語と視覚モデル(LLVM)は、大規模言語モデル(LLM)の一般化力と視覚的インストラクションチューニングの出現によって駆動されている。
これらのモデルを直接スケールアップすることで、LLVMはさまざまなタスクを自然言語命令でカバーすることで、強力なビジョン言語(VL)のパフォーマンスを誇示することができる。
しかし、GPT-4VのようなクローズドソースのLLVMと互換性のある既存のLLVMは、層数が多すぎる(例:26B、34B、110Bパラメータ)。
これらの大きなモデルは、トレーニングと推論の両方に費用がかかるハイエンドのリソースを必要とします。
この問題に対処するため、トークン的にレイヤを再利用可能な、1.8B, 3.8B, 7B LLMモデルサイズを持つLLVMファミリー、Traversal of Layers (TroL)を提案する。
この層トラバース技術は、応答ストリームを振り返り、追跡する効果をシミュレートし、さらに多くの層を追加せずに前方伝播層の数を増やします。
我々は,TroLが単純なレイヤトラバースアプローチを採用しながら,より大きなモデルサイズでオープンソースLLVMを効率よく上回り,かなりのサイズでクローズドソースLLVMのパフォーマンスに匹敵することを示した。
Large language and vision models (LLVMs) have been driven by the generalization power of large language models (LLMs) and the advent of visual instruction tuning. Along with scaling them up directly, these models enable LLVMs to showcase powerful vision language (VL) performances by covering diverse tasks via natural language instructions. However, existing open-source LLVMs that perform comparably to closed-source LLVMs such as GPT-4V are often considered too large (e.g., 26B, 34B, and 110B parameters), having a larger number of layers. These large models demand costly, high-end resources for both training and inference. To address this issue, we present a new efficient LLVM family with 1.8B, 3.8B, and 7B LLM model sizes, Traversal of Layers (TroL), which enables the reuse of layers in a token-wise manner. This layer traversing technique simulates the effect of looking back and retracing the answering stream while increasing the number of forward propagation layers without physically adding more layers. We demonstrate that TroL employs a simple layer traversing approach yet efficiently outperforms the open-source LLVMs with larger model sizes and rivals the performances of the closed-source LLVMs with substantial sizes. | 翻訳日:2024-11-09 01:22:29 公開日:2024-09-25 |
# SPL:大規模言語モデルによる学習のためのソクラテス的プレイグラウンド
SPL: A Socratic Playground for Learning Powered by Large Language Model ( http://arxiv.org/abs/2406.13919v4 ) ライセンス: Link先を確認 | Liang Zhang, Jionghao Lin, Ziyi Kuang, Sheng Xu, Xiangen Hu, | (参考訳) 対話型知能学習システム(ITS)は,対話型対話における高度な人間の学習戦略を自動化し,適応的かつパーソナライズされた学習を実現している。
しかし、専門家によるコミュニケーションの微妙なパターンを再現することは、自然言語処理(NLP)の課題である。
NLPの最近の進歩、特にOpenAIのGPT-4のようなLarge Language Models(LLMs)は、広範な事前訓練された知識に基づいて、人間のような、コンテキスト対応の応答を提供することによって、有望なソリューションを提供する。
本研究は,学習者間の批判的思考を促進するために,GPT-4モデルを用いた対話型教材であるSPL(Socratic Playground for Learning)を導入する。
広範なプロンプトエンジニアリングにより、SPLは特定の学習シナリオを生成し、効率的なマルチターン学習対話を容易にする。
SPLシステムは、個人のニーズに合わせてパーソナライズされた適応的な学習体験を強化することを目的としており、特に批判的思考スキルの改善に焦点を当てている。
筆者らは,エッセイ作成タスクによる実験実験の結果,SPLが学習者間の相互作用を改善し,対話に基づくIT機能をさらに強化する可能性を実証した。
SPLによって実証された本研究は,LLMが対話型ITSをいかに拡張し,教育技術のアクセシビリティと有効性を高めるかを示す。
Dialogue-based Intelligent Tutoring Systems (ITSs) have significantly advanced adaptive and personalized learning by automating sophisticated human tutoring strategies within interactive dialogues. However, replicating the nuanced patterns of expert human communication remains a challenge in Natural Language Processing (NLP). Recent advancements in NLP, particularly Large Language Models (LLMs) such as OpenAI's GPT-4, offer promising solutions by providing human-like and context-aware responses based on extensive pre-trained knowledge. Motivated by the effectiveness of LLMs in various educational tasks (e.g., content creation and summarization, problem-solving, and automated feedback provision), our study introduces the Socratic Playground for Learning (SPL), a dialogue-based ITS powered by the GPT-4 model, which employs the Socratic teaching method to foster critical thinking among learners. Through extensive prompt engineering, SPL can generate specific learning scenarios and facilitates efficient multi-turn tutoring dialogues. The SPL system aims to enhance personalized and adaptive learning experiences tailored to individual needs, specifically focusing on improving critical thinking skills. Our pilot experimental results from essay writing tasks demonstrate SPL has the potential to improve tutoring interactions and further enhance dialogue-based ITS functionalities. Our study, exemplified by SPL, demonstrates how LLMs enhance dialogue-based ITSs and expand the accessibility and efficacy of educational technologies. | 翻訳日:2024-11-09 01:22:29 公開日:2024-09-25 |
# これは悪いテーブルか? テキストからテーブル生成を評価する
Is This a Bad Table? A Closer Look at the Evaluation of Table Generation from Text ( http://arxiv.org/abs/2406.14829v2 ) ライセンス: Link先を確認 | Pritika Ramu, Aparna Garimella, Sambaran Bandyopadhyay, | (参考訳) 生成したテーブルが高品質であるかどうかを理解するためには、自動メソッドを使用して文書の作成や編集に使用することが重要である。
本研究では,テーブル品質評価のための既存の尺度では,テーブルの全体的意味を捉えることができず,時に良いテーブルを不公平に罰し,悪いテーブルに報いる。
本研究では,まずテーブルを自然言語のアトミックステートメントのリストに分解してテーブルの意味を抽出し,それに基づいて基本真理文と比較するテーブル評価戦略であるTabEvalを提案する。
提案手法を検証するために,既存のデータセットの限られた範囲とは対照的に,多種多様なウィキペディアテーブルのテキスト記述からなるデータセットをキュレートした。
本研究では,TabEvalを教師なしおよび教師なしのテキスト・ツー・テーブル生成手法を用いて既存のメトリクスと比較し,テーブル品質の人為的判断と4つのデータセット間の相関性を示す。
Understanding whether a generated table is of good quality is important to be able to use it in creating or editing documents using automatic methods. In this work, we underline that existing measures for table quality evaluation fail to capture the overall semantics of the tables, and sometimes unfairly penalize good tables and reward bad ones. We propose TabEval, a novel table evaluation strategy that captures table semantics by first breaking down a table into a list of natural language atomic statements and then compares them with ground truth statements using entailment-based measures. To validate our approach, we curate a dataset comprising of text descriptions for 1,250 diverse Wikipedia tables, covering a range of topics and structures, in contrast to the limited scope of existing datasets. We compare TabEval with existing metrics using unsupervised and supervised text-to-table generation methods, demonstrating its stronger correlation with human judgments of table quality across four datasets. | 翻訳日:2024-11-09 01:10:29 公開日:2024-09-25 |
# DemoRank: ランク付けタスクにおける大規模言語モデルの効果的なデモを選択する
DemoRank: Selecting Effective Demonstrations for Large Language Models in Ranking Task ( http://arxiv.org/abs/2406.16332v2 ) ライセンス: Link先を確認 | Wenhan Liu, Yutao Zhu, Zhicheng Dou, | (参考訳) 近年,大型言語モデル (LLM) をゼロショットパスローダとして採用することへの関心が高まっている。
しかし、この論文の焦点である通過ランキングタスクに対して、適切な文脈内デモンストレーションを選択する方法を検討する研究はほとんどない。
従来の研究では、主にLLMのフィードバックを使って、デモ選択のためのレトリバーを訓練していた。
これらの研究は、LLMを用いて各デモンストレーションを独立にスコア付けし、デモ間の依存関係(特にランキングタスクにおいて重要な)を無視して、トップ$k$検索されたデモの性能が劣る。
この問題を軽減するために、検索したデモをリランクするデモ・リランカを導入し、上位の$kがICLに適しているようにします。
しかし、そのようなリランカのためのトレーニングデータを生成することは極めて困難である。
一方、デモレトリバーとは異なり、rerankerのトレーニングサンプルは、デモ依存関係を組み込む必要がある。
一方、検索したデモからゴールドランキングを取得することはNPハード問題であり、実装は困難である。
これらの課題を克服するために、最適なデモリストを反復的に近似する手法を提案し、LLMを用いて様々な長さのデモリストをスコアリングする。
これにより、検索スペースが大幅に削減され、実演依存性が考慮される。
得られた実演リストに基づいて、前回の実演でのみ異なるリストのペアを比較して、前回の列から次の実演を選択する方法をリランカに教えるリストペアワイズ・トレーニング・アプローチをさらに設計する。
本稿では,評価タスクのためのデモ選択フレームワークであるDemoRankを提案し,その強みを証明するために広範囲な実験を行う。
Recently, there has been increasing interest in applying large language models (LLMs) as zero-shot passage rankers. However, few studies have explored how to select appropriate in-context demonstrations for the passage ranking task, which is the focus of this paper. Previous studies mainly use LLM's feedback to train a retriever for demonstration selection. These studies apply the LLM to score each demonstration independently, which ignores the dependencies between demonstrations (especially important in ranking task), leading to inferior performance of top-$k$ retrieved demonstrations. To mitigate this issue, we introduce a demonstration reranker to rerank the retrieved demonstrations so that top-$k$ ranked ones are more suitable for ICL. However, generating training data for such reranker is quite challenging. On the one hand, different from demonstration retriever, the training samples of reranker need to incorporate demonstration dependencies. On the other hand, obtaining the gold ranking from the retrieved demonstrations is an NP-hard problem, which is hard to implement. To overcome these challenges, we propose a method to approximate the optimal demonstration list iteratively and utilize LLM to score demonstration lists of varying lengths. By doing so, the search space is greatly reduced and demonstration dependencies are considered. Based on these scored demonstration lists, we further design a list-pairwise training approach which compares a pair of lists that only differ in the last demonstration, to teach the reranker how to select the next demonstration given a previous sequence. In this paper, we propose a demonstration selection framework DemoRank for ranking task and conduct extensive experiments to prove its strong ability. | 翻訳日:2024-11-09 01:10:29 公開日:2024-09-25 |
# 単体テスト生成における大規模言語モデルの評価について
On the Evaluation of Large Language Models in Unit Test Generation ( http://arxiv.org/abs/2406.18181v2 ) ライセンス: Link先を確認 | Lin Yang, Chen Yang, Shutao Gao, Weijing Wang, Bo Wang, Qihao Zhu, Xiao Chu, Jianyi Zhou, Guangtai Liang, Qianxiang Wang, Junjie Chen, | (参考訳) 単体テストは、ソフトウェアコンポーネントの正しさを検証するために、ソフトウェア開発において不可欠な活動である。
しかし、手動でユニットテストを書くのは難しく、時間がかかる。
LLM(Large Language Models)の出現は、ユニットテスト生成を自動化するための新しい方向性を提供する。
既存の研究は主に、固定的なプロンプト戦略を持つクローズドソースのLLM(例:ChatGPT、CodeX)に焦点を当てており、様々なプロンプト設定が探索されていない先進的なオープンソースLLMの能力を残している。
特に、オープンソースのLLMは、データプライバシ保護のアドバンテージを提供し、いくつかのタスクにおいて優れたパフォーマンスを示している。
さらに、LLMの能力を最大化するためには、効果的なプロンプトが不可欠である。
本稿では、このギャップを埋めるための最初の実証的研究を行い、17のJavaプロジェクト、異なる構造とパラメータサイズを持つ5つの広く使われているオープンソースLCM、そして包括的な評価指標について述べる。
本研究は, 各種要因の有意な影響, GPT-4 や従来の Evosuite と比較してオープンソース LLM の性能を示すとともに, LLM による単体テスト生成の限界を明らかにすることを目的としている。
そこで本研究では,LLMを用いたユニット・テスト・ジェネレーションの今後の研究と実用化を導くために,本研究から一連の意味を導出する。
Unit testing is an essential activity in software development for verifying the correctness of software components. However, manually writing unit tests is challenging and time-consuming. The emergence of Large Language Models (LLMs) offers a new direction for automating unit test generation. Existing research primarily focuses on closed-source LLMs (e.g., ChatGPT and CodeX) with fixed prompting strategies, leaving the capabilities of advanced open-source LLMs with various prompting settings unexplored. Particularly, open-source LLMs offer advantages in data privacy protection and have demonstrated superior performance in some tasks. Moreover, effective prompting is crucial for maximizing LLMs' capabilities. In this paper, we conduct the first empirical study to fill this gap, based on 17 Java projects, five widely-used open-source LLMs with different structures and parameter sizes, and comprehensive evaluation metrics. Our findings highlight the significant influence of various prompt factors, show the performance of open-source LLMs compared to the commercial GPT-4 and the traditional Evosuite, and identify limitations in LLM-based unit test generation. We then derive a series of implications from our study to guide future research and practical use of LLM-based unit test generation. | 翻訳日:2024-11-09 01:10:29 公開日:2024-09-25 |
# LiverUSRecon : 超音波検査による肝の3次元自動再建と体積測定
LiverUSRecon: Automatic 3D Reconstruction and Volumetry of the Liver with a Few Partial Ultrasound Scans ( http://arxiv.org/abs/2406.19336v3 ) ライセンス: Link先を確認 | Kaushalya Sivayogaraj, Sahan T. Guruge, Udari Liyanage, Jeevani Udupihille, Saroj Jayasinghe, Gerard Fernando, Ranga Rodrigo, M. Rukshani Liyanaarachchi, | (参考訳) 質的解析と疾患診断には肝の3次元再構築が重要である。
超音波(US)スキャンを用いた肝容積検査は、取得時間と安全性が低いため有利であるが、USスキャンの本質的なノイズ、ぼやけた境界、部分的な肝可視性により困難である。
肝のCTスキャンを用いて構築した統計的形状モデル (SSM) と合わせて, 肝の非完全矢状面USスキャンのセグメンテーションマスクを用いて, これらの課題に対処する。
我々は、この標準SSMを演算し、パラメトリック回帰ネットワークを介してUSスキャンに適合させるために必要な形状パラメータを計算した。
3次元肝再建は正確であり,自動肝体積計算に繋がる。
RMSEを用いてCTの分画量に対する肝体積推定値の精度を評価した。
p-value of 0.094 (>0.05) says that no significant difference between CT segmentation volume and ours in contrast with Childs' method。
我々は,US画像の解像度,SSMに使用されるCTスキャン数,主成分数,US画像の入力数に関する調査(アブレーション研究)を用いて,本手法を検証した。
我々の知る限り、これはSSM用の肝臓のCTスキャンを施した、いくつかの不完全なUSスキャンを用いた初めての自動肝容積検査システムである。
3D reconstruction of the liver for volumetry is important for qualitative analysis and disease diagnosis. Liver volumetry using ultrasound (US) scans, although advantageous due to less acquisition time and safety, is challenging due to the inherent noisiness in US scans, blurry boundaries, and partial liver visibility. We address these challenges by using the segmentation masks of a few incomplete sagittal-plane US scans of the liver in conjunction with a statistical shape model (SSM) built using a set of CT scans of the liver. We compute the shape parameters needed to warp this canonical SSM to fit the US scans through a parametric regression network. The resulting 3D liver reconstruction is accurate and leads to automatic liver volume calculation. We evaluate the accuracy of the estimated liver volumes with respect to CT segmentation volumes using RMSE. Our volume computation is statistically much closer to the volume estimated using CT scans than the volume computed using Childs' method by radiologists: p-value of 0.094 (>0.05) says that there is no significant difference between CT segmentation volumes and ours in contrast to Childs' method. We validate our method using investigations (ablation studies) on the US image resolution, the number of CT scans used for SSM, the number of principal components, and the number of input US scans. To the best of our knowledge, this is the first automatic liver volumetry system using a few incomplete US scans given a set of CT scans of livers for SSM. | 翻訳日:2024-11-09 00:59:29 公開日:2024-09-25 |
# SimTxtSeg: シンプルテキストキューによる医療画像の断片化
SimTxtSeg: Weakly-Supervised Medical Image Segmentation with Simple Text Cues ( http://arxiv.org/abs/2406.19364v3 ) ライセンス: Link先を確認 | Yuxin Xie, Tao Zhou, Yi Zhou, Geng Chen, | (参考訳) 重度管理された医用画像のセグメンテーションは,セグメンテーション性能を維持しつつ,アノテーションのコスト削減を目的とした課題である。
本稿では,単純なテキストキューを活用して高品質な擬似ラベルを生成する新しいフレームワーク,SimTxtSegを提案し,訓練セグメンテーションモデルにおけるクロスモーダル融合を同時に研究する。
提案するコントリビューションは,医用画像上のテキストプロンプトから視覚的プロンプトを生成するテキスト・ツー・ビジュアル・キュー・コンバータと,テキストと画像の特徴を融合したテキスト・ビジョン・ハイブリッド・アテンションを用いたテキスト誘導セグメンテーション・モデルである。
我々は,大腸ポリープ・セグメンテーションとMRI脳腫瘍セグメンテーションという2つの医療画像セグメンテーションの枠組みを評価し,一貫した最先端性能を実現する。
ソースコードは、https://github.com/xyx1024/SimTxtSeg.comで入手できる。
Weakly-supervised medical image segmentation is a challenging task that aims to reduce the annotation cost while keep the segmentation performance. In this paper, we present a novel framework, SimTxtSeg, that leverages simple text cues to generate high-quality pseudo-labels and study the cross-modal fusion in training segmentation models, simultaneously. Our contribution consists of two key components: an effective Textual-to-Visual Cue Converter that produces visual prompts from text prompts on medical images, and a text-guided segmentation model with Text-Vision Hybrid Attention that fuses text and image features. We evaluate our framework on two medical image segmentation tasks: colonic polyp segmentation and MRI brain tumor segmentation, and achieve consistent state-of-the-art performance. Source code is available at: https://github.com/xyx1024/SimTxtSeg. | 翻訳日:2024-11-09 00:59:29 公開日:2024-09-25 |
# マルチスケール脳モデルへの微分可能なアプローチ
A Differentiable Approach to Multi-scale Brain Modeling ( http://arxiv.org/abs/2406.19708v3 ) ライセンス: Link先を確認 | Chaoming Wang, Muyang Lyu, Tianqiu Zhang, Sichao He, Si Wu, | (参考訳) 本稿では,脳のシミュレーションを精度の高い勾配に基づく最適化と組み合わせた独自の脳シミュレータBrainPyを用いた,マルチスケールの微分脳モデリングワークフローを提案する。
我々は、異なる脳スケールでBrainPyのこの能力を活用します。
単一ニューロンレベルでは、微分可能なニューロンモデルを実装し、電気生理学的データへの適合を最適化するために勾配法を用いる。
ネットワークレベルでは、生物学的に制約されたネットワークモデルを構築するためにコネクトロミックデータを組み込む。
最後に、動物行動の再現を目的として、勾配に基づく学習規則を用いて、これらのモデルを認知タスクで訓練する。
実験により, 一般化されたインテリジェンス・アンド・ファイアとホジキン・ハクスリー単一ニューロンモデルに適合させることで, より優れた性能と速度が得られることを示した。
さらに、生物学的にインフォームドされた興奮性および抑制性スパイキングニューロンのネットワークをトレーニングし、観察された神経活動とシナプスの重量分布を正常に再現する。
全体として、我々の異なるマルチスケールのシミュレーションアプローチは、電気生理学的、解剖学的、行動的スケールにまたがる神経科学データを橋渡しする有望なツールを提供する。
We present a multi-scale differentiable brain modeling workflow utilizing BrainPy, a unique differentiable brain simulator that combines accurate brain simulation with powerful gradient-based optimization. We leverage this capability of BrainPy across different brain scales. At the single-neuron level, we implement differentiable neuron models and employ gradient methods to optimize their fit to electrophysiological data. On the network level, we incorporate connectomic data to construct biologically constrained network models. Finally, to replicate animal behavior, we train these models on cognitive tasks using gradient-based learning rules. Experiments demonstrate that our approach achieves superior performance and speed in fitting generalized leaky integrate-and-fire and Hodgkin-Huxley single neuron models. Additionally, training a biologically-informed network of excitatory and inhibitory spiking neurons on working memory tasks successfully replicates observed neural activity and synaptic weight distributions. Overall, our differentiable multi-scale simulation approach offers a promising tool to bridge neuroscience data across electrophysiological, anatomical, and behavioral scales. | 翻訳日:2024-11-09 00:59:29 公開日:2024-09-25 |
# バングラ語大言語モデルにおける社会バイアス : ジェンダーと宗教バイアスに関する実証的研究
Social Bias in Large Language Models For Bangla: An Empirical Study on Gender and Religious Bias ( http://arxiv.org/abs/2407.03536v2 ) ライセンス: Link先を確認 | Jayanta Sadhu, Maneesha Rani Saha, Rifat Shahriyar, | (参考訳) 大規模言語モデル(LLM)の急速な成長は、バイアスの研究を重要な分野として前進させてきた。
LLMに埋め込まれた様々な種類のバイアスの影響を評価することが重要であり、センシティブな分野における公正な利用を保証することが重要である。
英語には偏見評価に関する広範な研究があるが、バングラ語のような主要言語にとって、そのような取り組みは稀で不十分である。
本研究では,LLMが生成するバングラ語に対する2種類の社会的バイアスについて検討する。
本研究の主な貢献は,(1)バングラの2つの異なる社会的バイアスに関するバイアス研究 (2) バイアス測定ベンチマークのためのキュレートされたデータセット (3) バングラの文脈における2つの異なるバイアス検出手法をテストする。
これは、バングラのLLMのバイアス評価を私たちの知識の最大限に活用する、この種の研究としては初めてのものです。
すべてのコードとリソースは、Bangla NLPにおけるバイアス関連研究の進展のために公開されています。
The rapid growth of Large Language Models (LLMs) has put forward the study of biases as a crucial field. It is important to assess the influence of different types of biases embedded in LLMs to ensure fair use in sensitive fields. Although there have been extensive works on bias assessment in English, such efforts are rare and scarce for a major language like Bangla. In this work, we examine two types of social biases in LLM generated outputs for Bangla language. Our main contributions in this work are: (1) bias studies on two different social biases for Bangla (2) a curated dataset for bias measurement benchmarking (3) testing two different probing techniques for bias detection in the context of Bangla. This is the first work of such kind involving bias assessment of LLMs for Bangla to the best of our knowledge. All our code and resources are publicly available for the progress of bias related research in Bangla NLP. | 翻訳日:2024-11-09 00:59:29 公開日:2024-09-25 |
# AFIDAF: ViT におけるアテンションの効率的な代替手段としてのフーリエと画像ドメイン適応フィルタの代替
AFIDAF: Alternating Fourier and Image Domain Adaptive Filters as an Efficient Alternative to Attention in ViTs ( http://arxiv.org/abs/2407.12217v2 ) ライセンス: Link先を確認 | Yunling Zheng, Zeyi Xu, Fanghui Xue, Biao Yang, Jiancheng Lyu, Shuai Zhang, Yingyong Qi, Jack Xin, | (参考訳) 本稿では,視覚バックボーン構築の代替として,特徴抽出のためのFourier と Image Domain Filtering の交互なアプローチを提案する。
軽量モデル間の性能は、ImageNet-1K分類の最先端レベルに達し、オブジェクト検出やセグメンテーションの下流タスクも一貫して改善する。
我々のアプローチは、視覚変換器(ViT)を圧縮するための新しいツールとしても機能する。
We propose and demonstrate an alternating Fourier and image domain filtering approach for feature extraction as an efficient alternative to build a vision backbone without using the computationally intensive attention. The performance among the lightweight models reaches the state-of-the-art level on ImageNet-1K classification, and improves downstream tasks on object detection and segmentation consistently as well. Our approach also serves as a new tool to compress vision transformers (ViTs). | 翻訳日:2024-11-08 20:48:00 公開日:2024-09-25 |
# クロスモーダル画像-テキスト検索のためのオブジェクト認識クエリ摂動
Object-Aware Query Perturbation for Cross-Modal Image-Text Retrieval ( http://arxiv.org/abs/2407.12346v2 ) ライセンス: Link先を確認 | Naoya Sogi, Takashi Shibata, Makoto Terao, | (参考訳) 事前学習された視覚と言語(V\&L)モデルは、クロスモーダル画像テキスト検索の性能を大幅に改善した。
しかしながら、V\&Lモデルは、画像内の単語と小さなオブジェクトとの粗いアライメントのため、小さなオブジェクトに対して限られた検索性能を有する。
対照的に、人間の認知は対象中心であり、たとえ小さいとしても重要な対象にもっと注意を払うことが知られている。
人間の認識とV\&Lモデルの能力のギャップを埋めるために,<object-aware query perturbation>に基づく画像テキスト検索フレームワークを提案する。
提案手法は,検出対象の重要な特徴部分空間を生成し,この部分空間を用いて対応するクエリを摂動することで,画像内のオブジェクト認識を改善する。
提案手法では、既存のV\&Lモデルのリッチな表現力と検索性能を維持しつつ、追加の微調整を行わずにオブジェクト認識のクロスモーダル画像テキスト検索が可能となる。
4つの公開データセットの総合的な実験により,本手法が従来のアルゴリズムより優れていることが示された。
我々のコードは \url{https://github.com/NEC-N-SOGI/query-perturbation} で公開されている。
The pre-trained vision and language (V\&L) models have substantially improved the performance of cross-modal image-text retrieval. In general, however, V\&L models have limited retrieval performance for small objects because of the rough alignment between words and the small objects in the image. In contrast, it is known that human cognition is object-centric, and we pay more attention to important objects, even if they are small. To bridge this gap between the human cognition and the V\&L model's capability, we propose a cross-modal image-text retrieval framework based on ``object-aware query perturbation.'' The proposed method generates a key feature subspace of the detected objects and perturbs the corresponding queries using this subspace to improve the object awareness in the image. In our proposed method, object-aware cross-modal image-text retrieval is possible while keeping the rich expressive power and retrieval performance of existing V\&L models without additional fine-tuning. Comprehensive experiments on four public datasets show that our method outperforms conventional algorithms. Our code is publicly available at \url{https://github.com/NEC-N-SOGI/query-perturbation}. | 翻訳日:2024-11-08 20:36:48 公開日:2024-09-25 |
# 三元認証方式による複数要素認証の代替
An Alternative to Multi-Factor Authentication with a Triple-Identity Authentication Scheme ( http://arxiv.org/abs/2407.19459v4 ) ライセンス: Link先を確認 | Suyun Borjigin, | (参考訳) 既存の認証システムは、外部と対話するための2つのエントリポイント(ユーザー名とパスワードフィールド)を持っているが、どちらもゲートキーパーを持っておらず、サイバー攻撃に脆弱である。
認証のセキュリティを確保するため、システムは第3のエントリポイントを設定し、外部のMFAサービスを使用して保護する。
問題の要点は、システムには、個人情報を使わずにユーザー名やパスワードに識別子を定義できないため、独自のエントリポイントを保護する内部メカニズムがないことである。
この問題を解決するために,2パスワードログイン認証システムのハッシュアルゴリズムを3つのログイン認証に開放する。
したがって、アルゴリズムの中間要素を使用して、システムのエントリポイント毎のユーザIDを検証する識別子を定義することができる。
この設定の結果、三値認証が確立され、その鍵となるのは、容易に利用できるユーザのログイン名とパスワードが無意味なハッシュ要素のマトリックスにランダムに変換され、隠蔽され、通信不能で、アクセス不能で、個人情報から独立していることである。
したがって、そのような要素を用いて定義された識別子は、システムの全てのエントリポイントにおいてユーザのIDを検証するためにシステムによって利用することができ、MFAサービスに頼ることなく認証セキュリティを確保することができる。
The existing authentication system has two entry points (i.e., username and password fields) to interact with the outside, but neither of them has a gatekeeper, making the system vulnerable to cyberattacks. In order to ensure the authentication security, the system sets a third entry point and use an external MFA service to guard it. The crux of the problem is that the system has no internal mechanism to guard its own entry points as no identifiers can be defined for the username and password without using any personal information. To solve this problem, we open the hash algorithm of a dual-password login-authentication system to three login credentials. Therefore, the intermediate elements of the algorithm can be used to define an identifier to verify the user identity at each entry point of the system. As a result of the above setup, a triple-identity authentication is established, the key of which is that the readily available user's login name and password are randomly converted into a matrix of meaningless hash elements which are concealed, incommunicable, inaccessible, and independent of personal information. So the identifiers defined using such elements can be used by the system to verify the identities of the user at all the entry points of the system, thereby ensuring the authentication security without relying on MFA services. | 翻訳日:2024-11-08 14:38:53 公開日:2024-09-25 |
# メロディ変化と機能表現による感情駆動型メロディ調和
Emotion-Driven Melody Harmonization via Melodic Variation and Functional Representation ( http://arxiv.org/abs/2407.20176v2 ) ライセンス: Link先を確認 | Jingyue Huang, Yi-Hsuan Yang, | (参考訳) 感情駆動のメロディ調和は、望ましい感情を伝えるために、1つのメロディのための多様なハーモニーを生成することを目的としている。
これまでの研究では、メロディ自体の制約と既存の音楽表現の制限に起因して、異なるコードで同じメロディを調和させることで、リードシートの知覚的価値を変えることは困難であった。
本稿では,シンボリック音楽の新たな機能表現を提案する。
この新しい手法は、音楽のキーを考慮に入れ、音楽の感情的性格を大小音節を通して形作る上で重要な役割を担っている。
また、キーに関するメロディックなバリエーションを可能にし、データ不足の問題に対処して、より良い感情モデリングを可能にする。
トランスフォーマーは、キー適応可能なメロディを調和させるために使用され、ルールベースまたはモデルベースで決定されるキーを可能にする。
実験により,キー認識調和生成における新しい表現の有効性が確認され,目的的,主観的評価により,多目的メロディの特定の価度を伝達するアプローチの可能性が確認された。
Emotion-driven melody harmonization aims to generate diverse harmonies for a single melody to convey desired emotions. Previous research found it hard to alter the perceived emotional valence of lead sheets only by harmonizing the same melody with different chords, which may be attributed to the constraints imposed by the melody itself and the limitation of existing music representation. In this paper, we propose a novel functional representation for symbolic music. This new method takes musical keys into account, recognizing their significant role in shaping music's emotional character through major-minor tonality. It also allows for melodic variation with respect to keys and addresses the problem of data scarcity for better emotion modeling. A Transformer is employed to harmonize key-adaptable melodies, allowing for keys determined in rule-based or model-based manner. Experimental results confirm the effectiveness of our new representation in generating key-aware harmonies, with objective and subjective evaluations affirming the potential of our approach to convey specific valence for versatile melody. | 翻訳日:2024-11-08 14:16:02 公開日:2024-09-25 |
# MLLMは強力なリランカ:知識強化とノイズ注入によるマルチモーダル検索強化ジェネレーションの強化
MLLM Is a Strong Reranker: Advancing Multimodal Retrieval-augmented Generation via Knowledge-enhanced Reranking and Noise-injected Training ( http://arxiv.org/abs/2407.21439v2 ) ライセンス: Link先を確認 | Zhanpeng Chen, Chengjin Xu, Yiyan Qi, Jian Guo, | (参考訳) MLLM(Multimodal Large Language Models)は、複数のデータモダリティにまたがるコンテンツの処理と生成において顕著な能力を示す。
しかし、MLLMの重大な欠点は、静的トレーニングデータへの依存であり、時代遅れの情報と文脈認識の制限につながる。
この静的な性質は、特に動的または急速に進化するコンテキストにおいて、正確で最新の応答を提供する能力を損なう。
Multimodal Retrieval-augmented Generation (Multimodal RAG)の統合は有望な解決策を提供するが、システムは必然的にMNC問題に遭遇し、正確な検索と生成を妨げている。
本研究では,これらの制約に対処するために,知識強化されたリグレードとノイズ注入型トレーニングを備えた新しいフレームワークであるRagVLを提案する。
我々はMLLMに簡単な命令テンプレートを付け、そのランク付け能力を誘導し、トップkから取得した画像を正確にフィルタするリランカとして機能させる。
例えば、データとトークンレベルでのトレーニング中に視覚ノイズを注入して、ジェネレータの堅牢性を高める。
与えられた問合せに答えるために画像の検索と推論を必要とする2つのデータセットのサブセットに関する大規模な実験により、本手法の有効性が検証された。
コードとモデルはhttps://github.com/IDEA-FinAI/RagVL.comで入手できる。
Multimodal Large Language Models (MLLMs) have demonstrated remarkable capabilities in processing and generating content across multiple data modalities. However, a significant drawback of MLLMs is their reliance on static training data, leading to outdated information and limited contextual awareness. This static nature hampers their ability to provide accurate and up-to-date responses, particularly in dynamic or rapidly evolving contexts. Though integrating Multimodal Retrieval-augmented Generation (Multimodal RAG) offers a promising solution, the system would inevitably encounter the multi-granularity noisy correspondence (MNC) problem, which hinders accurate retrieval and generation. In this work, we propose RagVL, a novel framework with knowledge-enhanced reranking and noise-injected training, to address these limitations. We instruction-tune the MLLM with a simple yet effective instruction template to induce its ranking ability and serve it as a reranker to precisely filter the top-k retrieved images. For generation, we inject visual noise during training at the data and token levels to enhance the generator's robustness. Extensive experiments on the subsets of two datasets that require retrieving and reasoning over images to answer a given query verify the effectiveness of our method. Code and models are available at https://github.com/IDEA-FinAI/RagVL. | 翻訳日:2024-11-08 13:51:33 公開日:2024-09-25 |
# StreetSurfaceVis:道路面のタイプと品質を付加したクラウドソーシングストリートレベルの画像データセット
StreetSurfaceVis: a dataset of crowdsourced street-level imagery annotated by road surface type and quality ( http://arxiv.org/abs/2407.21454v3 ) ライセンス: Link先を確認 | Alexandra Kapp, Edith Hoffmann, Esther Weigmann, Helena Mihaljević, | (参考訳) 道路の不均一性は、交通参加者の安全と快適性、特にサイクリストや車椅子利用者のような脆弱なグループに大きな影響を及ぼす。
クラウドソーシングプラットフォームから収集した9,122枚の街路レベルの画像からなる新しいデータセットであるStreetSurfaceVisを導入し,道路表面のタイプと品質を手動でアノテートした。
不均一なデータセットを構築することにより、多様な画像ソース間で高い精度を維持する堅牢なモデルの実現を目指している。
道路表面のタイプや品質の頻度分布は極めて不均衡であるので,様々な外部ラベル予測資源を取り入れて,手動アノテーションを低減しつつ,クラスごとの十分な画像を確保するサンプリング戦略を提案する。
より正確には,(1)OpenStreetMapタグによる画像データの充実,(2)カスタムサーフェス型分類モデルの反復的訓練と適用,(3)GPT-4oによる即時分類による未表現クラス増幅,(4)画像埋め込みを用いた類似性検索の影響を推定する。
これらの戦略を組み合わせることで、十分なクラス表現を確保しながら、手動のアノテーションの作業量を効果的に削減できる。
Road unevenness significantly impacts the safety and comfort of traffic participants, especially vulnerable groups such as cyclists and wheelchair users. To train models for comprehensive road surface assessments, we introduce StreetSurfaceVis, a novel dataset comprising 9,122 street-level images mostly from Germany collected from a crowdsourcing platform and manually annotated by road surface type and quality. By crafting a heterogeneous dataset, we aim to enable robust models that maintain high accuracy across diverse image sources. As the frequency distribution of road surface types and qualities is highly imbalanced, we propose a sampling strategy incorporating various external label prediction resources to ensure sufficient images per class while reducing manual annotation. More precisely, we estimate the impact of (1) enriching the image data with OpenStreetMap tags, (2) iterative training and application of a custom surface type classification model, (3) amplifying underrepresented classes through prompt-based classification with GPT-4o and (4) similarity search using image embeddings. Combining these strategies effectively reduces manual annotation workload while ensuring sufficient class representation. | 翻訳日:2024-11-08 13:51:33 公開日:2024-09-25 |
# 映像の接触同定における自己監督モデルの有効性
How Effective are Self-Supervised Models for Contact Identification in Videos ( http://arxiv.org/abs/2408.00498v2 ) ライセンス: Link先を確認 | Malitha Gunawardhana, Limalka Sadith, Liel David, Daniel Harari, Muhammad Haris Khan, | (参考訳) 自己監視学習(SSL)モデルによるビデオコンテンツの探索は、この領域に固有の複雑な課題とユニークな機会の両方を強調する、ダイナミックな研究分野を明らかにした。
研究の活発化にもかかわらず、ビデオ内の物理的接触を検出するSSLモデルの能力は、特に線形探索による下流監視やフル微調整といった手法の有効性について、まだ明らかになっていない。
この研究は、8つの異なる畳み込みニューラルネットワーク(CNN)ベースのビデオSSLモデルを使用することで、このギャップを埋めることを目的としている。
Some-Something v2 (SSv2) と Epic-Kitchen (EK-100) データセットは、UCF101 と HMDB51 の有望な結果と、SSv2 と EK-100 の限定的な事前評価により、これらのアプローチを評価するために選ばれた。
さらに、これらのデータセットは多様な環境とシナリオを備えており、ビデオベースのモデルの堅牢性と正確性をテストするのに不可欠である。
本手法では, 物理接触認識における各モデルの有効性だけでなく, 下流作業における動作認識の性能についても検討する。
これにより、複雑な動的視覚情報を解釈するSSLモデルの適応性に関する貴重な洞察が貢献される。
The exploration of video content via Self-Supervised Learning (SSL) models has unveiled a dynamic field of study, emphasizing both the complex challenges and unique opportunities inherent in this area. Despite the growing body of research, the ability of SSL models to detect physical contacts in videos remains largely unexplored, particularly the effectiveness of methods such as downstream supervision with linear probing or full fine-tuning. This work aims to bridge this gap by employing eight different convolutional neural networks (CNNs) based video SSL models to identify instances of physical contact within video sequences specifically. The Something-Something v2 (SSv2) and Epic-Kitchen (EK-100) datasets were chosen for evaluating these approaches due to the promising results on UCF101 and HMDB51, coupled with their limited prior assessment on SSv2 and EK-100. Additionally, these datasets feature diverse environments and scenarios, essential for testing the robustness and accuracy of video-based models. This approach not only examines the effectiveness of each model in recognizing physical contacts but also explores the performance in the action recognition downstream task. By doing so, valuable insights into the adaptability of SSL models in interpreting complex, dynamic visual information are contributed. | 翻訳日:2024-11-08 13:29:21 公開日:2024-09-25 |
# SCOI: 機械翻訳のための構文拡張被覆型インコンテキスト例選択
SCOI: Syntax-augmented Coverage-based In-context Example Selection for Machine Translation ( http://arxiv.org/abs/2408.04872v2 ) ライセンス: Link先を確認 | Chenming Tang, Zhixiang Wang, Yunfang Wu, | (参考訳) In-context Learning (ICL) は、様々なダウンストリームタスクにおける大規模言語モデル(LLM)の性能を大幅に改善する。
そこで本研究では,機械翻訳(MT)のための文脈内サンプルの選択に統語的知識を導入する。
従来の単語マッチングを超越した深い構文構造を生かし,構文拡張型コベレージに基づく文脈内サンプル選択(SCOI)を提案する。
具体的には,単純なツリー・ツー・ポリーノミカル・アルゴリズムの助けを借りて,多項式項のカバレッジを計算し,単語重なりによる語彙的カバレッジを計測する。
さらに,構文情報と語彙情報を利用して,双方のカバレッジ対策を組み合わせるための代替選択手法を考案した。
我々は6つの翻訳方向で2つの多言語LLMを用いて実験を行う。
実験の結果,提案したSCOIは,すべての学習自由メソッドの中で,平均COMETスコアが最も高く,構文的および語彙的カバレッジを組み合わせることで,MTのテキスト内サンプルの選択に有効であることが示唆された。コードについてはhttps://github.com/JamyDon/SCOIで公開されている。
In-context learning (ICL) greatly improves the performance of large language models (LLMs) on various down-stream tasks, where the improvement highly depends on the quality of demonstrations. In this work, we introduce syntactic knowledge to select better in-context examples for machine translation (MT). We propose a new strategy, namely Syntax-augmented COverage-based In-context example selection (SCOI), leveraging the deep syntactic structure beyond conventional word matching. Specifically, we measure the set-level syntactic coverage by computing the coverage of polynomial terms with the help of a simplified tree-to-polynomial algorithm, and lexical coverage using word overlap. Furthermore, we devise an alternate selection approach to combine both coverage measures, taking advantage of syntactic and lexical information. We conduct experiments with two multi-lingual LLMs on six translation directions. Empirical results show that our proposed SCOI obtains the highest average COMET score among all learning-free methods, indicating that combining syntactic and lexical coverage successfully helps to select better in-context examples for MT. Our code is available at https://github.com/JamyDon/SCOI. | 翻訳日:2024-11-08 12:11:36 公開日:2024-09-25 |
# 追加正規化トピックモデルの反復的改善
Iterative Improvement of an Additively Regularized Topic Model ( http://arxiv.org/abs/2408.05840v3 ) ライセンス: Link先を確認 | Alex Gorbulev, Vasiliy Alekseev, Konstantin Vorontsov, | (参考訳) トピックモデリングは、基本的にはソフトなクラスタリングの問題である(既知のオブジェクト -- ドキュメント、未知のクラスタ -- トピック)。
つまり、そのタスクは正しくない。
特に、トピックモデルは不安定で不完全です。
これらすべてが、優れたトピックモデル(反復的ハイパーパラメータ選択、モデルトレーニング、トピック品質評価)を見つけるプロセスが特に長く、労働集約的であるという事実につながります。
私たちはプロセスを単純化し、決定論的かつ証明しやすくすることを目指しています。
そこで本研究では,トピックモデルの反復的学習手法を提案する。
この手法の本質は、一連の関連するトピックモデルがトレーニングされ、後続のモデルが少なくとも以前のモデル、すなわち、より早く見つかった良いトピックを全て保持するように訓練されることである。
モデル間の接続は加法正規化によって達成される。
この反復学習の結果、シリーズの最後のトピックモデルとなり、反復的に更新された追加正規化トピックモデル(ITAR)と呼ばれる。
いくつかの自然言語テキストのコレクションで実施された実験によると、提案されたITARモデルは、他の一般的なトピックモデル(LDA、ARTM、BERTopic)よりもパフォーマンスが良く、トピックは多様であり、その難易度(基礎となるデータを"説明"する能力)は適度である。
Topic modelling is fundamentally a soft clustering problem (of known objects -- documents, over unknown clusters -- topics). That is, the task is incorrectly posed. In particular, the topic models are unstable and incomplete. All this leads to the fact that the process of finding a good topic model (repeated hyperparameter selection, model training, and topic quality assessment) can be particularly long and labor-intensive. We aim to simplify the process, to make it more deterministic and provable. To this end, we present a method for iterative training of a topic model. The essence of the method is that a series of related topic models are trained so that each subsequent model is at least as good as the previous one, i.e., that it retains all the good topics found earlier. The connection between the models is achieved by additive regularization. The result of this iterative training is the last topic model in the series, which we call the iteratively updated additively regularized topic model (ITAR). Experiments conducted on several collections of natural language texts show that the proposed ITAR model performs better than other popular topic models (LDA, ARTM, BERTopic), its topics are diverse, and its perplexity (ability to "explain" the underlying data) is moderate. | 翻訳日:2024-11-08 11:49:24 公開日:2024-09-25 |
# Math-PUMA: 数学的推論を促進するための前進的上向き多モーダルアライメント
Math-PUMA: Progressive Upward Multimodal Alignment to Enhance Mathematical Reasoning ( http://arxiv.org/abs/2408.08640v2 ) ライセンス: Link先を確認 | Wenwen Zhuang, Xin Huang, Xiantao Zhang, Jin Zeng, | (参考訳) MLLM(Multimodal Large Language Models)は、テキストベースの数学的問題を解くのに優れているが、主に自然のシーンイメージに基づいて訓練されているため、数学的図形に苦しむ。
人間にとって、視覚補助は一般的に問題解決を促進するが、MLLMは、情報がテキストから視覚的モダリティへと変化するにつれて、さらに悪化する。
この減少は、主に画像とテキストの整列に欠点があるためである。
上記の課題に対処するため,プログレッシブ・アップワード・マルチモーダルアライメントに着目したMath-PUMAを提案する。
このアプローチは、3段階のトレーニングプロセスを通じてMLLMの数学的推論スキルを向上させるために設計されており、第2段階が臨界アライメントステージである。
まず,言語モデルの数学的推論能力を,幅広いテキスト数学的問題を用いて拡張する。
次に,テキストおよび視覚情報の程度が異なるマルチモーダルデータセットを構築し,各問題を少なくとも2つの形式で提示することで,データペアを作成する。
Kullback-Leibler (KL) の次点予測分布のばらつきを利用して、視覚的およびテキスト的モダリティを整列させることにより、一貫した問題解決能力を確保できる。
最後に,高品質なマルチモーダルデータを用いたMLLMのマルチモーダル命令チューニングを行う。
複数の数学的推論ベンチマークの実験結果は、Math-PUMAで訓練されたMLLMが、ほとんどのオープンソースMLLMを上回っていることを示している。
提案手法は, 異なるモダリティで表される問題に対して, 性能ギャップを効果的に狭める。
コードとデータは以下の通りである。 \url{https://github.com/wwzhuang01/Math-PUMA}。
Multimodal Large Language Models (MLLMs) excel in solving text-based mathematical problems, but they struggle with mathematical diagrams since they are primarily trained on natural scene images. For humans, visual aids generally enhance problem-solving, but MLLMs perform worse as information shifts from textual to visual modality. This decline is mainly due to their shortcomings in aligning images and text. To tackle aforementioned challenges, we propose Math-PUMA, a methodology focused on Progressive Upward Multimodal Alignment. This approach is designed to improve the mathematical reasoning skills of MLLMs through a three-stage training process, with the second stage being the critical alignment stage. We first enhance the language model's mathematical reasoning capabilities with extensive set of textual mathematical problems. We then construct a multimodal dataset with varying degrees of textual and visual information, creating data pairs by presenting each problem in at least two forms. By leveraging the Kullback-Leibler (KL) divergence of next-token prediction distributions to align visual and textual modalities, consistent problem-solving abilities are ensured. Finally, we utilize multimodal instruction tuning for MLLMs with high-quality multimodal data. Experimental results on multiple mathematical reasoning benchmarks demonstrate that the MLLMs trained with Math-PUMA surpass most open-source MLLMs. Our approach effectively narrows the performance gap for problems presented in different modalities. The code and data are available at: \url{https://github.com/wwzhuang01/Math-PUMA}. | 翻訳日:2024-11-08 07:18:07 公開日:2024-09-25 |
# 機械学習による巨大衝撃シミュレーションの高速化
Accelerating Giant Impact Simulations with Machine Learning ( http://arxiv.org/abs/2408.08873v2 ) ライセンス: Link先を確認 | Caleb Lammers, Miles Cranmer, Sam Hadden, Shirley Ho, Norman Murray, Daniel Tamayo, | (参考訳) 観測された太陽系外惑星の人口に基づく惑星形成モデルの制約は、計算的に禁忌である合成惑星系の大量のサンプルを生成する必要がある。
重要なボトルネックは、惑星の胚が重力的に進化して惑星を形成する巨大な衝突フェーズをシミュレートすることである。
巨大衝突シミュレーションを高速化するために,多惑星系における衝突結果を予測する機械学習(ML)手法を提案する。
3つの惑星系を50万ドル以上でシミュレーションし、衝突した惑星と衝突した惑星の状態を正確に予測できるMLモデルを開発した。
我々のモデルは、どの惑星が衝突を経験するかを正確に予測するのに苦労するダイナミクス理論のメトリクスに依存する非MLベースラインを大幅に改善する。
長期安定性を予測するモデルと組み合わせることで、MLベースの巨大衝撃エミュレータを作成し、妥当な精度と最大4桁のスピードアップで巨大衝撃シミュレーションの結果を予測することができる。
我々のモデルは、他の方法では計算可能でない分析を可能にすることを期待している。
そのため、私たちは、衝突結果モデルと巨大な衝撃エミュレータのための使いやすいAPIとともに、トレーニングコードをリリースしています。
Constraining planet formation models based on the observed exoplanet population requires generating large samples of synthetic planetary systems, which can be computationally prohibitive. A significant bottleneck is simulating the giant impact phase, during which planetary embryos evolve gravitationally and combine to form planets, which may themselves experience later collisions. To accelerate giant impact simulations, we present a machine learning (ML) approach to predicting collisional outcomes in multiplanet systems. Trained on more than 500,000 $N$-body simulations of three-planet systems, we develop an ML model that can accurately predict which two planets will experience a collision, along with the state of the post-collision planets, from a short integration of the system's initial conditions. Our model greatly improves on non-ML baselines that rely on metrics from dynamics theory, which struggle to accurately predict which pair of planets will experience a collision. By combining with a model for predicting long-term stability, we create an ML-based giant impact emulator, which can predict the outcomes of giant impact simulations with reasonable accuracy and a speedup of up to four orders of magnitude. We expect our model to enable analyses that would not otherwise be computationally feasible. As such, we release our training code, along with an easy-to-use API for our collision outcome model and giant impact emulator. | 翻訳日:2024-11-08 07:07:05 公開日:2024-09-25 |
# スコットランドの伝統カーリングにおけるバーチャルリアリティにおける大規模言語モデルの有用性と拡張性の評価
Evaluating Usability and Engagement of Large Language Models in Virtual Reality for Traditional Scottish Curling ( http://arxiv.org/abs/2408.09285v2 ) ライセンス: Link先を確認 | Ka Hei Carrie Lau, Efe Bozkir, Hong Gao, Enkelejda Kasneci, | (参考訳) 本稿では,バーチャルリアリティ(VR)環境におけるLarge Language Models (LLMs) の革新的応用を考察し,<Scottish Bonspiel VR' ゲームにおける伝統的なスコットランドのカーリングに着目した。
本研究では, LLMベースのチャットボットと事前に定義されたスクリプトチャットボットの有効性を比較し, ユーザビリティ, ユーザエンゲージメント, 学習結果などの重要な基準を評価する。
その結果,LLMベースのチャットボットは対話性やエンゲージメントを著しく向上させ,よりダイナミックで没入的な学習環境を実現することがわかった。
この統合は、環境の変化の中で無形文化財(ICH)の保護に不可欠である文化遺産の文書化と保存を支援し、普及プロセスを強化する。
さらに,文化遺産のより深い評価を促進する没入的な体験を提供する教育における新しい技術の可能性を強調した。
これらの知見は、グローバルな課題に対処し、文化遺産の保存と強化のための持続可能な実践を促進するために、文化教育におけるLLMとVRの幅広い応用を支援する。
This paper explores the innovative application of Large Language Models (LLMs) in Virtual Reality (VR) environments to promote heritage education, focusing on traditional Scottish curling presented in the game ``Scottish Bonspiel VR''. Our study compares the effectiveness of LLM-based chatbots with pre-defined scripted chatbots, evaluating key criteria such as usability, user engagement, and learning outcomes. The results show that LLM-based chatbots significantly improve interactivity and engagement, creating a more dynamic and immersive learning environment. This integration helps document and preserve cultural heritage and enhances dissemination processes, which are crucial for safeguarding intangible cultural heritage (ICH) amid environmental changes. Furthermore, the study highlights the potential of novel technologies in education to provide immersive experiences that foster a deeper appreciation of cultural heritage. These findings support the wider application of LLMs and VR in cultural education to address global challenges and promote sustainable practices to preserve and enhance cultural heritage. | 翻訳日:2024-11-08 07:07:05 公開日:2024-09-25 |
# 表現を用いたインテクスト学習:訓練された変圧器の文脈一般化
In-Context Learning with Representations: Contextual Generalization of Trained Transformers ( http://arxiv.org/abs/2408.10147v2 ) ライセンス: Link先を確認 | Tong Yang, Yu Huang, Yingbin Liang, Yuejie Chi, | (参考訳) In-context Learning (ICL) は、事前訓練された大規模言語モデルの顕著な能力を指し、推論のいくつかの例から新しいタスクを学習することができる。
しかし、ICLの理論的理解は、特にトランスフォーマーがプロンプト内の見知らぬ例に一般化するように訓練できるかどうかがほとんど未解明であり、このモデルが一般化のためのプロンプトの文脈的知識を取得する必要がある。
本稿では,非線形回帰タスクのレンズによる勾配降下による変圧器のトレーニングダイナミクスについて検討する。
ここでの文脈一般化は、すべてのテンプレート関数が$m$基底関数を持つ線型空間にある各タスクのコンテキスト内でテンプレート関数を学ぶことによって達成できる。
本研究では,一層型マルチヘッドトランスのトレーニングダイナミクスを解析し,部分的にラベル付けされたプロンプトが与えられたラベル付き入力をテキストで予測し,ガウス雑音を含むラベルと各プロンプトの例数でテンプレートを決定するのに十分ではないことを示す。
軽微な仮定では, 1層マルチヘッドトランスのトレーニング損失は, 大域的最小値に線形に収束する。
さらに、変換器は、基底関数よりもリッジ回帰を効果的に行うことを学習する。
我々の知る限り、この研究はトランスフォーマーが文脈情報(テンプレート)を学習し、プロンプトが少数の問合せ-問合せペアのみを含む場合に、見知らぬ例とタスクの両方に一般化できる最初の証明可能な実証である。
In-context learning (ICL) refers to a remarkable capability of pretrained large language models, which can learn a new task given a few examples during inference. However, theoretical understanding of ICL is largely under-explored, particularly whether transformers can be trained to generalize to unseen examples in a prompt, which will require the model to acquire contextual knowledge of the prompt for generalization. This paper investigates the training dynamics of transformers by gradient descent through the lens of non-linear regression tasks. The contextual generalization here can be attained via learning the template function for each task in-context, where all template functions lie in a linear space with $m$ basis functions. We analyze the training dynamics of one-layer multi-head transformers to in-contextly predict unlabeled inputs given partially labeled prompts, where the labels contain Gaussian noise and the number of examples in each prompt are not sufficient to determine the template. Under mild assumptions, we show that the training loss for a one-layer multi-head transformer converges linearly to a global minimum. Moreover, the transformer effectively learns to perform ridge regression over the basis functions. To our knowledge, this study is the first provable demonstration that transformers can learn contextual (i.e., template) information to generalize to both unseen examples and tasks when prompts contain only a small number of query-answer pairs. | 翻訳日:2024-11-08 06:44:48 公開日:2024-09-25 |
# OAPT: JPEGアーチファクト削除のためのオフセット対応分割変換器
OAPT: Offset-Aware Partition Transformer for Double JPEG Artifacts Removal ( http://arxiv.org/abs/2408.11480v2 ) ライセンス: Link先を確認 | Qiao Mo, Yukang Ding, Jinhua Hao, Qiang Zhu, Ming Sun, Chao Zhou, Feiyu Chen, Shuyuan Zhu, | (参考訳) ディープラーニングベースの手法は、単一のJPEGアーティファクト削除タスクにおいて顕著なパフォーマンスを示している。
しかし、既存の手法は、現実のシナリオでよく見られる二重JPEGイメージで劣化する傾向にある。
この問題に対処するため,OAPTと呼ばれるJPEGアーティファクトの二重削除のためのオフセット・アウェア分割変換器を提案する。
我々は8×8ブロック毎に最大4パターンのJPEG圧縮を解析し、類似したパターンをクラスタ化して復元の困難を解消するモデルの設計を行う。
OAPTは圧縮オフセット予測器と画像再構成器の2つのコンポーネントから構成される。
具体的には、予測器は、第1と第2の圧縮の間の画素オフセットを推定し、異なるパターンを分割するために使用される。
コンストラクタは主に複数のハイブリッドパーティションアテンションブロック(HPAB)に基づいており、バニラウィンドウベースの自己アテンションと、クラスタ化されたパターンの特徴に対するスパースアテンションを組み合わせたものである。
OAPTは2つのJPEG画像復元タスクにおいて0.16dB以上の精度で最先端の手法より優れていることを示した。
さらに、計算コストを増大させることなく、HPABのパターンクラスタリングモジュールは、他のトランスフォーマーベースの画像復元方法を強化するプラグインとして機能することができる。
コードはhttps://github.com/QMoQ/OAPT.gitで入手できる。
Deep learning-based methods have shown remarkable performance in single JPEG artifacts removal task. However, existing methods tend to degrade on double JPEG images, which are prevalent in real-world scenarios. To address this issue, we propose Offset-Aware Partition Transformer for double JPEG artifacts removal, termed as OAPT. We conduct an analysis of double JPEG compression that results in up to four patterns within each 8x8 block and design our model to cluster the similar patterns to remedy the difficulty of restoration. Our OAPT consists of two components: compression offset predictor and image reconstructor. Specifically, the predictor estimates pixel offsets between the first and second compression, which are then utilized to divide different patterns. The reconstructor is mainly based on several Hybrid Partition Attention Blocks (HPAB), combining vanilla window-based self-attention and sparse attention for clustered pattern features. Extensive experiments demonstrate that OAPT outperforms the state-of-the-art method by more than 0.16dB in double JPEG image restoration task. Moreover, without increasing any computation cost, the pattern clustering module in HPAB can serve as a plugin to enhance other transformer-based image restoration methods. The code will be available at https://github.com/QMoQ/OAPT.git . | 翻訳日:2024-11-08 06:11:36 公開日:2024-09-25 |
# Vizier Gaussian Process Banditアルゴリズム
The Vizier Gaussian Process Bandit Algorithm ( http://arxiv.org/abs/2408.11527v2 ) ライセンス: Link先を確認 | Xingyou Song, Qiuyi Zhang, Chansoo Lee, Emily Fertig, Tzu-Kuo Huang, Lior Belenki, Greg Kochanski, Setareh Ariafar, Srinivas Vasudevan, Sagi Perel, Daniel Golovin, | (参考訳) Google Vizierは、数百万の最適化を実行し、Googleで多くのリサーチとプロダクションシステムを加速し、大規模サービスとしてのベイジアン最適化の成功を実証した。
長年にわたり、そのアルゴリズムは、多くの研究活動とユーザフィードバックの集合的な経験を通じて、大幅に改善されてきた。
本稿では,Open Source Vizierが提供するデフォルトアルゴリズムの実装詳細と設計選択について論じる。
標準化されたベンチマークに関する我々の実験は、複数の実践モードで確立された業界ベースラインに対する堅牢性と汎用性を明らかにする。
Google Vizier has performed millions of optimizations and accelerated numerous research and production systems at Google, demonstrating the success of Bayesian optimization as a large-scale service. Over multiple years, its algorithm has been improved considerably, through the collective experiences of numerous research efforts and user feedback. In this technical report, we discuss the implementation details and design choices of the current default algorithm provided by Open Source Vizier. Our experiments on standardized benchmarks reveal its robustness and versatility against well-established industry baselines on multiple practical modes. | 翻訳日:2024-11-08 06:11:36 公開日:2024-09-25 |
# MegaFake: 大規模言語モデルで生成されたフェイクニュースの理論駆動型データセット
MegaFake: A Theory-Driven Dataset of Fake News Generated by Large Language Models ( http://arxiv.org/abs/2408.11871v2 ) ライセンス: Link先を確認 | Lionel Z. Wang, Yiming Ma, Renfei Gao, Beichen Guo, Han Zhu, Wenqi Fan, Zexin Lu, Ka Chung Ng, | (参考訳) 大規模言語モデル(LLM)の出現は、オンラインコンテンツ作成に革命をもたらし、高品質のフェイクニュースを生成するのがずっと簡単になった。
この誤用は、私たちのデジタル環境と倫理基準の完全性を脅かす。
したがって、LLM生成フェイクニュースの背後にあるモチベーションやメカニズムを理解することが重要である。
本研究では,社会心理学の観点から偽ニュースの生成を分析し,総合的なLLM理論フレームワークであるLLM-Fake理論を開発した。
LLMを使って偽ニュースを自動生成する新しいパイプラインを導入し、手動のアノテーションを不要にする。
このパイプラインを利用することで、GossipCopデータセットから派生した理論的に情報を得たMachine生成Fakeニュースデータセット、MegaFakeを作成します。
我々はMegaFakeデータセットを評価するために包括的な分析を行う。
LLMの時代におけるフェイクニュースの検出とガバナンスに焦点をあてた今後の研究に、我々のデータセットと洞察が貴重な貢献をもたらすと信じている。
The advent of large language models (LLMs) has revolutionized online content creation, making it much easier to generate high-quality fake news. This misuse threatens the integrity of our digital environment and ethical standards. Therefore, understanding the motivations and mechanisms behind LLM-generated fake news is crucial. In this study, we analyze the creation of fake news from a social psychology perspective and develop a comprehensive LLM-based theoretical framework, LLM-Fake Theory. We introduce a novel pipeline that automates the generation of fake news using LLMs, thereby eliminating the need for manual annotation. Utilizing this pipeline, we create a theoretically informed Machine-generated Fake news dataset, MegaFake, derived from the GossipCop dataset. We conduct comprehensive analyses to evaluate our MegaFake dataset. We believe that our dataset and insights will provide valuable contributions to future research focused on the detection and governance of fake news in the era of LLMs. | 翻訳日:2024-11-08 06:00:03 公開日:2024-09-25 |
# RoboSense:マルチセンサ低速自動運転のための大規模データセットとベンチマーク
RoboSense: Large-scale Dataset and Benchmark for Multi-sensor Low-speed Autonomous Driving ( http://arxiv.org/abs/2408.15503v3 ) ライセンス: Link先を確認 | Haisheng Su, Feixiang Song, Cong Ma, Wei Wu, Junchi Yan, | (参考訳) 任意の視界下でのロバスト物体の検出と追跡は、自律走行車技術の発展に不可欠である。
無人機能車両の需要が高まる中、低速自動運転の分野では、近接場理解が重要な研究課題となっている。
運転条件の複雑さやブラインドスポットやハイオクルージョンなどの近接障害物の多様性のため、近接場環境の知覚能力は、その遠方に比べて依然として劣っている。
本稿では,無人車両の知的能力を高めるために,フレキシブルなセンサ構成をサポートする3種類のセンサ(Camera, LiDAR, Fisheye)をベースとしたマルチモーダルデータ収集プラットフォームを構築した。
一方、近場のシーン理解を容易にするために、RoboSenseという大規模なマルチセンサーデータセットが構築されている。
RoboSenseは、1.4Mの3Dバウンディングボックスを持つ133K以上の同期データと、完全な360^{\circ}$ビューに注釈付きIDを含み、7.6Kの時間シーケンスに216Kの軌道を形成する。
KITTIやnuScenesのような以前の単一車種データセットと同様に、5$m$以内のニアフィールド障害のアノテーションが270\times$と18\times$を持っている。
さらに,近距離場における3次元知覚と予測指標のマッチング基準を新たに定義する。
また,RoboSenseをベースとして,関連する研究の今後の発展を促進するために6つの一般的なタスクを定式化し,詳細なデータ分析やベンチマークも提供する。
コードとデータセットはhttps://github.com/suhaisheng/RoboSense.comで入手できる。
Robust object detection and tracking under arbitrary sight of view is challenging yet essential for the development of Autonomous Vehicle technology. With the growing demand of unmanned function vehicles, near-field scene understanding becomes an important research topic in the areas of low-speed autonomous driving. Due to the complexity of driving conditions and diversity of near obstacles such as blind spots and high occlusion, the perception capability of near-field environment is still inferior than its farther counterpart. To further enhance the intelligent ability of unmanned vehicles, in this paper, we construct a multimodal data collection platform based on 3 main types of sensors (Camera, LiDAR and Fisheye), which supports flexible sensor configurations to enable dynamic sight of view for ego vehicle, either global view or local view. Meanwhile, a large-scale multi-sensor dataset is built, named RoboSense, to facilitate near-field scene understanding. RoboSense contains more than 133K synchronized data with 1.4M 3D bounding box and IDs annotated in the full $360^{\circ}$ view, forming 216K trajectories across 7.6K temporal sequences. It has $270\times$ and $18\times$ as many annotations of near-field obstacles within 5$m$ as the previous single-vehicle datasets such as KITTI and nuScenes. Moreover, we define a novel matching criterion for near-field 3D perception and prediction metrics. Based on RoboSense, we formulate 6 popular tasks to facilitate the future development of related research, where the detailed data analysis as well as benchmarks are also provided accordingly. Code and dataset will be available at https://github.com/suhaisheng/RoboSense. | 翻訳日:2024-11-08 04:41:58 公開日:2024-09-25 |
# 拡散蒸留におけるより高速な収束軌道の構築
Distribution Backtracking Builds A Faster Convergence Trajectory for Diffusion Distillation ( http://arxiv.org/abs/2408.15991v2 ) ライセンス: Link先を確認 | Shengyuan Zhang, Ling Yang, Zejian Li, An Zhao, Chenye Meng, Changyuan Yang, Guang Yang, Zhiyuan Yang, Lingyun Sun, | (参考訳) 拡散モデルのサンプリング速度の加速は依然として大きな課題である。
近年のスコア蒸留法では, 重度教師モデルを学生生成装置に蒸留し, 学生モデルで生成したサンプル上での2つのスコア関数の差を計算し, 一段階生成を実現する。
しかし, 蒸留プロセスの初期段階において, 既存の方法では, 事前学習した拡散モデルの終点を教師モデルとして利用することに集中しており, 学生生成者と教師モデルとの収束軌跡の重要性を見越して, スコアミスマッチの問題が指摘されている。
この問題に対処するため,教師モデルの収束軌道全体を導入して,スコア蒸留プロセスを拡張し,分散バックトラック蒸留(DisBack)を提案する。
DisBaskは2つのステージで構成されている。
劣化記録は教師モデルの収束軌跡を得るために設計され、教師モデルから教師モデルから未学習の学生生成者への劣化経路を記録する。
劣化経路は教師モデルの中間分布を暗黙的に表現し、その逆は生徒生成器から教師モデルへの収束軌道と見なすことができる。
次に、Distributed Backtrackingは、学生ジェネレータにパスに沿って中間分布をバックトラックするように訓練し、教師モデルの収束軌跡を近似する。
大規模な実験により、DisBackは既存の蒸留法よりも高速で収束性が高く、ImageNet 64x64データセットのFIDスコアが1.38である。
特に、DisBackは実装が容易で、既存の蒸留方法に一般化してパフォーマンスを向上させることができる。
私たちのコードはhttps://github.com/SYZhang0805/DisBack.comで公開されています。
Accelerating the sampling speed of diffusion models remains a significant challenge. Recent score distillation methods distill a heavy teacher model into a student generator to achieve one-step generation, which is optimized by calculating the difference between the two score functions on the samples generated by the student model. However, there is a score mismatch issue in the early stage of the distillation process, because existing methods mainly focus on using the endpoint of pre-trained diffusion models as teacher models, overlooking the importance of the convergence trajectory between the student generator and the teacher model. To address this issue, we extend the score distillation process by introducing the entire convergence trajectory of teacher models and propose Distribution Backtracking Distillation (DisBack). DisBask is composed of two stages: Degradation Recording and Distribution Backtracking. Degradation Recording is designed to obtain the convergence trajectory of the teacher model, which records the degradation path from the trained teacher model to the untrained initial student generator. The degradation path implicitly represents the teacher model's intermediate distributions, and its reverse can be viewed as the convergence trajectory from the student generator to the teacher model. Then Distribution Backtracking trains a student generator to backtrack the intermediate distributions along the path to approximate the convergence trajectory of teacher models. Extensive experiments show that DisBack achieves faster and better convergence than the existing distillation method and accomplishes comparable generation performance, with FID score of 1.38 on ImageNet 64x64 dataset. Notably, DisBack is easy to implement and can be generalized to existing distillation methods to boost performance. Our code is publicly available on https://github.com/SYZhang0805/DisBack. | 翻訳日:2024-11-08 04:30:58 公開日:2024-09-25 |
# 大規模言語モデルを用いた自動ライブラリマイグレーション:最初の結果
Automatic Library Migration Using Large Language Models: First Results ( http://arxiv.org/abs/2408.16151v3 ) ライセンス: Link先を確認 | Aylton Almeida, Laerte Xavier, Marco Tulio Valente, | (参考訳) わずか数年前に導入されたが、Large Language Models (LLMs) はすでに開発者がコード生成に広く使用している。
しかしながら、他のソフトウェアエンジニアリング活動の自動化における彼らの応用は、まだほとんど未検討である。
そこで本研究では,ChatGPTを用いたAPIマイグレーションタスクのサポートについて検討している研究の最初の成果を報告する。
具体的には、我々は、ChatGPTを使用してクライアントアプリケーションを移行して、Pythonで広く使われているORM(Object Relational Mapping)ライブラリであるSQLAlchemyの新バージョンを使用するという、最初の結果を共有します。
我々は,3種類のプロンプト(ゼロショット,ワンショット,チェーン・オブ・シント)の使用を評価し,最も優れた結果がワンショットプロンプトによって達成され,その後にチェーン・オブ・シント(Chain Of Thoughts)が続くことを示す。
特にOne-Shotプロンプトを使えば、元のコード動作を保ちながら、ターゲットアプリケーションのすべての列を移行して、SQLAlchemyの最新バージョンで有効になった新機能(Pythonのasyncioや型付けモジュールなど)を使用するようにコードをアップグレードすることができました。
Despite being introduced only a few years ago, Large Language Models (LLMs) are already widely used by developers for code generation. However, their application in automating other Software Engineering activities remains largely unexplored. Thus, in this paper, we report the first results of a study in which we are exploring the use of ChatGPT to support API migration tasks, an important problem that demands manual effort and attention from developers. Specifically, in the paper, we share our initial results involving the use of ChatGPT to migrate a client application to use a newer version of SQLAlchemy, an ORM (Object Relational Mapping) library widely used in Python. We evaluate the use of three types of prompts (Zero-Shot, One-Shot, and Chain Of Thoughts) and show that the best results are achieved by the One-Shot prompt, followed by the Chain Of Thoughts. Particularly, with the One-Shot prompt we were able to successfully migrate all columns of our target application and upgrade its code to use new functionalities enabled by SQLAlchemy's latest version, such as Python's asyncio and typing modules, while preserving the original code behavior. | 翻訳日:2024-11-08 04:19:50 公開日:2024-09-25 |
# DroneWiS: 現実的な風条件下での小型無人航空システムの自動シミュレーション試験
DroneWiS: Automated Simulation Testing of small Unmanned Aerial Systems in Realistic Windy Conditions ( http://arxiv.org/abs/2408.16559v2 ) ライセンス: Link先を確認 | Bohan Zhang, Ankit Agrawal, | (参考訳) 小型無人航空システム(sUAS)の継続的な進化は、現実世界における安全で信頼性の高い運用を保証するために高度な試験手法を必要とする。
現実的な環境でのsUASシミュレーションテストの境界を推し進めるため、我々は以前DroneReqValidator (DRV)プラットフォームを開発した。
本稿では,Drone WiS(Drone Wind Simulation)と呼ばれる新しいコンポーネントを紹介するDRV 2.0を提案する。
DroneWiSは、sUAS開発者が現実的な風の条件を自動的にシミュレートし、sUASの風に対するレジリエンスをテストすることを可能にする。
基本的な風条件をシミュレートするGazeboやAirSimのような現在の最先端のシミュレーションツールとは異なり、DroneWiSは計算流体力学(CFD)を利用して、建物や不均一な地形などの環境における物体との風の相互作用に起因する一意の風の流れを計算する。
このシミュレーション機能は、難解で現実的な風の条件下でのsUASのナビゲーション能力について、開発者に深い洞察を提供する。
DroneWiSは、現実世界におけるsUASの信頼性と安全性をテスト、デバッグ、改善するための強力なツールをsUAS開発者に提供する。
動作デモはhttps://youtu.be/khBHEBST8Wcで公開されている。
The continuous evolution of small Unmanned Aerial Systems (sUAS) demands advanced testing methodologies to ensure their safe and reliable operations in the real-world. To push the boundaries of sUAS simulation testing in realistic environments, we previously developed the DroneReqValidator (DRV) platform, allowing developers to automatically conduct simulation testing in digital twin of earth. In this paper, we present DRV 2.0, which introduces a novel component called DroneWiS (Drone Wind Simulation). DroneWiS allows sUAS developers to automatically simulate realistic windy conditions and test the resilience of sUAS against wind. Unlike current state-of-the-art simulation tools such as Gazebo and AirSim that only simulate basic wind conditions, DroneWiS leverages Computational Fluid Dynamics (CFD) to compute the unique wind flows caused by the interaction of wind with the objects in the environment such as buildings and uneven terrains. This simulation capability provides deeper insights to developers about the navigation capability of sUAS in challenging and realistic windy conditions. DroneWiS equips sUAS developers with a powerful tool to test, debug, and improve the reliability and safety of sUAS in real-world. A working demonstration is available at https://youtu.be/khBHEBST8Wc | 翻訳日:2024-11-08 04:08:49 公開日:2024-09-25 |
# MAPF-GPT:マルチエージェントパスフィニングにおけるシミュレーション学習
MAPF-GPT: Imitation Learning for Multi-Agent Pathfinding at Scale ( http://arxiv.org/abs/2409.00134v3 ) ライセンス: Link先を確認 | Anton Andreychuk, Konstantin Yakovlev, Aleksandr Panov, Alexey Skrynnik, | (参考訳) MAPF(Multi-agent pathfinding)は、共有環境において、複数のエージェントの衝突のない経路を見つけるのが通常である、難しい計算問題である。
MAPFを最適に解くことはNPハードであるが、自動化された倉庫や輸送システムを含む多くのアプリケーションにとって非常に重要である。
近年、MAPFへの学習に基づくアプローチが注目されており、特に深層強化学習を活用している。
機械学習のトレンドに続き、MAPF-GPTと呼ばれるMAPF問題の基盤モデルを作成しました。
模擬学習を用いて、我々は、追加のヒューリスティックや報酬関数、他のエージェントとのコミュニケーションを伴わずに、部分観測可能性の条件下でアクションを生成可能な、事前コンパイルされた準最適専門家軌道のセットに関するポリシーを訓練した。
MAPF-GPTモデルは、トレーニングデータセットに存在しないMAPF問題インスタンスを解く際に、ゼロショット学習能力を示す。
MAPF-GPTは,多種多様な問題インスタンスにおいて,現在最も優れた学習可能なMAPFソルバよりも優れており,(推論モードにおいて)計算の面で効率がよいことを示す。
Multi-agent pathfinding (MAPF) is a challenging computational problem that typically requires to find collision-free paths for multiple agents in a shared environment. Solving MAPF optimally is NP-hard, yet efficient solutions are critical for numerous applications, including automated warehouses and transportation systems. Recently, learning-based approaches to MAPF have gained attention, particularly those leveraging deep reinforcement learning. Following current trends in machine learning, we have created a foundation model for the MAPF problems called MAPF-GPT. Using imitation learning, we have trained a policy on a set of pre-collected sub-optimal expert trajectories that can generate actions in conditions of partial observability without additional heuristics, reward functions, or communication with other agents. The resulting MAPF-GPT model demonstrates zero-shot learning abilities when solving the MAPF problem instances that were not present in the training dataset. We show that MAPF-GPT notably outperforms the current best-performing learnable-MAPF solvers on a diverse range of problem instances and is efficient in terms of computation (in the inference mode). | 翻訳日:2024-11-08 03:57:28 公開日:2024-09-25 |
# ガイド・アンド・リスケール:効果的なチューニング自由な実画像編集のためのセルフガイド機構
Guide-and-Rescale: Self-Guidance Mechanism for Effective Tuning-Free Real Image Editing ( http://arxiv.org/abs/2409.01322v3 ) ライセンス: Link先を確認 | Vadim Titov, Madina Khalmatova, Alexandra Ivanova, Dmitry Vetrov, Aibek Alanov, | (参考訳) 近年の大規模テキスト・画像生成モデルの発展にもかかわらず、実際の画像をこれらのモデルで操作することは難しい問題である。
既存の編集方法の主な制限は、入力画像のイメージ固有の外観を維持するために、幅広い画像編集において一貫した品質で実行できないか、あるいは時間を要するハイパーパラメータチューニングや拡散モデルの微調整を必要とすることである。
本稿では,誘導機構による拡散サンプリングプロセスの修正に基づく新しい手法を提案する。
本研究では,入力画像の全体構造と編集すべきでない局所的な外観を保存するための自己誘導技術について検討する。
特に,画像の局所的および大域的構造を保存することを目的としたレイアウト保存エネルギー関数を明示的に導入する。
さらに,本研究では,世代間における分類器フリーガイダンスとガイドの基準のバランスをとることで,雑音分布の保存を可能にするノイズ再スケーリング機構を提案する。
このような誘導的アプローチは、拡散モデルと正確な反転過程を微調整する必要はない。
その結果,提案手法は高速かつ高品質な編集機構を提供する。
本実験では,人為的評価と定量的解析により,提案手法により,人間に好適な編集が可能であり,原画像の編集品質と保存のトレードオフが良好であることを示す。
私たちのコードはhttps://github.com/MACderRu/Guide-and-Rescale.comで利用可能です。
Despite recent advances in large-scale text-to-image generative models, manipulating real images with these models remains a challenging problem. The main limitations of existing editing methods are that they either fail to perform with consistent quality on a wide range of image edits or require time-consuming hyperparameter tuning or fine-tuning of the diffusion model to preserve the image-specific appearance of the input image. We propose a novel approach that is built upon a modified diffusion sampling process via the guidance mechanism. In this work, we explore the self-guidance technique to preserve the overall structure of the input image and its local regions appearance that should not be edited. In particular, we explicitly introduce layout-preserving energy functions that are aimed to save local and global structures of the source image. Additionally, we propose a noise rescaling mechanism that allows to preserve noise distribution by balancing the norms of classifier-free guidance and our proposed guiders during generation. Such a guiding approach does not require fine-tuning the diffusion model and exact inversion process. As a result, the proposed method provides a fast and high-quality editing mechanism. In our experiments, we show through human evaluation and quantitative analysis that the proposed method allows to produce desired editing which is more preferable by humans and also achieves a better trade-off between editing quality and preservation of the original image. Our code is available at https://github.com/MACderRu/Guide-and-Rescale. | 翻訳日:2024-11-08 03:23:46 公開日:2024-09-25 |
# LLMのための認知ドメインのベンチマーク:台湾のハッカ文化から
Benchmarking Cognitive Domains for LLMs: Insights from Taiwanese Hakka Culture ( http://arxiv.org/abs/2409.01556v2 ) ライセンス: Link先を確認 | Chen-Chi Chang, Ching-Yuan Chen, Hung-Shin Lee, Chih-Cheng Lee, | (参考訳) 本研究では,大規模言語モデル(LLM)の文化的知識の理解と処理における性能を評価するための総合的なベンチマークについて紹介する。
ブルームの分類を利用して、この研究は6つの認知領域(記憶、理解、応用、分析、評価、創造)にわたるLSMを体系的に評価する多次元フレームワークを開発した。
このベンチマークは、事実の基本的なリコールから創造的合成のような高次認知タスクまで、文化的に特定のコンテンツを扱うLLMの能力をより深く分析することで、従来の単一次元評価を超えて拡張される。
さらに、LLMにおける少数派の文化的知識表現の課題に対処するために、検索・拡張生成(RAG)技術を統合し、RAGが関連する外部情報を動的に組み込むことによってモデルの性能をいかに向上させるかを実証した。
その結果,すべての認知領域,特に文化知識の正確な検索と応用を必要とするタスクにおいて,RAGの有効性が強調された。
しかし、この発見はまた、創造的なタスクにおけるRAGの限界を明らかにし、さらなる最適化の必要性を強調している。
このベンチマークは、文化的に多様な文脈でLLMを評価し、比較するための堅牢なツールを提供し、AIによる文化知識の保存と普及における将来の研究と開発のための貴重な洞察を提供する。
This study introduces a comprehensive benchmark designed to evaluate the performance of large language models (LLMs) in understanding and processing cultural knowledge, with a specific focus on Hakka culture as a case study. Leveraging Bloom's Taxonomy, the study develops a multi-dimensional framework that systematically assesses LLMs across six cognitive domains: Remembering, Understanding, Applying, Analyzing, Evaluating, and Creating. This benchmark extends beyond traditional single-dimensional evaluations by providing a deeper analysis of LLMs' abilities to handle culturally specific content, ranging from basic recall of facts to higher-order cognitive tasks such as creative synthesis. Additionally, the study integrates Retrieval-Augmented Generation (RAG) technology to address the challenges of minority cultural knowledge representation in LLMs, demonstrating how RAG enhances the models' performance by dynamically incorporating relevant external information. The results highlight the effectiveness of RAG in improving accuracy across all cognitive domains, particularly in tasks requiring precise retrieval and application of cultural knowledge. However, the findings also reveal the limitations of RAG in creative tasks, underscoring the need for further optimization. This benchmark provides a robust tool for evaluating and comparing LLMs in culturally diverse contexts, offering valuable insights for future research and development in AI-driven cultural knowledge preservation and dissemination. | 翻訳日:2024-11-08 03:23:46 公開日:2024-09-25 |
# 動きからの大規模構造に対する幾何学的特徴マッチング
Geometry-aware Feature Matching for Large-Scale Structure from Motion ( http://arxiv.org/abs/2409.02310v3 ) ライセンス: Link先を確認 | Gonglin Chen, Jinsen Wu, Haiwei Chen, Wenbin Teng, Zhiyuan Gao, Andrew Feng, Rongjun Qin, Yajie Zhao, | (参考訳) 複数の画像に一貫した密接な対応を確立することは、Structure from Motion (SfM)システムにとって重要である。
非常にスパースなビューオーバーラップを持つ空対地のような重要なビュー変更は、対応解決者にとってさらに大きな課題を生じさせる。
カラーキューに加えて幾何学的キューを導入することにより,既存の特徴マッチング手法を大幅に強化する,新しい最適化手法を提案する。
これにより、大規模なシナリオの重複が少なくなると、ギャップを埋めることができます。
本手法は, 幾何検定を最適化問題として定式化し, 検出器フリー法における特徴マッチングを導出し, 検出器ベース法からのスパース対応をアンカーポイントとして用いる。
Sampson Distance を用いて幾何学的制約を強制することにより、検出器なし法からのより密度の高い対応が幾何的に一貫し、より正確であることを保証する。
このハイブリッド戦略は、対応密度と精度を大幅に改善し、マルチビューの不整合を緩和し、カメラの精度と点雲密度を顕著に向上させる。
ベンチマークデータセットにおける最先端の機能マッチングメソッドよりも優れており、極端な大規模設定で機能マッチングを可能にする。
Establishing consistent and dense correspondences across multiple images is crucial for Structure from Motion (SfM) systems. Significant view changes, such as air-to-ground with very sparse view overlap, pose an even greater challenge to the correspondence solvers. We present a novel optimization-based approach that significantly enhances existing feature matching methods by introducing geometry cues in addition to color cues. This helps fill gaps when there is less overlap in large-scale scenarios. Our method formulates geometric verification as an optimization problem, guiding feature matching within detector-free methods and using sparse correspondences from detector-based methods as anchor points. By enforcing geometric constraints via the Sampson Distance, our approach ensures that the denser correspondences from detector-free methods are geometrically consistent and more accurate. This hybrid strategy significantly improves correspondence density and accuracy, mitigates multi-view inconsistencies, and leads to notable advancements in camera pose accuracy and point cloud density. It outperforms state-of-the-art feature matching methods on benchmark datasets and enables feature matching in challenging extreme large-scale settings. | 翻訳日:2024-11-07 23:56:04 公開日:2024-09-25 |
# ルールベースAIと大規模言語モデルによるサイバーインシデントタイムライン分析の促進
Advancing Cyber Incident Timeline Analysis Through Rule Based AI and Large Language Models ( http://arxiv.org/abs/2409.02572v3 ) ライセンス: Link先を確認 | Fatma Yasmine Loumachi, Mohamed Chahine Ghanem, | (参考訳) 時系列分析(TA)は、デジタル・フォレシクス(DF)分野において、タイムライン・フォレシクス(TF)において重要な役割を担っている。
イベントログ、ファイルメタデータ、その他の関連データから得られたタイムスタンプなどの時間ベースのデジタルアーティファクトを調べ分析することに焦点を当て、サイバーインシデントに関連するイベントを関連付け、時系列を再構築する。
従来のツールは、DF調査やインシデント対応(IR)プロセスで生成される大量のデータやさまざまなデータを効率的に扱うのに苦労することが多い。
本稿では,ルールベース人工知能(R-BAI)アルゴリズムとLarge Language Models(LLM)を組み合わせた新しいフレームワークGenDFIRを紹介する。
提案手法は,(1)R-BAIを用いて,予め定義されたルールに基づいて,異常なデジタルアーティファクトを特定し,選択する。
2) 選択された人工物は、レトリーバル増強世代(RAG)エージェントの助けを借りて、LLMによる加工用の埋込物に変換される。
LLMはその能力を使用して、人工物上で自動TAを実行し、潜在的なインシデント結果を予測する。
このフレームワークを検証するために,性能,効率,信頼性を評価した。
いくつかの指標がシミュレートされたサイバーインシデントシナリオに適用され、法医学の事例文書として提示された。
R-BAI と LLM を TA に組み込むことの有意な可能性を示唆した。
この革新的なアプローチは、ジェネレーティブAI(GenAI)、特にLLMの力を強調し、高度な脅威検出とインシデント再構築の新たな可能性を開く。
Timeline Analysis (TA) plays a crucial role in Timeline Forensics (TF) within the field of Digital Forensics (DF). It focuses on examining and analyzing time-based digital artefacts, such as timestamps derived from event logs, file metadata, and other relevant data, to correlate events linked to cyber incidents and reconstruct their chronological sequence. Traditional tools often struggle to efficiently handle the large volume and variety of data generated during DF investigations and Incident Response (IR) processes. This paper introduces a novel framework, GenDFIR, which combines Rule-Based Artificial Intelligence (R-BAI) algorithms with Large Language Models (LLMs) to enhance and automate the TA process. The proposed approach consists of two key stages: (1) R-BAI is used to identify and select anomalous digital artefacts based on predefined rules. (2) The selected artefacts are then transformed into embeddings for processing by an LLM with the assistance of a Retrieval-Augmented Generation (RAG) agent. The LLM uses its capabilities to perform automated TA on the artefacts and predict potential incident outcomes. To validate the framework, we evaluated its performance, efficiency, and reliability. Several metrics were applied to simulated cyber incident scenarios, which were presented as forensic case documents. Our findings demonstrate the significant potential of integrating R-BAI and LLMs for TA. This innovative approach underscores the power of Generative AI (GenAI), particularly LLMs, and opens up new possibilities for advanced threat detection and incident reconstruction, marking a significant advancement in the field. | 翻訳日:2024-11-07 23:45:04 公開日:2024-09-25 |
# 量子コンピュータにおける自由フェルミオン問題の解法
Solving Free Fermion Problems on a Quantum Computer ( http://arxiv.org/abs/2409.04550v2 ) ライセンス: Link先を確認 | Maarten Stroeks, Daan Lenterman, Barbara Terhal, Yaroslav Herasymenko, | (参考訳) N = 2^n$モード上の自由フェルミオンの時間力学と熱状態のシミュレーションは、ほとんどのポリ($2^n$)計算古典的資源を必要とすることが知られている。
指数関数的に改善されたポリ(n$)コストで量子アルゴリズムによって解くことができるような自由フェルミオン問題をいくつか提示する。
鍵となるテクニックは、相関行列をユニタリにブロックエンコーディングすることである。
強結合ハミルトニアンの力学と熱状態の文脈において、そのようなユニタリを量子回路として効率的に実現できることを実証する。
The simulation of time-dynamics and thermal states of free fermions on $N = 2^n$ modes are known to require at most poly($2^n$) computational classical resources. We present several such free fermion problems that can be solved by a quantum algorithm with exponentially-improved, poly($n$) cost. The key technique is the block-encoding of the correlation matrix into a unitary. We demonstrate how such a unitary can be efficiently realized as a quantum circuit, in the context of dynamics and thermal states of tight-binding Hamiltonians. | 翻訳日:2024-11-07 23:00:54 公開日:2024-09-25 |
# 重み付きモダリティ融合と類似性を利用した無訓練ゼロショット合成画像検索
Training-free Zero-shot Composed Image Retrieval via Weighted Modality Fusion and Similarity ( http://arxiv.org/abs/2409.04918v3 ) ライセンス: Link先を確認 | Ren-Di Wu, Yu-Yen Lin, Huei-Fang Yang, | (参考訳) 参照画像と修正テキストの組み合わせとしてクエリを定式化した合成画像検索(CIR)は,ユーザの意図を捉える能力の強化により,画像検索の新たな形態として登場した。
しかし、監督的な方法でCIRモデルをトレーニングするには、通常、労働集約的な(参照画像、テキスト修飾子、ターゲット画像)三重項の収集が必要である。
既存のゼロショットCIR(ZS-CIR)メソッドでは、特定の下流データセットでトレーニングする必要がなくなるが、大規模なイメージデータセットで追加の事前トレーニングが必要になる。
本稿では,ZS-CIRのトレーニング不要なアプローチを提案する。
CIR(WeiMoCIR)の重み付きモダリティ融合と類似性(Weighted Modality fusion)は、画像とテキストのモダリティを単純な重み付き平均を用いて効果的に組み合わせることができるという仮定の下で機能する。
これにより、参照画像とテキスト修飾子から直接クエリ表現を構築することができる。
検索性能をより高めるため,データベース画像の画像キャプションを生成するためにMLLM(Multimodal Large Language Model)を用いて,重み付き平均を用いた画像情報と組み合わせることで,それらのテキストキャプションを類似性計算に組み込む。
提案手法は単純で実装が容易であり,FashionIQおよびCIRRデータセットを用いた実験によりその有効性が検証された。
Composed image retrieval (CIR), which formulates the query as a combination of a reference image and modified text, has emerged as a new form of image search due to its enhanced ability to capture users' intentions. However, training a CIR model in a supervised manner typically requires labor-intensive collection of (reference image, text modifier, target image) triplets. While existing zero-shot CIR (ZS-CIR) methods eliminate the need for training on specific downstream datasets, they still require additional pretraining on large-scale image datasets. In this paper, we introduce a training-free approach for ZS-CIR. Our approach, Weighted Modality fusion and similarity for CIR (WeiMoCIR), operates under the assumption that image and text modalities can be effectively combined using a simple weighted average. This allows the query representation to be constructed directly from the reference image and text modifier. To further enhance retrieval performance, we employ multimodal large language models (MLLMs) to generate image captions for the database images and incorporate these textual captions into the similarity computation by combining them with image information using a weighted average. Our approach is simple, easy to implement, and its effectiveness is validated through experiments on the FashionIQ and CIRR datasets. | 翻訳日:2024-11-07 22:49:49 公開日:2024-09-25 |
# ニューラルネットワークの効率的な圧縮のための適応的誤差境界階層行列
Adaptive Error-Bounded Hierarchical Matrices for Efficient Neural Network Compression ( http://arxiv.org/abs/2409.07028v2 ) ライセンス: Link先を確認 | John Mango, Ronald Katende, | (参考訳) 本稿では,物理インフォームドニューラルネットワーク(PINN)に適した動的,エラーバウンドな階層行列 (H-matrix) 圧縮手法を提案する。
提案手法は,ニューラル・タンジェント・カーネル(NTK)の基本特性を保ちながら,大規模物理モデルにおける計算複雑性とメモリ要求を低減させる。
局所誤差推定に基づいて階層行列近似を適応的に精製することにより、効率的なトレーニングとロバストモデルの性能を確保することができる。
実験により, この手法は, 高精度を維持し, 一般化能力を向上させることにより, Singular Value Decomposition (SVD) やプルーニング, 量子化などの従来の圧縮手法よりも優れていることを示した。
さらに,動的H行列法により推論速度が向上し,リアルタイムアプリケーションに適している。
このアプローチは、複雑な科学と工学の領域にPINNをデプロイするためのスケーラブルで効率的なソリューションを提供する。
This paper introduces a dynamic, error-bounded hierarchical matrix (H-matrix) compression method tailored for Physics-Informed Neural Networks (PINNs). The proposed approach reduces the computational complexity and memory demands of large-scale physics-based models while preserving the essential properties of the Neural Tangent Kernel (NTK). By adaptively refining hierarchical matrix approximations based on local error estimates, our method ensures efficient training and robust model performance. Empirical results demonstrate that this technique outperforms traditional compression methods, such as Singular Value Decomposition (SVD), pruning, and quantization, by maintaining high accuracy and improving generalization capabilities. Additionally, the dynamic H-matrix method enhances inference speed, making it suitable for real-time applications. This approach offers a scalable and efficient solution for deploying PINNs in complex scientific and engineering domains, bridging the gap between computational feasibility and real-world applicability. | 翻訳日:2024-11-07 21:53:46 公開日:2024-09-25 |
# MiniDrive: 自動運転のためのテキストトークンとしてマルチレベル2D機能を備えた高効率ビジョンランゲージモデル
MiniDrive: More Efficient Vision-Language Models with Multi-Level 2D Features as Text Tokens for Autonomous Driving ( http://arxiv.org/abs/2409.07267v3 ) ライセンス: Link先を確認 | Enming Zhang, Xingyuan Dai, Yisheng Lv, Qinghai Miao, | (参考訳) 視覚言語モデル(VLM)は、自律運転における汎用エンド・ツー・エンド・モデルとして機能し、質問と回答の相互作用を通じて予測、計画、知覚などのサブタスクを実行する。
しかし、既存のほとんどの手法は計算に高価なビジュアルエンコーダと大規模言語モデル(LLM)に依存しており、現実のシナリオやリアルタイムアプリケーションへのデプロイが困難である。
一方、既存のVLMには複数の画像を処理する能力がないため、自律運転におけるマルチカメラの認識に適応することが困難である。
これらの問題に対処するために,提案したFE-MoEモジュールと動的命令適応器(DI-Adapter)を組み込んだMiniDriveという新しいフレームワークを提案する。
FE-MoEは、言語モデルに入力される前に、2D機能を視覚トークンの埋め込みに効果的にマッピングする。
DI-Adapterは、ビジュアルトークンの埋め込みを命令テキストの埋め込みで動的に変更することを可能にし、以前のアプローチで同じイメージに対する静的なビジュアルトークンの埋め込みの問題を解決する。
これまでの作業と比較すると、MiniDriveはパラメータサイズ、浮動小数点演算、レスポンス効率の点で最先端のパフォーマンスを実現しており、最小のバージョンは83Mパラメータのみである。
Vision-language models (VLMs) serve as general-purpose end-to-end models in autonomous driving, performing subtasks such as prediction, planning, and perception through question-and-answer interactions. However, most existing methods rely on computationally expensive visual encoders and large language models (LLMs), making them difficult to deploy in real-world scenarios and real-time applications. Meanwhile, most existing VLMs lack the ability to process multiple images, making it difficult to adapt to multi-camera perception in autonomous driving. To address these issues, we propose a novel framework called MiniDrive, which incorporates our proposed Feature Engineering Mixture of Experts (FE-MoE) module and Dynamic Instruction Adapter (DI-Adapter). The FE-MoE effectively maps 2D features into visual token embeddings before being input into the language model. The DI-Adapter enables the visual token embeddings to dynamically change with the instruction text embeddings, resolving the issue of static visual token embeddings for the same image in previous approaches. Compared to previous works, MiniDrive achieves state-of-the-art performance in terms of parameter size, floating point operations, and response efficiency, with the smallest version containing only 83M parameters. | 翻訳日:2024-11-07 21:53:46 公開日:2024-09-25 |
# デモ: SGCode: セキュアなコード生成のためのフレキシブルなプロンプト最適化システム
Demo: SGCode: A Flexible Prompt-Optimizing System for Secure Generation of Code ( http://arxiv.org/abs/2409.07368v3 ) ライセンス: Link先を確認 | Khiem Ton, Nhi Nguyen, Mahmoud Nazzal, Abdallah Khreishah, Cristian Borcea, NhatHai Phan, Ruoming Jin, Issa Khalil, Yelong Shen, | (参考訳) 本稿では,大規模言語モデル(LLM)でセキュアなコードを生成するための,フレキシブルなプロンプト最適化システムであるSGCodeを紹介する。
SGCodeは、最近のプロンプト最適化アプローチを、フロントエンドとバックエンドAPIを通じてアクセス可能な統一システムでLLMと統合し、ユーザが利用できるようにしている。
1) 脆弱性のないセキュアなコードを生成する。
2【セキュリティ分析の見直し及び共有】
3) モデルとシステムのパフォーマンスに関する洞察を提供しながら、迅速な最適化アプローチから別のアプローチに簡単に切り替えることができます。
これは、LLMとセキュリティツールを軽量な生成逆グラフニューラルネットワークと組み合わせて、生成されたコードのセキュリティ脆弱性を検出し、修正することで、プロンプトを最適化するアプローチです。
大規模な実験によると、SGCodeは、モデルユーティリティ、セキュアなコード生成、システムコストの間のトレードオフに関する洞察を得るために、公開ツールとして実用的である。
SGCode は LLM のプロンプトに比べて限界的なコストしかかからない。
SGCode は以下の https://sgcode.codes/ で利用可能である。
This paper introduces SGCode, a flexible prompt-optimizing system to generate secure code with large language models (LLMs). SGCode integrates recent prompt-optimization approaches with LLMs in a unified system accessible through front-end and back-end APIs, enabling users to 1) generate secure code, which is free of vulnerabilities, 2) review and share security analysis, and 3) easily switch from one prompt optimization approach to another, while providing insights on model and system performance. We populated SGCode on an AWS server with PromSec, an approach that optimizes prompts by combining an LLM and security tools with a lightweight generative adversarial graph neural network to detect and fix security vulnerabilities in the generated code. Extensive experiments show that SGCode is practical as a public tool to gain insights into the trade-offs between model utility, secure code generation, and system cost. SGCode has only a marginal cost compared with prompting LLMs. SGCode is available at: https://sgcode.codes/. | 翻訳日:2024-11-07 21:53:46 公開日:2024-09-25 |
# AI企業における技術安全研究のマッピング:文献レビューとインセンティブ分析
Mapping Technical Safety Research at AI Companies: A literature review and incentives analysis ( http://arxiv.org/abs/2409.07878v2 ) ライセンス: Link先を確認 | Oscar Delaney, Oliver Guest, Zoe Williams, | (参考訳) AIシステムが進歩するにつれて、誤用や事故による大規模なリスクへの懸念が高まっている。
このレポートは、Anthropic、Google DeepMind、OpenAIという3つの主要なAI企業が実施している安全なAI開発に関する技術研究を分析します。
私たちは安全なAI開発を、大規模な誤用や事故のリスクを生じにくいAIシステムの開発であると定義しています。
これには、AIシステムが意図したように振る舞うことを保証することを目的とした、さまざまな技術的アプローチが含まれており、より有能で自律的なものであっても、意図しない害を生じさせない。
我々は、2022年1月から2024年7月までに3社によって発行されたすべての論文を、AI開発に関係のあるものを分析し、80件の論文を9つの安全アプローチに分類した。
さらに、アカデミックとシビル・ソサエティによって調査された初期のアプローチを表す2つのカテゴリについても言及しましたが、これらの主要なAI企業による研究論文には表示されていません。
私たちの分析は、企業の関心が集中している場所と、潜在的なギャップがどこにあるかを明らかにします。
一部のAI研究は、AIシステムを誤用するために克服する必要があるセキュリティ技術の詳細を敵に知らせないなど、正当な理由から公表されていないかもしれない。
そこで我々は,AI企業がそれぞれのアプローチについて研究しなければならないインセンティブについても検討した。
私たちは、現在論文がほとんど、あるいはほとんどない3つのカテゴリを特定しました。
これらは、ミスアライメント、マルチエージェント安全性、設計による安全性のモデル生物である。
以上の結果から,政府,市民社会,慈善家,アカデミアからの資金提供や努力なしに,これらのアプローチが進展する可能性が示唆された。
As AI systems become more advanced, concerns about large-scale risks from misuse or accidents have grown. This report analyzes the technical research into safe AI development being conducted by three leading AI companies: Anthropic, Google DeepMind, and OpenAI. We define safe AI development as developing AI systems that are unlikely to pose large-scale misuse or accident risks. This encompasses a range of technical approaches aimed at ensuring AI systems behave as intended and do not cause unintended harm, even as they are made more capable and autonomous. We analyzed all papers published by the three companies from January 2022 to July 2024 that were relevant to safe AI development, and categorized the 80 included papers into nine safety approaches. Additionally, we noted two categories representing nascent approaches explored by academia and civil society, but not currently represented in any research papers by these leading AI companies. Our analysis reveals where corporate attention is concentrated and where potential gaps lie. Some AI research may stay unpublished for good reasons, such as to not inform adversaries about the details of security techniques they would need to overcome to misuse AI systems. Therefore, we also considered the incentives that AI companies have to research each approach, regardless of how much work they have published on the topic. We identified three categories where there are currently no or few papers and where we do not expect AI companies to become much more incentivized to pursue this research in the future. These are model organisms of misalignment, multi-agent safety, and safety by design. Our findings provide an indication that these approaches may be slow to progress without funding or efforts from government, civil society, philanthropists, or academia. | 翻訳日:2024-11-07 21:42:46 公開日:2024-09-25 |
# 中心ハブにおける量子エンタングルメントの配置
Quantum Entanglement Allocation through a Central Hub ( http://arxiv.org/abs/2409.08173v2 ) ライセンス: Link先を確認 | Yu-Ao Chen, Xia Liu, Chenghong Zhu, Lei Zhang, Junyu Liu, Xin Wang, | (参考訳) 完全に機能する量子インターネットを確立するには、高度な量子通信プロトコル、セキュアなマルチパーティの量子鍵分布、分散量子コンピューティングを可能にするマルチパーティの絡み合った状態の効率的な割り当てに依存する。
本研究では、中央ハブノードが各端ノードでベル状態を事前共有する集中ハブアーキテクチャにおいて、一般化された$N$-qubit W状態を割り当てるためのローカル演算と古典通信(LOCC)プロトコルを提案する。
本稿では,提案するW状態割当プロトコルと,提案したGHZ状態割当プロトコルに必要なリソースの最適性を詳細に分析する。
以上の結果から,これらのプロトコルは,WおよびGHZ状態の通信コストが2N〜2ドル,GHZ状態の通信コストが2N〜2ドル,量子メモリの1量子ビットあたり$N$のみを用いて,決定的かつ正確に分散していることがわかった。
これらのリソース効率の高いLOCCプロトコルは、メモリと通信のコストの双方において、従来の通信プロトコルよりも優れた、集中型のハブアーキテクチャにおいて最適であることがさらに証明されている。
本研究は, 量子ネットワークにおける本質的な多部絡み合い状態の割当てに, より資源効率のよい方法を提供し, 量子インターネットの実現を効率よく進めるものである。
Establishing a fully functional quantum internet relies on the efficient allocation of multipartite entangled states, which enables advanced quantum communication protocols, secure multipartite quantum key distribution, and distributed quantum computing. In this work, we propose local operations and classical communication (LOCC) protocols for allocating generalized $N$-qubit W states within a centralized hub architecture, where the central hub node preshares Bell states with each end node. We develop a detailed analysis of the optimality of the resources required for our proposed W-state allocation protocol and the previously proposed GHZ-state protocol. Our results show that these protocols deterministically and exactly distribute states using only $N$ qubits of quantum memory within the central system, with communication costs of $2N - 2$ and $N$ classical bits for the W and GHZ states, respectively. These resource-efficient LOCC protocols are further proven to be optimal within the centralized hub architecture, outperforming conventional teleportation protocols for entanglement distribution in both memory and communication costs. Our results provide a more resource-efficient method for allocating essential multipartite entangled states in quantum networks, paving the way for the realization of a quantum internet with enhanced efficiency. | 翻訳日:2024-11-07 21:20:36 公開日:2024-09-25 |
# LSR-IGRU:長期関係に基づく株価トレンド予測とGRUの改善
LSR-IGRU: Stock Trend Prediction Based on Long Short-Term Relationships and Improved GRU ( http://arxiv.org/abs/2409.08282v2 ) ライセンス: Link先を確認 | Peng Zhu, Yuante Li, Yifan Hu, Qinyuan Liu, Dawei Cheng, Yuqi Liang, | (参考訳) 株価予測は金融分野で難しい問題であり、広く注目を集めている。
近年、ディープラーニングやグラフニューラルネットワークといった技術が急速に発展し、ストック間の相互関係を探究する研究手法が増えている。
しかし,既存手法は主に在庫の短期的動的関係に着目し,時間的情報と関係情報を直接統合するものである。
彼らはしばしば、株式市場の株式間の複雑な非線形力学特性と高次の相互作用関係を見落としている。
そこで本稿では,長期の株式関係と改良されたGRU入力に基づく,LSR-IGRUという株価トレンド予測モデルを提案する。
まず, 株式の長期的関係をつかむために, 二次産業情報を初めて利用し, 短期関係を確立するために, 長期的価格情報を利用する, 株式間の長期的関係行列を構築した。
次に、各ステップにおけるGRUモデルの入力を改善し、時間的情報と長期的関係情報をより効率的に統合し、株価トレンド変化の予測精度を大幅に向上させる。
最後に、中国と米国の株式市場から得られた複数のデータセットに関する広範な実験を通じて、現在最先端のベースラインモデルよりも提案されたLSR-IGRUモデルの優位性を検証した。
また、提案手法を金融機関のアルゴリズム取引システムに適用し、他の基準手法と比較して累積ポートフォリオリターンを著しく向上させる。
ソースはhttps://github.com/ZP1481616577/Baselines_LSR-IGRUで公開されています。
Stock price prediction is a challenging problem in the field of finance and receives widespread attention. In recent years, with the rapid development of technologies such as deep learning and graph neural networks, more research methods have begun to focus on exploring the interrelationships between stocks. However, existing methods mostly focus on the short-term dynamic relationships of stocks and directly integrating relationship information with temporal information. They often overlook the complex nonlinear dynamic characteristics and potential higher-order interaction relationships among stocks in the stock market. Therefore, we propose a stock price trend prediction model named LSR-IGRU in this paper, which is based on long short-term stock relationships and an improved GRU input. Firstly, we construct a long short-term relationship matrix between stocks, where secondary industry information is employed for the first time to capture long-term relationships of stocks, and overnight price information is utilized to establish short-term relationships. Next, we improve the inputs of the GRU model at each step, enabling the model to more effectively integrate temporal information and long short-term relationship information, thereby significantly improving the accuracy of predicting stock trend changes. Finally, through extensive experiments on multiple datasets from stock markets in China and the United States, we validate the superiority of the proposed LSR-IGRU model over the current state-of-the-art baseline models. We also apply the proposed model to the algorithmic trading system of a financial company, achieving significantly higher cumulative portfolio returns compared to other baseline methods. Our sources are released at https://github.com/ZP1481616577/Baselines_LSR-IGRU. | 翻訳日:2024-11-07 21:20:36 公開日:2024-09-25 |
# 精密養殖:最適化ティラピア給餌のための統合型コンピュータビジョンとIoTアプローチ
Precision Aquaculture: An Integrated Computer Vision and IoT Approach for Optimized Tilapia Feeding ( http://arxiv.org/abs/2409.08695v2 ) ライセンス: Link先を確認 | Rania Hossam, Ahmed Heakl, Walid Gomaa, | (参考訳) 伝統的な魚の養殖は、しばしば非効率な給餌につながり、環境問題と生産性の低下をもたらす。
我々はコンピュータビジョンとIoT技術を組み合わせて、ティラピアの正確な給餌を行う革新的なシステムを開発した。
我々のソリューションは、リアルタイムIoTセンサを使用して水質パラメータとコンピュータビジョンアルゴリズムを監視し、魚の大きさと数を分析し、最適な餌量を決定する。
モバイルアプリはリモート監視とコントロールを可能にする。
YOLOv8をキーポイント検出に利用し,3500枚の注釈付き画像に対して,テラピア重量を長さから測定し,精度を<textbf{94\%}とした。
精密給餌計算のための深度推定法を用いて, 画素による測定をセンチメートルに変換した。
提案手法は,データ収集ミラーリング推定条件を用いて,結果を大幅に改善した。
予備推計では、従来の農場に比べて58倍の増産が期待されている。
私たちのモデル、コード、データセットはオープンソースです。
Traditional fish farming practices often lead to inefficient feeding, resulting in environmental issues and reduced productivity. We developed an innovative system combining computer vision and IoT technologies for precise Tilapia feeding. Our solution uses real-time IoT sensors to monitor water quality parameters and computer vision algorithms to analyze fish size and count, determining optimal feed amounts. A mobile app enables remote monitoring and control. We utilized YOLOv8 for keypoint detection to measure Tilapia weight from length, achieving \textbf{94\%} precision on 3,500 annotated images. Pixel-based measurements were converted to centimeters using depth estimation for accurate feeding calculations. Our method, with data collection mirroring inference conditions, significantly improved results. Preliminary estimates suggest this approach could increase production up to 58 times compared to traditional farms. Our models, code, and dataset are open-source~\footnote{The code, dataset, and models are available upon reasonable request. | 翻訳日:2024-11-07 21:09:04 公開日:2024-09-25 |
# 精密養殖:最適化ティラピア給餌のための統合型コンピュータビジョンとIoTアプローチ
Precision Aquaculture: An Integrated Computer Vision and IoT Approach for Optimized Tilapia Feeding ( http://arxiv.org/abs/2409.08695v3 ) ライセンス: Link先を確認 | Rania Hossam, Ahmed Heakl, Walid Gomaa, | (参考訳) 伝統的な魚の養殖は、しばしば非効率な給餌につながり、環境問題と生産性の低下をもたらす。
我々はコンピュータビジョンとIoT技術を組み合わせて、ティラピアの正確な給餌を行う革新的なシステムを開発した。
我々のソリューションは、リアルタイムIoTセンサを使用して水質パラメータとコンピュータビジョンアルゴリズムを監視し、魚の大きさと数を分析し、最適な餌量を決定する。
モバイルアプリはリモート監視とコントロールを可能にする。
YOLOv8をキーポイント検出に利用し,3500枚の注釈付き画像に対して,テラピア重量を長さから測定し,精度を<textbf{94\%}とした。
精密給餌計算のための深度推定法を用いて, 画素による測定をセンチメートルに変換した。
提案手法は,データ収集ミラーリング推定条件を用いて,結果を大幅に改善した。
予備推計では、従来の農場に比べて58倍の増産が期待されている。
私たちのモデル、コード、データセットはオープンソースです。
Traditional fish farming practices often lead to inefficient feeding, resulting in environmental issues and reduced productivity. We developed an innovative system combining computer vision and IoT technologies for precise Tilapia feeding. Our solution uses real-time IoT sensors to monitor water quality parameters and computer vision algorithms to analyze fish size and count, determining optimal feed amounts. A mobile app enables remote monitoring and control. We utilized YOLOv8 for keypoint detection to measure Tilapia weight from length, achieving \textbf{94\%} precision on 3,500 annotated images. Pixel-based measurements were converted to centimeters using depth estimation for accurate feeding calculations. Our method, with data collection mirroring inference conditions, significantly improved results. Preliminary estimates suggest this approach could increase production up to 58 times compared to traditional farms. Our models, code, and dataset are open-source~\footnote{The code, dataset, and models are available upon reasonable request. | 翻訳日:2024-11-07 21:09:04 公開日:2024-09-25 |
# 深層学習に基づくエンゲージメント予測を用いた2速自動伝送における遠心クラッチの解析
Analysis of Centrifugal Clutches in Two-Speed Automatic Transmissions with Deep Learning-Based Engagement Prediction ( http://arxiv.org/abs/2409.09755v2 ) ライセンス: Link先を確認 | Bo-Yi Lin, Kai Chun Lin, | (参考訳) 本稿では,2速自動変速機と一体化した遠心クラッチシステムの総合的数値解析について述べる。
遠心クラッチは、外部制御なしで回転速度に基づくトルク伝達を可能にする。
本研究は, 異なる条件下でのトルク伝達, アップシフト, ダウンシフト挙動に着目し, 伝達力学に対するクラッチ構成の影響を系統的に検討した。
ディープニューラルネットワーク(DNN)モデルは、スプリングプリロードや靴の質量といったパラメータを使ってクラッチエンゲージメントを予測し、複雑なシミュレーションの効率的な代替手段を提供する。
ディープラーニングと数値モデリングの統合はクラッチ設計を最適化し、伝達性能と効率を向上するための重要な洞察を提供する。
This paper presents a comprehensive numerical analysis of centrifugal clutch systems integrated with a two-speed automatic transmission, a key component in automotive torque transfer. Centrifugal clutches enable torque transmission based on rotational speed without external controls. The study systematically examines various clutch configurations effects on transmission dynamics, focusing on torque transfer, upshifting, and downshifting behaviors under different conditions. A Deep Neural Network (DNN) model predicts clutch engagement using parameters such as spring preload and shoe mass, offering an efficient alternative to complex simulations. The integration of deep learning and numerical modeling provides critical insights for optimizing clutch designs, enhancing transmission performance and efficiency. | 翻訳日:2024-11-07 20:46:36 公開日:2024-09-25 |
# GEIC:大規模言語モデルを用いたユニバーサルおよび多言語名付きエンティティ認識
GEIC: Universal and Multilingual Named Entity Recognition with Large Language Models ( http://arxiv.org/abs/2409.11022v3 ) ライセンス: Link先を確認 | Hanjun Luo, Yingbin Jin, Xuecheng Liu, Tong Shang, Ruizhe Chen, Zuozhu Liu, | (参考訳) 大規模言語モデル(LLM)は、多くの自然言語処理タスクにおいて従来の手法に取って代わっている。
それでも、名前付きエンティティ認識(NER)では、既存のLCMベースのメソッドはベースラインよりも性能が低く、計算リソースが大幅に必要であり、アプリケーションを制限する。
本稿では,NER タスクに対する LLM の事前知識と自己認識機構を活用するために設計された,ジェネレーションベース抽出とインコンテキスト分類(GEIC)の課題を紹介する。
次に,多言語GEICフレームワークであるCascadeNERを提案する。
CascadeNER はモデルカスケードを用いて2つの小パラメータ LLM を独立に抽出・分類し、精度を高めながら資源消費を減らす。
また、LLM用に特別に設計された最初のNERデータセットであるAnythingNERについても紹介する。
実験によると、CascadeNERはCrossNERやFewNERDなど、低リソースできめ細かいシナリオで最先端のパフォーマンスを実現している。
私たちの仕事は公然とアクセスできます。
Large Language Models (LLMs) have supplanted traditional methods in numerous natural language processing tasks. Nonetheless, in Named Entity Recognition (NER), existing LLM-based methods underperform compared to baselines and require significantly more computational resources, limiting their application. In this paper, we introduce the task of generation-based extraction and in-context classification (GEIC), designed to leverage LLMs' prior knowledge and self-attention mechanisms for NER tasks. We then propose CascadeNER, a universal and multilingual GEIC framework for few-shot and zero-shot NER. CascadeNER employs model cascading to utilize two small-parameter LLMs to extract and classify independently, reducing resource consumption while enhancing accuracy. We also introduce AnythingNER, the first NER dataset specifically designed for LLMs, including 8 languages, 155 entity types and a novel dynamic categorization system. Experiments show that CascadeNER achieves state-of-the-art performance on low-resource and fine-grained scenarios, including CrossNER and FewNERD. Our work is openly accessible. | 翻訳日:2024-11-07 20:13:03 公開日:2024-09-25 |
# グラフベース文脈知識トリプルモデリングによるテキスト生成のためのゼロリソース幻覚検出
Zero-resource Hallucination Detection for Text Generation via Graph-based Contextual Knowledge Triples Modeling ( http://arxiv.org/abs/2409.11283v3 ) ライセンス: Link先を確認 | Xinyue Fang, Zhen Huang, Zhiliang Tian, Minghui Fang, Ziyi Pan, Quntian Fang, Zhihua Wen, Hengyue Pan, Dongsheng Li, | (参考訳) LLMは優れたパフォーマンスを得るが、幻覚に悩まされる。
幻覚の検出に関するほとんどの研究は、忠実さの確認が容易な簡潔で具体的な正解の質問に焦点を当てている。
オープンな回答を持つテキスト生成のための幻覚検出はより困難である。
一部の研究者は、生成したテキストの幻覚を検出するために外部知識を使用しているが、特定のシナリオに対する外部リソースへのアクセスは困難である。
外部資源のない長文テキストにおける幻覚検出に関する最近の研究は、複数のサンプル出力の整合性比較を行っている。
長いテキストを扱うために、研究者は長いテキストを複数の事実に分割し、それぞれの事実の一貫性を個別に比較した。
しかし,これらの手法は(1)複数の事実間の一致をほとんど達成しておらず,(2)複数の事実間の依存関係を見落としている。
本稿では,テキスト生成のためのグラフベースの文脈認識(GCA)幻覚検出手法を提案する。
特に,複数の事実を整列させるために,複数の知識を抽出する三方向応答セグメンテーションを行う。
文脈知識三重項(ファクト)間の依存関係をモデル化するため、文脈三重項をグラフ内に構築し、RGCNを介してメッセージパッシングや集約を通じて三重項の相互作用を強化する。
長文における知識三重項の欠落を回避するため,知識三重項の再構成によりLLMに基づく逆検証を行う。
実験により,本モデルは幻覚検出を増強し,全てのベースラインを抜粋することが示された。
LLMs obtain remarkable performance but suffer from hallucinations. Most research on detecting hallucination focuses on the questions with short and concrete correct answers that are easy to check the faithfulness. Hallucination detections for text generation with open-ended answers are more challenging. Some researchers use external knowledge to detect hallucinations in generated texts, but external resources for specific scenarios are hard to access. Recent studies on detecting hallucinations in long text without external resources conduct consistency comparison among multiple sampled outputs. To handle long texts, researchers split long texts into multiple facts and individually compare the consistency of each pairs of facts. However, these methods (1) hardly achieve alignment among multiple facts; (2) overlook dependencies between multiple contextual facts. In this paper, we propose a graph-based context-aware (GCA) hallucination detection for text generations, which aligns knowledge facts and considers the dependencies between contextual knowledge triples in consistency comparison. Particularly, to align multiple facts, we conduct a triple-oriented response segmentation to extract multiple knowledge triples. To model dependencies among contextual knowledge triple (facts), we construct contextual triple into a graph and enhance triples' interactions via message passing and aggregating via RGCN. To avoid the omission of knowledge triples in long text, we conduct a LLM-based reverse verification via reconstructing the knowledge triples. Experiments show that our model enhances hallucination detection and excels all baselines. | 翻訳日:2024-11-07 20:13:03 公開日:2024-09-25 |
# 同期可能なハイブリッドサブシステムコード
Synchronizable hybrid subsystem codes ( http://arxiv.org/abs/2409.11312v2 ) ライセンス: Link先を確認 | Theerapat Tansuwannont, Andrew Nemec, | (参考訳) 量子同期可能符号(Quantum synchronizable codes)は、パウリの誤りだけでなく、ブロック同期の誤りも訂正できる量子誤り訂正符号である。
コードは2つの古典的巡回コードから構成できる: $\mathcal{C}$, $\mathcal{D}$ fulfilling $\mathcal{C}^{\perp} \subset \mathcal{C} \subset \mathcal{D}$ via the Calderbank-Shor-Steane (CSS) code construction。
本研究では, 量子同期可能符号, サブシステム符号, および, 同じ一対の古典的巡回符号から構築されたハイブリッド符号間の接続を確立する。
パウリと同期の誤りを訂正し、サブシステム構造を用いてエラーを計測し、古典情報と量子情報の両方を同時に送信できる、同期可能なハイブリッドサブシステムコードを構築する方法も提案する。
また、訂正可能な同期エラー数、ゲージ量子ビット数、符号の論理的古典ビット数とのトレードオフも確立する。
さらに,本研究の主構成から関連するコードをカバーする古典的なコードから,CSSタイプのハイブリッドサブシステムコードとハイブリッドサブシステムコードを構築するための一般的な手法を提案する。
Quantum synchronizable codes are quantum error correcting codes that can correct not only Pauli errors but also errors in block synchronization. The code can be constructed from two classical cyclic codes $\mathcal{C}$, $\mathcal{D}$ satisfying $\mathcal{C}^{\perp} \subset \mathcal{C} \subset \mathcal{D}$ through the Calderbank-Shor-Steane (CSS) code construction. In this work, we establish connections between quantum synchronizable codes, subsystem codes, and hybrid codes constructed from the same pair of classical cyclic codes. We also propose a method to construct a synchronizable hybrid subsystem code which can correct both Pauli and synchronization errors, is resilient to gauge errors by virtue of the subsystem structure, and can transmit both classical and quantum information, all at the same time. The trade-offs between the number of synchronization errors that the code can correct, the number of gauge qubits, and the number of logical classical bits of the code are also established. In addition, we propose general methods to construct hybrid and hybrid subsystem codes of CSS type from classical codes, which cover relevant codes from our main construction. | 翻訳日:2024-11-07 20:13:03 公開日:2024-09-25 |
# BRDF-NeRF:光衛星画像とBRDFモデリングを用いたニューラルラジアンス場
BRDF-NeRF: Neural Radiance Fields with Optical Satellite Images and BRDF Modelling ( http://arxiv.org/abs/2409.12014v3 ) ライセンス: Link先を確認 | Lulin Zhang, Ewelina Rupnik, Tri Dung Nguyen, Stéphane Jacquemoud, Yann Klinger, | (参考訳) ニューラルレイディアンス場(NeRF)は、3次元シーンを表現し、複数の画像から双方向反射率分布関数(BRDF)を推定する機械学習技術として注目されている。
しかし、既存のほとんどの研究は近距離画像に焦点を当てており、通常は複雑な地球表面を表すのに不十分な、単純化されたマイクロフェイスBRDFモデルでシーン表面をモデル化している。
さらに、NeRFアプローチは一般的に、高品質な表面深度再構成のために、同時に撮像された大量の画像を必要とする。
これらの課題を克服するために,自然表面の反射特性をよりよく捉えることで知られている,物理的に経験的なRahman-Pinty-Verstraete (RPV) BRDFモデルを組み込んだBRDF-NeRFを導入する。
さらに,最小限のビューで放射場モデリングを可能にするため,ボリュームサンプリングと深度監視のガイドも提案する。
本手法は,(1)太陽位置が固定された1つのエポック内において異なる視角で撮影されるジブチ,(2)太陽位置と視角の異なる複数のエポックにわたって撮影されるラン州,の2つの衛星データセットを用いて評価した。
BRDF-NeRFは3から4つの衛星画像のみを使用して、目に見えない角度から新しいビューを合成し、高品質なデジタル表面モデル(DSM)を生成することに成功した。
Neural radiance fields (NeRF) have gained prominence as a machine learning technique for representing 3D scenes and estimating the bidirectional reflectance distribution function (BRDF) from multiple images. However, most existing research has focused on close-range imagery, typically modeling scene surfaces with simplified Microfacet BRDF models, which are often inadequate for representing complex Earth surfaces. Furthermore, NeRF approaches generally require large sets of simultaneously captured images for high-quality surface depth reconstruction - a condition rarely met in satellite imaging. To overcome these challenges, we introduce BRDF-NeRF, which incorporates the physically-based semi-empirical Rahman-Pinty-Verstraete (RPV) BRDF model, known to better capture the reflectance properties of natural surfaces. Additionally, we propose guided volumetric sampling and depth supervision to enable radiance field modeling with a minimal number of views. Our method is evaluated on two satellite datasets: (1) Djibouti, captured at varying viewing angles within a single epoch with a fixed Sun position, and (2) Lanzhou, captured across multiple epochs with different Sun positions and viewing angles. Using only three to four satellite images for training, BRDF-NeRF successfully synthesizes novel views from unseen angles and generates high-quality digital surface models (DSMs). | 翻訳日:2024-11-07 19:26:16 公開日:2024-09-25 |
# 高ヒューリスティックな決定規則を用いた最適ビジュアルサーチ
Optimal Visual Search with Highly Heuristic Decision Rules ( http://arxiv.org/abs/2409.12124v2 ) ライセンス: Link先を確認 | Anqi Zhang, Wilson S. Geisler, | (参考訳) 視覚探索は人間や他の動物にとって基本的な自然課題である。
そこで,本研究では,対象物の位置がよく区切られたショートディスプレイを検索する際に,人間が使用する決定プロセスについて検討した。
性能はベイズ最適決定プロセスと比較され、異なる候補位置からの情報が統計的に独立であるという仮定で比較された。
驚くべきことに、ヒトは胎児の感度が著しく低下し、ヒトの脳が最適な計算を複製できないにもかかわらず、最適な成績を収めた。
これらのパラドックス的な結果について,3つの要因が定量的に説明できることが示唆された。
最も重要なことは、単純で固定的なヒューリスティックな決定ルールが、ほぼ最適な検索性能に達することである。
第二に、卵胞の無視は、主に中心の電位的位置のみに影響を与える。
最後に、空間的に相関したニューラルノイズは、独立雑音の予測を上回る探索性能をもたらす。
これらの発見は、人間や他の動物における視覚探索タスクやその他の識別タスクを理解するために、はるかに重要な意味を持つ。
Visual search is a fundamental natural task for humans and other animals. We investigated the decision processes humans use when searching briefly presented displays having well-separated potential target-object locations. Performance was compared with the Bayesian-optimal decision process under the assumption that the information from the different potential target locations is statistically independent. Surprisingly, humans performed slightly better than optimal, despite humans' substantial loss of sensitivity in the fovea, and the implausibility of the human brain replicating the optimal computations. We show that three factors can quantitatively explain these seemingly paradoxical results. Most importantly, simple and fixed heuristic decision rules reach near optimal search performance. Secondly, foveal neglect primarily affects only the central potential target location. Finally, spatially correlated neural noise causes search performance to exceed that predicted for independent noise. These findings have far-reaching implications for understanding visual search tasks and other identification tasks in humans and other animals. | 翻訳日:2024-11-07 19:26:16 公開日:2024-09-25 |
# 量子計測システムとホログラフィック原理について
More on quantum measuring systems and the holographic principle ( http://arxiv.org/abs/2409.12322v1 ) ライセンス: Link先を確認 | Eiji Konishi, | (参考訳) 本稿では,古典化ホログラフィックテンソルネットワークのユークリッド系における量子測定系の構造について,統合情報理論の観点から考察する。
その結果、ユークリッド体制の次の図が得られた。
まず、粒子系の全遷移確率行列から決定される、経験のレベルと構造に独立して付随する錯体が存在する。
第二に、独立錯体の因果効果構造は粒子系全体の物理情報伝播によって直接絡み合わされる。
最後に、最大原因効果力を示す粒子系全体の異なる完全遷移確率行列が共存する可能性がある。
In this article, we approach the structure of the quantum measuring system in the Euclidean regime of the classicalized holographic tensor network from the perspective of integrated information theory. As a result, we obtain the following picture of the Euclidean regime. First, there are complexes, which are independently accompanied by the level and structure of experiences, determined from the full transition probability matrix of the whole particle system. Second, the cause-effect structures of independent complexes would be directly entangled by the physical information propagation in the whole particle system. Finally, distinct full transition probability matrices of the whole particle system that exhibit the maximum cause-effect power may coexist. | 翻訳日:2024-11-07 15:26:10 公開日:2024-09-25 |
# 量子計測システムとホログラフィック原理について
More on quantum measuring systems and the holographic principle ( http://arxiv.org/abs/2409.12322v2 ) ライセンス: Link先を確認 | Eiji Konishi, | (参考訳) 本稿では,古典化ホログラフィックテンソルネットワークのユークリッド系における量子測定系の構造について,統合情報理論の観点から考察する。
その結果、ユークリッド体制の次の図が得られた。
まず、粒子系の全遷移確率行列から決定される、経験のレベルと構造に独立して付随する錯体が存在する。
第二に、独立錯体の因果効果構造は粒子系全体の物理情報伝播によって直接絡み合わされる。
最後に、最大原因効果力を示す粒子系全体の異なる完全遷移確率行列が共存する可能性がある。
In this article, we approach the structure of the quantum measuring system in the Euclidean regime of the classicalized holographic tensor network from the perspective of integrated information theory. As a result, we obtain the following picture of the Euclidean regime. First, there are complexes, which are independently accompanied by the level and structure of experiences, determined from the full transition probability matrix of the whole particle system. Second, the cause-effect structures of independent complexes would be directly entangled by the physical information propagation in the whole particle system. Finally, distinct full transition probability matrices of the whole particle system that exhibit the maximum cause-effect power may coexist. | 翻訳日:2024-11-07 15:26:10 公開日:2024-09-25 |
# FlexiTex:ビジュアルガイダンスによるテクスチャ生成の強化
FlexiTex: Enhancing Texture Generation with Visual Guidance ( http://arxiv.org/abs/2409.12431v2 ) ライセンス: Link先を確認 | DaDong Jiang, Xianghui Yang, Zibo Zhao, Sheng Zhang, Jiaao Yu, Zeqiang Lai, Shaoxiong Yang, Chunchao Guo, Xiaobo Zhou, Zhihui Ke, | (参考訳) 近年のテクスチャ生成手法は, 大規模テキスト・画像拡散モデルによる強力な生成に先立って, 印象的な結果が得られる。
しかし、抽象的なテキストプロンプトは、グローバルなテクスチャ情報や形状情報の提供に限られており、その結果、ぼやけたパターンや一貫性のないパターンを生成するテクスチャ生成方法が生み出される。
これを解決するためにFlexiTexを紹介し、視覚誘導によってリッチな情報を埋め込み、高品質なテクスチャを生成する。
FlexiTexのコアとなるVisual Guidance Enhancementモジュールは、ビジュアルガイダンスからより具体的な情報を取り入れて、テキストプロンプトの曖昧さを減らし、高周波の詳細を保存する。
視覚的ガイダンスをさらに強化するために、異なるカメラのポーズに基づいて方向プロンプトを自動設計し、Janusの問題を避け、意味的にグローバルな一貫性を維持するDirection-Aware Adaptationモジュールを導入する。
FlexiTexは視覚的ガイダンスに適合し、定量的かつ質的に質的な結果を生成し、現実世界のアプリケーションのためのテクスチャ生成を前進させる可能性を実証する。
Recent texture generation methods achieve impressive results due to the powerful generative prior they leverage from large-scale text-to-image diffusion models. However, abstract textual prompts are limited in providing global textural or shape information, which results in the texture generation methods producing blurry or inconsistent patterns. To tackle this, we present FlexiTex, embedding rich information via visual guidance to generate a high-quality texture. The core of FlexiTex is the Visual Guidance Enhancement module, which incorporates more specific information from visual guidance to reduce ambiguity in the text prompt and preserve high-frequency details. To further enhance the visual guidance, we introduce a Direction-Aware Adaptation module that automatically designs direction prompts based on different camera poses, avoiding the Janus problem and maintaining semantically global consistency. Benefiting from the visual guidance, FlexiTex produces quantitatively and qualitatively sound results, demonstrating its potential to advance texture generation for real-world applications. | 翻訳日:2024-11-07 14:52:37 公開日:2024-09-25 |
# FlexiTex:ビジュアルガイダンスによるテクスチャ生成の強化
FlexiTex: Enhancing Texture Generation with Visual Guidance ( http://arxiv.org/abs/2409.12431v3 ) ライセンス: Link先を確認 | DaDong Jiang, Xianghui Yang, Zibo Zhao, Sheng Zhang, Jiaao Yu, Zeqiang Lai, Shaoxiong Yang, Chunchao Guo, Xiaobo Zhou, Zhihui Ke, | (参考訳) 近年のテクスチャ生成手法は, 大規模テキスト・画像拡散モデルによる強力な生成に先立って, 印象的な結果が得られる。
しかし、抽象的なテキストプロンプトは、グローバルなテクスチャ情報や形状情報の提供に限られており、その結果、ぼやけたパターンや一貫性のないパターンを生成するテクスチャ生成方法が生み出される。
これを解決するためにFlexiTexを紹介し、視覚誘導によってリッチな情報を埋め込み、高品質なテクスチャを生成する。
FlexiTexのコアとなるVisual Guidance Enhancementモジュールは、ビジュアルガイダンスからより具体的な情報を取り入れて、テキストプロンプトの曖昧さを減らし、高周波の詳細を保存する。
視覚的ガイダンスをさらに強化するために、異なるカメラのポーズに基づいて方向プロンプトを自動設計し、Janusの問題を避け、意味的にグローバルな一貫性を維持するDirection-Aware Adaptationモジュールを導入する。
FlexiTexは視覚的ガイダンスに適合し、定量的かつ質的に質的な結果を生成し、現実世界のアプリケーションのためのテクスチャ生成を前進させる可能性を実証する。
Recent texture generation methods achieve impressive results due to the powerful generative prior they leverage from large-scale text-to-image diffusion models. However, abstract textual prompts are limited in providing global textural or shape information, which results in the texture generation methods producing blurry or inconsistent patterns. To tackle this, we present FlexiTex, embedding rich information via visual guidance to generate a high-quality texture. The core of FlexiTex is the Visual Guidance Enhancement module, which incorporates more specific information from visual guidance to reduce ambiguity in the text prompt and preserve high-frequency details. To further enhance the visual guidance, we introduce a Direction-Aware Adaptation module that automatically designs direction prompts based on different camera poses, avoiding the Janus problem and maintaining semantically global consistency. Benefiting from the visual guidance, FlexiTex produces quantitatively and qualitatively sound results, demonstrating its potential to advance texture generation for real-world applications. | 翻訳日:2024-11-07 14:52:37 公開日:2024-09-25 |
# 言語モデルはRLHFを通して人間を誤解させる
Language Models Learn to Mislead Humans via RLHF ( http://arxiv.org/abs/2409.12822v1 ) ライセンス: Link先を確認 | Jiaxin Wen, Ruiqi Zhong, Akbir Khan, Ethan Perez, Jacob Steinhardt, Minlie Huang, Samuel R. Boman, He He, Shi Feng, | (参考訳) 言語モデル(LM)は、特にタスクが複雑である場合に、人間にとって検出が難しいエラーを生成する。
RLHFは、最も人気のあるポストトレーニング手法であり、より高い報酬を得るためには、人間が間違っている場合でも正しいことを人間に納得させることがより良くなる可能性がある。
我々はこの現象を標準のRLHFパイプラインで研究し、「U-SOPHISTRY」と呼ぶ。
具体的には、時間制約付き(例えば310分)の被験者に対して、モデル出力の正確性を評価し、金ラベルに対する人間の精度を計算する。
質問応答タスク(QuALITY)とプログラミングタスク(APPS)において、RLHFは、LMを被験者に納得させるのに優れているが、そのタスクを正しく完了させるには向いていない。
被験者の偽陽性率はQuALITYで24.1%、APPSで18.3%増加する。
最後に,Intended Sophistry (例: LMs) 検出の最先端手法であるプローブがU-SOPHISTRYに一般化されないことを示す。
我々の研究は、RLHFの重要な障害モードを強調し、人間の調整を支援するためのさらなる研究を求めている。
Language models (LMs) can produce errors that are hard to detect for humans, especially when the task is complex. RLHF, the most popular post-training method, may exacerbate this problem: to achieve higher rewards, LMs might get better at convincing humans that they are right even when they are wrong. We study this phenomenon under a standard RLHF pipeline, calling it "U-SOPHISTRY" since it is Unintended by model developers. Specifically, we ask time-constrained (e.g., 3-10 minutes) human subjects to evaluate the correctness of model outputs and calculate humans' accuracy against gold labels. On a question-answering task (QuALITY) and programming task (APPS), RLHF makes LMs better at convincing our subjects but not at completing the task correctly. RLHF also makes the model harder to evaluate: our subjects' false positive rate increases by 24.1% on QuALITY and 18.3% on APPS. Finally, we show that probing, a state-of-the-art approach for detecting Intended Sophistry (e.g. backdoored LMs), does not generalize to U-SOPHISTRY. Our results highlight an important failure mode of RLHF and call for more research in assisting humans to align them. | 翻訳日:2024-11-07 13:10:09 公開日:2024-09-25 |
# 言語モデルはRLHFを通して人間を誤解させる
Language Models Learn to Mislead Humans via RLHF ( http://arxiv.org/abs/2409.12822v2 ) ライセンス: Link先を確認 | Jiaxin Wen, Ruiqi Zhong, Akbir Khan, Ethan Perez, Jacob Steinhardt, Minlie Huang, Samuel R. Bowman, He He, Shi Feng, | (参考訳) 言語モデル(LM)は、特にタスクが複雑である場合に、人間にとって検出が難しいエラーを生成する。
RLHFは、最も人気のあるポストトレーニング手法であり、より高い報酬を得るためには、人間が間違っている場合でも正しいことを人間に納得させることがより良くなる可能性がある。
我々はこの現象を標準のRLHFパイプラインで研究し、「U-SOPHISTRY」と呼ぶ。
具体的には、時間制約付き(例えば310分)の被験者に対して、モデル出力の正確性を評価し、金ラベルに対する人間の精度を計算する。
質問応答タスク(QuALITY)とプログラミングタスク(APPS)において、RLHFは、LMを被験者に納得させるのに優れているが、そのタスクを正しく完了させるには向いていない。
被験者の偽陽性率はQuALITYで24.1%、APPSで18.3%増加する。
最後に,Intended Sophistry (例: LMs) 検出の最先端手法であるプローブがU-SOPHISTRYに一般化されないことを示す。
我々の研究は、RLHFの重要な障害モードを強調し、人間の調整を支援するためのさらなる研究を求めている。
Language models (LMs) can produce errors that are hard to detect for humans, especially when the task is complex. RLHF, the most popular post-training method, may exacerbate this problem: to achieve higher rewards, LMs might get better at convincing humans that they are right even when they are wrong. We study this phenomenon under a standard RLHF pipeline, calling it "U-SOPHISTRY" since it is Unintended by model developers. Specifically, we ask time-constrained (e.g., 3-10 minutes) human subjects to evaluate the correctness of model outputs and calculate humans' accuracy against gold labels. On a question-answering task (QuALITY) and programming task (APPS), RLHF makes LMs better at convincing our subjects but not at completing the task correctly. RLHF also makes the model harder to evaluate: our subjects' false positive rate increases by 24.1% on QuALITY and 18.3% on APPS. Finally, we show that probing, a state-of-the-art approach for detecting Intended Sophistry (e.g. backdoored LMs), does not generalize to U-SOPHISTRY. Our results highlight an important failure mode of RLHF and call for more research in assisting humans to align them. | 翻訳日:2024-11-07 13:10:09 公開日:2024-09-25 |
# JourneyBench: 生成した画像のベンチマークをワンストップで理解する
JourneyBench: A Challenging One-Stop Vision-Language Understanding Benchmark of Generated Images ( http://arxiv.org/abs/2409.12953v2 ) ライセンス: Link先を確認 | Zhecan Wang, Junzhang Liu, Chia-Wei Tang, Hani Alomari, Anushka Sivakumar, Rui Sun, Wenhao Li, Md. Atabuzzaman, Hammad Ayyubi, Haoxuan You, Alvi Ishmam, Kai-Wei Chang, Shih-Fu Chang, Chris Thomas, | (参考訳) 既存の視覚言語理解ベンチマークは、主に通常のコンテキストにおけるオブジェクトのイメージで構成されている。
その結果、最近のマルチモーダルな大規模言語モデルは、背景言語バイアスに頼ることで、浅い視覚的理解だけでうまく機能する。
したがって、これらのベンチマークの強い性能は、必ずしも強い視覚的理解と相関しない。
本稿では,5つのタスク – 相補的マルチモーダル連鎖,マルチモーダルVQA,想像的イメージキャプション,幻覚トリガ付きVQA,サンプル特異的イントラクタを用いたきめ細かな検索 – において,モデルの細粒度マルチモーダル推論能力を評価するために設計された,生成された画像の包括的な人間アノテーションベンチマークであるJourneyBenchをリリースする。
既存のベンチマークとは異なり、JourneyBenchは言語バイアスと全体像が不十分な特異な想像上のシナリオにおいて、きめ細かいマルチモーダル推論を必要とする。
我々はJourneyBenchの最先端モデルをベンチマークし、多数のきめ細かい寸法に沿って性能を解析する。
5つのタスクにまたがる結果は、JourneyBenchが最高のモデルでも非常に難しいことを示し、モデルの視覚的推論能力が最初に現れるほど強くないことを示している。
本研究の意義を考察し,今後の研究への道筋を提案する。
Existing vision-language understanding benchmarks largely consist of images of objects in their usual contexts. As a consequence, recent multimodal large language models can perform well with only a shallow visual understanding by relying on background language biases. Thus, strong performance on these benchmarks does not necessarily correlate with strong visual understanding. In this paper, we release JourneyBench, a comprehensive human-annotated benchmark of generated images designed to assess the model's fine-grained multimodal reasoning abilities across five tasks: complementary multimodal chain of thought, multi-image VQA, imaginary image captioning, VQA with hallucination triggers, and fine-grained retrieval with sample-specific distractors. Unlike existing benchmarks, JourneyBench explicitly requires fine-grained multimodal reasoning in unusual imaginary scenarios where language bias and holistic image gist are insufficient. We benchmark state-of-the-art models on JourneyBench and analyze performance along a number of fine-grained dimensions. Results across all five tasks show that JourneyBench is exceptionally challenging for even the best models, indicating that models' visual reasoning abilities are not as strong as they first appear. We discuss the implications of our findings and propose avenues for further research. | 翻訳日:2024-11-07 12:48:01 公開日:2024-09-25 |
# JourneyBench: 生成した画像のベンチマークをワンストップで理解する
JourneyBench: A Challenging One-Stop Vision-Language Understanding Benchmark of Generated Images ( http://arxiv.org/abs/2409.12953v3 ) ライセンス: Link先を確認 | Zhecan Wang, Junzhang Liu, Chia-Wei Tang, Hani Alomari, Anushka Sivakumar, Rui Sun, Wenhao Li, Md. Atabuzzaman, Hammad Ayyubi, Haoxuan You, Alvi Ishmam, Kai-Wei Chang, Shih-Fu Chang, Chris Thomas, | (参考訳) 既存の視覚言語理解ベンチマークは、主に通常のコンテキストにおけるオブジェクトのイメージで構成されている。
その結果、最近のマルチモーダルな大規模言語モデルは、背景言語バイアスに頼ることで、浅い視覚的理解だけでうまく機能する。
したがって、これらのベンチマークの強い性能は、必ずしも強い視覚的理解と相関しない。
本稿では,5つのタスク – 相補的マルチモーダル連鎖,マルチモーダルVQA,想像的イメージキャプション,幻覚トリガ付きVQA,サンプル特異的イントラクタを用いたきめ細かな検索 – において,モデルの細粒度マルチモーダル推論能力を評価するために設計された,生成された画像の包括的な人間アノテーションベンチマークであるJourneyBenchをリリースする。
既存のベンチマークとは異なり、JourneyBenchは言語バイアスと全体像が不十分な特異な想像上のシナリオにおいて、きめ細かいマルチモーダル推論を必要とする。
我々はJourneyBenchの最先端モデルをベンチマークし、多数のきめ細かい寸法に沿って性能を解析する。
5つのタスクにまたがる結果は、JourneyBenchが最高のモデルでも非常に難しいことを示し、モデルの視覚的推論能力が最初に現れるほど強くないことを示している。
本研究の意義を考察し,今後の研究への道筋を提案する。
Existing vision-language understanding benchmarks largely consist of images of objects in their usual contexts. As a consequence, recent multimodal large language models can perform well with only a shallow visual understanding by relying on background language biases. Thus, strong performance on these benchmarks does not necessarily correlate with strong visual understanding. In this paper, we release JourneyBench, a comprehensive human-annotated benchmark of generated images designed to assess the model's fine-grained multimodal reasoning abilities across five tasks: complementary multimodal chain of thought, multi-image VQA, imaginary image captioning, VQA with hallucination triggers, and fine-grained retrieval with sample-specific distractors. Unlike existing benchmarks, JourneyBench explicitly requires fine-grained multimodal reasoning in unusual imaginary scenarios where language bias and holistic image gist are insufficient. We benchmark state-of-the-art models on JourneyBench and analyze performance along a number of fine-grained dimensions. Results across all five tasks show that JourneyBench is exceptionally challenging for even the best models, indicating that models' visual reasoning abilities are not as strong as they first appear. We discuss the implications of our findings and propose avenues for further research. | 翻訳日:2024-11-07 12:48:01 公開日:2024-09-25 |
# 深層学習による顔の動的特徴からの過度注意のリアルタイム推定
Real-time estimation of overt attention from dynamic features of the face using deep-learning ( http://arxiv.org/abs/2409.13084v1 ) ライセンス: Link先を確認 | Aimar Silvan Ortubay, Lucas C. Parra, Jens Madsen, | (参考訳) 学生は授業中、しばしば集中して漂流する。
効果的な教師はこれを認識し、必要に応じて再入学する。
遠隔学習への移行に伴い、教師は様々な学生のエンゲージメントに適応するために必要な視覚的フィードバックを失っている。
本稿では,目,頭,顔の動きに基づいて注目度を推定するために,手軽に利用できる前面映像を提案する。
我々は,眼球運動に基づく注意度を推定するために,深層学習モデルを訓練する。
具体的には、学生が同じ教育ビデオを見ている間、10秒間隔で眼球運動の物体間相関を測定する。
3つの異なる実験 (N=83) において、トレーニングされたモデルは、$R^2$=0.38、$R^2$=0.26-0.30の未確認データに対して、この客観的な計測値を予測する。
深いネットワークは、主に学生の目の動きに依存するが、ある程度は額、頬、頭の動きにも依存する。
対象間の視線相関とは対照的に,各学生の動きからの注意関係を,注意グループからの参照データを必要とせずに推定することができる。
これにより、より広範なオンラインアプリケーションが可能になる。
ソリューションは軽量で、クライアント側で操作できるため、オンラインの注意監視に関連するプライバシー上の懸念が軽減される。
Students often drift in and out of focus during class. Effective teachers recognize this and re-engage them when necessary. With the shift to remote learning, teachers have lost the visual feedback needed to adapt to varying student engagement. We propose using readily available front-facing video to infer attention levels based on movements of the eyes, head, and face. We train a deep learning model to predict a measure of attention based on overt eye movements. Specifically, we measure Inter-Subject Correlation of eye movements in ten-second intervals while students watch the same educational videos. In 3 different experiments (N=83) we show that the trained model predicts this objective metric of attention on unseen data with $R^2$=0.38, and on unseen subjects with $R^2$=0.26-0.30. The deep network relies mostly on a student's eye movements, but to some extent also on movements of the brows, cheeks, and head. In contrast to Inter-Subject Correlation of the eyes, the model can estimate attentional engagement from individual students' movements without needing reference data from an attentive group. This enables a much broader set of online applications. The solution is lightweight and can operate on the client side, which mitigates some of the privacy concerns associated with online attention monitoring. | 翻訳日:2024-11-07 12:03:17 公開日:2024-09-25 |
# 深層学習による顔の動的特徴からの過度注意のリアルタイム推定
Real-time estimation of overt attention from dynamic features of the face using deep-learning ( http://arxiv.org/abs/2409.13084v2 ) ライセンス: Link先を確認 | Aimar Silvan Ortubay, Lucas C. Parra, Jens Madsen, | (参考訳) 学生は授業中、しばしば集中して漂流する。
効果的な教師はこれを認識し、必要に応じて再入学する。
遠隔学習への移行に伴い、教師は様々な学生のエンゲージメントに適応するために必要な視覚的フィードバックを失っている。
本稿では,目,頭,顔の動きに基づいて注目度を推定するために,手軽に利用できる前面映像を提案する。
我々は,眼球運動に基づく注意度を推定するために,深層学習モデルを訓練する。
具体的には、学生が同じ教育ビデオを見ている間、10秒間隔で眼球運動の物体間相関を測定する。
3つの異なる実験 (N=83) において、トレーニングされたモデルは、$R^2$=0.38、$R^2$=0.26-0.30の未確認データに対して、この客観的な計測値を予測する。
深いネットワークは、主に学生の目の動きに依存するが、ある程度は額、頬、頭の動きにも依存する。
対象間の視線相関とは対照的に,各学生の動きからの注意関係を,注意グループからの参照データを必要とせずに推定することができる。
これにより、より広範なオンラインアプリケーションが可能になる。
ソリューションは軽量で、クライアント側で操作できるため、オンラインの注意監視に関連するプライバシー上の懸念が軽減される。
GitHubの実装はhttps://github.com/asortubay/timeISCで公開されている。
Students often drift in and out of focus during class. Effective teachers recognize this and re-engage them when necessary. With the shift to remote learning, teachers have lost the visual feedback needed to adapt to varying student engagement. We propose using readily available front-facing video to infer attention levels based on movements of the eyes, head, and face. We train a deep learning model to predict a measure of attention based on overt eye movements. Specifically, we measure Inter-Subject Correlation of eye movements in ten-second intervals while students watch the same educational videos. In 3 different experiments (N=83) we show that the trained model predicts this objective metric of attention on unseen data with $R^2$=0.38, and on unseen subjects with $R^2$=0.26-0.30. The deep network relies mostly on a student's eye movements, but to some extent also on movements of the brows, cheeks, and head. In contrast to Inter-Subject Correlation of the eyes, the model can estimate attentional engagement from individual students' movements without needing reference data from an attentive group. This enables a much broader set of online applications. The solution is lightweight and can operate on the client side, which mitigates some of the privacy concerns associated with online attention monitoring. GitHub implementation is available at https://github.com/asortubay/timeISC | 翻訳日:2024-11-07 12:03:17 公開日:2024-09-25 |
# 高速決定木学習はハードコーディング理論の問題を解決する
Fast decision tree learning solves hard coding-theoretic problems ( http://arxiv.org/abs/2409.13096v1 ) ライセンス: Link先を確認 | Caleb Koch, Carmen Strassle, Caleb Koch, | (参考訳) 我々は、PAC学習決定ツリーの適切な問題とパラメータ化Nearest Codeword Problem(k$-NCP)を結びつける。
半ポリノミカル時間における前者の最速のアルゴリズム (Ehrenfeucht and Haussler 1989) と後者の近似比は$O(n/\log n)$ (Berman and Karpinsky 2002; Alon, Panigrahy, Yekhanin 2009) である。
これまでのところ、両問題の研究は無関係で独立に進められている。
我々は、Ehrenfeucht と Haussler のアルゴリズムの改善に対して、$k$-NCP に対して$O(\log n)$-approximation アルゴリズムが得られることを示す。
これは、$k$-NCPのアルゴリズムを設計するための新しい道か、Ehrenfeucht と Haussler のアルゴリズムの最適性を確立するための道と解釈できる。
さらに、既存の$k$-NCPに対する不適応性とともに、決定木を適切に学習するための多項式時間アルゴリズムを既に除外している。
難易度の結果の顕著な側面は、$\textit{weak}$ Learningの設定であっても、以前のものは強い学習の設定に限られていたことです。
We connect the problem of properly PAC learning decision trees to the parameterized Nearest Codeword Problem ($k$-NCP). Despite significant effort by the respective communities, algorithmic progress on both problems has been stuck: the fastest known algorithm for the former runs in quasipolynomial time (Ehrenfeucht and Haussler 1989) and the best known approximation ratio for the latter is $O(n/\log n)$ (Berman and Karpinsky 2002; Alon, Panigrahy, and Yekhanin 2009). Research on both problems has thus far proceeded independently with no known connections. We show that $\textit{any}$ improvement of Ehrenfeucht and Haussler's algorithm will yield $O(\log n)$-approximation algorithms for $k$-NCP, an exponential improvement of the current state of the art. This can be interpreted either as a new avenue for designing algorithms for $k$-NCP, or as one for establishing the optimality of Ehrenfeucht and Haussler's algorithm. Furthermore, our reduction along with existing inapproximability results for $k$-NCP already rule out polynomial-time algorithms for properly learning decision trees. A notable aspect of our hardness results is that they hold even in the setting of $\textit{weak}$ learning whereas prior ones were limited to the setting of strong learning. | 翻訳日:2024-11-07 11:52:12 公開日:2024-09-25 |
# 高速決定木学習はハードコーディング理論の問題を解決する
Fast decision tree learning solves hard coding-theoretic problems ( http://arxiv.org/abs/2409.13096v2 ) ライセンス: Link先を確認 | Caleb Koch, Carmen Strassle, Li-Yang Tan, | (参考訳) 我々は、PAC学習決定ツリーの適切な問題とパラメータ化Nearest Codeword Problem(k$-NCP)を結びつける。
半ポリノミカル時間における前者の最速のアルゴリズム (Ehrenfeucht and Haussler 1989) と後者の近似比は$O(n/\log n)$ (Berman and Karpinsky 2002; Alon, Panigrahy, Yekhanin 2009) である。
これまでのところ、両問題の研究は無関係で独立に進められている。
我々は、Ehrenfeucht と Haussler のアルゴリズムの改善に対して、$k$-NCP に対して$O(\log n)$-approximation アルゴリズムが得られることを示す。
これは、$k$-NCPのアルゴリズムを設計するための新しい道か、Ehrenfeucht と Haussler のアルゴリズムの最適性を確立するための道と解釈できる。
さらに、既存の$k$-NCPに対する不適応性とともに、決定木を適切に学習するための多項式時間アルゴリズムを既に除外している。
難易度の結果の顕著な側面は、$\textit{weak}$ Learningの設定であっても、以前のものは強い学習の設定に限られていたことです。
We connect the problem of properly PAC learning decision trees to the parameterized Nearest Codeword Problem ($k$-NCP). Despite significant effort by the respective communities, algorithmic progress on both problems has been stuck: the fastest known algorithm for the former runs in quasipolynomial time (Ehrenfeucht and Haussler 1989) and the best known approximation ratio for the latter is $O(n/\log n)$ (Berman and Karpinsky 2002; Alon, Panigrahy, and Yekhanin 2009). Research on both problems has thus far proceeded independently with no known connections. We show that $\textit{any}$ improvement of Ehrenfeucht and Haussler's algorithm will yield $O(\log n)$-approximation algorithms for $k$-NCP, an exponential improvement of the current state of the art. This can be interpreted either as a new avenue for designing algorithms for $k$-NCP, or as one for establishing the optimality of Ehrenfeucht and Haussler's algorithm. Furthermore, our reduction along with existing inapproximability results for $k$-NCP already rule out polynomial-time algorithms for properly learning decision trees. A notable aspect of our hardness results is that they hold even in the setting of $\textit{weak}$ learning whereas prior ones were limited to the setting of strong learning. | 翻訳日:2024-11-07 11:52:12 公開日:2024-09-25 |
# RLHFuse:段階内核融合を用いた大規模言語モデルの効率的なRLHF訓練
RLHFuse: Efficient RLHF Training for Large Language Models with Inter- and Intra-Stage Fusion ( http://arxiv.org/abs/2409.13221v1 ) ライセンス: Link先を確認 | Yinmin Zhong, Zili Zhang, Bingyang Wu, Shengyu Liu, Yukun Chen, Changyi Wan, Hanpeng Hu, Lei Xia, Ranchen Ming, Yibo Zhu, Xin Jin, | (参考訳) RLHF(Reinforcement Learning from Human Feedback)は、LLMと人間の嗜好の整合性を高めるための重要なポストトレーニング技術である。
RLHFのワークフローは通常、一連の異なる段階におけるいくつかのモデルとタスクを含む。
既存のRLHFトレーニングシステムは、各タスクを最小の実行ユニットと見なしているため、サブタスクレベルの最適化の機会を見越すことができる。
RLHFトレーニングの本質的な性質、すなわち、生成段階でのデータ歪と、トレーニング段階でのパイプラインバブルにより、既存のRLHFシステムは、プロダクションデプロイメントにおけるGPU利用の低さに悩まされる。
RLHFuseは、個々のタスクの合成としてRLHFワークフローの従来のビューを分解し、各タスクをよりきめ細かいサブタスクに分割し、GPU利用を改善するためにステージ融合を実行する。
RLHFuseには2つの重要なアイデアが含まれている。
第一に、生成および推論タスクでは、RLHFuseはそれらをサンプルレベルのサブタスクに分割し、より効率的な段階間融合により、長い尾を持つサンプルが支配する生成ボトルネックを緩和する。
第二に、トレーニングタスクのために、RLHFuseはそれらをマイクロバッチのサブタスクに分割する。
パイプライン実行を基本的に別のパイプラインで補完できるという直感を活用することで、RLHFuseは、トレーニング段階でこれらのサブタスクを同時に実行するためのステージ内融合を実行し、パイプラインスケジュールを融合させ、パイプラインバブルを少なくする。
さらにRLHFuseには,RLHFの各ステージに適した一連のシステム最適化が組み込まれています。
その結果,RLHFuseは既存の最先端システムと比較して,トレーニングのスループットを最大3.7倍に向上させることがわかった。
Reinforcement Learning from Human Feedback (RLHF) stands as a pivotal post-training technique to enhance the alignment between LLMs and human preference. The workflow of RLHF typically involves several models and tasks in a series of distinct stages. Existing RLHF training systems view each task as the smallest execution unit thus overlooking the opportunities for subtask-level optimizations. Due to the intrinsic nature of RLHF training, i.e., the data skewness in the generation stage, and the pipeline bubbles in the training stage, existing RLHF systems suffer from low GPU utilization in production deployments. RLHFuse breaks the traditional view of RLHF workflow as a composition of individual tasks, splitting each task into finer-grained subtasks, and performing stage fusion to improve GPU utilization. RLHFuse contains two key ideas. First, for generation and inference tasks, RLHFuse splits them into sample-level subtasks, enabling efficient inter-stage fusion to mitigate the original generation bottleneck dominated by long-tailed samples. Second, for training tasks, RLHFuse breaks them into subtasks of micro-batches. By leveraging the intuition that pipeline execution can be essentially complemented by another pipeline, RLHFuse performs intra-stage fusion to concurrently execute these subtasks in the training stage with a fused pipeline schedule, resulting in fewer pipeline bubbles. In addition, RLHFuse incorporates a series of system optimizations tailored for each stage of RLHF, making it efficient and scalable for our internal product usage. We evaluate RLHFuse on various popular LLMs and the results show that RLHFuse increases the training throughput by up to 3.7x, compared to existing state-of-the-art systems. | 翻訳日:2024-11-07 11:18:04 公開日:2024-09-25 |
# RLHFuse:段階内核融合を用いた大規模言語モデルの効率的なRLHF訓練
RLHFuse: Efficient RLHF Training for Large Language Models with Inter- and Intra-Stage Fusion ( http://arxiv.org/abs/2409.13221v2 ) ライセンス: Link先を確認 | Yinmin Zhong, Zili Zhang, Bingyang Wu, Shengyu Liu, Yukun Chen, Changyi Wan, Hanpeng Hu, Lei Xia, Ranchen Ming, Yibo Zhu, Xin Jin, | (参考訳) RLHF(Reinforcement Learning from Human Feedback)は、LLMと人間の嗜好の整合性を高める。
RLHFのワークフローは通常、一連の異なる段階におけるいくつかのモデルとタスクを含む。
既存のRLHFトレーニングシステムは、各タスクを最小の実行ユニットと見なしているため、サブタスクレベルの最適化の機会を見越すことができる。
RLHFトレーニングの本質的な性質、すなわち、生成段階でのデータ歪と、トレーニング段階でのパイプラインバブルにより、既存のRLHFシステムは、プロダクションデプロイメントにおけるGPU利用の低さに悩まされる。
RLHFuseは、個々のタスクの合成としてRLHFワークフローの従来のビューを分解し、各タスクをよりきめ細かいサブタスクに分割し、GPU利用を改善するためにステージ融合を実行する。
RLHFuseには2つの重要なアイデアが含まれている。
第一に、生成および推論タスクでは、RLHFuseはそれらをサンプルレベルのサブタスクに分割し、より効率的な段階間融合により、長い尾を持つサンプルが支配する生成ボトルネックを緩和する。
第二に、トレーニングタスクのために、RLHFuseはそれらをマイクロバッチのサブタスクに分割する。
パイプライン実行を基本的に別のパイプラインで補完できるという直感を活用することで、RLHFuseは、トレーニング段階でこれらのサブタスクを同時に実行するためのステージ内融合を実行し、パイプラインスケジュールを融合させ、パイプラインバブルを少なくする。
さらにRLHFuseには,RLHFの各ステージに適した一連のシステム最適化が組み込まれています。
その結果,RLHFuseは既存の最先端システムと比較して,トレーニングのスループットを最大3.7倍に向上させることがわかった。
Reinforcement Learning from Human Feedback (RLHF) enhances the alignment between LLMs and human preference. The workflow of RLHF typically involves several models and tasks in a series of distinct stages. Existing RLHF training systems view each task as the smallest execution unit thus overlooking the opportunities for subtask-level optimizations. Due to the intrinsic nature of RLHF training, i.e., the data skewness in the generation stage, and the pipeline bubbles in the training stage, existing RLHF systems suffer from low GPU utilization in production deployments. RLHFuse breaks the traditional view of RLHF workflow as a composition of individual tasks, splitting each task into finer-grained subtasks, and performing stage fusion to improve GPU utilization. RLHFuse contains two key ideas. First, for generation and inference tasks, RLHFuse splits them into sample-level subtasks, enabling efficient inter-stage fusion to mitigate the original generation bottleneck dominated by long-tailed samples. Second, for training tasks, RLHFuse breaks them into subtasks of micro-batches. By leveraging the intuition that pipeline execution can be essentially complemented by another pipeline, RLHFuse performs intra-stage fusion to concurrently execute these subtasks in the training stage with a fused pipeline schedule, resulting in fewer pipeline bubbles. In addition, RLHFuse incorporates a series of system optimizations tailored for each stage of RLHF, making it efficient and scalable for our internal product usage. We evaluate RLHFuse on various popular LLMs and the results show that RLHFuse increases the training throughput by up to 3.7x, compared to existing state-of-the-art systems. | 翻訳日:2024-11-07 11:18:04 公開日:2024-09-25 |
# 動的量子相転移における一様および普遍的スケーリング
Unique and Universal scaling in dynamical quantum phase transitions ( http://arxiv.org/abs/2409.13293v2 ) ライセンス: Link先を確認 | Xiang Zhang, Liangdong Hu, Fuxiang Li, | (参考訳) 普遍性とスケーリングは平衡連続相転移の基本的な概念である。
ここでは、ゆっくりと駆動された動的量子相転移における臨界時間のユニークで普遍的なスケーリングの挙動を明らかにする。
平衡相転移の類似を超越して、臨界時間はクエンチングレートのゆるいスケーリングを示し、スケーリング指数は普遍性クラスを下線化することによって完全に決定される。
キブル・ズールク機構における断熱的インパルスのシナリオに基づいて,このユニークなスケーリング挙動を説明する。
この普遍的なスケーリング挙動は、相互作用しない単一粒子系だけでなく、多体相互作用系においても有効であり、エルミート系だけでなく、非エルミート系においても有効である。
本研究は, 動的相転移と平衡相転移の深い基礎的関係を明らかにする。
Universality and scaling are fundamental concepts in equilibrium continuous phase transitions. Here, we unveil a unique and universal scaling behavior of the critical time in slowly driven dynamical quantum phase transition. Going beyond the analogy with equilibrium phase transition, we find that the critical time exhibits a power-law scaling with quenching rate and the scaling exponent is fully determined by underlining universality class. We explain this unique scaling behavior based on the adiabatic-impulse scenario in the Kibble-Zurek mechanism. This universal scaling behavior is verified to be valid not only in noninteracting single-particle system, but also in many-body interacting system, and not only in Hermitian system, but also in non-Hermitian system. Our study unravels a deep and fundamental relationship between dynamical phase transition and equilibrium phase tranition. | 翻訳日:2024-11-07 07:51:11 公開日:2024-09-25 |
# 動的量子相転移における一様および普遍的スケーリング
Unique and Universal scaling in dynamical quantum phase transitions ( http://arxiv.org/abs/2409.13293v3 ) ライセンス: Link先を確認 | Xiang Zhang, Liangdong Hu, Fuxiang Li, | (参考訳) 普遍性とスケーリングは平衡連続相転移の基本的な概念である。
ここでは、ゆっくりと駆動された動的量子相転移における臨界時間のユニークで普遍的なスケーリングの挙動を明らかにする。
平衡相転移の類似を超越して、臨界時間はクエンチングレートのゆるいスケーリングを示し、スケーリング指数は普遍性クラスを下線化することによって完全に決定される。
キブル・ズールク機構における断熱的インパルスのシナリオに基づいて,このユニークなスケーリング挙動を説明する。
この普遍的なスケーリング挙動は、相互作用しない単一粒子系だけでなく、多体相互作用系においても有効であり、エルミート系だけでなく、非エルミート系においても有効である。
本研究は, 動的相転移と平衡相転移の深い基礎的関係を明らかにする。
Universality and scaling are fundamental concepts in equilibrium continuous phase transitions. Here, we unveil a unique and universal scaling behavior of the critical time in slowly driven dynamical quantum phase transition. Going beyond the analogy with equilibrium phase transition, we find that the critical time exhibits a power-law scaling with quenching rate and the scaling exponent is fully determined by underlining universality class. We explain this unique scaling behavior based on the adiabatic-impulse scenario in the Kibble-Zurek mechanism. This universal scaling behavior is verified to be valid not only in noninteracting single-particle system, but also in many-body interacting system, and not only in Hermitian system, but also in non-Hermitian system. Our study unravels a deep and fundamental relationship between dynamical phase transition and equilibrium phase tranition. | 翻訳日:2024-11-07 07:51:11 公開日:2024-09-25 |
# CVT-Occ:3次元作業予測のためのコストボリューム時間核融合
CVT-Occ: Cost Volume Temporal Fusion for 3D Occupancy Prediction ( http://arxiv.org/abs/2409.13430v2 ) ライセンス: Link先を確認 | Zhangchen Ye, Tao Jiang, Chenfeng Xu, Yiming Li, Hang Zhao, | (参考訳) 視覚に基づく3次元占有予測は、深度推定における単眼視の固有の限界によって著しく困難である。
本稿では,時間とともにボクセルの幾何学的対応を通して時間的融合を活用して3次元占有予測の精度を向上させるCVT-Occを提案する。
各ボクセルの視線に沿って点をサンプリングし、これらの点の特徴を歴史的フレームから統合することにより、予測結果を改善するために現在の体積特性を洗練するコストボリューム特徴写像を構築する。
本手法は,歴史的観測からパララックスの手がかりを生かし,データ駆動方式を用いてコストを学習する。
Occ3D-Waymoデータセットの厳密な実験によりCVT-Occの有効性を検証する。
コードは \url{https://github.com/Tsinghua-MARS-Lab/CVT-Occ} で公開されている。
Vision-based 3D occupancy prediction is significantly challenged by the inherent limitations of monocular vision in depth estimation. This paper introduces CVT-Occ, a novel approach that leverages temporal fusion through the geometric correspondence of voxels over time to improve the accuracy of 3D occupancy predictions. By sampling points along the line of sight of each voxel and integrating the features of these points from historical frames, we construct a cost volume feature map that refines current volume features for improved prediction outcomes. Our method takes advantage of parallax cues from historical observations and employs a data-driven approach to learn the cost volume. We validate the effectiveness of CVT-Occ through rigorous experiments on the Occ3D-Waymo dataset, where it outperforms state-of-the-art methods in 3D occupancy prediction with minimal additional computational cost. The code is released at \url{https://github.com/Tsinghua-MARS-Lab/CVT-Occ}. | 翻訳日:2024-11-07 07:17:49 公開日:2024-09-25 |
# CVT-Occ:3次元作業予測のためのコストボリューム時間核融合
CVT-Occ: Cost Volume Temporal Fusion for 3D Occupancy Prediction ( http://arxiv.org/abs/2409.13430v3 ) ライセンス: Link先を確認 | Zhangchen Ye, Tao Jiang, Chenfeng Xu, Yiming Li, Hang Zhao, | (参考訳) 視覚に基づく3次元占有予測は、深度推定における単眼視の固有の限界によって著しく困難である。
本稿では,時間とともにボクセルの幾何学的対応を通して時間的融合を活用して3次元占有予測の精度を向上させるCVT-Occを提案する。
各ボクセルの視線に沿って点をサンプリングし、これらの点の特徴を歴史的フレームから統合することにより、予測結果を改善するために現在の体積特性を洗練するコストボリューム特徴写像を構築する。
本手法は,歴史的観測からパララックスの手がかりを生かし,データ駆動方式を用いてコストを学習する。
Occ3D-Waymoデータセットの厳密な実験によりCVT-Occの有効性を検証する。
コードは \url{https://github.com/Tsinghua-MARS-Lab/CVT-Occ} で公開されている。
Vision-based 3D occupancy prediction is significantly challenged by the inherent limitations of monocular vision in depth estimation. This paper introduces CVT-Occ, a novel approach that leverages temporal fusion through the geometric correspondence of voxels over time to improve the accuracy of 3D occupancy predictions. By sampling points along the line of sight of each voxel and integrating the features of these points from historical frames, we construct a cost volume feature map that refines current volume features for improved prediction outcomes. Our method takes advantage of parallax cues from historical observations and employs a data-driven approach to learn the cost volume. We validate the effectiveness of CVT-Occ through rigorous experiments on the Occ3D-Waymo dataset, where it outperforms state-of-the-art methods in 3D occupancy prediction with minimal additional computational cost. The code is released at \url{https://github.com/Tsinghua-MARS-Lab/CVT-Occ}. | 翻訳日:2024-11-07 07:17:49 公開日:2024-09-25 |
# 二項系の微分とボメランの性質
The Differential and Boomerang Properties of a Class of Binomials ( http://arxiv.org/abs/2409.14264v1 ) ライセンス: Link先を確認 | Sihem Mesnager, Huawei Wu, | (参考訳) n$ を奇正整数とし、$p$ を$p\equiv 3\ ({\rm{mod}}\ 4)$ の奇素数とする。
本稿では、函数 $F_{2,u}(x)=x^2\big(1+u\eta(x)\big)$ over $\mathbb{F}_{p^n}$, where $u\in\mathbb{F}_{p^n}^*$ と $\eta$ の微分特性について検討する。
任意の$u\in\mathbb{F}_{p^n}^*$に対して$F_{2,u}$の微分均一性を決定し、局所APN関数$F_{2,\pm 1}$の微分スペクトルとブーメラン均一性を決定する。
Let $n$ be an odd positive integer and $p$ be an odd prime with $p\equiv 3\ ({\rm{mod}}\ 4)$. In this paper, we study the differential properties of the function $F_{2,u}(x)=x^2\big(1+u\eta(x)\big)$ over $\mathbb{F}_{p^n}$, where $u\in\mathbb{F}_{p^n}^*$ and $\eta$ is the quadratic character of $\mathbb{F}_{p^n}$. We determine the differential uniformity of $F_{2,u}$ for any $u\in\mathbb{F}_{p^n}^*$ and determine the differential spectrum and boomerang uniformity of the locally-APN function $F_{2,\pm 1}$. | 翻訳日:2024-11-06 23:26:16 公開日:2024-09-25 |
# 二項系の微分とボメランの性質
The Differential and Boomerang Properties of a Class of Binomials ( http://arxiv.org/abs/2409.14264v2 ) ライセンス: Link先を確認 | Sihem Mesnager, Huawei Wu, | (参考訳) q$を$q\equiv 3\ ({\rm{mod}}\ 4)$とする。
本稿では、函数 $F_{2,u}(x)=x^2\big(1+u\eta(x)\big)$ over $\mathbb{F}_{q}$, where $u\in\mathbb{F}_{q}^*$ と $\eta$ の微分およびブーメラン特性について検討する。
任意の$u\in\mathbb{F}_{q}^*$に対して$F_{2,u}$の微分均一性を決定し、局所APN関数$F_{2,\pm 1}$の微分スペクトルとブーメラン均一性を決定する。
Let $q$ be an odd prime power with $q\equiv 3\ ({\rm{mod}}\ 4)$. In this paper, we study the differential and boomerang properties of the function $F_{2,u}(x)=x^2\big(1+u\eta(x)\big)$ over $\mathbb{F}_{q}$, where $u\in\mathbb{F}_{q}^*$ and $\eta$ is the quadratic character of $\mathbb{F}_{q}$. We determine the differential uniformity of $F_{2,u}$ for any $u\in\mathbb{F}_{q}^*$ and determine the differential spectra and boomerang uniformity of the locally-APN functions $F_{2,\pm 1}$, thereby disproving a conjecture proposed in \cite{budaghyan2024arithmetization} which states that there exist infinitely many $q$ and $u$ such that $F_{2,u}$ is an APN function. | 翻訳日:2024-11-06 23:26:16 公開日:2024-09-25 |
# DilateQuant: ウェイトディレーションによる高精度かつ効率的な拡散量子化
DilateQuant: Accurate and Efficient Diffusion Quantization via Weight Dilation ( http://arxiv.org/abs/2409.14307v1 ) ライセンス: Link先を確認 | Xuewen Liu, Zhikai Li, Qingyi Gu, | (参考訳) 拡散モデルは、様々な画像生成タスクにおいて優れた性能を示すが、計算コストと膨大なメモリフットプリントは、現実のシナリオにおける低レイテンシの応用を妨げる。
量子化はモデルを圧縮し加速する有望な方法である。
それにもかかわらず、拡散モデルにおける広い範囲と時間変化の活性化により、既存の手法は、低ビット量子化のための精度と効率の両方を同時に維持することはできない。
この問題に対処するため,拡散モデルのための新しい量子化フレームワークであるDilateQuantを提案する。
具体的には、多くの不飽和チャネル内重みを熱心に認識し、演算コストを伴わずにアクティベーションの範囲を減らすために巧みに利用することができる。
この知見に基づいて、数学的に等価なスケーリングにより、不飽和チャネル内の重みを制限範囲に最大で拡張するウェイトディレーション(WD)を提案する。
WDは、アクティベーション量子化エラーをコストレスで重み量子化に吸収する。
アクティベーションの範囲は減少し、アクティベーションの量子化が容易になる。
重量の範囲は一定であり、トレーニング段階でモデルを収束させるのが容易である。
時間的ネットワークが時間的活性化につながることを考慮し、時間段階の量子化パラメータを設定し、異なる時間ステップで並列量子化をサポートし、性能を著しく改善し、時間コストを削減できる時間的並列量子化器(TPQ)を設計する。
効率を保ちながらさらなる性能向上を図るため、ブロックレベルで量子化されたモデルと完全精度のモデルとを整合させるブロックワイズ知識蒸留(BKD)を導入する。
時間ステップの量子化パラメータと重みの同時トレーニングは、必要な時間を最小限にし、短いバックプロパゲーションパスは、量子化プロセスのメモリフットプリントを減少させる。
Diffusion models have shown excellent performance on various image generation tasks, but the substantial computational costs and huge memory footprint hinder their low-latency applications in real-world scenarios. Quantization is a promising way to compress and accelerate models. Nevertheless, due to the wide range and time-varying activations in diffusion models, existing methods cannot maintain both accuracy and efficiency simultaneously for low-bit quantization. To tackle this issue, we propose DilateQuant, a novel quantization framework for diffusion models that offers comparable accuracy and high efficiency. Specifically, we keenly aware of numerous unsaturated in-channel weights, which can be cleverly exploited to reduce the range of activations without additional computation cost. Based on this insight, we propose Weight Dilation (WD) that maximally dilates the unsaturated in-channel weights to a constrained range through a mathematically equivalent scaling. WD costlessly absorbs the activation quantization errors into weight quantization. The range of activations decreases, which makes activations quantization easy. The range of weights remains constant, which makes model easy to converge in training stage. Considering the temporal network leads to time-varying activations, we design a Temporal Parallel Quantizer (TPQ), which sets time-step quantization parameters and supports parallel quantization for different time steps, significantly improving the performance and reducing time cost. To further enhance performance while preserving efficiency, we introduce a Block-wise Knowledge Distillation (BKD) to align the quantized models with the full-precision models at a block level. The simultaneous training of time-step quantization parameters and weights minimizes the time required, and the shorter backpropagation paths decreases the memory footprint of the quantization process. | 翻訳日:2024-11-06 23:15:03 公開日:2024-09-25 |
# DilateQuant: ウェイトディレーションによる高精度かつ効率的な拡散量子化
DilateQuant: Accurate and Efficient Diffusion Quantization via Weight Dilation ( http://arxiv.org/abs/2409.14307v2 ) ライセンス: Link先を確認 | Xuewen Liu, Zhikai Li, Qingyi Gu, | (参考訳) 拡散モデルは、様々な画像生成タスクにおいて優れた性能を示すが、計算コストと膨大なメモリフットプリントは、現実のシナリオにおける低レイテンシの応用を妨げる。
量子化はモデルを圧縮し加速する有望な方法である。
それにもかかわらず、拡散モデルにおける広い範囲と時間変化の活性化により、既存の手法は、低ビット量子化のための精度と効率の両方を同時に維持することはできない。
この問題に対処するため,拡散モデルのための新しい量子化フレームワークであるDilateQuantを提案する。
具体的には、多くの不飽和チャネル内重みを熱心に認識し、演算コストを伴わずにアクティベーションの範囲を減らすために巧みに利用することができる。
この知見に基づいて、数学的に等価なスケーリングにより、不飽和チャネル内の重みを制限範囲に最大で拡張するウェイトディレーション(WD)を提案する。
WDは、アクティベーション量子化エラーをコストレスで重み量子化に吸収する。
アクティベーションの範囲は減少し、アクティベーションの量子化が容易になる。
重量の範囲は一定であり、トレーニング段階でモデルを収束させるのが容易である。
時間的ネットワークが時間的活性化につながることを考慮し、時間段階の量子化パラメータを設定し、異なる時間ステップで並列量子化をサポートし、性能を著しく改善し、時間コストを削減できる時間的並列量子化器(TPQ)を設計する。
効率を保ちながらさらなる性能向上を図るため、ブロックレベルで量子化されたモデルと完全精度のモデルとを整合させるブロックワイズ知識蒸留(BKD)を導入する。
時間ステップの量子化パラメータと重みの同時トレーニングは、必要な時間を最小限にし、短いバックプロパゲーションパスは、量子化プロセスのメモリフットプリントを減少させる。
Diffusion models have shown excellent performance on various image generation tasks, but the substantial computational costs and huge memory footprint hinder their low-latency applications in real-world scenarios. Quantization is a promising way to compress and accelerate models. Nevertheless, due to the wide range and time-varying activations in diffusion models, existing methods cannot maintain both accuracy and efficiency simultaneously for low-bit quantization. To tackle this issue, we propose DilateQuant, a novel quantization framework for diffusion models that offers comparable accuracy and high efficiency. Specifically, we keenly aware of numerous unsaturated in-channel weights, which can be cleverly exploited to reduce the range of activations without additional computation cost. Based on this insight, we propose Weight Dilation (WD) that maximally dilates the unsaturated in-channel weights to a constrained range through a mathematically equivalent scaling. WD costlessly absorbs the activation quantization errors into weight quantization. The range of activations decreases, which makes activations quantization easy. The range of weights remains constant, which makes model easy to converge in training stage. Considering the temporal network leads to time-varying activations, we design a Temporal Parallel Quantizer (TPQ), which sets time-step quantization parameters and supports parallel quantization for different time steps, significantly improving the performance and reducing time cost. To further enhance performance while preserving efficiency, we introduce a Block-wise Knowledge Distillation (BKD) to align the quantized models with the full-precision models at a block level. The simultaneous training of time-step quantization parameters and weights minimizes the time required, and the shorter backpropagation paths decreases the memory footprint of the quantization process. | 翻訳日:2024-11-06 23:15:03 公開日:2024-09-25 |
# 2次元時空間力学のためのフーリエニューラル作用素
乱流
Fourier neural operators for spatiotemporal dynamics in two-dimensional turbulence ( http://arxiv.org/abs/2409.14660v1 ) ライセンス: Link先を確認 | Mohammad Atif and Pulkit Dubey and Pratik P. Aghor and Vanessa Lopez-Marrero and Tao Zhang and Abdullah Sharfuddin and Kwangmin Yu and Fan Yang and Foluso Ladeinde and Yangang Liu and Meifeng Lin and Lingda Li | (参考訳) 多くの実世界のアプリケーションに対する乱流の高忠実直接数値シミュレーションは、依然として卓越した計算課題である。
長期予測において不安定あるいは非物理的になるにもかかわらず、計算コストを軽減するために、最近いくつかの機械学習アプローチが提案されている。
フーリエ型ニューラル演算子(FNO)モデルと偏微分方程式(PDE)解法を組み合わせることにより,流体力学シミュレーションを高速化し,大規模乱流シミュレーションの計算コストに対処できることを確認した。
我々は、PDEソルバと同じ基盤上でFNOモデルを扱い、乱流の事前学習モデルを構築するために必要なデータの体積と時間分解能に関する重要な質問に答える。
また、乱流の長期シミュレーションのために、機械学習モデルによって回避される必要のある純粋にデータ駆動アプローチの落とし穴についても論じる。
High-fidelity direct numerical simulation of turbulent flows for most real-world applications remains an outstanding computational challenge. Several machine learning approaches have recently been proposed to alleviate the computational cost even though they become unstable or unphysical for long time predictions. We identify that the Fourier neural operator (FNO) based models combined with a partial differential equation (PDE) solver can accelerate fluid dynamic simulations and thus address computational expense of large-scale turbulence simulations. We treat the FNO model on the same footing as a PDE solver and answer important questions about the volume and temporal resolution of data required to build pre-trained models for turbulence. We also discuss the pitfalls of purely data-driven approaches that need to be avoided by the machine learning models to become viable and competitive tools for long time simulations of turbulence. | 翻訳日:2024-11-06 21:34:58 公開日:2024-09-25 |
# 2次元乱流における時空間力学のためのフーリエニューラル作用素
Fourier neural operators for spatiotemporal dynamics in two-dimensional turbulence ( http://arxiv.org/abs/2409.14660v2 ) ライセンス: Link先を確認 | Mohammad Atif, Pulkit Dubey, Pratik P. Aghor, Vanessa Lopez-Marrero, Tao Zhang, Abdullah Sharfuddin, Kwangmin Yu, Fan Yang, Foluso Ladeinde, Yangang Liu, Meifeng Lin, Lingda Li, | (参考訳) 多くの実世界のアプリケーションに対する乱流の高忠実直接数値シミュレーションは、依然として卓越した計算課題である。
長期予測において不安定あるいは非物理的になるにもかかわらず、計算コストを軽減するために、最近いくつかの機械学習アプローチが提案されている。
フーリエ型ニューラル演算子(FNO)モデルと偏微分方程式(PDE)解法を組み合わせることにより,流体力学シミュレーションを高速化し,大規模乱流シミュレーションの計算コストに対処できることを確認した。
我々は、PDEソルバと同じ基盤上でFNOモデルを扱い、乱流の事前学習モデルを構築するために必要なデータの体積と時間分解能に関する重要な質問に答える。
また、乱流の長期シミュレーションのために、機械学習モデルによって回避される必要のある純粋にデータ駆動アプローチの落とし穴についても論じる。
High-fidelity direct numerical simulation of turbulent flows for most real-world applications remains an outstanding computational challenge. Several machine learning approaches have recently been proposed to alleviate the computational cost even though they become unstable or unphysical for long time predictions. We identify that the Fourier neural operator (FNO) based models combined with a partial differential equation (PDE) solver can accelerate fluid dynamic simulations and thus address computational expense of large-scale turbulence simulations. We treat the FNO model on the same footing as a PDE solver and answer important questions about the volume and temporal resolution of data required to build pre-trained models for turbulence. We also discuss the pitfalls of purely data-driven approaches that need to be avoided by the machine learning models to become viable and competitive tools for long time simulations of turbulence. | 翻訳日:2024-11-06 21:34:58 公開日:2024-09-25 |
# 2次元乱流における時空間力学のためのフーリエニューラル作用素
Fourier neural operators for spatiotemporal dynamics in two-dimensional turbulence ( http://arxiv.org/abs/2409.14660v3 ) ライセンス: Link先を確認 | Mohammad Atif, Pulkit Dubey, Pratik P. Aghor, Vanessa Lopez-Marrero, Tao Zhang, Abdullah Sharfuddin, Kwangmin Yu, Fan Yang, Foluso Ladeinde, Yangang Liu, Meifeng Lin, Lingda Li, | (参考訳) 多くの実世界のアプリケーションに対する乱流の高忠実直接数値シミュレーションは、依然として卓越した計算課題である。
長期予測において不安定あるいは非物理的になるにもかかわらず、計算コストを軽減するために、最近いくつかの機械学習アプローチが提案されている。
フーリエ型ニューラル演算子(FNO)モデルと偏微分方程式(PDE)解法を組み合わせることにより,流体力学シミュレーションを高速化し,大規模乱流シミュレーションの計算コストに対処できることを確認した。
我々は、PDEソルバと同じ基盤上でFNOモデルを扱い、乱流の事前学習モデルを構築するために必要なデータの体積と時間分解能に関する重要な質問に答える。
また、乱流の長期シミュレーションのために、機械学習モデルによって回避される必要のある純粋にデータ駆動アプローチの落とし穴についても論じる。
High-fidelity direct numerical simulation of turbulent flows for most real-world applications remains an outstanding computational challenge. Several machine learning approaches have recently been proposed to alleviate the computational cost even though they become unstable or unphysical for long time predictions. We identify that the Fourier neural operator (FNO) based models combined with a partial differential equation (PDE) solver can accelerate fluid dynamic simulations and thus address computational expense of large-scale turbulence simulations. We treat the FNO model on the same footing as a PDE solver and answer important questions about the volume and temporal resolution of data required to build pre-trained models for turbulence. We also discuss the pitfalls of purely data-driven approaches that need to be avoided by the machine learning models to become viable and competitive tools for long time simulations of turbulence. | 翻訳日:2024-11-06 21:34:58 公開日:2024-09-25 |
# TransUKAN:医療画像セグメンテーションのための計算効率の良いハイブリッド・カン・トランス
TransUKAN:Computing-Efficient Hybrid KAN-Transformer for Enhanced Medical Image Segmentation ( http://arxiv.org/abs/2409.14676v1 ) ライセンス: Link先を確認 | Yanlin Wu, Tao Li, Zhihong Wang, Hong Kang, Along He, | (参考訳) U-Netは現在、医療画像セグメンテーションの最も広く使われているアーキテクチャである。
独自のエンコーダ・デコーダアーキテクチャと接続をスキップすることで、入力画像からセグメントターゲット領域への機能を効果的に抽出することができる。
一般的に使用されるU-Netは、典型的には畳み込み操作またはトランスフォーマーに基づいており、医療画像解析タスクを達成するために、ローカルまたはグローバルな情報間の依存関係をモデル化する。
しかし、このプロセスで使用される畳み込み層、完全に連結された層、および注意機構は、トレーニングプロセスに影響を与える可能性のある複雑な非線形関係をモデル化するためにネットワーク層の積み重ねを必要とする、かなりの数のパラメータを導入します。
これらの問題に対処するため,我々はTransUKANを提案する。
具体的には、メモリ使用量と計算負荷を削減するためにkanを改善した。
そこで我々は,kan, Transformer, U-Net 構造を効果的に組み合わせることを検討した。
このアプローチは、少数の追加パラメータのみを導入し、局所情報抽出におけるトランスフォーマー構造の欠如を補うことによって、非線形関係を捕捉するモデルの能力を向上する。
医療画像分割作業における TransUKAN の検証を行った。
実験結果から,TransUKANはパラメータが大幅に減少し,優れた性能を発揮することが示された。
コードはhttps://github.com/wuyanlin-wyl/TransUKAN.comから入手できる。
U-Net is currently the most widely used architecture for medical image segmentation. Benefiting from its unique encoder-decoder architecture and skip connections, it can effectively extract features from input images to segment target regions. The commonly used U-Net is typically based on convolutional operations or Transformers, modeling the dependencies between local or global information to accomplish medical image analysis tasks. However, convolutional layers, fully connected layers, and attention mechanisms used in this process introduce a significant number of parameters, often requiring the stacking of network layers to model complex nonlinear relationships, which can impact the training process. To address these issues, we propose TransUKAN. Specifically, we have improved the KAN to reduce memory usage and computational load. On this basis, we explored an effective combination of KAN, Transformer, and U-Net structures. This approach enhances the model's capability to capture nonlinear relationships by introducing only a small number of additional parameters and compensates for the Transformer structure's deficiency in local information extraction. We validated TransUKAN on multiple medical image segmentation tasks. Experimental results demonstrate that TransUKAN achieves excellent performance with significantly reduced parameters. The code will be available athttps://github.com/wuyanlin-wyl/TransUKAN. | 翻訳日:2024-11-06 21:34:58 公開日:2024-09-25 |
# TransUKAN:医療画像セグメンテーションのための計算効率の良いハイブリッド・カン・トランス
TransUKAN:Computing-Efficient Hybrid KAN-Transformer for Enhanced Medical Image Segmentation ( http://arxiv.org/abs/2409.14676v2 ) ライセンス: Link先を確認 | Yanlin Wu, Tao Li, Zhihong Wang, Hong Kang, Along He, | (参考訳) U-Netは現在、医療画像セグメンテーションの最も広く使われているアーキテクチャである。
独自のエンコーダ・デコーダアーキテクチャと接続をスキップすることで、入力画像からセグメントターゲット領域への機能を効果的に抽出することができる。
一般的に使用されるU-Netは、典型的には畳み込み操作またはトランスフォーマーに基づいており、医療画像解析タスクを達成するために、ローカルまたはグローバルな情報間の依存関係をモデル化する。
しかし、このプロセスで使用される畳み込み層、完全に連結された層、および注意機構は、トレーニングプロセスに影響を与える可能性のある複雑な非線形関係をモデル化するためにネットワーク層の積み重ねを必要とする、かなりの数のパラメータを導入します。
これらの問題に対処するため,我々はTransUKANを提案する。
具体的には、メモリ使用量と計算負荷を削減するためにkanを改善した。
そこで我々は,kan, Transformer, U-Net 構造を効果的に組み合わせることを検討した。
このアプローチは、少数の追加パラメータのみを導入し、局所情報抽出におけるトランスフォーマー構造の欠如を補うことによって、非線形関係を捕捉するモデルの能力を向上する。
医療画像分割作業における TransUKAN の検証を行った。
実験結果から,TransUKANはパラメータが大幅に減少し,優れた性能を発揮することが示された。
コードはhttps://github.com/wuyanlin-wyl/TransUKAN.comから入手できる。
U-Net is currently the most widely used architecture for medical image segmentation. Benefiting from its unique encoder-decoder architecture and skip connections, it can effectively extract features from input images to segment target regions. The commonly used U-Net is typically based on convolutional operations or Transformers, modeling the dependencies between local or global information to accomplish medical image analysis tasks. However, convolutional layers, fully connected layers, and attention mechanisms used in this process introduce a significant number of parameters, often requiring the stacking of network layers to model complex nonlinear relationships, which can impact the training process. To address these issues, we propose TransUKAN. Specifically, we have improved the KAN to reduce memory usage and computational load. On this basis, we explored an effective combination of KAN, Transformer, and U-Net structures. This approach enhances the model's capability to capture nonlinear relationships by introducing only a small number of additional parameters and compensates for the Transformer structure's deficiency in local information extraction. We validated TransUKAN on multiple medical image segmentation tasks. Experimental results demonstrate that TransUKAN achieves excellent performance with significantly reduced parameters. The code will be available athttps://github.com/wuyanlin-wyl/TransUKAN. | 翻訳日:2024-11-06 21:34:58 公開日:2024-09-25 |
# 多原子錯体 : トポロジカルにインフォームドされた原子系の学習表現
Polyatomic Complexes: A topologically-informed learning representation for atomistic systems ( http://arxiv.org/abs/2409.15600v2 ) ライセンス: Link先を確認 | Rahul Khorana, Marcus Noack, Jin Qian, | (参考訳) モデルがトポロジカルな帰納バイアスを学習できるような化学構造の堅牢な表現を開発することは困難である。
本書では,原子系の表現について述べる。
まず、我々の表現がすべての構造的、幾何学的、効率、一般化可能性の制約を満たすことを証明する。
その後、あらゆる原子系を符号化する一般的なアルゴリズムを提供する。
最後に,多くのタスクにおける最先端手法に匹敵する性能を報告する。
すべてのコードとデータセットをオープンソースにしています。
コードとデータはhttps://github.com/rahulkhorana/PolyatomicComplexesで公開されている。
Developing robust representations of chemical structures that enable models to learn topological inductive biases is challenging. In this manuscript, we present a representation of atomistic systems. We begin by proving that our representation satisfies all structural, geometric, efficiency, and generalizability constraints. Afterward, we provide a general algorithm to encode any atomistic system. Finally, we report performance comparable to state-of-the-art methods on numerous tasks. We open-source all code and datasets. The code and data are available at https://github.com/rahulkhorana/PolyatomicComplexes. | 翻訳日:2024-11-06 19:32:29 公開日:2024-09-25 |
# シングルジェリーマンダーのメトリクスを信用するな
Don't Trust A Single Gerrymandering Metric ( http://arxiv.org/abs/2409.17186v1 ) ライセンス: Link先を確認 | Thomas Ratliff, Stephanie Somersille, Ellen Veomett, | (参考訳) 近年, 選挙プロセスにおける公平性を促進するために, 地図がパルチザンジェリーマンダーであるか否かを判断するために, 様々な手法や指標が提案されている。
入手しやすいデータを必要とする最もアクセシブルな尺度は、平均メディア差、効率ギャップ、デクリエーション、GEOメトリックなどである。
しかし、これらの指標のほとんどについて、研究者は追加の情報や、1つの地図上のその指標の価値がゲーリーマンダリングの存在の有無を示す方法を説明するのに苦労してきた。
主な結果は、これらの指標がゲーリーマンダリング(またはその欠如)を検出するために単一の孤立した量として使用される場合、それぞれがゲーム可能であることです。
すなわち、4つの指標のそれぞれについて、非常に多くの民主党・ウォン(あるいは共和党・ウォン)地区がある州の地区計画を見つけることができるが、その計画のメートル法値は合理的で所定の範囲に収まる。
我々は,山登り法を用いて,メートル法上の境界に制約された地区計画を生成するとともに,当事者が獲得した地区数を最大又はほぼ最大化する。
加えて、平均媒介差の極端な値は、必ずしも極度に多くの地区が当選した地図に対応するとは限らない。
したがって、平均中間差分計量は、より極端な写像とより極端な写像を区別できないため、特に誤解を招く。
他の指標はよりニュアンスが高いが、アンサンブルで評価されると、固定政党が獲得した地区の数を単に測定するのとは大きく異なる。
これらの結果の明らかな結果の1つは、ゲーリーマンダリングを避けるために、再制限委員会が満たさなければならないメートル法上の事前境界を規定することの愚かさを示すことである。
In recent years, in an effort to promote fairness in the election process, a wide variety of techniques and metrics have been proposed to determine whether a map is a partisan gerrymander. The most accessible measures, requiring easily obtained data, are metrics such as the Mean-Median Difference, Efficiency Gap, Declination, and GEO metric. But for most of these metrics, researchers have struggled to describe, given no additional information, how a value of that metric on a single map indicates the presence or absence of gerrymandering. Our main result is that each of these metrics is gameable when used as a single, isolated quantity to detect gerrymandering (or the lack thereof). That is, for each of the four metrics, we can find district plans for a given state with an extremely large number of Democratic-won (or Republican-won) districts while the metric value of that plan falls within a reasonable, predetermined bound. We do this by using a hill-climbing method to generate district plans that are constrained by the bounds on the metric but also maximize or nearly maximize the number of districts won by a party. In addition, extreme values of the Mean-Median Difference do not necessarily correspond to maps with an extreme number of districts won. Thus, the Mean- Median Difference metric is particularly misleading, as it cannot distinguish more extreme maps from less extreme maps. The other metrics are more nuanced, but when assessed on an ensemble, none perform substantially differently from simply measuring number of districts won by a fixed party. One clear consequence of these results is that they demonstrate the folly of specifying a priori bounds on a metric that a redistricting commission must meet in order to avoid gerrymandering. | 翻訳日:2024-11-06 16:40:36 公開日:2024-09-25 |
# 時間変化指向ネットワーク上でのグラディエントトラッキングによる分散フェデレーション学習
Decentralized Federated Learning with Gradient Tracking over Time-Varying Directed Networks ( http://arxiv.org/abs/2409.17189v1 ) ライセンス: Link先を確認 | Duong Thuy Anh Nguyen, Su Wang, Duong Tung Nguyen, Angelia Nedich, H. Vincent Poor, | (参考訳) 時間変化有向グラフを用いた分散学習におけるエージェント・エージェント間相互作用の問題について検討し,DSGTm-TVと呼ばれるコンセンサスに基づくアルゴリズムを提案する。
提案アルゴリズムは勾配追跡と重球運動量を導入し,局所データのプライバシーを保ちながら,グローバルな目的関数を分散的に最適化する。
DSGTm-TVにおいて, エージェントは, 行および列確率混合行列によって実現された近隣エージェントとの情報交換を用いて, 局所モデルパラメータと勾配推定値を更新し, コンセンサスと最適性の両方を保証する。
解析により,DSGTm-TVは,正確な勾配情報が得られる場合に,正確な大域的最適値に線形収束を示し,確率的勾配を用いた場合,大域的最適値近傍に収束することが確認された。
さらに、既存の手法とは対照的に、DSGTm-TVは、非コーディネートなステップサイズと運動量パラメータを持つネットワークの収束を保ち、明示的な境界を提供する。
これらの結果により、エージェントは独立して局所的なハイパーパラメータを最適化し、完全に分散的に操作できる。
実世界の画像分類と自然言語処理タスクにおける最先端のベースラインとの比較により,本手法の有効性を実証する。
We investigate the problem of agent-to-agent interaction in decentralized (federated) learning over time-varying directed graphs, and, in doing so, propose a consensus-based algorithm called DSGTm-TV. The proposed algorithm incorporates gradient tracking and heavy-ball momentum to distributively optimize a global objective function, while preserving local data privacy. Under DSGTm-TV, agents will update local model parameters and gradient estimates using information exchange with neighboring agents enabled through row- and column-stochastic mixing matrices, which we show guarantee both consensus and optimality. Our analysis establishes that DSGTm-TV exhibits linear convergence to the exact global optimum when exact gradient information is available, and converges in expectation to a neighborhood of the global optimum when employing stochastic gradients. Moreover, in contrast to existing methods, DSGTm-TV preserves convergence for networks with uncoordinated stepsizes and momentum parameters, for which we provide explicit bounds. These results enable agents to operate in a fully decentralized manner, independently optimizing their local hyper-parameters. We demonstrate the efficacy of our approach via comparisons with state-of-the-art baselines on real-world image classification and natural language processing tasks. | 翻訳日:2024-11-06 16:40:36 公開日:2024-09-25 |
# 安全で安全な医療AIのためのガードレールの強化
Enhancing Guardrails for Safe and Secure Healthcare AI ( http://arxiv.org/abs/2409.17190v1 ) ライセンス: Link先を確認 | Ananya Gangavarapu, | (参考訳) ジェネレーティブAIは、グローバルなヘルスケアアクセスの課題に対処する上で大きな可能性を秘めている。
しかし、これらのドメイン固有のAIソリューションを広く採用する上で重要な障壁は、幻覚、誤報、真実性の確保といった問題を効果的に管理する堅牢な安全メカニズムの欠如である。
これらのリスクは、患者の安全と医療AIシステムの信頼を損なう可能性がある。
Llama Guardのような汎用フレームワークは毒性と有害なコンテンツをフィルタリングするのに有用だが、医療のコンテキストにおける真正さと安全性に対する厳密な要件を完全には解決していない。
本稿では,医療AI固有の安全性とセキュリティ上の課題,特に幻覚のリスク,誤報の拡散,臨床現場における現実的正確性の必要性について検討する。
私は、医療特有のニーズに合うように、Nvidia NeMo Guardrailsのような既存のガードレールフレームワークの強化を提案します。
これらの安全対策を強化することで、医療におけるAIの安全、信頼性、正確な使用を確実にし、誤情報リスクを軽減し、患者の安全性を向上させることを目指しています。
Generative AI holds immense promise in addressing global healthcare access challenges, with numerous innovative applications now ready for use across various healthcare domains. However, a significant barrier to the widespread adoption of these domain-specific AI solutions is the lack of robust safety mechanisms to effectively manage issues such as hallucination, misinformation, and ensuring truthfulness. Left unchecked, these risks can compromise patient safety and erode trust in healthcare AI systems. While general-purpose frameworks like Llama Guard are useful for filtering toxicity and harmful content, they do not fully address the stringent requirements for truthfulness and safety in healthcare contexts. This paper examines the unique safety and security challenges inherent to healthcare AI, particularly the risk of hallucinations, the spread of misinformation, and the need for factual accuracy in clinical settings. I propose enhancements to existing guardrails frameworks, such as Nvidia NeMo Guardrails, to better suit healthcare-specific needs. By strengthening these safeguards, I aim to ensure the secure, reliable, and accurate use of AI in healthcare, mitigating misinformation risks and improving patient safety. | 翻訳日:2024-11-06 16:40:36 公開日:2024-09-25 |
# 効果的でロバストで公平なヘイトスピーチ検出フレームワーク
An Effective, Robust and Fairness-aware Hate Speech Detection Framework ( http://arxiv.org/abs/2409.17191v1 ) ライセンス: Link先を確認 | Guanyi Mou, Kyumin Lee | (参考訳) オンラインソーシャルネットワークの普及に伴い、ヘイトスピーチは急速に広まり、これまで以上にダメージを与えている。
既存のヘイトスピーチ検出手法には、データ不足の処理、モデルの不確実性の推定、悪意のある攻撃に対する堅牢性の改善、意図しないバイアス(すなわち公正性)の処理など、いくつかの面で制限がある。
オンラインソーシャルネットワークでは、正確で堅牢で公正なヘイトスピーチ分類が緊急に必要である。
このギャップを埋めるために、我々は、データ拡張された、公平で、不確実な推定された新しいフレームワークを設計する。
フレームワークの一部として、効率と効率のバランスをとるために、双方向のQuasi-LSTM層を提案する。
一般化されたモデルを構築するために、3つのプラットフォームから収集された5つのデータセットを組み合わせる。
実験結果から,本モデルが攻撃シナリオと攻撃シナリオの両方で8つの最先端手法より優れており,本モデルの有効性とロバスト性を示している。
将来の研究のために、コードと組み合わせたデータセットを共有します
With the widespread online social networks, hate speeches are spreading faster and causing more damage than ever before. Existing hate speech detection methods have limitations in several aspects, such as handling data insufficiency, estimating model uncertainty, improving robustness against malicious attacks, and handling unintended bias (i.e., fairness). There is an urgent need for accurate, robust, and fair hate speech classification in online social networks. To bridge the gap, we design a data-augmented, fairness addressed, and uncertainty estimated novel framework. As parts of the framework, we propose Bidirectional Quaternion-Quasi-LSTM layers to balance effectiveness and efficiency. To build a generalized model, we combine five datasets collected from three platforms. Experiment results show that our model outperforms eight state-of-the-art methods under both no attack scenario and various attack scenarios, indicating the effectiveness and robustness of our model. We share our code along with combined dataset for better future research | 翻訳日:2024-11-06 16:40:36 公開日:2024-09-25 |
# 量子ビット表現のメカニズムの探求と視覚表現のための新しいカテゴリーシステムの導入:専門家評価の結果から
Exploring the mechanisms of qubit representations and introducing a new category system for visual representations: Results from expert ratings ( http://arxiv.org/abs/2409.17197v1 ) ライセンス: Link先を確認 | Linda Qerimi, Sarah Malone, Eva Rexigel, Sascha Mehlhase, Jochen Kuhn, Stefan Küchemann, | (参考訳) 量子物理学(QP)教育では、図表や数学的概念に結びつく視覚補助などの表現の使用が不可欠である。
表現論の研究は、記号的・数学的要素(e.g.式)と視覚的・グラフィック的表現を組み合わせることで、現象を単に描写する表現よりも概念的理解が効果的になることを示している。
しかし、共通表現は様々であり、既存の分類体系はQPにおいて両者を適切に区別しない。
これを解決するために、表現研究、QP教育、量子科学の特定の側面からの洞察に基づく新しい識別基準を開発した。
我々は,Ainsworths (2006) DeFT Frameworkを基盤として,視覚的QP表現を教育用に評価するための包括的カテゴリシステムを構築した。
4つの国からの専門家21人が、Bloch sphere、Circle Notation、Quantum Bead、Pie chart(Qake)モデルという4つのキュービット表現を用いてこのカテゴリシステムを評価した。
この評価により,QP概念の学習を支援する上で,基準の識別力と各表現の有効性を評価することができた。
量子状態、測定、重ね合わせ、絡み合い、量子技術(X-、Z-、H-ゲート)などの量子概念を16の基準でいかにうまく表現するかを評価した。
その結果,これらの表現の有効性,特に重ね合わせや測定といった重要な概念の伝達に有意な差が認められた。
さらに、専門家評価では、各表現が誤認識を誘発する可能性の顕著な変化を示し、形状の違い、測定行動、および絡み合いを理解するための要件に関連付けられていた。
また,新しい表現の展開について考察し,今後の実証研究の方向性を提案する。
In quantum physics (QP) education, the use of representations such as diagrams and visual aids that connect to mathematical concepts is crucial. Research in representation theory indicates that combining symbolic-mathematical elements (e.g. formulae) with visual-graphical representations enhances conceptual understanding more effectively than representations that merely depict phenomena. However, common representations vary widely, and existing categorisation systems do not adequately distinguish between them in QP. To address this, we developed a new set of differentiation criteria based on insights from representation research, QP education, and specific aspects of the quantum sciences. We created a comprehensive category system for evaluating visual QP representations for educational use, grounded in Ainsworths (2006) DeFT Framework. Twenty-one experts from four countries evaluated this category system using four qubit representations: the Bloch sphere, Circle Notation, Quantum Bead, and the pie chart (Qake) model. This evaluation enabled us to assess the discriminative power of our criteria and the effectiveness of each representation in supporting the learning of QP concepts. It evaluated how well each representation conveyed quantum concepts such as quantum state, measurement, superposition, entanglement, and quantum technologies (X-, Z-, and H-gates) across 16 criteria. The results showed significant differences in the effectiveness of these representations, particularly in conveying key concepts like superposition and measurement. Additionally, expert ratings indicated notable variations in the potential of each representation to induce misconceptions, linked to differences in shape, measurement behaviour, and requirements for understanding entanglement. We also discuss considerations for developing new representations and suggest directions for future empirical studies. | 翻訳日:2024-11-06 16:40:36 公開日:2024-09-25 |
# Floquet Lipkin-Meshkov-Glickモデルにおける絡み合いと動的凍結に対する対断的経路
A Counterdiabatic Route to Entanglement Steering and Dynamical Freezing in the Floquet Lipkin-Meshkov-Glick Model ( http://arxiv.org/abs/2409.17198v1 ) ライセンス: Link先を確認 | Nakshatra Gangopadhay, Sayan Choudhury, | (参考訳) 量子多体系の力学を制御することは、量子技術の発達に不可欠である。
この研究は、反断熱駆動(CD)が、長い時間、絡み合った軌道に沿って集合スピン系を操る強力なツールであることを示した。
特に、CD駆動は周期的に駆動されるリプキン-メシュコフ-グリックモデルにおいて、多くの初期状態に対する近似的なストロボスコピック凍結と永遠の絡み合い振動をもたらす。
これは、平均固有状態の絡み合いと逆参加比の減少を伴い、それによってより大きな固有状態の局在をシグナルとする。
我々の研究は、集合スピン系におけるフロケット加熱と絡み合いの発生を回避するための新しい経路を開く。
Controlling the dynamics of quantum many-body systems is crucial for developing quantum technologies. This work demonstrates that counter-diabatic (CD) driving provides a powerful tool for steering collective spin systems along entangled trajectories for a long time. In particular, CD driving leads to approximate stroboscopic freezing and eternal entanglement oscillations for a large class of initial states in the periodically driven Lipkin-Meshkov-Glick model. This is accompanied by a decrease in the average eigenstate entanglement and inverse participation ratio, thereby signalling greater eigenstate localization. Our work opens a new route to evade Floquet heating and control entanglement generation in collective spin systems. | 翻訳日:2024-11-06 16:40:36 公開日:2024-09-25 |
# 連続時間における強化学習に対するランダムな計測手法
A random measure approach to reinforcement learning in continuous time ( http://arxiv.org/abs/2409.17200v1 ) ライセンス: Link先を確認 | Christian Bender and Nguyen Tran Thuan | (参考訳) 本研究では,連続時間強化学習(Retinuous-time reinforcement Learning, RL)における計測値制御の実行と拡散と跳躍をモデル化するためのランダムな計測手法を提案する。
まず、離散時間グリッド上でランダム化制御を連続的にサンプリングし、結果の確率微分方程式(SDE)を適切なランダム測度によって駆動される方程式として再構成する。
これらのランダム測度の構築は、ブラウン運動とポアソンランダム測度(元のモデル力学のノイズ源)と、制御実行のためにグリッド上にサンプリングされた追加のランダム変数を利用する。
そして,サンプリンググリッドのメッシュサイズが0となるにつれて,これらのランダム測度に対する極限定理を証明し,ホワイトノイズランダム測度とポアソンランダム測度を併用したグリッドサンプリング限界SDEを導出する。
また、グリッドサンプリング限界SDEは、最近の連続時間RL文献の探索SDEとサンプルSDE、すなわち探索制御問題の理論的解析や学習アルゴリズムの導出に応用できると主張している。
We present a random measure approach for modeling exploration, i.e., the execution of measure-valued controls, in continuous-time reinforcement learning (RL) with controlled diffusion and jumps. First, we consider the case when sampling the randomized control in continuous time takes place on a discrete-time grid and reformulate the resulting stochastic differential equation (SDE) as an equation driven by suitable random measures. The construction of these random measures makes use of the Brownian motion and the Poisson random measure (which are the sources of noise in the original model dynamics) as well as the additional random variables, which are sampled on the grid for the control execution. Then, we prove a limit theorem for these random measures as the mesh-size of the sampling grid goes to zero, which leads to the grid-sampling limit SDE that is jointly driven by white noise random measures and a Poisson random measure. We also argue that the grid-sampling limit SDE can substitute the exploratory SDE and the sample SDE of the recent continuous-time RL literature, i.e., it can be applied for the theoretical analysis of exploratory control problems and for the derivation of learning algorithms. | 翻訳日:2024-11-06 16:40:36 公開日:2024-09-25 |
# 有限空間平均型ゲームのための強化学習
Reinforcement Learning for Finite Space Mean-Field Type Games ( http://arxiv.org/abs/2409.18152v1 ) ライセンス: Link先を確認 | Kai Shao, Jiacheng Shen, Chijie An, Mathieu Laurière, | (参考訳) 平均フィールド型ゲーム(MFTG)は、大連立間のナッシュ均衡を記述している: 各連立は、連立の平均的な報酬を最大化し、他の連立の有限個の連立と非協力的に相互作用する協力的エージェントの連続体からなる。
この理論は広く開発されているが、効率的でスケーラブルな計算方法がまだ欠けている。
そこで本研究では,一般力学と報酬関数を備えた有限空間設定において,そのようなゲームに対する強化学習手法を開発する。
まず、MFTG解が有限サイズの連立ゲームにおいて近似的なナッシュ平衡をもたらすことを証明することから始める。
次に2つのアルゴリズムを提案する。
1つ目は平均場空間の量子化とナッシュQ学習に基づいている。
収束解析と安定性解析を提供する。
次に,大規模空間に拡張可能な深層強化学習アルゴリズムを提案する。
5つの環境における数値的な例は,提案手法のスケーラビリティと効率性を示している。
Mean field type games (MFTGs) describe Nash equilibria between large coalitions: each coalition consists of a continuum of cooperative agents who maximize the average reward of their coalition while interacting non-cooperatively with a finite number of other coalitions. Although the theory has been extensively developed, we are still lacking efficient and scalable computational methods. Here, we develop reinforcement learning methods for such games in a finite space setting with general dynamics and reward functions. We start by proving that MFTG solution yields approximate Nash equilibria in finite-size coalition games. We then propose two algorithms. The first is based on quantization of the mean-field spaces and Nash Q-learning. We provide convergence and stability analysis. We then propose an deep reinforcement learning algorithm, which can scale to larger spaces. Numerical examples on 5 environments show the scalability and the efficiency of the proposed method. | 翻訳日:2024-11-06 15:41:17 公開日:2024-09-25 |
# 最も影響力のあるサブセット選択:挑戦、約束、そしてそれ以上
Most Influential Subset Selection: Challenges, Promises, and Beyond ( http://arxiv.org/abs/2409.18153v1 ) ライセンス: Link先を確認 | Yuzheng Hu, Pingbang Hu, Han Zhao, Jiaqi W. Ma, | (参考訳) 機械学習モデルの振る舞いをトレーニングデータにどのように当てはめることができるのか?
古典的な影響関数は個々のサンプルの影響に光を当てるが、サンプルの集合のより複雑で顕著な影響を捉えるのに失敗することが多い。
この課題に対処するために、最も集団的影響の大きいトレーニングサンプルのサブセットを特定することを目的としたMISS(Most Influential Subset Selection)問題について検討する。
我々は、MISにおける一般的なアプローチを包括的に分析し、その強みと弱点を解明する。
以上の結果から, 線形回帰においても, MISSにおけるアルゴリズムの優越クラスであるインフルエンスベースグリーディヒューリスティックスが確実に失敗する可能性が示唆された。
我々は、影響関数の誤りや集団的影響の非付加的構造を含む、障害モードを列挙する。
逆に、これらのヒューリスティックスの適応版を反復的に適用することで、サンプル間の相互作用を効果的に捉え、部分的に問題に対処できることを実証する。
実世界のデータセットの実験は、これらの理論的な発見を裏付け、適応性の利点が分類タスクや非線形ニューラルネットワークのようなより複雑なシナリオにまで拡張できることをさらに証明している。
我々は、性能と計算効率の本質的にのトレードオフを強調し、線形データモデリングスコアのような付加的なメトリクスの使用を疑問視し、様々な議論を行うことで、分析を結論付けている。
How can we attribute the behaviors of machine learning models to their training data? While the classic influence function sheds light on the impact of individual samples, it often fails to capture the more complex and pronounced collective influence of a set of samples. To tackle this challenge, we study the Most Influential Subset Selection (MISS) problem, which aims to identify a subset of training samples with the greatest collective influence. We conduct a comprehensive analysis of the prevailing approaches in MISS, elucidating their strengths and weaknesses. Our findings reveal that influence-based greedy heuristics, a dominant class of algorithms in MISS, can provably fail even in linear regression. We delineate the failure modes, including the errors of influence function and the non-additive structure of the collective influence. Conversely, we demonstrate that an adaptive version of these heuristics which applies them iteratively, can effectively capture the interactions among samples and thus partially address the issues. Experiments on real-world datasets corroborate these theoretical findings, and further demonstrate that the merit of adaptivity can extend to more complex scenarios such as classification tasks and non-linear neural networks. We conclude our analysis by emphasizing the inherent trade-off between performance and computational efficiency, questioning the use of additive metrics such as the linear datamodeling score, and offering a range of discussions. | 翻訳日:2024-11-06 15:41:17 公開日:2024-09-25 |
# オンラインフラッド検出・解析におけるAIモデルの適用
Application of AI-based Models for Online Fraud Detection and Analysis ( http://arxiv.org/abs/2409.19022v1 ) ライセンス: Link先を確認 | Antonis Papasavva, Shane Johnson, Ed Lowther, Samantha Lundrigan, Enrico Mariconti, Anna Markovska, Nilufer Tuptuk, | (参考訳) 詐欺は重大犯罪であり、金銭的損失を超えて、被害者に心理的および身体的損害をもたらす。
オンラインコミュニケーション技術の進歩は、この広大なネットワークでオンライン詐欺が盛んになり、詐欺師たちはますますこれらのチャンネルを騙しに使っている。
AIのような技術が進歩するにつれ、不正行為が拡大する懸念が高まっており、フィッシングキャンペーンのディープフェイクのような洗練された手法を使用して、すべてChatGPTのような言語生成モデルによって生成される。
しかし、オンライン詐欺の検出と分析におけるAIの適用については、まだ検討されていない。
オンライン不正検出のためのAIおよびNLP技術に関する体系的文献レビューを行う。
このレビューはPRISMA-ScRプロトコルに準拠しており、オンライン詐欺との関連性、テキストデータの使用、AI方法論などの適格性基準を定めている。
我々は2,457件の学術記録を検定し,350件が資格基準を満たし,223件を収録した。
本稿では,各種オンライン詐欺カテゴリ,トレーニングデータソース,NLPアルゴリズムとモデル構築,モデル評価に使用されるパフォーマンス指標など,最先端のNLP技術について報告する。
オンライン詐欺に関する現在の研究は、様々な詐欺行為に分けられており、研究者が注目する16の異なる詐欺が特定されている。
このSLRは、オンライン詐欺に対するAIベースの検出方法の学術的理解を強化し、政策立案者、法執行機関、ビジネスに対してそのような活動に対する保護に関する洞察を提供する。
特定の詐欺に焦点を合わせることは、さまざまな詐欺タイプに複数のモデルを必要とするため、一般化に欠ける、と結論付けている。
詐欺の進化する性質は、古いデータに基づいて訓練されたモデルの有効性を制限している。
また、データ制限の問題、トレーニングバイアスレポート、モデルパフォーマンスレポートにおけるメトリクスの選択的な表示も確認し、モデル評価における潜在的なバイアスにつながる可能性がある。
Fraud is a prevalent offence that extends beyond financial loss, causing psychological and physical harm to victims. The advancements in online communication technologies alowed for online fraud to thrive in this vast network, with fraudsters increasingly using these channels for deception. With the progression of technologies like AI, there is a growing concern that fraud will scale up, using sophisticated methods, like deep-fakes in phishing campaigns, all generated by language generation models like ChatGPT. However, the application of AI in detecting and analyzing online fraud remains understudied. We conduct a Systematic Literature Review on AI and NLP techniques for online fraud detection. The review adhered the PRISMA-ScR protocol, with eligibility criteria including relevance to online fraud, use of text data, and AI methodologies. We screened 2,457 academic records, 350 met our eligibility criteria, and included 223. We report the state-of-the-art NLP techniques for analysing various online fraud categories; the training data sources; the NLP algorithms and models built; and the performance metrics employed for model evaluation. We find that current research on online fraud is divided into various scam activitiesand identify 16 different frauds that researchers focus on. This SLR enhances the academic understanding of AI-based detection methods for online fraud and offers insights for policymakers, law enforcement, and businesses on safeguarding against such activities. We conclude that focusing on specific scams lacks generalization, as multiple models are required for different fraud types. The evolving nature of scams limits the effectiveness of models trained on outdated data. We also identify issues in data limitations, training bias reporting, and selective presentation of metrics in model performance reporting, which can lead to potential biases in model evaluation. | 翻訳日:2024-11-06 04:50:50 公開日:2024-09-25 |
# PDEのための物理インフォームドグラフメシュネットワーク:複雑な問題に対するハイブリッドアプローチ
Physics-Informed Graph-Mesh Networks for PDEs: A hybrid approach for complex problems ( http://arxiv.org/abs/2410.02819v1 ) ライセンス: Link先を確認 | Marien Chenaud, Frédéric Magoulès, José Alves, | (参考訳) 近年のディープラーニングの台頭は、物理インフォームドニューラルネットワークを用いた偏微分方程式の解法など、多くの応用につながっている。
このアプローチはいくつかの学術ケースで非常に効果的であることが証明されている。
しかし、それらの物理的不変性の欠如は、複雑な測地を扱うことができないことや一般化能力の欠如など他の重大な弱点と相まって、産業環境で古典的な数値解法と競合することができない。
本稿では,物理インフォームドラーニングの文脈における自動微分の利用に関する制限について述べる。
物理インフォームドグラフニューラルネットワークと有限要素からの数値カーネルを組み合わせたハイブリッドアプローチを提案する。
モデルの理論的性質を研究した後、2次元と3次元の複素幾何学に応用する。
我々の選択はアブレーション研究によって支持され,提案手法の一般化能力を評価する。
The recent rise of deep learning has led to numerous applications, including solving partial differential equations using Physics-Informed Neural Networks. This approach has proven highly effective in several academic cases. However, their lack of physical invariances, coupled with other significant weaknesses, such as an inability to handle complex geometries or their lack of generalization capabilities, make them unable to compete with classical numerical solvers in industrial settings. In this work, a limitation regarding the use of automatic differentiation in the context of physics-informed learning is highlighted. A hybrid approach combining physics-informed graph neural networks with numerical kernels from finite elements is introduced. After studying the theoretical properties of our model, we apply it to complex geometries, in two and three dimensions. Our choices are supported by an ablation study, and we evaluate the generalisation capacity of the proposed approach. | 翻訳日:2024-11-03 05:34:38 公開日:2024-09-25 |
# 強化学習のトポロジ的基礎
Topological Foundations of Reinforcement Learning ( http://arxiv.org/abs/2410.03706v1 ) ライセンス: Link先を確認 | David Krame Kadurha, | (参考訳) この研究の目的は、強化学習における国家、行動、政策空間のトポロジーの深い研究の基盤として機能することである。
数学的な観点からこれらの空間を研究することで、より優れたアルゴリズムを構築し、意思決定問題を解決する方法についてより深い洞察が得られるだろう。
そこで我々は,バナッハの不動点定理と強化学習アルゴリズムの収束の関連性に焦点をあて,この結果から得られた知見が,より効率的なアルゴリズムの設計にどのように役立つかを説明する。
しかしその前に、マルコフ決定過程の観点から強化学習問題全体を表現する前に、まず、距離空間、ノルム空間、バナッハ空間などの関連する概念を導入し、より理解を深める。
これにより、強化学習に適した言語でバナッハ縮約原理を適切に導入し、強化学習アルゴリズムが収束する理由を示すためにバナッハ空間上の作用素の観点からベルマン方程式を記述することができる。
最後に、収束の数学的研究から得られた知見が、強化学習アルゴリズムをより効率的にするための最良の方法の推論にどのように役立つかを示す。
The goal of this work is to serve as a foundation for deep studies of the topology of state, action, and policy spaces in reinforcement learning. By studying these spaces from a mathematical perspective, we expect to gain more insight into how to build better algorithms to solve decision problems. Therefore, we focus on presenting the connection between the Banach fixed point theorem and the convergence of reinforcement learning algorithms, and we illustrate how the insights gained from this can practically help in designing more efficient algorithms. Before doing so, however, we first introduce relevant concepts such as metric spaces, normed spaces and Banach spaces for better understanding, before expressing the entire reinforcement learning problem in terms of Markov decision processes. This allows us to properly introduce the Banach contraction principle in a language suitable for reinforcement learning, and to write the Bellman equations in terms of operators on Banach spaces to show why reinforcement learning algorithms converge. Finally, we show how the insights gained from the mathematical study of convergence are helpful in reasoning about the best ways to make reinforcement learning algorithms more efficient. | 翻訳日:2024-11-02 20:38:12 公開日:2024-09-25 |
# 無線通信における最小誤差エントロピー損失関数の解析
An Analysis of Minimum Error Entropy Loss Functions in Wireless Communications ( http://arxiv.org/abs/2410.07208v1 ) ライセンス: Link先を確認 | Rumeshika Pallewela, Eslam Eldeeb, Hirley Alves, | (参考訳) 本稿では,無線通信における深層学習に適した情報理論損失関数として,最小誤差エントロピー(MEE)基準を提案する。
MEE基準は高次統計特性を活用し、レイリー・フェーディング(英語版)や衝動干渉(英語版)のようなノイズのあるシナリオで堅牢性を提供する。
さらに,無線通信における実用的なユーザビリティを高めるため,MEE関数の計算量が少ないバージョンを提案する。
本手法は,大気上回帰法と室内局在法という2つの重要な応用のシミュレーションにより評価した。
その結果,MEE基準は平均二乗誤差 (MSE) や平均絶対誤差 (MAE) といった従来の損失関数よりも優れており,従来の手法よりも20ドル以上のゲイン,様々なチャネル条件での収束速度など,大幅な性能向上を実現していることがわかった。
この研究は、ディープラーニングモデルにおける無線通信タスクの有望な代替手段としてMEEを確立し、より優れたレジリエンスと適応性を実現する。
This paper introduces the minimum error entropy (MEE) criterion as an advanced information-theoretic loss function tailored for deep learning applications in wireless communications. The MEE criterion leverages higher-order statistical properties, offering robustness in noisy scenarios like Rayleigh fading and impulsive interference. In addition, we propose a less computationally complex version of the MEE function to enhance practical usability in wireless communications. The method is evaluated through simulations on two critical applications: over-the-air regression and indoor localization. Results indicate that the MEE criterion outperforms conventional loss functions, such as mean squared error (MSE) and mean absolute error (MAE), achieving significant performance improvements in terms of accuracy, over $20 \%$ gain over traditional methods, and convergence speed across various channel conditions. This work establishes MEE as a promising alternative for wireless communication tasks in deep learning models, enabling better resilience and adaptability. | 翻訳日:2024-10-31 21:37:02 公開日:2024-09-25 |
# 深層強化学習に基づくネットワーク侵入検出に関する調査
A Survey for Deep Reinforcement Learning Based Network Intrusion Detection ( http://arxiv.org/abs/2410.07612v1 ) ライセンス: Link先を確認 | Wanrong Yang, Alberto Acuto, Yihang Zhou, Dominik Wojtczak, | (参考訳) サイバー攻撃はますます洗練され、頻繁になり、ネットワーク侵入検知システムの重要性を強調している。
本稿では,ネットワーク侵入検出における深部強化学習(DRL)の可能性と課題について考察する。
まず、Q-networksやアクター批判アルゴリズムといった重要なDRLの概念とフレームワークを導入し、侵入検知にDRLを利用した最近の研究をレビューする。
この研究は、モデルのトレーニング効率、少数派および未知のクラス攻撃の検出、特徴選択、バランスの取れないデータセットの処理に関する課題を評価する。
DRLモデルの性能は包括的に分析され、DRLは約束を保っているが、近年の多くの技術は未解明のままであることを示している。
いくつかのDRLモデルは、パブリックデータセット上で最先端の結果を達成し、時として従来のディープラーニング手法よりも優れています。
論文は、実際のネットワークシナリオにおけるDRLデプロイメントとテストの強化を推奨し、モノのインターネット侵入検出に焦点をあてる。
近年のDRLアーキテクチャについて論じ,DRLによる侵入検知のための今後のポリシー機能を提案する。
最後に,DRLと生成手法の統合による性能向上,現在のギャップへの対処,より堅牢で適応的なネットワーク侵入検知システムのサポートを提案する。
Cyber-attacks are becoming increasingly sophisticated and frequent, highlighting the importance of network intrusion detection systems. This paper explores the potential and challenges of using deep reinforcement learning (DRL) in network intrusion detection. It begins by introducing key DRL concepts and frameworks, such as deep Q-networks and actor-critic algorithms, and reviews recent research utilizing DRL for intrusion detection. The study evaluates challenges related to model training efficiency, detection of minority and unknown class attacks, feature selection, and handling unbalanced datasets. The performance of DRL models is comprehensively analyzed, showing that while DRL holds promise, many recent technologies remain underexplored. Some DRL models achieve state-of-the-art results on public datasets, occasionally outperforming traditional deep learning methods. The paper concludes with recommendations for enhancing DRL deployment and testing in real-world network scenarios, with a focus on Internet of Things intrusion detection. It discusses recent DRL architectures and suggests future policy functions for DRL-based intrusion detection. Finally, the paper proposes integrating DRL with generative methods to further improve performance, addressing current gaps and supporting more robust and adaptive network intrusion detection systems. | 翻訳日:2024-10-31 15:56:40 公開日:2024-09-25 |
# 障害物回避環境におけるヒューマノイドロボットの2足歩行学習
Learning Bipedal Walking for Humanoid Robots in Challenging Environments with Obstacle Avoidance ( http://arxiv.org/abs/2410.08212v1 ) ライセンス: Link先を確認 | Marwan Hamze, Mitsuharu Morisawa, Eiichi Yoshida, | (参考訳) 深層強化学習は、動的歩行を実現するためのヒューマノイドロボットの実装に成功している。
しかし、これらの実装は、障害のない単純な環境において、これまで成功してきた。
本稿では,政策に基づく強化学習を用いて,障害物が存在する環境下での2足歩行を実現することを目的とする。
基本的な二足歩行を実現することができる芸術報酬関数に簡単な距離報酬項を追加することにより、トレーニングされた方針は、途中で障害物と衝突することなく、ロボットを所望の目的地へ移動させることに成功した。
Deep reinforcement learning has seen successful implementations on humanoid robots to achieve dynamic walking. However, these implementations have been so far successful in simple environments void of obstacles. In this paper, we aim to achieve bipedal locomotion in an environment where obstacles are present using a policy-based reinforcement learning. By adding simple distance reward terms to a state of art reward function that can achieve basic bipedal locomotion, the trained policy succeeds in navigating the robot towards the desired destination without colliding with the obstacles along the way. | 翻訳日:2024-10-31 04:36:03 公開日:2024-09-25 |
# ABAQUSユーザ・マテリアル・サブルーチンを用いたANN系結晶塑性モデルの有限要素フレームワークへの埋め込み
Embedding an ANN-Based Crystal Plasticity Model into the Finite Element Framework using an ABAQUS User-Material Subroutine ( http://arxiv.org/abs/2410.08214v1 ) ライセンス: Link先を確認 | Yuqing He, Yousef Heider, Bernd Markert, | (参考訳) 本論文は、ユーザマテリアル(UMAT)サブルーチンを用いて、トレーニングニューラルネットワーク(NN)を有限要素(FE)フレームワークに組み込む実践的な方法を提案する。
この研究は、ABAQUS UMATで広範囲に応用された複雑な非弾性な非線形経路依存材料応答である結晶の塑性を例証する。
しかし、このアプローチは他の物質的挙動やFEツールにも拡張できる。
UMATサブルーチンの使用は、(1)ストレスや関心の機械的特性をひずみ履歴から直接予測し、更新する、(2)バックプロパゲーションまたは数値微分を通じてヤコビ行列を計算する、という2つの主な目的を果たす。
UMATサブルーチンにNNを実装することで、トレーニングされた機械学習モデルをFEMフレームワーク内のデータ駆動構成法則として使用することができ、従来の構成法則が無視または平均的に無視されるようなマルチスケール情報を保存することができる。
この手法の汎用性により、機械学習を機械シミュレーションに統合するための強力なツールとなる。
このアプローチは現実的な物質挙動を再現する上で高い精度が期待できるが、解法プロセスの信頼性と収束条件は特に注意が必要である。
モデルの理論は[Heider et al 2020]で説明されているが、サンプルソースコードは興味のある読者にも利用可能である[https://doi.org/10.25835/6n5uu50y]。
This manuscript presents a practical method for incorporating trained Neural Networks (NNs) into the Finite Element (FE) framework using a user material (UMAT) subroutine. The work exemplifies crystal plasticity, a complex inelastic non-linear path-dependent material response, with a wide range of applications in ABAQUS UMAT. However, this approach can be extended to other material behaviors and FE tools. The use of a UMAT subroutine serves two main purposes: (1) it predicts and updates the stress or other mechanical properties of interest directly from the strain history; (2) it computes the Jacobian matrix either through backpropagation or numerical differentiation, which plays an essential role in the solution convergence. By implementing NNs in a UMAT subroutine, a trained machine learning model can be employed as a data-driven constitutive law within the FEM framework, preserving multiscale information that conventional constitutive laws often neglect or average. The versatility of this method makes it a powerful tool for integrating machine learning into mechanical simulation. While this approach is expected to provide higher accuracy in reproducing realistic material behavior, the reliability of the solution process and the convergence conditions must be paid special attention. While the theory of the model is explained in [Heider et al. 2020], exemplary source code is also made available for interested readers [https://doi.org/10.25835/6n5uu50y] | 翻訳日:2024-10-31 04:36:03 公開日:2024-09-25 |
# DEMOがBPMNを強化
DEMO enhanced BPMN ( http://arxiv.org/abs/2410.08215v1 ) ライセンス: Link先を確認 | Sérgio Guerreiro, Jan Dietz, | (参考訳) 本稿では、DEMO(Design and Engineering Methodology for Organizations)とBPMN(Business Process Model and Notation)の統合について述べる。
BPMNはビジネスプロセスの直感的でフローベースの表現に広く使われていますが、形式的な意味論、曖昧さ、マルチパーティのコラボレーションをモデリングする際の制限が欠如しています。
対照的に、DEMOは理論的に堅牢でオントロジー駆動のフレームワークを提供し、ビジネスプロセスの本質的な構造を抽象化することに重点を置いています。
DEMOのトランザクションパターンの厳密さとより実践的で広く採用されているBPMNフレームワークを組み合わせる新しいアプローチを提案し、実証した。
この統合により、DMOの理論的基盤の利点をBPMNダイアグラム内で活用することができ、ビジネスプロセスをより包括的で正確に理解することができます。
この組み合わせはビジネスプロセスのモデリングを豊かにし、実践者と研究者の両方にとってより一貫性があり信頼性の高いツールを提供する、と我々は主張する。
This paper presents an integration between DEMO (Design and Engineering Methodology for Organizations) and BPMN (Business Process Model and Notation). While BPMN is widely used for its intuitive, flow-based representation of business processes, it suffers from a lack of formal semantics, ambiguity, and limitations in modeling multi-party collaborations. In contrast, DEMO offers a theoretically robust, ontology-driven framework that focuses on abstracting the essential structure of business processes. A novel approach combining the rigor of DEMO's transaction patterns with the more practical, widely adopted BPMN framework is proposed and demonstrated. This integration allows for the benefits of DEMO's theoretical foundations to be utilized within BPMN diagrams, providing a more comprehensive and precise understanding of business processes. We argue that this combination enriches the modeling of business processes, providing a more coherent and reliable tool for both practitioners and researchers. | 翻訳日:2024-10-31 04:36:03 公開日:2024-09-25 |
# 新たな技術とAI - UNSCR 1540の今後の方向性をめざして
New technologies and AI: envisioning future directions for UNSCR 1540 ( http://arxiv.org/abs/2410.08216v1 ) ライセンス: Link先を確認 | Clara Punzi, | (参考訳) 本稿では,軍事領域における人工知能(AI)の統合による課題,特に,大量破壊兵器の拡散防止を目的とした国連安全保障理事会決議1540(UNSCR 1540)の範囲内での課題について検討する。
当初は核、化学、生物学的脅威に焦点が当てられていたが、AIの急速な進歩により、これまで予想されていなかった新しい複雑さがもたらされた。
我々は、AIがWMDに関連する既存のリスクをどのように悪化させるか(例えば、カミカゼドローンやキラーロボットの配備を徹底的に行うなど)を批判的に分析し、新たな脅威(例えば、ジェネレーティブAIの可能性を活用するなど)を導入し、国際平和と安全保障を妥協させる。
この論文は、AI技術の発展、普及、WMDの潜在的な誤用に対する影響力の高まりに対応するためにUNSCR 1540の拡張を要求し、これらの新興リスクを軽減するためのガバナンスフレームワークの創設を促している。
This paper investigates the emerging challenges posed by the integration of Artificial Intelligence (AI) in the military domain, particularly within the context of United Nations Security Council Resolution 1540 (UNSCR 1540), which seeks to prevent the proliferation of weapons of mass destruction (WMDs). While the resolution initially focused on nuclear, chemical, and biological threats, the rapid advancement of AI introduces new complexities that were previously unanticipated. We critically analyze how AI can both exacerbate existing risks associated with WMDs (e.g., thorough the deployment of kamikaze drones and killer robots) and introduce novel threats (e.g., by exploiting Generative AI potentialities), thereby compromising international peace and security. The paper calls for an expansion of UNSCR 1540 to address the growing influence of AI technologies in the development, dissemination, and potential misuse of WMDs, urging the creation of a governance framework to mitigate these emerging risks. | 翻訳日:2024-10-31 04:36:03 公開日:2024-09-25 |
# 衛星観測におけるサイクロニック事象の自動検出のための視覚解析的アプローチ
A Visual-Analytical Approach for Automatic Detection of Cyclonic Events in Satellite Observations ( http://arxiv.org/abs/2410.08218v1 ) ライセンス: Link先を確認 | Akash Agrawal, Mayesh Mohapatra, Abhinav Raja, Paritosh Tiwari, Vishwajeet Pattanaik, Neeru Jaiswal, Arpit Agarwal, Punit Rathore, | (参考訳) 熱帯性サイクロンの位置と強度を推定することは、破滅的な気象事象を予測する上で重要な意味を持つ。
本研究では,この課題を,特に北インド洋(NIO)地域において,位置と風速情報がラベルとして機能する検出・回帰問題としてアプローチする。
サイクロンの検出と強度推定の現在のプロセスは、時間を要する物理に基づくシミュレーション研究であり、画像の特徴のみを使用して、より高速でより正確な予測を行う。
従来の手法は訓練に十分な事前知識を必要とすることが多いが、我々は効率を高めるための代替手法を模索している。
本研究の目的は、画像入力とデータ駆動アプローチのみを用いたサイクロン検出、強度推定および関連する側面に特化することであり、SACで使用されている現在のNWPモデルとは対照的に、推論時間を短縮し、プロセスを自動化することである。
アルゴリズム開発において,新しい2段階検出・強度推定モジュールを提案する。
第1レベルの検出では、NIO(北インド洋)上のINSAT3Dが捉えた画像全体にわたってサイクロンをローカライズしようと試みる。
本稿では,ResNet-18のバックボーンを用いて,サイクロン中心の画像に作用するCNN-LSTMネットワークを提案する。
Estimating the location and intensity of tropical cyclones holds crucial significance for predicting catastrophic weather events. In this study, we approach this task as a detection and regression challenge, specifically over the North Indian Ocean (NIO) region where best tracks location and wind speed information serve as the labels. The current process for cyclone detection and intensity estimation involves physics-based simulation studies which are time-consuming, only using image features will automate the process for significantly faster and more accurate predictions. While conventional methods typically necessitate substantial prior knowledge for training, we are exploring alternative approaches to enhance efficiency. This research aims to focus specifically on cyclone detection, intensity estimation and related aspects using only image input and data-driven approaches and will lead to faster inference time and automate the process as opposed to current NWP models being utilized at SAC. In context to algorithm development, a novel two stage detection and intensity estimation module is proposed. In the first level detection we try to localize the cyclone over an entire image as captured by INSAT3D over the NIO (North Indian Ocean). For the intensity estimation task, we propose a CNN-LSTM network, which works on the cyclone centered images, utilizing a ResNet-18 backbone, by which we are able to capture both temporal and spatial characteristics. | 翻訳日:2024-10-31 04:36:03 公開日:2024-09-25 |
# ビジネスプロセスのデジタル双対:研究マニフェスト
Digital Twins of Business Processes: A Research Manifesto ( http://arxiv.org/abs/2410.08219v1 ) ライセンス: Link先を確認 | Fabrizio Fornari, Ivan Compagnucci, Massimo Callisto De Donato, Yannis Bertrand, Harry Herbert Beyel, Emilio Carrión, Marco Franceschetti, Wolfgang Groher, Joscha Grüger, Emre Kilic, Agnes Koschmider, Francesco Leotta, Chiao-Yun Li, Giovanni Lugaresi, Lukas Malburg, Juergen Mangler, Massimo Mecella, Oscar Pastor, Uwe Riss, Ronny Seiger, Estefania Serral, Victoria Torres, Pedro Valderas, | (参考訳) 現代組織は、効率、適応性、競争力を維持するために継続的ビジネスプロセスの改善を必要とします。
ここ数年、センサーとアクチュエータの配備を通じてモノのインターネットは、人や組織の働き方に影響を与える物理的プロセスを監視し、自動化するために、組織的および産業的な設定で広く採用されてきた。
このような進歩は、組織プロセスに適用されたDigital Twinパラダイムの台頭によって前進している。
ビジネスプロセスの管理とメンテナンスの高度な方法は、ビジネスプロセスのデジタルツイン(Digital Twin) – 組織内で発生した実際のプロセスのリアルタイム機能を備えた仮想レプリカ – によって、到達範囲に達します。
ビジネスプロセスモデルとリアルタイムデータとシミュレーション機能を組み合わせることで、日々の組織活動をガイドする新たな方法を提供する。
しかしながら、Digital Twinsとビジネスプロセスの統合は、多くの課題と曖昧さを提示する、簡単な作業ではありません。
本宣言は、ビジネスプロセスとデジタル双生児の関係を明確にし、現在進行中の研究課題とオープン課題を特定し、この革新的な対話の光を放ち、今後の探求を進めることを目的としている。
Modern organizations necessitate continuous business processes improvement to maintain efficiency, adaptability, and competitiveness. In the last few years, the Internet of Things, via the deployment of sensors and actuators, has heavily been adopted in organizational and industrial settings to monitor and automatize physical processes influencing and enhancing how people and organizations work. Such advancements are now pushed forward by the rise of the Digital Twin paradigm applied to organizational processes. Advanced ways of managing and maintaining business processes come within reach as there is a Digital Twin of a business process - a virtual replica with real-time capabilities of a real process occurring in an organization. Combining business process models with real-time data and simulation capabilities promises to provide a new way to guide day-to-day organization activities. However, integrating Digital Twins and business processes is a non-trivial task, presenting numerous challenges and ambiguities. This manifesto paper aims to contribute to the current state of the art by clarifying the relationship between business processes and Digital Twins, identifying ongoing research and open challenges, thereby shedding light on and driving future exploration of this innovative interplay. | 翻訳日:2024-10-31 04:36:03 公開日:2024-09-25 |
# プライバシ保護フェデレーションのための浸漬と分散に基づく符号化
学び
Immersion and Invariance-based Coding for Privacy-Preserving Federated Learning ( http://arxiv.org/abs/2409.17201v1 ) ライセンス: Link先を確認 | Haleh Hayati, Carlos Murguia, Nathan van de Wouw | (参考訳) 協調分散学習におけるプライバシ保護手法として,フェデレートラーニング(FL)が登場している。
FLでは、クライアントは集中型サーバとデータを共有するのではなく、デバイス上でAIモデルをトレーニングする。
しかし、FLがローカルデータのプライバシを部分的に保護しているにもかかわらず、トレーニング中に共有モデルのアップデートからクライアントのデータに関する情報を推測できることが示されている。
近年、FLのプライバシー漏洩を軽減するためにいくつかのプライバシ保護アプローチが開発されているが、モデルパフォーマンスやシステム効率の犠牲でプライバシを提供することが多い。
これらのトレードオフのバランスをとることは、FLスキームの実装において大きな課題となる。
本稿では、差分プライバシーと制御理論からのシステム浸漬ツールを組み合わせたプライバシー保護FLフレームワークについて紹介する。
その中核となる考え方は、標準のFLスキーム(例えば勾配に基づくアルゴリズム)で使われる最適化アルゴリズムを、高次元のシステムに没入しようとする力学系として扱うことである(対象最適化アルゴリズムとして参照)。
対象アルゴリズムのダイナミクスは、第一に、元のアルゴリズムのモデルパラメータがそのパラメータに没入するように設計され、第二に、歪んだパラメータで動作し、第三に、元のアルゴリズムから真のモデルパラメータのエンコードされたバージョンに収束する。
これらのエンコードされたパラメータは、元のモデルパラメータを取得するためにサーバでデコードされる。
提案手法は,標準FLアルゴリズムと同じ精度と収束率を維持しつつ,ローカルモデルパラメータとグローバルモデルパラメータの両方に対して,任意の差分プライバシーレベルを提供するように調整可能であることを実証する。
Federated learning (FL) has emerged as a method to preserve privacy in collaborative distributed learning. In FL, clients train AI models directly on their devices rather than sharing data with a centralized server, which can pose privacy risks. However, it has been shown that despite FL's partial protection of local data privacy, information about clients' data can still be inferred from shared model updates during training. In recent years, several privacy-preserving approaches have been developed to mitigate this privacy leakage in FL, though they often provide privacy at the cost of model performance or system efficiency. Balancing these trade-offs presents a significant challenge in implementing FL schemes. In this manuscript, we introduce a privacy-preserving FL framework that combines differential privacy and system immersion tools from control theory. The core idea is to treat the optimization algorithms used in standard FL schemes (e.g., gradient-based algorithms) as a dynamical system that we seek to immerse into a higher-dimensional system (referred to as the target optimization algorithm). The target algorithm's dynamics are designed such that, first, the model parameters of the original algorithm are immersed in its parameters; second, it operates on distorted parameters; and third, it converges to an encoded version of the true model parameters from the original algorithm. These encoded parameters can then be decoded at the server to retrieve the original model parameters. We demonstrate that the proposed privacy-preserving scheme can be tailored to offer any desired level of differential privacy for both local and global model parameters, while maintaining the same accuracy and convergence rate as standard FL algorithms. | 翻訳日:2024-10-01 07:32:01 公開日:2024-09-25 |
# AACLiteNet : 微粒腹部大動脈石灰化診断のための軽量モデル
AACLiteNet: A Lightweight Model for Detection of Fine-Grained Abdominal Aortic Calcification ( http://arxiv.org/abs/2409.17203v1 ) ライセンス: Link先を確認 | Zaid Ilyas, Afsah Saleem, David Suter, Siobhan Reid, John Schousboe, William Leslie, Joshua Lewis, Syed Zulqarnain Gilani, | (参考訳) 心臓血管疾患(CVD)は、毎年1億7900万人が死亡する主要な死因である。
腹部大動脈石灰化(AAC)はCVDの確立されたマーカーであり、椎体骨折の診断に通常行われるVFA(Valtebral Fracture Assessment)スキャンで観察できる。
AACの早期検出は、予防措置を奨励することにより、臨床CVDの発症リスクを減少させる可能性がある。
AAC測定のためのVFAスキャンの手動解析には時間を要する。
近年,プロセスの自動化が試みられているが,提案モデルでは精度が低く,スコアの粒度が不足しているか,推測時間やメモリフットプリントの面で重すぎるかのどちらかである。
既存のアルゴリズムの欠点をすべて考慮し, 累積と粒度の両方のAACスコアを高精度に予測し, メモリフットプリントが低く, 計算コストも低い軽量ディープラーニングモデルである「AACLiteNet」を提案する(浮動小数点演算)。
AACLiteNetは、前回の81.98%に比べて大幅に改善され、計算コストは19.88倍、メモリフットプリントは2.26倍となり、ポータブルコンピューティングデバイスで実装できる。
Cardiovascular Diseases (CVDs) are the leading cause of death worldwide, taking 17.9 million lives annually. Abdominal Aortic Calcification (AAC) is an established marker for CVD, which can be observed in lateral view Vertebral Fracture Assessment (VFA) scans, usually done for vertebral fracture detection. Early detection of AAC may help reduce the risk of developing clinical CVDs by encouraging preventive measures. Manual analysis of VFA scans for AAC measurement is time consuming and requires trained human assessors. Recently, efforts have been made to automate the process, however, the proposed models are either low in accuracy, lack granular level score prediction, or are too heavy in terms of inference time and memory footprint. Considering all these shortcomings of existing algorithms, we propose 'AACLiteNet', a lightweight deep learning model that predicts both cumulative and granular level AAC scores with high accuracy, and also has a low memory footprint, and computation cost (Floating Point Operations (FLOPs)). The AACLiteNet achieves a significantly improved one-vs-rest average accuracy of 85.94% as compared to the previous best 81.98%, with 19.88 times less computational cost and 2.26 times less memory footprint, making it implementable on portable computing devices. | 翻訳日:2024-10-01 07:32:01 公開日:2024-09-25 |
# 計測可能な非シグナリング相関
Measurable No-signalling Correlations ( http://arxiv.org/abs/2409.17206v1 ) ライセンス: Link先を確認 | Georgios Baziotis, Ivan G. Todorov, Lyudmila Turowska, | (参考訳) 第二可算コンパクトハウスドルフ空間の四重項上で定義される符号なし相関について検討する。
抽象アルファベット上の演算子値情報チャネルを用いて、局所的、量子空間的、量子通勤的非シグナリング相関のサブクラスを定義する。
途中で我々は、Stinespring's Dilation Theoremの測定可能なバージョンを確立する。
局所, 量子空間, 量子可換型の可測非局所ゲームの値とその内部バージョンを定義し, 有限非局所ゲームの漸近値が, 与えられた有限ゲームに対応する可測ゲームの内部値の特別な場合とみなすことができることを示す。
We study no-signalling correlations, defined over a quadruple of second countable compact Hausdorff spaces. Using operator-valued information channels over abstract alphabets, we define the subclasses of local, quantum spatial and quantum commuting measurable no-signalling correlations. En route, we establish measurable versions of the Stinespring's Dilation Theorem. We define values of measurable non-local games of local, quantum spatial and quantum commuting type, as well as inner versions thereof, and show how the asymptotic values of a finite non-local game can be viewed as special cases of the corresponding inner values of a measurable game, canonically associated with the given finite game. | 翻訳日:2024-10-01 07:32:01 公開日:2024-09-25 |
# 入力・プロセスレンダリングによる有限状態機械
Finite State Machine with Input and Process Render ( http://arxiv.org/abs/2409.17207v1 ) ライセンス: Link先を確認 | Sierra Zoe Bennett-Manke, Sebastian Neumann, Ryan E. Dougherty, | (参考訳) 有限状態機械(英: Finite State Machines)は、コンピュータコースの学部理論で広く教えられている概念である。
教育者は一般的に、FSMの静的表現を備えたツールを使用して、学生がこれらのオブジェクトやプロセスを視覚化するのを助けるが、既存のツールはすべてインストラクターによる手作業による編集を必要とする。
このポスターでは、FSMシミュレーションのビデオを生成するFSMの自動可視化ツール「Finite State Machine with Input and Process Render (FSMIPR)」を作成しました。
教育者はFSMと入力文字列の任意の形式的定義を入力でき、FSMIPRはそのシミュレーションのビデオを生成する。
FSMIPRは、難しいコンピュータ理論の概念を学ぶ学生にとって有益であると信じている。
FSMIPRで現在進行中の今後の作業で締めくくります。
Finite State Machines are a concept widely taught in undergraduate theory of computing courses. Educators typically use tools with static representations of FSMs to help students visualize these objects and processes; however, all existing tools require manual editing by the instructor. In this poster, we created an automatic visualization tool for FSMs that generates videos of FSM simulation, named Finite State Machine with Input and Process Render (FSMIPR). Educators can input any formal definition of an FSM and an input string, and FSMIPR generates an accompanying video of its simulation. We believe that FSMIPR will be beneficial to students who learn difficult computer theory concepts. We conclude with future work currently in-progress with FSMIPR. | 翻訳日:2024-10-01 07:32:01 公開日:2024-09-25 |
# 2024 BRAVO Challenge Track 1st Place Report: Evaluating Robustness of
セマンティックセグメンテーションのためのビジョン基礎モデル
2024 BRAVO Challenge Track 1 1st Place Report: Evaluating Robustness of Vision Foundation Models for Semantic Segmentation ( http://arxiv.org/abs/2409.17208v1 ) ライセンス: Link先を確認 | Tommie Kerssies, Daan de Geus, Gijs Dubbelman | (参考訳) 本稿では,2024年のBRAVOチャレンジのトラック1において,モデルがCityscapesでトレーニングされ,その堅牢性はいくつかのアウト・オブ・ディストリビューション・データセットで評価される。
我々のソリューションは、DINOv2に単純なセグメンテーションデコーダを付加し、モデル全体を微調整することで、ビジョンファウンデーションモデルによって学習された強力な表現を活用する。
このアプローチは、より複雑な既存のアプローチよりも優れており、挑戦において第1位を獲得します。
私たちのコードはhttps://github.com/tue-mps/benchmark-vfm-ss.comで公開されています。
In this report, we present our solution for Track 1 of the 2024 BRAVO Challenge, where a model is trained on Cityscapes and its robustness is evaluated on several out-of-distribution datasets. Our solution leverages the powerful representations learned by vision foundation models, by attaching a simple segmentation decoder to DINOv2 and fine-tuning the entire model. This approach outperforms more complex existing approaches, and achieves 1st place in the challenge. Our code is publicly available at https://github.com/tue-mps/benchmark-vfm-ss. | 翻訳日:2024-10-01 07:32:01 公開日:2024-09-25 |
# ニワトリの乳房分類と硬度回帰を考慮した広深度学習(NAS-WD)が可能なニューラルネットワークアーキテクチャ検索
Neural Network Architecture Search Enabled Wide-Deep Learning (NAS-WD) for Spatially Heterogenous Property Awared Chicken Woody Breast Classification and Hardness Regression ( http://arxiv.org/abs/2409.17210v1 ) ライセンス: Link先を確認 | Chaitanya Pallerla, Yihong Feng, Casey M. Owens, Ramesh Bahadur Bist, Siavash Mahmoudi, Pouya Sohrabipour, Amirreza Davar, Dongyi Wang, | (参考訳) 近年の急激な成長率と高いブロイラー収量に対する遺伝的選択により、世界の養鶏産業は、木質乳房(WB)の形で難しい問題に直面している。
この状況は年間最大2億ドルの経済的損失をもたらしており、WBの根本原因はまだ特定されていない。
ヒトの触診は、WBと他者とを区別する最も一般的な方法である。
しかし、この方法は時間がかかり主観的である。
ハイパースペクトルイメージング(HSI)と機械学習アルゴリズムを組み合わせることで、非侵襲的で客観的で高スループットな方法でフィレットのWB条件を評価することができる。
本研究では,250種の生鶏の乳房充填液(正常,軽度,重度)を採取し,HSI処理モデルの設計において空間的に不均一な硬さ分布を最初に検討した。
この研究は、WBレベルをHSIから分類するだけでなく、スペクトル情報をサンプル硬度データと相関付ける回帰モデルを構築した。
ニューラルネットワークアーキテクチャサーチ(NAS)は,NAS-WDと呼ばれる広深度ニューラルネットワークモデルを実現する。
NAS-WDでは、NASはネットワークアーキテクチャとハイパーパラメータの自動最適化に使用された。
分類の結果,NAS-WDは3つのWBレベルを95%の精度で分類でき,従来の機械学習モデルよりも優れており,スペクトルデータと硬さの回帰相関は0.75であり,従来の回帰モデルよりもかなり優れていた。
Due to intensive genetic selection for rapid growth rates and high broiler yields in recent years, the global poultry industry has faced a challenging problem in the form of woody breast (WB) conditions. This condition has caused significant economic losses as high as $200 million annually, and the root cause of WB has yet to be identified. Human palpation is the most common method of distinguishing a WB from others. However, this method is time-consuming and subjective. Hyperspectral imaging (HSI) combined with machine learning algorithms can evaluate the WB conditions of fillets in a non-invasive, objective, and high-throughput manner. In this study, 250 raw chicken breast fillet samples (normal, mild, severe) were taken, and spatially heterogeneous hardness distribution was first considered when designing HSI processing models. The study not only classified the WB levels from HSI but also built a regression model to correlate the spectral information with sample hardness data. To achieve a satisfactory classification and regression model, a neural network architecture search (NAS) enabled a wide-deep neural network model named NAS-WD, which was developed. In NAS-WD, NAS was first used to automatically optimize the network architecture and hyperparameters. The classification results show that NAS-WD can classify the three WB levels with an overall accuracy of 95%, outperforming the traditional machine learning model, and the regression correlation between the spectral data and hardness was 0.75, which performs significantly better than traditional regression models. | 翻訳日:2024-10-01 07:32:01 公開日:2024-09-25 |
# ホップ代数と可解ユニタリ回路
Hopf algebras and solvable unitary circuits ( http://arxiv.org/abs/2409.17215v1 ) ライセンス: Link先を確認 | Zhiyuan Wang, | (参考訳) 量子多体力学における厳密に解決可能なモデルは、多くの興味深い物理現象に関する貴重な洞察を与え、基本的な理論的問題を厳密に研究するためのプラットフォームとして機能する。
それでも、それらは極めて稀であり、既存の解決可能なモデルと解法には深刻な制限がある。
本稿では、離散空間と時間における量子多体ダイナミクスをモデル化する、正確に解けるユニタリ回路の新たなファミリーを紹介する。
多くの従来の可解モデルとは異なり、この新しいモデルの族における任意の行列積状態から初期化された完全な量子力学を正確に計算することができる。
局所可観測物の時間進化と相関、レニイエンタングルメントエントロピーの線形成長、時空間相関、および時間外相関は、すべて正確に計算可能である。
正確な解を可能にするこれらのモデルの鍵となる性質は、任意の時間発展された局所作用素が有限結合次元の正確な行列積作用素であり、任意に長い時間でも、テンソルネットワーク技術と共に基礎となる(弱)ホップ代数構造を用いて証明できることである。
このモデルのファミリの構築と解法に関する一般的な枠組みを概説し、いくつかの明示的な例を挙げる。
特に、PXPモデルの花束版に非常に近い弱いホップ代数から構築されたモデルについて詳細に研究し、得られた正確な結果は、量子的な多くの身体の傷跡の現象、より一般的には、制約された系の花束量子力学に光を当てる可能性がある。
Exactly solvable models in quantum many body dynamics provide valuable insights into many interesting physical phenomena, and serve as platforms to rigorously investigate fundamental theoretical questions. Nevertheless, they are extremely rare and existing solvable models and solution techniques have serious limitations. In this paper we introduce a new family of exactly solvable unitary circuits which model quantum many body dynamics in discrete space and time. Unlike many previous solvable models, one can exactly compute the full quantum dynamics initialized from any matrix product state in this new family of models. The time evolution of local observables and correlations, the linear growth of Renyi entanglement entropy, spatiotemporal correlations, and outof-time-order correlations are all exactly computable. A key property of these models enabling the exact solution is that any time evolved local operator is an exact matrix product operator with finite bond dimension, even at arbitrarily long time, which we prove using the underlying (weak) Hopf algebra structure along with tensor network techniques. We lay down the general framework for the construction and solution of this family of models, and give several explicit examples. In particular, we study in detail a model constructed out of a weak Hopf algebra that is very close to a floquet version of the PXP model, and the exact results we obtain may shed light on the phenomenon of quantum many body scars, and more generally, floquet quantum dynamics in constrained systems. | 翻訳日:2024-10-01 07:32:00 公開日:2024-09-25 |
# データ中心AIガバナンス - モデル焦点ポリシーの限界に対処する
Data-Centric AI Governance: Addressing the Limitations of Model-Focused Policies ( http://arxiv.org/abs/2409.17216v1 ) ライセンス: Link先を確認 | Ritwik Gupta, Leah Walker, Rodolfo Corona, Stephanie Fu, Suzanne Petryk, Janet Napolitano, Trevor Darrell, Andrew W. Reddie, | (参考訳) 強力なAI能力に関する現在の規制は、"境界"または"フロンティア"モデルに絞られている。
しかし、これらの用語は曖昧で矛盾なく定義されており、ガバナンス活動の不安定な基盤につながります。
批判的に、ポリシーの議論は、データとモデルパフォーマンスの間に明確なつながりがあるにもかかわらず、これらのモデルで使用されるデータを考えるのに失敗することが多い。
基礎モデルとフロンティアモデルの典型的な定義から外れた(相対的に)「小さな」モデルでさえ、十分な特定のデータセットに露出すると同等の結果が得られる。
本稿では,データセットのサイズと内容が,モデルが現在と将来の両方にもたらすリスクを評価する上で重要な要素であることを示す。
より広義には、過度に規制された反応によって引き起こされるリスクを強調し、簡易な規制環境に繋がる機能について、慎重に定量的に評価するための道筋を提供する。
Current regulations on powerful AI capabilities are narrowly focused on "foundation" or "frontier" models. However, these terms are vague and inconsistently defined, leading to an unstable foundation for governance efforts. Critically, policy debates often fail to consider the data used with these models, despite the clear link between data and model performance. Even (relatively) "small" models that fall outside the typical definitions of foundation and frontier models can achieve equivalent outcomes when exposed to sufficiently specific datasets. In this work, we illustrate the importance of considering dataset size and content as essential factors in assessing the risks posed by models both today and in the future. More broadly, we emphasize the risk posed by over-regulating reactively and provide a path towards careful, quantitative evaluation of capabilities that can lead to a simplified regulatory environment. | 翻訳日:2024-10-01 07:32:00 公開日:2024-09-25 |
# ランダムテンソルネットワークにおける反射エントロピーIII:三方向切断
Reflected entropy in random tensor networks III: triway cuts ( http://arxiv.org/abs/2409.17218v1 ) ライセンス: Link先を確認 | Chris Akers, Thomas Faulkner, Simon Lin, Pratik Rath, | (参考訳) 一般に、大きな結合次元のランダムテンソルネットワーク状態に対して、整数 R'enyi 反射エントロピー(位相遷移から離れた)がネットワークを通して最小の三方向切断によって決定されることを示す。
このことは、これらの状態に対する二分的絡み合いの最小限の切断記述を一般化する。
三角切断問題によって示唆される整数 R'enyi パラメータからの自然な外挿は、ホログラフィック予想 $S_R=2EW$ を意味し、$S_R$ は反射エントロピー、$EW$ はエンタングルメント・ウェッジ断面である。
最小三路カットは、双対の最大フロー/ビットスレッド記述を見つけるために緩和できない整数プログラムとして定式化することができる。
このことは、ホログラフィック状態における三部体の絡み合いの存在と、ビットスレッドによって動機付けられた二部体の絡み合い構造とのギャップに光を当てる。
特に,三分割交絡度を測るマルコフギャップが,三分割切断を計算する整数プログラムの積分ギャップによって下界であることが証明される。
For general random tensor network states at large bond dimension, we prove that the integer R\'enyi reflected entropies (away from phase transitions) are determined by minimal triway cuts through the network. This generalizes the minimal cut description of bipartite entanglement for these states. A natural extrapolation away from integer R\'enyi parameters, suggested by the triway cut problem, implies the holographic conjecture $S_R=2EW$, where $S_R$ is the reflected entropy and $EW$ is the entanglement wedge cross-section. Minimal triway cuts can be formulated as integer programs which cannot be relaxed to find a dual maximal flow/bit-thread description. This sheds light on the gap between the existence of tripartite entanglement in holographic states and the bipartite entanglement structure motivated by bit-threads. In particular, we prove that the Markov gap that measures tripartite entanglement is lower bounded by the integrality gap of the integer program that computes the triway cut. | 翻訳日:2024-10-01 07:32:00 公開日:2024-09-25 |
# Rydberg $\mathbb{Z}_2$量子スピン液体のフェルミオン粒子論
Fermionic parton theory of Rydberg $\mathbb{Z}_2$ quantum spin liquids ( http://arxiv.org/abs/2409.17219v1 ) ライセンス: Link先を確認 | Atanu Maity, Yasir Iqbal, Rhine Samajdar, | (参考訳) 今日、中性原子配列に基づくプログラム可能な量子シミュレータは、量子物質の強い相関位相を研究するための強力なプラットフォームを提供する。
ここでは、射影対称性群フレームワークを用いて、ルビー格子上のレイドバーグアレイで合成された位相的に順序付けられた$\mathbb{Z}_{2}$量子スピン液体(QSL)の対称性分数化パターンを記述する。
密度行列再正規化群計算に対して、$\textit{all}$ possible mean-field $\textit{Ans\"atze}$の静的構造係数を体系的に比較することにより、顕微鏡的に実現された正確な$\mathbb{Z}_{2}$ QSLの候補を特定する。
また、将来の実験の参考として、動的構造因子の詳細な解析を行い、これらのスピン相関が様々なQSL $\textit{Ans\"atze}$との違いをどのように区別できるかを示す。
Programmable quantum simulators based on neutral atom arrays today offer powerful platforms for studying strongly correlated phases of quantum matter. Here, we employ the projective symmetry group framework to describe the symmetry fractionalization patterns in a topologically ordered $\mathbb{Z}_{2}$ quantum spin liquid (QSL) synthesized in such a Rydberg array on the ruby lattice. By systematically comparing the static structure factors of $\textit{all}$ possible mean-field $\textit{Ans\"atze}$ against density-matrix renormalization group calculations, we identify a promising candidate for the precise $\mathbb{Z}_{2}$ QSL realized microscopically. We also present detailed analyses of the dynamical structure factors as a reference for future experiments and showcase how these spin correlations can differentiate between varied QSL $\textit{Ans\"atze}$. | 翻訳日:2024-10-01 07:32:00 公開日:2024-09-25 |
# Walker: 時間的外見グラフのウォーキングによる自己教師型複数物体追跡
Walker: Self-supervised Multiple Object Tracking by Walking on Temporal Appearance Graphs ( http://arxiv.org/abs/2409.17221v1 ) ライセンス: Link先を確認 | Mattia Segu, Luigi Piccinelli, Siyuan Li, Luc Van Gool, Fisher Yu, Bernt Schiele, | (参考訳) 最先端のマルチオブジェクトトラッキング(MOT)手法の監督には、すべてのビデオのすべてのフレームにバウンディングボックスを提供するための膨大なアノテーションと、それらを時間をかけて関連付けるインスタンスIDが必要である。
この目的のために、私たちはWalkerを紹介します。これは、疎いバウンディングボックスアノテーションとトラッキングラベルのないビデオから学習する、初めてのセルフ教師付きトラッカーです。
まず、擬似深度時間オブジェクトの出現グラフを設計し、ランダムウォークを最適化し、インスタンスの類似性を学習するための、新しいマルチ陽性コントラスト目的を提案する。
そこで我々は,MOTの学習トポロジを最適化し,グラフのインスタンス間の相互排他的接続性を強制するアルゴリズムを提案する。
そこで本研究では,移動制限二方向歩行における最大方向遷移状態に基づいて,検出されたインスタンスをトラックレットに関連付けることを提案する。
Walker氏はMOT17、DanceTrack、BDD100Kで競争力を発揮する最初のセルフトラッカーである。
注目すべきは、アノテーションの要求を最大400倍まで大幅に減らしても、従来のセルフ教師付きトラッカーよりも優れています。
The supervision of state-of-the-art multiple object tracking (MOT) methods requires enormous annotation efforts to provide bounding boxes for all frames of all videos, and instance IDs to associate them through time. To this end, we introduce Walker, the first self-supervised tracker that learns from videos with sparse bounding box annotations, and no tracking labels. First, we design a quasi-dense temporal object appearance graph, and propose a novel multi-positive contrastive objective to optimize random walks on the graph and learn instance similarities. Then, we introduce an algorithm to enforce mutually-exclusive connective properties across instances in the graph, optimizing the learned topology for MOT. At inference time, we propose to associate detected instances to tracklets based on the max-likelihood transition state under motion-constrained bi-directional walks. Walker is the first self-supervised tracker to achieve competitive performance on MOT17, DanceTrack, and BDD100K. Remarkably, our proposal outperforms the previous self-supervised trackers even when drastically reducing the annotation requirements by up to 400x. | 翻訳日:2024-10-01 07:32:00 公開日:2024-09-25 |
# 2成分量子回路における自由独立性と非交差分割格子
Free Independence and the Noncrossing Partition Lattice in Dual-Unitary Quantum Circuits ( http://arxiv.org/abs/2409.17226v1 ) ライセンス: Link先を確認 | Hyaline Junhe Chen, Jonah Kudler-Flam, | (参考訳) 我々は,2k$ポイントのアウト・オブ・タイム・オー・オー・オーダ付き相関器を全て評価することにより,二重単位量子回路のカオス的ダイナミクスについて詳細に検討する。
一般的な回路のクラスに対して、相関子を量子チャネルのクラスの縮約として記述することにより、それらの指数的崩壊を証明できる。
これは、時間とともに分離されたローカルオペレータが、自由な独立に近づいたことを意味する。
その過程で、我々は二重単体回路の複製トリックを開発し、これは有用であり、自己の利害関係にある可能性がある。
我々は、レプリカ転送行列の関連する固有状態を、非交差分割の格子の経路、自由確率理論の中心となる組合せ対象によって分類する。
興味深いことに、非交叉格子はランダム性のない系や小さなオンサイトヒルベルト空間次元を持つ系に対しても現れる。
We investigate details of the chaotic dynamics of dual-unitary quantum circuits by evaluating all $2k$-point out-of-time-ordered correlators. For the generic class of circuits, by writing the correlators as contractions of a class of quantum channels, we prove their exponential decay. This implies that local operators separated in time approach free independence. Along the way, we develop a replica trick for dual-unitary circuits, which may be useful and of interest in its own right. We classify the relevant eigenstates of the replica transfer matrix by paths in the lattice of noncrossing partitions, combinatorial objects central to free probability theory. Interestingly, the noncrossing lattice emerges even for systems without randomness and with small onsite Hilbert space dimension. | 翻訳日:2024-10-01 07:32:00 公開日:2024-09-25 |
# Disk2Planet: パラメータのためのロバストで自動化された機械学習ツール
ディスク・プラネットシステムにおける推論
Disk2Planet: A Robust and Automated Machine Learning Tool for Parameter Inference in Disk-Planet Systems ( http://arxiv.org/abs/2409.17228v1 ) ライセンス: Link先を確認 | Shunyuan Mao, Ruobing Dong, Kwang Moo Yi, Lu Lu, Sifan Wang, Paris Perdikaris | (参考訳) 本研究では、プロトプラネタリーディスク構造からディスクプラネタリーシステムにおける鍵パラメータを推論する機械学習ツールであるDisk2Planetを紹介する。
Disk2Planetは2次元密度と速度マップの形でディスク構造を入力し、シャクラ-スンヤエフ粘度、円盤アスペクト比、惑星-恒星質量比、惑星の半径と方位を出力する。
我々は、複雑な最適化問題に適した進化アルゴリズムであるCovariance Matrix Adaptation Evolution Strategy (CMA--ES)と、ディスク-プラネタリー相互作用の解を予測するために設計されたニューラルネットワークであるProto Planet Disk Operator Network (PPDONet)を統合する。
我々のツールは完全自動化されており、Nvidia A100グラフィックス処理ユニットで1つのシステムで3分でパラメータを取得できる。
実験により、我々のツールは、パーセンテージレベルまたはより高い精度を実現し、欠落したデータや未知のノイズを処理可能であることを実証した。
We introduce Disk2Planet, a machine learning-based tool to infer key parameters in disk-planet systems from observed protoplanetary disk structures. Disk2Planet takes as input the disk structures in the form of two-dimensional density and velocity maps, and outputs disk and planet properties, that is, the Shakura--Sunyaev viscosity, the disk aspect ratio, the planet--star mass ratio, and the planet's radius and azimuth. We integrate the Covariance Matrix Adaptation Evolution Strategy (CMA--ES), an evolutionary algorithm tailored for complex optimization problems, and the Protoplanetary Disk Operator Network (PPDONet), a neural network designed to predict solutions of disk--planet interactions. Our tool is fully automated and can retrieve parameters in one system in three minutes on an Nvidia A100 graphics processing unit. We empirically demonstrate that our tool achieves percent-level or higher accuracy, and is able to handle missing data and unknown levels of noise. | 翻訳日:2024-10-01 07:32:00 公開日:2024-09-25 |
# ホログラフィック障害からの臨界スピンモデル
Critical spin models from holographic disorder ( http://arxiv.org/abs/2409.17235v1 ) ライセンス: Link先を確認 | Dimitris Saraidaris, Alexander Jahn, | (参考訳) ホログラフィック双対の離散モデルは、典型的には双曲型タイリング上のテンソルネットワークによってモデル化され、連続体ホログラフィーに存在しない特徴的な準周期性障害を持つ量子状態を生成する。
本研究では,従来の非相互作用(マッチゲート)テンソルネットワークから学んだ教訓が,ホログラフィック障害下でより一般的なハミルトニアンに一般化されることを示すとともに,このような対称性を持つXXZスピン鎖の挙動について考察する。
特に、この乱相における絡み合いエントロピー曲線は、連続体極限における共形場理論(CFT)の期待スケーリングに従うことを数値的に示す。
この性質は他の準周期性疾患に対して非遺伝性であることが示され、境界性障害のアンザッツが「二重」バルク双曲型タイリングによって記述されるときにのみ現れる。
この結果から, 離散ホログラフィーモデルから対称性を導出した臨界相の全クラスの存在が示唆された。
Discrete models of holographic dualities, typically modeled by tensor networks on hyperbolic tilings, produce quantum states with a characteristic quasiperiodic disorder not present in continuum holography. In this work, we study the behavior of XXZ spin chains with such symmetries, showing that lessons learned from previous non-interacting (matchgate) tensor networks generalize to more generic Hamiltonians under holographic disorder: While the disorder breaks translation invariance, site-averaged correlations and entanglement of the disorder-free critical phase are preserved at a plateau of nonzero disorder even at large system sizes. In particular, we show numerically that the entanglement entropy curves in this disordered phase follow the expected scaling of a conformal field theory (CFT) in the continuum limit. This property is shown to be non-generic for other types of quasiperiodic disorder, only appearing when our boundary disorder ansatz is described by a "dual" bulk hyperbolic tiling. Our results therefore suggest the existence of a whole class of critical phases whose symmetries are derived from models of discrete holography. | 翻訳日:2024-10-01 07:32:00 公開日:2024-09-25 |
# 反対称な性質の爆発による絡み合いの測定
Measuring Entanglement by Exploiting its Anti-symmetric Nature ( http://arxiv.org/abs/2409.17236v1 ) ライセンス: Link先を確認 | Peyman Azodi, Benjamin Lienhard, Herschel A. Rabitz, | (参考訳) 実験量子科学の進歩にもかかわらず、絡み合いのエントロピーの測定は依然として困難である。
幾何学的観点から、内在的な非対称な絡み合いの性質を明らかにする。
我々は、フォン・ノイマンやレニー・エントロピーのようなほとんどの絡み合い測度が、基本的に非対称な外積で表せることを証明している。
これを活用することで、フェルミオンの非対称性を利用してエンタングルメントエントロピーを効率的に測定し、バイパルタイトエントロピーを探索するための資源効率の良いアプローチを提案する。
Despite significant progress in experimental quantum sciences, measuring entanglement entropy remains challenging. Through a geometric perspective, we reveal the intrinsic anti-symmetric nature of entanglement. We prove that most entanglement measures, such as von Neumann and Renyi entropies, can be expressed in terms of exterior products, which are fundamentally anti-symmetric. Leveraging this, we propose utilizing the anti-symmetric nature of fermions to measure entanglement entropy efficiently, offering a resource-efficient approach to probing bipartite entanglement. | 翻訳日:2024-10-01 07:32:00 公開日:2024-09-25 |
# 弱散逸限界における局所量子チャネルのスペクトルギャップ
Spectral gaps of local quantum channels in the weak-dissipation limit ( http://arxiv.org/abs/2409.17238v1 ) ライセンス: Link先を確認 | J. Alexander Jacoby, David A. Huse, Sarang Gopalakrishnan, | (参考訳) 保存則のない一般カオス量子多体系の力学をバルク散逸の弱い条件下で考察する。
T. Mori, arXiv:2311.10304] は、量子チャネル $\mathcal{E}$ の散逸力学の生成元が、熱力学の極限が最初に取られるとき、散逸強度 $\gamma \to 0$ としてゼロでないギャップを保持することを最近観測した。
我々は、散逸の存在下で拡散する作用素の流体力学的記述を用いて、$\mathcal{E}$ のギャップを $\gamma \to 0$ と見積もる。
ランダムユニタリ回路に対するこの流体力学的視点の顕微鏡的導出を行う。
我々は、$\gamma \to 0$ 極限のギャップは、ユニタリ力学のパラメータをチューニングすることによって非解析的に変化できると主張している。
We consider the dynamics of generic chaotic quantum many-body systems with no conservation laws, subject to weak bulk dissipation. It was recently observed [T. Mori, arXiv:2311.10304] that the generator of these dissipative dynamics, a quantum channel $\mathcal{E}$, retains a nonzero gap as the dissipation strength $\gamma \to 0$ if the thermodynamic limit is taken first. We use a hydrodynamic description of operator spreading in the presence of dissipation to estimate the gap of $\mathcal{E}$ as $\gamma \to 0$; to calculate the operator-size distribution of the low-lying eigenmodes of $\mathcal{E}$; and to relate the gap to the long-time decay rates of autocorrelation functions under unitary dynamics. We provide a microscopic derivation of this hydrodynamic perspective for random unitary circuits. We argue that the gap in the $\gamma \to 0$ limit can change nonanalytically as one tunes the parameters of the unitary dynamics. | 翻訳日:2024-10-01 07:32:00 公開日:2024-09-25 |
# 重い尾を持つランダム場を持つスピン鎖の亜弾道的作用素成長
Sub-ballistic operator growth in spin chains with heavy-tailed random fields ( http://arxiv.org/abs/2409.17242v1 ) ライセンス: Link先を確認 | Christopher L. Baldwin, | (参考訳) 我々は、有理分散ランダム場を持つほぼ任意の量子スピン鎖、すなわち、$h$スケールを超える場の確率が$h^{-\alpha}$であるような場合、ハイゼンベルク図形で進化する任意の作用素が1/\alpha$未満の動的指数で拡散することは不可能であるということを厳密に証明する。
特に、$\alpha < 1$ では弾道的成長は不可能であり、$\alpha < 1/2$ では拡散的成長は不可能であり、十分小さな$\alpha$ では任意の有限力学指数は不可能となる。
この結果により、この障害が従来の輸送を確実に阻止する広範囲なモデルが確立される。
確率場によるリーブ・ロビンソン境界の締め付けとして、強磁場が効果的な弱い相互作用として現れるような標準導出を修正した上で、ランダム結合スピン鎖に類似した最近の結果を利用する。
We rigorously prove that in nearly arbitrary quantum spin chains with power-law-distributed random fields, namely such that the probability of a field exceeding $h$ scales as $h^{-\alpha}$, it is impossible for any operator evolving in the Heisenberg picture to spread with dynamical exponent less than $1/\alpha$. In particular, ballistic growth is impossible for $\alpha < 1$, diffusive growth is impossible for $\alpha < 1/2$, and any finite dynamical exponent becomes impossible for sufficiently small $\alpha$. This result thus establishes a wide family of models in which the disorder provably prevents conventional transport. We express the result as a tightening of Lieb-Robinson bounds due to random fields -- the proof modifies the standard derivation such that strong fields appear as effective weak interactions, and then makes use of analogous recent results for random-bond spin chains. | 翻訳日:2024-10-01 07:32:00 公開日:2024-09-25 |
# 熱化速度と量子ルエル・ポリコット共鳴:作用素流体力学からの洞察
Thermalization rates and quantum Ruelle-Pollicott resonances: insights from operator hydrodynamics ( http://arxiv.org/abs/2409.17251v1 ) ライセンス: Link先を確認 | Carolyn Zhang, Laimei Nie, Curt von Keyserlingk, | (参考訳) エルゴード・フロケやランダム・ユニタリ回路のような保存則のない多体量子系を熱化する際、局所的な期待値はその平衡値に指数関数的に崩壊すると予測される。
この研究において、この指数的崩壊率 $\overline{g}$ と局所ユニタリ進化の性質を広げる作用素の関係を導出する。
演算子拡散のための流体力学図形は、ランダムなユニタリ回路に対して、$\overline{g}$は、散逸の極限においてユニタリ力学をリッチ化することによって得られる動的写像の先頭固有値によって符号化されると主張することができる。
固有値のサイズはこの弱散逸の詳細(エルゴード力学の性質に関する穏やかな仮定を与える)には依存せず、大作用素を著しく抑制するだけである。
我々の計算は、ランダムなユニタリ回路の解析結果に基づいているが、エルゴディックフロケ系では同様の結果が成り立つと論じている。
これらの予想は、古典的ルエル・ポリコット共鳴の量子多体類似(T. Prosen J. Phys. A: Math. 35 L737 (2002), T. Mori, arXiv:2311.10304)を弱散逸するユニタリ進化を研究することによって数値的に得る既存の結果と一致している。
In thermalizing many-body quantum systems without conservation laws such as ergodic Floquet and random unitary circuits, local expectation values are predicted to decay to their equilibrium values exponentially quickly. In this work we derive a relationship between said exponential decay rate $\overline{g}$ and the operator spreading properties of a local unitary evolution. A hydrodynamical picture for operator spreading allows us to argue that, for random unitary circuits, $\overline{g}$ is encoded by the leading eigenvalue of a dynamical map obtained by enriching unitary dynamics with dissipation, in the limit of weak dissipation. We argue that the size of the eigenvalue does not depend on the details of this weak dissipation (given mild assumptions on properties of the ergodic dynamics), so long as it only suppresses large operators significantly. Our calculations are based on analytical results for random unitary circuits, but we argue that similar results hold for ergodic Floquet systems. These conjectures are in accordance with existing results which numerically obtain quantum many-body analogues of classical Ruelle-Pollicott resonances [T. Prosen J. Phys. A: Math. Gen. 35 L737 (2002), T. Mori, arXiv:2311.10304] by studying unitary evolutions subject to weak dissipation. | 翻訳日:2024-09-30 12:52:34 公開日:2024-09-25 |
# AV1圧縮コンテンツの高効率化に向けたAIM 2024の挑戦
AIM 2024 Challenge on Efficient Video Super-Resolution for AV1 Compressed Content ( http://arxiv.org/abs/2409.17256v1 ) ライセンス: Link先を確認 | Marcos V Conde, Zhijun Lei, Wen Li, Christos Bampis, Ioannis Katsavounidis, Radu Timofte, | (参考訳) ビデオスーパーレゾリューション(VSR)は、特にストリーミングアプリケーションにおいて、低ビットレートおよび低解像度ビデオを強化するための重要なタスクである。
多くのソリューションが開発されているが、高い計算要求に悩まされ、特にモバイルプラットフォームにおいて、フレームレート(FPS)が低く、電力効率が低くなる。
本研究では,これらの課題に対処するための様々な手法をコンパイルし,高パフォーマンスと低ランタイムの両方に最適化されたエンドツーエンドのリアルタイムビデオ超解像フレームワークを実現する。
また,提案手法のさらなる検証のために,高品質な4Kビデオの新たなテストセットも導入した。
提案されたソリューションは、一般的なケースとして540pから4K(x4)、モバイルデバイス向けに調整された360pから1080p(x3)の2つのアプリケーションのためのビデオアップスケーリングに取り組む。
両方のトラックでは、パラメータと操作(MAC)の削減、高いFPSの許容、補間ベースラインよりもVMAFとPSNRが改善されている。
本稿は、これまでで最も効率的なビデオ超解像法について評価する。
Video super-resolution (VSR) is a critical task for enhancing low-bitrate and low-resolution videos, particularly in streaming applications. While numerous solutions have been developed, they often suffer from high computational demands, resulting in low frame rates (FPS) and poor power efficiency, especially on mobile platforms. In this work, we compile different methods to address these challenges, the solutions are end-to-end real-time video super-resolution frameworks optimized for both high performance and low runtime. We also introduce a new test set of high-quality 4K videos to further validate the approaches. The proposed solutions tackle video up-scaling for two applications: 540p to 4K (x4) as a general case, and 360p to 1080p (x3) more tailored towards mobile devices. In both tracks, the solutions have a reduced number of parameters and operations (MACs), allow high FPS, and improve VMAF and PSNR over interpolation baselines. This report gauges some of the most efficient video super-resolution methods to date. | 翻訳日:2024-09-30 12:52:34 公開日:2024-09-25 |
# コラボレーション型コミック生成:創造性を高めるためのAIモデルとビジュアルナラティブ理論の統合
Collaborative Comic Generation: Integrating Visual Narrative Theories with AI Models for Enhanced Creativity ( http://arxiv.org/abs/2409.17263v1 ) ライセンス: Link先を確認 | Yi-Chun Chen, Arnav Jhala, | (参考訳) 本研究は,概念的原理-共通オーサリング・イディオムと生成的・言語モデルを統合し,漫画作成プロセスを強化する理論に着想を得たビジュアル・ナラティブ・ジェネレーションシステムを提案する。
我々のシステムは、人間の創造性とAIモデルを組み合わせて、生成プロセスの一部をサポートし、コミックコンテンツを作成するための協調的なプラットフォームを提供する。
これらの漫画作者のイディオムは、以前の人間が作った画像シーケンスから派生したもので、ストーリーテリングの製作と精錬のガイドラインとして機能する。
このシステムはこれらの原則を,パネル構成やストーリーテンションの変化,パネル遷移といった物語的要素に対処し,連続的な意思決定を通じて漫画作成を促進するシステム層に翻訳する。
主な貢献は、機械学習モデルを人間-AI協調コミック生成プロセスに統合すること、抽象的な物語理論をAI駆動コミック作成に展開すること、物語駆動画像シーケンスのカスタマイズ可能なツールである。
このアプローチは、生成された画像シーケンスにおける物語要素を改善し、コミックのAI生成プロセスにおいて人間の創造性に取り組む。
私たちはhttps://github.com/RimiChen/Collaborative_Comic_Generation.comでコードをオープンソース化しました。
This study presents a theory-inspired visual narrative generative system that integrates conceptual principles-comic authoring idioms-with generative and language models to enhance the comic creation process. Our system combines human creativity with AI models to support parts of the generative process, providing a collaborative platform for creating comic content. These comic-authoring idioms, derived from prior human-created image sequences, serve as guidelines for crafting and refining storytelling. The system translates these principles into system layers that facilitate comic creation through sequential decision-making, addressing narrative elements such as panel composition, story tension changes, and panel transitions. Key contributions include integrating machine learning models into the human-AI cooperative comic generation process, deploying abstract narrative theories into AI-driven comic creation, and a customizable tool for narrative-driven image sequences. This approach improves narrative elements in generated image sequences and engages human creativity in an AI-generative process of comics. We open-source the code at https://github.com/RimiChen/Collaborative_Comic_Generation. | 翻訳日:2024-09-30 12:52:34 公開日:2024-09-25 |
# Mnemosyne: 近似のないマルチミリオンコンテキスト長LLM推論を効率的に実行するための並列化戦略
Mnemosyne: Parallelization Strategies for Efficiently Serving Multi-Million Context Length LLM Inference Requests Without Approximations ( http://arxiv.org/abs/2409.17264v1 ) ライセンス: Link先を確認 | Amey Agrawal, Junda Chen, Íñigo Goiri, Ramachandran Ramjee, Chaojie Zhang, Alexey Tumanov, Esha Choukse, | (参考訳) 大規模言語モデル(LLM)がより長いコンテキストを扱うように進化するにつれて、数百万のトークンの範囲におけるコンテキスト長の推論要求がユニークな課題を示す。
既存のテクニックはトレーニングに有効だが、プレフィルとデコードフェーズや、TTFT(Time to First Token)やTBT(Time Between Tokens)など、関連するレイテンシ制約など、推論のユニークな課題に対処できない。
さらに、バッチリクエストが現在のハードウェア利用量を増加させる、長いコンテキスト推論ソリューションはありません。
本稿では,混合バッチ処理におけるプレフィルオーバヘッドを削減する適応チャンキング,TTFTの低減を目的としたシーケンスパイプライン並列化(SPP),TBTの最小化を目的としたKVキャッシュ並列化(KVP)の3つの重要なイノベーションを提案する。
これらのコントリビューションを3D並列化戦略に統合することで、Mnemosyneは、バッチ処理によって高いスループットで、少なくとも1000万のトークンに対してインタラクティブな推論をスケールすることができる。
私たちの知る限り、Mnemosyneは、1000万のコンテキスト推論を効率的にサポートし、最大1000万までのコンテキスト上で、TBT(30ms)上のプロダクショングレードのSLOを満足しながら、初めて、1000万のコンテキスト推論を効率的に実現しました。
As large language models (LLMs) evolve to handle increasingly longer contexts, serving inference requests for context lengths in the range of millions of tokens presents unique challenges. While existing techniques are effective for training, they fail to address the unique challenges of inference, such as varying prefill and decode phases and their associated latency constraints - like Time to First Token (TTFT) and Time Between Tokens (TBT). Furthermore, there are no long context inference solutions that allow batching requests to increase the hardware utilization today. In this paper, we propose three key innovations for efficient interactive long context LLM inference, without resorting to any approximation: adaptive chunking to reduce prefill overheads in mixed batching, Sequence Pipeline Parallelism (SPP) to lower TTFT, and KV Cache Parallelism (KVP) to minimize TBT. These contributions are combined into a 3D parallelism strategy, enabling Mnemosyne to scale interactive inference to context lengths at least up to 10 million tokens with high throughput enabled with batching. To our knowledge, Mnemosyne is the first to be able to achieve support for 10 million long context inference efficiently, while satisfying production-grade SLOs on TBT (30ms) on contexts up to and including 10 million. | 翻訳日:2024-09-30 12:52:34 公開日:2024-09-25 |
# 生体用コドンMPNNとコドン最適逆成形
CodonMPNN for Organism Specific and Codon Optimal Inverse Folding ( http://arxiv.org/abs/2409.17265v1 ) ライセンス: Link先を確認 | Hannes Stark, Umesh Padia, Julia Balla, Cameron Diao, George Church, | (参考訳) タンパク質構造に条件付けされたタンパク質配列を生成することは、タンパク質工学に影響を及ぼす技術である。
人工タンパク質を合成する際には、一般的にDNAに翻訳され、酵母のような有機体で発現する。
このプロセスの1つの困難は、宿主の生体内でタンパク質を発現するための最適コドン配列のために、発現率が低いことである。
タンパク質のバックボーン構造と生物ラベルに条件付けられたコドン配列を生成するコドンMPNNを提案する。
自然発生のDNA配列がコドン最適性に近い場合、コドンMPNNは生成したアミノ酸配列に対するヒューリスティックなコドン選択よりも高い発現率のコドン配列を生成することができる。
実験の結果,コドンMPNNは従来の逆折り畳みアプローチの性能を保ち,ベースラインよりも野生型コドンを頻繁に回収することがわかった。
さらに、CodonMPNNは、同じタンパク質配列に対する低適合性コドン配列よりも、高適合性コドン配列を生成する可能性が高い。
コードはhttps://github.com/HannesStark/CodonMPNNで入手できる。
Generating protein sequences conditioned on protein structures is an impactful technique for protein engineering. When synthesizing engineered proteins, they are commonly translated into DNA and expressed in an organism such as yeast. One difficulty in this process is that the expression rates can be low due to suboptimal codon sequences for expressing a protein in a host organism. We propose CodonMPNN, which generates a codon sequence conditioned on a protein backbone structure and an organism label. If naturally occurring DNA sequences are close to codon optimality, CodonMPNN could learn to generate codon sequences with higher expression yields than heuristic codon choices for generated amino acid sequences. Experiments show that CodonMPNN retains the performance of previous inverse folding approaches and recovers wild-type codons more frequently than baselines. Furthermore, CodonMPNN has a higher likelihood of generating high-fitness codon sequences than low-fitness codon sequences for the same protein sequence. Code is available at https://github.com/HannesStark/CodonMPNN. | 翻訳日:2024-09-30 12:52:34 公開日:2024-09-25 |
# AAPM:大規模言語モデルエージェントベースのアセット価格モデル
AAPM: Large Language Model Agent-based Asset Pricing Models ( http://arxiv.org/abs/2409.17266v1 ) ライセンス: Link先を確認 | Junyan Cheng, Peter Chin, | (参考訳) 本研究では, LLMエージェントからの質的意思決定的投資分析と, 量的手動経済要因を融合させ, 余剰資産返却を予測する新しい資産価格手法, LLMエージェントベースの資産価格モデル(AAPM)を提案する。
実験結果から,本手法はポートフォリオ最適化および資産価格誤差において,機械学習に基づく資産価格ベースラインよりも優れていることが示された。
具体的には、異常ポートフォリオに対するシャープ比と平均$|\alpha|$は、それぞれ9.6\%と10.8\%に大幅に改善された。
さらに,提案手法のさらなる知見を明らかにするため,我々のモデルとデータ解析について広範囲にわたるアブレーション研究を行った。
In this study, we propose a novel asset pricing approach, LLM Agent-based Asset Pricing Models (AAPM), which fuses qualitative discretionary investment analysis from LLM agents and quantitative manual financial economic factors to predict excess asset returns. The experimental results show that our approach outperforms machine learning-based asset pricing baselines in portfolio optimization and asset pricing errors. Specifically, the Sharpe ratio and average $|\alpha|$ for anomaly portfolios improved significantly by 9.6\% and 10.8\% respectively. In addition, we conducted extensive ablation studies on our model and analysis of the data to reveal further insights into the proposed method. | 翻訳日:2024-09-30 12:52:34 公開日:2024-09-25 |
# モデルアグリゲーション:経験的分散の最小化と最小化
empirical + -al
Model aggregation: minimizing empirical variance outperforms minimizing empirical error ( http://arxiv.org/abs/2409.17267v1 ) ライセンス: Link先を確認 | Th\'eo Bourdais and Houman Owhadi | (参考訳) 決定論的でも確率的でも、モデルは特定の量の興味を近似するように設計された関数と見なすことができる。
多様なモデルからの予測を単一のより正確な出力に集約する,データ駆動型フレームワークを提案する。
このアグリゲーションアプローチは、各モデルの強度を利用して全体的な精度を高める。
モデルはブラックボックス関数として扱う、モデルに依存しない、最小限の仮定を必要とし、機械学習や数値解法など、幅広いモデルの出力を組み合わせることができる。
集約プロセスは点次線形であるべきであり,その分散を最小化する最小誤差集約(MEA)と最小変数集約(MVA)の2つの手法を提案する。
MEAは、モデルと対象量の相関関係が完全に知られている場合、本質的にはより正確であるが、MVAの実証版であるMEVA(Minimmal Empirical Variance Aggregation)は、データからこれらの相関を推定する必要がある場合、MEEAの実証版であるMEEA(Minimmal Empirical Error Aggregation)より一貫して優れている。
重要な違いは、MEVAがモデルエラーを推定して集約を構築するのに対して、MEEAは関心の量を直接補間するための特徴としてモデルを扱います。
これにより、MEEAはオーバーフィッティングや一般化の貧弱さにより敏感になり、アグリゲーションはテスト中に個々のモデルを過小評価する可能性がある。
データサイエンスや偏微分方程式などの様々な応用におけるフレームワークの汎用性と有効性を示し、従来の解法を機械学習モデルとうまく統合し、堅牢性と精度を両立させる方法を示した。
Whether deterministic or stochastic, models can be viewed as functions designed to approximate a specific quantity of interest. We propose a data-driven framework that aggregates predictions from diverse models into a single, more accurate output. This aggregation approach exploits each model's strengths to enhance overall accuracy. It is non-intrusive - treating models as black-box functions - model-agnostic, requires minimal assumptions, and can combine outputs from a wide range of models, including those from machine learning and numerical solvers. We argue that the aggregation process should be point-wise linear and propose two methods to find an optimal aggregate: Minimal Error Aggregation (MEA), which minimizes the aggregate's prediction error, and Minimal Variance Aggregation (MVA), which minimizes its variance. While MEA is inherently more accurate when correlations between models and the target quantity are perfectly known, Minimal Empirical Variance Aggregation (MEVA), an empirical version of MVA - consistently outperforms Minimal Empirical Error Aggregation (MEEA), the empirical counterpart of MEA, when these correlations must be estimated from data. The key difference is that MEVA constructs an aggregate by estimating model errors, while MEEA treats the models as features for direct interpolation of the quantity of interest. This makes MEEA more susceptible to overfitting and poor generalization, where the aggregate may underperform individual models during testing. We demonstrate the versatility and effectiveness of our framework in various applications, such as data science and partial differential equations, showing how it successfully integrates traditional solvers with machine learning models to improve both robustness and accuracy. | 翻訳日:2024-09-30 12:52:34 公開日:2024-09-25 |
# 思考の証明 : ニューロシンボリックプログラム合成はロバストとロバストを許容する
解釈可能な推論
Proof of Thought : Neurosymbolic Program Synthesis allows Robust and Interpretable Reasoning ( http://arxiv.org/abs/2409.17270v1 ) ライセンス: Link先を確認 | Debargha Ganguly, Srinivasan Iyengar, Vipin Chaudhary and Shivkumar Kalyanaraman | (参考訳) 大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、特に新しいドメインや複雑な論理配列において、一貫性のない推論に苦慮している。
本研究では,LLM出力の信頼性と透明性を高めるフレームワークであるProof of Thoughtを紹介する。
提案手法は LLM 生成のアイデアを形式論理検証でブリッジし,LLM の出力を 1次論理構造に変換するためのカスタムインタプリタを用いて定理証明の精査を行う。
我々の手法の中心はJSONベースのドメイン特化言語であり、設計によって正確な論理構造と直感的な人間の概念のバランスをとる。
このハイブリッド表現は、厳密な検証とLLM推論プロセスの人間の理解の両方を可能にする。
主なコントリビューションには、論理的整合性を高めるためのソート管理を備えた堅牢な型システム、事実と推論の知識を明確に区別するためのルールの明示、さまざまなドメイン固有のアプリケーションを簡単に拡張できる柔軟なアーキテクチャが含まれる。
我々は、StrategyQAと新しいマルチモーダル推論タスクをベンチマークし、オープンエンドシナリオにおける性能改善を示すことにより、思考の有効性を実証する。
検証可能かつ解釈可能な結果を提供することで、AIシステムのアカウンタビリティに対する重要なニーズに対処し、ハイテイクドメインにおけるヒューマン・イン・ザ・ループの監視の基礎を設定する。
Large Language Models (LLMs) have revolutionized natural language processing, yet they struggle with inconsistent reasoning, particularly in novel domains and complex logical sequences. This research introduces Proof of Thought, a framework that enhances the reliability and transparency of LLM outputs. Our approach bridges LLM-generated ideas with formal logic verification, employing a custom interpreter to convert LLM outputs into First Order Logic constructs for theorem prover scrutiny. Central to our method is an intermediary JSON-based Domain-Specific Language, which by design balances precise logical structures with intuitive human concepts. This hybrid representation enables both rigorous validation and accessible human comprehension of LLM reasoning processes. Key contributions include a robust type system with sort management for enhanced logical integrity, explicit representation of rules for clear distinction between factual and inferential knowledge, and a flexible architecture that allows for easy extension to various domain-specific applications. We demonstrate Proof of Thought's effectiveness through benchmarking on StrategyQA and a novel multimodal reasoning task, showing improved performance in open-ended scenarios. By providing verifiable and interpretable results, our technique addresses critical needs for AI system accountability and sets a foundation for human-in-the-loop oversight in high-stakes domains. | 翻訳日:2024-09-30 12:52:34 公開日:2024-09-25 |
# 第二量子化におけるボソンフェルミオン代数写像
Boson-fermion algebraic mapping in second quantization ( http://arxiv.org/abs/2409.17271v1 ) ライセンス: Link先を確認 | F. Lingua, D. M. Peñafiel, L. Ravera, S. Salgado, | (参考訳) 生成のボゾン代数と消滅作用素のフェルミオン代数への写像に基づいて構造を導出する代数的方法を提案する。
得られた代数構造は、非可換グラスマン型変数を含む変形したグラスマン代数に対応する。
次に,2次量子化におけるゲージ不変性の実装において後者が果たす役割と,ボソニックおよびフェルミオン調和振動子ハミルトニアンの場合への写像の適用について述べる。
We present an algebraic method to derive the structure at the basis of the mapping of bosonic algebras of creation and annihilation operators into fermionic algebras, and vice versa, introducing a suitable identification between bosonic and fermionic generators. The algebraic structure thus obtained corresponds to a deformed Grassmann algebra, involving anticommuting Grassmann-type variables. The role played by the latter in the implementation of gauge invariance in second quantization within our procedure is then discussed, together with the application of the mapping to the case of the bosonic and fermionic harmonic oscillator Hamiltonians. | 翻訳日:2024-09-30 12:52:34 公開日:2024-09-25 |
# 効果的な脳腫瘍のための統合的深層学習フレームワーク
磁気共鳴画像からの局所化・分割・分類
An Integrated Deep Learning Framework for Effective Brain Tumor Localization, Segmentation, and Classification from Magnetic Resonance Images ( http://arxiv.org/abs/2409.17273v1 ) ライセンス: Link先を確認 | Pandiyaraju V, Shravan Venkatraman, Abeshek A, Aravintakshan S A, Pavan Kumar S, Madhan S | (参考訳) 脳内の腫瘍は、様々な種類の脳細胞から生じる脳組織内の異常な細胞増殖によって生じる。
診断されていない場合、認知障害、運動機能障害、感覚障害などの重度の神経学的障害を引き起こす。
腫瘍が成長すると、頭蓋内圧が上昇し、脳ヘルニアなどの生命を脅かす合併症を引き起こす可能性がある。
そのため、このような腫瘍による合併症の早期発見と治療は、増殖を遅らせるために必要である。
深層学習(DL)と人工知能(AI)を含む多くの研究が、MRI(磁気共鳴画像)を用いて得られたスキャンを利用して、早期診断の医師を支援するために進められている。
本研究は,MRI画像からのグリオーマの局在,セグメンテーション,分類のためのDLフレームワークを提案する。
ローカライゼーションフレームワークでは,VGG19にインスパイアされたエンコーダアーキテクチャを用いて,マルチモーダルな腫瘍の特徴抽出を改良し,特徴焦点と機能間関係を洗練するための空間的・グラフ的アテンション機構を改良した。
その後、我々はSeResNet101 CNNモデルをエンコーダバックボーンとしてLinkNetフレームワークに統合し、IoUスコアは96%に達した。
セグメント化腫瘍を分類するために,SeResNet152特徴抽出器とAdaptive Boosting分類器を併用し,98.53%の精度を得た。
提案モデルでは,早期診断を可能とし,患者に対してより正確な治療オプションを提供することで,医療用AIの進歩を期待できる結果が得られた。
Tumors in the brain result from abnormal cell growth within the brain tissue, arising from various types of brain cells. When left undiagnosed, they lead to severe neurological deficits such as cognitive impairment, motor dysfunction, and sensory loss. As the tumor grows, it causes an increase in intracranial pressure, potentially leading to life-threatening complications such as brain herniation. Therefore, early detection and treatment are necessary to manage the complications caused by such tumors to slow down their growth. Numerous works involving deep learning (DL) and artificial intelligence (AI) are being carried out to assist physicians in early diagnosis by utilizing the scans obtained through Magnetic Resonance Imaging (MRI). Our research proposes DL frameworks for localizing, segmenting, and classifying the grade of these gliomas from MRI images to solve this critical issue. In our localization framework, we enhance the LinkNet framework with a VGG19- inspired encoder architecture for improved multimodal tumor feature extraction, along with spatial and graph attention mechanisms to refine feature focus and inter-feature relationships. Following this, we integrated the SeResNet101 CNN model as the encoder backbone into the LinkNet framework for tumor segmentation, which achieved an IoU Score of 96%. To classify the segmented tumors, we combined the SeResNet152 feature extractor with an Adaptive Boosting classifier, which yielded an accuracy of 98.53%. Our proposed models demonstrated promising results, with the potential to advance medical AI by enabling early diagnosis and providing more accurate treatment options for patients. | 翻訳日:2024-09-30 12:52:34 公開日:2024-09-25 |
# 自動車の軌道予測におけるアウトオブディストリビューションのリアルタイム認識の構築
Building Real-time Awareness of Out-of-distribution in Trajectory Prediction for Autonomous Vehicles ( http://arxiv.org/abs/2409.17277v1 ) ライセンス: Link先を確認 | Tongfei, Guo, Taposh Banerjee, Rui Liu, Lili Su, | (参考訳) 軌道予測は、自動運転車の周囲の障害物の動きを記述しており、衝突回避や軌道変更といったタイムリーな意思決定を可能にする上で重要な役割を果たしている。
正確な軌道計画がオープンワールド環境における信頼性の高い車両配備の鍵であり、非構造的障害がトレーニングデータによって完全な捕獲が不可能な不確実性をもたらす。
従来の機械学習タスクでは、このような不確実性は連続学習のような手法によって適切に対処されることが多い。
一方、これらの手法を軌道予測に適用すると、連続的なデータ収集と頻繁なモデル更新が発生し、リソース集約化がもたらされる。
一方、予測された軌道は真の軌道から遠く離れており、安全でない意思決定につながる。
本稿では,自律走行車における軌道予測におけるアウト・オブ・ディストリビューションのリアルタイム認識を確立することを目的とする。
我々は,人間の直感によって容易には検出できないような,流通停止が欺く難易度と実践的関連性に焦点をあてる。
逐次解析の確立した技術に基づいて,最短変化点検出(QCD)を用いた予測誤差の監視により,配当のリアルタイム認識を構築する。
提案手法は軽量であり, 軌道予測推定時にいつでもアウト・オブ・ディストリビューションの発生を処理できる。
ベンチマーク軌跡予測モデルを用いた実世界の複数のデータセットの実験結果から,本手法の有効性が示された。
Trajectory prediction describes the motions of surrounding moving obstacles for an autonomous vehicle; it plays a crucial role in enabling timely decision-making, such as collision avoidance and trajectory replanning. Accurate trajectory planning is the key to reliable vehicle deployments in open-world environment, where unstructured obstacles bring in uncertainties that are impossible to fully capture by training data. For traditional machine learning tasks, such uncertainties are often addressed reasonably well via methods such as continual learning. On the one hand, naively applying those methods to trajectory prediction can result in continuous data collection and frequent model updates, which can be resource-intensive. On the other hand, the predicted trajectories can be far away from the true trajectories, leading to unsafe decision-making. In this paper, we aim to establish real-time awareness of out-of-distribution in trajectory prediction for autonomous vehicles. We focus on the challenging and practically relevant setting where the out-of-distribution is deceptive, that is, the one not easily detectable by human intuition. Drawing on the well-established techniques of sequential analysis, we build real-time awareness of out-of-distribution by monitoring prediction errors using the quickest change point detection (QCD). Our solutions are lightweight and can handle the occurrence of out-of-distribution at any time during trajectory prediction inference. Experimental results on multiple real-world datasets using a benchmark trajectory prediction model demonstrate the effectiveness of our methods. | 翻訳日:2024-09-30 12:52:34 公開日:2024-09-25 |
# SHEATH: 対向雑音に対する分散型CNNの水平協調
SHEATH: Defending Horizontal Collaboration for Distributed CNNs against Adversarial Noise ( http://arxiv.org/abs/2409.17279v1 ) ライセンス: Link先を確認 | Muneeba Asif, Mohammad Kumail Kazmi, Mohammad Ashiqur Rahman, Syed Rafay Hasan, Soamar Homsi, | (参考訳) エッジコンピューティングとIoT(Internet of Things)が拡大するにつれて、リソース制約のあるデバイスのための分散データ処理ソリューションとして水平コラボレーション(HC)が登場します。
特に、畳み込みニューラルネットワーク(CNN)モデルは、複数のIoTデバイスにデプロイすることができ、モデルとデータのプライバシを確保しながら、画像認識のための分散推論実行を可能にする。
しかし、この分散アーキテクチャは、たとえモデル全体にアクセスできないとしても、モデルに影響を及ぼす微妙な変更をしたいと願う敵に弱いままです。
このような脆弱性は、医療、軍事、自律システムなど、さまざまな分野に深刻な影響を及ぼす可能性がある。
しかし、これらの脆弱性に対するセキュリティソリューションは検討されていない。
本稿では,逆方向の雑音を検知し,元の特徴マップを復元することでCNN推論にその影響をなくすために,SHEATH(Adversarial Threat Handling)を用いたセキュア水平エッジ(Secure Horizontal Edge)を提案する。
特にSHEATHは、シーケンシャルパーティショニングに基づいたHCエッジアーキテクチャにおけるCNNモデルの完全な知識を必要とせずに、脆弱性に対処することを目指している。
データとモデルの整合性を保証し、さまざまなHC環境における敵攻撃に対するセキュリティを提供する。
本評価は,多様なCNN構成におけるSHEATHの適応性と有効性を示すものである。
As edge computing and the Internet of Things (IoT) expand, horizontal collaboration (HC) emerges as a distributed data processing solution for resource-constrained devices. In particular, a convolutional neural network (CNN) model can be deployed on multiple IoT devices, allowing distributed inference execution for image recognition while ensuring model and data privacy. Yet, this distributed architecture remains vulnerable to adversaries who want to make subtle alterations that impact the model, even if they lack access to the entire model. Such vulnerabilities can have severe implications for various sectors, including healthcare, military, and autonomous systems. However, security solutions for these vulnerabilities have not been explored. This paper presents a novel framework for Secure Horizontal Edge with Adversarial Threat Handling (SHEATH) to detect adversarial noise and eliminate its effect on CNN inference by recovering the original feature maps. Specifically, SHEATH aims to address vulnerabilities without requiring complete knowledge of the CNN model in HC edge architectures based on sequential partitioning. It ensures data and model integrity, offering security against adversarial attacks in diverse HC environments. Our evaluations demonstrate SHEATH's adaptability and effectiveness across diverse CNN configurations. | 翻訳日:2024-09-30 12:52:34 公開日:2024-09-25 |
# Disco4D:1枚の画像から4Dの人間生成とアニメーションを分離
Disco4D: Disentangled 4D Human Generation and Animation from a Single Image ( http://arxiv.org/abs/2409.17280v1 ) ライセンス: Link先を確認 | Hui En Pang, Shuai Liu, Zhongang Cai, Lei Yang, Tianwei Zhang, Ziwei Liu, | (参考訳) 一つの画像から4次元の人間生成とアニメーションのための新しいガウス・スティングフレームワークである \textbf{Disco4D} を提示する。
既存の方法とは異なり、Disco4Dは衣服(ガウスモデル)と人体(SMPL-Xモデル)を区別的に分離し、生成の詳細と柔軟性を大幅に向上させた。
技術的革新は以下の通りである。
Disco4D は SMPL-X Gaussian の服に効率的に適合する。
図2. \textbf{2} 拡散モデルを採用し、3D生成プロセスである \textit{e g } を拡張し、入力画像に見えない隠蔽された部分をモデル化する。
衣服の資産の分離と抽出を容易にするために、衣服ごとのアイデンティティエンコーディングを学ぶ。
さらに、Disco4Dは鮮明なダイナミックスを備えた4D人間アニメーションを自然にサポートする。
大規模な実験は、4次元の人間生成とアニメーションタスクにおけるDisco4Dの優位性を実証している。
視覚化は \url{https://disco-4d.github.io/} で確認できます。
We present \textbf{Disco4D}, a novel Gaussian Splatting framework for 4D human generation and animation from a single image. Different from existing methods, Disco4D distinctively disentangles clothings (with Gaussian models) from the human body (with SMPL-X model), significantly enhancing the generation details and flexibility. It has the following technical innovations. \textbf{1)} Disco4D learns to efficiently fit the clothing Gaussians over the SMPL-X Gaussians. \textbf{2)} It adopts diffusion models to enhance the 3D generation process, \textit{e.g.}, modeling occluded parts not visible in the input image. \textbf{3)} It learns an identity encoding for each clothing Gaussian to facilitate the separation and extraction of clothing assets. Furthermore, Disco4D naturally supports 4D human animation with vivid dynamics. Extensive experiments demonstrate the superiority of Disco4D on 4D human generation and animation tasks. Our visualizations can be found in \url{https://disco-4d.github.io/}. | 翻訳日:2024-09-30 12:41:44 公開日:2024-09-25 |
# 協調学習方式の強化を目的としたグレーボックス設定におけるプライバシ攻撃の調査
Investigating Privacy Attacks in the Gray-Box Setting to Enhance Collaborative Learning Schemes ( http://arxiv.org/abs/2409.17283v1 ) ライセンス: Link先を確認 | Federico Mazzone, Ahmad Al Badawi, Yuriy Polyakov, Maarten Everts, Florian Hahn, Andreas Peter, | (参考訳) 協調機械学習は、生データをそのまま保持することでプライバシーを確保することができるという考えは、欠陥があることが広く認められている。
過去7年間で、この文献は、モデルのパラメータへのアクセスをトレーニング中またはトレーニング後に利用することにより、モデルのトレーニングデータセットに関する情報を敵が抽出できるいくつかのプライバシ攻撃を明らかにした。
本研究では、グレーボックス設定におけるプライバシ攻撃について検討し、攻撃者はモデルへの限られたアクセス(ビューとアクション)しか持たない。
本研究の結果は,プライバシ保護型協調学習ソリューションの開発に新たな洞察を与えるものである。
SmartCryptNNは、同型暗号化を調整して、より高いプライバシリスクを示すモデルの部分を保護するフレームワークです。
私たちのソリューションは、プライバシと効率のトレードオフを提供します。
我々は、多種多様なデータセットとアーキテクチャを広範囲に評価することで、ネットワークの単一層のみを保護することで、トレードオフにおいて好ましいスイートスポットが達成できる事例を明らかにする。
そのような例の1つでは、我々のアプローチは、完全に暗号化されたソリューションに比べて約4倍高速にトレーニングし、また、平文のソリューションに比べて、メンバシップのリークを17.8倍削減する。
The notion that collaborative machine learning can ensure privacy by just withholding the raw data is widely acknowledged to be flawed. Over the past seven years, the literature has revealed several privacy attacks that enable adversaries to extract information about a model's training dataset by exploiting access to model parameters during or after training. In this work, we study privacy attacks in the gray-box setting, where the attacker has only limited access - in terms of view and actions - to the model. The findings of our investigation provide new insights for the development of privacy-preserving collaborative learning solutions. We deploy SmartCryptNN, a framework that tailors homomorphic encryption to protect the portions of the model posing higher privacy risks. Our solution offers a trade-off between privacy and efficiency, which varies based on the extent and selection of the model components we choose to protect. We explore it on dense neural networks, where through extensive evaluation of diverse datasets and architectures, we uncover instances where a favorable sweet spot in the trade-off can be achieved by safeguarding only a single layer of the network. In one of such instances, our approach trains ~4 times faster compared to fully encrypted solutions, while reducing membership leakage by 17.8 times compared to plaintext solutions. | 翻訳日:2024-09-30 12:41:44 公開日:2024-09-25 |
# 多体システムにおけるテンポラルベルの不等式
Temporal Bell inequalities in a many-body system ( http://arxiv.org/abs/2409.17290v1 ) ライセンス: Link先を確認 | A. Tononi, M. Lewenstein, | (参考訳) 量子力学の完全性を証明することは、その基礎以来の基本的な課題である。
量子物理学に反するベルの不等式が定式化された後、この理論は完全で非局所的であると現在信じられている。
クレーターとホーンのようなより一般的なベルのような不等式は、2つの当事者がランダムに2つの測度を選択して因果的に切断された時空で実行する状況を考える一方で、両者が異なる時刻で測定する時間的不等式を定式化することができる。
しかし、因果接続されたパーティーの場合、これらの拡張は局所的な隠れ変数理論と互換性があり、そのような時間的相関に量子的性質は現れない。
ここでは, 2つのスピンの時間的クレーター・ホールの不等式が, 2つのスピンがスピン鎖で連結されている場合, 測定間の非ゼロ時間間隔で破られることを示す。
この鎖は、量子情報の拡散のための媒体を構成しており、これは即時シグナルや、第1の測定後の決定論的時間進化を防ぐ。
我々の結果は、多体構成で予想されるように、リーブ・ロビンソン境界は情報の拡散の基本的な限界として光の速度を代用していることを示唆している。
Proving the completeness of quantum mechanics has been a fundamental task since its foundation. After the formulation of the Bell inequalities, violated by quantum physics, it is nowadays believed that the theory is complete and non-local. While more general Bell-like inequalities, such as the one of Clauser and Horne, envisage a situation in which two parties choose at random two measurements to perform at causally-disconnected space-times, one could formulate temporal inequalities in which the two parties measure at different times. However, for causally-connected parties, these extensions are compatible with local hidden-variable theories, so that no quantum nature appears in such temporal correlations. Here we show that a temporal Clauser-Horne inequality for two spins is violated for nonzero time interval between the measurements if the two measured parties are connected by a spin chain. The chain constitutes a medium for the spreading of quantum information, which prevents the immediate signaling and thus the deterministic time evolution after the first measurement. Our result suggests that, as expected in a many-body setup, the Lieb-Robinson bound substitutes the speed of light as the fundamental limit for the spreading of information. | 翻訳日:2024-09-30 12:41:44 公開日:2024-09-25 |
# Schr\\odinger Bridge を用いた深層条件生成学習
Schr\"odinger bridge based deep conditional generative learning ( http://arxiv.org/abs/2409.17294v1 ) ライセンス: Link先を確認 | Hanwen Huang | (参考訳) 条件生成モデルは、機械学習の分野で重要な進歩を表現し、生成プロセスに付加情報を組み込むことで、データの制御された合成を可能にする。
そこで本研究では,Schr\odinger Bridgeを用いた条件分布学習のための深層生成手法を提案する。
まず、確率微分方程式(SDE)が支配する単位時間拡散過程から始め、0$の定点を1$の目標条件分布に変換する。
そこで我々は,深層ニューラルネットワークを用いて,ドリフト項を非パラメトリックに推定するEuler-Maruyama法を用いてSDEを識別する。
本手法を低次元および高次元条件生成問題に適用する。
本手法では, 条件密度の直接推定は行わないが, 本手法により生成された試料は, 既存手法に比べて高い品質を示した。
さらに、生成したサンプルを有効利用して、条件平均や条件標準偏差などの条件密度と関連する統計量を推定することができる。
Conditional generative models represent a significant advancement in the field of machine learning, allowing for the controlled synthesis of data by incorporating additional information into the generation process. In this work we introduce a novel Schr\"odinger bridge based deep generative method for learning conditional distributions. We start from a unit-time diffusion process governed by a stochastic differential equation (SDE) that transforms a fixed point at time $0$ into a desired target conditional distribution at time $1$. For effective implementation, we discretize the SDE with Euler-Maruyama method where we estimate the drift term nonparametrically using a deep neural network. We apply our method to both low-dimensional and high-dimensional conditional generation problems. The numerical studies demonstrate that though our method does not directly provide the conditional density estimation, the samples generated by this method exhibit higher quality compared to those obtained by several existing methods. Moreover, the generated samples can be effectively utilized to estimate the conditional density and related statistical quantities, such as conditional mean and conditional standard deviation. | 翻訳日:2024-09-30 12:41:44 公開日:2024-09-25 |
# 農業収量における空間性, 正規化, 因果関係
ペルーの水田米の
Sparsity, Regularization and Causality in Agricultural Yield: The Case of Paddy Rice in Peru ( http://arxiv.org/abs/2409.17298v1 ) ライセンス: Link先を確認 | Rita Rocio Guzman-Lopez, Luis Huamanchumo, Kevin Fernandez, Oscar Cutipa-Luque, Yhon Tiahuallpa and Helder Rojas | (参考訳) 本研究では、ペルー各地の水田収量の正確な予測モデルを構築するために、リモートセンシング時系列と農業国勢調査データを統合した新しいアプローチを提案する。
スパース回帰法と弾性ネット正規化法を用いて,NDVI,降水量,温度および農業収量などの重要なリモートセンシング変数間の因果関係を同定した。
予測精度をさらに高めるために、これらの変数の1階および2階の動的変換(速度と加速度)を適用し、非線形パターンと収率に対する遅延効果を捉える。
その結果, 正規化手法と気候変数と地理空間変数を組み合わせることにより, 収量変動のより正確な予測が可能となった。
その結果,グラガーの意味での因果関係の存在が確認され,戦略的農業経営におけるこの方法論の価値が強調された。
これは水稲栽培において、より効率的で持続可能な生産に寄与する。
This study introduces a novel approach that integrates agricultural census data with remotely sensed time series to develop precise predictive models for paddy rice yield across various regions of Peru. By utilizing sparse regression and Elastic-Net regularization techniques, the study identifies causal relationships between key remotely sensed variables-such as NDVI, precipitation, and temperature-and agricultural yield. To further enhance prediction accuracy, the first- and second-order dynamic transformations (velocity and acceleration) of these variables are applied, capturing non-linear patterns and delayed effects on yield. The findings highlight the improved predictive performance when combining regularization techniques with climatic and geospatial variables, enabling more precise forecasts of yield variability. The results confirm the existence of causal relationships in the Granger sense, emphasizing the value of this methodology for strategic agricultural management. This contributes to more efficient and sustainable production in paddy rice cultivation. | 翻訳日:2024-09-30 12:41:44 公開日:2024-09-25 |
# ニューラルネットワークの塑性とロスシャープ性
Neural Network Plasticity and Loss Sharpness ( http://arxiv.org/abs/2409.17300v1 ) ライセンス: Link先を確認 | Max Koster and Jude Kukla | (参考訳) 近年,問題環境が時間とともに進化する可能性のある予測環境である連続学習が,複雑で非定常的な目的に向けての枠組みの整備により,研究分野として人気が高まっている。
このような目的を学習するには、可塑性、あるいはニューラルネットワークが予測を別のタスクに適応させる能力が必要である。
近年の研究では、新しいタスクにおける塑性損失は、非定常RLフレームワークにおける損失ランドスケープのシャープネスと高い関係があることが示されている。
本研究では, 可塑性損失対策として, スムーズなミニマを追求し, バニラ予測設定における一般化能力を評価されてきたシャープネス正則化技術の利用について検討する。
これらの技術は, 可塑性損失の低減に有意な影響を与えないことが示唆された。
In recent years, continual learning, a prediction setting in which the problem environment may evolve over time, has become an increasingly popular research field due to the framework's gearing towards complex, non-stationary objectives. Learning such objectives requires plasticity, or the ability of a neural network to adapt its predictions to a different task. Recent findings indicate that plasticity loss on new tasks is highly related to loss landscape sharpness in non-stationary RL frameworks. We explore the usage of sharpness regularization techniques, which seek out smooth minima and have been touted for their generalization capabilities in vanilla prediction settings, in efforts to combat plasticity loss. Our findings indicate that such techniques have no significant effect on reducing plasticity loss. | 翻訳日:2024-09-30 12:41:44 公開日:2024-09-25 |
# 信号処理と機械学習の民主化--小学生と中学生の数学学習方法
Democratizing Signal Processing and Machine Learning: Math Learning Equity for Elementary and Middle School Students ( http://arxiv.org/abs/2409.17304v1 ) ライセンス: Link先を確認 | Namrata Vaswani, Mohamed Y. Selim, Renee Serrell Gibert, | (参考訳) 信号処理(SP)と機械学習(ML)は数学とコーディングの知識、特に線形代数、確率、複素数に依存している。
これらは、中学で学んだスカラー代数に依存している。
スカラー代数をよく理解し、使用する能力は、基本算術における良い基礎に依存している。
様々な体系的な障壁のため、多くの学生は小学校の算術の強力な基礎を築けない。
これにより、その後は代数学とあらゆることに苦しむことになる。
数学の学習は累積的であるため、学校時代を通じて、強力な基礎を持たない人と他の全員とのギャップは増加し続けており、大学に通うのが難しくなっている。
本稿では、学生の学習を補うために、大学在学中(またはその他)の数学支援プログラムの開始と参加において、SP教員と大学院生がいかに重要な役割を果たすかを論じる。
著者が実施する2つの例(ISUのCyMathとPurdueのAb7G)を概説する。
本稿の第二の目的は,小学校数学教育政策の長期的影響を見てきた工学者,工学者,工学者,そして,小学校が数学学習を改善するために採用できる簡単なほぼゼロコストの提案を提供することである。
(i)学校ではもっと数学の練習をする。
(二 少額の宿題を送ること(個人業務は数学において重要なこと)
三 親の意識(リソース、早期数学基盤の必要性、学校内テスト情報の明確化、テストからのフィードバックの共有)
まとめると、(学校や学外プログラムを通じて)優れた早期数学サポートは、SPとMLをよりアクセスしやすくするのに役立つ。
Signal Processing (SP) and Machine Learning (ML) rely on good math and coding knowledge, in particular, linear algebra, probability, and complex numbers. A good grasp of these relies on scalar algebra learned in middle school. The ability to understand and use scalar algebra well, in turn, relies on a good foundation in basic arithmetic. Because of various systemic barriers, many students are not able to build a strong foundation in arithmetic in elementary school. This leads them to struggle with algebra and everything after that. Since math learning is cumulative, the gap between those without a strong early foundation and everyone else keeps increasing over the school years and becomes difficult to fill in college. In this article we discuss how SP faculty and graduate students can play an important role in starting, and participating in, university-run (or other) out-of-school math support programs to supplement students' learning. Two example programs run by the authors (CyMath at ISU and Ab7G at Purdue) are briefly described. The second goal of this article is to use our perspective as SP, and engineering, educators who have seen the long-term impact of elementary school math teaching policies, to provide some simple almost zero cost suggestions that elementary schools could adopt to improve math learning: (i) more math practice in school, (ii) send small amounts of homework (individual work is critical in math), and (iii) parent awareness (math resources, need for early math foundation, clear in-school test information and sharing of feedback from the tests). In summary, good early math support (in school and through out-of-school programs) can help make SP and ML more accessible. | 翻訳日:2024-09-30 12:41:44 公開日:2024-09-25 |
# データ中の生成モデル表現の一貫性推定
カーネル・パースペクティブ・スペース
Consistent estimation of generative model representations in the data kernel perspective space ( http://arxiv.org/abs/2409.17308v1 ) ライセンス: Link先を確認 | Aranyak Acharyya and Michael W. Trosset and Carey E. Priebe and Hayden S. Helm | (参考訳) 大規模言語モデルやテキストから画像への拡散モデルのような生成モデルは、クエリを提示すると関連する情報を生成する。
同じクエリを表示すると、異なるモデルが異なる情報を生成する可能性がある。
生成モデルの展望が発展するにつれて、モデル行動の違いを研究し解析する技術を開発することが重要である。
本稿では,一組のクエリのコンテキストにおける生成モデルの埋め込みに基づく表現に関する新しい理論的結果を提案する。
我々は,クエリセットとモデルの数が増加する状況において,モデルの埋め込みを一貫した推定を行うための十分な条件を確立する。
Generative models, such as large language models and text-to-image diffusion models, produce relevant information when presented a query. Different models may produce different information when presented the same query. As the landscape of generative models evolves, it is important to develop techniques to study and analyze differences in model behaviour. In this paper we present novel theoretical results for embedding-based representations of generative models in the context of a set of queries. We establish sufficient conditions for the consistent estimation of the model embeddings in situations where the query set and the number of models grow. | 翻訳日:2024-09-30 12:41:44 公開日:2024-09-25 |
# ハイブリッド量子古典型AIによる自動車交通信号分類システムにおける逆方向ネットワークに基づくディープフェイク攻撃の検出方法
A Hybrid Quantum-Classical AI-Based Detection Strategy for Generative Adversarial Network-Based Deepfake Attacks on an Autonomous Vehicle Traffic Sign Classification System ( http://arxiv.org/abs/2409.17311v1 ) ライセンス: Link先を確認 | M Sabbir Salek, Shaozhi Li, Mashrur Chowdhury, | (参考訳) 自動運転車(AV)の知覚モジュールは、周囲の環境における様々な物体を検出し識別するために、ディープラーニングベースのモデルに大きく依存している。
AVの交通標識分類システムは、AVが道路交通標識を認識するのに役立つこのモジュールに不可欠なものである。
しかし、攻撃者が交通標識認識のために捉えた画像を修正または変更する敵攻撃は、AVに交通標識を誤認識させ、有害な結果を引き起こす可能性がある。
ディープフェイクは、画像がAV信号分類システムに送られる前に、ディープフェイクの交通標識が現実世界の交通標識画像を置き換えるような、このような敵攻撃に使用される有望な技術である。
本研究では,AVトラヒックの分類システムを騙すために,生成的対向ネットワークに基づくディープフェイク攻撃をいかに行うかを示す。
筆者らは,ハイブリッド量子古典ニューラルネットワーク(NN)を利用したディープフェイク信号画像検出手法を開発した。
このハイブリッドアプローチでは、入力されたトラフィックサイン画像の特徴を量子状態を用いて表現するために振幅符号化を利用する。
筆者らは,このハイブリッドなディープフェイク検出手法と,実世界およびディープフェイク交通標識画像上でのいくつかの古典的畳み込みNNを評価した。
その結果、ディープフェイク検出のためのハイブリッド量子古典的NNは、ほとんどの場合、ベースラインの古典的畳み込みNNと同等または高い性能を達成できるが、この研究で考慮された最も浅い古典的畳み込みNNが要求するメモリの3分の1以下は必要であることがわかった。
The perception module in autonomous vehicles (AVs) relies heavily on deep learning-based models to detect and identify various objects in their surrounding environment. An AV traffic sign classification system is integral to this module, which helps AVs recognize roadway traffic signs. However, adversarial attacks, in which an attacker modifies or alters the image captured for traffic sign recognition, could lead an AV to misrecognize the traffic signs and cause hazardous consequences. Deepfake presents itself as a promising technology to be used for such adversarial attacks, in which a deepfake traffic sign would replace a real-world traffic sign image before the image is fed to the AV traffic sign classification system. In this study, the authors present how a generative adversarial network-based deepfake attack can be crafted to fool the AV traffic sign classification systems. The authors developed a deepfake traffic sign image detection strategy leveraging hybrid quantum-classical neural networks (NNs). This hybrid approach utilizes amplitude encoding to represent the features of an input traffic sign image using quantum states, which substantially reduces the memory requirement compared to its classical counterparts. The authors evaluated this hybrid deepfake detection approach along with several baseline classical convolutional NNs on real-world and deepfake traffic sign images. The results indicate that the hybrid quantum-classical NNs for deepfake detection could achieve similar or higher performance than the baseline classical convolutional NNs in most cases while requiring less than one-third of the memory required by the shallowest classical convolutional NN considered in this study. | 翻訳日:2024-09-30 12:41:44 公開日:2024-09-25 |
# BabyLlama-2:Ensemble-Distilled Models Consistently Outformeachs
限定データ
BabyLlama-2: Ensemble-Distilled Models Consistently Outperform Teachers With Limited Data ( http://arxiv.org/abs/2409.17312v1 ) ライセンス: Link先を確認 | Jean-Loup Tastet, Inar Timiryasov | (参考訳) 本研究では,BabyLMコンペティションのための1000万語コーパス上で,2人の教師から事前訓練された3億4500万のパラメータモデル蒸留であるBabyLlama-2を提案する。
BLiMPとSuperGLUEのベンチマークでは、BabyLlama-2は、同じデータミックスと教師モデルで、1000万ワードデータセットと1億ワードデータセットの両方でトレーニングされたベースラインを上回っている。
広範にわたるハイパーパラメータスイープを通じて, 蒸留の利点は教師の最適なハイパーパラメータ選択によるものではないことを実証した。
本研究は, 蒸留技術, 特にデータ制限環境でのさらなる研究の必要性を浮き彫りにしている。
We present BabyLlama-2, a 345 million parameter model distillation-pretrained from two teachers on a 10 million word corpus for the BabyLM competition. On BLiMP and SuperGLUE benchmarks, BabyLlama-2 outperforms baselines trained on both 10 and 100 million word datasets with the same data mix, as well as its teacher models. Through an extensive hyperparameter sweep, we demonstrate that the advantages of distillation cannot be attributed to suboptimal hyperparameter selection of the teachers. Our findings underscore the need for further investigation into distillation techniques, particularly in data-limited settings. | 翻訳日:2024-09-30 12:41:44 公開日:2024-09-25 |
# ニュアンスをナビゲートする:視覚言語ナビゲーションのきめ細かい評価
Navigating the Nuances: A Fine-grained Evaluation of Vision-Language Navigation ( http://arxiv.org/abs/2409.17313v1 ) ライセンス: Link先を確認 | Zehao Wang, Minye Wu, Yixin Cao, Yubo Ma, Meiqi Chen, Tinne Tuytelaars, | (参考訳) 本研究では,視覚言語ナビゲーション(VLN)タスクのための新しい評価フレームワークを提案する。
様々な命令カテゴリの現在のモデルをよりきめ細かいレベルで診断することを目的としている。
フレームワークはタスクの文脈自由文法(CFG)を中心に構成されている。
CFGは、問題分解と命令カテゴリ設計のコア前提の基礎となる。
本稿では,Large-Language Models (LLMs) を用いたCFG構築のための半自動手法を提案する。
次に, 方向変化, ランドマーク認識, 地域認識, 垂直移動, 数値理解の5分野にまたがるデータを生成する。
異なるモデルの解析により、顕著な性能の相違と繰り返しの問題が明らかになった。
数値的理解の停滞、方向的概念に対する重度選択バイアス、その他の興味深い発見は、将来の言語誘導ナビゲーションシステムの開発に寄与する。
This study presents a novel evaluation framework for the Vision-Language Navigation (VLN) task. It aims to diagnose current models for various instruction categories at a finer-grained level. The framework is structured around the context-free grammar (CFG) of the task. The CFG serves as the basis for the problem decomposition and the core premise of the instruction categories design. We propose a semi-automatic method for CFG construction with the help of Large-Language Models (LLMs). Then, we induct and generate data spanning five principal instruction categories (i.e. direction change, landmark recognition, region recognition, vertical movement, and numerical comprehension). Our analysis of different models reveals notable performance discrepancies and recurrent issues. The stagnation of numerical comprehension, heavy selective biases over directional concepts, and other interesting findings contribute to the development of future language-guided navigation systems. | 翻訳日:2024-09-30 12:41:44 公開日:2024-09-25 |
# KIPPS: 合成データを保存するプライバシーの知識注入
代
KIPPS: Knowledge infusion in Privacy Preserving Synthetic Data Generation ( http://arxiv.org/abs/2409.17315v1 ) ライセンス: Link先を確認 | Anantaa Kotal and Anupam Joshi | (参考訳) 差分プライバシー技術を含むプライバシー対策の統合は、合成データに対する証明可能なプライバシー保証を保証する。
しかし、特にサイバーセキュリティやヘルスケアといった重要な領域において、現実的なデータを生成するタスクを行う場合、ジェネレーティブディープラーニングモデルに課題が生じる。
連続データに最適化された生成モデルは、ドメイン制約のある離散的および非ガウス的特徴をモデル化するのに苦労する。
トレーニングデータセットが制限され、多様性がない場合には、課題が増加する。
このような場合、生成モデルは、プライバシーリスクである機密性を繰り返す合成データを生成する。
さらに、生成モデルは、特殊領域における属性制約を解釈する困難に直面している。
これにより、下流の精度に影響を与える非現実的なデータが生成される。
これらの課題に対処するため,本研究では,知識グラフからドメインと規則的知識を取り入れた新しいモデルKIPPSを提案する。
このフレームワークは、属性値に関する追加コンテキストで生成モデルのトレーニングを強化し、トレーニング中にドメイン制約を強制する。
このガイダンスを追加することで、現実的でドメインに準拠した合成データを生成するためのモデルの能力が向上する。
提案したモデルは,特にCybersecurity and Healthcareの領域において,データの複雑性にドメインの制約とルールが付加されるような実世界のデータセットに基づいて評価される。
本実験は, 複雑な領域におけるプライバシ保存とデータ精度のバランスに対処する上での有効性を実証し, ベンチマーク手法に対するモデルのプライバシレジリエンスと下流精度を評価した。
The integration of privacy measures, including differential privacy techniques, ensures a provable privacy guarantee for the synthetic data. However, challenges arise for Generative Deep Learning models when tasked with generating realistic data, especially in critical domains such as Cybersecurity and Healthcare. Generative Models optimized for continuous data struggle to model discrete and non-Gaussian features that have domain constraints. Challenges increase when the training datasets are limited and not diverse. In such cases, generative models create synthetic data that repeats sensitive features, which is a privacy risk. Moreover, generative models face difficulties comprehending attribute constraints in specialized domains. This leads to the generation of unrealistic data that impacts downstream accuracy. To address these issues, this paper proposes a novel model, KIPPS, that infuses Domain and Regulatory Knowledge from Knowledge Graphs into Generative Deep Learning models for enhanced Privacy Preserving Synthetic data generation. The novel framework augments the training of generative models with supplementary context about attribute values and enforces domain constraints during training. This added guidance enhances the model's capacity to generate realistic and domain-compliant synthetic data. The proposed model is evaluated on real-world datasets, specifically in the domains of Cybersecurity and Healthcare, where domain constraints and rules add to the complexity of the data. Our experiments evaluate the privacy resilience and downstream accuracy of the model against benchmark methods, demonstrating its effectiveness in addressing the balance between privacy preservation and data accuracy in complex domains. | 翻訳日:2024-09-30 12:41:44 公開日:2024-09-25 |
# Bi-TTA:リモート生理計測のための双方向テスト時間アダプタ
Bi-TTA: Bidirectional Test-Time Adapter for Remote Physiological Measurement ( http://arxiv.org/abs/2409.17316v1 ) ライセンス: Link先を確認 | Haodong Li, Hao Lu, Ying-Cong Chen, | (参考訳) リモート光胸腺撮影(rPPG)は、カメラのみを用いて生理的信号を監視する非侵襲的アプローチとして注目されている。
約束にもかかわらず、新しい未知の領域へのrPPGモデルの適応性は、生理的信号の環境感受性のために妨げられている。
これを解決するために、rPPGのTest-Time Adaptation (TTA)を開拓し、推論中にトレーニング済みのモデルをターゲットドメインに適応できるようにし、プライバシの考慮によりアノテーションやソースデータの必要性を回避しました。
特に、ユーザの顔ビデオストリームのみをアクセス可能なターゲットドメインデータとして利用し、rPPGモデルに遭遇する各インスタンスをチューニングすることで調整を行う。
しかし、
1) TTA アルゴリズムは主に分類タスク用に設計されており, 監視が不十分なため, rPPG などの回帰タスクには適さない。
2) 単一インスタンス方式で事前学習したモデルをチューニングすることで、可変性と不安定性がもたらされ、学習情報を同時に保存しつつ、ドメイン関連機能からドメイン関連機能を効果的にフィルタリングする上での課題となる。
これらの課題を克服するために、新しい知識に基づく双方向テストタイムアダプタフレームワークであるBi-TTAを紹介します。
具体的には, 自己超越性を実現するために, 専門知識を持つ2つの先行知識を活用することで, 先進適応(PA)モジュールと, ドメイン非依存ノイズの除去, 適応過程における安定性と有効性の向上, 重要な学習モデルパラメータを動的に強化するレトロスペクティブ安定化(RS)モジュールと, 過度な適合や破滅的な忘れ込みによるパフォーマンス劣化の回避という2つのモジュールから構成される。
この目的のために、我々はTTAプロトコルの下でrPPGタスクの大規模ベンチマークを構築した。
実験の結果,最先端技術に対するアプローチの顕著な優位性を示した。
Remote photoplethysmography (rPPG) is gaining prominence for its non-invasive approach to monitoring physiological signals using only cameras. Despite its promise, the adaptability of rPPG models to new, unseen domains is hindered due to the environmental sensitivity of physiological signals. To address this, we pioneer the Test-Time Adaptation (TTA) in rPPG, enabling the adaptation of pre-trained models to the target domain during inference, sidestepping the need for annotations or source data due to privacy considerations. Particularly, utilizing only the user's face video stream as the accessible target domain data, the rPPG model is adjusted by tuning on each single instance it encounters. However, 1) TTA algorithms are designed predominantly for classification tasks, ill-suited in regression tasks such as rPPG due to inadequate supervision. 2) Tuning pre-trained models in a single-instance manner introduces variability and instability, posing challenges to effectively filtering domain-relevant from domain-irrelevant features while simultaneously preserving the learned information. To overcome these challenges, we present Bi-TTA, a novel expert knowledge-based Bidirectional Test-Time Adapter framework. Specifically, leveraging two expert-knowledge priors for providing self-supervision, our Bi-TTA primarily comprises two modules: a prospective adaptation (PA) module using sharpness-aware minimization to eliminate domain-irrelevant noise, enhancing the stability and efficacy during the adaptation process, and a retrospective stabilization (RS) module to dynamically reinforce crucial learned model parameters, averting performance degradation caused by overfitting or catastrophic forgetting. To this end, we established a large-scale benchmark for rPPG tasks under TTA protocol. The experimental results demonstrate the significant superiority of our approach over the state-of-the-art. | 翻訳日:2024-09-30 12:15:35 公開日:2024-09-25 |
# ホログラフィックエントロピー不等式の完全分類に向けて
Towards a complete classification of holographic entropy inequalities ( http://arxiv.org/abs/2409.17317v1 ) ライセンス: Link先を確認 | Ning Bao, Keiichiro Furuya, Joydeep Naskar, | (参考訳) 本稿では,すべてのホログラフィックエントロピーの不等式を見つけ,その完全性を証明するための決定論的手法を提案する。
ホログラフィックエントロピーの不等式、縮尺写像、部分立方体の間の試行性を利用する。
より具体的には、ホログラフィックエントロピーの不等式の有効性は、縮約写像の存在によって示唆される。
したがって、縮約写像証明法の完全性により、すべてのホログラフィックエントロピー不等式を見つける問題は、すべての縮約写像を見つける問題と等価であり、この問題は、すべての像グラフ部分立方体を見つける問題に変換される。
この問題に対するアルゴリズム的解法を提供し、手法の複雑さを特徴づける。
また、興味深い副生成物、特に、候補量子エントロピー不等式を生成する手順を示す。
We propose a deterministic method to find all holographic entropy inequalities and prove the completeness of our method. We use a triality between holographic entropy inequalities, contraction maps and partial cubes. More specifically, the validity of a holographic entropy inequality is implied by the existence of a contraction map, which we prove to be equivalent to finding an isometric embedding of a contracted graph. Thus, by virtue of the completeness of the contraction map proof method, the problem of finding all holographic entropy inequalities is equivalent to the problem of finding all contraction maps, which we translate to a problem of finding all image graph partial cubes. We give an algorithmic solution to this problem and characterize the complexity of our method. We also demonstrate interesting by-products, most notably, a procedure to generate candidate quantum entropy inequalities. | 翻訳日:2024-09-30 12:15:35 公開日:2024-09-25 |
# 最適化学習によるマルチクロック制約最適化の高速化
Accelerating Multi-Block Constrained Optimization Through Learning to Optimize ( http://arxiv.org/abs/2409.17320v1 ) ライセンス: Link先を確認 | Ling Liang, Cameron Austin, Haizhao Yang, | (参考訳) アルゴリズムのアンローリングやプラグアンドプレイ法,ハイパーパラメータ学習など,L2O(Learning to Optimize)アプローチが注目され,ALMM(Alternating Direction Method of Multipliers)とその変種への適応に成功している。
しかし、L2O のマルチブロック ADMM 型への自然な拡張は、まだ明らかにされていない。
このような拡張は、多重ブロック法が最適化問題の分離可能な構造を利用しており、イテレーション毎の複雑性を大幅に低減しているため、非常に重要である。
古典的マルチブロックADMMは収束を保証しないので、マルチブロックADMMと類似の形式を共有し、収束を保証するMajorized Proximal Augmented Lagrangian Method (MPALM) がより適している。
理論上の優位性にもかかわらず、MPALMのパフォーマンスはペナルティパラメータの選択に非常に敏感である。
この制限に対処するために、教師付き学習を用いて適応的にこのハイパーパラメータを選択する新しいL2Oアプローチを提案する。
本稿では,ラッソ問題と最適輸送問題に適用することで,本手法の有効性と有効性を示す。
以上の結果から,提案手法は一般的な代替案よりも優れていたことが示唆された。
一般線形制約付き複合最適化問題に適用可能であることを考えると、この研究は様々な潜在的な実世界の応用への扉を開くことになる。
Learning to Optimize (L2O) approaches, including algorithm unrolling, plug-and-play methods, and hyperparameter learning, have garnered significant attention and have been successfully applied to the Alternating Direction Method of Multipliers (ADMM) and its variants. However, the natural extension of L2O to multi-block ADMM-type methods remains largely unexplored. Such an extension is critical, as multi-block methods leverage the separable structure of optimization problems, offering substantial reductions in per-iteration complexity. Given that classical multi-block ADMM does not guarantee convergence, the Majorized Proximal Augmented Lagrangian Method (MPALM), which shares a similar form with multi-block ADMM and ensures convergence, is more suitable in this setting. Despite its theoretical advantages, MPALM's performance is highly sensitive to the choice of penalty parameters. To address this limitation, we propose a novel L2O approach that adaptively selects this hyperparameter using supervised learning. We demonstrate the versatility and effectiveness of our method by applying it to the Lasso problem and the optimal transport problem. Our numerical results show that the proposed framework outperforms popular alternatives. Given its applicability to generic linearly constrained composite optimization problems, this work opens the door to a wide range of potential real-world applications. | 翻訳日:2024-09-30 12:15:34 公開日:2024-09-25 |
# 翻訳が言語間のアライメントをいかに改善するか
How Transliterations Improve Crosslingual Alignment ( http://arxiv.org/abs/2409.17326v1 ) ライセンス: Link先を確認 | Yihong Liu, Mingyang Wang, Amir Hossein Kargaran, Ayyoob Imani, Orgest Xhelili, Haotian Ye, Chunlan Ma, François Yvon, Hinrich Schütze, | (参考訳) 近年の研究では、元のデータとトランスリテラルデータのアライメント目標を用いた言語モデル(mPLMs)が、言語横断アライメントを改善することが示されている。
この改良により、言語間転送性能がさらに向上する。
しかし、この手法は音読のみを伴い、並列データを使用しないため、どのようにしてより良い言語間アライメントが達成されるのかは、まだ不明である。
本稿では, 言語間のアライメントを明示的に評価し, 翻訳に基づくアプローチにおける重要な要素を同定し, 性能向上に寄与する。
このために,ポーランド語とウクライナ語,ヒンディー語とウルドゥー語という2つの関連言語に対して,様々な設定で複数のモデルを訓練する。
アライメントを評価するために,文表現に基づいて4種類の類似性を定義する。
実験結果から, 文対がランダムであっても, 文字の書き起こしだけで全体の類似性は向上することがわかった。
補助的なアライメントの目的、特に対照的な目的の助けを借りて、モデルはランダムなペアとのマッチングを区別することを学び、より良いアライメントをもたらす。
しかし、より優れたアライメントが必ずしも下流のパフォーマンスを向上するとは限らないことを示し、アライメントとパフォーマンスの関係を明らかにするためにさらなる研究が必要であることを示唆している。
Recent studies have shown that post-aligning multilingual pretrained language models (mPLMs) using alignment objectives on both original and transliterated data can improve crosslingual alignment. This improvement further leads to better crosslingual transfer performance. However, it remains unclear how and why a better crosslingual alignment is achieved, as this technique only involves transliterations, and does not use any parallel data. This paper attempts to explicitly evaluate the crosslingual alignment and identify the key elements in transliteration-based approaches that contribute to better performance. For this, we train multiple models under varying setups for two pairs of related languages: (1) Polish and Ukrainian and (2) Hindi and Urdu. To assess alignment, we define four types of similarities based on sentence representations. Our experiments show that adding transliterations alone improves the overall similarities, even for random sentence pairs. With the help of auxiliary alignment objectives, especially the contrastive objective, the model learns to distinguish matched from random pairs, leading to better alignments. However, we also show that better alignment does not always yield better downstream performance, suggesting that further research is needed to clarify the connection between alignment and performance. | 翻訳日:2024-09-30 12:15:34 公開日:2024-09-25 |
# 次元の毒
The poison of dimensionality ( http://arxiv.org/abs/2409.17328v1 ) ライセンス: Link先を確認 | L\^e-Nguy\^en Hoang | (参考訳) 本稿では,最先端の防御にもかかわらず,機械学習モデルのサイズが毒の危険性に与える影響について理解を深める。
等方的ランダムな特徴ベクトルと幾何的中央値(あるいはクリッピング平均)を頑健な勾配アグリゲータ規則として与えると、おそらく、$D \geq 169 H^2/P^2$パラメータが任意のモデル操作の対象となり、$H$と$P$は、訓練に使用される正直なラベル付きおよび有毒なデータポイントの数であることを示す。
実験では, モデル表現率の増大と, 攻撃面の増大, 両方の合成データ, およびランダムな特徴を持つ線形分類器に対するMNIST & FashionMNISTデータに対する基本的なトレードオフを明らかにした。
また、ソースベース学習とニューラルネットの可能性についても論じる。
This paper advances the understanding of how the size of a machine learning model affects its vulnerability to poisoning, despite state-of-the-art defenses. Given isotropic random honest feature vectors and the geometric median (or clipped mean) as the robust gradient aggregator rule, we essentially prove that, perhaps surprisingly, linear and logistic regressions with $D \geq 169 H^2/P^2$ parameters are subject to arbitrary model manipulation by poisoners, where $H$ and $P$ are the numbers of honestly labeled and poisoned data points used for training. Our experiments go on exposing a fundamental tradeoff between augmenting model expressivity and increasing the poisoners' attack surface, on both synthetic data, and on MNIST & FashionMNIST data for linear classifiers with random features. We also discuss potential implications for source-based learning and neural nets. | 翻訳日:2024-09-30 12:15:34 公開日:2024-09-25 |
# VL4AD: 視野言語モデルによる画素異常検出の改善
VL4AD: Vision-Language Models Improve Pixel-wise Anomaly Detection ( http://arxiv.org/abs/2409.17330v1 ) ライセンス: Link先を確認 | Liangyu Zhong, Joachim Sicking, Fabian Hüger, Hanno Gottschalk, | (参考訳) セマンティックセグメンテーションネットワークは、独立および同一の分散データを想定して大きな成功を収めた。
しかしながら、これらのネットワークは、通常訓練される視覚的概念の限られたセットのために、未知の意味クラスから異常を検出するのに苦労することが多い。
この問題に対処するためには、異常セグメンテーションは、しばしば、データ収集、ラベル付け、モデル再トレーニングのための追加の努力を必要とする、外れ値サンプルを微調整する。
この厄介な作業を避けるために、我々は異なるアプローチを採り、既存の異常検知器にビジョン・ランゲージ(VL)エンコーダを組み込むことを提案する。
さらに,テキスト・プロンプトによるデータ・トレーニング不要の外部監視を可能にする新たなスコアリング機能を提案する。
結果として得られたVL4ADモデルは、最大ログプロンプトアンサンブルとクラスマージ戦略を含み、広く使用されているベンチマークデータセット上での競合性能を実現し、ピクセルワイド異常検出のためのビジョン言語モデルの可能性を示す。
Semantic segmentation networks have achieved significant success under the assumption of independent and identically distributed data. However, these networks often struggle to detect anomalies from unknown semantic classes due to the limited set of visual concepts they are typically trained on. To address this issue, anomaly segmentation often involves fine-tuning on outlier samples, necessitating additional efforts for data collection, labeling, and model retraining. Seeking to avoid this cumbersome work, we take a different approach and propose to incorporate Vision-Language (VL) encoders into existing anomaly detectors to leverage the semantically broad VL pre-training for improved outlier awareness. Additionally, we propose a new scoring function that enables data- and training-free outlier supervision via textual prompts. The resulting VL4AD model, which includes max-logit prompt ensembling and a class-merging strategy, achieves competitive performance on widely used benchmark datasets, thereby demonstrating the potential of vision-language models for pixel-wise anomaly detection. | 翻訳日:2024-09-30 12:15:34 公開日:2024-09-25 |
# ChatCam:会話型AIによるカメラ制御の強化
ChatCam: Empowering Camera Control through Conversational AI ( http://arxiv.org/abs/2409.17331v1 ) ライセンス: Link先を確認 | Xinhang Liu, Yu-Wing Tai, Chi-Keung Tang, | (参考訳) 撮影者は、複雑なカメラの動きを通して魅力的な視覚的物語を制作し、世界の本質を巧みに捉えている。
本研究は,大規模言語モデルによる3次元世界に対する知覚と相互作用の歩みを目撃し,人間の言語指導によるカメラ制御能力について検討した。
本稿では,プロの撮影技師のワークフローを模倣して,ユーザとの会話を通じてカメラの動きをナビゲートするChatCamを紹介する。
そこで本研究では,テキスト条件付きカメラ軌道生成のためのGPTに基づく自己回帰モデルであるCineGPTを提案する。
また、正確なカメラ軌道配置を保証するアンカー決定器も開発した。
ChatCamはユーザの要求を理解し,提案したツールを用いてトラジェクトリを生成する。
我々の実験は、最先端のアプローチとユーザスタディとの比較を含む、我々のアプローチがカメラ操作のための複雑な命令を解釈し実行できることを示し、現実のプロダクション環境で有望な応用を示す。
Cinematographers adeptly capture the essence of the world, crafting compelling visual narratives through intricate camera movements. Witnessing the strides made by large language models in perceiving and interacting with the 3D world, this study explores their capability to control cameras with human language guidance. We introduce ChatCam, a system that navigates camera movements through conversations with users, mimicking a professional cinematographer's workflow. To achieve this, we propose CineGPT, a GPT-based autoregressive model for text-conditioned camera trajectory generation. We also develop an Anchor Determinator to ensure precise camera trajectory placement. ChatCam understands user requests and employs our proposed tools to generate trajectories, which can be used to render high-quality video footage on radiance field representations. Our experiments, including comparisons to state-of-the-art approaches and user studies, demonstrate our approach's ability to interpret and execute complex instructions for camera operation, showing promising applications in real-world production settings. | 翻訳日:2024-09-30 12:15:34 公開日:2024-09-25 |
# 拡張ブロックDINORET : 破壊的形成を伴わない網膜イメージングのための自然ドメインモデルへの適応
Block Expanded DINORET: Adapting Natural Domain Foundation Models for Retinal Imaging Without Catastrophic Forgetting ( http://arxiv.org/abs/2409.17332v1 ) ライセンス: Link先を確認 | Jay Zoellin, Colin Merk, Mischa Buob, Amr Saad, Samuel Giesser, Tahm Spitznagel, Ferhat Turgut, Rui Santos, Yukun Zhou, Sigfried Wagner, Pearse A. Keane, Yih Chung Tham, Delia Cabrera DeBuc, Matthias D. Becker, Gabor M. Somfai, | (参考訳) 深層学習を医用画像に統合することは、診断方法を大幅に進歩させるが、一般化性の問題に直面している。
自己教師型学習に基づくファンデーションモデルは、これらの問題に対処し、データ効率を改善する。
自然領域基盤モデルは医用画像の可能性を示唆するが、特に自己教師付き学習とパラメータ効率の良い微調整を用いて、領域適応を評価する体系的な研究はいまだに過小評価されている。
さらに、基礎モデルの微調整中の破滅的な忘れの問題に対処する研究はほとんどない。
我々は,DINOv2視覚変換器を自己教師付き学習を用いて網膜画像分類タスクに適用し,DINORETとBE DINORETという2つの新しい基礎モデルを生成した。
糖尿病網膜症ステージングおよび緑内障検出のためのモデル開発およびその後の微調整のために、市販カラーファンドス写真が採用された。
我々は,新しい領域適応戦略としてブロック拡張を導入し,破滅的忘れのモデルを評価した。
モデルは、眼科における最先端の基礎モデルであるRETFoundにベンチマークされた。
DINORETとBE DINORETは網膜イメージングタスクにおいて競合性能を示し、ブロック拡張モデルはほとんどのデータセットで最高スコアを達成した。
ブロック拡大は破滅的な忘れを和らげることに成功した。
データ効率ではDINORETとBE DINORETがRETFoundより優れていた。
本研究は、自己教師付き学習とブロック展開を用いた網膜画像への自然なドメインビジョンモデルの適用の可能性を強調した。
BE DINORETは、以前取得した機能を犠牲にすることなく、堅牢なパフォーマンスを提供する。
以上の結果から, 医療機関が患者に対する適応型視覚モデルの開発を可能とし, グローバルな医療活動の促進が期待できると考えられた。
Integrating deep learning into medical imaging is poised to greatly advance diagnostic methods but it faces challenges with generalizability. Foundation models, based on self-supervised learning, address these issues and improve data efficiency. Natural domain foundation models show promise for medical imaging, but systematic research evaluating domain adaptation, especially using self-supervised learning and parameter-efficient fine-tuning, remains underexplored. Additionally, little research addresses the issue of catastrophic forgetting during fine-tuning of foundation models. We adapted the DINOv2 vision transformer for retinal imaging classification tasks using self-supervised learning and generated two novel foundation models termed DINORET and BE DINORET. Publicly available color fundus photographs were employed for model development and subsequent fine-tuning for diabetic retinopathy staging and glaucoma detection. We introduced block expansion as a novel domain adaptation strategy and assessed the models for catastrophic forgetting. Models were benchmarked to RETFound, a state-of-the-art foundation model in ophthalmology. DINORET and BE DINORET demonstrated competitive performance on retinal imaging tasks, with the block expanded model achieving the highest scores on most datasets. Block expansion successfully mitigated catastrophic forgetting. Our few-shot learning studies indicated that DINORET and BE DINORET outperform RETFound in terms of data-efficiency. This study highlights the potential of adapting natural domain vision models to retinal imaging using self-supervised learning and block expansion. BE DINORET offers robust performance without sacrificing previously acquired capabilities. Our findings suggest that these methods could enable healthcare institutions to develop tailored vision models for their patient populations, enhancing global healthcare inclusivity. | 翻訳日:2024-09-30 12:15:34 公開日:2024-09-25 |
# 次世代訓練用変圧器の非漸近収束
予測
Non-asymptotic Convergence of Training Transformers for Next-token Prediction ( http://arxiv.org/abs/2409.17335v1 ) ライセンス: Link先を確認 | Ruiquan Huang, Yingbin Liang, Jing Yang | (参考訳) トランスフォーマーは、特にNTP(Next-token Prediction)タスクにおいて、シーケンシャルなデータを処理する優れた能力のために、現代の機械学習において驚くべき成功を収めている。
しかしながら、NTPにおけるそれらの性能に関する理論的理解は限られており、既存の研究は主に漸近性パフォーマンスに焦点を当てている。
本稿では, 自己保持モジュールとフィードフォワード層からなる一層変圧器のトレーニングダイナミクスを, 微細な非漸近解析により解析する。
まず,部分順序に基づく数学的枠組みを用いて,NTPのトレーニングデータセットの基本的な構造特性を特徴付ける。
そこで,2段階学習アルゴリズムを設計し,フィードフォワード層をトレーニングする前処理ステージと,注目層をトレーニングする主処理ステージが高速収束性能を示す。
具体的には、両方の層は対応する最大辺解の方向と直交収束する。
また,クロスエントロピー損失は線形収束速度がよいことを示す。
さらに、トレーニングされた変換器は、データセットシフトによる非自明な予測能力を示し、変換器の顕著な一般化性能に光を当てる。
本手法は,注意勾配の新規な特性の発達と,これらの特性が学習過程の収束にどのように寄与するかを詳細に分析することを含む。
我々の実験は理論的な結果をさらに検証する。
Transformers have achieved extraordinary success in modern machine learning due to their excellent ability to handle sequential data, especially in next-token prediction (NTP) tasks. However, the theoretical understanding of their performance in NTP is limited, with existing studies focusing mainly on asymptotic performance. This paper provides a fine-grained non-asymptotic analysis of the training dynamics of a one-layer transformer consisting of a self-attention module followed by a feed-forward layer. We first characterize the essential structural properties of training datasets for NTP using a mathematical framework based on partial orders. Then, we design a two-stage training algorithm, where the pre-processing stage for training the feed-forward layer and the main stage for training the attention layer exhibit fast convergence performance. Specifically, both layers converge sub-linearly to the direction of their corresponding max-margin solutions. We also show that the cross-entropy loss enjoys a linear convergence rate. Furthermore, we show that the trained transformer presents non-trivial prediction ability with dataset shift, which sheds light on the remarkable generalization performance of transformers. Our analysis technique involves the development of novel properties on the attention gradient and further in-depth analysis of how these properties contribute to the convergence of the training process. Our experiments further validate our theoretical findings. | 翻訳日:2024-09-30 12:15:34 公開日:2024-09-25 |
# 怒りのテクノロジー:人工知能のバイアス
The Technology of Outrage: Bias in Artificial Intelligence ( http://arxiv.org/abs/2409.17336v1 ) ライセンス: Link先を確認 | Will Bridewell, Paul F. Bello, Selmer Bringsjord, | (参考訳) 人工知能と機械学習は、人々の意思決定をオフロードするためにますます使われています。
過去において、この代替の根拠の1つは、人間と違って機械が公平で偏見のないものになることである。
証拠は別として示唆される。
まずは、アルゴリズムが人を置き換えることができ、アルゴリズムに偏見がないという考えを楽しませることから始めます。
公理として考えれば、これらの主張はすぐに不条理に繋がる。
この結果から, スローガンをより精査し, 「バイアス」という単語を取り巻く同義語を同定した。
アルゴリズムの偏見に感情的に反応する場合、我々は、怒り、知性、道徳、政治的3つの形態を診断する。
バイアスに関する言語を明確にし、インテリジェントシステムのための新しい監査方法を開発し、これらのシステムに特定の機能を構築することを含む。
我々は、アルゴリズムバイアスに関する会話に関するモラルを提供することで、人工知能の他の領域に移る可能性があると結論付けている。
Artificial intelligence and machine learning are increasingly used to offload decision making from people. In the past, one of the rationales for this replacement was that machines, unlike people, can be fair and unbiased. Evidence suggests otherwise. We begin by entertaining the ideas that algorithms can replace people and that algorithms cannot be biased. Taken as axioms, these statements quickly lead to absurdity. Spurred on by this result, we investigate the slogans more closely and identify equivocation surrounding the word 'bias.' We diagnose three forms of outrage-intellectual, moral, and political-that are at play when people react emotionally to algorithmic bias. Then we suggest three practical approaches to addressing bias that the AI community could take, which include clarifying the language around bias, developing new auditing methods for intelligent systems, and building certain capabilities into these systems. We conclude by offering a moral regarding the conversations about algorithmic bias that may transfer to other areas of artificial intelligence. | 翻訳日:2024-09-30 12:15:34 公開日:2024-09-25 |
# 凝縮物質中のディック物理を探索するためのプラットフォームとしてのゼーマン偏光子
Zeeman polaritons as a platform for probing Dicke physics in condensed matter ( http://arxiv.org/abs/2409.17339v1 ) ライセンス: Link先を確認 | T. Elijah Kritzell, Jacques Doumani, Tobias Asano, Sota Yamada, Fuyang Tay, Hongjing Xu, Han Yan, Ikufumi Katayama, Jun Takeda, Andriy Nevidomskyy, Hiroyuki Nojiri, Motoaki Bamba, Andrey Baydin, Junichiro Kono, | (参考訳) 2レベル原子のアンサンブルと量子化された電磁場の相互作用は、ディック・ハミルトンによって説明され、量子光学において広く研究されている問題である。
しかし、凝縮物質中の同様の物理を探索する実験では、通常ボソニック物質モード(フォノン、マグノン、プラズモンなど)を用いるが、これは単純な調和振動子、すなわち等間隔のエネルギー準位の無限のはしごとして記述できる。
本稿では、Gd$_3$Ga$_5$O$_{12}$において、コヒーレント光モードと準磁性スピンのアンサンブルの超強結合について検討する。
Gd$^{3+}$イオンの電子常磁性共鳴は、磁場によってFabry-P'erotキャビティモードとの共鳴に調整され、スピン-光子ハイブリッド状態またはゼーマン偏光子を形成する。
真空ラビ分割により測定された光物質結合強度は, 温度の上昇とともに低下し, 有限レベル系の特性である下高エネルギー状態と高エネルギー状態の温度依存性の差によって説明できる。
この結果は、スピン-ボソン系がディックモデルとより互換性があり、超強結合光-マッターハイブリッドに対して予測される現象の実験的実現を追求するボソン-ボソン系よりも有利であることを示している。
The interaction of an ensemble of two-level atoms and a quantized electromagnetic field, described by the Dicke Hamiltonian, is an extensively studied problem in quantum optics. However, experimental efforts to explore similar physics in condensed matter typically employ bosonic matter modes (e.g., phonons, magnons, and plasmons) that are describable as simple harmonic oscillators, i.e., an infinite ladder of equally spaced energy levels. Here, we examine ultrastrong coupling between a coherent light mode and an ensemble of paramagnetic spins, a finite-multilevel system, in Gd$_3$Ga$_5$O$_{12}$. The electron paramagnetic resonance of Gd$^{3+}$ ions is tuned by a magnetic field into resonance with a Fabry--P\'erot cavity mode, resulting in the formation of spin--photon hybrid states, or Zeeman polaritons. We observe that the light--matter coupling strength, measured through the vacuum Rabi splitting, decreases with increasing temperature, which can be explained by the temperature-dependent population difference between the lower and higher-energy states, a trait of a finite-level system. This finding demonstrates that a spin--boson system is more compatible with the Dicke model and has advantages over boson--boson systems for pursuing experimental realizations of phenomena predicted for ultrastrongly coupled light--matter hybrids. | 翻訳日:2024-09-30 12:15:34 公開日:2024-09-25 |
# EMGセンシングによるクープマン駆動握力予測
Koopman-driven grip force prediction through EMG sensing ( http://arxiv.org/abs/2409.17340v1 ) ライセンス: Link先を確認 | Tomislav Bazina, Ervin Kamenar, Maria Fonoberova, Igor Mezić, | (参考訳) 脳卒中や多発性硬化症などの症状による手機能の喪失は日常活動に大きな影響を及ぼす。
ロボットリハビリテーションは手機能の回復のためのツールを提供する一方、表面筋電図(sEMG)に基づく新しい手法は、ユーザの状態に応じてデバイスが出力する力の適応を可能にし、リハビリの成果を改善する。
本研究は,1組のsEMGセンサペアを用いた中包みにおける精度の高い力推定を実現することを目的として,高精度な予測のためのセンサ要求をエスカレートすることの課題に対処することを目的とする。
前腕2位13名を対象にSEMG測定を行い,手指ダイナモメーターを用いて評価した。
フレキシブルな信号処理工程を構築し,処理したsEMG信号とグリップ力との間に高いピーク相関を生じさせた。
その後、感度分析によりインフルエンシアルパラメータが同定された。
我々は,新しいデータ駆動型クープマン演算子理論と問題固有データリフト手法を活用し,処理されたsEMG信号からグリップ力の推定と短期予測を行う手法を考案した。
近似の重み付き平均絶対パーセンテージ誤差(wMAPE)。
グリップ力の推定では5.5%が達成され, 0.5秒の予測地平線による予測は近似のwMAPEとなった。
17.9%
精度の高い電極位置決めに関する手法は、誤差測定値に対する検出位置の影響が重要でないため、堅牢であることが証明された。
アルゴリズムは非常に高速で、処理、推定、0.5秒のsEMG信号のバッチを近似で予測する。
リアルタイム実装を容易にする。
Loss of hand function due to conditions like stroke or multiple sclerosis significantly impacts daily activities. Robotic rehabilitation provides tools to restore hand function, while novel methods based on surface electromyography (sEMG) enable the adaptation of the device's force output according to the user's condition, thereby improving rehabilitation outcomes. This study aims to achieve accurate force estimations during medium wrap grasps using a single sEMG sensor pair, thereby addressing the challenge of escalating sensor requirements for precise predictions. We conducted sEMG measurements on 13 subjects at two forearm positions, validating results with a hand dynamometer. We established flexible signal-processing steps, yielding high peak cross-correlations between the processed sEMG signal (representing meaningful muscle activity) and grip force. Influential parameters were subsequently identified through sensitivity analysis. Leveraging a novel data-driven Koopman operator theory-based approach and problem-specific data lifting techniques, we devised a methodology for the estimation and short-term prediction of grip force from processed sEMG signals. A weighted mean absolute percentage error (wMAPE) of approx. 5.5% was achieved for the estimated grip force, whereas predictions with a 0.5-second prediction horizon resulted in a wMAPE of approx. 17.9%. The methodology proved robust regarding precise electrode positioning, as the effect of sensing position on error metrics was non-significant. The algorithm executes exceptionally fast, processing, estimating, and predicting a 0.5-second sEMG signal batch in just approx. 30 ms, facilitating real-time implementation. | 翻訳日:2024-09-30 12:15:34 公開日:2024-09-25 |
# CMOSイメージセンサによるインテリジェントスキッピングによるエネルギー効率・リアルタイムコンピュータビジョン
Energy-Efficient & Real-Time Computer Vision with Intelligent Skipping via Reconfigurable CMOS Image Sensors ( http://arxiv.org/abs/2409.17341v1 ) ライセンス: Link先を確認 | Md Abdullah-Al Kaiser, Sreetama Sarkar, Peter A. Beerel, Akhilesh R. Jaiswal, Gourav Datta, | (参考訳) 現在のビデオベースのコンピュータビジョン(CV)アプリケーションは、一般的に、その重要性に関わらず、フレーム内のすべてのピクセルを読み、処理するため、高エネルギー消費に悩まされる。
従来の作業では、入力パッチやピクセルをスキップし、最終タスクからのフィードバックを使ってスキップアルゴリズムを誘導することで、このエネルギーを削減しようとしたが、センサ読み取りフェーズではスキップを行わない。
その結果、これらの手法は、フロントエンドセンサーのエネルギーを最適化できない。
さらに、バックエンドにデプロイされる最新のCVネットワークの長いレイテンシのため、リアルタイムアプリケーションには適さないかもしれない。
この課題に対処するために,センサの読み出しフェーズにおいて,不確実領域や行を選択的にスキップし,それに続くアナログ・デジタル変換(ADC)フェーズによってエネルギー効率を向上する,カスタム設計のCMOSイメージセンサ(CIS)システムを提案する。
新たなマスキングアルゴリズムは、自律運転や拡張現実(AR/VR)を含むアプリケーションのために、フロントエンドセンサーとバックエンドニューラルネットワークの両方を最適化して、スキッププロセスをリアルタイムでインテリジェントに指示する。
私たちのシステムは、アプリケーションのニーズに応じてスキップすることなく、標準的なモードでも動作できます。
BDD100KとImageNetVIDに基づくオブジェクト検出のためのハードウェア・アルゴリズムの共同設計フレームワークの評価とOpenEDSに基づく視線推定を行い、最先端(SOTA)の精度を維持しつつ、フロントエンドセンサエネルギーの最大53%の削減を実現した。
Current video-based computer vision (CV) applications typically suffer from high energy consumption due to reading and processing all pixels in a frame, regardless of their significance. While previous works have attempted to reduce this energy by skipping input patches or pixels and using feedback from the end task to guide the skipping algorithm, the skipping is not performed during the sensor read phase. As a result, these methods can not optimize the front-end sensor energy. Moreover, they may not be suitable for real-time applications due to the long latency of modern CV networks that are deployed in the back-end. To address this challenge, this paper presents a custom-designed reconfigurable CMOS image sensor (CIS) system that improves energy efficiency by selectively skipping uneventful regions or rows within a frame during the sensor's readout phase, and the subsequent analog-to-digital conversion (ADC) phase. A novel masking algorithm intelligently directs the skipping process in real-time, optimizing both the front-end sensor and back-end neural networks for applications including autonomous driving and augmented/virtual reality (AR/VR). Our system can also operate in standard mode without skipping, depending on application needs. We evaluate our hardware-algorithm co-design framework on object detection based on BDD100K and ImageNetVID, and gaze estimation based on OpenEDS, achieving up to 53% reduction in front-end sensor energy while maintaining state-of-the-art (SOTA) accuracy. | 翻訳日:2024-09-30 12:15:34 公開日:2024-09-25 |
# SeaSplat:3次元ガウス平滑化と地上画像形成モデルによる水中シーンの表現
SeaSplat: Representing Underwater Scenes with 3D Gaussian Splatting and a Physically Grounded Image Formation Model ( http://arxiv.org/abs/2409.17345v1 ) ライセンス: Link先を確認 | Daniel Yang, John J. Leonard, Yogesh Girdhar, | (参考訳) 本研究では,最近の3次元放射場の発展を生かした水中シーンのリアルタイムレンダリングを可能にするSeaSplatを紹介する。
水中のシーンは、水のような媒体を通してレンダリングすることで、画像のキャプチャーに範囲と色に依存した効果がもたらされるため、視覚的な環境が困難である。
我々は3Dガウススプラッティング(3DGS)を制約し,水中画像形成モデルを用いて3Dシーンの高速トレーニングとリアルタイムレンダリングを可能にした。
SeaSplatを、アメリカ領ヴァージン諸島の水中車両が収集したシーンであるSeaThru-NeRFデータセットの現実世界のシーンに適用し、シミュレーションで劣化した現実世界のシーンに適用する。
水中画像形成はシーン構造を学習し, 深度マップを改良し, 3次元ガウス表現の活用による計算精度の向上を図った。
We introduce SeaSplat, a method to enable real-time rendering of underwater scenes leveraging recent advances in 3D radiance fields. Underwater scenes are challenging visual environments, as rendering through a medium such as water introduces both range and color dependent effects on image capture. We constrain 3D Gaussian Splatting (3DGS), a recent advance in radiance fields enabling rapid training and real-time rendering of full 3D scenes, with a physically grounded underwater image formation model. Applying SeaSplat to the real-world scenes from SeaThru-NeRF dataset, a scene collected by an underwater vehicle in the US Virgin Islands, and simulation-degraded real-world scenes, not only do we see increased quantitative performance on rendering novel viewpoints from the scene with the medium present, but are also able to recover the underlying true color of the scene and restore renders to be without the presence of the intervening medium. We show that the underwater image formation helps learn scene structure, with better depth maps, as well as show that our improvements maintain the significant computational improvements afforded by leveraging a 3D Gaussian representation. | 翻訳日:2024-09-30 12:15:34 公開日:2024-09-25 |
# 非ゼロバリオン密度における$\mathbb{Z}_3$格子ゲージ理論のための量子回路
Quantum circuit for $\mathbb{Z}_3$ lattice gauge theory at nonzero baryon density ( http://arxiv.org/abs/2409.17349v1 ) ライセンス: Link先を確認 | Yoshimasa Hidaka, Arata Yamamoto, | (参考訳) $\mathbb{Z}_3$ 格子ゲージ理論は、3つのクォーク境界状態、すなわちバリオンを持つ最も単純な離散ゲージ理論である。
ヒルベルト空間は有限次元であるため、非零バリオン密度での格子ゲージ理論の量子シミュレーションをテストするのに使うことができる。
我々は,大域的および局所的なゲージ対称性とその量子シミュレーションにおける重要性について論じる。
量子エミュレータ計算を行い、バリオン物質の基底状態特性の研究方法を示す。
$\mathbb{Z}_3$ lattice gauge theory is the simplest discrete gauge theory with three-quark bound states, i.e., baryons. Since it has a finite-dimensional Hilbert space, it can be used for testing quantum simulation of lattice gauge theory at nonzero baryon density. We discuss global and local gauge symmetries and their importance in quantum simulation. We perform quantum emulator calculation and demonstrate how to study the ground state property of baryonic matter. | 翻訳日:2024-09-30 12:15:34 公開日:2024-09-25 |
# マルコフ決定過程における実証からユーティリティを学ぶ
Learning Utilities from Demonstrations in Markov Decision Processes ( http://arxiv.org/abs/2409.17355v1 ) ライセンス: Link先を確認 | Filippo Lazzati, Alberto Maria Metelli, | (参考訳) 我々の目標は、シーケンシャルな意思決定問題における行動の実証から有用な知識を抽出することである。
確率性の存在下では、人間が一般的にリスクに敏感な行動をとることはよく知られているが、ほとんどの逆強化学習(IRL)モデルはリスクニュートラル剤を仮定している。
モデルミスセグメンテーションの導入以外にも、これらのモデルは観察されたエージェントのリスク姿勢を直接捉えることはできず、多くのアプリケーションにおいて重要となる。
本稿では,マルコフ決定過程(MDP)において,実用機能を通じてエージェントのリスク態度を明確に表現する行動モデルを提案する。
そこで我々は,MDPにおける実演からユーティリティ機能を通じて符号化された,観察されたエージェントのリスク態度を推定するタスクとしてユーティリティ学習(UL)問題を定義し,エージェントのユーティリティの部分的識別可能性を分析する。
さらに, UL を有限データ型で証明可能な2つのアルゴリズムを考案し, サンプルの複雑さを解析する。
我々は、我々のモデルとアルゴリズムの両方を実証的に検証する概念実証実験で結論付けた。
Our goal is to extract useful knowledge from demonstrations of behavior in sequential decision-making problems. Although it is well-known that humans commonly engage in risk-sensitive behaviors in the presence of stochasticity, most Inverse Reinforcement Learning (IRL) models assume a risk-neutral agent. Beyond introducing model misspecification, these models do not directly capture the risk attitude of the observed agent, which can be crucial in many applications. In this paper, we propose a novel model of behavior in Markov Decision Processes (MDPs) that explicitly represents the agent's risk attitude through a utility function. We then define the Utility Learning (UL) problem as the task of inferring the observed agent's risk attitude, encoded via a utility function, from demonstrations in MDPs, and we analyze the partial identifiability of the agent's utility. Furthermore, we devise two provably efficient algorithms for UL in a finite-data regime, and we analyze their sample complexity. We conclude with proof-of-concept experiments that empirically validate both our model and our algorithms. | 翻訳日:2024-09-30 11:54:29 公開日:2024-09-25 |
# 産業組立ラインにおける人間の行動理解のための視覚的枠組み
A vision-based framework for human behavior understanding in industrial assembly lines ( http://arxiv.org/abs/2409.17356v1 ) ライセンス: Link先を確認 | Konstantinos Papoutsakis, Nikolaos Bakalos, Konstantinos Fragkoulis, Athena Zacharia, Georgia Kapetadimitri, Maria Pateraki, | (参考訳) 本稿では,自動車ドア製造に焦点をあて,産業用組立ラインにおける人間の行動の把握と理解を目的としたビジョンベースフレームワークを提案する。
このフレームワークは高度なコンピュータビジョン技術を活用し、労働者の位置と3Dポーズを推定し、作業姿勢、行動、タスク進捗を分析する。
重要な貢献はCarDAデータセットの導入である。これは、人間のポーズとアクション分析のためのフレームワークの分析をサポートするために、現実的な環境でキャプチャされたドメイン関連アセンブリアクションを含んでいる。
データセットは、タイム同期されたマルチカメラRGB-Dビデオ、実際の自動車製造環境で記録されたモーションキャプチャデータ、EAWSベースのエルゴノミックリスクスコアとアセンブリアクティビティのアノテーションを含む。
実験により,作業者の姿勢の分類における提案手法の有効性と,組立作業の進捗監視における頑健な性能が示された。
This paper introduces a vision-based framework for capturing and understanding human behavior in industrial assembly lines, focusing on car door manufacturing. The framework leverages advanced computer vision techniques to estimate workers' locations and 3D poses and analyze work postures, actions, and task progress. A key contribution is the introduction of the CarDA dataset, which contains domain-relevant assembly actions captured in a realistic setting to support the analysis of the framework for human pose and action analysis. The dataset comprises time-synchronized multi-camera RGB-D videos, motion capture data recorded in a real car manufacturing environment, and annotations for EAWS-based ergonomic risk scores and assembly activities. Experimental results demonstrate the effectiveness of the proposed approach in classifying worker postures and robust performance in monitoring assembly task progress. | 翻訳日:2024-09-30 11:54:28 公開日:2024-09-25 |
# 影響関数計算のための逆ヘッセンベクトル積の再検討
Revisiting inverse Hessian vector products for calculating influence functions ( http://arxiv.org/abs/2409.17357v1 ) ライセンス: Link先を確認 | Yegor Klochkov, Yang Liu, | (参考訳) 影響関数は、モデルの出力をトレーニングデータに関連付ける一般的なツールである。
従来の手法は逆 Hessian-vector 積 (iHVP) の計算に依存しているが、古典的な解法である "Linear Time Stochastic Second-order Algorithm" (LiSSA, Agarwal et al (2017)) は、高価な計算とハイパーパラメータチューニングのため、しばしば大規模モデルでは実用的ではないと考えられている。
3つのハイパーパラメータ(スケーリング係数、バッチサイズ、ステップ数)は、ヘッセンのスペクトル特性、特にそのトレースと最大の固有値によって選択可能であることを示す。
ランダムスケッチによる評価(Swartworth and Woodruff, 2023)により、LiSSAが収束するにはバッチサイズが十分大きすぎることが判明する。
今回,近位Bregman Retraining Function (PBRF, Bae et al (2022)) と比較し, 経験的に確認した。
最後に,その影響を計算する上で,逆ヘッセンが果たす役割について論じる。
Influence functions are a popular tool for attributing a model's output to training data. The traditional approach relies on the calculation of inverse Hessian-vector products (iHVP), but the classical solver "Linear time Stochastic Second-order Algorithm" (LiSSA, Agarwal et al. (2017)) is often deemed impractical for large models due to expensive computation and hyperparameter tuning. We show that the three hyperparameters -- the scaling factor, the batch size, and the number of steps -- can be chosen depending on the spectral properties of the Hessian, particularly its trace and largest eigenvalue. By evaluating with random sketching (Swartworth and Woodruff, 2023), we find that the batch size has to be sufficiently large for LiSSA to converge; however, for all of the models we consider, the requirement is mild. We confirm our findings empirically by comparing to Proximal Bregman Retraining Functions (PBRF, Bae et al. (2022)). Finally, we discuss what role the inverse Hessian plays in calculating the influence. | 翻訳日:2024-09-30 11:54:28 公開日:2024-09-25 |
# 終端空域における高時間分解能データ駆動確率軌道学習
Data-driven Probabilistic Trajectory Learning with High Temporal Resolution in Terminal Airspace ( http://arxiv.org/abs/2409.17359v1 ) ライセンス: Link先を確認 | Jun Xiang, Jun Chen, | (参考訳) 飛行軌道の予測は、大きな意義を持つ研究分野である。
本稿では,混合モデルとSeq2seqに基づくニューラルネットワークの予測・特徴抽出機能を活用し,誤り伝播と次元減少による課題に対処するデータ駆動学習フレームワークを提案する。
このフレームワークを用いてトレーニングした後、学習したモデルは過去の軌跡や文脈情報から、長期予測精度を著しく向上させることができる。
提案手法の精度と有効性は,予測された軌道と基礎的真実とを比較して評価する。
その結果, 提案手法は, 終端飛行軌道データセット上での最先端の予測手法よりも優れていたことが示唆された。
提案手法により生成された軌道は, 時間分解能が高い(1 秒間(1 秒対 0.1 秒間)。
Predicting flight trajectories is a research area that holds significant merit. In this paper, we propose a data-driven learning framework, that leverages the predictive and feature extraction capabilities of the mixture models and seq2seq-based neural networks while addressing prevalent challenges caused by error propagation and dimensionality reduction. After training with this framework, the learned model can improve long-step prediction accuracy significantly given the past trajectories and the context information. The accuracy and effectiveness of the approach are evaluated by comparing the predicted trajectories with the ground truth. The results indicate that the proposed method has outperformed the state-of-the-art predicting methods on a terminal airspace flight trajectory dataset. The trajectories generated by the proposed method have a higher temporal resolution(1 timestep per second vs 0.1 timestep per second) and are closer to the ground truth. | 翻訳日:2024-09-30 11:54:28 公開日:2024-09-25 |
# ポイントクラウドデータのためのTDAマッパーのバイフィルタと安定性
Bi-Filtration and Stability of TDA Mapper for Point Cloud Data ( http://arxiv.org/abs/2409.17360v1 ) ライセンス: Link先を確認 | Wako Bungula, Isabel Darcy, | (参考訳) Carlsson、Singh、MemoliのTDAマッパーはポイントクラウドデータセットを取得し、いくつかのパラメータの選択に依存するグラフを出力する。
Dey, Memoli, Wang らは抽象位相空間のためのマルチスケールマッパーを開発し、パラメータ選択を永続ホモロジーで解析できるようにした。
しかし、実際のデータに適用する場合、必ずしもマッパーグラフのフィルターを得るとは限らない。
TDAマッパーソフトウェアで使用される最も一般的なクラスタリングアルゴリズムの1つであるDBSCANは、 \textbf{$\epsilon$} と \textbf{MinPts} の2つのパラメータを持つ。
もし \textbf{MinPts = 1} ならば、DBSCAN は切断高さ \textbf{$\epsilon$} の単一リンククラスタリングと同値である。
DBSCANクラスタリングが \textbf{MinPts $>$ 2} で使用される場合、自由境界点がない場合を除いてマッパーグラフのフィルタリングは存在しないが、カバーサイズが大きくなるにつれて \textbf{MinPts = 1} あるいは \textbf{2} でDBSCANクラスタリングが使用されると、/または \textbf{$\epsilon$} が増加し、/または \textbf{MinPts} が減少する。
しかし、1次元の濾過は不安定である。
データセットにノイズを加えて、各データポイントがほとんどの \textbf{$\delta$} において距離で摂動された場合、摂動データセットのマッパーグラフの永続的ホモロジーは、元のデータセットと大きく異なる。
カバーサイズと \textbf{$\epsilon$} を同時に増加させることで安定性が得られることを示す。
特に、これらの2つのデータセットの間のホモロジー群の被覆サイズと$\epsilon$の2次フィルターは、 \textbf{2$\delta$}-インターリーブドであることが示される。
Carlsson, Singh and Memoli's TDA mapper takes a point cloud dataset and outputs a graph that depends on several parameter choices. Dey, Memoli, and Wang developed Multiscale Mapper for abstract topological spaces so that parameter choices can be analyzed via persistent homology. However, when applied to actual data, one does not always obtain filtrations of mapper graphs. DBSCAN, one of the most common clustering algorithms used in the TDA mapper software, has two parameters, \textbf{$\epsilon$} and \textbf{MinPts}. If \textbf{MinPts = 1} then DBSCAN is equivalent to single linkage clustering with cutting height \textbf{$\epsilon$}. We show that if DBSCAN clustering is used with \textbf{MinPts $>$ 2}, a filtration of mapper graphs may not exist except in the absence of free-border points; but such filtrations exist if DBSCAN clustering is used with \textbf{MinPts = 1} or \textbf{2} as the cover size increases, \textbf{$\epsilon$} increases, and/or \textbf{MinPts} decreases. However, the 1-dimensional filtration is unstable. If one adds noise to a data set so that each data point has been perturbed by a distance at most \textbf{$\delta$}, the persistent homology of the mapper graph of the perturbed data set can be significantly different from that of the original data set. We show that we can obtain stability by increasing both the cover size and \textbf{$\epsilon$} at the same time. In particular, we show that the bi-filtrations of the homology groups with respect to cover size and $\epsilon$ between these two datasets are \textbf{2$\delta$}-interleaved. | 翻訳日:2024-09-30 11:54:28 公開日:2024-09-25 |
# 複数のSentinel-2リビジットによる衛星画像のセグメンテーションの改善
Improving satellite imagery segmentation using multiple Sentinel-2 revisits ( http://arxiv.org/abs/2409.17363v1 ) ライセンス: Link先を確認 | Kartik Jindgar, Grace W. Lindsay, | (参考訳) 近年、リモートセンシングデータの解析は、大規模で多様なデータセットで事前訓練された共有モデルの使用など、コンピュータビジョンの幅広い分野からの借用技術から大きな恩恵を受けている。
しかし、衛星画像には、同じ場所の複数の再訪が存在するなど、従来のコンピュータビジョンでは説明できない特徴がある。
ここでは,事前学習したリモートセンシングモデルを微調整するフレームワークにおいて,リビジョンを利用する最善の方法を検討する。
我々は、より一般的に、事前訓練されたモデルの応用利用を代表した、気候変動緩和 -- 電力サブステーションの分断 -- との関連性に関する応用研究に焦点をあてる。
多様なモデルアーキテクチャにまたがる多時間入力方式の広範なテストを通して、モデル潜在空間における複数のリビジョンから表現を融合させることは、データ拡張の形式を含む他のリビジョンを使用する方法よりも優れていることがわかった。
また、SWINトランスフォーマーベースのアーキテクチャは、U-netやViTベースのモデルよりも優れた性能を示す。
建物密度推定タスクを別々に行うことで,結果の汎用性を検証した。
In recent years, analysis of remote sensing data has benefited immensely from borrowing techniques from the broader field of computer vision, such as the use of shared models pre-trained on large and diverse datasets. However, satellite imagery has unique features that are not accounted for in traditional computer vision, such as the existence of multiple revisits of the same location. Here, we explore the best way to use revisits in the framework of fine-tuning pre-trained remote sensing models. We focus on an applied research question of relevance to climate change mitigation -- power substation segmentation -- that is representative of applied uses of pre-trained models more generally. Through extensive tests of different multi-temporal input schemes across diverse model architectures, we find that fusing representations from multiple revisits in the model latent space is superior to other methods of using revisits, including as a form of data augmentation. We also find that a SWIN Transformer-based architecture performs better than U-nets and ViT-based models. We verify the generality of our results on a separate building density estimation task. | 翻訳日:2024-09-30 11:54:28 公開日:2024-09-25 |
# 同時縮小のためのインプシットニューラル表現
多高度気候データの連続的再構成
Implicit Neural Representations for Simultaneous Reduction and Continuous Reconstruction of Multi-Altitude Climate Data ( http://arxiv.org/abs/2409.17367v1 ) ライセンス: Link先を確認 | Alif Bin Abdul Qayyum, Xihaier Luo, Nathan M. Urban, Xiaoning Qian and Byung-Jun Yoon | (参考訳) 世界は地球温暖化に寄与する温室効果ガス排出量を減らすため、風力エネルギーなどのクリーンで再生可能なエネルギー源に向かっている。
風速データの解析と保存性を高めるため,離散観測から有効次元の低減と連続表現を実現するためのディープラーニングフレームワークを提案する。
このフレームワークは3つの重要なコンポーネントで構成されている。
本研究の目的は,(1)多種多様な気候条件にまたがるデータ解像度を改善して高解像度の細部を復元すること,(2)大規模気候データセットのより効率的な保存のためのデータ次元の低減,(3)異なる高度で測定された風速データ間の交差予測を可能にすることである。
包括的検証により,本手法は超解像品質と圧縮効率の両方において既存手法を上回ることが確認された。
The world is moving towards clean and renewable energy sources, such as wind energy, in an attempt to reduce greenhouse gas emissions that contribute to global warming. To enhance the analysis and storage of wind data, we introduce a deep learning framework designed to simultaneously enable effective dimensionality reduction and continuous representation of multi-altitude wind data from discrete observations. The framework consists of three key components: dimensionality reduction, cross-modal prediction, and super-resolution. We aim to: (1) improve data resolution across diverse climatic conditions to recover high-resolution details; (2) reduce data dimensionality for more efficient storage of large climate datasets; and (3) enable cross-prediction between wind data measured at different heights. Comprehensive testing confirms that our approach surpasses existing methods in both super-resolution quality and compression efficiency. | 翻訳日:2024-09-30 11:54:28 公開日:2024-09-25 |
# 畳み込みニューラルネットワークの過度バイアス:正則化アプローチ
The Overfocusing Bias of Convolutional Neural Networks: A Saliency-Guided Regularization Approach ( http://arxiv.org/abs/2409.17370v1 ) ライセンス: Link先を確認 | David Bertoin, Eduardo Hugo Sanchez, Mehdi Zouitine, Emmanuel Rachelson, | (参考訳) コンピュータビジョンにおける新しい標準としてトランスフォーマーが検討されているにもかかわらず、畳み込みニューラルネットワーク(CNN)は、低データレジームにおいてそれを上回っている。
それにもかかわらず、CNNは入力画像の狭い特定の領域に基づいて決定することが多い。
この振る舞いはモデルの一般化能力を著しく損なう可能性があり、画像のより広い文脈を表現できないような特定の特徴に依存しない。
この現象に繋がる条件はいまだ解明されていないが、この記事では、ニューラルネットワークの観測行動に光を当てることを目的としている。
我々の研究は、総合的な洞察を優先し、この現象に対する最初の反応を概説する。
これに合わせて、この問題に対処するための先駆的な正規化アプローチであるSGDrop(Saliency Guided Dropout)を紹介します。
SGDropは、特徴マップ上の属性手法を使用して、トレーニング中に最も顕著な特徴の影響を識別し、低減する。
このプロセスは、ネットワークの注意を多様化させ、特定のスタンドアウト領域のみに焦点を絞らないようにする。
いくつかの視覚分類ベンチマークを用いた実験により,一般化の促進におけるSGDropの役割が検証された。
重要なことに、SGDropを組み込んだモデルは、従来の訓練されたものと対照的に、入力画像のより包括的なビューを提供する、より広範な属性と神経活動を表示する。
Despite transformers being considered as the new standard in computer vision, convolutional neural networks (CNNs) still outperform them in low-data regimes. Nonetheless, CNNs often make decisions based on narrow, specific regions of input images, especially when training data is limited. This behavior can severely compromise the model's generalization capabilities, making it disproportionately dependent on certain features that might not represent the broader context of images. While the conditions leading to this phenomenon remain elusive, the primary intent of this article is to shed light on this observed behavior of neural networks. Our research endeavors to prioritize comprehensive insight and to outline an initial response to this phenomenon. In line with this, we introduce Saliency Guided Dropout (SGDrop), a pioneering regularization approach tailored to address this specific issue. SGDrop utilizes attribution methods on the feature map to identify and then reduce the influence of the most salient features during training. This process encourages the network to diversify its attention and not focus solely on specific standout areas. Our experiments across several visual classification benchmarks validate SGDrop's role in enhancing generalization. Significantly, models incorporating SGDrop display more expansive attributions and neural activity, offering a more comprehensive view of input images in contrast to their traditionally trained counterparts. | 翻訳日:2024-09-30 11:54:28 公開日:2024-09-25 |
# 効率的大言語モデルの探索
Search for Efficient Large Language Models ( http://arxiv.org/abs/2409.17372v1 ) ライセンス: Link先を確認 | Xuan Shen, Pu Zhao, Yifan Gong, Zhenglun Kong, Zheng Zhan, Yushu Wu, Ming Lin, Chao Wu, Xue Lin, Yanzhi Wang, | (参考訳) 大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。
減量、量子化、蒸留など多くの効率的な技術がLLMの圧縮に取り入れられ、LLMの冗長性を裏付けるメモリ削減と推論の加速を狙った。
しかし、ほとんどのモデル圧縮技術は、最適なアーキテクチャの探索を見越して、重量最適化に重点を置いている。
さらに,従来のアーキテクチャ探索手法は,LLM上での有効性を示すのに苦慮している。
本稿では,推定加速度を達成しつつ,元のLLMの基本強度を保ちながら最適なサブネットを識別する学習自由アーキテクチャ探索フレームワークを提案する。
さらに,従来のLCMから特定の重みを継承するサブネットを生成した上で,省略した重みを利用して,少量のキャリブレーションデータを用いて遺伝的重みを補正する改質アルゴリズムを導入する。
より小さなネットワークを生成できるSOTA学習不要な構造化プルーニング処理と比較して,本手法は標準ベンチマークよりも優れた性能を示す。
さらに、生成したサブネットはGPUメモリの使用を直接削減し、推論アクセラレーションを実現することができる。
Large Language Models (LLMs) have long held sway in the realms of artificial intelligence research. Numerous efficient techniques, including weight pruning, quantization, and distillation, have been embraced to compress LLMs, targeting memory reduction and inference acceleration, which underscore the redundancy in LLMs. However, most model compression techniques concentrate on weight optimization, overlooking the exploration of optimal architectures. Besides, traditional architecture search methods, limited by the elevated complexity with extensive parameters, struggle to demonstrate their effectiveness on LLMs. In this paper, we propose a training-free architecture search framework to identify optimal subnets that preserve the fundamental strengths of the original LLMs while achieving inference acceleration. Furthermore, after generating subnets that inherit specific weights from the original LLMs, we introduce a reformation algorithm that utilizes the omitted weights to rectify the inherited weights with a small amount of calibration data. Compared with SOTA training-free structured pruning works that can generate smaller networks, our method demonstrates superior performance across standard benchmarks. Furthermore, our generated subnets can directly reduce the usage of GPU memory and achieve inference acceleration. | 翻訳日:2024-09-30 11:54:28 公開日:2024-09-25 |
# data2lang2vec: データ駆動型型機能補完
data2lang2vec: Data Driven Typological Features Completion ( http://arxiv.org/abs/2409.17373v1 ) ライセンス: Link先を確認 | Hamidreza Amirzadeh, Sadegh Jafari, Anika Harju, Rob van der Goot, | (参考訳) 言語型データベースは多言語自然言語処理(NLP)を強化し、多様な言語構造へのモデル適応性を向上させる。
広く使われているlang2vecツールキットは、いくつかのデータベースを統合しているが、そのカバレッジは28.9\%に制限されている。
カバー範囲を自動的に増やす作業は,他の言語の特徴に基づく不足値の予測や,単一機能に着目し,より優れたインフォームド機能予測のためのテキストデータの利用を提案する。
この目的のために,1,749言語にまたがって70 %以上の精度を実現し,外部統計的特徴とさまざまな機械学習アルゴリズムを試行する多言語言語Part-of-Speech(POS)タグを導入した。
また、タイポロジーの欠如に焦点をあてて、より現実的な評価設定を導入し、我々のアプローチが両方の設定で以前の作業より優れていることを示す。
Language typology databases enhance multi-lingual Natural Language Processing (NLP) by improving model adaptability to diverse linguistic structures. The widely-used lang2vec toolkit integrates several such databases, but its coverage remains limited at 28.9\%. Previous work on automatically increasing coverage predicts missing values based on features from other languages or focuses on single features, we propose to use textual data for better-informed feature prediction. To this end, we introduce a multi-lingual Part-of-Speech (POS) tagger, achieving over 70\% accuracy across 1,749 languages, and experiment with external statistical features and a variety of machine learning algorithms. We also introduce a more realistic evaluation setup, focusing on likely to be missing typology features, and show that our approach outperforms previous work in both setups. | 翻訳日:2024-09-30 11:54:28 公開日:2024-09-25 |
# 深部学習に基づく単眼深度推定における光学レンズ攻撃
Optical Lens Attack on Deep Learning Based Monocular Depth Estimation ( http://arxiv.org/abs/2409.17376v1 ) ライセンス: Link先を確認 | Ce Zhou, Qiben Yan, Daniel Kent, Guangjing Wang, Ziqi Zhang, Hayder Radha, | (参考訳) 単眼深度推定(MDE)は視覚に基づく自律運転(AD)システムにおいて重要な役割を果たす。
単一カメラで物体の深さを判定し、検出された障害物の前で数メートル先をブレーキしたり、衝突を避けるために車線を変更したりといった運転決定を容易にする。
本稿では,ADシステムを用いた単眼視による深度推定アルゴリズムに関連するセキュリティリスクについて検討する。
MDEの脆弱性と光学レンズの原理を活用することで、自動運転車のカメラに光学レンズを戦略的に配置し、知覚された物体深度を操作する物理的な攻撃であるLensAttackを導入する。
LensAttackには、凹凸レンズアタックと凸レンズアタックの2つの攻撃形式がある。
まず、攻撃の数学的モデルを構築し、様々な攻撃パラメータを組み込むことから始める。
続いて,攻撃シミュレーションを行い,運転シナリオにおける実環境性能の評価を行い,その影響を最先端のMDEモデルに示す。
その結果,ADシステムの深さ推定精度に対するLensAttackの影響が顕著となった。
Monocular Depth Estimation (MDE) plays a crucial role in vision-based Autonomous Driving (AD) systems. It utilizes a single-camera image to determine the depth of objects, facilitating driving decisions such as braking a few meters in front of a detected obstacle or changing lanes to avoid collision. In this paper, we investigate the security risks associated with monocular vision-based depth estimation algorithms utilized by AD systems. By exploiting the vulnerabilities of MDE and the principles of optical lenses, we introduce LensAttack, a physical attack that involves strategically placing optical lenses on the camera of an autonomous vehicle to manipulate the perceived object depths. LensAttack encompasses two attack formats: concave lens attack and convex lens attack, each utilizing different optical lenses to induce false depth perception. We begin by constructing a mathematical model of our attack, incorporating various attack parameters. Subsequently, we simulate the attack and evaluate its real-world performance in driving scenarios to demonstrate its effect on state-of-the-art MDE models. The results highlight the significant impact of LensAttack on the accuracy of depth estimation in AD systems. | 翻訳日:2024-09-30 11:54:28 公開日:2024-09-25 |
# Teslaのオートパイロット:倫理とトラゲディ
Tesla's Autopilot: Ethics and Tragedy ( http://arxiv.org/abs/2409.17380v1 ) ライセンス: Link先を確認 | Aravinda Jatavallabha, | (参考訳) このケーススタディでは、Teslaのオートパイロットに関わる事故の倫理的影響を詳しく調べ、Tesla Motorsの道徳的責任を強調した。
7段階の倫理的意思決定プロセスを用いて、ユーザーの行動、システムの制約、および規制の影響を調べる。
この出来事は、自動車産業が自律技術を採用する際の倫理的課題を広く評価し、業界規範と法的枠組みの再考を促している。
この分析は、進化する技術景観における倫理的考察を簡潔に探求するものである。
This case study delves into the ethical ramifications of an incident involving Tesla's Autopilot, emphasizing Tesla Motors' moral responsibility. Using a seven-step ethical decision-making process, it examines user behavior, system constraints, and regulatory implications. This incident prompts a broader evaluation of ethical challenges in the automotive industry's adoption of autonomous technologies, urging a reconsideration of industry norms and legal frameworks. The analysis offers a succinct exploration of ethical considerations in evolving technological landscapes. | 翻訳日:2024-09-30 11:54:28 公開日:2024-09-25 |
# シリコン窒化物外部キャビティレーザーの100Hz以下固有線幅852nm
Sub-100 Hz Intrinsic Linewidth 852 nm Silicon Nitride External Cavity Laser ( http://arxiv.org/abs/2409.17382v1 ) ライセンス: Link先を確認 | Hani Nejadriahi, Eric Kittlaus, Debapam Bose, Nitesh Chauhan, Jiawei Wang, Mathieu Fradet, Mahmood Bagheri, Andrei Isichenko, David Heim, Siamak Forouhar, Daniel Blumenthal, | (参考訳) レーザー冷却とセシウム原子の操作に関係し, 動作波長852nm付近に100Hz以下の固有線幅を有する外部共振器レーザを試作した。
最大CW出力は24mW、波長可変は15nm、サイドモード抑制比は50dBを超える。
この性能レベルは、市販の半導体ゲインチップと組み合わせて外部キャビティとして機能する低損失集積窒化ケイ素フォトニック回路を慎重に設計することによる。
提案手法は, 半導体ゲイン媒質の選択により, より短い波長に拡張可能な, 超低温原子をベースとした新しいセンサ概念の必要性に着目した, サブkHzライン幅の小型集積レーザの実現可能性を示すものである。
We demonstrate an external cavity laser with intrinsic linewidth below 100 Hz around an operating wavelength of 852 nm, selected for its relevance to laser cooling and manipulation of cesium atoms. This system achieves a maximum CW output power of 24 mW, wavelength tunability over 15 nm, and a side-mode suppression ratio exceeding 50 dB. This performance level is facilitated by careful design of a low-loss integrated silicon nitride photonic circuit serving as the external cavity combined with commercially available semiconductor gain chips. This approach demonstrates the feasibility of compact integrated lasers with sub-kHz linewidth centering on the needs of emerging sensor concepts based on ultracold atoms and can be further extended to shorter wavelengths via selection of suitable semiconductor gain media. | 翻訳日:2024-09-30 11:54:28 公開日:2024-09-25 |
# VectorSearch: セマンティックな埋め込みとドキュメント検索の強化
最適化探索
VectorSearch: Enhancing Document Retrieval with Semantic Embeddings and Optimized Search ( http://arxiv.org/abs/2409.17383v1 ) ライセンス: Link先を確認 | Solmaz Seyed Monir, Irene Lau, Shubing Yang, Dongfang Zhao | (参考訳) 従来の検索手法は文書の類似性を評価するのに不可欠であるが、意味的なニュアンスを捉えるのに苦労している。
潜在意味分析(LSA)と深層学習の進歩にもかかわらず、包括的意味理解と正確な検索を実現することは、高次元性と意味的ギャップのために難しいままである。
上記の課題は、次元を効果的に減らし、意味的ギャップを埋めるための新しいテクニックを要求する。
そこで本研究では,高度なアルゴリズム,埋め込み,インデックス化技術を活用した検索手法であるVectorSearchを提案する。
提案手法は,革新的なマルチベクタ探索操作と高度な言語モデルによる検索の符号化を利用して,検索精度を大幅に向上させる。
実世界のデータセットの実験では、VectorSearchはベースラインのメトリクスよりも優れており、大規模な検索タスクに有効であることが示されている。
Traditional retrieval methods have been essential for assessing document similarity but struggle with capturing semantic nuances. Despite advancements in latent semantic analysis (LSA) and deep learning, achieving comprehensive semantic understanding and accurate retrieval remains challenging due to high dimensionality and semantic gaps. The above challenges call for new techniques to effectively reduce the dimensions and close the semantic gaps. To this end, we propose VectorSearch, which leverages advanced algorithms, embeddings, and indexing techniques for refined retrieval. By utilizing innovative multi-vector search operations and encoding searches with advanced language models, our approach significantly improves retrieval accuracy. Experiments on real-world datasets show that VectorSearch outperforms baseline metrics, demonstrating its efficacy for large-scale retrieval tasks. | 翻訳日:2024-09-29 00:01:08 公開日:2024-09-25 |
# コアセット選択によるデータ効率のトラジェクトリ予測
Data-efficient Trajectory Prediction via Coreset Selection ( http://arxiv.org/abs/2409.17385v1 ) ライセンス: Link先を確認 | Ruining Yang and Lili Su | (参考訳) 現代の車両はセンサーやカメラなどの複数の情報収集装置を備えており、大量の生データを継続的に生成している。
隣接する車両の軌道を正確に予測することは、複雑な運転環境を理解する上で重要な要素である。
しかし、軌道予測モデルの訓練には2つの方法がある。
大規模データの処理は計算集約的だ。
さらに、簡単なミーム駆動のシナリオがデータセットを圧倒的に支配し、密度の高いトラフィックを表現できないような困難な運転シナリオを残します。
例えば、Argoverseのモーション予測データセットでは、$\ge 50$エージェントを持つインスタンスはほとんどないが、$10 \thicksim 20$エージェントを持つシナリオの方がはるかに一般的である。
本稿では,過度に表現された運転シナリオにおけるデータの冗長性を緩和し,複雑な運転シナリオのデータ不足に根ざしたバイアスを軽減するために,コアセット選択に基づく新しいデータ効率トレーニング手法を提案する。
この方法は、異なるシナリオの難易度の比率をバランスしながら、小さなが代表的なデータのサブセットを戦略的に選択する。
我々の知る限り、我々は、最先端圧縮比を達成しつつ、大規模軌跡データセットを効果的に凝縮できる手法を最初に導入した。
特に、Argoverseデータセットの50%しか使用していない場合でも、モデルをほとんど、あるいはまったくパフォーマンスを低下させることなくトレーニングすることができる。
さらに、選択されたコアセットは優れた一般化能力を維持している。
Modern vehicles are equipped with multiple information-collection devices such as sensors and cameras, continuously generating a large volume of raw data. Accurately predicting the trajectories of neighboring vehicles is a vital component in understanding the complex driving environment. Yet, training trajectory prediction models is challenging in two ways. Processing the large-scale data is computation-intensive. Moreover, easy-medium driving scenarios often overwhelmingly dominate the dataset, leaving challenging driving scenarios such as dense traffic under-represented. For example, in the Argoverse motion prediction dataset, there are very few instances with $\ge 50$ agents, while scenarios with $10 \thicksim 20$ agents are far more common. In this paper, to mitigate data redundancy in the over-represented driving scenarios and to reduce the bias rooted in the data scarcity of complex ones, we propose a novel data-efficient training method based on coreset selection. This method strategically selects a small but representative subset of data while balancing the proportions of different scenario difficulties. To the best of our knowledge, we are the first to introduce a method capable of effectively condensing large-scale trajectory dataset, while achieving a state-of-the-art compression ratio. Notably, even when using only 50% of the Argoverse dataset, the model can be trained with little to no decline in performance. Moreover, the selected coreset maintains excellent generalization ability. | 翻訳日:2024-09-29 00:01:07 公開日:2024-09-25 |
# 冗長性を超えて - 情報認識のない教師なし多重グラフ
構造学習
Beyond Redundancy: Information-aware Unsupervised Multiplex Graph Structure Learning ( http://arxiv.org/abs/2409.17386v1 ) ライセンス: Link先を確認 | Zhixiang Shen, Shuo Wang, Zhao Kang | (参考訳) Unsupervised Multiplex Graph Learning (UMGL) は、手動ラベリングなしで様々なエッジタイプのノード表現を学習することを目的としている。
しかし、既存の研究は、グラフ構造の信頼性という重要な要素を見落としている。
実世界のデータは、しばしば複雑な性質を示し、豊富なタスク関連ノイズを含み、UMGLの性能を著しく損なう。
さらに、既存の手法は主に、異なるグラフをまたいだ相互情報を最大化するための対照的な学習に依存しており、これらを多重グラフの冗長なシナリオに制限し、ビューユニクなタスク関連情報をキャプチャできない。
本稿では,タスク関連性のあるノイズを除去しながら,タスク関連情報を保持する複数のグラフから融合グラフを教師なしで学習する,より現実的で困難なタスクに焦点を当てる。
具体的には,情報認識型非教師付き多重グラフ融合フレームワーク(InfoMGF)では,無関係ノイズを除去するためにグラフ構造を改良し,ビュー共有およびビュー共通タスク関連情報を同時に最大化し,非冗長多重グラフのフロンティアに対処する。
理論解析はInfoMGFの有効性をさらに保証する。
異なる下流タスクに対する様々なベースラインに対する総合的な実験は、その優れた性能と堅牢性を示している。
驚いたことに、我々の教師なしの手法は、高度な教師付きアプローチに勝っている。
ソースコードとデータセットはhttps://github.com/zxlearningdeep/InfoMGF.comで入手できる。
Unsupervised Multiplex Graph Learning (UMGL) aims to learn node representations on various edge types without manual labeling. However, existing research overlooks a key factor: the reliability of the graph structure. Real-world data often exhibit a complex nature and contain abundant task-irrelevant noise, severely compromising UMGL's performance. Moreover, existing methods primarily rely on contrastive learning to maximize mutual information across different graphs, limiting them to multiplex graph redundant scenarios and failing to capture view-unique task-relevant information. In this paper, we focus on a more realistic and challenging task: to unsupervisedly learn a fused graph from multiple graphs that preserve sufficient task-relevant information while removing task-irrelevant noise. Specifically, our proposed Information-aware Unsupervised Multiplex Graph Fusion framework (InfoMGF) uses graph structure refinement to eliminate irrelevant noise and simultaneously maximizes view-shared and view-unique task-relevant information, thereby tackling the frontier of non-redundant multiplex graph. Theoretical analyses further guarantee the effectiveness of InfoMGF. Comprehensive experiments against various baselines on different downstream tasks demonstrate its superior performance and robustness. Surprisingly, our unsupervised method even beats the sophisticated supervised approaches. The source code and datasets are available at https://github.com/zxlearningdeep/InfoMGF. | 翻訳日:2024-09-29 00:01:07 公開日:2024-09-25 |
# 数理システムに関する大規模言語モデルのスケーリング行動:Pythiaを用いた例
Scaling Behavior for Large Language Models regarding Numeral Systems: An Example using Pythia ( http://arxiv.org/abs/2409.17391v1 ) ライセンス: Link先を確認 | Zhejian Zhou, Jiayu Wang, Dahua Lin, Kai Chen, | (参考訳) 大規模言語モデル(LLM)は数学の推論において顕著な能力を示してきたが、加算や乗算といった数値演算を正確に行うことにはまだ苦戦している。
数値は様々な LLM によってトークンにトークン化され、数値演算のパフォーマンスに影響を及ぼす。
現在は2人の代表者がいる。
1) tokenize into $1$-digit, and
2)Tokenizeを$1\sim 3$ digitにする。
この差は、大まかに言えば、異なる数字システム(つまり、ベース10$またはベース10^{3}$)を使用することと等価である。
そこで本研究では,変圧器を用いた大規模言語モデルを用いて,異なる数値システムのスケーリング挙動について検討する。
経験的に、ベース10$システムは、トレーニングデータスケール、スクラッチのトレーニング設定によるモデルサイズ、および異なる数値システムは、非常によく似た微調整性能を持つのに対して、ベース10^{2}$または10^{3}$システムよりも一貫してデータ効率が良いことを示しています。
これは、ベーシックな10ドルシステムよりも高いトークン周波数によるものです。
さらに,加法および乗算における外挿行動パターンを明らかにした。
私たちは、トークンレベルの識別とトークンレベルの操作に苦労する、ベース100ドルとベース1,000ドルのシステムを特定します。
また、モデルによって学習されたメカニズムについても光を当てています。
Though Large Language Models (LLMs) have shown remarkable abilities in mathematics reasoning, they are still struggling with performing numeric operations accurately, such as addition and multiplication. Numbers can be tokenized into tokens in various ways by different LLMs and affect the numeric operations performance. Currently, there are two representatives: 1) Tokenize into $1$-digit, and 2) Tokenize into $1\sim 3$ digit. The difference is roughly equivalent to using different numeral systems (namely base $10$ or base $10^{3}$). In light of this, we study the scaling behavior of different numeral systems in the context of transformer-based large language models. We empirically show that a base $10$ system is consistently more data-efficient than a base $10^{2}$ or $10^{3}$ system across training data scale, model sizes under from-scratch training settings, while different number systems have very similar fine-tuning performances. We attribute this to higher token frequencies of a base $10$ system. Additionally, we reveal extrapolation behavior patterns on addition and multiplication. We identify that base $100$ and base $1000$ systems struggle on token-level discernment and token-level operations. We also sheds light on the mechanism learnt by the models. | 翻訳日:2024-09-29 00:01:07 公開日:2024-09-25 |
# 自己監督型コントラスト表現学習を用いた発話シーズンのトレーディング
Trading through Earnings Seasons using Self-Supervised Contrastive Representation Learning ( http://arxiv.org/abs/2409.17392v1 ) ライセンス: Link先を確認 | Zhengxin Joseph Ye, Bjoern Schuller, | (参考訳) 決算発表は金融市場で重要な経済イベントであり、株価の動きを予測するのに不可欠だ。
Earningsのデータは、企業がどのように財政的に行なっているのかを垣間見せてくれる。
しかし、そのリリースサイクルの不規則さは、このデータを中頻度のアルゴリズムトレーディングモデルに組み込むことを難しくし、リリース後にそのデータの有用性は急速に低下し、モデルが時間とともに正確であることは困難である。
この課題に対処するために,Contrastive Earnings Transformer(CET)モデルを導入する。これは,Contrastive Predictive Coding(CPC)に根ざした自己教師型学習アプローチで,収益データの利用を最適化することを目的としている。
その有効性を確認するため、様々な分野のベンチマークモデルに対してCETの比較研究を行う。
我々の研究は、株価データの複雑さを深く掘り下げ、様々なモデル、特にCETが、時間と異なるセクターで急速に変化する収益データの関連性をどのように扱うかを評価する。
調査結果は、CETが経常利益データの本質的価値を外挿する際、明らかに有利な点を浮き彫りにした。
CPCの基盤は微妙な理解を可能にし、決算データ時代においても一貫した株価予測を促進する。
CETに関するこの発見は、株価トレンドを予測するアルゴリズム取引において、収益データを改善するための新しいアプローチを提示している。
Earnings release is a key economic event in the financial markets and crucial for predicting stock movements. Earnings data gives a glimpse into how a company is doing financially and can hint at where its stock might go next. However, the irregularity of its release cycle makes it a challenge to incorporate this data in a medium-frequency algorithmic trading model and the usefulness of this data fades fast after it is released, making it tough for models to stay accurate over time. Addressing this challenge, we introduce the Contrastive Earnings Transformer (CET) model, a self-supervised learning approach rooted in Contrastive Predictive Coding (CPC), aiming to optimise the utilisation of earnings data. To ascertain its effectiveness, we conduct a comparative study of CET against benchmark models across diverse sectors. Our research delves deep into the intricacies of stock data, evaluating how various models, and notably CET, handle the rapidly changing relevance of earnings data over time and over different sectors. The research outcomes shed light on CET's distinct advantage in extrapolating the inherent value of earnings data over time. Its foundation on CPC allows for a nuanced understanding, facilitating consistent stock predictions even as the earnings data ages. This finding about CET presents a fresh approach to better use earnings data in algorithmic trading for predicting stock price trends. | 翻訳日:2024-09-29 00:01:07 公開日:2024-09-25 |
# メンタルヘルスにおける重症度予測 : LLMによる創造・分析・分析
新しい多言語データセットの評価
Severity Prediction in Mental Health: LLM-based Creation, Analysis, Evaluation of a Novel Multilingual Dataset ( http://arxiv.org/abs/2409.17397v1 ) ライセンス: Link先を確認 | Konstantinos Skianis, John Pavlopoulos, A. Seza Do\u{g}ru\"oz | (参考訳) 大規模言語モデル(LLM)は、メンタルヘルス支援システムを含む様々な医療分野に統合されつつある。
しかし、非英語のメンタルヘルス・サポート・アプリケーションにおけるLSMの有効性についての研究にはギャップがある。
この問題に対処するため、我々は、英語から6つの言語(ギリシャ語、トルコ語、フランス語、ポルトガル語、ドイツ語、フィンランド語)に翻訳された、広く使われているメンタルヘルスデータセットの多言語適応を新たに提案する。
このデータセットは、精神状態を検出し、複数の言語にわたる重症度を評価する上で、LLMのパフォーマンスを総合的に評価することを可能にする。
GPTとLlamaを実験することにより、同じ翻訳データセットで評価されているにもかかわらず、言語間での性能のかなりの変動を観察する。
この矛盾は、言語固有のニュアンスとメンタルヘルスデータカバレッジがモデルの正確性に影響を与える、多言語的なメンタルヘルスサポートに固有の複雑さを浮き彫りにする。
包括的エラー分析を通じて、医療環境(例えば、誤診に寄与する可能性)において、大きな言語モデル(LLM)にのみ依存するリスクを強調した。
さらに,提案手法は多言語タスクに対して大幅なコスト削減を実現し,広範囲な実装において大きな優位性を示す。
Large Language Models (LLMs) are increasingly integrated into various medical fields, including mental health support systems. However, there is a gap in research regarding the effectiveness of LLMs in non-English mental health support applications. To address this problem, we present a novel multilingual adaptation of widely-used mental health datasets, translated from English into six languages (Greek, Turkish, French, Portuguese, German, and Finnish). This dataset enables a comprehensive evaluation of LLM performance in detecting mental health conditions and assessing their severity across multiple languages. By experimenting with GPT and Llama, we observe considerable variability in performance across languages, despite being evaluated on the same translated dataset. This inconsistency underscores the complexities inherent in multilingual mental health support, where language-specific nuances and mental health data coverage can affect the accuracy of the models. Through comprehensive error analysis, we emphasize the risks of relying exclusively on large language models (LLMs) in medical settings (e.g., their potential to contribute to misdiagnoses). Moreover, our proposed approach offers significant cost savings for multilingual tasks, presenting a major advantage for broad-scale implementation. | 翻訳日:2024-09-29 00:01:07 公開日:2024-09-25 |
# 1次元および3次元自由平面磁石における接触相互作用によるスピンスクイージングの観察
Observation of spin squeezing with contact interactions in one- and three-dimensional easy-plane magnets ( http://arxiv.org/abs/2409.17398v1 ) ライセンス: Link先を確認 | Yoo Kyung Lee, Maxwell Block, Hanzhen Lin, Vitaly Fedoseev, Philip J. D. Crowley, Norman Y. Yao, Wolfgang Ketterle, | (参考訳) 多粒子系の絡み合いは、古典的な相関だけで達成できる以上の感度測定を可能にする。
スピンのアンサンブルでは、全対すべての相互作用が量子射影ノイズを再形成することが知られており、スピンスクイーズと呼ばれる絡み合いの形になる。
ここでは、厳密な短距離接触相互作用によるスピンスクイーズを実演する。
特に、光学格子中の超低温リチウム原子を用いて、超交換相互作用を利用して、最近傍の異方性ハイゼンベルクモデルを実現する。
初期積状態から得られたクエンチダイナミクスを, 1次元と3次元の両方で検討する。
1Dでは、1.9^{+0.7}_{-0.5}$dBのスピンスクイーズを理論と定量的に一致して観測する。
しかし、3Dでは、最大で2.0^{+0.7}_{-0.7}$dBのスクイーズを、予想よりも桁違いに小さく観測する。
ホールの運動とスピンと密度の直接結合は、スピンダイナミクスを質的に変化させる。
我々の観察は、量子シミュレータにおける運動自由度とスピン自由度の間の複雑な相互作用を理解することの重要性を示唆している。
Entanglement in a many-particle system can enable measurement sensitivities beyond that achievable by only classical correlations. For an ensemble of spins, all-to-all interactions are known to reshape the quantum projection noise, leading to a form of entanglement known as spin squeezing. Here, we demonstrate spin squeezing with strictly short-range contact interactions. In particular, working with ultracold lithium atoms in optical lattices, we utilize superexchange interactions to realize a nearest-neighbor anisotropic Heisenberg model. We investigate the resulting quench dynamics from an initial product state in both one and three dimensions. In 1D, we observe $1.9^{+0.7}_{-0.5}$ dB of spin squeezing in quantitative agreement with theory. However, in 3D, we observe a maximum of $2.0^{+0.7}_{-0.7}$ dB of squeezing, over an order of magnitude smaller than that expected. We demonstrate that this discrepancy arises from the presence of a finite density of holes; both the motion of the holes as well as direct coupling between spin and density qualitatively alter the spin dynamics. Our observations point to the importance of understanding the complex interplay between motional and spin degrees of freedom in quantum simulators. | 翻訳日:2024-09-29 00:01:07 公開日:2024-09-25 |
# AgRegNet: 果樹園における花と果実の密度推定, 局在, 計数のための深層回帰ネットワーク
AgRegNet: A Deep Regression Network for Flower and Fruit Density Estimation, Localization, and Counting in Orchards ( http://arxiv.org/abs/2409.17400v1 ) ライセンス: Link先を確認 | Uddhav Bhattarai, Santosh Bhusal, Qin Zhang, Manoj Karkee, | (参考訳) 今日の農業産業にとって大きな課題の1つは、手作業による労働力の可用性とそれに伴うコストの不確実性である。
自動化された花と果実の密度の推定、局在化、カウントは、花や果物の薄化といった作物の収穫、収量推定、および作物の積荷管理戦略に役立てることができる。
本稿では,木果樹冠内の花と果実の密度,数,位置を,明示的なオブジェクト検出やポリゴンアノテーションなしで推定する,深い回帰に基づくネットワークであるAgRegNetを提案する。
一般的なU-NetアーキテクチャにインスパイアされたAgRegNetは、エンコーダからデコーダへのスキップ接続と、エンコーダ機能抽出器としてConvNeXt-Tを改良したU字型ネットワークである。
AgRegNetはポイントアノテーションの情報に基づいてトレーニングが可能で、セグメンテーション情報とアテンションモジュール(空間とチャネル)を活用して、関連する花や果物の特徴を強調しながら、関連しない背景の特徴を抑える。
果樹園環境下でのリンゴの花と果実の樹冠画像の実験的評価により,AgRegNetは構造類似度指数(SSIM),平均絶対値誤差(pMAE)および平均平均値精度(mAP)で測定され,花と果実の密度,数,およびセンチロイドの位置を推定した。
具体的には,花のSSIM,pMAE,mAP値は0.938,13.7%,0.81であった。
実画像では0.910,5.6%,0.93。
提案手法はポイントアノテーションの情報に頼っているため、疎密かつ密着した対象に適している。
この単純化された手法は、栽培者が収穫量を正確に見積もり、最適な化学的および機械的な花の薄切り法を決定するのに非常に適している。
One of the major challenges for the agricultural industry today is the uncertainty in manual labor availability and the associated cost. Automated flower and fruit density estimation, localization, and counting could help streamline harvesting, yield estimation, and crop-load management strategies such as flower and fruitlet thinning. This article proposes a deep regression-based network, AgRegNet, to estimate density, count, and location of flower and fruit in tree fruit canopies without explicit object detection or polygon annotation. Inspired by popular U-Net architecture, AgRegNet is a U-shaped network with an encoder-to-decoder skip connection and modified ConvNeXt-T as an encoder feature extractor. AgRegNet can be trained based on information from point annotation and leverages segmentation information and attention modules (spatial and channel) to highlight relevant flower and fruit features while suppressing non-relevant background features. Experimental evaluation in apple flower and fruit canopy images under an unstructured orchard environment showed that AgRegNet achieved promising accuracy as measured by Structural Similarity Index (SSIM), percentage Mean Absolute Error (pMAE) and mean Average Precision (mAP) to estimate flower and fruit density, count, and centroid location, respectively. Specifically, the SSIM, pMAE, and mAP values for flower images were 0.938, 13.7%, and 0.81, respectively. For fruit images, the corresponding values were 0.910, 5.6%, and 0.93. Since the proposed approach relies on information from point annotation, it is suitable for sparsely and densely located objects. This simplified technique will be highly applicable for growers to accurately estimate yields and decide on optimal chemical and mechanical flower thinning practices. | 翻訳日:2024-09-29 00:01:07 公開日:2024-09-25 |
# 人間からの強化学習のためのゼロ階政策グラディエント
逆推論のないフィードバック
Zeroth-Order Policy Gradient for Reinforcement Learning from Human Feedback without Reward Inference ( http://arxiv.org/abs/2409.17401v1 ) ライセンス: Link先を確認 | Qining Zhang, Lei Ying | (参考訳) リワード推論(Reward inference、人間の好みから報酬モデルを学ぶ)は、ChatGPTのような微調整された大規模言語モデル(LLM)のための強化学習(Reinforcement Learning from Human Feedback、RLHF)における重要な中間段階である。
実際には、報酬推論は、二重問題特定、真理のない報酬モデル評価、流通シフト、共同報酬モデルと政策トレーニングにおける過度な適合など、いくつかの基本的な課題に直面している。
これらの落とし穴を避ける別のアプローチとして、直接優先度最適化(DPO)のような報酬推論のない直接的なポリシー最適化がある。
しかし、DPOは最適ポリシーと報酬関数の間のクローズドフォーム表現を利用しており、これはバンディット設定や決定論的MDPの下でのみ機能する。
本稿では,報酬推論を伴わない2つのRLHFアルゴリズムを開発し,帯域幅や決定論的MDPを超えた一般RL問題と,Bradely-Terryモデルを越えた一般選好モデルを提案する。
鍵となる考え方は、人間の嗜好と異なる局所値関数を推定し、ゼロ階勾配近似器でポリシー勾配を近似することである。
いずれのアルゴリズムも、ポリシー勾配反復数、軌道サンプル数、イテレーション毎の人間の嗜好クエリ数の観点から収束率を確立する。
以上の結果から,報酬推論なしで一般RLHF問題の解法が確立できることが示唆された。
Reward inference (learning a reward model from human preferences) is a critical intermediate step in Reinforcement Learning from Human Feedback (RLHF) for fine-tuning Large Language Models (LLMs) such as ChatGPT. In practice, reward inference faces several fundamental challenges, including double problem misspecification, reward model evaluation without ground truth, distribution shift, and overfitting in joint reward model and policy training. An alternative approach that avoids these pitfalls is direct policy optimization without reward inference, such as Direct Preference Optimization (DPO), which provides a much simpler pipeline and has shown empirical success in LLMs. However, DPO utilizes the closed-form expression between the optimal policy and the reward function, which only works under the bandit setting or deterministic MDPs. This paper develops two RLHF algorithms without reward inference, which work for general RL problems beyond bandits and deterministic MDPs, and general preference models beyond the Bradely-Terry model. The key idea is to estimate the local value function difference from human preferences and then approximate the policy gradient with a zeroth-order gradient approximator. For both algorithms, we establish rates of convergence in terms of the number of policy gradient iterations, as well as the number of trajectory samples and human preference queries per iteration. Our results show there exist provably efficient methods to solve general RLHF problems without reward inference. | 翻訳日:2024-09-29 00:01:07 公開日:2024-09-25 |
# 補助課題のデノベートによる勧告の強化
Enhancing Recommendation with Denoising Auxiliary Task ( http://arxiv.org/abs/2409.17402v1 ) ライセンス: Link先を確認 | Pengsheng Liu, Linan Zheng, Jiale Chen, Guangfa Zhang, Yang Xu, Jinyun Fang | (参考訳) ユーザの履歴的なインタラクションシーケンスは、ユーザの好みを正確に予測できるリコメンデータシステムのトレーニングにおいて重要な役割を果たす。
しかし、ユーザ行動の任意性のため、これらのシーケンスにおけるノイズの存在は、リコメンデータシステムにおける次のアクションを予測することの難しさを招いている。
この問題に対処するために、同程度の重みを持つノイズシーケンスとクリーンシーケンス(ノイズのないシーケンス)のトレーニングがモデルの性能に影響を及ぼすという観察に基づいている。
提案手法は, 推薦システムにおいて, より正確に雑音列を再重み付けすることを目的とした, 自己監督型補助タスクジョイントトレーニング (ATJT) 手法を提案する。
具体的には、ユーザのオリジナルシーケンスから戦略的にサブセットを選択し、ランダムな置換を行い、人工的に置換されたノイズシークエンスを生成する。
次いで,これら人工的に置換したノイズシーケンスとオリジナルシーケンスのジョイントトレーニングを行う。
効果的な再重み付けにより、ノイズ認識モデルのトレーニング結果をレコメンダモデルに組み込む。
本手法は,一貫したベースモデルを用いて3つのデータセット上で評価する。
実験結果から, ベースモデルの性能向上のため, 自己指導型補助タスクの導入の有効性が示された。
The historical interaction sequences of users plays a crucial role in training recommender systems that can accurately predict user preferences. However, due to the arbitrariness of user behavior, the presence of noise in these sequences poses a challenge to predicting their next actions in recommender systems. To address this issue, our motivation is based on the observation that training noisy sequences and clean sequences (sequences without noise) with equal weights can impact the performance of the model. We propose a novel self-supervised Auxiliary Task Joint Training (ATJT) method aimed at more accurately reweighting noisy sequences in recommender systems. Specifically, we strategically select subsets from users' original sequences and perform random replacements to generate artificially replaced noisy sequences. Subsequently, we perform joint training on these artificially replaced noisy sequences and the original sequences. Through effective reweighting, we incorporate the training results of the noise recognition model into the recommender model. We evaluate our method on three datasets using a consistent base model. Experimental results demonstrate the effectiveness of introducing self-supervised auxiliary task to enhance the base model's performance. | 翻訳日:2024-09-29 00:01:07 公開日:2024-09-25 |
# 自律走行における物体検出における過渡的3次元投影攻撃
Transient Adversarial 3D Projection Attacks on Object Detection in Autonomous Driving ( http://arxiv.org/abs/2409.17403v1 ) ライセンス: Link先を確認 | Ce Zhou, Qiben Yan, Sijia Liu, | (参考訳) 物体検出は自動運転において重要な課題である。
既存の研究では、対向パッチやステッカーなどの物体検出に対する様々な攻撃が提案されているが、3次元表面への投射攻撃の探索はほとんど未調査のままである。
固定された対向パターンを持つ対向パッチやステッカーと比較すると、プロジェクションアタックはこれらのパターンを過度に修正し、より柔軟な攻撃を可能にする。
本稿では,自律走行シナリオにおける物体検出を対象とする対向3次元プロジェクションアタックを提案する。
カラーマッピングと幾何変換モデルの組み合わせを利用して,攻撃の定式化を最適化問題とする。
本研究は, YOLOv3 と Mask R-CNN の物理環境における攻撃効果を示すものである。
屋内環境で行った評価では、環境光環境下での攻撃成功率は最大100%であり、現実の運転シナリオにおける攻撃の潜在的ダメージが顕著である。
Object detection is a crucial task in autonomous driving. While existing research has proposed various attacks on object detection, such as those using adversarial patches or stickers, the exploration of projection attacks on 3D surfaces remains largely unexplored. Compared to adversarial patches or stickers, which have fixed adversarial patterns, projection attacks allow for transient modifications to these patterns, enabling a more flexible attack. In this paper, we introduce an adversarial 3D projection attack specifically targeting object detection in autonomous driving scenarios. We frame the attack formulation as an optimization problem, utilizing a combination of color mapping and geometric transformation models. Our results demonstrate the effectiveness of the proposed attack in deceiving YOLOv3 and Mask R-CNN in physical settings. Evaluations conducted in an indoor environment show an attack success rate of up to 100% under low ambient light conditions, highlighting the potential damage of our attack in real-world driving scenarios. | 翻訳日:2024-09-29 00:01:07 公開日:2024-09-25 |
# AIによる沸騰中の中性子フラックス測定と仮想キャリブレーション
水炉
AI Enabled Neutron Flux Measurement and Virtual Calibration in Boiling Water Reactors ( http://arxiv.org/abs/2409.17405v1 ) ライセンス: Link先を確認 | Anirudh Tunga, Jordan Heim, Michael Mueterthies, Thomas Gruenwald and Jonathan Nistor | (参考訳) 原子炉コア内の3次元の電力分布を正確に把握することは、原子炉の安全かつ経済的運用、技術仕様の遵守、燃料サイクル計画(安全、制御、性能評価)の確保に不可欠である。
オフライン(つまりサイクル計画とコア設計)では、原子炉のパワー、モデレーター、ヴォイド、流れの分布を推定するために3次元中性子シミュレータが使用され、その辺縁から熱限界、燃料の露出を近似することができる。
オンラインでは、この手法は、満潮の電力分布を推測するために十分な中性子フラックス情報を取得するように設計されたローカルパワーレンジモニター(LPRM)システムによって実現されている。
測定とキャリブレーションから電力適応プロセスまで、このプロセスのある種の問題は、オペレーターに課題を提起し、経済的にコアをリロードする能力を制限する(例えば、必要以上のマージンまたはマージンの工学)。
人工知能(AI)と機械学習(ML)は、メンテナンスコストの削減、オンラインローカル電力測定の精度の向上、オフラインとオンラインの電力分布間のバイアスの低減、それによって安全で経済的リロードコアを設計する能力の向上のために使用されている。
2つのディープニューラルネットワーク(DNN)アーキテクチャ、SurrogateNetとLPRMNetからトレーニングされたMLモデルを示し、それぞれ1%と3%のテストエラーを示す。
これらのモデルの適用例としては、LPRMをバイパスまたは誤動作させる仮想センシング機能、連続するキャリブレーション間の検出器の要求の仮想キャリブレーション、LPRMの高精度な寿命決定、コア内の測定された電力分布と予測された電力分布間のバイアスの低減などがある。
Accurately capturing the three dimensional power distribution within a reactor core is vital for ensuring the safe and economical operation of the reactor, compliance with Technical Specifications, and fuel cycle planning (safety, control, and performance evaluation). Offline (that is, during cycle planning and core design), a three dimensional neutronics simulator is used to estimate the reactor's power, moderator, void, and flow distributions, from which margin to thermal limits and fuel exposures can be approximated. Online, this is accomplished with a system of local power range monitors (LPRMs) designed to capture enough neutron flux information to infer the full nodal power distribution. Certain problems with this process, ranging from measurement and calibration to the power adaption process, pose challenges to operators and limit the ability to design reload cores economically (e.g., engineering in insufficient margin or more margin than required). Artificial intelligence (AI) and machine learning (ML) are being used to solve the problems to reduce maintenance costs, improve the accuracy of online local power measurements, and decrease the bias between offline and online power distributions, thereby leading to a greater ability to design safe and economical reload cores. We present ML models trained from two deep neural network (DNN) architectures, SurrogateNet and LPRMNet, that demonstrate a testing error of 1 percent and 3 percent, respectively. Applications of these models can include virtual sensing capability for bypassed or malfunctioning LPRMs, on demand virtual calibration of detectors between successive calibrations, highly accurate nuclear end of life determinations for LPRMs, and reduced bias between measured and predicted power distributions within the core. | 翻訳日:2024-09-29 00:01:07 公開日:2024-09-25 |
# 不安に基づくスパイダー:バーチャルリアリティーのパーソナライズされたアラキノフォビア治療における強化学習がユーザエクスペリエンスをいかにもたらすか
Spiders Based on Anxiety: How Reinforcement Learning Can Deliver Desired User Experience in Virtual Reality Personalized Arachnophobia Treatment ( http://arxiv.org/abs/2409.17406v1 ) ライセンス: Link先を確認 | Athar Mahmoudi-Nejad, Matthew Guzdial, Pierre Boulanger, | (参考訳) 望まれる不安反応を引き起こすクモを生成する必要性は、パーソナライズされた仮想現実露光療法(VRET、arachnophobia)の文脈で生じる。
この治療では、仮想クモを観察する患者が脱感作し恐怖症を減少させるため、クモは特定の不安反応を誘発する必要がある。
しかし、VRETアプローチでは、セラピストが患者ごとに適切なクモを手作業で選択する必要がある傾向があり、これは時間を要するプロセスであり、重要な技術知識と患者の洞察を必要とする。
自動化メソッドは存在するが、特定のユーザに適応する最小限の能力を持つルールベースのアプローチを採用する傾向がある。
これらの課題に対処するため,手続き的コンテンツ生成(PCG)と強化学習(RL)を利用したVRETのためのフレームワークを提案する。
より一般的なルールベースのVRET法と比較して,本システムの優れた性能を示す。
The need to generate a spider to provoke a desired anxiety response arises in the context of personalized virtual reality exposure therapy (VRET), a treatment approach for arachnophobia. This treatment involves patients observing virtual spiders in order to become desensitized and decrease their phobia, which requires that the spiders elicit specific anxiety responses. However, VRET approaches tend to require therapists to hand-select the appropriate spider for each patient, which is a time-consuming process and takes significant technical knowledge and patient insight. While automated methods exist, they tend to employ rules-based approaches with minimal ability to adapt to specific users. To address these challenges, we present a framework for VRET utilizing procedural content generation (PCG) and reinforcement learning (RL), which automatically adapts a spider to elicit a desired anxiety response. We demonstrate the superior performance of this system compared to a more common rules-based VRET method. | 翻訳日:2024-09-29 00:01:07 公開日:2024-09-25 |
# ポストホックリワード校正 : 長さバイアスを例に
Post-hoc Reward Calibration: A Case Study on Length Bias ( http://arxiv.org/abs/2409.17407v1 ) ライセンス: Link先を確認 | Zeyu Huang, Zihan Qiu, Zili Wang, Edoardo M. Ponti, Ivan Titov, | (参考訳) 人間のフィードバックからの強化学習は、大規模言語モデルの出力と人間の価値観と嗜好を一致させる。
このプロセスの中心は報酬モデル(RM)であり、人間のフィードバックをLLMの振る舞いを最適化するためのトレーニング信号に変換する。
しかし、RMは、真の品質ではなく、長さやスタイルに基づいて出力を優先するなど、トレーニングデータに急激な相関を利用してバイアスを発生させることができる。
これらのバイアスは、誤った出力ランキング、準最適モデル評価、LLMアライメントにおける望ましくない振る舞いの増幅につながる可能性がある。
本稿では,余分なデータやトレーニングを伴わずにバイアスを補正するという課題に対処し,ポストホックリワード校正の概念を導入する。
まず,バイアス項を推定する直感的な手法を提案する。
次に、より一般的で堅牢な形で、局所重み付け回帰(Locally Weighted Regression)にアプローチを拡張します。
1)RewardBenchデータセット上で33の報酬モデルに対して平均3.11の性能向上,(2)AlpacaEvalベンチマークに基づくGPT-4評価と人間の嗜好によるRMランキングのアライメント向上,(3)LLM-RM組み合わせによるRLHFプロセスの長周期勝利率の改善。
我々の手法は他の種類のバイアスやRMに対して計算効率が高く一般化可能であり、LLMアライメントにおけるバイアス軽減のためのスケーラブルで堅牢なソリューションを提供する。
私たちのコードと結果はhttps://github.com/ZeroYuHuang/Reward-Calibration.comで公開されています。
Reinforcement Learning from Human Feedback aligns the outputs of Large Language Models with human values and preferences. Central to this process is the reward model (RM), which translates human feedback into training signals for optimising LLM behaviour. However, RMs can develop biases by exploiting spurious correlations in their training data, such as favouring outputs based on length or style rather than true quality. These biases can lead to incorrect output rankings, sub-optimal model evaluations, and the amplification of undesirable behaviours in LLMs alignment. This paper addresses the challenge of correcting such biases without additional data and training, introducing the concept of Post-hoc Reward Calibration. We first propose an intuitive approach to estimate the bias term and, thus, remove it to approximate the underlying true reward. We then extend the approach to a more general and robust form with the Locally Weighted Regression. Focusing on the prevalent length bias, we validate our proposed approaches across three experimental settings, demonstrating consistent improvements: (1) a 3.11 average performance gain across 33 reward models on the RewardBench dataset; (2) enhanced alignment of RM rankings with GPT-4 evaluations and human preferences based on the AlpacaEval benchmark; and (3) improved Length-Controlled win rate of the RLHF process in multiple LLM--RM combinations. Our method is computationally efficient and generalisable to other types of bias and RMs, offering a scalable and robust solution for mitigating biases in LLM alignment. Our code and results are available at https://github.com/ZeroYuHuang/Reward-Calibration. | 翻訳日:2024-09-29 00:01:07 公開日:2024-09-25 |
# 企業生成人工知能(E-GenAI)への社会工学的アプローチ
Sociotechnical Approach to Enterprise Generative Artificial Intelligence (E-GenAI) ( http://arxiv.org/abs/2409.17408v1 ) ライセンス: Link先を確認 | Leoncio Jimenez, Francisco Venegas, | (参考訳) 本稿では,社会工学的アプローチを特徴付けるために提案する。
まず、ビジネスエコシステムは、(1)ビジネスインテリジェンス(BI)、Fuzzy Logic(FL)、TRIZ(発明問題解決理論)、(2)知識管理(KM)と不完全な知識管理(IKM)という、SCM、ERP、CRMプラットフォームを通じたプロバイダ、エンタープライズ、顧客間の関係に焦点を当てています。
第二に、この記事では、E-GenAIビジネスエコシステムについて紹介します。これは、SCM、ERP、CRMのGenAIベースのプラットフォームとBI、FL、TRIZ、KM、IKMのGenAIベースのプラットフォームを統合し、E-GenAI(OID)モデルを通してLLM(Large Language Models)を整列させます。
最後に, LLMの力学を理解するために, 有限オートマトンを用いてフォロワとフォロワの関係をモデル化する。
これにより、ソーシャルメディアプラットフォーム上のユーザの特定の特性を識別するLLMの構築が容易になる。
In this theoretical article, a sociotechnical approach is proposed to characterize. First, the business ecosystem, focusing on the relationships among Providers, Enterprise, and Customers through SCM, ERP, and CRM platforms to align: (1) Business Intelligence (BI), Fuzzy Logic (FL), and TRIZ (Theory of Inventive Problem Solving), through the OID model, and (2) Knowledge Management (KM) and Imperfect Knowledge Management (IKM), through the OIDK model. Second, the article explores the E-GenAI business ecosystem, which integrates GenAI-based platforms for SCM, ERP, and CRM with GenAI-based platforms for BI, FL, TRIZ, KM, and IKM, to align Large Language Models (LLMs) through the E-GenAI (OID) model. Finally, to understand the dynamics of LLMs, we utilize finite automata to model the relationships between Followers and Followees. This facilitates the construction of LLMs that can identify specific characteristics of users on a social media platform. | 翻訳日:2024-09-29 00:01:07 公開日:2024-09-25 |
# 深層強化学習におけるセマンティッククラスタリングの探索
Exploring Semantic Clustering in Deep Reinforcement Learning for Video Games ( http://arxiv.org/abs/2409.17411v1 ) ライセンス: Link先を確認 | Liang Zhang, Adarsh Pyarelal, Justin Lieffers, | (参考訳) 本稿では,ゲーム用深部強化学習(DRL)のセマンティッククラスタリング特性について検討し,DRLの内部ダイナミクスの理解を深め,解釈可能性の向上を図る。
この文脈では、セマンティッククラスタリングは、セマンティックな類似性に基づいて内部的にビデオ入力をグループ化するニューラルネットワークの本質的な能力を指す。
そこで本研究では,特徴量削減とオンラインクラスタリングを兼ね備えたセマンティッククラスタリングモジュールを統合したDRLアーキテクチャを提案する。
このモジュールはDRLトレーニングパイプラインにシームレスに統合され、従来のt-SNEベースの分析手法で観察された不安定な問題に対処し、意味分析の広範囲な手動アノテーションの必要性を排除する。
実験により,ゲーム用DRLにおけるモジュールの有効性とセマンティッククラスタリング特性について検証した。
さらに,これらの特性に基づいて,政策の階層構造と特徴空間内の意味的分布を理解するための新たな分析手法を導入する。
In this paper, we investigate the semantic clustering properties of deep reinforcement learning (DRL) for video games, enriching our understanding of the internal dynamics of DRL and advancing its interpretability. In this context, semantic clustering refers to the inherent capacity of neural networks to internally group video inputs based on semantic similarity. To achieve this, we propose a novel DRL architecture that integrates a semantic clustering module featuring both feature dimensionality reduction and online clustering. This module seamlessly integrates into the DRL training pipeline, addressing instability issues observed in previous t-SNE-based analysis methods and eliminating the necessity for extensive manual annotation of semantic analysis. Through experiments, we validate the effectiveness of the proposed module and the semantic clustering properties in DRL for video games. Additionally, based on these properties, we introduce new analytical methods to help understand the hierarchical structure of policies and the semantic distribution within the feature space. | 翻訳日:2024-09-28 23:50:22 公開日:2024-09-25 |
# 認識から検出へ:フェイクニュースにおける大規模言語モデルの役割
From Deception to Detection: The Dual Roles of Large Language Models in Fake News ( http://arxiv.org/abs/2409.17416v1 ) ライセンス: Link先を確認 | Dorsaf Sallami, Yuan-Chen Chang, Esma Aïmeur, | (参考訳) フェイクニュースは、情報エコシステムと公衆信頼の整合性に重大な脅威をもたらす。
LLM(Large Language Models)の出現は、フェイクニュースとの戦いを変革する大きな可能性を秘めている。
一般的に、LLMはこの戦いにおいて両刃の剣を表現している。
1つの大きな懸念は、LLMが大規模に誤解を招く情報を作成、広めるのに容易に使えることである。
LLMは偏見のあるフェイクニュースを簡単に生成できるのか?
LLMには、この能力がありますか?
逆にLLMは、世界に関する豊富な知識と堅牢な推論能力のおかげで、偽ニュースに対抗するための貴重な可能性を提供している。
LLMを使って偽ニュースを検知できますか?
本稿では,様々なLLMの性能を探索し,これらの重要な問題に対処することを目的とする。
我々の目的は、偽ニュースと効果的に戦うための様々なLLMの能力を探究することであり、これが7つのモデルを分析する最初の調査であることを示している。
我々の結果によると、一部のモデルは安全プロトコルに厳格に準拠し、偏見や誤解を招くコンテンツを生成しないが、他のモデルは偏見の範囲で簡単に偽のニュースを生成できる。
さらに,本研究の結果から,より大きなモデルの方が検出能力に優れており,LLMが生成した偽ニュースが人体よりも検出されにくい可能性が示唆された。
最後に, 偽ニュースを識別する上で, LLMによる説明の恩恵を受けることができることを示す。
Fake news poses a significant threat to the integrity of information ecosystems and public trust. The advent of Large Language Models (LLMs) holds considerable promise for transforming the battle against fake news. Generally, LLMs represent a double-edged sword in this struggle. One major concern is that LLMs can be readily used to craft and disseminate misleading information on a large scale. This raises the pressing questions: Can LLMs easily generate biased fake news? Do all LLMs have this capability? Conversely, LLMs offer valuable prospects for countering fake news, thanks to their extensive knowledge of the world and robust reasoning capabilities. This leads to other critical inquiries: Can we use LLMs to detect fake news, and do they outperform typical detection models? In this paper, we aim to address these pivotal questions by exploring the performance of various LLMs. Our objective is to explore the capability of various LLMs in effectively combating fake news, marking this as the first investigation to analyze seven such models. Our results reveal that while some models adhere strictly to safety protocols, refusing to generate biased or misleading content, other models can readily produce fake news across a spectrum of biases. Additionally, our results show that larger models generally exhibit superior detection abilities and that LLM-generated fake news are less likely to be detected than human-written ones. Finally, our findings demonstrate that users can benefit from LLM-generated explanations in identifying fake news. | 翻訳日:2024-09-28 23:50:22 公開日:2024-09-25 |
# argument-based Sentiment Analysisによる投資オピニオンランキングの強化
Enhancing Investment Opinion Ranking through Argument-Based Sentiment Analysis ( http://arxiv.org/abs/2409.17417v1 ) ライセンス: Link先を確認 | Chung-Chi Chen, Hen-Hsen Huang, Hsin-Hsi Chen, Hiroya Takamura, Ichiro Kobayashi, Yusuke Miyao, | (参考訳) インターネットとソーシャルメディアのプラットフォーム開発が急速に進んでいる時代には、個人は簡単に自分の視点をオンラインで共有できる。
これらのポストの圧倒的な量は、包括的な分析を非現実的なものにしている。
これは、重要な、関連する意見をフィルタリングし提示する効率的なレコメンデーションシステムを必要とする。
本研究は,プロの投資家とアマチュアの投資家の両方の観点から,レコメンデーションシステムの有効性を向上させるための二元的議論マイニング手法を提案する。
最初の戦略は、物価の目標と終了の相違を評価指標として使うことです。
第2の戦略は、投資家の意見を採点するために議論的マイニングの原則を適用し、その後これらのスコアでランク付けする。
提案手法の有効性を実験的に検証し,高い利益率で意見を見極める能力を示した。
収益性以外にも、私たちの研究はリスク分析にまで拡張し、推奨された意見と投資家の行動との関係を調べています。
これは、これらの推奨された意見が採用された後の潜在的な結果の全体像を提供する。
In the era of rapid Internet and social media platform development, individuals readily share their viewpoints online. The overwhelming quantity of these posts renders comprehensive analysis impractical. This necessitates an efficient recommendation system to filter and present significant, relevant opinions. Our research introduces a dual-pronged argument mining technique to improve recommendation system effectiveness, considering both professional and amateur investor perspectives. Our first strategy involves using the discrepancy between target and closing prices as an opinion indicator. The second strategy applies argument mining principles to score investors' opinions, subsequently ranking them by these scores. Experimental results confirm the effectiveness of our approach, demonstrating its ability to identify opinions with higher profit potential. Beyond profitability, our research extends to risk analysis, examining the relationship between recommended opinions and investor behaviors. This offers a holistic view of potential outcomes following the adoption of these recommended opinions. | 翻訳日:2024-09-28 23:50:22 公開日:2024-09-25 |
# ストックムーブメント予測のための衝撃時間認識によるプレファイバリング
Pre-Finetuning with Impact Duration Awareness for Stock Movement Prediction ( http://arxiv.org/abs/2409.17419v1 ) ライセンス: Link先を確認 | Chr-Jr Chiu, Chung-Chi Chen, Hen-Hsen Huang, Hsin-Hsi Chen, | (参考訳) ニュースイベントが株式市場に与える影響を理解することは、効果的な時系列予測に不可欠であるが、現在の研究ではほとんど見落とされている。
本稿では、投資家の意見に基づいて影響期間を推定する新しいデータセットであるImpact Duration Estimation Dataset (IDED)を導入することで、この研究ギャップに対処する。
本研究は,IDEDを用いた言語モデルの構築により,テキストベースのストックムーブメント予測の性能向上が期待できることを示す。
さらに,本提案課題では,感情分析を前提としたプレファインタニングタスクを調整し,学習効果の持続時間の重要性を確認した。
本研究は,金融予測の新たな道筋として,株式移動予測におけるこの新たな研究方向の約束を強調した。
また, CC BY-NC-SA 4.0ライセンス下でのIDEDおよびプレファクチュレート言語モデルも, 学術利用のために提供し, この分野におけるさらなる探索を推進している。
Understanding the duration of news events' impact on the stock market is crucial for effective time-series forecasting, yet this facet is largely overlooked in current research. This paper addresses this research gap by introducing a novel dataset, the Impact Duration Estimation Dataset (IDED), specifically designed to estimate impact duration based on investor opinions. Our research establishes that pre-finetuning language models with IDED can enhance performance in text-based stock movement predictions. In addition, we juxtapose our proposed pre-finetuning task with sentiment analysis pre-finetuning, further affirming the significance of learning impact duration. Our findings highlight the promise of this novel research direction in stock movement prediction, offering a new avenue for financial forecasting. We also provide the IDED and pre-finetuned language models under the CC BY-NC-SA 4.0 license for academic use, fostering further exploration in this field. | 翻訳日:2024-09-28 23:50:22 公開日:2024-09-25 |
# 長期記憶を用いた太陽活動領域の発生予測
ネットワーク
Solar Active Regions Emergence Prediction Using Long Short-Term Memory Networks ( http://arxiv.org/abs/2409.17421v1 ) ライセンス: Link先を確認 | Spiridon Kasapis, Irina N. Kitiashvili, Alexander G. Kosovichev, John T. Stefan | (参考訳) 太陽表面における活動領域(AR)の形成を予測するため,Long Short-Term Memory(LSTM)モデルを開発した。
太陽ダイナミクス観測所(SDO)ヘリオサイスミック・磁気画像装置(HMI)のドップラーシフト速度、連続体強度、および磁場観測を用いて、音響パワーと磁束の時系列データセットを作成し、連続体強度を12時間前に予測するLSTMモデルのトレーニングに使用した。
これらの機械学習(ML)モデルは、来るべき磁束の出現と連続体強度の減少に伴う音響パワー密度の変動を捉えることができる。
モデルの性能のテストは5つのARのデータ上で行われ、トレーニング中にモデルから見えなかった。
訓練された最高の性能モデルであるモデル8は、実験環境でのすべてのテスト活動領域の出現を予測し、そのうち3つは運用環境での出現を予測できた。
このモデルでは、AR11726、AR13165、AR13179の出現を事前に10、29、および5時間予測し、このモデルの平均RMSE値は、太陽円盤上の活動領域と静地の両方で0.11となった。
この研究は、MLによるソーラーARの予測の基礎を定めている。
We developed Long Short-Term Memory (LSTM) models to predict the formation of active regions (ARs) on the solar surface. Using the Doppler shift velocity, the continuum intensity, and the magnetic field observations from the Solar Dynamics Observatory (SDO) Helioseismic and Magnetic Imager (HMI), we have created time-series datasets of acoustic power and magnetic flux, which are used to train LSTM models on predicting continuum intensity, 12 hours in advance. These novel machine learning (ML) models are able to capture variations of the acoustic power density associated with upcoming magnetic flux emergence and continuum intensity decrease. Testing of the models' performance was done on data for 5 ARs, unseen from the models during training. Model 8, the best performing model trained, was able to make a successful prediction of emergence for all testing active regions in an experimental setting and three of them in an operational. The model predicted the emergence of AR11726, AR13165, and AR13179 respectively 10, 29, and 5 hours in advance, and variations of this model achieved average RMSE values of 0.11 for both active and quiet areas on the solar disc. This work sets the foundations for ML-aided prediction of solar ARs. | 翻訳日:2024-09-28 23:50:22 公開日:2024-09-25 |
# アーリーレイヤにおけるGemの発見 - 長期 LLM の高速化
1000倍の入力トークン削減
Discovering the Gems in Early Layers: Accelerating Long-Context LLMs with 1000x Input Token Reduction ( http://arxiv.org/abs/2409.17422v1 ) ライセンス: Link先を確認 | Zhenmei Shi, Yifei Ming, Xuan-Phi Nguyen, Yingyu Liang, Shafiq Joty | (参考訳) 大きな言語モデル(LLM)は、長いコンテキスト入力を扱う際、顕著な能力を示してきたが、これは計算リソースとレイテンシの増大によるものである。
本研究では,LLM推論を高速化し,GPUメモリ使用量を削減するために,長期的ボトルネックに対する新たなアプローチを提案する。
我々の研究は、LLMがクエリに対する応答を生成する前に、初期のレイヤで関連するトークンを識別できることを実証している。
この知見を生かして,LLMの初期層をフィルタとして入力トークンを選択・圧縮するアルゴリズムを提案する。
GemFilterは,従来の技術である標準アテンションやSnapKV/H2Oに比べて,速度とメモリ効率が大幅に向上したことを示す。
特に、SOTA法と比較して、2.4$\times$スピードアップと30\%のGPUメモリ使用量削減を実現している。
HaystackタスクにおけるNeedleの評価は、GemFilterが標準的注意力であるSnapKVを大幅に上回り、LongBenchチャレンジで同等のパフォーマンスを示していることを示している。
GemFilterはシンプルで、トレーニング不要で、様々なLLMで広く適用できます。
重要なのは、人間が選択した入力シーケンスを検査できるようにすることで、解釈性を提供する。
これらの知見は, LLMの展開に実用的なメリットを提供するだけでなく, LLMの内部機構の理解を深め, LLM設計と推論におけるさらなる最適化の道を開いた。
私たちのコードは \url{https://github.com/SalesforceAIResearch/GemFilter} で利用可能です。
Large Language Models (LLMs) have demonstrated remarkable capabilities in handling long context inputs, but this comes at the cost of increased computational resources and latency. Our research introduces a novel approach for the long context bottleneck to accelerate LLM inference and reduce GPU memory consumption. Our research demonstrates that LLMs can identify relevant tokens in the early layers before generating answers to a query. Leveraging this insight, we propose an algorithm that uses early layers of an LLM as filters to select and compress input tokens, significantly reducing the context length for subsequent processing. Our method, GemFilter, demonstrates substantial improvements in both speed and memory efficiency compared to existing techniques, such as standard attention and SnapKV/H2O. Notably, it achieves a 2.4$\times$ speedup and 30\% reduction in GPU memory usage compared to SOTA methods. Evaluation on the Needle in a Haystack task shows that GemFilter significantly outperforms standard attention, SnapKV and demonstrates comparable performance on the LongBench challenge. GemFilter is simple, training-free, and broadly applicable across different LLMs. Crucially, it provides interpretability by allowing humans to inspect the selected input sequence. These findings not only offer practical benefits for LLM deployment, but also enhance our understanding of LLM internal mechanisms, paving the way for further optimizations in LLM design and inference. Our code is available at \url{https://github.com/SalesforceAIResearch/GemFilter}. | 翻訳日:2024-09-28 23:50:22 公開日:2024-09-25 |
# 一般二部相互作用自律系の量子熱力学
Quantum thermodynamics for general bipartite interacting autonomous systems ( http://arxiv.org/abs/2409.17423v1 ) ライセンス: Link先を確認 | Fabricio Toscano, Diego A. Wisniacki, | (参考訳) 個々のサブシステムの内部エネルギーは相互作用する量子系では十分に定義されておらず、熱力学量の定義における曖昧さをもたらす。
シュミット基底形式を一般二部量子系に適用することにより、サブシステム進化を記述するマスター方程式が最小散逸の原理に従うことを実証する。
これにより、各サブシステムの内部エネルギーを一貫した方法で定義することができる。
さらに、オープン量子系の一般的な側面を利用することで、このマスター方程式が一意であることを示す。
この形式から導かれる各サブシステムの熱と働きを分析し、相互作用する量子系の熱力学に関する深い洞察を提供する。
The internal energy of individual subsystems is not well defined in interacting quantum systems, leading to ambiguities in the definition of thermodynamic quantities. Applying the Schmidt basis formalism to general bipartite autonomous quantum systems, we demonstrate that the master equation describing subsystem evolution adheres to the principle of minimal dissipation. This enables to define internal energy of each subsystem in a consistent way. Moreover, by utilizing general aspects of open quantum systems, we show that this master equation is unique. We analyze heat and work for each subsystem as derived from this formalism, providing deeper insights into the thermodynamics of interacting quantum systems. | 翻訳日:2024-09-28 23:50:22 公開日:2024-09-25 |
# Big ANNの結果:NeurIPS'23コンペティション
Results of the Big ANN: NeurIPS'23 competition ( http://arxiv.org/abs/2409.17424v1 ) ライセンス: Link先を確認 | Harsha Vardhan Simhadri, Martin Aum\"uller, Amir Ingber, Matthijs Douze, George Williams, Magdalen Dobson Manohar, Dmitry Baranchuk, Edo Liberty, Frank Liu, Ben Landrum, Mazin Karjikar, Laxman Dhulipala, Meng Chen, Yue Chen, Rui Ma, Kai Zhang, Yuzheng Cai, Jiayang Shi, Yizhuo Chen, Weiguo Zheng, Zihao Wan, Jie Yin and Ben Huang | (参考訳) NeurIPS 2023で開かれた2023 Big ANN Challengeは、ワークロードの複雑さと多様性の増大を反映した、Approximate Nearest Neighbor(ANN)検索の実用的な変種に対する、データ構造と検索アルゴリズムのインデックス化における最先端の進歩に焦点を当てたものだ。
従来のANN検索のスケールアップに重点を置いた従来の課題とは違って、このコンペティションではフィルタリング検索、アウト・オブ・ディストリビューションデータ、スパース、ストリーミングの亜種が対処された。
参加者は制約された計算資源を持つ新しい標準データセット上で評価された革新的なソリューションを開発し、提出した。
その結果、業界標準ベースラインよりも検索精度と効率が大幅に向上し、学術チームと産業チームの両方から顕著な貢献が得られた。
本稿では, 競合の軌跡, データセット, 評価指標, および, 提案手法の革新的アプローチを概説し, 近接探索分野における現在の進歩と今後の方向性について考察する。
The 2023 Big ANN Challenge, held at NeurIPS 2023, focused on advancing the state-of-the-art in indexing data structures and search algorithms for practical variants of Approximate Nearest Neighbor (ANN) search that reflect the growing complexity and diversity of workloads. Unlike prior challenges that emphasized scaling up classical ANN search ~\cite{DBLP:conf/nips/SimhadriWADBBCH21}, this competition addressed filtered search, out-of-distribution data, sparse and streaming variants of ANNS. Participants developed and submitted innovative solutions that were evaluated on new standard datasets with constrained computational resources. The results showcased significant improvements in search accuracy and efficiency over industry-standard baselines, with notable contributions from both academic and industrial teams. This paper summarizes the competition tracks, datasets, evaluation metrics, and the innovative approaches of the top-performing submissions, providing insights into the current advancements and future directions in the field of approximate nearest neighbor search. | 翻訳日:2024-09-28 23:50:22 公開日:2024-09-25 |
# ウェブサイト訪問は機械学習を使ってアングルの存在を予測する
Website visits can predict angler presence using machine learning ( http://arxiv.org/abs/2409.17425v1 ) ライセンス: Link先を確認 | Julia S. Schmid, Sean Simmons, Mark A. Lewis, Mark S. Poesch, Pouria Ramazi, | (参考訳) 持続可能な漁業経営にはレクリエーション漁業活動の理解と予測が重要である。
しかし、調査などの従来の漁獲圧測定手法は、時間と空間の両方で費用がかかり、制限される可能性がある。
漁業活動と環境または経済要因を関連付ける予測モデルは、典型的には歴史的データに依存し、データ不足による空間的適用性を制限する。
本研究では,カナダのオンタリオ州で5年間に約200の湖沼で,オンラインプラットフォームから高解像度のアングル生成データと容易にアクセス可能な補助データを用いて,毎日のボートの存在と航空機数を予測する実験を行った。
湖のインフォメーションサイトだけで、毎日のアングルボートの存在を78%の精度で予測できるようになった。
さらに, 環境, 社会生態, 気象, アンカー生成などの特徴を機械学習モデルに組み込むことは, ボートの存在予測性能を著しく向上させるには至らなかったが, ボート数予測には有効であった。
モデルは、モデル訓練に含まれる既知の湖で最大0.77のR2を達成したが、未知の湖(R2 = 0.21)では不十分であった。
その結果、オンラインプラットフォームから生成したデータを予測モデルに統合することの価値を示し、漁業管理を強化する機械学習モデルの可能性を強調した。
Understanding and predicting recreational fishing activity is important for sustainable fisheries management. However, traditional methods of measuring fishing pressure, such as surveys, can be costly and limited in both time and spatial extent. Predictive models that relate fishing activity to environmental or economic factors typically rely on historical data, which often restricts their spatial applicability due to data scarcity. In this study, high-resolution angler-generated data from an online platform and easily accessible auxiliary data were tested to predict daily boat presence and aerial counts of boats at almost 200 lakes over five years in Ontario, Canada. Lake-information website visits alone enabled predicting daily angler boat presence with 78% accuracy. While incorporating additional environmental, socio-ecological, weather and angler-generated features into machine learning models did not remarkably improve prediction performance of boat presence, they were substantial for the prediction of boat counts. Models achieved an R2 of up to 0.77 at known lakes included in the model training, but they performed poorly for unknown lakes (R2 = 0.21). The results demonstrate the value of integrating angler-generated data from online platforms into predictive models and highlight the potential of machine learning models to enhance fisheries management. | 翻訳日:2024-09-28 23:50:22 公開日:2024-09-25 |
# システム文献レビューにおけるChatGPTの利用を探る:デザインベース研究
Exploring the Use of ChatGPT for a Systematic Literature Review: a Design-Based Research ( http://arxiv.org/abs/2409.17426v1 ) ライセンス: Link先を確認 | Qian Huang, Qiyun Wang, | (参考訳) ChatGPTは、学習、教育、研究など、いくつかの教育的文脈で使用されている。
また、体系的文献レビュー(SLR)を行う可能性もある。
しかしながら、SLRの実行にChatGPTを使用する方法に関する実験的な研究は限られている。
この研究では、ChatGPTを使用して、同じ33論文のSLRを設計ベースのアプローチで実行し、レビューの結果を比較して、どのような違いがあるのかを確認します。
人間の研究者は、SLRの信頼性と妥当性を高めるChatGPTの構造的プロンプトにどのような戦略を利用できるか?
この研究により、ChatGPTはSLRを実行できることがわかった。
文学を分析するには、詳細な、正確なプロンプトが必要です。
制限もある。
ガイド原理は、ChatGPTを用いてSLRを実行する必要がある研究者のために、本研究から要約される。
ChatGPT has been used in several educational contexts,including learning, teaching and research. It also has potential to conduct the systematic literature review (SLR). However, there are limited empirical studies on how to use ChatGPT in conducting a SLR. Based on a SLR published,this study used ChatGPT to conduct a SLR of the same 33 papers in a design-based approach, to see what the differences are by comparing the reviews' results,and to answer: To what extent can ChatGPT conduct SLR? What strategies can human researchers utilize to structure prompts for ChatGPT that enhance the reliability and validity of a SLR? This study found that ChatGPT could conduct a SLR. It needs detailed and accurate prompts to analyze the literature. It also has limitations. Guiding principles are summarized from this study for researchers to follow when they need to conduct SLRs using ChatGPT. | 翻訳日:2024-09-28 23:50:22 公開日:2024-09-25 |
# バーチャルリアリティ環境におけるフォトプレソグラフィーからの応力検出
Stress Detection from Photoplethysmography in a Virtual Reality Environment ( http://arxiv.org/abs/2409.17427v1 ) ライセンス: Link先を確認 | Athar Mahmoudi-Nejad, Pierre Boulanger, Matthew Guzdial, | (参考訳) パーソナライズド・バーチャル・リアリティー・エクスポーティング・セラピー(Personalized VR exposure therapy)は、個々の患者に適応し、より良い健康結果をもたらす治療実践である。
患者の精神状態を測定して治療を調整することは、非常に難しいが難しい課題である。
ほとんどの論文では、不正確な患者の精神状態を推定するために主観的手法を用いている。
本稿では,光胸腺造影(PPG)などの非侵襲的かつ広く利用可能な生理的信号を用いて患者の精神状態を評価できるVRET(Virtual Reality exposure therapy)プラットフォームを提案する。
ケーススタディでは,平和状態とストレス状態の2つのバイナリ分類をPSG信号を用いて検出する方法について検討した。
16名の健康な被験者が2つのVR環境に曝露された。
LOSOクロスバリデーションを用いて、我々の最良の分類モデルは、2つの状態を70.6%の精度で予測することができ、より複雑なアプローチよりも優れている。
Personalized virtual reality exposure therapy is a therapeutic practice that can adapt to an individual patient, leading to better health outcomes. Measuring a patient's mental state to adjust the therapy is a critical but difficult task. Most published studies use subjective methods to estimate a patient's mental state, which can be inaccurate. This article proposes a virtual reality exposure therapy (VRET) platform capable of assessing a patient's mental state using non-intrusive and widely available physiological signals such as photoplethysmography (PPG). In a case study, we evaluate how PPG signals can be used to detect two binary classifications: peaceful and stressful states. Sixteen healthy subjects were exposed to the two VR environments (relaxed and stressful). Using LOSO cross-validation, our best classification model could predict the two states with a 70.6% accuracy which outperforms many more complex approaches. | 翻訳日:2024-09-28 23:50:22 公開日:2024-09-25 |
# 重力レニーエントロピーのリアルタイム計算によるユークリッドおよび複素幾何学
Euclidean and complex geometries from real-time computations of gravitational Rényi entropies ( http://arxiv.org/abs/2409.17428v1 ) ライセンス: Link先を確認 | Jesse Held, Xiaoyi Liu, Donald Marolf, Zhencheng Wang, | (参考訳) 重力R'enyi計算は伝統的にユークリッド経路積分の言語で記述されてきた。
半古典的極限において、そのような計算はユークリッド(またはより一般的には複素)サドル点幾何学によって支配される。
ここでは、少なくとも単純な文脈では、ユークリッドのアプローチはバルク量子波動関数の観点から別の定式化を提案する。
この交互定式化は実時間量子理論に直接適用できるため、ユークリッド経路積分の定義に関わる微妙さには敏感である。
特に、多くの異なる統合パターンの選択と整合性がある。
関連する実時間量子論における自己随伴作用素が真の固有値を持つという事実にもかかわらず、バルク波動関数は任意のユークリッド経路積分で生じるであろうユークリッド(あるいは複素)R\'enyi測度を符号化する。
その結果、任意の量子状態に対して、適切な実時間経路積分は、ユークリッド法に一致するR'enyiエントロピーと関連する複素サドル点幾何学の両方をもたらす。
これらの一般点の簡単な説明の後、JT重力を用いて関連するリアルタイム計算を詳細に説明する。
Gravitational R\'enyi computations have traditionally been described in the language of Euclidean path integrals. In the semiclassical limit, such calculations are governed by Euclidean (or, more generally, complex) saddle-point geometries. We emphasize here that, at least in simple contexts, the Euclidean approach suggests an alternative formulation in terms of the bulk quantum wavefunction. Since this alternate formulation can be directly applied to the real-time quantum theory, it is insensitive to subtleties involved in defining the Euclidean path integral. In particular, it can be consistent with many different choices of integration contour. Despite the fact that self-adjoint operators in the associated real-time quantum theory have real eigenvalues, we note that the bulk wavefunction encodes the Euclidean (or complex) R\'enyi geometries that would arise in any Euclidean path integral. As a result, for any given quantum state, the appropriate real-time path integral yields both R\'enyi entropies and associated complex saddle-point geometries that agree with Euclidean methods. After brief explanations of these general points, we use JT gravity to illustrate the associated real-time computations in detail. | 翻訳日:2024-09-28 23:50:22 公開日:2024-09-25 |
# アコモディエイト・ティーへの直接選好最適化の拡充について
On Extending Direct Preference Optimization to Accommodate Ties ( http://arxiv.org/abs/2409.17431v1 ) ライセンス: Link先を確認 | Jinghong Chen, Guangyu Yang, Weizhe Lin, Jingbiao Mei, Bill Byrne, | (参考訳) 2つのDPO変種を導出し、ペア比較でネクタイを宣言する可能性を明確にモデル化する。
DPO のBradley-Terry モデルを、Rao と Kupper と Davidson の2つのよく知られたモデリング拡張に置き換える。
ニューラルネットワークの翻訳および要約実験により、DPOに同一の連結ペアが提示されたときに観測されるタスク性能の劣化を伴わずに、これらのDPO変種に対するデータセットに明示的にラベル付き結合を付加できることが示されている。
我々は、結合の包含が、KLの発散によって測定される基準ポリシーに関してより強い正則化をもたらすことを実証的に見出した。
これらの知見は, 単に廃棄するのではなく, 優先最適化に連結ペアを組み込むことを動機付け, 可能とした。
We derive and investigate two DPO variants that explicitly model the possibility of declaring a tie in pair-wise comparisons. We replace the Bradley-Terry model in DPO with two well-known modeling extensions, by Rao and Kupper and by Davidson, that assign probability to ties as alternatives to clear preferences. Our experiments in neural machine translation and summarization show that explicitly labeled ties can be added to the datasets for these DPO variants without the degradation in task performance that is observed when the same tied pairs are presented to DPO. We find empirically that the inclusion of ties leads to stronger regularization with respect to the reference policy as measured by KL divergence, and we see this even for DPO in its original form. These findings motivate and enable the inclusion of tied pairs in preference optimization as opposed to simply discarding them. | 翻訳日:2024-09-28 23:50:22 公開日:2024-09-25 |
# HazeSpace2M: 単一イメージのデハージングをヘイズするデータセット
HazeSpace2M: A Dataset for Haze Aware Single Image Dehazing ( http://arxiv.org/abs/2409.17432v1 ) ライセンス: Link先を確認 | Md Tanvir Islam, Nasir Rahim, Saeed Anwar, Muhammad Saqib, Sambit Bakshi, Khan Muhammad, | (参考訳) コンピュータビジョンの応用においては、大気の迷路を減らし、画像の透明度を高めることが不可欠である。
実生活におけるハズーグラウンドの真理画像の欠如は、しばしば多様なハズー型を欠いている合成データセットを必要とし、効果的なハズー型分類とデハズーアルゴリズムの選択を妨げる。
本研究では HazeSpace2M データセットを紹介した。これは Haze 型分類によるデハージングを強化するために設計された 200 万以上の画像の集合である。
HazeSpace2Mには、Fog、Cloud、Environmental Haze(EH)を特徴とする、10のヘイズ強度レベルを持つ多様なシーンが含まれている。
このデータセットを用いて, ヘイズ型分類手法を導入し, 特殊デハザーを用いてヘイズ画像の鮮明化を行う。
従来の手法とは違って,本手法では,型別脱ヘイズを適用前にヘイズタイプを分類し,実生活におけるヘイズ画像の明瞭度を向上する。
最先端(SOTA)モデルによるベンチマークでは、ResNet50とAlexNetはそれぞれ92.75\%と92.50\%の精度を既存の合成データセットに対して達成している。
しかし、これらのモデルは、私たちのReal Hazy Testset(RHT)に対してそれぞれ80%と70%の精度しか達成していません。
さらなる実験により、ヘイズ型の分類と特別な脱ヘイズが続くと、PSNRの2.41%、SSIMの17.14%、一般的な脱ヘイザーの10.2\%が結果を改善することが示されている。
さらに,SOTAデハージングモデルを用いたテストでは,提案フレームワークの適用により性能が大幅に向上することが判明した。
これらの結果は,マルチメディア処理におけるHazeSpace2Mと提案フレームワークの重要性を裏付けるものである。
完全なコードとデータセットは \href{https://github.com/tanvirnwu/HazeSpace2M} {\textcolor{blue}{\textbf{GitHub}}} で入手できる。
Reducing the atmospheric haze and enhancing image clarity is crucial for computer vision applications. The lack of real-life hazy ground truth images necessitates synthetic datasets, which often lack diverse haze types, impeding effective haze type classification and dehazing algorithm selection. This research introduces the HazeSpace2M dataset, a collection of over 2 million images designed to enhance dehazing through haze type classification. HazeSpace2M includes diverse scenes with 10 haze intensity levels, featuring Fog, Cloud, and Environmental Haze (EH). Using the dataset, we introduce a technique of haze type classification followed by specialized dehazers to clear hazy images. Unlike conventional methods, our approach classifies haze types before applying type-specific dehazing, improving clarity in real-life hazy images. Benchmarking with state-of-the-art (SOTA) models, ResNet50 and AlexNet achieve 92.75\% and 92.50\% accuracy, respectively, against existing synthetic datasets. However, these models achieve only 80% and 70% accuracy, respectively, against our Real Hazy Testset (RHT), highlighting the challenging nature of our HazeSpace2M dataset. Additional experiments show that haze type classification followed by specialized dehazing improves results by 2.41% in PSNR, 17.14% in SSIM, and 10.2\% in MSE over general dehazers. Moreover, when testing with SOTA dehazing models, we found that applying our proposed framework significantly improves their performance. These results underscore the significance of HazeSpace2M and our proposed framework in addressing atmospheric haze in multimedia processing. Complete code and dataset is available on \href{https://github.com/tanvirnwu/HazeSpace2M} {\textcolor{blue}{\textbf{GitHub}}}. | 翻訳日:2024-09-28 23:50:22 公開日:2024-09-25 |
# HDFlow: ハイブリッド思考と動的ワークフローによるLLM複雑な問題解決
HDFlow: Enhancing LLM Complex Problem-Solving with Hybrid Thinking and Dynamic Workflows ( http://arxiv.org/abs/2409.17433v1 ) ライセンス: Link先を確認 | Wenlin Yao, Haitao Mi, Dong Yu, | (参考訳) 近年の大規模言語モデル(LLM)の進歩にもかかわらず、多段階思考と様々なスキルの組み合わせを必要とする複雑な推論問題の性能は依然として限られている。
そこで本研究では,高速かつ低速な思考モードを適応的に組み合わせたLLMを用いた複雑な推論のための新しいフレームワークHDFlowを提案する。
私たちのアプローチは2つの重要なコンポーネントで構成されています。
複雑な問題をより管理可能なサブタスクに自動的に分解し、特別なLCMやシンボリック推論ツールを組み立ててサブタスクを解決するワークフローを動的に設計する。
2) ハイブリット・シンキング(Hybrid Thinking)は、問題複雑性に基づいた、高速で遅い思考を動的に結合する一般的なフレームワークである。
最後に、複雑な推論のための推論問題に挑戦する27Kの大規模データセットの自動合成方法と、このデータセット上でより小さなLCMを訓練し、高速かつスローなハイブリッド推論戦略を内在化するハイブリッド思考チューニング手法を提案する。
4つの推論ベンチマークデータセットの実験により、動的ワークフローによる遅い思考がChain-of-Thoughtを著しく上回り、ハイブリッド思考は計算効率と性能の効果的なバランスを保ちながら、最も高い精度を達成することが示された。
ハイブリッド思考アプローチによる微調整も、オープンソース言語モデルの複雑な推論能力を著しく向上させます。
LLMs\footnote{Code and data will release at \url{https://github.com/wenlinyao/HDFlow}。
と。
Despite recent advancements in large language models (LLMs), their performance on complex reasoning problems requiring multi-step thinking and combining various skills is still limited. To address this, we propose a novel framework HDFlow for complex reasoning with LLMs that combines fast and slow thinking modes in an adaptive manner. Our approach consists of two key components: 1) a new approach for slow, deliberate reasoning called Dynamic Workflow, which automatically decomposes complex problems into more manageable sub-tasks and dynamically designs a workflow to assemble specialized LLM or symbolic reasoning tools to solve sub-tasks; 2) Hybrid Thinking, a general framework that dynamically combines fast and slow thinking based on problem complexity. Finally, we propose an easy-to-scale method for automatically synthesizing a large-scale dataset of 27K challenging reasoning problems for complex reasoning and a hybrid thinking tuning method that trains smaller LLMs on this dataset to internalize the fast/slow hybrid reasoning strategies. Experiments on four reasoning benchmark datasets demonstrate that our slow thinking with dynamic workflows significantly outperforms Chain-of-Thought, and hybrid thinking achieves the highest accuracy while providing an effective balance between computational efficiency and performance. Fine-tuning using our hybrid thinking approach also significantly boosts the complex reasoning capabilities of open-source language models. The results showcase the promise of slow thinking, dynamic workflows, and hybrid thinking in expanding the frontier of complex problem-solving with LLMs\footnote{Code and data will be released at \url{https://github.com/wenlinyao/HDFlow}.}. | 翻訳日:2024-09-28 23:50:22 公開日:2024-09-25 |
# 公共セクターソフトウェア開発におけるGen-AI符号化アシスタントの可能性
Harnessing the Potential of Gen-AI Coding Assistants in Public Sector Software Development ( http://arxiv.org/abs/2409.17434v1 ) ライセンス: Link先を確認 | Kevin KB Ng, Liyana Fauzi, Leon Leow, Jaren Ng, | (参考訳) GovTech SingaporeのEngineering Productivity Programme (EPP)によるGitHub Copilotの研究は、AI Code Assistantツールが開発者の生産性を高め、公共部門におけるアプリケーション品質を向上させる大きな可能性を明らかにしている。
公共セクターの実質的なメリットを高く評価した結果、生産性(コーディング/タスクのスピードが21~28%向上)が向上し、開発が加速し、市場への進出が早くなり、ツールが開発者の満足度を高めるという顕著なコンセンサス(95%)が得られた。
特に、ジュニア開発者はかなりの効率向上とコーディング時間の短縮を経験し、ルーチンタスクを緩和することで仕事の満足度を高めるCopilotの能力を示した。
この進歩により、複雑なプロジェクトに注力し、より速く学習し、コード品質を向上させることができる。
この研究は、これらのツールの戦略的重要性を認識し、AIフレームワークの開発を推奨している。
また、GitHub Copilotのようなクラウド上でGen-AI Coding Assistantツールを使用するための"オープン"として、機密コードのためにCodeiumやCode Llamaのような自己ホスト型のツールを使って、パブリックセクタフレームワーク内でテクノロジを効率的に活用するよう、パブリックセクタ開発者にアドバイスしている。
最大8000人の開発者が参加し、公務員とベンダーの両方がパブリックセクターとその顧客向けのアプリケーションを開発しているため、生産性を高める大きな可能性がある。
The study on GitHub Copilot by GovTech Singapore's Engineering Productivity Programme (EPP) reveals significant potential for AI Code Assistant tools to boost developer productivity and improve application quality in the public sector. Highlighting the substantial benefits for the public sector, the study observed an increased productivity (coding / tasks speed increased by 21-28%), which translates into accelerated development, and quicker go-to-market, with a notable consensus (95%) that the tool increases developer satisfaction. Particularly, junior developers experienced considerable efficiency gains and reduced coding times, illustrating Copilot's capability to enhance job satisfaction by easing routine tasks. This advancement allows for a sharper focus on complex projects, faster learning, and improved code quality. Recognising the strategic importance of these tools, the study recommends the development of an AI Framework to maximise such benefits while cautioning against potential over-reliance without solid foundational programming skills. It also advises public sector developers to classify their code as "Open" to use Gen-AI Coding Assistant tools on the Cloud like GitHub Copilot and to consider self-hosted tools like Codeium or Code Llama for confidential code to leverage technology efficiently within the public sector framework. With up to 8,000 developers, comprising both public officers and vendors developing applications for the public sector and its customers, there is significant potential to enhance productivity. | 翻訳日:2024-09-28 23:40:01 公開日:2024-09-25 |
# オープンWeb研究エージェントのリアルタイム長期ベンチマークに向けて
Towards a Realistic Long-Term Benchmark for Open-Web Research Agents ( http://arxiv.org/abs/2409.14913v2 ) ライセンス: Link先を確認 | Peter Mühlbacher, Nikos I. Bosse, Lawrence Phillips, | (参考訳) 経済価値の白カラータスクに対するLCMエージェント評価のためのベンチマークを近く実施する。
ファイナンスやコンサルティングにおいて日常的に行われている,実世界のオープンウェブ研究課題に対するエージェントの評価を行った。
そこで我々は,LLMエージェント評価スイートの基盤を築き,優れた性能が経済的・社会的影響に直接対応するようにした。
我々は、o1-preview、GPT-4o、Claude-3.5 Sonnet、Llama 3.1 (405b)、GPT-4o-miniといったエージェントアーキテクチャを構築し、テストした。
平均して、Claude-3.5 Sonnetとo1-previewを動力とするLLM剤は、Llama 3.1 (405b) と GPT-4o-mini を基材とした GPT-4o 剤で大幅に性能が向上した。
LLM全体では、サブタスクをサブエージェントに委譲する機能を備えたReActアーキテクチャが最もよく機能した。
定量的評価に加えて, LLM エージェントの性能を定量的に評価し, その痕跡を検査し, 観察結果に反映した。
我々の評価は、実際のオープンウェブ上で、挑戦的で経済的に価値のあるアナリストスタイルの研究を行うエージェントの能力の詳細な評価である。
We present initial results of a forthcoming benchmark for evaluating LLM agents on white-collar tasks of economic value. We evaluate agents on real-world "messy" open-web research tasks of the type that are routine in finance and consulting. In doing so, we lay the groundwork for an LLM agent evaluation suite where good performance directly corresponds to a large economic and societal impact. We built and tested several agent architectures with o1-preview, GPT-4o, Claude-3.5 Sonnet, Llama 3.1 (405b), and GPT-4o-mini. On average, LLM agents powered by Claude-3.5 Sonnet and o1-preview substantially outperformed agents using GPT-4o, with agents based on Llama 3.1 (405b) and GPT-4o-mini lagging noticeably behind. Across LLMs, a ReAct architecture with the ability to delegate subtasks to subagents performed best. In addition to quantitative evaluations, we qualitatively assessed the performance of the LLM agents by inspecting their traces and reflecting on their observations. Our evaluation represents the first in-depth assessment of agents' abilities to conduct challenging, economically valuable analyst-style research on the real open web. | 翻訳日:2024-09-27 21:27:33 公開日:2024-09-25 |
# 異常なフェイク画像の検出におけるログ正規変異とその利用
Log-normal Mutations and their Use in Detecting Surreptitious Fake Images ( http://arxiv.org/abs/2409.15119v2 ) ライセンス: Link先を確認 | Ismail Labiad, Thomas Bäck, Pierre Fernandez, Laurent Najman, Tom Sander, Furong Ye, Mariia Zameshina, Olivier Teytaud, | (参考訳) 多くの場合、敵対的攻撃は、自動画像分類器の攻撃に特化した特別なアルゴリズムに基づいている。
これらのアルゴリズムは、初期攻撃のアドホックな分布のおかげで、うまく機能する。
しかし、これらの攻撃は特定の初期分布のために容易に検出される。
そこで我々は、一般的なブラックボックス最適化ツール、特にログ正規化アルゴリズムに触発された他のブラックボックス攻撃について検討する。
ここでは, 対数正規法を偽検知器の攻撃に適用し, 攻撃を成功させる。
そして、これらの攻撃と深度検出を組み合わせることで、改良された偽検出装置を作成する。
In many cases, adversarial attacks are based on specialized algorithms specifically dedicated to attacking automatic image classifiers. These algorithms perform well, thanks to an excellent ad hoc distribution of initial attacks. However, these attacks are easily detected due to their specific initial distribution. We therefore consider other black-box attacks, inspired from generic black-box optimization tools, and in particular the log-normal algorithm. We apply the log-normal method to the attack of fake detectors, and get successful attacks: importantly, these attacks are not detected by detectors specialized on classical adversarial attacks. Then, combining these attacks and deep detection, we create improved fake detectors. | 翻訳日:2024-09-27 21:27:33 公開日:2024-09-25 |
# CoHERENT:大規模言語モデルを用いた異種多ロボットシステムの協調
COHERENT: Collaboration of Heterogeneous Multi-Robot System with Large Language Models ( http://arxiv.org/abs/2409.15146v2 ) ライセンス: Link先を確認 | Kehui Liu, Zixin Tang, Dong Wang, Zhigang Wang, Bin Zhao, Xuelong Li, | (参考訳) 大規模言語モデル(LLM)の強力な推論機能を活用することで、最近のLLMベースのロボットタスク計画手法が有望な結果をもたらす。
しかし、それらは主に単純なタスクで単一または複数の同質なロボットに焦点を当てている。
実際には、複雑なロングホライゾンタスクは、特により複雑なアクション空間を持つ複数の異種ロボット間のコラボレーションを必要とするため、これらのタスクはより困難である。
この目的のために、我々は、四脚ロボット、ロボット犬、ロボットアームを含む異種多ロボットシステムの協調のための新しいLCMベースのタスク計画フレームワークであるCOHERENTを提案する。
具体的には,提案-実行-フィードバック-調整(PEFA)機構は,個別のロボットに対して,複雑なタスクをサブタスクに分解するタスク計画の提案を行い,そのサブタスクをロボット実行者に割り当てる。
各ロボット実行者は、割り当てられたサブタスクを実装するための実行可能なアクションを選択し、計画調整のためにタスク割り当て者に自己回帰フィードバックを報告する。
PEFAはタスクが完了するまでループする。
さらに,100の複雑な長距離タスクを含む異種マルチロボットタスク計画ベンチマークを作成する。
実験の結果,我々の研究は,成功率と実行効率の面で,従来の手法をはるかに上回っていることが明らかとなった。
実験ビデオ、コード、ベンチマークはhttps://github.com/MrKeee/COHERENT.comで公開されている。
Leveraging the powerful reasoning capabilities of large language models (LLMs), recent LLM-based robot task planning methods yield promising results. However, they mainly focus on single or multiple homogeneous robots on simple tasks. Practically, complex long-horizon tasks always require collaborations among multiple heterogeneous robots especially with more complex action spaces, which makes these tasks more challenging. To this end, we propose COHERENT, a novel LLM-based task planning framework for collaboration of heterogeneous multi-robot systems including quadrotors, robotic dogs, and robotic arms. Specifically, a Proposal-Execution-Feedback-Adjustment (PEFA) mechanism is designed to decompose and assign actions for individual robots, where a centralized task assigner makes a task planning proposal to decompose the complex task into subtasks, and then assigns subtasks to robot executors. Each robot executor selects a feasible action to implement the assigned subtask and reports self-reflection feedback to the task assigner for plan adjustment. The PEFA loops until the task is completed. Moreover, we create a challenging heterogeneous multi-robot task planning benchmark encompassing 100 complex long-horizon tasks. The experimental results show that our work surpasses the previous methods by a large margin in terms of success rate and execution efficiency. The experimental videos, code, and benchmark are released at https://github.com/MrKeee/COHERENT. | 翻訳日:2024-09-27 21:27:33 公開日:2024-09-25 |
# ゴールに基づくニューラル物理車両軌道予測モデル
Goal-based Neural Physics Vehicle Trajectory Prediction Model ( http://arxiv.org/abs/2409.15182v2 ) ライセンス: Link先を確認 | Rui Gan, Haotian Shi, Pei Li, Keshu Wu, Bocheng An, Linheng Li, Junyi Ma, Chengyuan Ma, Bin Ran, | (参考訳) 車両軌道予測は、車両の行動計画と制御に大きな影響を及ぼし、交通の安全と効率に影響を与えるため、インテリジェントな交通システムと自動運転において重要な役割を果たす。
短期的な車両軌道の予測には, 近い将来に多くの研究がなされている。
しかし, 長期軌道予測は, 累積誤差や不確実性のため, 依然として大きな課題である。
さらに、予測における解釈可能性による精度のバランスは、車両軌道の予測における別の難しい問題である。
これらの課題に対処するために、ゴールに基づくニューラル物理車両軌道予測モデル(GNP)を提案する。
GNPモデルは、車両の軌道予測を2段階のプロセスに単純化する。
GNPモデルは、このプロセスを達成するために2つの部分加群を含む。
最初のサブモジュールは、目標を正確に予測するためにマルチヘッドアテンションメカニズムを使用する。
第2のサブモジュールは、深層学習モデルと物理に基づく社会力モデルを統合して、生成された目標を用いて完全な軌道を段階的に予測する。
GNPは、4つのベースラインモデルと比較して最先端の長期予測精度を示す。
我々は、ニューラルネットワークフレームワークの多モード性と固有の性質を強調するために、解釈可能な可視化結果を提供する。
また,鍵設計の有効性を検証するためにアブレーション研究を行った。
Vehicle trajectory prediction plays a vital role in intelligent transportation systems and autonomous driving, as it significantly affects vehicle behavior planning and control, thereby influencing traffic safety and efficiency. Numerous studies have been conducted to predict short-term vehicle trajectories in the immediate future. However, long-term trajectory prediction remains a major challenge due to accumulated errors and uncertainties. Additionally, balancing accuracy with interpretability in the prediction is another challenging issue in predicting vehicle trajectory. To address these challenges, this paper proposes a Goal-based Neural Physics Vehicle Trajectory Prediction Model (GNP). The GNP model simplifies vehicle trajectory prediction into a two-stage process: determining the vehicle's goal and then choosing the appropriate trajectory to reach this goal. The GNP model contains two sub-modules to achieve this process. The first sub-module employs a multi-head attention mechanism to accurately predict goals. The second sub-module integrates a deep learning model with a physics-based social force model to progressively predict the complete trajectory using the generated goals. The GNP demonstrates state-of-the-art long-term prediction accuracy compared to four baseline models. We provide interpretable visualization results to highlight the multi-modality and inherent nature of our neural physics framework. Additionally, ablation studies are performed to validate the effectiveness of our key designs. | 翻訳日:2024-09-27 21:27:33 公開日:2024-09-25 |
# 効率的なRAGのためのブロックアテンション
Block-Attention for Efficient RAG ( http://arxiv.org/abs/2409.15355v1 ) ライセンス: Link先を確認 | East Sun, Yan Wang, and Lan Tian | (参考訳) 本稿では,Retrieval-Augmented Generation(RAG)シナリオにおける推論遅延の増加とコストに対処するアテンションメカニズムであるBlock-Attentionを紹介する。
コンテキスト全体をエンコードする既存の作業とは異なり、その主な考え方は、取得した文書をブロックに分割することであり、各ブロックは最終ブロックを除いてキー値(KV)の状態を計算する。
RAGのシナリオでは、各パスをブロックとして定義することで、すべてのパスのKV状態をプリコンプリートし、メモリにキャッシュすることが可能になります。
この実装はブロックセグメンテーション、位置エンコーディングの計算、ブロック・アテンション・メカニズムに適応するためのLLMの微調整を含む。
4つのRAGベンチマークの実験では、ブロック微調整の後、ブロック注意モデルは自己注意モデルよりも(Llama3では68.4\%対67.9\%)、さらに(Mistralでは62.8\%対59.6\%)パフォーマンスを達成できることを示した。
特に、Block-AttentionはTTFT(最初のトークンへの時間)とFLOP(浮動小数点演算)を非常に低いレベルに削減する。
入力シーケンスの最初のトークンを出力するのに45ミリ秒しかかからない。
自己注意モデルと比較すると、時間消費と対応するFLOPはそれぞれ98.7\%と99.8\%に減少する。
We introduce Block-Attention, an attention mechanism designed to address the increased inference latency and cost in Retrieval-Augmented Generation (RAG) scenarios. Unlike existing works that encodes the whole context, its main idea lies in dividing the retrieved documents into blocks, where each block calculates key-value (KV) states independently except for the final block. In RAG scenarios, by defining each passage as a block, Block-Attention enables us to pre-compute the KV states for all passages and cache them in memory, significantly reducing the latency and the computation cost during inference. The implementation involves block segmentation, positional encoding calculation, and fine-tuning the LLM to adapt to the Block-Attention mechanism. Experiments on four RAG benchmarks demonstrate that after block fine-tuning, the Block Attention model can achieve performance comparable to (68.4\% vs 67.9\% on Llama3) or even better (62.8\% vs 59.6\% on Mistral) than self-attention models. Notably, Block-Attention reduces the TTFT (the time to first token) and FLOPs (floating point operations) to a very low level. It only takes 45 ms to output the first token for an input sequence with a total length of 32K. Compared with the self-attention model, the time consumption and corresponding FLOPs are reduced by 98.7\% and 99.8\%, respectively. | 翻訳日:2024-09-27 21:27:33 公開日:2024-09-25 |
# 効率的なRAGのためのブロックアテンション
Block-Attention for Efficient RAG ( http://arxiv.org/abs/2409.15355v2 ) ライセンス: Link先を確認 | East Sun, Yan Wang, Lan Tian, | (参考訳) 本稿では,Retrieval-Augmented Generation(RAG)シナリオにおける推論遅延の増加とコストに対処するアテンションメカニズムであるBlock-Attentionを紹介する。
コンテキスト全体をエンコードする既存の作業とは異なり、その主な考え方は、取得した文書をブロックに分割することであり、各ブロックは最終ブロックを除いてキー値(KV)の状態を計算する。
RAGのシナリオでは、各パスをブロックとして定義することで、すべてのパスのKV状態をプリコンプリートし、メモリにキャッシュすることが可能になります。
この実装はブロックセグメンテーション、位置エンコーディングの計算、ブロック・アテンション・メカニズムに適応するためのLLMの微調整を含む。
4つのRAGベンチマークの実験では、ブロック微調整の後、ブロック注意モデルは自己注意モデルよりも(Llama3では68.4\%対67.9\%)、さらに(Mistralでは62.8\%対59.6\%)パフォーマンスを達成できることを示した。
特に、Block-AttentionはTTFT(最初のトークンへの時間)とFLOP(浮動小数点演算)を非常に低いレベルに削減する。
入力シーケンスの最初のトークンを出力するのに45ミリ秒しかかからない。
自己注意モデルと比較すると、時間消費と対応するFLOPはそれぞれ98.7\%と99.8\%に減少する。
We introduce Block-Attention, an attention mechanism designed to address the increased inference latency and cost in Retrieval-Augmented Generation (RAG) scenarios. Unlike existing works that encodes the whole context, its main idea lies in dividing the retrieved documents into blocks, where each block calculates key-value (KV) states independently except for the final block. In RAG scenarios, by defining each passage as a block, Block-Attention enables us to pre-compute the KV states for all passages and cache them in memory, significantly reducing the latency and the computation cost during inference. The implementation involves block segmentation, positional encoding calculation, and fine-tuning the LLM to adapt to the Block-Attention mechanism. Experiments on four RAG benchmarks demonstrate that after block fine-tuning, the Block Attention model can achieve performance comparable to (68.4\% vs 67.9\% on Llama3) or even better (62.8\% vs 59.6\% on Mistral) than self-attention models. Notably, Block-Attention reduces the TTFT (the time to first token) and FLOPs (floating point operations) to a very low level. It only takes 45 ms to output the first token for an input sequence with a total length of 32K. Compared with the self-attention model, the time consumption and corresponding FLOPs are reduced by 98.7\% and 99.8\%, respectively. | 翻訳日:2024-09-27 21:27:33 公開日:2024-09-25 |
# TFT-multi : ICUにおけるバイタルサイン軌跡の同時予測
TFT-multi: simultaneous forecasting of vital sign trajectories in the ICU ( http://arxiv.org/abs/2409.15586v2 ) ライセンス: Link先を確認 | Rosemary Y. He, Jeffrey N. Chiang, | (参考訳) 医療データにおける軌道予測は、計算手法の精度ケアと臨床統合において重要な研究領域である。
近年、生成型AIモデルは時系列データにおける短距離および長距離の依存関係をキャプチャする有望な結果を実証している。
これらのモデルは医療にも適用されているが、その多くは一度に1つの値しか予測していない。
本研究では,マルチ水平時系列予測ツールであるフレームワーク時間融合変換器(TFT)を拡張し,複数の重要な軌道を同時に予測できるエンドツーエンドフレームワークであるTFT-multiを提案する。
集中治療室で記録された5つのバイタルサイン (血圧, 脈拍, SpO2, 温度, 呼吸速度) の予測にTFT-multiを適用した。
我々は、これらの測度が互いに相関することが多いことを共同で予測することで、特に大きな欠落を持つ変数において、より正確な予測を行うことができると仮定する。
提案手法は,従来のTFTやProphetなど最先端の単変量予測ツールや,多変量予測のためのベクトル回帰モデルよりも優れていることを示す。
さらに,本研究は,実際のおよび仮説的プレッシャ投与に伴う血圧変動の予測にパイプラインを適用した研究事例分析を行った。
Trajectory forecasting in healthcare data has been an important area of research in precision care and clinical integration for computational methods. In recent years, generative AI models have demonstrated promising results in capturing short and long range dependencies in time series data. While these models have also been applied in healthcare, most of them only predict one value at a time, which is unrealistic in a clinical setting where multiple measures are taken at once. In this work, we extend the framework temporal fusion transformer (TFT), a multi-horizon time series prediction tool, and propose TFT-multi, an end-to-end framework that can predict multiple vital trajectories simultaneously. We apply TFT-multi to forecast 5 vital signs recorded in the intensive care unit: blood pressure, pulse, SpO2, temperature and respiratory rate. We hypothesize that by jointly predicting these measures, which are often correlated with one another, we can make more accurate predictions, especially in variables with large missingness. We validate our model on the public MIMIC dataset and an independent institutional dataset, and demonstrate that this approach outperforms state-of-the-art univariate prediction tools including the original TFT and Prophet, as well as vector regression modeling for multivariate prediction. Furthermore, we perform a study case analysis by applying our pipeline to forecast blood pressure changes in response to actual and hypothetical pressor administration. | 翻訳日:2024-09-27 21:27:33 公開日:2024-09-25 |
# 長大化のためのループ変換器
Looped Transformers for Length Generalization ( http://arxiv.org/abs/2409.15647v2 ) ライセンス: Link先を確認 | Ying Fan, Yilun Du, Kannan Ramchandran, Kangwook Lee, | (参考訳) 最近の研究によると、スクラッチから訓練されたトランスフォーマーは、数や計算パリティなどの様々な算術的およびアルゴリズム的なタスクをうまく解くことができる。
これらの変換器は、同じ長さの未知の入力をうまく一般化するが、長さの一般化、すなわち見えない長さの入力を扱うのに苦労する。
本研究では,適応的なステップ数を持つループ変換器が長さの一般化を著しく向上することを示す。
有限サイズの変換器で表現可能な長さ一般化可能な演算である RASP-L 演算の繰り返しを含む,既知の反復解を用いたタスクに着目する。
我々は,提案した学習アルゴリズムを用いてループ変換器を訓練し,様々なタスクに対して,高度に長大な一般化可能な解を学習することを確認する。
Recent work has shown that Transformers trained from scratch can successfully solve various arithmetic and algorithmic tasks, such as adding numbers and computing parity. While these Transformers generalize well on unseen inputs of the same length, they struggle with length generalization, i.e., handling inputs of unseen lengths. In this work, we demonstrate that looped Transformers with an adaptive number of steps significantly improve length generalization. We focus on tasks with a known iterative solution, involving multiple iterations of a RASP-L operation - a length-generalizable operation that can be expressed by a finite-sized Transformer. We train looped Transformers using our proposed learning algorithm and observe that they learn highly length-generalizable solutions for various tasks. | 翻訳日:2024-09-27 21:27:33 公開日:2024-09-25 |
# M^2PT:ゼロショットインストラクション学習のためのマルチモーダルプロンプトチューニング
M^2PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning ( http://arxiv.org/abs/2409.15657v2 ) ライセンス: Link先を確認 | Taowen Wang, Yiyang Liu, James Chenhao Liang, junhan zhao, Yiming Cui, Yuning Mao, Shaoliang Nie, Jiahao Liu, Fuli Feng, Zenglin Xu, Cheng Han, Lifu Huang, Qifan Wang, Dongfang Liu, | (参考訳) MLLM(Multimodal Large Language Models)は、さまざまな領域にわたる顕著なパフォーマンスを示し、さまざまなモダリティにまたがる未確認タスクに対するゼロショットの一般化能力の向上に重点を置いている。
多様なマルチモーダルタスク上で事前学習したモデルを微調整することにより、ゼロショットの一般化を実現するための効果的な戦略として、インストラクションチューニングが登場した。
MLLMのスケールが拡大するにつれて、パラメータ効率の高い微調整がますます重要になる。
しかし、既存のパラメータ効率のアプローチのほとんどは単一のモダリティにのみ焦点をあて、ファインタニング中のマルチモーダル特性をしばしば見落としている。
本稿では,MLLMの効率的な命令チューニングのための新しいマルチモーダル・プロンプト・チューニング(M$^2$PT)手法を提案する。
M$^2$PTは、視覚エンコーダと言語プロセッサに視覚的プロンプトとテキスト的プロンプトを効果的に統合し、モダリティ間の機能の抽出とアライメントを容易にする。
各種マルチモーダル評価データセットの実証実験結果から, 提案手法の性能は, 最先端のベースラインに比べて優れていた。
包括的アブレーション研究は、我々の迅速な設計の有効性と、我々のアプローチの効率性を検証する。
Multimodal Large Language Models (MLLMs) demonstrate remarkable performance across a wide range of domains, with increasing emphasis on enhancing their zero-shot generalization capabilities for unseen tasks across various modalities. Instruction tuning has emerged as an effective strategy for achieving zero-shot generalization by finetuning pretrained models on diverse multimodal tasks. As the scale of MLLMs continues to grow, parameter-efficient finetuning becomes increasingly critical. However, most existing parameter-efficient approaches focus only on single modalities and often overlook the multimodal characteristics during finetuning. In this work, we introduce a novel Multimodal Prompt Tuning (M$^2$PT) approach for efficient instruction tuning of MLLMs. M$^2$PT effectively integrates visual and textual prompts into the vision encoder and language processor respectively during finetuning, facilitating the extraction and alignment of features across modalities. Empirical results on various multimodal evaluation datasets demonstrate the superior performance of our approach compared to several state-of-the-art baselines. A comprehensive set of ablation studies validates the effectiveness of our prompt design and the efficiency of our approach. | 翻訳日:2024-09-27 21:27:33 公開日:2024-09-25 |
# 深層強化学習による未知環境における複数UAV探索とオンラインプランニング
Multi-UAV Pursuit-Evasion with Online Planning in Unknown Environments by Deep Reinforcement Learning ( http://arxiv.org/abs/2409.15866v2 ) ライセンス: Link先を確認 | Jiayu Chen, Chao Yu, Guosheng Li, Wenhao Tang, Xinyi Yang, Botian Xu, Huazhong Yang, Yu Wang, | (参考訳) 追跡者が逃走者を捕獲しようとするマルチUAV追跡回避は、UAV群知能にとって重要な課題である。
マルチエージェント強化学習(MARL)は協調動作をモデル化する可能性を示しているが、ほとんどのRLベースのアプローチは、限られた力学や固定シナリオによるシミュレーションの単純化に制約されている。
現実の追尾回避にRLポリシーを配備する以前の試みは、固定高度での地上車両やUAVのような2次元シナリオに限られていた。
本稿では,UAVのダイナミックスと物理的制約を考慮したマルチUAV追従回避手法を提案する。
本研究では,協調戦略学習における部分的可観測性に対処するために,回避者予測強化ネットワークを導入する。
さらに,MARL訓練における適応環境生成手法を提案する。
シミュレーションにより,本手法は難解なシナリオにおいてすべてのベースラインを著しく上回り,100%のキャプチャ率で未知のシナリオに一般化する。
最後に、2段階の報酬改善を通じて実現可能なポリシーを導出し、ゼロショット方式で実四重項にポリシーを展開する。
我々の知る限り、これは未知の環境でのマルチUAV追従回避のための総合推力とボディレート制御コマンドを使用してRLベースのポリシーを導出し、展開する最初の試みである。
オープンソースコードとビデオはhttps://sites.google.com/view/pursuit-evasion-rl.comで公開されている。
Multi-UAV pursuit-evasion, where pursuers aim to capture evaders, poses a key challenge for UAV swarm intelligence. Multi-agent reinforcement learning (MARL) has demonstrated potential in modeling cooperative behaviors, but most RL-based approaches remain constrained to simplified simulations with limited dynamics or fixed scenarios. Previous attempts to deploy RL policy to real-world pursuit-evasion are largely restricted to two-dimensional scenarios, such as ground vehicles or UAVs at fixed altitudes. In this paper, we address multi-UAV pursuit-evasion by considering UAV dynamics and physical constraints. We introduce an evader prediction-enhanced network to tackle partial observability in cooperative strategy learning. Additionally, we propose an adaptive environment generator within MARL training, enabling higher exploration efficiency and better policy generalization across diverse scenarios. Simulations show our method significantly outperforms all baselines in challenging scenarios, generalizing to unseen scenarios with a 100% capture rate. Finally, we derive a feasible policy via a two-stage reward refinement and deploy the policy on real quadrotors in a zero-shot manner. To our knowledge, this is the first work to derive and deploy an RL-based policy using collective thrust and body rates control commands for multi-UAV pursuit-evasion in unknown environments. The open-source code and videos are available at https://sites.google.com/view/pursuit-evasion-rl. | 翻訳日:2024-09-27 21:27:33 公開日:2024-09-25 |
# In-Context Ensembleは人間のデモから低レベルワークフロー理解のためのビデオ言語モデルを改善する
In-Context Ensemble Improves Video-Language Models for Low-Level Workflow Understanding from Human Demonstrations ( http://arxiv.org/abs/2409.15867v2 ) ライセンス: Link先を確認 | Moucheng Xu, Evangelos Chatzaroulas, Luc McCutcheon, Abdul Ahad, Hamzah Azeem, Janusz Marecki, Ammar Anwar, | (参考訳) Standard Operating Procedure(SOP)は、ビデオデモに基づいて、ビジネスソフトウェアワークフローのための低レベルなステップバイステップのガイドを定義する。
SOPはエンドツーエンドのソフトウェアワークフローを自動化するための重要なステップです。
手動でSOPを作成するのには時間がかかる。
近年の大規模ビデオ言語モデルの進歩は、人間の実演記録を解析することによって、SOP生成を自動化する可能性を秘めている。
しかし、現在の大規模ビデオ言語モデルは、ゼロショットSOP生成による課題に直面している。
SOP生成のためのビデオ言語モデルを用いたテキスト内学習について検討する。
テキスト内学習は、SOP生成時のビデオ言語モデルに役立つことがあると報告する。
そこで本研究では,SOP生成におけるモデルの性能向上を図るために,コンテキスト内アンサンブル学習を提案する。
A Standard Operating Procedure (SOP) defines a low-level, step-by-step written guide for a business software workflow based on a video demonstration. SOPs are a crucial step toward automating end-to-end software workflows. Manually creating SOPs can be time-consuming. Recent advancements in large video-language models offer the potential for automating SOP generation by analyzing recordings of human demonstrations. However, current large video-language models face challenges with zero-shot SOP generation. We explore in-context learning with video-language models for SOP generation. We report that in-context learning sometimes helps video-language models at SOP generation. We then propose an in-context ensemble learning to further enhance the capabilities of the models in SOP generation. | 翻訳日:2024-09-27 21:27:33 公開日:2024-09-25 |
# NLPモデルのプライバシ評価ベンチマーク
Privacy Evaluation Benchmarks for NLP Models ( http://arxiv.org/abs/2409.15868v2 ) ライセンス: Link先を確認 | Wei Huang, Yinggui Wang, Cen Chen, | (参考訳) NLPモデルに対するプライバシ攻撃を誘導することにより、攻撃者はトレーニングデータやモデルパラメータなどの機密情報を得ることができる。
研究者は、NLPモデルにおけるいくつかの種類の攻撃について詳細に研究してきたが、それらは非系統解析である。
攻撃による影響の包括的理解が欠如している。
例えば、どの攻撃にどのシナリオが適用できるか、異なる攻撃のパフォーマンスに影響を与える共通の要因、異なる攻撃間の関係の性質、攻撃の有効性に対するさまざまなデータセットやモデルの影響などを考慮しなければなりません。
したがって、NLPモデルが直面するプライバシーリスクを全体評価するベンチマークが必要である。
本稿では,従来の/小モデルと大規模言語モデル(LLM)を含むNLP分野におけるプライバシ攻撃・防衛評価ベンチマークを提案する。
このベンチマークは、さまざまなモデル、データセット、プロトコルをサポートし、攻撃と防御戦略の包括的な評価のための標準化されたモジュールをサポートする。
以上の枠組みに基づいて、異なるドメインからの補助データとプライバシ攻撃の強さとの関係について検討する。
また,このシナリオにおいて,知識蒸留(KD)の助けを借りて,より優れた攻撃方法を提案する。
さらに,プライバシ攻撃のための連鎖フレームワークを提案する。
高いレベルの攻撃目標を達成するために、実践者が複数の攻撃をチェーンできる。
これに基づいて、防衛戦略と強化攻撃戦略を提供する。
結果を再現するコードはhttps://github.com/user2311717757/nlp_doctor.comで見ることができる。
By inducing privacy attacks on NLP models, attackers can obtain sensitive information such as training data and model parameters, etc. Although researchers have studied, in-depth, several kinds of attacks in NLP models, they are non-systematic analyses. It lacks a comprehensive understanding of the impact caused by the attacks. For example, we must consider which scenarios can apply to which attacks, what the common factors are that affect the performance of different attacks, the nature of the relationships between different attacks, and the influence of various datasets and models on the effectiveness of the attacks, etc. Therefore, we need a benchmark to holistically assess the privacy risks faced by NLP models. In this paper, we present a privacy attack and defense evaluation benchmark in the field of NLP, which includes the conventional/small models and large language models (LLMs). This benchmark supports a variety of models, datasets, and protocols, along with standardized modules for comprehensive evaluation of attacks and defense strategies. Based on the above framework, we present a study on the association between auxiliary data from different domains and the strength of privacy attacks. And we provide an improved attack method in this scenario with the help of Knowledge Distillation (KD). Furthermore, we propose a chained framework for privacy attacks. Allowing a practitioner to chain multiple attacks to achieve a higher-level attack objective. Based on this, we provide some defense and enhanced attack strategies. The code for reproducing the results can be found at https://github.com/user2311717757/nlp_doctor. | 翻訳日:2024-09-27 21:27:33 公開日:2024-09-25 |
# FedRepOpt: フェデレーション学習における漸進的再パラメータ化最適化
FedRepOpt: Gradient Re-parameterized Optimizers in Federated Learning ( http://arxiv.org/abs/2409.15898v2 ) ライセンス: Link先を確認 | Kin Wai Lau, Yasar Abbas Ur Rehman, Pedro Porto Buarque de Gusmão, Lai-Man Po, Lan Ma, Yuyang Xie, | (参考訳) フェデレートラーニング(FL)は、エッジデバイス上で分散型に機械学習モデルをトレーニングするためのプライバシ保護手法として登場した。
しかし、オンデバイスモデルは本質的に計算能力とメモリ制限に直面するため、潜在的には勾配が制限される可能性がある。
モデルのサイズが大きくなるにつれて、エッジデバイス上の勾配更新の頻度は減少し、最終的に特定のFLラウンドにおいて最適以下のトレーニング結果をもたらす。
これにより、エッジデバイスに高度な大規模モデルをデプロイする可能性を制限することができ、パフォーマンス向上の可能性を妨げている。
この問題に対処するため、FLの勾配再パラメータ化オプティマイザであるFedRepOptを提案する。
勾配再パラメータ化法では、複雑なモデルから得られたモデル固有のハイパーパラメータのセットに従って最適化器の勾配を変更することで、複雑なモデルと類似した性能の単純な局所モデルを訓練することができる。
本研究では,FL環境におけるVGGスタイルとゴーストスタイルのモデルに着目した。
大規模な実験により、FedRepOptを用いたモデルは、RepGhostスタイルやRepVGGスタイルのネットワークと比較して16.7%と11.4%のパフォーマンスが大幅に向上し、複雑な構造に比べて11.7%と57.4%の収束時間を示した。
Federated Learning (FL) has emerged as a privacy-preserving method for training machine learning models in a distributed manner on edge devices. However, on-device models face inherent computational power and memory limitations, potentially resulting in constrained gradient updates. As the model's size increases, the frequency of gradient updates on edge devices decreases, ultimately leading to suboptimal training outcomes during any particular FL round. This limits the feasibility of deploying advanced and large-scale models on edge devices, hindering the potential for performance enhancements. To address this issue, we propose FedRepOpt, a gradient re-parameterized optimizer for FL. The gradient re-parameterized method allows training a simple local model with a similar performance as a complex model by modifying the optimizer's gradients according to a set of model-specific hyperparameters obtained from the complex models. In this work, we focus on VGG-style and Ghost-style models in the FL environment. Extensive experiments demonstrate that models using FedRepOpt obtain a significant boost in performance of 16.7% and 11.4% compared to the RepGhost-style and RepVGG-style networks, while also demonstrating a faster convergence time of 11.7% and 57.4% compared to their complex structure. | 翻訳日:2024-09-27 21:27:33 公開日:2024-09-25 |
# ゼロ次フェデレーション最適化を支援する歴史軌道
Historical Trajectory Assisted Zeroth-Order Federated Optimization ( http://arxiv.org/abs/2409.15955v2 ) ライセンス: Link先を確認 | Xiaoyu He, Chenlin Wu, Zike Li, Zibin Zheng, | (参考訳) フェデレートラーニング(Federated Learning)は、モデルを個別にトレーニングし、モデルの更新をアグリゲーションにアップロードすることを可能にする分散学習フレームワークである。
局所的なトレーニングプロセスは、分散勾配降下技術に大きく依存している。
勾配情報が得られない状況では、勾配を0次情報から推定する必要がある。
この手法は、等方的サンプリング中に対象景観の幾何学的特徴を見落としてしまうため、高い推定誤差に悩まされる。
本研究では,勾配推定法を改善するための非等方的サンプリング法を提案する。
提案手法の勾配は,解の歴史的軌跡によって区切られた部分空間で推定され,将来性のある領域の探索を奨励し,収束を改善することを目的としている。
本手法は, ゼロオーダーのフェデレーション設定で実装し, コンバージェンスレートが既存のものと一致し, 通信や局所計算において大きなオーバーヘッドを伴わないことを示す。
提案手法の有効性をいくつかの数値実験で検証し, 一般に用いられている0次フェデレーション最適化アルゴリズムと比較した。
Federated learning is a distributed learning framework which enables clients to train models individually and to upload their model updates for aggregation. The local training process heavily relies on distributed gradient descent techniques. In the situation where gradient information is not available, the gradients need to be estimated from zeroth-order information, which typically involves computing finite-differences along isotropic random directions. This method suffers from high estimation errors, as the geometric features of the objective landscape may be overlooked during the isotropic sampling. In this work, we propose a non-isotropic sampling method to improve the gradient estimation procedure. Gradients in our method are estimated in a subspace spanned by historical trajectories of solutions, aiming to encourage the exploration of promising regions and hence improve the convergence. We implement this method in zeroth-order federated settings, and show that the convergence rate aligns with existing ones while introducing no significant overheads in communication or local computation. The effectiveness of our proposal is verified on several numerical experiments in comparison to several commonly-used zeroth-order federated optimization algorithms. | 翻訳日:2024-09-27 21:27:33 公開日:2024-09-25 |
# FPGA上に実装された超低レイテンシ量子インスピレーション機械学習予測器
Ultra-low latency quantum-inspired machine learning predictors implemented on FPGA ( http://arxiv.org/abs/2409.16075v2 ) ライセンス: Link先を確認 | Lorenzo Borella, Alberto Coppi, Jacopo Pazzini, Andrea Stanco, Marco Trenti, Andrea Triossi, Marco Zanetti, | (参考訳) テンソルネットワーク(テンソルネットワーク、英: Tensor Networks)は、量子多体システムを表現するために用いられる計算パラダイムである。
最近の研究は、TNが機械学習(ML)タスクの実行にも適用可能であることを示した。
本研究では,FPGA(Field-Programmable Gate Array)技術の低遅延ハードウェアを利用して,高周波リアルタイムアプリケーションにおけるツリーテンソルネットワーク(TTN)の利用について検討する。
本稿では,従来のMLデータセットや複雑な物理データ上での推論が可能なTTN分類器の実装について述べる。
拘束エントロピーおよび相関測定とともに、トレーニング段階で結合次元と重み量子化の予備解析が実現され、TTNアーキテクチャの選択に役立てられる。
生成されたTTNはハードウェアアクセラレータにデプロイされ、FPGAをサーバに統合することで、TTNの推論は完全にオフロードされる。
最終的に、高エネルギー物理(HEP)アプリケーションのための分類器が実装され、マイクロ秒以下のレイテンシで完全にパイプライン化される。
Tensor Networks (TNs) are a computational paradigm used for representing quantum many-body systems. Recent works have shown how TNs can also be applied to perform Machine Learning (ML) tasks, yielding comparable results to standard supervised learning techniques. In this work, we study the use of Tree Tensor Networks (TTNs) in high-frequency real-time applications by exploiting the low-latency hardware of the Field-Programmable Gate Array (FPGA) technology. We present different implementations of TTN classifiers, capable of performing inference on classical ML datasets as well as on complex physics data. A preparatory analysis of bond dimensions and weight quantization is realized in the training phase, together with entanglement entropy and correlation measurements, that help setting the choice of the TTN architecture. The generated TTNs are then deployed on a hardware accelerator; using an FPGA integrated into a server, the inference of the TTN is completely offloaded. Eventually, a classifier for High Energy Physics (HEP) applications is implemented and executed fully pipelined with sub-microsecond latency. | 翻訳日:2024-09-27 21:27:33 公開日:2024-09-25 |
# 効率的な運動予測:高速トレーニングと推論速度を備えた軽量・高精度軌道予測モデル
Efficient Motion Prediction: A Lightweight & Accurate Trajectory Prediction Model With Fast Training and Inference Speed ( http://arxiv.org/abs/2409.16154v2 ) ライセンス: Link先を確認 | Alexander Prutsch, Horst Bischof, Horst Possegger, | (参考訳) 効率的で安全な自動運転を実現するためには、自動運転車が他の交通機関の動きを予測できることが不可欠である。
精度は高いが、現在の動き予測モデルは、しばしばリソース要件のトレーニングや組み込みハードウェアへの展開において重大な課題を課している。
我々は,1つのGPU上で数時間のトレーニングをしながら,競争力の高いベンチマーク結果を実現する,新しい効率的な動き予測モデルを提案する。
軽量なアーキテクチャ選択と、必要なトレーニングリソースの削減に重点を置いているため、私たちのモデルは、カスタムデータセットに簡単に適用できます。
さらに、低推論レイテンシにより、限られたコンピューティングリソースを持つ自律アプリケーションへのデプロイに特に適している。
For efficient and safe autonomous driving, it is essential that autonomous vehicles can predict the motion of other traffic agents. While highly accurate, current motion prediction models often impose significant challenges in terms of training resource requirements and deployment on embedded hardware. We propose a new efficient motion prediction model, which achieves highly competitive benchmark results while training only a few hours on a single GPU. Due to our lightweight architectural choices and the focus on reducing the required training resources, our model can easily be applied to custom datasets. Furthermore, its low inference latency makes it particularly suitable for deployment in autonomous applications with limited computing resources. | 翻訳日:2024-09-27 09:03:58 公開日:2024-09-25 |
# CJEval:中国中学校のエクストリームデータを用いた大規模言語モデル評価ベンチマーク
CJEval: A Benchmark for Assessing Large Language Models Using Chinese Junior High School Exam Data ( http://arxiv.org/abs/2409.16202v2 ) ライセンス: Link先を確認 | Qian-Wen Zhang, Haochen Wang, Fang Li, Siyu An, Lingfeng Qiao, Liangcai Gao, Di Yin, Xing Sun, | (参考訳) オンライン教育プラットフォームは、動的かつデジタルなインフラを提供することによって、教育資源の普及を大きく変えた。
この変換のさらなる強化により、Large Language Models(LLM)の出現により、これらのプラットフォームのインテリジェンスレベルが向上した。
しかし、現在の学術ベンチマークでは、現実世界の業界シナリオについて限定的なガイダンスを提供している。
この制限は、教育アプリケーションは単なるテスト質問応答以上のものを必要とするため生じる。
このギャップを埋めるために,中国中学試験評価に基づくベンチマークであるCJEvalを紹介した。
CJEvalは、アプリケーションレベルの4つの課題を対象とする26,136のサンプルで構成されている。
これらのサンプルには、質問や回答だけでなく、質問タイプ、難易度、知識概念、回答の説明といった詳細なアノテーションも含まれている。
このベンチマークを用いて,LLMの潜在的な応用性を評価し,様々な教育課題を微調整してその性能を総合的に分析した。
大規模な実験と議論は、LLMを教育分野に適用する機会と課題を浮き彫りにした。
Online education platforms have significantly transformed the dissemination of educational resources by providing a dynamic and digital infrastructure. With the further enhancement of this transformation, the advent of Large Language Models (LLMs) has elevated the intelligence levels of these platforms. However, current academic benchmarks provide limited guidance for real-world industry scenarios. This limitation arises because educational applications require more than mere test question responses. To bridge this gap, we introduce CJEval, a benchmark based on Chinese Junior High School Exam Evaluations. CJEval consists of 26,136 samples across four application-level educational tasks covering ten subjects. These samples include not only questions and answers but also detailed annotations such as question types, difficulty levels, knowledge concepts, and answer explanations. By utilizing this benchmark, we assessed LLMs' potential applications and conducted a comprehensive analysis of their performance by fine-tuning on various educational tasks. Extensive experiments and discussions have highlighted the opportunities and challenges of applying LLMs in the field of education. | 翻訳日:2024-09-27 09:03:58 公開日:2024-09-25 |
# 量子誤差補正によるマルチパラメータ量子メトロジー
Quantum error correction-inspired multiparameter quantum metrology ( http://arxiv.org/abs/2409.16515v1 ) ライセンス: Link先を確認 | Sivaprasad Omanakuttan, Jonathan A. Gross, T. J. Volkoff, | (参考訳) 生成器間の対称性を持つノイズレスマルチパラメータ推定問題のクラスにおいて、最適なプローブ状態と測定方法を得るための新しい手法を提案する。
このフレームワークの鍵となるのは、Knill と Laflamme の量子エラー補正条件に類似した一連の量子気象条件の導入であり、これは多パラメータ量子 Cram\'{e}r-Rao 境界を飽和させるプローブ状態の同定に使用される。
誤り訂正において論理量子ビットを符号化する2次元のイグナップを見つけるのと同様に、量子力学条件の満足度を保証する有限群の自明なイグナップを同定する。
この枠組みを実証するため、3つのパラメータが$N$ qubitsのアンサンブルのグローバルな回転を定義する対称状態によるSU(2)推定を解析した。
たとえ$N$であっても、四面体対称性と、細調整された$S_{3}$対称性は、SU(2)推定に最適なプローブ状態を与える最小対称性群であるが、量子力学条件は、任意の$N$に対して2つのスピン-N/2$表現の最大交絡状態を使用することで、絡み合いの支援された設定でも満足できる。
モーメントのマルチパラメータ法を非可換可観測物に拡張することにより、量子距離論条件を用いて、小さな回転角に対してマルチパラメータ量子Cram\'{e}r-Raoを飽和させる測定スキームを構築する。
We present a novel strategy for obtaining optimal probe states and measurement schemes in a class of noiseless multiparameter estimation problems with symmetry among the generators. The key to the framework is the introduction of a set of quantum metrology conditions, analogous to the quantum error correction conditions of Knill and Laflamme, which are utilized to identify probe states that saturate the multiparameter quantum Cram\'{e}r-Rao bound. Similar to finding two-dimensional irreps for encoding a logical qubit in error correction, we identify trivial irreps of finite groups that guarantee the satisfaction of the quantum metrology conditions. To demonstrate our framework, we analyze the SU(2) estimation with symmetric states in which three parameters define a global rotation of an ensemble of $N$ qubits. For even $N$, we find that tetrahedral symmetry and, with fine-tuning, $S_{3}$ symmetry, are minimal symmetry groups providing optimal probe states for SU(2) estimation, but that the quantum metrology conditions can also be satisfied in an entanglement-assisted setting by using a maximally entangled state of two spin-$N/2$ representations for any $N$. By extending the multiparameter method of moments to non-commuting observables, we use the quantum metrology conditions to construct a measurement scheme that saturates the multiparameter quantum Cram\'{e}r-Rao bound for small rotation angles. | 翻訳日:2024-09-27 06:06:51 公開日:2024-09-25 |
# 量子暗号におけるハード量子外挿
Hard Quantum Extrapolations in Quantum Cryptography ( http://arxiv.org/abs/2409.16516v1 ) ライセンス: Link先を確認 | Luowen Qian, Justin Raizes, Mark Zhandry, | (参考訳) 一方向関数は古典暗号の最小プリミティブとして確立されているが、量子暗号の最小プリミティブはいまだに不明である。
Impagliazzo と Levin (1990) によって最初に考えられた普遍外挿は、一方方向函数が存在する場合に限り困難である。
量子暗号の最小仮定をよりよく理解するために、普遍的外挿タスクの量子アナログについて検討する。
具体的には,古典的な$\rightarrow$quantum外挿課題を提示し,計算ベースで測定された最初のレジスタを考慮すれば,両部純状態の残りを外挿するように求めた。
次に、量子暗号における新しい接続を確立するために、キーコンポーネントとしてそれを使用します。
(a)古典$\rightarrow$quantum外挿が困難であれば、量子コミットメントが存在する。
(b)古典$\rightarrow$quantum外挿は、以下の暗号プリミティブのいずれかが存在する場合、難しい:古典的な公開鍵または2メッセージの量子鍵分配プロトコルを持つ量子公開鍵暗号(量子マネーやシグネチャなど)。
今後の研究のために、外挿タスクをさらに一般化し、完全量子アナログを提案する。
量子コミットメントが存在する場合、それは困難であり、量子多項式空間にとって容易である。
Although one-way functions are well-established as the minimal primitive for classical cryptography, a minimal primitive for quantum cryptography is still unclear. Universal extrapolation, first considered by Impagliazzo and Levin (1990), is hard if and only if one-way functions exist. Towards better understanding minimal assumptions for quantum cryptography, we study the quantum analogues of the universal extrapolation task. Specifically, we put forth the classical$\rightarrow$quantum extrapolation task, where we ask to extrapolate the rest of a bipartite pure state given the first register measured in the computational basis. We then use it as a key component to establish new connections in quantum cryptography: (a) quantum commitments exist if classical$\rightarrow$quantum extrapolation is hard; and (b) classical$\rightarrow$quantum extrapolation is hard if any of the following cryptographic primitives exists: quantum public-key cryptography (such as quantum money and signatures) with a classical public key or 2-message quantum key distribution protocols. For future work, we further generalize the extrapolation task and propose a fully quantum analogue. We observe that it is hard if quantum commitments exist, and it is easy for quantum polynomial space. | 翻訳日:2024-09-27 06:06:51 公開日:2024-09-25 |
# SynChart: 言語モデルからチャートを合成する
SynChart: Synthesizing Charts from Language Models ( http://arxiv.org/abs/2409.16517v1 ) ライセンス: Link先を確認 | Mengchen Liu, Qixiu Li, Dongdong Chen, Dong Chen, Jianmin Bao, Yunsheng Li, | (参考訳) GPT-4V(O)のリリースにより、マルチモーダルタスクの擬似ラベル生成に使用されるようになった。
しかし、そのような高度なモデルをベースとなる大規模言語モデル(LLM)から構築する方法はまだ秘密である。
本研究は,LLMをデータ生成に単独で活用し,チャート理解に焦点をあてた競合するマルチモダリティモデルを開発する可能性を探る。
我々は、データテーブル、コード、記述、質問応答セットを含む7500万以上の高密度アノテーションを備えた、約400万の多様なチャート画像を含む大規模なチャートデータセット、SynChartを構築した。
我々は,このデータセットを用いて4.2Bのグラフエキスパートモデルを訓練し,GPT-4Vを超え,ChartQAタスクでほぼGPT-4Oの性能を達成した。
With the release of GPT-4V(O), its use in generating pseudo labels for multi-modality tasks has gained significant popularity. However, it is still a secret how to build such advanced models from its base large language models (LLMs). This work explores the potential of using LLMs alone for data generation and develop competitive multi-modality models focusing on chart understanding. We construct a large-scale chart dataset, SynChart, which contains approximately 4 million diverse chart images with over 75 million dense annotations, including data tables, code, descriptions, and question-answer sets. We trained a 4.2B chart-expert model using this dataset and achieve near-GPT-4O performance on the ChartQA task, surpassing GPT-4V. | 翻訳日:2024-09-27 06:06:51 公開日:2024-09-25 |
# 偏光フィルタによる光透過の古典的・量子的解析
Classical and Quantum Analysis of Light Transmission Through Polarizing Filters ( http://arxiv.org/abs/2409.16520v1 ) ライセンス: Link先を確認 | Davi A. Assunção, Samuel B. Soltau, | (参考訳) 角度の異なる偏光フィルタからなる系を通過する光の挙動を解析する。
この分析は、最初は古典光学の文脈で行われ、2つの垂直フィルタ(0度と90度)と3つのフィルタ(0度、45度、90度)に対する透過強度を計算するために、マルスの法則を用いて行われた。
次に、状態記法を用いて現象を記述するために量子力学を適用し、光子の偏光状態の射影の確率論的解釈を行う。
We analyze the behavior of light as it passes through systems composed of polarizing filters at different angular orientations. The analysis is initially conducted in the context of classical optics, using Malus's Law to calculate the transmitted intensity for the cases of two perpendicular filters (0 and 90 degrees) and three filters (0, 45, and 90 degrees). We then apply quantum mechanics to describe the phenomenon using state notation and the probabilistic interpretation of the projection of the polarization states of photons. | 翻訳日:2024-09-27 06:06:51 公開日:2024-09-25 |
# 製品画像による言語における認知的複雑さの理解
Understanding the Cognitive Complexity in Language Elicited by Product Images ( http://arxiv.org/abs/2409.16521v1 ) ライセンス: Link先を確認 | Yan-Ying Chen, Shabnam Hakimi, Monica Van, Francine Chen, Matthew Hong, Matt Klenk, Charlene Wu, | (参考訳) 製品イメージ(例:携帯電話)は、表面レベルの知覚属性(例:白)や、知覚ユーティリティ(例:バッテリ)のようなより複雑な特徴(例:白)を含む、言語で表現されるさまざまなコンシューマーがレポートする特徴を引き出すために使用することができる。
発声された言語の認知的複雑さは、認知プロセスの性質とそれらを理解するために必要な文脈を明らかにし、認知的複雑性は消費者のその後の選択を予測する。
この研究は、製品イメージによって引き起こされる人間の言語認知の複雑さを計測し、検証するためのアプローチを提供し、大規模言語モデル(LLM)によってシミュレートされた仮想回答者と同様に、人間の認知プロセスを理解するためのツールを提供する。
また、製品イメージのさまざまな記述ラベルを含む大規模なデータセットも導入しています。
人間の評価認知複雑性を自然言語モデルを用いて近似し,その複雑性構造を大まかに捉えることを実証した。
さらに、このアプローチは、人間による複雑さの評価が限られているユースケースにおいても、最小限に教師付きでスケーラブルです。
Product images (e.g., a phone) can be used to elicit a diverse set of consumer-reported features expressed through language, including surface-level perceptual attributes (e.g., "white") and more complex ones, like perceived utility (e.g., "battery"). The cognitive complexity of elicited language reveals the nature of cognitive processes and the context required to understand them; cognitive complexity also predicts consumers' subsequent choices. This work offers an approach for measuring and validating the cognitive complexity of human language elicited by product images, providing a tool for understanding the cognitive processes of human as well as virtual respondents simulated by Large Language Models (LLMs). We also introduce a large dataset that includes diverse descriptive labels for product images, including human-rated complexity. We demonstrate that human-rated cognitive complexity can be approximated using a set of natural language models that, combined, roughly capture the complexity construct. Moreover, this approach is minimally supervised and scalable, even in use cases with limited human assessment of complexity. | 翻訳日:2024-09-27 06:06:51 公開日:2024-09-25 |
# APILOT: 古いAPIの落とし穴をサイドステッピングすることで、大規模な言語モデルをナビゲートしてセキュアなコードを生成する
APILOT: Navigating Large Language Models to Generate Secure Code by Sidestepping Outdated API Pitfalls ( http://arxiv.org/abs/2409.16526v1 ) ライセンス: Link先を確認 | Weiheng Bai, Keyang Xuan, Pengxiang Huang, Qiushi Wu, Jianing Wen, Jingjing Wu, Kangjie Lu, | (参考訳) 大規模言語モデル(LLM)の急速な開発に伴い、そのアプリケーションはコードアシストなど様々な分野に拡張されている。
しかし、LLMのかなりのサイズは、トレーニングを非常にリソースと時間集約化し、頻繁な再トレーニングや更新を非現実的にする。
結果として、時間に敏感なデータは時代遅れになり、タイムアウェアタスクにおけるLLMを誤解させる可能性がある。
例えば、新たな脆弱性は、毎日さまざまなプログラムで発見されている。
知識を更新しなければ、LLMは新しく発見された脆弱性を含むコードを不注意に生成する可能性がある。
プロンプトエンジニアリングや微調整といった現在の戦略は、この問題に効果的に対処していない。
この問題に対処するため,我々はAPILOTという名のソリューションを提案している。
さらに、APILOTは、このデータセットを活用して、セキュアでバージョン対応のコードを生成するLLMをナビゲートする、拡張生成方法を使用している。
そこで我々は,APILOTの有効性を総合的に評価し,従来のAPIレコメンデーションの頻度を7種類のLLMで低減した。
評価結果は、APILOTがパフォーマンス上のオーバーヘッドを限定して、時代遅れのコードレコメンデーションを平均89.42%削減できることを示している。
興味深いことに、セキュリティを強化する一方で、APILOTはLLMが生成するコードのユーザビリティも向上し、平均的なユーザビリティは27.54%向上している。
これは、現代のソフトウェア開発環境におけるコード提案の安全性と実用性を両立させるAPILOTの二重機能を強調している。
With the rapid development of large language models (LLMs), their applications have expanded into diverse fields, such as code assistance. However, the substantial size of LLMs makes their training highly resource- and time-intensive, rendering frequent retraining or updates impractical. Consequently, time-sensitive data can become outdated, potentially misleading LLMs in time-aware tasks. For example, new vulnerabilities are discovered in various programs every day. Without updating their knowledge, LLMs may inadvertently generate code that includes these newly discovered vulnerabilities. Current strategies, such as prompt engineering and fine-tuning, do not effectively address this issue. To address this issue, we propose solution, named APILOT, which maintains a realtime, quickly updatable dataset of outdated APIs. Additionally, APILOT utilizes an augmented generation method that leverages this dataset to navigate LLMs in generating secure, version-aware code. We conducted a comprehensive evaluation to measure the effectiveness of APILOT in reducing the incidence of outdated API recommendations across seven different state-of-the-art LLMs. The evaluation results indicate that APILOT can reduce outdated code recommendations by 89.42% on average with limited performance overhead. Interestingly, while enhancing security, APILOT also improves the usability of the code generated by LLMs, showing an average increase of 27.54% in usability. This underscores APILOT's dual capability to enhance both the safety and practical utility of code suggestions in contemporary software development environments. | 翻訳日:2024-09-27 06:06:51 公開日:2024-09-25 |
# ダイヤモンド中の窒素空孔中心を用いた広視野マイクロ波磁界イメージング
Wide-field microwave magnetic field imaging with nitrogen-vacancy centers in diamond ( http://arxiv.org/abs/2409.16528v1 ) ライセンス: Link先を確認 | Luca Basso, Pauli Kehayias, Jacob Henshaw, Gajadhar Joshi, Michael P. Lilly, Matthew B. Jordan, Andrew M. Mounce, | (参考訳) マイクロ波(MW)磁場のマイクロスケール横方向分解能の非侵襲イメージングは、MW技術や集積回路故障解析などの様々な応用において重要である。
ダイヤモンド窒素空洞(NV)中心磁力計は理想的なツールとして登場し、$\mu$mスケールの解像度、ミリスケールの視野、高感度、様々なサンプルと互換性のある非侵襲イメージングを提供する。
しかし、これまでは、静磁場や低周波磁場のイメージングや、MW磁場のイメージングにおいて、NVスピン遷移を駆動するのと同じマイクロ波デバイスを直接特徴付けるために主に用いられてきた。
本研究では、ダイヤモンド中のNV中心アンサンブルを用いて、差分測定プロトコルを用いた試験装置によって生成されたMW磁場の広視野イメージングを行う。
顕微鏡は、NVスピン状態間のRabi振動を誘導するMWループを備え、装置アンダーテストからのMWフィールドは、Rabi周波数の局所的な偏差によって測定される。
この微分プロトコルは2.57 GHz MW の磁場マップを$\sim$ 9 $\mu$T Hz$^{-1/2}$で、合計測定期間は$T = 357$ sで、340\times 340$$\mu$m$^2$ビューと$\mu$mスケールの空間分解能とDUT入力パワーダイナミックレンジが30dBである。
この研究は、差動ラビの周波数測定に基づく新しいNV磁気メトリプロトコルを実証し、標準ラビ磁気メトリで直接測定することが難しい弱いMW磁場のイメージングまで、NV広視野イメージング能力を拡張した。
Non-invasive imaging of microwave (MW) magnetic fields with microscale lateral resolution is pivotal for various applications, such as MW technologies and integrated circuit failure analysis. Diamond nitrogen-vacancy (NV) center magnetometry has emerged as an ideal tool, offering $\mu$m-scale resolution, millimeter-scale field of view, high sensitivity, and non-invasive imaging compatible with diverse samples. However, up until now, it has been predominantly used for imaging of static or low-frequency magnetic fields or, concerning MW field imaging, to directly characterize the same microwave device used to drive the NV spin transitions. In this work we leverage an NV center ensemble in diamond for wide-field imaging of MW magnetic fields generated by a test device employing a differential measurement protocol. The microscope is equipped with a MW loop to induce Rabi oscillations between NV spin states, and the MW field from the device-under-test is measured through local deviations in the Rabi frequency. This differential protocol yields magnetic field maps of a 2.57 GHz MW field with a sensitivity of $\sim$ 9 $\mu$T Hz$^{-1/2}$ for a total measurement duration of $T = 357$ s, covering a $340\times340$ $\mu$m$^2$ field of view with a $\mu$m-scale spatial resolution and a DUT input power dynamic range of 30 dB. This work demonstrates a novel NV magnetometry protocol, based on differential Rabi frequency measurement, that extends NV wide-field imaging capabilities to imaging of weak MW magnetic fields that would be difficult to measure directly through standard NV Rabi magnetometry. | 翻訳日:2024-09-27 06:06:51 公開日:2024-09-25 |
# T2Pair++: 情報損失ゼロでセキュアで使用可能なIoTペア
T2Pair++: Secure and Usable IoT Pairing with Zero Information Loss ( http://arxiv.org/abs/2409.16530v1 ) ライセンス: Link先を確認 | Chuxiong Wu, Xiaopeng Li, Lannan Luo, Qiang Zeng, | (参考訳) セキュアなペアリングは、IoT(Internet of Things)デバイスの信頼性の高いデプロイメントと運用を保証するために不可欠である。
しかしながら、従来のペアリング方法は、キーボードのような従来のユーザインターフェースが欠如しているため、IoTデバイスには適さないことが多い。
プロクシミティベースのペアリングアプローチは有用だが、同じ場所にある悪意のあるデバイスによるエクスプロイトに対して脆弱である。
ユーザのIoTデバイス上の物理的な操作(揺らぎなど)に基づくメソッドは、セキュリティを向上しますが、通常は、ほとんどのIoTデバイスに欠けている操作を検出するために慣性センサーに依存しています。
我々は、慣性センサーを必要とせずに、IoTデバイスがユーザの物理的操作を検知できるようにする、Universal Operation Sensingと呼ばれる新しい技術を紹介した。
この技術を使えば、スマートフォンを持っているかスマートウォッチを持っているかにかかわらず、ボタンを押したり、ノブをねじったりといった単純なアクションを使って、数秒以内にペアリングプロセスを完了することができる。
さらに,ファジィコミットメントプロトコルにおいて,ペアリングに頻繁に使用される不正確な問題を明らかにする。
そこで本稿では,ファジィコミットメントを使わず,情報損失をゼロにする,正確なペアリングプロトコルを提案する。
包括的な評価は、安全で、使いやすく、効率的であることを示している。
Secure pairing is crucial for ensuring the trustworthy deployment and operation of Internet of Things (IoT) devices. However, traditional pairing methods are often unsuitable for IoT devices due to their lack of conventional user interfaces, such as keyboards. Proximity-based pairing approaches are usable but vulnerable to exploitation by co-located malicious devices. While methods based on a user's physical operations (such as shaking) on IoT devices offer greater security, they typically rely on inertial sensors to sense the operations, which most IoT devices lack. We introduce a novel technique called Universal Operation Sensing, enabling IoT devices to sense the user's physical operations without the need for inertial sensors. With this technique, users can complete the pairing process within seconds using simple actions such as pressing a button or twisting a knob, whether they are holding a smartphone or wearing a smartwatch. Moreover, we reveal an inaccuracy issue in the fuzzy commitment protocol, which is frequently used for pairing. To address it, we propose an accurate pairing protocol, which does not use fuzzy commitment and incurs zero information loss. The comprehensive evaluation shows that it is secure, usable and efficient. | 翻訳日:2024-09-27 06:06:51 公開日:2024-09-25 |
# 交通予測のための伝達学習を用いた空間的・時間的グラフ畳み込みネットワーク
Graph Pruning Based Spatial and Temporal Graph Convolutional Network with Transfer Learning for Traffic Prediction ( http://arxiv.org/abs/2409.16532v1 ) ライセンス: Link先を確認 | Zihao Jing, | (参考訳) 都市化の過程と人口の急速な増加により、交通渋滞の問題がますます重要になっている。
インテリジェントトランスポートシステムは、この問題に対処するためのリアルタイムかつ正確な予測アルゴリズムに大きく依存している。
深層学習におけるリカレントニューラルネットワーク(RNN)とグラフ畳み込みニューラルネットワーク(GCN)の手法は,十分なデータが存在する場合の道路条件の予測において高い精度を示す一方で,限られたデータを持つ道路網の予測は依然として難しい課題である。
本研究では,この問題に対処するためのグラフプルーニングと移動学習の枠組みに基づく新しい時空間畳み込みネットワーク(TL-GPSTGN)を提案する。
まず、道路ネットワーク構造と特徴データとの相関関係と情報エントロピーを分析して、グラフの基本構造と情報を抽出する。
グラフプルーニング技術を利用することで、グラフの隣接行列と入力特徴データを処理することにより、モデルのマイグレーション性能が大幅に向上する。
その後、良好な特性のデータを時空間グラフ畳み込みネットワークに入力し、時空間関係を捕捉し、道路条件に関する予測を行う。
さらに,本研究では,TL-GPSTGN法を実データセット上で総合的に検証し,その予測性能を同一条件下で用いられる他のモデルと比較した。
その結果、単一のデータセット上でのTL-GPSTGNの異常な予測精度と、異なるデータセット間の堅牢なマイグレーション性能が示された。
With the process of urbanization and the rapid growth of population, the issue of traffic congestion has become an increasingly critical concern. Intelligent transportation systems heavily rely on real-time and precise prediction algorithms to address this problem. While Recurrent Neural Network (RNN) and Graph Convolutional Network (GCN) methods in deep learning have demonstrated high accuracy in predicting road conditions when sufficient data is available, forecasting in road networks with limited data remains a challenging task. This study proposed a novel Spatial-temporal Convolutional Network (TL-GPSTGN) based on graph pruning and transfer learning framework to tackle this issue. Firstly, the essential structure and information of the graph are extracted by analyzing the correlation and information entropy of the road network structure and feature data. By utilizing graph pruning techniques, the adjacency matrix of the graph and the input feature data are processed, resulting in a significant improvement in the model's migration performance. Subsequently, the well-characterized data are inputted into the spatial-temporal graph convolutional network to capture the spatial-temporal relationships and make predictions regarding the road conditions. Furthermore, this study conducts comprehensive testing and validation of the TL-GPSTGN method on real datasets, comparing its prediction performance against other commonly used models under identical conditions. The results demonstrate the exceptional predictive accuracy of TL-GPSTGN on a single dataset, as well as its robust migration performance across different datasets. | 翻訳日:2024-09-27 06:06:51 公開日:2024-09-25 |
# 拡散モデルにおける概念の微粒化, 編集, 消去のためのプロンプトスライダ
Prompt Sliders for Fine-Grained Control, Editing and Erasing of Concepts in Diffusion Models ( http://arxiv.org/abs/2409.16535v1 ) ライセンス: Link先を確認 | Deepak Sridhar, Nuno Vasconcelos, | (参考訳) 拡散モデルは画像合成と編集においてGANを超え、優れた画質と多様性を提供している。
しかし、生成した画像の属性を正確に制御することは依然として困難である。
概念スライダは、学習概念(属性/オブジェクト)によるきめ細かいイメージ制御と編集の手法を導入した。
しかし、このアプローチはパラメータを追加し、学習概念に使用されるローランドアダプタ(LoRA)のロードとアンロードにより、推論時間を増加させる。
これらのアダプタはモデル固有のもので、SD(Stable Diffusion) v1.5 や SD-XL など、異なるアーキテクチャで再トレーニングする必要がある。
本稿では,SDモデルの異なるバージョンを含む同じテキストエンコーダを共有するモデル間で一般化可能な,テキスト埋め込みによる概念学習のための簡単なテキストインバージョン手法を提案する。
我々はこの手法を Prompt Sliders と呼ぶ。
新たな概念を学ぶことに加えて,芸術的スタイルや成熟したコンテンツといった望ましくない概念を消去するために,Prompt Slidersを使用することも示している。
我々の手法はLoRAよりも30%高速で、アダプタのロードとアンロードを不要にし、ターゲットのテキスト埋め込み以外に追加のパラメータを導入しない。
各概念の埋め込みは、8922KB以上のLoRAアダプタと比較して3KBのストレージしか必要としないため、我々のアプローチはより計算効率が良い。
Project Page: https://deepaksridhar.github.io/promptsliders.github.io/
Diffusion models have recently surpassed GANs in image synthesis and editing, offering superior image quality and diversity. However, achieving precise control over attributes in generated images remains a challenge. Concept Sliders introduced a method for fine-grained image control and editing by learning concepts (attributes/objects). However, this approach adds parameters and increases inference time due to the loading and unloading of Low-Rank Adapters (LoRAs) used for learning concepts. These adapters are model-specific and require retraining for different architectures, such as Stable Diffusion (SD) v1.5 and SD-XL. In this paper, we propose a straightforward textual inversion method to learn concepts through text embeddings, which are generalizable across models that share the same text encoder, including different versions of the SD model. We refer to our method as Prompt Sliders. Besides learning new concepts, we also show that Prompt Sliders can be used to erase undesirable concepts such as artistic styles or mature content. Our method is 30% faster than using LoRAs because it eliminates the need to load and unload adapters and introduces no additional parameters aside from the target concept text embedding. Each concept embedding only requires 3KB of storage compared to the 8922KB or more required for each LoRA adapter, making our approach more computationally efficient. Project Page: https://deepaksridhar.github.io/promptsliders.github.io/ | 翻訳日:2024-09-27 06:06:51 公開日:2024-09-25 |
# 時間定数:ICSにおけるデバイスとプロセスの過渡応答を用いたアクチュエータフィンガープリント
Time Constant: Actuator Fingerprinting using Transient Response of Device and Process in ICS ( http://arxiv.org/abs/2409.16536v1 ) ライセンス: Link先を確認 | Chuadhry Mujeeb Ahmed, Matthew Calder, Sean Gunawan, Jay Prakash, Shishir Nagaraja, Jianying Zhou, | (参考訳) コマンドインジェクションとリプレイアタックはサイバー物理システム(CPS)の重要な脅威である。
我々は Time Constant という新しいアクチュエータフィンガープリント技術を開発した。
Time Constantはアクチュエータと物理プロセスの過渡的なダイナミクスをキャプチャする。
過渡的な振る舞いはデバイス固有のものです。
我々は、プロセスとデバイス過渡特性を組み合わせて、インサイダーの敵の顔におけるコマンド注入やリプレイ攻撃に抵抗する複写抵抗アクチュエータ指紋を開発する。
実水処理試験場からのデータと実生植物におけるリアルタイム攻撃検出により,提案手法の有効性を検証した。
この結果から,プロセス状態とアクチュエータを時間定数に基づいて一意に区別できることが示唆された。
Command injection and replay attacks are key threats in Cyber Physical Systems (CPS). We develop a novel actuator fingerprinting technique named Time Constant. Time Constant captures the transient dynamics of an actuator and physical process. The transient behavior is device-specific. We combine process and device transient characteristics to develop a copy-resistant actuator fingerprint that resists command injection and replay attacks in the face of insider adversaries. We validated the proposed scheme on data from a real water treatment testbed, as well as through real-time attack detection in the live plant. Our results show that we can uniquely distinguish between process states and actuators based on their Time Constant. | 翻訳日:2024-09-27 06:06:51 公開日:2024-09-25 |
# NOMAを用いたエッジインテリジェンスのためのQoE対応スプリット推論高速化アルゴリズム
A QoE-Aware Split Inference Accelerating Algorithm for NOMA-based Edge Intelligence ( http://arxiv.org/abs/2409.16537v1 ) ライセンス: Link先を確認 | Xin Yuan, Ning Li, Quan Chen, Wenchao Xu, Zhaoxin Zhang, Song Guo, | (参考訳) AIが広く使われ、私たちの生活を大きく変えたとしても、大きなAIモデルをリソース制限されたエッジデバイスに直接デプロイするのは適切ではありません。
このように、AIモデルを異なるサブモデルに分割し、リソース集約的なサブモデルをエッジサーバにオフロードすることで、リソース要求と推論レイテンシを低減することにより、エッジインテリジェンスの性能を向上させるためにモデル分割推論を提案する。
しかし,従来の研究は主にシステムQoSの改良と最適化に重点を置いており,QoS以外のユーザにとって重要な項目であるQoEの効果を無視している。
ECにおけるタスクオフロードとEIにおけるスプリット推論の違いと、ECとEIで対処されていないQoEの特定の問題を考えると、これらのアルゴリズムはエッジ分割推論シナリオで効果的に機能することができない。
そこで本論文では,EIにおけるスプリット推論の高速化と,推論遅延,QoE,リソース消費のトレードオフを実現するための効果的な資源割当アルゴリズムを提案する。
具体的には、リソース消費、QoE、および推論遅延を考慮に入れ、最適なモデル分割戦略とリソース割り当て戦略を見出す。
最小の推論遅延と資源消費と最大QoEを同時に満たすことができないため、勾配降下に基づくアルゴリズムを用いてそれらの間の最適なトレードオフを求める。
さらに,パラメータの離散化によるGDアルゴリズムの複雑性を低減するために,ループ反復GD手法を開発した。
さらに, 収束, 複雑性, 近似誤差など, 提案アルゴリズムの特性について検討した。
実験結果から,ERAの性能は従来の研究よりも優れていることが示された。
Even the AI has been widely used and significantly changed our life, deploying the large AI models on resource limited edge devices directly is not appropriate. Thus, the model split inference is proposed to improve the performance of edge intelligence, in which the AI model is divided into different sub models and the resource-intensive sub model is offloaded to edge server wirelessly for reducing resource requirements and inference latency. However, the previous works mainly concentrate on improving and optimizing the system QoS, ignore the effect of QoE which is another critical item for the users except for QoS. Even the QoE has been widely learned in EC, considering the differences between task offloading in EC and split inference in EI, and the specific issues in QoE which are still not addressed in EC and EI, these algorithms cannot work effectively in edge split inference scenarios. Thus, an effective resource allocation algorithm is proposed in this paper, for accelerating split inference in EI and achieving the tradeoff between inference delay, QoE, and resource consumption, abbreviated as ERA. Specifically, the ERA takes the resource consumption, QoE, and inference latency into account to find the optimal model split strategy and resource allocation strategy. Since the minimum inference delay and resource consumption, and maximum QoE cannot be satisfied simultaneously, the gradient descent based algorithm is adopted to find the optimal tradeoff between them. Moreover, the loop iteration GD approach is developed to reduce the complexity of the GD algorithm caused by parameter discretization. Additionally, the properties of the proposed algorithms are investigated, including convergence, complexity, and approximation error. The experimental results demonstrate that the performance of ERA is much better than that of the previous studies. | 翻訳日:2024-09-27 06:06:51 公開日:2024-09-25 |
# YOLOオブジェクト検出のためのソースフリードメイン適応
Source-Free Domain Adaptation for YOLO Object Detection ( http://arxiv.org/abs/2409.16538v1 ) ライセンス: Link先を確認 | Simon Varailhon, Masih Aminbeidokhti, Marco Pedersoli, Eric Granger, | (参考訳) ソースフリードメイン適応(Source-free domain adapt, SFDA)は、オブジェクト検出において難しい問題であり、プライバシと効率上の理由からソースドメインデータを一切使用せずに、事前トレーニングされたソースモデルを新しいターゲットドメインに適合させる。
オブジェクト検出のための最先端のSFDA法は、計算複雑性の高い検出器であるFaster-RCNNのために提案されている。
本稿では,実世界の視覚システム,特にその高速ベースラインと実用的な応用で知られている単発検出器のYOLOファミリに対するドメイン適応技術に焦点を当てる。
提案手法は,教師が学習対象のドメイン固有の拡張を施した画像を受け取り,未ラベルのターゲットデータのみを用いてモデルを訓練し,機能的アライメントを必要とせず,学習対象のドメインを対象とする画像を受け取るためのフレームワークである。
ラベルのない平均教師アーキテクチャを用いた自己学習の課題は、ノイズやドリフトする擬似ラベルによる精度の急激な低下である。
この問題に対処するため、教師間コミュニケーション機構を導入し、トレーニングを安定させ、モデル選択のための注釈付きターゲットデータへの依存を減らす。
その単純さにもかかわらず、我々のアプローチはいくつかの挑戦的なベンチマークデータセット上で最先端の検出器と競合する。
Source-free domain adaptation (SFDA) is a challenging problem in object detection, where a pre-trained source model is adapted to a new target domain without using any source domain data for privacy and efficiency reasons. Most state-of-the-art SFDA methods for object detection have been proposed for Faster-RCNN, a detector that is known to have high computational complexity. This paper focuses on domain adaptation techniques for real-world vision systems, particularly for the YOLO family of single-shot detectors known for their fast baselines and practical applications. Our proposed SFDA method - Source-Free YOLO (SF-YOLO) - relies on a teacher-student framework in which the student receives images with a learned, target domain-specific augmentation, allowing the model to be trained with only unlabeled target data and without requiring feature alignment. A challenge with self-training using a mean-teacher architecture in the absence of labels is the rapid decline of accuracy due to noisy or drifting pseudo-labels. To address this issue, a teacher-to-student communication mechanism is introduced to help stabilize the training and reduce the reliance on annotated target data for model selection. Despite its simplicity, our approach is competitive with state-of-the-art detectors on several challenging benchmark datasets, even sometimes outperforming methods that use source data for adaptation. | 翻訳日:2024-09-27 05:55:22 公開日:2024-09-25 |
# 談話レベル文学翻訳のための文脈認識とスタイル関連インクリメンタルデコーディングフレームワーク
Context-aware and Style-related Incremental Decoding framework for Discourse-Level Literary Translation ( http://arxiv.org/abs/2409.16539v1 ) ライセンス: Link先を確認 | Yuanchang Luo, Jiaxin Guo, Daimeng Wei, Hengchao Shang, Zongyao Li, Zhanglin Wu, Zhiqiang Rao, Shaojun Li, Jinlong Yang, Hao Yang, | (参考訳) 本稿では,WMT24 Discourse-Level Literary Translation Taskに対する我々のアプローチについて概説する。
文学テキストの翻訳は、これらの作品に固有のニュアンスな意味、慣用的な表現、複雑な物語構造が原因で、大きな課題となっている。
これらの課題に対処するために,我々はCPT(Continuous Pre-Training)とSFT(Supervised Fine-Tuning)を組み合わせることで,このタスクを特に強化した中国語-Llama2モデルを利用した。
提案手法は,テキスト全体の一貫性と一貫性を維持しつつ,各文がより広い文脈で翻訳されることを保証する新しいインクリメンタル・デコーディング・フレームワークを含む。
このアプローチにより、モデルは長距離の依存関係とスタイル的要素をキャプチャし、元の文学的品質を忠実に保存する翻訳を生成することができる。
本実験は,文章レベルのBLEUスコアと文書レベルのBLEUスコアの両方において,文書レベルの文学翻訳の複雑さに対処する上で,提案手法の有効性を実証するものである。
This report outlines our approach for the WMT24 Discourse-Level Literary Translation Task, focusing on the Chinese-English language pair in the Constrained Track. Translating literary texts poses significant challenges due to the nuanced meanings, idiomatic expressions, and intricate narrative structures inherent in such works. To address these challenges, we leveraged the Chinese-Llama2 model, specifically enhanced for this task through a combination of Continual Pre-training (CPT) and Supervised Fine-Tuning (SFT). Our methodology includes a novel Incremental Decoding framework, which ensures that each sentence is translated with consideration of its broader context, maintaining coherence and consistency throughout the text. This approach allows the model to capture long-range dependencies and stylistic elements, producing translations that faithfully preserve the original literary quality. Our experiments demonstrate significant improvements in both sentence-level and document-level BLEU scores, underscoring the effectiveness of our proposed framework in addressing the complexities of document-level literary translation. | 翻訳日:2024-09-27 05:55:22 公開日:2024-09-25 |
# キーリサイクルによる量子認証キー展開
Quantum Authenticated Key Expansion with Key Recycling ( http://arxiv.org/abs/2409.16540v1 ) ライセンス: Link先を確認 | Wen Yu Kon, Jefferson Chu, Kevin Han Yong Loh, Obada Alia, Omar Amer, Marco Pistoia, Kaushik Chakraborty, Charles Lim, | (参考訳) データプライバシと認証は、リモートアクセスとクラウドサービスの2つの主要なセキュリティ要件である。
データプライバシの問題に対処するためにQKDが検討されているが、多くの場合、その使用は暗黙的に認証を提供するにもかかわらず、クライアント認証プロトコルとは分離されている。
本稿では,(1)認証とキー拡張の両方を単一のプロトコルに統合した量子認証鍵拡張(QAKE)プロトコルを提案する。
我々は、従来の認証鍵交換(AKE)フレームワークに適合したQAKEフレームワークにおけるプロトコルのセキュリティを分析し、認証とデータのプライバシの異なるセキュリティ条件を提供する。
プロトコルの適切なポストセレクションによる実験的実装を行い、その実現可能性を示した。
Data privacy and authentication are two main security requirements for remote access and cloud services. While QKD has been explored to address data privacy concerns, oftentimes its use is separate from the client authentication protocol despite implicitly providing authentication. Here, we present a quantum authentication key expansion (QAKE) protocol that (1) integrates both authentication and key expansion within a single protocol, and (2) provides key recycling property -- allowing all authentication keys to be reused. We analyse the security of the protocol in a QAKE framework adapted from a classical authentication key exchange (AKE) framework, providing separate security conditions for authentication and data privacy. An experimental implementation of the protocol, with appropriate post-selection, was performed to demonstrate its feasibility. | 翻訳日:2024-09-27 05:55:22 公開日:2024-09-25 |
# モンゲ・カントロヴィチ、ソボレフ予算で合意
Monge-Kantorovich Fitting With Sobolev Budgets ( http://arxiv.org/abs/2409.16541v1 ) ライセンス: Link先を確認 | Forest Kobayashi, Jonathan Hayase, Young-Heon Kim, | (参考訳) 我々は、$f : \mathbb{R}^m \to \mathbb{R}^n$ ここで$m < n$ となる測度 $\nu$ を用いて、$n$-次元確率測度 $\rho$ の ``best'' 近似を求める問題を考える。
我々は、Monge-Kantorovich $p$-cost (Wasserstein $p$-cost) $\mathbb{W}_p^p(\rho, \nu)$で近似の性能を定量化し、$W^{k,q}$ Sobolevのノルムを$f$で束縛することで近似の複雑さを制限する。
すると、その問題を、Sobolev予算の制約の下で関数的な$\mathscr{J}_p(f)$を最小化するものとして再定義することができる。
一般の$k \geq 1$ をソボレフ微分可能性順序として扱う(ただし、$q, m$ は、最適化器の存在を保証するために、超臨界体制 $k q > m$ に$W^{k,q}$ を制限するために選ばれる)。
この問題は、$m=1, k = 1$ で、$k > 1$ で滑らかなスプラインを持つ主曲線(ただし、長さ制約を持つ)と密接に関連している。
新たな側面と課題は、高次微分可能性条件から生じます。
我々は、$f$ のベクトル場から与えられる $\mathscr{J}_p$ の勾配について研究する。
これは函数 $\mathscr{J}_p$ と Sobolev 予算の間の非自明な(ほとんど)厳密な単調性関係を与える。
また、自然な離散化スキームを提供し、一貫性を確立します。
この手法を用いて生成学習タスクをモデル化し、特に、ソフトペナルティとして我々のような制約を加えることで、手書き数字の画像を生成するためのGANのトレーニングが大幅に改善され、ウェイトデカイと性能が競合することを示す。
We consider the problem of finding the ``best'' approximation of an $n$-dimensional probability measure $\rho$ using a measure $\nu$ whose support is parametrized by $f : \mathbb{R}^m \to \mathbb{R}^n$ where $m < n$. We quantify the performance of the approximation with the Monge-Kantorovich $p$-cost (also called the Wasserstein $p$-cost) $\mathbb{W}_p^p(\rho, \nu)$, and constrain the complexity of the approximation by bounding the $W^{k,q}$ Sobolev norm of $f$, which acts as a ``budget.'' We may then reformulate the problem as minimizing a functional $\mathscr{J}_p(f)$ under a constraint on the Sobolev budget. We treat general $k \geq 1$ for the Sobolev differentiability order (though $q, m$ are chosen to restrict $W^{k,q}$ to the supercritical regime $k q > m$ to guarantee existence of optimizers). The problem is closely related to (but distinct from) principal curves with length constraints when $m=1, k = 1$ and smoothing splines when $k > 1$. New aspects and challenges arise from the higher order differentiability condition. We study the gradient of $\mathscr{J}_p$, which is given by a vector field along $f$ we call the barycenter field. We use it to construct improvements to a given $f$, which gives a nontrivial (almost) strict monotonicty relation between the functional $\mathscr{J}_p$ and the Sobolev budget. We also provide a natural discretization scheme and establish its consistency. We use this scheme to model a generative learning task; in particular, we demonstrate that adding a constraint like ours as a soft penalty yields substantial improvement in training a GAN to produce images of handwritten digits, with performance competitive with weight-decay. | 翻訳日:2024-09-27 05:55:22 公開日:2024-09-25 |
# AlignedKV: 高精度量子化によるKVキャッシュのメモリアクセス削減
AlignedKV: Reducing Memory Access of KV-Cache with Precision-Aligned Quantization ( http://arxiv.org/abs/2409.16546v1 ) ライセンス: Link先を確認 | Yifan Tan, Haoze Wang, Chao Yan, Yangdong Deng, | (参考訳) モデル量子化は、LLMに関連する大きなメモリ消費と長い推論時間の問題に対処する重要な技術となっている。
重要なパラメータと重要でないパラメータを区別する混合精度量子化は、精度と圧縮速度のバランスをとるため、多くの量子化スキームの中で際立っている。
しかし、既存の手法では、その重要度を定量的に分析することなく、定性的分析や手動実験によって重要なパラメータを特定できるのみである。
そこで我々は,混合精度量子化におけるパラメータの重要性を均一に評価する定量的枠組みを構築するために,いわゆる「精密アライメント」という新しい基準を提案する。
実世界の様々なシナリオ下での浮動小数点加算に関する観測は、2つの加算が同一の精度を持つべきであることを示唆している。
このような観察は、行列乗算演算において各パラメータの精度を決定するために必須の原理を提供する。
以上の発見を大規模モデル推論に適用する第一歩として,メモリアクセス遅延を効果的に低減する動的KVキャッシュ量子化技術を開発した。
メモリ節約に重点を置く既存の量子化アプローチとは異なり、本研究は浮動小数点数の定量化を通じてLSM推論を加速することを目的としている。
提案手法はメモリアクセスの25%の節約を実現し,LCMの復号フェーズにおける注目度計算において最大1.3倍の高速化を実現する。
Model quantization has become a crucial technique to address the issues of large memory consumption and long inference times associated with LLMs. Mixed-precision quantization, which distinguishes between important and unimportant parameters, stands out among numerous quantization schemes as it achieves a balance between precision and compression rate. However, existing approaches can only identify important parameters through qualitative analysis and manual experiments without quantitatively analyzing how their importance is determined. We propose a new criterion, so-called 'precision alignment', to build a quantitative framework to holistically evaluate the importance of parameters in mixed-precision quantization. Our observations on floating point addition under various real-world scenarios suggest that two addends should have identical precision, otherwise the information in the higher-precision number will be wasted. Such an observation offers an essential principle to determine the precision of each parameter in matrix multiplication operation. As the first step towards applying the above discovery to large model inference, we develop a dynamic KV-Cache quantization technique to effectively reduce memory access latency. Different from existing quantization approaches that focus on memory saving, this work directly aims to accelerate LLM inference through quantifying floating numbers. The proposed technique attains a 25% saving of memory access and delivers up to 1.3x speedup in the computation of attention in the decoding phase of LLM, with almost no loss of precision. | 翻訳日:2024-09-27 05:55:22 公開日:2024-09-25 |
# 複素Sachdev-Ye-Kitaevモデルを用いた光学格子上のブラックホール量子力学のシミュレーション
Simulating black hole quantum dynamics on an optical lattice using the complex Sachdev-Ye-Kitaev model ( http://arxiv.org/abs/2409.16553v1 ) ライセンス: Link先を確認 | Iftekher S. Chowdhury, Binay Prakash Akhouri, Shah Haque, Martin H. Bacci, Eric Howard, | (参考訳) 超低温原子を用いた光学格子上のアナログブラックホールシミュレーションのための低エネルギーモデルを提案する。
ホログラフィック原理の有効性を仮定すると、ランダムに無限の範囲で相互作用するフェルミオンの系を記述するSachdev-Ye-Kitaev(SYK)モデルを用いる。
低エネルギーでは、SYKモデルは創発的な共形対称性を示し、AdS2時空付近の極端ブラックホール溶液と双対である。
さらに、高次元のゲージ理論と双対であることが判明した大きな N 極限における SYK の最大カオス挙動は、ホログラフィック原理の非自明な調査ツールとしても利用できることを示す。
提案手法は,AdS/CFT双対性の非自明な例である低エネルギーでのエキゾチック効果と挙動を考慮したSYKモデルを実現するための理論的プラットフォームであり,ブラックホールの研究の枠組みである。
We propose a low energy model for simulating an analog black hole on an optical lattice using ultracold atoms. Assuming the validity of the holographic principle, we employ the Sachdev-Ye-Kitaev (SYK) model, which describes a system of randomly infinite range interacting fermions, also conjectured to be an exactly solvable UV-complete model for an extremal black hole in a higher dimensional Anti-de Sitter (AdS) dilaton gravity. At low energies, the SYK model exhibits an emergent conformal symmetry and is dual to the extremal black hole solution in near AdS2 spacetime. Furthermore, we show how the SYK maximally chaotic behaviour at large N limit, found to be dual to a gauge theory in higher dimensions, can also be employed as a non-trivial investigation tool for the holographic principle. The proposed setup is a theoretical platform to realize the SYK model with relevant exotic effects and behaviour at low energies as a highly non-trivial example of the AdS/CFT duality and a framework for studying black holes. | 翻訳日:2024-09-27 05:55:22 公開日:2024-09-25 |
# イベントベースの不規則時系列自動符号化
EMIT- Event-Based Masked Auto Encoding for Irregular Time Series ( http://arxiv.org/abs/2409.16554v1 ) ライセンス: Link先を確認 | Hrishikesh Patel, Ruihong Qiu, Adam Irwin, Shazia Sadiq, Sen Wang, | (参考訳) データポイントが不均一な間隔で記録される不規則な時系列は、救急病棟など、様々な時間でバイタルサインや検査結果が取得される医療現場で一般的である。
この変動は、患者の健康の重大な変動を反映し、情報的臨床的意思決定に不可欠である。
既存の不規則時系列に関する自己教師付き学習研究は、しばしば予測のような一般的な前提課題に依存し、不規則時系列によって提供される信号を完全に活用しない。
特にデータ可用性に制限のあるシナリオにおいて、モデル性能とロバスト性を高めるために不規則な時系列の特徴のために設計された特別なプレテキストタスクが必要である。
本稿では,不規則な時系列に対するイベントベースのマスキングである,新しい事前学習フレームワーク EMIT を提案する。
EMITは、潜在空間におけるマスキングに基づく再構築に焦点を当て、データの変化率に基づいてマスキングポイントを選択する。
本手法は,本質的な情報を失うことなく不規則区間の処理能力を高めながら,自然変動と測定のタイミングを保存する。
MIMIC-IIIとPhystoNet Challengeデータセットの大規模な実験は、私たちのイベントベースのマスキング戦略の優れたパフォーマンスを示している。
コードはhttps://github.com/hrishi-ds/EMIT でリリースされた。
Irregular time series, where data points are recorded at uneven intervals, are prevalent in healthcare settings, such as emergency wards where vital signs and laboratory results are captured at varying times. This variability, which reflects critical fluctuations in patient health, is essential for informed clinical decision-making. Existing self-supervised learning research on irregular time series often relies on generic pretext tasks like forecasting, which may not fully utilise the signal provided by irregular time series. There is a significant need for specialised pretext tasks designed for the characteristics of irregular time series to enhance model performance and robustness, especially in scenarios with limited data availability. This paper proposes a novel pretraining framework, EMIT, an event-based masking for irregular time series. EMIT focuses on masking-based reconstruction in the latent space, selecting masking points based on the rate of change in the data. This method preserves the natural variability and timing of measurements while enhancing the model's ability to process irregular intervals without losing essential information. Extensive experiments on the MIMIC-III and PhysioNet Challenge datasets demonstrate the superior performance of our event-based masking strategy. The code has been released at https://github.com/hrishi-ds/EMIT . | 翻訳日:2024-09-27 05:55:22 公開日:2024-09-25 |
# エージェント・ベース・シミュレーションによるソーシャルネットワークのバイアス低減
Bias Reduction in Social Networks through Agent-Based Simulations ( http://arxiv.org/abs/2409.16558v1 ) ライセンス: Link先を確認 | Nathan Bartley, Keith Burghardt, Kristina Lerman, | (参考訳) オンラインソーシャルネットワークは、パーソナライズされたタイムラインという形で、ユーザに対して関連する情報を提案するためにレコメンデーションシステムを使用する。
各ユーザが同じタイムライン条件下にあると仮定できず、適切な評価インフラを構築するのにコストがかかるため、これらのシステムが大規模に情報を公開する方法を研究することは困難である。
ユーザーが好みを定めている単純なエージェントベースモデルにより、異なるレコメンデーションシステム(とそれによってパーソナライズされたタイムライン)を比較して、ユーザのネットワークに対する認識を損なうことができることを示す。
重要なことは、ネットワーク特性に基づいてフィードを構成する単純な欲求アルゴリズムが、ランダムフィードに匹敵する知覚バイアスを減少させることである。
このことは、ソーシャルネットワークの文脈におけるレコメンダシステムの有効性を決定する上で、ネットワーク構造が持つ影響を浮き彫りにし、アルゴリズムフィード構築による知覚バイアスを軽減するためのツールを提供する。
Online social networks use recommender systems to suggest relevant information to their users in the form of personalized timelines. Studying how these systems expose people to information at scale is difficult to do as one cannot assume each user is subject to the same timeline condition and building appropriate evaluation infrastructure is costly. We show that a simple agent-based model where users have fixed preferences affords us the ability to compare different recommender systems (and thus different personalized timelines) in their ability to skew users' perception of their network. Importantly, we show that a simple greedy algorithm that constructs a feed based on network properties reduces such perception biases comparable to a random feed. This underscores the influence network structure has in determining the effectiveness of recommender systems in the social network context and offers a tool for mitigating perception biases through algorithmic feed construction. | 翻訳日:2024-09-27 05:55:22 公開日:2024-09-25 |
# LLMオープンソースプロジェクトの問題点・原因・解決策
Demystifying Issues, Causes and Solutions in LLM Open-Source Projects ( http://arxiv.org/abs/2409.16559v1 ) ライセンス: Link先を確認 | Yangxiao Cai, Peng Liang, Yifei Wang, Zengyang Li, Mojtaba Shahin, | (参考訳) LLM(Large Language Models)の発展に伴い、LLMをコア機能コンポーネントとして使用しているオープンソースプロジェクトが増えている。
LLMの研究と実践は、かなりの関心を集めているが、LLMオープンソースプロジェクトの実践者が直面している課題、これらの課題の原因、潜在的な解決策について専門的な研究は行われていない。
この研究ギャップを埋めるため,我々は,LLMオープンソースソフトウェアの開発と利用において実践者が直面する問題,これらの問題の原因,および潜在的な解決策を理解するための実証的研究を行い,15のLLMオープンソースプロジェクトのクローズドな問題をすべて収集し,要件を満たした課題をラベル付けした。
次に,データ抽出と解析のサンプルとして,ラベル付き問題から994件の問題をランダムに選択し,問題やその根本原因,潜在的な解決策について検討した。
本研究の結果から,(1)モデル問題は実践者が直面する最も一般的な問題であり,(2)モデル問題,構成と接続の問題,および特徴と方法の問題が問題の最も頻繁な原因として認識され,(3)モデル最適化が問題に対する主要な解決策であることが示唆された。
本研究の結果から,LLMオープンソースプロジェクトの実践者や研究者に示唆を与える。
With the advancements of Large Language Models (LLMs), an increasing number of open-source software projects are using LLMs as their core functional component. Although research and practice on LLMs are capturing considerable interest, no dedicated studies explored the challenges faced by practitioners of LLM open-source projects, the causes of these challenges, and potential solutions. To fill this research gap, we conducted an empirical study to understand the issues that practitioners encounter when developing and using LLM open-source software, the possible causes of these issues, and potential solutions.We collected all closed issues from 15 LLM open-source projects and labelled issues that met our requirements. We then randomly selected 994 issues from the labelled issues as the sample for data extraction and analysis to understand the prevalent issues, their underlying causes, and potential solutions. Our study results show that (1) Model Issue is the most common issue faced by practitioners, (2) Model Problem, Configuration and Connection Problem, and Feature and Method Problem are identified as the most frequent causes of the issues, and (3) Optimize Model is the predominant solution to the issues. Based on the study results, we provide implications for practitioners and researchers of LLM open-source projects. | 翻訳日:2024-09-27 05:55:22 公開日:2024-09-25 |
# 効率的なLDM推論のための動的幅投機ビーム復号法
Dynamic-Width Speculative Beam Decoding for Efficient LLM Inference ( http://arxiv.org/abs/2409.16560v1 ) ライセンス: Link先を確認 | Zongyue Qin, Zifan He, Neha Prakriya, Jason Cong, Yizhou Sun, | (参考訳) 大規模言語モデル(LLM)は多くの実世界のタスクで優れたパフォーマンスを示している。
しかし、これらのモデルの自己回帰的な性質は推論プロセスを遅く、コストがかかる。
投機的復号化は有望な解として現れ、より小さな補助モデルを利用して将来のトークンをドラフトし、より大きなモデルで同時に検証し、1-2倍のスピードアップを達成する。
投機的復号化は多項サンプリングと同じ分布に一致するが、多項サンプリング自体が準最適出力の傾向にあるのに対し、ビームサンプリングは各ステップで複数の候補シーケンスを維持することで高品質な結果を生成するために広く認識されている。
本稿では,ビームサンプリングによる投機的復号化の新たな統合について検討する。
しかし、4つの課題がある:(1)より大きなモデルの分布から与えられた小さなモデルから複数の配列を生成する方法、(2)効率と精度のバランスをとるためにビームの数を動的に最適化する方法、(3)複数のドラフトを並列に効率よく検証する方法、(4)ビームサンプリングに固有の余分なメモリコストにどのように対処するか。
これらの課題に対処するために、動的幅投機ビーム復号法(DSBD)を提案する。
具体的には、まず、小型モデルからのビームサンプリング軌跡に基づいて、大規模モデルの分布に従って複数のシーケンスを生成する新しいドラフトと検証手法を提案する。
そこで,本研究では,状況に応じて動的にビーム数を調整し,効率と効率を最適化する適応機構を提案する。
さらに,複数の木を同時に扱うために,木に基づく並列検証を拡張し,検証プロセスを高速化する。
最後に、ビームサンプリングのメモリオーバーヘッドを軽減するため、我々のアルゴリズムに簡単な修正を施す。
Large language models (LLMs) have shown outstanding performance across numerous real-world tasks. However, the autoregressive nature of these models makes the inference process slow and costly. Speculative decoding has emerged as a promising solution, leveraging a smaller auxiliary model to draft future tokens, which are then validated simultaneously by the larger model, achieving a speed-up of 1-2x. Although speculative decoding matches the same distribution as multinomial sampling, multinomial sampling itself is prone to suboptimal outputs, whereas beam sampling is widely recognized for producing higher-quality results by maintaining multiple candidate sequences at each step. This paper explores the novel integration of speculative decoding with beam sampling. However, there are four key challenges: (1) how to generate multiple sequences from the larger model's distribution given drafts sequences from the small model; (2) how to dynamically optimize the number of beams to balance efficiency and accuracy; (3) how to efficiently verify the multiple drafts in parallel; and (4) how to address the extra memory costs inherent in beam sampling. To address these challenges, we propose dynamic-width speculative beam decoding (DSBD). Specifically, we first introduce a novel draft and verification scheme that generates multiple sequences following the large model's distribution based on beam sampling trajectories from the small model. Then, we introduce an adaptive mechanism to dynamically tune the number of beams based on the context, optimizing efficiency and effectiveness. Besides, we extend tree-based parallel verification to handle multiple trees simultaneously, accelerating the verification process. Finally, we illustrate a simple modification to our algorithm to mitigate the memory overhead of beam sampling... | 翻訳日:2024-09-27 05:55:22 公開日:2024-09-25 |
# 増幅ハイブリッド絡み合い状態とコヒーレント状態の重ね合わせ
Amplifying hybrid entangled states and superpositions of coherent states ( http://arxiv.org/abs/2409.16562v1 ) ライセンス: Link先を確認 | InU Jeon, Sungjoo Cho, Hyunseok Jeong, | (参考訳) 2つの増幅スキーム、光子加算と減算(\hat{a}\hat{a}^\dagger$)と連続光子加算(\hat{a}^\dagger{}^2$)を比較し、ハイブリッドエンタングル状態(HESs)とコヒーレント状態(SCSs)の重ね合わせに適用する。
増幅スキームのHESに対する忠実度と利得はコヒーレント状態のそれと同じであることを示す。
一方、SCSは、コヒーレント状態の振幅、コヒーレント状態成分の数、およびそれらの成分間の相対位相に依存する増幅スキームによって非常に非自明な振る舞いを示す。
これは、SCSの適切な増幅スキームは、状態のタスクや特定の形式によって選択されるべきであることを意味する。
増幅状態の品質を調べるために、量子位相推定の尺度である量子フィッシャー情報を計算する。
量子フィッシャー情報の観点からは、$\hat{a}\hat{a}^\dagger$スキームは比較的小さな振幅に対してより良い性能を示す傾向にあるが、$\hat{a}^\dagger{}^2$スキームはより大きな振幅系ではより良い。
振幅が十分に大きくなると、2つのスキームの性能は区別できない。
We compare two amplification schemes, photon addition and then subtraction ($\hat{a}\hat{a}^\dagger$) and successive photon addition ($\hat{a}^\dagger{}^2$), applied to hybrid entangled states (HESs) and superpositions of coherent states (SCSs). We show that the amplification schemes' fidelity and gain for HESs are the same as those of coherent states. On the other hand, SCSs show quite nontrivial behaviors by the amplification schemes, depending on the amplitudes of coherent states, number of coherent-state components, and relative phases between the components. This implies that appropriate amplification schemes for SCSs should be chosen depending on the tasks and specific forms of the states. To investigate the quality of amplified states, we calculate the quantum Fisher information, a measure of quantum phase estimation. In terms of the quantum Fisher information, the $\hat{a}\hat{a}^\dagger$ scheme tends to show better performance for relatively small amplitudes while the $\hat{a}^\dagger{}^2$ scheme is better in larger amplitude regime. The performance of the two schemes becomes indistinguishable as the amplitude grows sufficiently large. | 翻訳日:2024-09-27 05:55:22 公開日:2024-09-25 |
# 弱いラベルを用いた微調整軽量LDMによる放射線診断における疾患検出の促進
Enhancing disease detection in radiology reports through fine-tuning lightweight LLM on weak labels ( http://arxiv.org/abs/2409.16563v1 ) ライセンス: Link先を確認 | Yishu Wei, Xindi Wang, Hanley Ong, Yiliang Zhou, Adam Flanders, George Shih, Yifan Peng, | (参考訳) 医学領域に大規模言語モデル(LLM)を適用するという大きな進歩にもかかわらず、いくつかの制限は実用的応用を妨げている。
その中には、モデルサイズとコホート固有のラベル付きデータセットの欠如に関する制約がある。
本研究では,Llama 3.1-8B などの軽量 LLM を,合成ラベルを用いたデータセットの微調整により改良する可能性について検討した。
2つのタスクは、それぞれの命令データセットを組み合わせることで共同で訓練される。
タスク特異的な合成ラベルの品質が比較的高い場合(例えば、GPT4−oにより生成される)、Llama 3.1-8Bは、マイクロF1スコア0.91で、オープンエンドの疾患検出タスクにおいて良好な性能を達成する。
逆に、タスク関連合成ラベルの品質が比較的低い場合(例えばMIMIC-CXRデータセットから)、微調整のLlama 3.1-8Bは、キュレートされたラベルに対して校正した場合、ノイズの多い教師ラベル(micro F1 score of 0.67 v.s. 0.63)を超えることができ、モデルの根底にある強力な能力を示している。
これらの結果は, 合成ラベルを用いた微調整LDMの可能性を示し, 医用領域におけるLSM専門化の今後の研究に向けて有望な方向性を示すものである。
Despite significant progress in applying large language models (LLMs) to the medical domain, several limitations still prevent them from practical applications. Among these are the constraints on model size and the lack of cohort-specific labeled datasets. In this work, we investigated the potential of improving a lightweight LLM, such as Llama 3.1-8B, through fine-tuning with datasets using synthetic labels. Two tasks are jointly trained by combining their respective instruction datasets. When the quality of the task-specific synthetic labels is relatively high (e.g., generated by GPT4- o), Llama 3.1-8B achieves satisfactory performance on the open-ended disease detection task, with a micro F1 score of 0.91. Conversely, when the quality of the task-relevant synthetic labels is relatively low (e.g., from the MIMIC-CXR dataset), fine-tuned Llama 3.1-8B is able to surpass its noisy teacher labels (micro F1 score of 0.67 v.s. 0.63) when calibrated against curated labels, indicating the strong inherent underlying capability of the model. These findings demonstrate the potential of fine-tuning LLMs with synthetic labels, offering a promising direction for future research on LLM specialization in the medical domain. | 翻訳日:2024-09-27 05:55:22 公開日:2024-09-25 |
# タスク適応検索のためのクエリ生成からの解答
Disentangling Questions from Query Generation for Task-Adaptive Retrieval ( http://arxiv.org/abs/2409.16570v1 ) ライセンス: Link先を確認 | Yoonsang Lee, Minsoo Kim, Seung-won Hwang, | (参考訳) 本稿では,未知のタスクに適応するために,情報検索の課題について検討する。
既存の作業では、ドメイン固有のドキュメントから合成クエリを生成して、検索者を共同で訓練する。
しかし、従来のクエリジェネレータは、クエリを質問として仮定するので、一般的な検索意図を満たさない。
よりエレガントなアプローチでは、137B LLMによる少数ショット学習のようなタスク適応的要素が組み込まれている。
本稿では、問合せと問合せの傾向に挑戦し、代わりに、問合せ生成タスクをタスク適応型問合せへの高レベルの意図の「コンパイル」として概念化する。
具体的には、BeIRベンチマークで表現された広範囲な検索意図に適応するクエリジェネレータEGGを提案する。
提案手法は,従来よりも47倍小さいクエリジェネレータを用いて,探索対象の少ない4つのタスクにおいて,ベースラインと既存モデルの性能を向上する。
この結果から,LMを明示的な探索意図で指示することが,効率的なクエリジェネレータをモデル化する上で重要な要素であることが判明した。
This paper studies the problem of information retrieval, to adapt to unseen tasks. Existing work generates synthetic queries from domain-specific documents to jointly train the retriever. However, the conventional query generator assumes the query as a question, thus failing to accommodate general search intents. A more lenient approach incorporates task-adaptive elements, such as few-shot learning with an 137B LLM. In this paper, we challenge a trend equating query and question, and instead conceptualize query generation task as a "compilation" of high-level intent into task-adaptive query. Specifically, we propose EGG, a query generator that better adapts to wide search intents expressed in the BeIR benchmark. Our method outperforms baselines and existing models on four tasks with underexplored intents, while utilizing a query generator 47 times smaller than the previous state-of-the-art. Our findings reveal that instructing the LM with explicit search intent is a key aspect of modeling an effective query generator. | 翻訳日:2024-09-27 05:55:22 公開日:2024-09-25 |
# 3次元地質炭素採取のための効率よく一般化可能なFourier-DeepONet
Efficient and generalizable nested Fourier-DeepONet for three-dimensional geological carbon sequestration ( http://arxiv.org/abs/2409.16572v1 ) ライセンス: Link先を確認 | Jonathan E. Lee, Min Zhu, Ziqiao Xi, Kun Wang, Yanhua O. Yuan, Lu Lu, | (参考訳) 地質炭素沈降(GCS)は、永久保存のためにCO$2$を地下の地質層に注入する。
数値シミュレーションにより,GCSプロジェクトにおけるCO$2$マイグレーション経路と貯蔵時の圧力分布を予測して決定を導出することができる。
しかし、これらのシミュレーションは高結合物理学と大きな時空間シミュレーション領域のために計算コストがかかることが多い。
データ駆動機械学習を用いた代理モデリングは、物理学に基づくシミュレーションを加速する上で有望な代替手段となっている。
これらのうち、フーリエ神経作用素(FNO)は三次元合成地下モデルに応用されている。
そこで我々は,FNOの表現性とDeepONet(DeepONet)のモジュール性を組み合わせたネストしたFourier-DeepONetを開発した。
この新しいフレームワークは、トレーニング用のネストされたFNOの2倍効率が高く、時間座標を別々に扱う柔軟性のため、GPUメモリ要件が少なくとも80%低い。
これらの性能改善は予測精度を損なうことなく達成される。
さらに,営巣したFourier-DeepONetのトレーニング範囲を越えた一般化と外挿能力の評価を行った。
Nested Fourier-DeepONetは、50%以上のエラーで、ネストされたFNOを外挿でパフォーマンスした。
また, 貯水池特性, 井戸数, 注入速度に関して, トレーニング範囲を超えて良好な外挿精度を示した。
Geological carbon sequestration (GCS) involves injecting CO$_2$ into subsurface geological formations for permanent storage. Numerical simulations could guide decisions in GCS projects by predicting CO$_2$ migration pathways and the pressure distribution in storage formation. However, these simulations are often computationally expensive due to highly coupled physics and large spatial-temporal simulation domains. Surrogate modeling with data-driven machine learning has become a promising alternative to accelerate physics-based simulations. Among these, the Fourier neural operator (FNO) has been applied to three-dimensional synthetic subsurface models. Here, to further improve performance, we have developed a nested Fourier-DeepONet by combining the expressiveness of the FNO with the modularity of a deep operator network (DeepONet). This new framework is twice as efficient as a nested FNO for training and has at least 80% lower GPU memory requirement due to its flexibility to treat temporal coordinates separately. These performance improvements are achieved without compromising prediction accuracy. In addition, the generalization and extrapolation ability of nested Fourier-DeepONet beyond the training range has been thoroughly evaluated. Nested Fourier-DeepONet outperformed the nested FNO for extrapolation in time with more than 50% reduced error. It also exhibited good extrapolation accuracy beyond the training range in terms of reservoir properties, number of wells, and injection rate. | 翻訳日:2024-09-27 05:55:22 公開日:2024-09-25 |
# 不確実性を考慮した人間の選好景観の能動的学習による屋外環境における反応型マルチロボットナビゲーション
Reactive Multi-Robot Navigation in Outdoor Environments Through Uncertainty-Aware Active Learning of Human Preference Landscape ( http://arxiv.org/abs/2409.16577v1 ) ライセンス: Link先を確認 | Chao Huang, Wenshuo Zang, Carlo Pinciroli, Zhi Jane Li, Taposh Banerjee, Lili Su, Rui Liu, | (参考訳) シングルロボットと比較して、マルチロボットシステム(MRS)は多様な能力を持つ複数のメンバーが存在するため、ミッションをより効率的に実行することができる。
しかし、広範囲の現実世界環境にMSSを配置することは、不確実で様々な障害(例えば、クラスタや木を構築するなど)のために依然として困難である。
性能上の環境不確実性について限定的な理解があるため、MSSは環境適応とタスク達成の両立を保証するために、その行動(例えば、チーム化、負荷共有、軌道計画)を柔軟に調整することはできない。
本研究では, ランドスケープ・ラーニング・アンド・ビヘイビア・アライメント・フレームワーク(PLBA)を新たに設計した。
PLBAは, 環境特性の空間的相関を利用して, MRS調整のためのリアルタイムな人的指導を効率よく統合し, スパース変分ガウス過程とVarying Output Noiseを用いて人的嗜好を迅速に評価する。
最適化に基づく行動調整手法は、MSSの挙動を環境に安全に適応させる。
MRSの挙動適応におけるPLBAの有効性を検証するため,洪水災害探索・救助作業が設計された。
20人の人間が「タスク品質」「タスク進捗」「ロボットの安全性」に関連するMSSの行動から得られる人間の嗜好に基づいて1764のフィードバックを提供した。
予測精度と適応速度は、優先学習およびMSS行動適応におけるPLBAの有効性を示す。
Compared with single robots, Multi-Robot Systems (MRS) can perform missions more efficiently due to the presence of multiple members with diverse capabilities. However, deploying an MRS in wide real-world environments is still challenging due to uncertain and various obstacles (e.g., building clusters and trees). With a limited understanding of environmental uncertainty on performance, an MRS cannot flexibly adjust its behaviors (e.g., teaming, load sharing, trajectory planning) to ensure both environment adaptation and task accomplishments. In this work, a novel joint preference landscape learning and behavior adjusting framework (PLBA) is designed. PLBA efficiently integrates real-time human guidance to MRS coordination and utilizes Sparse Variational Gaussian Processes with Varying Output Noise to quickly assess human preferences by leveraging spatial correlations between environment characteristics. An optimization-based behavior-adjusting method then safely adapts MRS behaviors to environments. To validate PLBA's effectiveness in MRS behavior adaption, a flood disaster search and rescue task was designed. 20 human users provided 1764 feedback based on human preferences obtained from MRS behaviors related to "task quality", "task progress", "robot safety". The prediction accuracy and adaptation speed results show the effectiveness of PLBA in preference learning and MRS behavior adaption. | 翻訳日:2024-09-27 05:55:22 公開日:2024-09-25 |
# FLaRe: 大規模で有能で適応的なロボットポリシーを実現する
強化学習ファインチューニング
FLaRe: Achieving Masterful and Adaptive Robot Policies with Large-Scale Reinforcement Learning Fine-Tuning ( http://arxiv.org/abs/2409.16578v1 ) ライセンス: Link先を確認 | Jiaheng Hu, Rose Hendrix, Ali Farhadi, Aniruddha Kembhavi, Roberto Martin-Martin, Peter Stone, Kuo-Hao Zeng, Kiana Ehsan | (参考訳) 近年、ロボティクス分野は、大規模マルチタスク・ビヘイビア・クローンを通じて、汎用的なロボットポリシーを構築するためにいくつかの取り組みを開始している。
しかし、これらのポリシーの直接的な展開は、政策が目に見えない状態やタスクと競合する不満足なパフォーマンスにつながっている。
これらのモデルのパフォーマンス高原をどうやって突破し、その能力を新しい高さに高めることができるのか?
本稿では、堅牢な事前学習表現、大規模トレーニング、勾配安定化技術を統合した大規模強化学習微調整フレームワークであるFLaReを提案する。
提案手法は,タスク完了に向けた事前訓練されたポリシーを整列し,従来と全く新しいタスクと実施の両面で,最先端(SoTA)のパフォーマンスを達成する。
具体的には、長い水平移動操作タスクのセットにおいて、FLaReは目に見えない環境では平均79.5%の成功率を達成し、シミュレーションでは+23.6%、SOTAでは+30.7%の絶対的な改善を達成している。
スパース報酬のみを利用することで、人間の努力を最小限に抑えることで、事前学習データ以外の新たな能力への一般化が可能になる。
さらに,1日以内の微調整で新しい実施形態や行動に迅速に適応できることを示す。
ビデオはプロジェクトのWebサイトhttps://robot-flare.github.io/にある。
In recent years, the Robotics field has initiated several efforts toward building generalist robot policies through large-scale multi-task Behavior Cloning. However, direct deployments of these policies have led to unsatisfactory performance, where the policy struggles with unseen states and tasks. How can we break through the performance plateau of these models and elevate their capabilities to new heights? In this paper, we propose FLaRe, a large-scale Reinforcement Learning fine-tuning framework that integrates robust pre-trained representations, large-scale training, and gradient stabilization techniques. Our method aligns pre-trained policies towards task completion, achieving state-of-the-art (SoTA) performance both on previously demonstrated and on entirely novel tasks and embodiments. Specifically, on a set of long-horizon mobile manipulation tasks, FLaRe achieves an average success rate of 79.5% in unseen environments, with absolute improvements of +23.6% in simulation and +30.7% on real robots over prior SoTA methods. By utilizing only sparse rewards, our approach can enable generalizing to new capabilities beyond the pretraining data with minimal human effort. Moreover, we demonstrate rapid adaptation to new embodiments and behaviors with less than a day of fine-tuning. Videos can be found on the project website at https://robot-flare.github.io/ | 翻訳日:2024-09-27 05:45:19 公開日:2024-09-25 |
# 量子情報処理のためのランタノイド添加Y$_2$SiO$_5$マイクロ結晶の成長と分光
Growth and Spectroscopy of Lanthanide Doped Y$_2$SiO$_5$ Microcrystals for Quantum Information Processing ( http://arxiv.org/abs/2409.16580v1 ) ライセンス: Link先を確認 | Jamin L. B. Martin, Lily F. Williams, Michael F. Reid, Jon-Paul R. Wells, | (参考訳) ランタニドをドープしたY$_{2}$SiO$_{5}$マイクロ結晶は, 溶液燃焼, 固体, ゾル-ゲル合成技術を用いて調製した。
これらのうち、ゾル-ゲル法は最も信頼性が高く高品質なX2相 Y$_{2}$SiO$_{5}$マイクロ結晶を生成する。
低温下でのNd$^{3+}$, Eu$^{3+}$およびEr$^{3+}$ドープ材料の吸収およびレーザーサイト選択蛍光測定により, 同濃度のバルク結晶に匹敵する光線幅を均一に拡大し, 成長した微結晶は高い光学特性を有することが示された。
Lanthanide-doped Y$_{2}$SiO$_{5}$ microcrystals were prepared using the solution combustion, solid state and sol-gel synthesis techniques. Of these, the sol-gel method yields the most reliable and high-quality X2 phase Y$_{2}$SiO$_{5}$ microcrystals. Absorption and laser site-selective fluorescence measurements of Nd$^{3+}$, Eu$^{3+}$ and Er$^{3+}$ doped material, performed at cryogenic temperatures, indicate that the as-grown microcrystals are of high optical quality with inhomogeneously broadened optical linewidths that are comparable to bulk crystals at similar dopant concentrations. | 翻訳日:2024-09-27 05:45:19 公開日:2024-09-25 |
# SelectiveKD:知識蒸留と擬似ラベルによるDBTがん検出のための半教師付きフレームワーク
SelectiveKD: A semi-supervised framework for cancer detection in DBT through Knowledge Distillation and Pseudo-labeling ( http://arxiv.org/abs/2409.16581v1 ) ライセンス: Link先を確認 | Laurent Dillard, Hyeonsoo Lee, Weonsuk Lee, Tae Soo Kim, Ali Diba, Thijs Kooi, | (参考訳) デジタル乳房共生(DBT)のためのCADシステムの開発において,モダリティの体積特性から生じる複雑性は,大規模な正確なアノテーションを得る上で重要な技術的課題となっている。
大規模なアノテーションにアクセスできなければ、結果のモデルは異なるドメインに一般化できない。
DBTアノテーションの取得のコスト性を考えると、DBT CADシステムのトレーニングに使用されるデータ量を効果的に増やす方法は未解決の課題である。
本稿では,DBTのがん検出モデルを構築するための半教師付き学習フレームワークであるSelectiveKDを提案する。
我々は,DBTスタックで利用可能なラベルのないスライスを,教師モデルがDBTボリュームのすべてのスライスに対して,生徒モデルに監督信号を提供する知識蒸留フレームワークを通じて利用することにより,これを実現する。
本フレームワークは,擬似ラベルを用いた選択的データセット拡張戦略を実装することにより,教師の監督信号の潜在的なノイズを軽減する。
複数のデバイスメーカーやロケーションから収集した1万以上のDBT試験を,大規模な実世界のデータセットで評価した。
その結果、SelectiveKDプロセスはDBTスタックからの無注釈スライスを効果的に利用し、がん分類性能(AUC)と一般化性能を大幅に改善する。
When developing Computer Aided Detection (CAD) systems for Digital Breast Tomosynthesis (DBT), the complexity arising from the volumetric nature of the modality poses significant technical challenges for obtaining large-scale accurate annotations. Without access to large-scale annotations, the resulting model may not generalize to different domains. Given the costly nature of obtaining DBT annotations, how to effectively increase the amount of data used for training DBT CAD systems remains an open challenge. In this paper, we present SelectiveKD, a semi-supervised learning framework for building cancer detection models for DBT, which only requires a limited number of annotated slices to reach high performance. We achieve this by utilizing unlabeled slices available in a DBT stack through a knowledge distillation framework in which the teacher model provides a supervisory signal to the student model for all slices in the DBT volume. Our framework mitigates the potential noise in the supervisory signal from a sub-optimal teacher by implementing a selective dataset expansion strategy using pseudo labels. We evaluate our approach with a large-scale real-world dataset of over 10,000 DBT exams collected from multiple device manufacturers and locations. The resulting SelectiveKD process effectively utilizes unannotated slices from a DBT stack, leading to significantly improved cancer classification performance (AUC) and generalization performance. | 翻訳日:2024-09-27 05:45:19 公開日:2024-09-25 |
# AutoSTF: 費用対効果自動時空間予測のための分離型ニューラルネットワーク探索
AutoSTF: Decoupled Neural Architecture Search for Cost-Effective Automated Spatio-Temporal Forecasting ( http://arxiv.org/abs/2409.16586v1 ) ライセンス: Link先を確認 | Tengfei Lyu, Weijia Zhang, Jinliang Deng, Hao Liu, | (参考訳) 時空間予測は、交通の最適化、エネルギー管理、社会経済分析など、様々なスマートシティの応用において重要な要素である。
近年、複雑な時空間依存を捉えるために最適なニューラルネットワークアーキテクチャを自動検索するために、いくつかの自動時空間予測法が提案されている。
しかし、既存の自動化アプローチは高価なニューラルネットワーク探索オーバーヘッドに悩まされ、その実用性を妨げ、より微細な粒度で多様な時空間演算子を探索する。
本稿では,コスト効率の高い自動時空間予測のための分離型自動ニューラルネットワーク探索フレームワークであるAutoSTFを提案する。
効率の観点から、まず混合探索空間を時間空間と空間空間に分離し、それぞれ表現圧縮とパラメータ共有スキームを考案し、パラメータの爆発を緩和する。
分離された時空間探索は、モデル最適化プロセスを高速化するだけでなく、より効果的な時空間依存モデリングのための新たな余地も残している。
有効性の観点からは,多粒度時間的依存関係を連続的に捕捉し,空間探索空間を拡張し,よりきめ細かな層状空間依存探索を可能にするマルチパッチ転送モジュールを提案する。
8つのデータセットに対する大規模な実験は、精度と効率の両面でAutoSTFの優位性を示している。
具体的には,最新の自動時空間予測手法と比較して最大13.48倍の高速化を実現し,最高の予測精度を維持した。
Spatio-temporal forecasting is a critical component of various smart city applications, such as transportation optimization, energy management, and socio-economic analysis. Recently, several automated spatio-temporal forecasting methods have been proposed to automatically search the optimal neural network architecture for capturing complex spatio-temporal dependencies. However, the existing automated approaches suffer from expensive neural architecture search overhead, which hinders their practical use and the further exploration of diverse spatio-temporal operators in a finer granularity. In this paper, we propose AutoSTF, a decoupled automatic neural architecture search framework for cost-effective automated spatio-temporal forecasting. From the efficiency perspective, we first decouple the mixed search space into temporal space and spatial space and respectively devise representation compression and parameter-sharing schemes to mitigate the parameter explosion. The decoupled spatio-temporal search not only expedites the model optimization process but also leaves new room for more effective spatio-temporal dependency modeling. From the effectiveness perspective, we propose a multi-patch transfer module to jointly capture multi-granularity temporal dependencies and extend the spatial search space to enable finer-grained layer-wise spatial dependency search. Extensive experiments on eight datasets demonstrate the superiority of AutoSTF in terms of both accuracy and efficiency. Specifically, our proposed method achieves up to 13.48x speed-up compared to state-of-the-art automatic spatio-temporal forecasting methods while maintaining the best forecasting accuracy. | 翻訳日:2024-09-27 05:45:19 公開日:2024-09-25 |
# カオスがエルゴトロピーに及ぼす影響における二分法
Dichotomy in the effect of chaos on ergotropy ( http://arxiv.org/abs/2409.16587v1 ) ライセンス: Link先を確認 | Sreeram PG, J. Bharathi Kannan, S. Harshini Tekur, M. S. Santhanam, | (参考訳) 我々は、量子キックトップと蹴られたイジングスピンチェーンという2つの量子カオスモデルにおいて、システムから最大で一元抽出可能な仕事であるエルゴトロピーを研究する。
アンシラを補助するシナリオでは、カオスは状態が分かっているときにエルゴトロピーを増強し、カオス状態における大きな絡み合いの結果として生じる。
対照的に、状態が不明な場合、カオスと作業の間に負の相関関係を確立する。
マイナス面は、粗い粒度の計測からシステムのカオス的情報獲得を妨げている。
絡み合いと粗い粒度の測定の両方が存在する場合、両者の間には競合があり、エルゴトロピーは最初増加し、その後大きなキック強度が減少する。
We study ergotropy, the maximum unitarily extractable work from a system, in two quantum chaotic models: the quantum kicked top and the kicked Ising spin chain. In an ancilla-assisted scenario, chaos enhances ergotropy when the state is known, a consequence of large entanglement production in the chaotic regime. In contrast, we establish a negative correlation between chaos and work when the state is unknown. The downside arises from chaos impeding information gain of the system from coarse-grained measurements. When both entanglement and coarse-grained measurements are present, there is competition between the two, and the ergotropy initially increases, followed by a decrease at larger kick-strengths. | 翻訳日:2024-09-27 05:45:19 公開日:2024-09-25 |
# Webスケール検索における事前学習グラフフォーマーによるランク付け(拡張要約)
Pre-trained Graphformer-based Ranking at Web-scale Search (Extended Abstract) ( http://arxiv.org/abs/2409.16590v1 ) ライセンス: Link先を確認 | Yuchen Li, Haoyi Xiong, Linghe Kong, Zeyi Sun, Hongyang Chen, Shuaiqiang Wang, Dawei Yin, | (参考訳) TransformerとGraph Neural Networks(GNN)はどちらも、LTR(Learning to rank)の分野に採用されている。
しかし、これらのアプローチは、クエリ-ページ対に基づくランキングスコアの回帰と、クエリ-ページ二部グラフ内のリンク予測の2つの異なる相補的な問題定式化に固執する。
ソースデータセット上でGNNやTransformerを事前トレーニングし、少量の注釈付きLTRデータセットで微調整することは可能だが、ペアベースと二部グラフドメイン間の分散シフトは、これらの異種モデルをWebスケールで統一LTRフレームワークに統合する上で大きな課題となる。
これを解決するために,モジュール型およびカプセル型事前学習戦略を活用する新しいMPGrafモデルを導入し,トランスフォーマーの回帰能力をGNNのリンク予測強度と密に統合することを目的とした。
我々は、MPGrafの性能を厳格に評価するために、大規模なオフラインおよびオンライン実験を行っている。
Both Transformer and Graph Neural Networks (GNNs) have been employed in the domain of learning to rank (LTR). However, these approaches adhere to two distinct yet complementary problem formulations: ranking score regression based on query-webpage pairs, and link prediction within query-webpage bipartite graphs, respectively. While it is possible to pre-train GNNs or Transformers on source datasets and subsequently fine-tune them on sparsely annotated LTR datasets, the distributional shifts between the pair-based and bipartite graph domains present significant challenges in integrating these heterogeneous models into a unified LTR framework at web scale. To address this, we introduce the novel MPGraf model, which leverages a modular and capsule-based pre-training strategy, aiming to cohesively integrate the regression capabilities of Transformers with the link prediction strengths of GNNs. We conduct extensive offline and online experiments to rigorously evaluate the performance of MPGraf. | 翻訳日:2024-09-27 05:45:19 公開日:2024-09-25 |
# MambaJSCC: 一般化された状態空間モデルによる適応的な深部結合型ソースチャネル符号化
MambaJSCC: Adaptive Deep Joint Source-Channel Coding with Generalized State Space Model ( http://arxiv.org/abs/2409.16592v1 ) ライセンス: Link先を確認 | Tong Wu, Zhiyong Chen, Meixia Tao, Yaping Sun, Xiaodong Xu, Wenjun Zhang, Ping Zhang, | (参考訳) ディープジョイントソースチャネル符号化(JSCC)のための軽量で効率的なニューラルネットワークモデルは、セマンティック通信に不可欠である。
本稿では,計算量とパラメータのオーバーヘッドを少なくして最先端性能を実現する新しいJSCCアーキテクチャであるMambaJSCCを提案する。
MambaJSCCは、チャネル適応(VSSM-CA)ブロックをバックボーンとして、一般的な状態空間モデル(GSSM)とゼロパラメータゼロ計算チャネル適応法(CSI-ReST)で構成される。
我々はGSSMモジュールを設計し、可逆行列変換を利用して一般化スキャン拡張操作を表現し、2つのGSSMモジュールがグローバル情報を効果的に取得できることを理論的に証明する。
GSSMは本質的に内因性知能の一種であるチャネルに適応する能力を持っていることが判明した。
そこで我々は,チャネル状態情報(CSI)をGSSMの初期状態に注入し,その応答を生かし,CSIの忘れを軽減し,新たな計算およびパラメータオーバーヘッドを導入することなく,効果的なチャネル適応を可能にするCSI-ReST法を設計した。
実験結果から,MambaJSCCは既存のJSCCメソッド(例えばSwinJSCC)を様々なシナリオで上回るだけでなく,パラメータサイズ,計算オーバーヘッド,推論遅延を大幅に低減することがわかった。
Lightweight and efficient neural network models for deep joint source-channel coding (JSCC) are crucial for semantic communications. In this paper, we propose a novel JSCC architecture, named MambaJSCC, that achieves state-of-the-art performance with low computational and parameter overhead. MambaJSCC utilizes the visual state space model with channel adaptation (VSSM-CA) blocks as its backbone for transmitting images over wireless channels, where the VSSM-CA primarily consists of the generalized state space models (GSSM) and the zero-parameter, zero-computational channel adaptation method (CSI-ReST). We design the GSSM module, leveraging reversible matrix transformations to express generalized scan expanding operations, and theoretically prove that two GSSM modules can effectively capture global information. We discover that GSSM inherently possesses the ability to adapt to channels, a form of endogenous intelligence. Based on this, we design the CSI-ReST method, which injects channel state information (CSI) into the initial state of GSSM to utilize its native response, and into the residual state to mitigate CSI forgetting, enabling effective channel adaptation without introducing additional computational and parameter overhead. Experimental results show that MambaJSCC not only outperforms existing JSCC methods (e.g., SwinJSCC) across various scenarios but also significantly reduces parameter size, computational overhead, and inference delay. | 翻訳日:2024-09-27 05:45:19 公開日:2024-09-25 |
# 分割学習のためのハイブリッド量子ニューラルネットワーク
A Hybrid Quantum Neural Network for Split Learning ( http://arxiv.org/abs/2409.16593v1 ) ライセンス: Link先を確認 | Hevish Cowlessur, Chandra Thapa, Tansu Alpcan, Seyit Camtepe, | (参考訳) 量子機械学習(QML)は、分散コラボレーティブラーニング(SL)のような、分散コラボレーティブラーニングへの潜在的な応用に関する、新たな研究分野である。
SLにより、リソース制約のあるクライアントは、サーバでMLモデルを協調的にトレーニングし、計算オーバーヘッドを減らし、生のデータ共有を回避してデータのプライバシを可能にする。
SLを用いたQMLは研究されているが、クライアントが量子コンピューティング能力に欠けるリソース制約のある環境では未解決のままである。
さらに、SL内のクライアントとサーバ間のデータプライバシリークは、サーバ側のリコンストラクション攻撃のリスクをもたらす。
これらの課題に対処するため,本研究では,ハイブリッドQMLをSLに応用したHybrid Quantum Split Learning (HQSL)を提案する。
HQSLは、従来のクライアントがハイブリッド量子サーバでモデルをトレーニングし、再構築攻撃を縮小することを可能にする。
さらに、HQSLにおける量子層を設計するための新しい量子ビット効率データローディング手法を導入し、量子ビット数と回路深さを最小化する。
5つのデータセットの実験では、HQSLの実用性と、従来のモデルと比較して分類性能を向上させる能力を示している。
特に、HQSLは、Fashion-MNISTデータセットの精度とF1スコアの両方で平均3%以上の改善を達成し、Speech Commandsデータセットのメトリクスの1.5%以上を達成している。
これらの研究を最大100のクライアントに拡張し、HQSLのスケーラビリティを確認します。
さらに,サーバ側のリコンストラクション攻撃に対処する防音機構を導入する。
HQSLは全体として、古典的なクライアントがハイブリッド量子サーバでモデルを協調的にトレーニングし、量子上のアドバンテージを活用しながら、モデルのパフォーマンスとデータプライバシリーク関連リコンストラクション攻撃に対するセキュリティを改善します。
Quantum Machine Learning (QML) is an emerging field of research with potential applications to distributed collaborative learning, such as Split Learning (SL). SL allows resource-constrained clients to collaboratively train ML models with a server, reduce their computational overhead, and enable data privacy by avoiding raw data sharing. Although QML with SL has been studied, the problem remains open in resource-constrained environments where clients lack quantum computing capabilities. Additionally, data privacy leakage between client and server in SL poses risks of reconstruction attacks on the server side. To address these issues, we propose Hybrid Quantum Split Learning (HQSL), an application of Hybrid QML in SL. HQSL enables classical clients to train models with a hybrid quantum server and curtails reconstruction attacks. In addition, we introduce a novel qubit-efficient data-loading technique for designing a quantum layer in HQSL, minimizing both the number of qubits and circuit depth. Experiments on five datasets demonstrate HQSL's feasibility and ability to enhance classification performance compared to its classical models. Notably, HQSL achieves mean improvements of over 3% in both accuracy and F1-score for the Fashion-MNIST dataset, and over 1.5% in both metrics for the Speech Commands dataset. We expand these studies to include up to 100 clients, confirming HQSL's scalability. Moreover, we introduce a noise-based defense mechanism to tackle reconstruction attacks on the server side. Overall, HQSL enables classical clients to collaboratively train their models with a hybrid quantum server, leveraging quantum advantages while improving model performance and security against data privacy leakage-related reconstruction attacks. | 翻訳日:2024-09-27 05:45:19 公開日:2024-09-25 |
# Webスケールでの過パラメータ化による事前学習ランキング生成モデル(拡張抽象)
Generative Pre-trained Ranking Model with Over-parameterization at Web-Scale (Extended Abstract) ( http://arxiv.org/abs/2409.16594v1 ) ライセンス: Link先を確認 | Yuchen Li, Haoyi Xiong, Linghe Kong, Jiang Bian, Shuaiqiang Wang, Guihai Chen, Dawei Yin, | (参考訳) LTR(Learning to rank)は、検索クエリに基づいて検索されたコンテンツから関連するWebページを優先順位付けするために、Web検索に広く利用されている。
しかし、従来のLTRモデルでは、(1)検索クエリの人気度を多岐にわたってカバーする、十分な注釈付きクエリ-ウェブページペアの欠如、(2)LTRの汎用表現を誘導できない不適切なトレーニングモデル、という2つの障害に直面する。
これらの課題に対処するため、我々は \emph{\uline{G}enerative \uline{S}emi-\uline{S}upervised \uline{P}re-trained} (GS2P) LTRモデルを提案する。
我々は,公開データセットと大規模検索エンジンから収集した実世界のデータセットの両方に対して,大規模なオフライン実験を行う。
さらに,現実的なトラフィックを持つ大規模Web検索エンジンにGS2Pをデプロイし,実世界のアプリケーションにおける大幅な改善を観察する。
Learning to rank (LTR) is widely employed in web searches to prioritize pertinent webpages from retrieved content based on input queries. However, traditional LTR models encounter two principal obstacles that lead to suboptimal performance: (1) the lack of well-annotated query-webpage pairs with ranking scores covering a diverse range of search query popularities, which hampers their ability to address queries across the popularity spectrum, and (2) inadequately trained models that fail to induce generalized representations for LTR, resulting in overfitting. To address these challenges, we propose a \emph{\uline{G}enerative \uline{S}emi-\uline{S}upervised \uline{P}re-trained} (GS2P) LTR model. We conduct extensive offline experiments on both a publicly available dataset and a real-world dataset collected from a large-scale search engine. Furthermore, we deploy GS2P in a large-scale web search engine with realistic traffic, where we observe significant improvements in the real-world application. | 翻訳日:2024-09-27 05:45:19 公開日:2024-09-25 |
# EventHallusion:ビデオLLMにおけるイベント幻覚の診断
EventHallusion: Diagnosing Event Hallucinations in Video LLMs ( http://arxiv.org/abs/2409.16597v1 ) ライセンス: Link先を確認 | Jiacheng Zhang, Yang Jiao, Shaoxiang Chen, Jingjing Chen, Yu-Gang Jiang, | (参考訳) 近年,ビデオ理解分野においてMLLM(Multimodal Large Language Models)が大きな進歩を遂げている。
これらのビデオLLMの幻覚問題は、その画像領域のそれと比較すると、顕著なコンテンツ推論と命令追従能力にもかかわらず、あまり研究されていない。
このギャップを軽減するために,我々はまず,ビデオイベント理解におけるビデオLMMの幻覚現象を評価する新しいベンチマークであるEventHallusionを提案する。
既存の VideoLLM が基盤モデルから派生した先行情報と絡み合っているという観測に基づいて,私たちの EventHallusion は,ビデオの収集と,ビデオ内容の正確な理解よりも,ビデオLLM を意図的に誤解して,これらの先行情報に基づいてイベントを解釈する,という疑問の注釈によってキュレーションされる。
一方,ビデオLLMの幻覚問題に対処するため,TCD(Temporal Contrastive Decoding)と呼ばれる簡易かつ効果的な手法を提案する。
提案したTCDは,自己回帰復号段階において,時間的手がかりが破壊される構成されたビデオと比較することにより,前者に対するモデルの嗜好を抑える。
提案するEventHallusionベンチマークでは,8つのオープンソースと2つのクローズドソースのVideoLLMの総合評価により,オープンソースモデルが幻覚的問題に悩まされているのに対して,クローズドソースモデルは顕著に優れていることがわかった。
提案されたTCDアプローチで、オープンソースであるVideoLLMをさらに装備することにより、EventHallusionベンチマークのほとんどのメトリクスで明らかにパフォーマンス改善が達成される。
私たちのコードとベンチマークデータはhttps://github.com/Stevetich/EventHallusion.comで公開されています。
Recently, Multimodal Large Language Models (MLLMs) have made significant progress in the video comprehension field. Despite remarkable content reasoning and instruction following capabilities they demonstrated, the hallucination problem of these VideoLLMs is less explored compared with its counterpart in the image domain. To mitigate this gap, we first propose EventHallusion, a novel benchmark that focuses on assessing the VideoLMMs' hallucination phenomenon on video event comprehension. Based on the observation that existing VideoLLMs are entangled with the priors stemming from their foundation models, our EventHallusion is curated by meticulously collecting videos and annotating questions to intentionally mislead the VideoLLMs into interpreting events based on these priors rather than accurately understanding the video content. On the other hand, we also propose a simple yet effective method, called Temporal Contrastive Decoding (TCD), to tackle the hallucination problems of VideoLLMs. The proposed TCD suppresses the model's preference toward their priors by comparing the original video with a constructed counterpart, whose temporal cues are disrupted, during the autoregressive decoding stage. Through comprehensive evaluation of eight open-source and two closed-source VideoLLMs on the proposed EventHallusion benchmark, we find that the open-source models suffer significantly from hallucination problems, whereas the closed-source models perform markedly better. By further equipping open-sourced VideoLLMs with the proposed TCD approach, evident performance improvements are achieved across most metrics in the EventHallusion benchmark. Our codes and benchmark data are available at https://github.com/Stevetich/EventHallusion. | 翻訳日:2024-09-27 05:45:19 公開日:2024-09-25 |
# FAFA:水中物体電位推定のための周波数対応フロー支援セルフスーパービジョン
FAFA: Frequency-Aware Flow-Aided Self-Supervision for Underwater Object Pose Estimation ( http://arxiv.org/abs/2409.16600v1 ) ライセンス: Link先を確認 | Jingyi Tang, Gu Wang, Zeyu Chen, Shengquan Li, Xiu Li, Xiangyang Ji, | (参考訳) 屋内シーンにおける物体のポーズを推定する方法は大きな成功を収めているが, 劣化照明, ぼやけ, 実際のアノテーションを得るためのかなりのコストなど, 複雑な水中環境がもたらす困難さから, 水中物体のポーズ推定はいまだに困難である。
本研究では,無人水中車両(UUV)の6次元ポーズ推定のための周波数認識フロー支援フレームワークであるFAFAを紹介する。
そこでFFTに基づく拡張手法を提案し、周波数視点からドメイン不変の特徴や対象ドメインスタイルを抽出するネットワークを容易にする。
さらに,実環境の水中環境に適応するために,フロー支援型多層成分を強制して自己指導訓練を行う。
我々のフレームワークは、3DモデルとRGB画像のみに依存しており、実際のポーズアノテーションや奥行きのような非モダリティデータの必要性を軽減しています。
本研究では,一般的な水中オブジェクトポーズベンチマークにおけるFAFAの有効性を評価し,最先端手法と比較して顕著な性能向上を示した。
コードはgithub.com/tjy0703/FAFAで入手できる。
Although methods for estimating the pose of objects in indoor scenes have achieved great success, the pose estimation of underwater objects remains challenging due to difficulties brought by the complex underwater environment, such as degraded illumination, blurring, and the substantial cost of obtaining real annotations. In response, we introduce FAFA, a Frequency-Aware Flow-Aided self-supervised framework for 6D pose estimation of unmanned underwater vehicles (UUVs). Essentially, we first train a frequency-aware flow-based pose estimator on synthetic data, where an FFT-based augmentation approach is proposed to facilitate the network in capturing domain-invariant features and target domain styles from a frequency perspective. Further, we perform self-supervised training by enforcing flow-aided multi-level consistencies to adapt it to the real-world underwater environment. Our framework relies solely on the 3D model and RGB images, alleviating the need for any real pose annotations or other-modality data like depths. We evaluate the effectiveness of FAFA on common underwater object pose benchmarks and showcase significant performance improvements compared to state-of-the-art methods. Code is available at github.com/tjy0703/FAFA. | 翻訳日:2024-09-27 05:45:19 公開日:2024-09-25 |
# オンラインからオフラインへのフードデリバリープラットフォームが健康食品選択に与える影響を調査するサイバーフードスワップ
Cyber Food Swamps: Investigating the Impacts of Online-to-Offline Food Delivery Platforms on Healthy Food Choices ( http://arxiv.org/abs/2409.16601v1 ) ライセンス: Link先を確認 | Yunke Zhang, Yiran Fan, Peijie Liu, Fengli Xu, Yong Li, | (参考訳) オンライン・トゥ・オフライン(O2O)フードデリバリープラットフォームは、都市住民の食品選択を大幅に強化し、より便利な食品アウトレットへのアクセスを可能にしている。
しかし,O2Oフードデリバリープラットフォームがユーザの健康的な食品選択に与える影響については,特に懸念が残る。
本研究は、大手O2Oデリバリープラットフォームからの大規模実証データを利用して、オンライン食品選択行動の包括的分析と、ファーストフードレストランへのオンライン露出、すなわちオンライン食品環境の影響について述べる。
分析の結果,人口集団や都市規模において,男性,低所得者,若年者,大都市におけるファストフードの注文は,O2Oプラットフォームを経由する傾向がみられた。
さらに、オンラインおよびオフライン環境における食品暴露の違いについて比較分析を行い、O2Oプラットフォームの拡張サービス範囲がより大きな「サイバフード湿地」を創出できることを確認した。
さらに、レグレッション分析では、ファーストフードの注文の比率が高いのは、アクセス可能なファーストフードレストランの比率が高いのが特徴の「サイバーフード湿地」と関連していることを示している。
このシェアが10%上昇すると、ファーストフードの注文率が22.0%上昇する。
さらに、準自然実験は、オンライン食品環境の変化が健康食品選択に長期的な因果効果を裏付けるものである。
以上の結果から,O2Oフードデリバリープラットフォームは,オンライン食品選択曝露の健康への影響に対処し,住民の食生活改善に様々な利害関係者の努力を喚起する必要性が示唆された。
Online-to-offline (O2O) food delivery platforms have substantially enriched the food choices of urban residents by allowing them to conveniently access farther food outlets. However, concerns about the healthiness of delivered food persist, especially because the impact of O2O food delivery platforms on users' healthy food choices remains unclear. This study leverages large-scale empirical data from a leading O2O delivery platform to comprehensively analyze online food choice behaviors and how they are influenced by the online exposure to fast food restaurants, i.e., online food environment. Our analyses reveal significant discrepancy in food preferences across demographic groups and city sizes, where male, low-income, and younger users and those located in larger cities more likely to order fast food via O2O platforms. Besides, we also perform a comparative analysis on the food exposure differences in online and offline environments, confirming that the extended service ranges of O2O platforms can create larger "cyber food swamps". Furthermore, regression analysis highlights that a higher ratio of fast food orders is associated with "cyber food swamps", areas characterized by a higher share of accessible fast food restaurants. A 10% increase in this share raises the probability of ordering fast food by 22.0%. Moreover, a quasi-natural experiment substantiates the long-term causal effect of online food environment changes on healthy food choices. Our findings underscore the need for O2O food delivery platforms to address the health implications of online food choice exposure, thereby informing efforts by various stakeholders to improve residents' dietary health. | 翻訳日:2024-09-27 05:45:19 公開日:2024-09-25 |
# 3次元ツイスト結晶におけるスクイーズ量子状態
Squeezing Quantum States in Three-Dimensional Twisted Crystals ( http://arxiv.org/abs/2409.16602v1 ) ライセンス: Link先を確認 | Vo Tien Phong, Kason Kunkelmann, Christophe De Beule, Mohammed M. Al Ezzi, Robert-Jan Slager, Shaffique Adam, E. J. Mele, | (参考訳) 波動力学の基本的な考え方は、周期媒質内の伝播は、保存された結晶モータが離散格子変換の集合に置換されたときにそれらの変換を定義するブロッホ波によって記述できるということである。
不規則な空間周期が競合する順序づけられた材料では、この一般的な原理は効果がなく、しばしば劇的な結果をもたらす。
例えば、電荷またはスピン密度波からの対称性の破れた結晶、結晶学的に禁止された点対称性の回折パターンを生成する準周期格子、層間の相対的な回転(ツイスト)を持つ2次元格子のスタックなどがある。
競合する周期に小さな差がある場合、有用な回避策は、周期的な長波長場が短波長キャリア波をコヒーレントに混合するブラッグ散乱を発生させる連続体記述である。
本研究では,自由粒子渦状態のフォック空間における圧縮コヒーレント状態を用いた表現を用いて,スペクトル的に凝縮した運動量空間のブロッホバンド構造を置き換える3次元ねじれ結晶の研究を提唱する。
このヒルベルト空間の再組織化は、コリオリス力の運動方程式における決定的な役割を浮き彫りにして、非伝統的な位相空間のダイナミクスや複雑な結晶の族に一般的なエッジ状態構造をもたらす。
A fundamental idea in wave mechanics is that propagation in a periodic medium can be described by Bloch waves whose conserved crystal momenta define their transformations when displaced by the set of discrete lattice translations. In ordered materials where incommensurate spatial periods compete, this general principle is rendered ineffective, often with dramatic consequences. Examples are crystals with broken symmetries from charge or spin density waves, quasiperiodic lattices that produce diffraction patterns with crystallographically forbidden point symmetries, and stacks of two-dimensional lattices with a relative rotation (twist) between layers. In special cases when there is a small difference between the competing periods, a useful work-around is a continuum description where a periodic long-wavelength field produces Bragg scattering that coherently mixes short-wavelength carrier waves. In this work, we advocate an alternative approach to study three-dimensional twisted crystals that replaces their spectrally congested momentum-space Bloch band structures with a representation using squeezed coherent states in a Fock space of free-particle vortex states. This reorganization of the Hilbert space highlights the crucial role of the Coriolis force in the equations of motion that leads to unconventional phase space dynamics and edge state structure generic to a family of complex crystals. | 翻訳日:2024-09-27 05:45:19 公開日:2024-09-25 |
# 臨床テキスト生成に関する第1回共有課題の概要:RRG24と「ディスチャージ・ミー!」
Overview of the First Shared Task on Clinical Text Generation: RRG24 and "Discharge Me!" ( http://arxiv.org/abs/2409.16603v1 ) ライセンス: Link先を確認 | Justin Xu, Zhihong Chen, Andrew Johnston, Louis Blankemeier, Maya Varma, Jason Hom, William J. Collins, Ankit Modi, Robert Lloyd, Benjamin Hopkins, Curtis Langlotz, Jean-Benoit Delbrouck, | (参考訳) 自然言語生成の最近の発展は、医療に大きな影響を及ぼす。
例えば、最先端のシステムは、臨床報告のセクションの自動生成を自動化し、医師の作業負荷を軽減し、病院のドキュメントを合理化することができる。
これらの応用を探るため,(1)放射線学報告生成(RRG24)と(2)放電概要生成("Discharge Me!
RRG24は、胸部X線を照射した放射線学報告の「フィンディング」と「印象」のセクションを生成する。
「ディスチャージ・ミー!」は、救急科で入院した患者の退院要領の「ブリーフ病院コース」と「ディスチャージ・インストラクション」のセクションを作成。
「ディスチャージ・ミー!」はその後、臨床医のチームによって審査された。
どちらのタスクも、ドキュメントを生成することによってクリニックのバーンアウトと反復的なワークロードを減らすという目標を強調している。
RRG24では8チーム中201件、"Discharge Me!"では16チーム中211件を提出しました。
Recent developments in natural language generation have tremendous implications for healthcare. For instance, state-of-the-art systems could automate the generation of sections in clinical reports to alleviate physician workload and streamline hospital documentation. To explore these applications, we present a shared task consisting of two subtasks: (1) Radiology Report Generation (RRG24) and (2) Discharge Summary Generation ("Discharge Me!"). RRG24 involves generating the 'Findings' and 'Impression' sections of radiology reports given chest X-rays. "Discharge Me!" involves generating the 'Brief Hospital Course' and 'Discharge Instructions' sections of discharge summaries for patients admitted through the emergency department. "Discharge Me!" submissions were subsequently reviewed by a team of clinicians. Both tasks emphasize the goal of reducing clinician burnout and repetitive workloads by generating documentation. We received 201 submissions from across 8 teams for RRG24, and 211 submissions from across 16 teams for "Discharge Me!". | 翻訳日:2024-09-27 05:45:19 公開日:2024-09-25 |
# 半教師付きコントラスト学習 : マンバによる低照度画像強調
Semi-LLIE: Semi-supervised Contrastive Learning with Mamba-based Low-light Image Enhancement ( http://arxiv.org/abs/2409.16604v1 ) ライセンス: Link先を確認 | Guanlin Li, Ke Zhang, Ting Wang, Ming Li, Bin Zhao, Xuelong Li, | (参考訳) 近年の低照度画像強調技術における顕著な進歩にもかかわらず、ペアデータの不足はさらなる進歩の大きな障害として現れている。
本研究は、平均教師による半教師付き低照度強化(Semi-LLIE)フレームワークを提案する。
The mean-Teacher technique is a prominent semi-supervised learning method, successfully adopted for addressing high-level and low-level vision task。
しかし,2つの大きな問題は,低照度画像強調における平均教師法の最適性能を損なうものである。
まず,教師から生徒モデルに現実的な照明分布を移すには画素単位の整合性損失が不十分である。
第二に、近縁画像強調手法は、地域内構造情報を見落とさない傾向にあるため、暗黒領域の詳細な情報を復元する平均教師フレームワークと効果的に協力することができない。
上記の問題を緩和するために、まず、照明分布を忠実に伝達する意味認識の対照的な損失を導入し、自然色による画像の強調に寄与する。
そして,マンバをベースとした低照度画像強調バックボーンを設計し,マルチスケールの特徴学習方式を用いて,マンバの局所領域画素関係表現能力を効果的に向上し,リッチなテクスチャ情報による画像生成を容易にする。
さらに,大規模な視覚言語認識モデル(RAM)に基づく新たな知覚損失を提案し,よりリッチなテキストによる画像生成を支援する。
実験結果から,Semi-LLIEは定量値と定性値の両方において既存の手法を超越していることが明らかとなった。
Despite the impressive advancements made in recent low-light image enhancement techniques, the scarcity of paired data has emerged as a significant obstacle to further advancements. This work proposes a mean-teacher-based semi-supervised low-light enhancement (Semi-LLIE) framework that integrates the unpaired data into model training. The mean-teacher technique is a prominent semi-supervised learning method, successfully adopted for addressing high-level and low-level vision tasks. However, two primary issues hinder the naive mean-teacher method from attaining optimal performance in low-light image enhancement. Firstly, pixel-wise consistency loss is insufficient for transferring realistic illumination distribution from the teacher to the student model, which results in color cast in the enhanced images. Secondly, cutting-edge image enhancement approaches fail to effectively cooperate with the mean-teacher framework to restore detailed information in dark areas due to their tendency to overlook modeling structured information within local regions. To mitigate the above issues, we first introduce a semantic-aware contrastive loss to faithfully transfer the illumination distribution, contributing to enhancing images with natural colors. Then, we design a Mamba-based low-light image enhancement backbone to effectively enhance Mamba's local region pixel relationship representation ability with a multi-scale feature learning scheme, facilitating the generation of images with rich textural details. Further, we propose novel perceptive loss based on the large-scale vision-language Recognize Anything Model (RAM) to help generate enhanced images with richer textual details. The experimental results indicate that our Semi-LLIE surpasses existing methods in both quantitative and qualitative metrics. | 翻訳日:2024-09-27 05:45:19 公開日:2024-09-25 |
# 学術論文のノベルティ評価のための大規模言語モデルの評価と強化
Evaluating and Enhancing Large Language Models for Novelty Assessment in Scholarly Publications ( http://arxiv.org/abs/2409.16605v1 ) ライセンス: Link先を確認 | Ethan Lin, Zhiyuan Peng, Yi Fang, | (参考訳) 近年の研究では、認知科学のベンチマークを用いて、大言語モデル(LLM)の創造性とノベルティを意味論的観点から評価している。
しかし、学術出版物でノベルティにアクセスすることは、LSMを評価する上では、ほとんど探索されていない領域である。
本稿では,学術論文のノベルティ評価能力を評価するために,学術ノベルティベンチマーク(SchNovel)を導入する。
SchNovelは、arXivデータセットからサンプリングされた6つのフィールドにわたる15,000の論文からなる。
それぞれにおいて、最近発表された論文はより斬新なものであると仮定される。
さらに, 類似論文の検索を利用して, レビュープロセスのシミュレーションを行うRAG-Noveltyを提案する。
RAG-Noveltyが最近のベースラインモデルより優れていることを示す。
Recent studies have evaluated the creativity/novelty of large language models (LLMs) primarily from a semantic perspective, using benchmarks from cognitive science. However, accessing the novelty in scholarly publications is a largely unexplored area in evaluating LLMs. In this paper, we introduce a scholarly novelty benchmark (SchNovel) to evaluate LLMs' ability to assess novelty in scholarly papers. SchNovel consists of 15000 pairs of papers across six fields sampled from the arXiv dataset with publication dates spanning 2 to 10 years apart. In each pair, the more recently published paper is assumed to be more novel. Additionally, we propose RAG-Novelty, which simulates the review process taken by human reviewers by leveraging the retrieval of similar papers to assess novelty. Extensive experiments provide insights into the capabilities of different LLMs to assess novelty and demonstrate that RAG-Novelty outperforms recent baseline models. | 翻訳日:2024-09-27 05:35:28 公開日:2024-09-25 |
# VFDelta: コード変更学習の強化による無意味な脆弱性修正検出フレームワーク
VFDelta: A Framework for Detecting Silent Vulnerability Fixes by Enhancing Code Change Learning ( http://arxiv.org/abs/2409.16606v1 ) ライセンス: Link先を確認 | Xu Yang, Shaowei Wang, Jiayuan Zhou, Xing Hu, | (参考訳) オープンソースソフトウェア(OSS)の脆弱性修正は通常、調整された脆弱性開示モデルに従い、静かに修正される。
この遅延は、修正が公表される前に悪意のある関係者がソフトウェアを悪用する可能性があるため、OSSユーザを危険に晒す可能性がある。
したがって、脆弱性の早期かつ自動的な特定が重要である。
既存のメソッドは、コード変更表現をコミットから学習することで脆弱性修正を分類する。
さらに、以前のアプローチでは、コード埋め込みモデルと分類モデルが別々に行われ、全体的な効果が制限されていた。
VFDeltaは、コードを取り囲む独立したモデルを用いて、変更前後にコードを埋め込む軽量で効果的なフレームワークである。
これらの埋め込みに対して要素的減算を行うことで、微細粒の変化を捉える。
我々のアーキテクチャは、埋め込みモデルと分類モデルの合同トレーニングを可能にし、全体的なパフォーマンスを最適化する。
VFDelta は 0.33 F1 スコアと 0.63 CostEffort@5 を達成し、最先端の手法を 77.4% と 7.1% 改善した。
アブレーション分析は、小さな変更をキャプチャする上で、コード変更表現の重要性を確認します。
VFDeltaはVulFixMinerとMiDasのベースラインをこの設定で大幅に上回ります。
Vulnerability fixes in open source software (OSS) usually follow the coordinated vulnerability disclosure model and are silently fixed. This delay can expose OSS users to risks as malicious parties might exploit the software before fixes are publicly known. Therefore, it is important to identify vulnerability fixes early and automatically. Existing methods classify vulnerability fixes by learning code change representations from commits, typically by concatenating code changes, which does not effectively highlight nuanced differences. Additionally, previous approaches fine-tune code embedding models and classification models separately, which limits overall effectiveness. We propose VFDelta, a lightweight yet effective framework that embeds code before and after changes using independent models with surrounding code as context. By performing element-wise subtraction on these embeddings, we capture fine-grain changes. Our architecture allows joint training of embedding and classification models, optimizing overall performance. Experiments demonstrate that VFDelta achieves up to 0.33 F1 score and 0.63 CostEffort@5, improving over state-of-the-art methods by 77.4% and 7.1%, respectively. Ablation analysis confirms the importance of our code change representation in capturing small changes. We also expanded the dataset and introduced a temporal split to simulate real-world scenarios; VFDelta significantly outperforms baselines VulFixMiner and MiDas across all metrics in this setting. | 翻訳日:2024-09-27 05:35:28 公開日:2024-09-25 |
# 気候影響経路検出のためのランダムフォレスト回帰特性の重要性
Random Forest Regression Feature Importance for Climate Impact Pathway Detection ( http://arxiv.org/abs/2409.16609v1 ) ライセンス: Link先を確認 | Meredith G. L. Brown, Matt Peterson, Irina Tezaur, Kara Peterson, Diana Bull, | (参考訳) 自然と人為的両方の気候システムに対する障害は、伝統的な気候科学分析や因果モデリング技術を用いて、必ずしも識別や定量化が難しいような影響を極端に及んでいる。
本稿では,Random Forest Regression (RFR) とSHapley Additive exPlanation (SHAP) の特徴を活かして, 気候源の時空間的ダウンストリームの影響の連鎖を発見し, ランク付けする手法を開発した。
分類タスクや回帰タスク(RFRの最も一般的なユースケース)にRFRを利用するのではなく、基本的に新しいRFRベースのワークフローを提案します。
一 興味の時空間的特徴のセットにおける列車ランダム森林(RF)回帰者
(二)これらの特徴に関連付けられたSHAP重みを用いて、そのペアワイズ特徴重要度を算出し、
(iii)これらの特徴を重み付き経路網(すなわち重み付き有向グラフ)に変換し、気候の特徴と/またはモダリティの相互依存性を追跡・ランク付けすることができる。
我々は,新しい経路同定手法を検証するために,階層型検証手法を採用した。
このアプローチでは,より複雑な2つのベンチマークを実行することによって生成されるデータのアンサンブルに対して,本手法を適用した。
一 合成結合方程式の集合、及び
(II) フィリピンのピナトゥボ山の1991年の噴火を、アメリカ合衆国エネルギー省のエナジー・エクサスケール・アース・システム・モデル(E3SMv2)の修正版2を用いて完全に結合したシミュレーションを行った。
RFRの重要度に基づくアプローチは、両方のテストケースで既知の影響経路を正確に検出できる。
Disturbances to the climate system, both natural and anthropogenic, have far reaching impacts that are not always easy to identify or quantify using traditional climate science analyses or causal modeling techniques. In this paper, we develop a novel technique for discovering and ranking the chain of spatio-temporal downstream impacts of a climate source, referred to herein as a source-impact pathway, using Random Forest Regression (RFR) and SHapley Additive exPlanation (SHAP) feature importances. Rather than utilizing RFR for classification or regression tasks (the most common use case for RFR), we propose a fundamentally new RFR-based workflow in which we: (i) train random forest (RF) regressors on a set of spatio-temporal features of interest, (ii) calculate their pair-wise feature importances using the SHAP weights associated with those features, and (iii) translate these feature importances into a weighted pathway network (i.e., a weighted directed graph), which can be used to trace out and rank interdependencies between climate features and/or modalities. We adopt a tiered verification approach to verify our new pathway identification methodology. In this approach, we apply our method to ensembles of data generated by running two increasingly complex benchmarks: (i) a set of synthetic coupled equations, and (ii) a fully coupled simulation of the 1991 eruption of Mount Pinatubo in the Philippines performed using a modified version 2 of the U.S. Department of Energy's Energy Exascale Earth System Model (E3SMv2). We find that our RFR feature importance-based approach can accurately detect known pathways of impact for both test cases. | 翻訳日:2024-09-27 05:35:28 公開日:2024-09-25 |
# ECG- Image-Database: 実世界の画像と走査アーチファクトを用いたECG画像のデータセット; コンピュータ化されたECG画像のデジタル化と解析のための基礎
ECG-Image-Database: A Dataset of ECG Images with Real-World Imaging and Scanning Artifacts; A Foundation for Computerized ECG Image Digitization and Analysis ( http://arxiv.org/abs/2409.16612v1 ) ライセンス: Link先を確認 | Matthew A. Reyna, Deepanshi, James Weigle, Zuzana Koscova, Kiersten Campbell, Kshama Kodthalu Shivashankara, Soheil Saghafi, Sepideh Nikookar, Mohsen Motie-Shirazi, Yashar Kiarashi, Salman Seyedi, Gari D. Clifford, Reza Sameni, | (参考訳) 本稿では,ECG時系列データから生成された心電図(ECG)画像の多種多様なコレクションであるECG-Image-Databaseを紹介した。
我々は、オープンソースのPythonツールキットであるECG-Image-Kitを使用して、生のECG時系列から12リードのECGプリントアウトのリアルな画像を生成する。
画像には、ノイズ、しわ、汚れ、視点シフトなどの現実的な歪みが含まれており、デジタルと物理的の両方で生成される。
このツールキットは、TB-XLデータベースから977個のリードECGレコード、エモリー・ヘルスケアから1,000個のデータを取得し、高忠実な合成ECG画像を生成する。
これらのユニークな画像は、ECG-Image-Kitを使ったプログラムによる歪みと、浸漬、染色、カビ成長といった物理的効果の両方を受けており、続いて様々な照明条件下での走査と撮影によって現実世界の人工物が生成される。
得られたデータセットには35,595個のソフトウェアラベル付きECGイメージが含まれており、幅広い画像アーティファクトと歪みがある。
このデータセットは、画像とともに地上の真実の時系列データを提供し、ECGのデジタル化と分類のための機械学習モデルとディープラーニングモデルを開発するためのリファレンスを提供する。
画像の品質は、清潔な紙の透明なスキャンから劣化した紙の騒々しい写真まで様々であり、より一般化可能なデジタル化アルゴリズムの開発を可能にしている。
ECG-Image-Databaseは、コンピュータ分析のために紙ベースの非デジタルECGをデジタル化する重要なニーズに対処し、ECGイメージを時系列に変換することのできる堅牢な機械学習モデルとディープラーニングモデルを開発する基盤を提供する。
このデータセットは、ECGのデジタル化とコンピュータ化されたアノテーションの取り組みのリファレンスとして機能することを目的としている。
ECG-Image-Databaseは、ECG画像のデジタル化と分類に関するPhystoNet Challenge 2024で使用された。
We introduce the ECG-Image-Database, a large and diverse collection of electrocardiogram (ECG) images generated from ECG time-series data, with real-world scanning, imaging, and physical artifacts. We used ECG-Image-Kit, an open-source Python toolkit, to generate realistic images of 12-lead ECG printouts from raw ECG time-series. The images include realistic distortions such as noise, wrinkles, stains, and perspective shifts, generated both digitally and physically. The toolkit was applied to 977 12-lead ECG records from the PTB-XL database and 1,000 from Emory Healthcare to create high-fidelity synthetic ECG images. These unique images were subjected to both programmatic distortions using ECG-Image-Kit and physical effects like soaking, staining, and mold growth, followed by scanning and photography under various lighting conditions to create real-world artifacts. The resulting dataset includes 35,595 software-labeled ECG images with a wide range of imaging artifacts and distortions. The dataset provides ground truth time-series data alongside the images, offering a reference for developing machine and deep learning models for ECG digitization and classification. The images vary in quality, from clear scans of clean papers to noisy photographs of degraded papers, enabling the development of more generalizable digitization algorithms. ECG-Image-Database addresses a critical need for digitizing paper-based and non-digital ECGs for computerized analysis, providing a foundation for developing robust machine and deep learning models capable of converting ECG images into time-series. The dataset aims to serve as a reference for ECG digitization and computerized annotation efforts. ECG-Image-Database was used in the PhysioNet Challenge 2024 on ECG image digitization and classification. | 翻訳日:2024-09-27 05:35:28 公開日:2024-09-25 |
# DeformStream: 変形に基づく適応ボリュームビデオストリーミング
DeformStream: Deformation-based Adaptive Volumetric Video Streaming ( http://arxiv.org/abs/2409.16615v1 ) ライセンス: Link先を確認 | Boyan Li, Yongting Chen, Dayou Zhang, Fangxin Wang, | (参考訳) ボリュームビデオストリーミングは没入型3D体験を提供するが、高帯域幅要件と詳細なコンテンツをリアルタイムに送信する際のレイテンシの問題により、大きな課題に直面している。
ポイントクラウドストリーミングのような従来の方法では、ズームイン時に視覚的品質を損なう。
メッシュベースのストリーミングは、表面のディテールと接続性を維持し、より洗練された3Dコンテンツ表現を提供することで際立っているが、従来のメッシュストリーミングメソッドは通常、フレーム単位のデータを送信し、フレーム間の時間的冗長性を最大限に活用することができない。
これにより、帯域幅の使用効率が低下し、ネットワーク条件の変動に対する適応性が低下する。
本稿では、メッシュベースの表現の変形性を活用して、ボリュームビデオストリーミング性能を向上させる新しいフレームワークである、変形に基づくAdaptive Volumetric Video Streamingを紹介する。
DeformStreamは、組込み変形を使用して、フレーム間の動きから後のフレームを再構築し、フレーム間の視覚的コヒーレンスを確保しながら、バンド幅の使用を著しく削減する。
フレーム再構築のオーバーヘッドとネットワーク適応性に対処するため,クライアント側の変形遅延を考慮した新しいQoEモデルを定式化し,動的プログラミングアルゴリズムを設計し,異なるネットワーク条件下での視覚的品質と帯域幅消費のトレードオフを最適化する。
我々の評価では、変形に基づくAdaptive Volumetric Video Streamingは、既存のメッシュベースのストリーミングシステムよりも帯域効率と視覚的品質の両方で優れており、リアルタイム・ボリューム・ビデオ・アプリケーションに堅牢なソリューションを提供する。
Volumetric video streaming offers immersive 3D experiences but faces significant challenges due to high bandwidth requirements and latency issues in transmitting detailed content in real time. Traditional methods like point cloud streaming compromise visual quality when zoomed in, and neural rendering techniques are too computationally intensive for real-time use. Though mesh-based streaming stands out by preserving surface detail and connectivity, offering a more refined representation for 3D content, traditional mesh streaming methods typically transmit data on a per-frame basis, failing to take full advantage of temporal redundancies across frames. This results in inefficient bandwidth usage and poor adaptability to fluctuating network conditions. We introduce Deformation-based Adaptive Volumetric Video Streaming, a novel framework that enhances volumetric video streaming performance by leveraging the inherent deformability of mesh-based representations. DeformStream uses embedded deformation to reconstruct subsequent frames from inter-frame motion, significantly reducing bandwidth usage while ensuring visual coherence between frames. To address frame reconstruction overhead and network adaptability, we formulate a new QoE model that accounts for client-side deformation latency and design a dynamic programming algorithm to optimize the trade-off between visual quality and bandwidth consumption under varying network conditions. Our evaluation demonstrates that Deformation-based Adaptive Volumetric Video Streaming outperforms existing mesh-based streaming systems in both bandwidth efficiency and visual quality, offering a robust solution for real-time volumetric video applications. | 翻訳日:2024-09-27 05:35:28 公開日:2024-09-25 |
# クレームガイドによるテキストバックドア攻撃の実用化
Claim-Guided Textual Backdoor Attack for Practical Applications ( http://arxiv.org/abs/2409.16618v1 ) ライセンス: Link先を確認 | Minkyoo Song, Hanna Kim, Jaehan Kim, Youngjin Jin, Seungwon Shin, | (参考訳) 自然言語処理の最近の進歩と大規模言語モデルの使用の増加により、バックドア攻撃などの新たなセキュリティ脆弱性が明らかになった。
以前のバックドア攻撃では、バックドアを起動するためにモデル配布後の入力操作が必要で、現実の応用性に制限がある。
このギャップに対処するために,本研究では,引き金として固有のテキストクレームを活用することにより,このような操作を不要とする,CGBA(Criim-Guided Backdoor Attack)を導入する。
CGBAはクレーム抽出、クラスタリング、ターゲットとするトレーニングを活用して、クリーンなデータのパフォーマンスに影響を与えることなく、ターゲットとするクレームを誤動作させるモデルを騙す。
CGBAは、さまざまなデータセットやモデルにまたがる有効性とステルス性を示し、実用的なバックドア攻撃の実現可能性を大幅に向上させる。
コードとデータはhttps://github.com/PaperCGBA/CGBA.comで公開されます。
Recent advances in natural language processing and the increased use of large language models have exposed new security vulnerabilities, such as backdoor attacks. Previous backdoor attacks require input manipulation after model distribution to activate the backdoor, posing limitations in real-world applicability. Addressing this gap, we introduce a novel Claim-Guided Backdoor Attack (CGBA), which eliminates the need for such manipulations by utilizing inherent textual claims as triggers. CGBA leverages claim extraction, clustering, and targeted training to trick models to misbehave on targeted claims without affecting their performance on clean data. CGBA demonstrates its effectiveness and stealthiness across various datasets and models, significantly enhancing the feasibility of practical backdoor attacks. Our code and data will be available at https://github.com/PaperCGBA/CGBA. | 翻訳日:2024-09-27 05:35:28 公開日:2024-09-25 |
# CasFT:動的キュー駆動拡散モデルによる情報人気予測の今後の動向モデリング
CasFT: Future Trend Modeling for Information Popularity Prediction with Dynamic Cues-Driven Diffusion Models ( http://arxiv.org/abs/2409.16619v1 ) ライセンス: Link先を確認 | Xin Jing, Yichen Jing, Yuhuan Lu, Bangchao Deng, Xueqin Chen, Dingqi Yang, | (参考訳) オンラインソーシャルプラットフォーム上での多様な情報の急速な普及により、学術と産業の両方が、コンテンツの人気を予測することの重要性を認識し、レコメンデーションシステムや戦略的意思決定など幅広い応用に寄与する可能性がある。
近年の研究では, 情報拡散過程に固有の時空間パターンを抽出し, 今後の普及を予測している。
しかし、これらの作品は、将来の人気が指数関数的に増加するか停滞する可能性があり、予測性能に不確実性をもたらすため、将来の人気傾向をしばしば見落としている。
さらに、観察された拡散過程から将来の傾向に学習した事前のダイナミクスをどう転送するかは、未解明の課題である。
そこで本研究では,ニューラルネットワークを用いて抽出した観測情報カスケードとダイナミックキューを条件として利用し,拡散モデルによる今後の人気増加傾向を導出するCasFTを提案する。
これらの傾向は、観測された情報カスケード内の時空間パターンと組み合わせて、最終的な人気予測を行う。
3つの実世界のデータセットで実施された大規模な実験は、CasFTが最先端のアプローチと比較して予測精度を著しく改善し、異なるデータセット間で2.2%-19.3%の改善をもたらすことを示した。
The rapid spread of diverse information on online social platforms has prompted both academia and industry to realize the importance of predicting content popularity, which could benefit a wide range of applications, such as recommendation systems and strategic decision-making. Recent works mainly focused on extracting spatiotemporal patterns inherent in the information diffusion process within a given observation period so as to predict its popularity over a future period of time. However, these works often overlook the future popularity trend, as future popularity could either increase exponentially or stagnate, introducing uncertainties to the prediction performance. Additionally, how to transfer the preceding-term dynamics learned from the observed diffusion process into future-term trends remains an unexplored challenge. Against this background, we propose CasFT, which leverages observed information Cascades and dynamic cues extracted via neural ODEs as conditions to guide the generation of Future popularity-increasing Trends through a diffusion model. These generated trends are then combined with the spatiotemporal patterns in the observed information cascade to make the final popularity prediction. Extensive experiments conducted on three real-world datasets demonstrate that CasFT significantly improves the prediction accuracy, compared to state-of-the-art approaches, yielding 2.2%-19.3% improvement across different datasets. | 翻訳日:2024-09-27 05:35:28 公開日:2024-09-25 |
# 凍結湖環境におけるモンテカルロ木探索の高精度化
Optimized Monte Carlo Tree Search for Enhanced Decision Making in the FrozenLake Environment ( http://arxiv.org/abs/2409.16620v1 ) ライセンス: Link先を確認 | Esteban Aldana Guerra, | (参考訳) Monte Carlo Tree Search (MCTS) は複雑な意思決定問題を解決する強力なアルゴリズムである。
本稿では,確率遷移を特徴とする古典的強化学習課題であるFrozenLake環境に適用したMCTS実装を提案する。
この最適化は、累積報酬と訪問数表と、上信頼境界木(UCT)式を併用し、滑りやすいグリッドの世界で効率よく学習する。
MCTS with Policy や Q-Learning など,他の意思決定アルゴリズムに対して実装をベンチマークし,その性能を詳細に比較する。
その結果、最適化された手法は、収束時間を最小限に抑えつつ、報酬と成功率を効果的に最大化し、特に固有のランダム性のある環境において、ベースライン法よりも優れることを示した。
Monte Carlo Tree Search (MCTS) is a powerful algorithm for solving complex decision-making problems. This paper presents an optimized MCTS implementation applied to the FrozenLake environment, a classic reinforcement learning task characterized by stochastic transitions. The optimization leverages cumulative reward and visit count tables along with the Upper Confidence Bound for Trees (UCT) formula, resulting in efficient learning in a slippery grid world. We benchmark our implementation against other decision-making algorithms, including MCTS with Policy and Q-Learning, and perform a detailed comparison of their performance. The results demonstrate that our optimized approach effectively maximizes rewards and success rates while minimizing convergence time, outperforming baseline methods, especially in environments with inherent randomness. | 翻訳日:2024-09-27 05:35:28 公開日:2024-09-25 |
# LLMを用いた詳細駆動型プライバシポリシ分類
Entailment-Driven Privacy Policy Classification with LLMs ( http://arxiv.org/abs/2409.16621v1 ) ライセンス: Link先を確認 | Bhanuka Silva, Dishanika Denipitiyage, Suranga Seneviratne, Anirban Mahanti, Aruna Seneviratne, | (参考訳) 多くのオンラインサービスは、エンドユーザが収集されている個人情報を読んだり理解したりするためのプライバシーポリシーを提供しているが、これらの文書はしばしば長く複雑である。
その結果、大多数のユーザーはそれを全く読まないため、インフォームドされていない同意の下でのデータ収集に繋がる。
プライバシーポリシーをよりユーザフレンドリにするためのいくつかの試みは、それらを要約したり、重要なセクションの自動アノテーションやラベルを提供したり、特定の質問をするためのチャットインターフェースを提供したりしている。
近年のLarge Language Models (LLMs)の進歩により、プライバシーポリシーを解析し、ユーザが決定を下すのに役立つ、より効果的なツールを開発する機会がある。
本稿では,プライバシーポリシーの段落をユーザが容易に理解できる有意義なラベルに分類する,エンテーメント駆動型LLMベースのフレームワークを提案する。
その結果、我々のフレームワークは従来のLCM法よりも優れており、F1スコアは平均11.2%向上した。
さらに、私たちのフレームワークは本質的に説明可能な意味のある予測を提供します。
While many online services provide privacy policies for end users to read and understand what personal data are being collected, these documents are often lengthy and complicated. As a result, the vast majority of users do not read them at all, leading to data collection under uninformed consent. Several attempts have been made to make privacy policies more user friendly by summarising them, providing automatic annotations or labels for key sections, or by offering chat interfaces to ask specific questions. With recent advances in Large Language Models (LLMs), there is an opportunity to develop more effective tools to parse privacy policies and help users make informed decisions. In this paper, we propose an entailment-driven LLM based framework to classify paragraphs of privacy policies into meaningful labels that are easily understood by users. The results demonstrate that our framework outperforms traditional LLM methods, improving the F1 score in average by 11.2%. Additionally, our framework provides inherently explainable and meaningful predictions. | 翻訳日:2024-09-27 05:35:28 公開日:2024-09-25 |
# 損失量子チャネルによる有界光絡み合い分布:比較研究
Heralded optical entanglement distribution via lossy quantum channels: A comparative study ( http://arxiv.org/abs/2409.16622v1 ) ライセンス: Link先を確認 | Wan Zo, Seungbeom Chin, Yong-Su Kim, | (参考訳) 量子絡み合いは様々な量子技術の基盤となる。
光学系では、絡み合い分布は光子の区別不可能性と空間的重なりに依存している。
選抜スキームは、望まれる絡み合い状態の生成をシグナルとして補助光子を検出することにより、絡み合いの発生の信頼性を確保する上で重要な役割を担っている。
しかし、量子チャネルにおける光子損失は重要な課題であり、絡み合い分布の距離と容量を制限している。
本研究は,多部構成のグリーンベルガー・ホルン・ザイリンガー状態(GHZ)を損失量子チャネルを介して分配する3つの隠蔽スキームを示唆する。
これらのスキームは、異なる光子源(ベル状態または単一光子)とチャネル構造(中央集権型または非集権型ヘラルディング検出器)を利用する。
成功確率と予測効率を比較することで、各スキームは、当事者数、チャンネル距離、セキュリティ要件に応じて、それぞれ独自の利点があることがわかった。
この分析は、損失チャネル上の量子情報処理のためのレジリエントなシェルド回路の設計に関する洞察を与える。
Quantum entanglement serves as a foundational resource for various quantum technologies. In optical systems, entanglement distribution rely on the indistinguishability and spatial overlap of photons. Heralded schemes play a crucial role in ensuring the reliability of entanglement generation by detecting ancillary photons to signal the creation of desired entangled states. However, photon losses in quantum channels remain a significant challenge, limiting the distance and capacity of entanglement distributions. This study suggests three heralded schemes that distribute multipartite Greenberger-Horne-Zeilinger (GHZ) states via lossy quantum channels. These schemes utilize different photon sources (Bell states or single-photons) and channel structures (centralized or decentralized heralding detectors). By comparing success probabilities and heralding efficiency, we find that each scheme has its own advantage according to the number of parties and the channel distance and the security requirement. This analysis provides insights into designing resilient heralded circuits for quantum information processing over lossy channels. | 翻訳日:2024-09-27 05:35:28 公開日:2024-09-25 |
# 情報人気予測のためのカスケードの連続時間ダイナミクスのモデル化
On Your Mark, Get Set, Predict! Modeling Continuous-Time Dynamics of Cascades for Information Popularity Prediction ( http://arxiv.org/abs/2409.16623v1 ) ライセンス: Link先を確認 | Xin Jing, Yichen Jing, Yuhuan Lu, Bangchao Deng, Sikun Yang, Dingqi Yang, | (参考訳) 情報人気予測は、バイラルマーケティングやニュースレコメンデーションなど、様々な分野において重要であるが、難しい。
情報の人気を正確に予測する鍵は、ツイートのリツイートのような情報カスケードの観測イベントの背後にある、根底にある時間情報拡散プロセスを微妙にモデル化することにある。
この目的のために、既存のほとんどの手法では、最初の観測イベントから最後の観測イベントまでの時間的ダイナミクスを捉えるためにリカレントネットワークを採用するか、自励点プロセスに基づいた統計モデルを開発して予測する。
しかし、情報拡散は本質的には、不規則に観測された離散事象を伴う複雑な連続時間プロセスであり、イベント間の不規則な時間間隔を捉えなかったり、複雑な拡散過程を捉える柔軟性が欠如しているため、再帰的ネットワークを用いて過度に単純化される。
このような背景から,情報人気予測のためにカスケードの連続時間ダイナミクスをモデル化したConCatを提案する。
一方、ニューラル正規微分方程式(ODE)を利用して、カスケードグラフとシーケンシャルイベント情報に基づいて、カスケードの不規則事象を連続的にモデル化する。
一方,カスケードイベントを,条件付き強度関数によってパラメータ化されたニューラル・テンポラル・ポイント・プロセス(TPP)とみなす。
実世界の3つのデータセット上でConCatを評価するための広範な実験を行った。
その結果、ConCatは最先端のベースラインよりも優れたパフォーマンスを示し、3つのデータセットで最高のパフォーマンスのベースラインよりも2.3%-33.2%改善した。
Information popularity prediction is important yet challenging in various domains, including viral marketing and news recommendations. The key to accurately predicting information popularity lies in subtly modeling the underlying temporal information diffusion process behind observed events of an information cascade, such as the retweets of a tweet. To this end, most existing methods either adopt recurrent networks to capture the temporal dynamics from the first to the last observed event or develop a statistical model based on self-exciting point processes to make predictions. However, information diffusion is intrinsically a complex continuous-time process with irregularly observed discrete events, which is oversimplified using recurrent networks as they fail to capture the irregular time intervals between events, or using self-exciting point processes as they lack flexibility to capture the complex diffusion process. Against this background, we propose ConCat, modeling the Continuous-time dynamics of Cascades for information popularity prediction. On the one hand, it leverages neural Ordinary Differential Equations (ODEs) to model irregular events of a cascade in continuous time based on the cascade graph and sequential event information. On the other hand, it considers cascade events as neural temporal point processes (TPPs) parameterized by a conditional intensity function which can also benefit the popularity prediction task. We conduct extensive experiments to evaluate ConCat on three real-world datasets. Results show that ConCat achieves superior performance compared to state-of-the-art baselines, yielding a 2.3%-33.2% improvement over the best-performing baselines across the three datasets. | 翻訳日:2024-09-27 05:35:28 公開日:2024-09-25 |
# ディープラーニングのためのAscend HiFloat8フォーマット
Ascend HiFloat8 Format for Deep Learning ( http://arxiv.org/abs/2409.16626v1 ) ライセンス: Link先を確認 | Yuanyong Luo, Zhongxing Zhang, Richard Wu, Hu Liu, Ying Jin, Kai Zheng, Minmin Wang, Zhanying He, Guipeng Hu, Luyao Chen, Tianchi Hu, Junsong Wang, Minqi Chen, Mikhaylov Dmitry, Korviakov Vladimir, Bobrin Maxim, Yuhao Hu, Guanfu Chen, Zeyi Huang, | (参考訳) 本稿では,ディープラーニングのための8ビット浮動小数点データフォーマットHiFloat8を提案する。
HiF8はテーパーの精度を特徴としている。
通常の値符号化では、3ビットのマティーサを持つ7の指数、2ビットのマティーサを持つ8の指数、1ビットのマティーサを持つ16の指数を提供する。
正規値や非正規値の符号化では、31から38の双極子(FP16が40の双極子をカバーすることに注意)までの7つの余分なパワーでダイナミックレンジを拡張する。
一方、HiF8は、正の零点と負の零点が1ビットパターンで表される以外、全ての特別な値を符号化する。
精度とダイナミックレンジのバランスが良くなったため、AIトレーニングの前方パスと後方パスの両方でHiF8を同時に使用することができる。
本稿では,HF8の定義と丸めの手法と,暫定的なトレーニングと推論のソリューションについて述べる。
HiF8フォーマットの有効性を示すために、従来のニューラルネットワークや大規模言語モデル(LLM)など、さまざまなニューラルネットワーク上での大規模なシミュレーション結果も提示する。
This preliminary white paper proposes a novel 8-bit floating-point data format HiFloat8 (abbreviated as HiF8) for deep learning. HiF8 features tapered precision. For normal value encoding, it provides 7 exponents with 3-bit mantissa, 8 exponents with 2-bit mantissa, and 16 exponents with 1-bit mantissa. For denormal or subnormal value encoding, it extends the dynamic range by 7 extra powers of 2, from 31 to 38 binades (notice that FP16 covers 40 binades). Meanwhile, HiF8 encodes all the special values except that positive zero and negative zero are represented by only one bit-pattern. Thanks to the better balance between precision and dynamic range, HiF8 can be simultaneously used in both forward and backward passes of AI training. In this paper, we will describe the definition and rounding methods of HiF8, as well as the tentative training and inference solutions. To demonstrate the efficacy of HiF8 format, massive simulation results on various neural networks, including traditional neural networks and large language models (LLMs), will also be presented. | 翻訳日:2024-09-27 05:35:28 公開日:2024-09-25 |
# 確率的サブサンプリングと平均プール
Stochastic Subsampling With Average Pooling ( http://arxiv.org/abs/2409.16630v1 ) ライセンス: Link先を確認 | Bum Jun Kim, Sang Woo Kim, | (参考訳) 深いニューラルネットワークの規則化は、問題を過度に適合させることなく、より高い一般化性能を達成する上で重要な問題である。
一般的なDropout方式は正規化効果を提供するが、出力に一貫性のない特性を引き起こすため、ディープニューラルネットワークの性能は低下する可能性がある。
本研究では,Dropoutのような確率性をプールに組み込んだ,確率平均プールと呼ばれる新しいモジュールを提案する。
確率的なサブサンプリングと平均プールの特性を記述し,不整合問題なくモジュールの設計に活用する。
確率平均プーリングは、不整合問題による潜在的な性能劣化を伴わずに正規化効果を達成し、ディープニューラルネットワークの既存のアーキテクチャに容易に接続できる。
実験では、既存の平均プールを確率的な平均プールに置き換えると、さまざまなタスク、データセット、モデル間で一貫した改善が得られます。
Regularization of deep neural networks has been an important issue to achieve higher generalization performance without overfitting problems. Although the popular method of Dropout provides a regularization effect, it causes inconsistent properties in the output, which may degrade the performance of deep neural networks. In this study, we propose a new module called stochastic average pooling, which incorporates Dropout-like stochasticity in pooling. We describe the properties of stochastic subsampling and average pooling and leverage them to design a module without any inconsistency problem. The stochastic average pooling achieves a regularization effect without any potential performance degradation due to the inconsistency issue and can easily be plugged into existing architectures of deep neural networks. Experiments demonstrate that replacing existing average pooling with stochastic average pooling yields consistent improvements across a variety of tasks, datasets, and models. | 翻訳日:2024-09-27 05:35:28 公開日:2024-09-25 |
# 光の分布抑制による夜間UAV追跡の強化
Enhancing Nighttime UAV Tracking with Light Distribution Suppression ( http://arxiv.org/abs/2409.16631v1 ) ライセンス: Link先を確認 | Liangliang Yao, Changhong Fu, Yiheng Wang, Haobo Zuo, Kunhan Lu, | (参考訳) 視覚的物体追跡は無人航空機(UAV)の広範囲なインテリジェントな応用を促進した。
しかし、夜間UAV追跡のためのSOTA(State-of-the-art)エンハンサーは、低照度画像における不均一な光の分布を常に無視し、必然的に複雑な照明を伴うシナリオにおいて過度に増強する。
これらの課題に対処するため, LDEnhancer という新しいエンハンサーを提案する。
具体的には、特徴空間における光配信情報と画像コンテンツ情報とを分解し、画像コンテンツ情報のターゲット強化を可能にする新規な画像コンテンツ改善モジュールを開発する。
そこで本研究では,光分布を効果的に捉えるために,新たな光分布生成モジュールを設計する。
パラメータマップ予測のために、それぞれ異なるパラメータ推定モジュールに光分布情報と画像内容情報を有する特徴を供給する。
最後に、2つのパラメータマップを活用することで、低照度画像の協調的な画素ワイズ調整に革新的な相互織り合わせ調整を提案する。
さらに、夜間UAV追跡データセット、すなわちNAT2024-2は、合計74Kフレームを超える40の挑戦的なシーケンスを含む包括的な評価を提供するために構築されている。
信頼性のあるUAVベンチマークと提案したNAT2024-2の実験結果は、LDEnhancerが夜間UAV追跡のために他のSOTA低照度エンハンサーより優れていることを示している。
さらに、NVIDIA Orin NXを搭載した典型的なUAVプラットフォーム上での実際のテストは、LDEnhancerの実用性と効率性を確認している。
コードはhttps://github.com/vision4robotics/LDEnhancerで公開されている。
Visual object tracking has boosted extensive intelligent applications for unmanned aerial vehicles (UAVs). However, the state-of-the-art (SOTA) enhancers for nighttime UAV tracking always neglect the uneven light distribution in low-light images, inevitably leading to excessive enhancement in scenarios with complex illumination. To address these issues, this work proposes a novel enhancer, i.e., LDEnhancer, enhancing nighttime UAV tracking with light distribution suppression. Specifically, a novel image content refinement module is developed to decompose the light distribution information and image content information in the feature space, allowing for the targeted enhancement of the image content information. Then this work designs a new light distribution generation module to capture light distribution effectively. The features with light distribution information and image content information are fed into the different parameter estimation modules, respectively, for the parameter map prediction. Finally, leveraging two parameter maps, an innovative interweave iteration adjustment is proposed for the collaborative pixel-wise adjustment of low-light images. Additionally, a challenging nighttime UAV tracking dataset with uneven light distribution, namely NAT2024-2, is constructed to provide a comprehensive evaluation, which contains 40 challenging sequences with over 74K frames in total. Experimental results on the authoritative UAV benchmarks and the proposed NAT2024-2 demonstrate that LDEnhancer outperforms other SOTA low-light enhancers for nighttime UAV tracking. Furthermore, real-world tests on a typical UAV platform with an NVIDIA Orin NX confirm the practicality and efficiency of LDEnhancer. The code is available at https://github.com/vision4robotics/LDEnhancer. | 翻訳日:2024-09-27 05:35:28 公開日:2024-09-25 |
# ベイズニューラルネットワークのための関数確率勾配MCMC
Functional Stochastic Gradient MCMC for Bayesian Neural Networks ( http://arxiv.org/abs/2409.16632v1 ) ライセンス: Link先を確認 | Mengjing Wu, Junyu Xuan, Jie Lu, | (参考訳) パラメータ空間におけるベイズニューラルネットワーク(BNN)の古典的変分推論は、通常、深層ネットワークにおける難読性や病理的振る舞いを符号化する知識のような未解決の問題に悩まされ、不適切な後部推論につながる可能性がある。
したがって、関数的変動推論は、確率過程の先行によってこれらの問題を解くために最近提案されている。
変分推論以外にも、確率勾配マルコフ・チェイン・モンテカルロ(SGMCMC)は、連続力学をシミュレートすることでBNNが真の後方からのサンプルを漸近的に生成するスケーラブルで効果的な推論手法である。
しかし、既存のSGMCMC法はパラメータ空間の変動推論と同じ問題を持ち、パラメータ空間のダイナミクスを関数空間のダイナミクスに拡張するパラメトリック空間でしか機能しない。
本稿では,より情報的機能的先行を組み込んだ新しい拡散力学による機能的SGMCMC手法を提案する。
さらに,これらの関数力学の定常分布が関数上の対象後部分布であることを証明した。
本研究では,機能的SGMCMCの精度と不確かさの両面において,有意なSGMCMCと機能的変分推論法と比較して,いくつかのタスクにおいて優れた性能を示す。
Classical variational inference for Bayesian neural networks (BNNs) in parameter space usually suffers from unresolved prior issues such as knowledge encoding intractability and pathological behaviors in deep networks, which could lead to an improper posterior inference. Hence, functional variational inference has been proposed recently to resolve these issues via stochastic process priors. Beyond variational inference, stochastic gradient Markov Chain Monte Carlo (SGMCMC) is another scalable and effective inference method for BNNs to asymptotically generate samples from true posterior by simulating a continuous dynamic. However, the existing SGMCMC methods only work in parametric space, which has the same issues of parameter-space variational inference, and extending the parameter-space dynamics to function-space dynamics is not a trivial undertaking. In this paper, we introduce a new functional SGMCMC scheme via newly designed diffusion dynamics, which can incorporate more informative functional priors. Moreover, we prove that the stationary distribution of these functional dynamics is the target posterior distribution over functions. We demonstrate better performance in both accuracy and uncertainty quantification of our functional SGMCMC on several tasks compared with naive SGMCMC and functional variational inference methods. | 翻訳日:2024-09-27 05:35:28 公開日:2024-09-25 |
# PIFS-Rec:大規模レコメンデーションシステム推論のためのプロセス・イン・ファブリック・スイッチ
PIFS-Rec: Process-In-Fabric-Switch for Large-Scale Recommendation System Inferences ( http://arxiv.org/abs/2409.16633v1 ) ライセンス: Link先を確認 | Pingyi Huo, Anusha Devulapally, Hasan Al Maruf, Minseo Park, Krishnakumar Nair, Meena Arunachalam, Gulsum Gudukbay Akbulut, Mahmut Taylan Kandemir, Vijaykrishnan Narayanan, | (参考訳) ディープラーニングレコメンデーションモデル(DLRM)は、今日のデータセンタで人気を博し、AI推論サイクルの大部分を消費している。
DLRMの性能は、埋め込みテーブルや同時アクセスにおけるベクトルサイズが大きいため、利用可能な帯域幅に大きく影響されている。
既存のソリューションよりも大幅に改善するためには、特にCXLのような新たな相互接続技術において、DLRM最適化への新しいアプローチが必要である。
本稿では,メモリと帯域幅のスケーラビリティを最適化しつつ,DLRMを高速化するPFS(Process-in-fabric-switch)ソリューションを実装したCXL対応システムについて検討する。
本稿では,CXL対応システム上で稼働する産業規模のDLRMワークロードを詳細に解析し,既存のCXLシステムのボトルネックを同定する。
そこで本研究では,布地スイッチの下流ポートを介して,近距離データ処理を実現するPIFS-Recを提案する。
PIFS-Recは、業界標準のCXLベースのシステムであるPondの3.89倍のレイテンシを実現し、最先端のスキームであるBEACONを2.03倍に上回っている。
Deep Learning Recommendation Models (DLRMs) have become increasingly popular and prevalent in today's datacenters, consuming most of the AI inference cycles. The performance of DLRMs is heavily influenced by available bandwidth due to their large vector sizes in embedding tables and concurrent accesses. To achieve substantial improvements over existing solutions, novel approaches towards DLRM optimization are needed, especially, in the context of emerging interconnect technologies like CXL. This study delves into exploring CXL-enabled systems, implementing a process-in-fabric-switch (PIFS) solution to accelerate DLRMs while optimizing their memory and bandwidth scalability. We present an in-depth characterization of industry-scale DLRM workloads running on CXL-ready systems, identifying the predominant bottlenecks in existing CXL systems. We, therefore, propose PIFS-Rec, a PIFS-based scheme that implements near-data processing through downstream ports of the fabric switch. PIFS-Rec achieves a latency that is 3.89x lower than Pond, an industry-standard CXL-based system, and also outperforms BEACON, a state-of-the-art scheme, by 2.03x. | 翻訳日:2024-09-27 05:23:25 公開日:2024-09-25 |
# 可換分解によるトロッター誤差時間スケーリング分離
Trotter error time scaling separation via commutant decomposition ( http://arxiv.org/abs/2409.16634v1 ) ライセンス: Link先を確認 | Yi-Hsiang Chen, | (参考訳) 動的量子シミュレーションにおけるトロッター誤差の抑制は通常、より深い回路を走らせる必要があり、ノイズの多い短期量子デバイスにとって大きな課題となる。
実験誤差は、通常既存の境界によって示唆されるものよりもはるかに小さく、実際の回路コストがそれらの境界に基づくものよりもはるかに小さいことを示唆している。
ここでは、時間とともに根本的に異なるスケーリングを持つ非結合誤差成分を分離する可換分解の一般的な枠組みを導入することにより、既存の境界よりもトロッター誤差の推定を改善する。
特に、各スケールを $\mathcal{O}(t^{p+1}/r^p)$ と $\mathcal{O}(t^p/r^p)$ の2つのエラー成分を、$r$パーティションを使用して時間$t$に進化した$p$の製品公式に対して同定する。
固定ステップサイズ$t/r$では、時間$t$で線形にスケールし、もう1つは$t$で定数となる。
この定式化は, 従来の結果を直接再現するだけでなく, 高次積公式の誤差推定にも有効であることを示す。
解析的にも数値的にも改善を実証する。
また,Floquet力学の加熱と熱化に関する観測可能な誤差に対して解析を適用した。
Suppressing the Trotter error in dynamical quantum simulation typically requires running deeper circuits, posing a great challenge for noisy near-term quantum devices. Studies have shown that the empirical error is usually much smaller than the one suggested by existing bounds, implying the actual circuit cost required is much less than the ones based on those bounds. Here, we improve the estimate of the Trotter error over existing bounds, by introducing a general framework of commutant decomposition that separates disjoint error components that have fundamentally different scaling with time. In particular we identify two error components that each scale as $\mathcal{O}(t^{p+1}/r^p)$ and $\mathcal{O}(t^p/r^p)$ for a $p$th-order product formula evolving to time $t$ using $r$ partitions. Under a fixed step size $t/r$, it implies one would scale linearly with time $t$ and the other would be constant of $t$. We show that this formalism not only straightforwardly reproduces previous results but also provides a better error estimate for higher-order product formulas. We demonstrate the improvement both analytically and numerically. We also apply the analysis to observable error relating to the heating in Floquet dynamics and thermalization, which is of independent interest. | 翻訳日:2024-09-27 05:23:25 公開日:2024-09-25 |
# 思考の判断:大言語モデルにおける二項論理推論の法廷
Judgment of Thoughts: Courtroom of the Binary Logical Reasoning in Large Language Models ( http://arxiv.org/abs/2409.16635v1 ) ライセンス: Link先を確認 | Sungjune Park, Daeseon Choi, | (参考訳) 本稿では,二項論理推論タスクに特化して最適化されたJedgment of Thought(JoT)と呼ばれる新しいプロンプトエンジニアリング手法を提案する。
JoTには3つの役割がある:$\unicode{x2014}$lawyer、検察官、および審査員$\unicode{x2014}$Tは、モデルによるより信頼性と正確な推論を容易にする。
この枠組みでは、裁判官は高い$\unicode{x2010}$levelモデルを使用し、弁護士と検察官は低い$\unicode{x2010}$levelモデルを使用する。
この構造は、裁判官が弁護士と検察官の両方からの反応をよりよく理解し、より正確な判断を可能にする。
BigBenchHardやWinograndeといった大規模言語モデル(LLM)ベンチマークデータセットの実験結果は、JoTがバイナリ論理的推論タスクにおいてChain of Thought(CoT)やSelf$\unicode{x2010}$Consistency(SC)など、既存のメソッドよりも優れていることを示している。
さらに、Fake News DetectionやSMS Spam Detectionのような実際の$\unicode{x2010}$worldタスクでは、JoTは既存の技術と比べて同等または改善されたパフォーマンスを示している。
JoTは、バイナリ推論タスクにおけるモデルの精度と信頼性を大幅に向上させ、様々な領域にわたる実用的な適用可能性を示す。
将来の研究は、JoTの適用性をさらに拡大し、その実装を Real$\unicode{x2010}$world problem$\unicode{x2010}$solving に最適化することを目的としている。
This paper proposes a novel prompt engineering technique called Judgment of Thought (JoT) that is specifically tailored for binary logical reasoning tasks. JoT employs three roles$\unicode{x2014}$lawyer, prosecutor, and judge$\unicode{x2014}$to facilitate more reliable and accurate reasoning by the model. In this framework, the judge utilizes a high$\unicode{x2010}$level model, while the lawyer and prosecutor utilize low$\unicode{x2010}$level models. This structure helps the judge better understand the responses from both the lawyer and prosecutor, enabling a more accurate judgment. Experimental results on large language model (LLM) benchmark datasets, such as BigBenchHard and Winogrande, demonstrate that JoT outperforms existing methods, including Chain of Thought (CoT) and Self$\unicode{x2010}$Consistency (SC), in binary logical reasoning tasks. Additionally, in real$\unicode{x2010}$world tasks, such as Fake News Detection and SMS Spam Detection, JoT shows comparable or improved performance compared to existing techniques. JoT significantly enhances the accuracy and reliability of models in binary reasoning tasks and show potential for practical applicability across various domains. Future research should aim to further broaden the applicability of JoT and optimize its implementation for real$\unicode{x2010}$world problem$\unicode{x2010}$solving. | 翻訳日:2024-09-27 05:23:25 公開日:2024-09-25 |
# セルフプレイで議論に勝つための学習言語モデルによる判断精度の向上
Training Language Models to Win Debates with Self-Play Improves Judge Accuracy ( http://arxiv.org/abs/2409.16636v1 ) ライセンス: Link先を確認 | Samuel Arnesen, David Rein, Julian Michael, | (参考訳) 本稿では,学習モデルによるスケーラブルな監視手法としての議論の堅牢性を試行し,自己再生によって生成されたデータと議論する。
長文読解タスクでは,言語モデルに基づく評価器が,議論に勝つために最適化されたモデルを判断する際に,より正確に解答することがわかった。
対照的に、対立する議論者がいない裁判官を説得するために訓練されたコンサルタントモデルについて、そのような関係は見つからない。
議論モデルと新たなコンサルタントベースラインの量的・質的な比較では、議論トレーニングがより強く、より情報的な議論を奨励する証拠を見つけ、それが直接評価が難しいタスクの高品質な監視に役立つことを約束する。
We test the robustness of debate as a method of scalable oversight by training models to debate with data generated via self-play. In a long-context reading comprehension task, we find that language model based evaluators answer questions more accurately when judging models optimized to win debates. By contrast, we find no such relationship for consultancy models trained to persuade a judge without an opposing debater present. In quantitative and qualitative comparisons between our debate models and novel consultancy baselines, we find evidence that debate training encourages stronger and more informative arguments, showing promise that it can help provide high-quality supervision for tasks that are difficult to directly evaluate. | 翻訳日:2024-09-27 05:23:25 公開日:2024-09-25 |
# 走査透過電子顕微鏡のディープラーニング認識:ガウス雑音の影響の定量化と緩和
Deep-Learning Recognition of Scanning Transmission Electron Microscopy: Quantifying and Mitigating the Influence of Gaussian Noises ( http://arxiv.org/abs/2409.16637v1 ) ライセンス: Link先を確認 | Hanlei Zhang, Jincheng Bai, Xiabo Chen, Can Li, Chuanjian Zhong, Jiye Fang, Guangwen Zhou, | (参考訳) 走査透過電子顕微鏡(STEM)は材料の形態や構造を明らかにする強力なツールであり、科学や産業のコミュニティから強い関心を集めている。
STEM技術の卓越した空間(原子レベル)と時間(msレベル)の分解能は、多量の高精細データを生成するため、材料の高体積かつ高速な分析を可能にする。
一方、STEMによって生成された大きなデータセットの処理は、コンピュータベースの自動化を緊急に要求する人手作業の能力を超え、時間を要する。
本研究では,STEMで撮像したナノ粒子の認識と関連する次元解析を行うための,深層学習マスク領域ベースニューラルネットワーク(Mask R-CNN)を提案する。
The Mask R-CNN model were tested onsimulated STEM-HAADF results with different Gaussian noises, Particle shapes and Particle sizes, and the results showed that Gaussian noise has determined Influence on the accuracy of recognition。
ノイズを含むSTEM-HAADFにガウスおよび非局所平均フィルタを適用することにより、ノイズの影響が大幅に軽減され、認識精度が大幅に向上する。
このフィルタリング認識手法はSTEM-HAADF実験結果にさらに適用され,従来のしきい値法と比較して満足度が向上した。
本研究で開発されたディープラーニングに基づく手法は,STEM-HAADFによって生成された複雑な構造と大規模データの解析において大きな可能性を持っている。
Scanning transmission electron microscopy (STEM) is a powerful tool to reveal the morphologies and structures of materials, thereby attracting intensive interests from the scientific and industrial communities. The outstanding spatial (atomic level) and temporal (ms level) resolutions of the STEM techniques generate fruitful amounts of high-definition data, thereby enabling the high-volume and high-speed analysis of materials. On the other hand, processing of the big dataset generated by STEM is time-consuming and beyond the capability of human-based manual work, which urgently calls for computer-based automation. In this work, we present a deep-learning mask region-based neural network (Mask R-CNN) for the recognition of nanoparticles imaged by STEM, as well as generating the associated dimensional analysis. The Mask R-CNN model was tested on simulated STEM-HAADF results with different Gaussian noises, particle shapes and particle sizes, and the results indicated that Gaussian noise has determining influence on the accuracy of recognition. By applying Gaussian and Non-Local Means filters on the noise-containing STEM-HAADF results, the influences of noises are largely mitigated, and recognition accuracy is significantly improved. This filtering-recognition approach was further applied to experimental STEM-HAADF results, which yields satisfying accuracy compared with the traditional threshold methods. The deep-learning-based method developed in this work has great potentials in analysis of the complicated structures and large data generated by STEM-HAADF. | 翻訳日:2024-09-27 05:23:25 公開日:2024-09-25 |
# 自由電子系との二重交換相互作用による1次元強磁性ドメイン壁の変形
Deformation of a one dimensional ferromagnetic domain wall due to double exchange interaction with a free electron system ( http://arxiv.org/abs/2409.16638v1 ) ライセンス: Link先を確認 | K. Seremetas, X. Zotos, | (参考訳) S-行列定式化を用いて、二重交換相互作用を介して1次元自由電子系と相互作用するブロッホまたはN'eel磁性壁のエネルギーと伝導性を評価する。
磁気相互作用よりも大きい化学ポテンシャルでは、磁壁はより大きな幅に向けて大きく変形する。
二重磁性壁系では、電子エネルギーは磁壁の相対的なキラリティに依存するが、導電性は基本的にそれとは独立である。
エネルギーと伝導度は、このプロトタイプモデル内のBlochとN\'eelの磁区壁と同一である。
Using an S-matrix formulation we evaluate the energy and conductance of a Bloch or N\'eel magnetic wall interacting with a one dimensional free electron system via a double exchange interaction. We find that for chemical potential larger than the magnetic interaction the domain wall is greatly deformed towards larger width. For double magnetic wall systems the electronic energy depends on the relative chirality of the domain walls while the conductance is basically independent of it. The energy and conductance are identical for Bloch and N\'eel magnetic domain walls within this prototype model. | 翻訳日:2024-09-27 05:23:25 公開日:2024-09-25 |
# トンネルにおけるラットの観察:Tor-based malwareの解釈可能なマルチラベル分類
Examining the Rat in the Tunnel: Interpretable Multi-Label Classification of Tor-based Malware ( http://arxiv.org/abs/2409.16639v1 ) ライセンス: Link先を確認 | Ishan Karunanayake, Mashael AlSabah, Nadeem Ahmed, Sanjay Jha, | (参考訳) 最も人気のあるプライバシー保護ネットワークであるTorは、悪意のあるトラフィックを妨害するためにサイバー犯罪者によって採用され、侵入されたデバイスとコマンド・アンド・コントロール(C&C)サーバー間のマルウェア関連の通信の識別を妨げている。
この悪意のあるトラフィックは混雑を誘発し、Torのパフォーマンスを低下させ、ネットワーク管理者はTorトラフィックをブロックするように促す。
しかし、最近の研究は、捕獲されたTorのトラフィックを悪意または良心として正確に分類する可能性を実証している。
既存の取り組みでは、マルウェアのクラス識別に対処しているが、その性能は依然として制限されており、マイクロ平均精度とリコール値は約70%である。
特定のマルウェアの正確な分類は、効果的な攻撃予防と緩和に不可欠である。
さらに、異なるマルウェアクラスで使用されるユニークなパターンや攻撃ベクトルを理解することは、堅牢で適応可能な防御機構の開発に役立つ。
我々は、メッセージパッシングニューラルネットワークに基づくマルチラベル分類手法を利用して、マイクロ平均精度(MAP)とリコール(MAR)を90%以上達成し、バイナリ関連性、分類チェイン、ラベルパワーセットといった従来のアプローチよりも優れていることを示す。
従来の研究と比較して、MAP、MAR、ハミングロスでは、それぞれ19.98%、10.15%、59.21%のパフォーマンスが大幅に向上した。
次に、これらのモデル内の意思決定プロセスを理解するために、説明可能な人工知能(XAI)技術を使用します。
最後に,分類器の予測を操作でき,偽陽性や負の予測を生成できる逆の摂動を発生させることにより,全ての手法の堅牢性を評価する。
Despite being the most popular privacy-enhancing network, Tor is increasingly adopted by cybercriminals to obfuscate malicious traffic, hindering the identification of malware-related communications between compromised devices and Command and Control (C&C) servers. This malicious traffic can induce congestion and reduce Tor's performance, while encouraging network administrators to block Tor traffic. Recent research, however, demonstrates the potential for accurately classifying captured Tor traffic as malicious or benign. While existing efforts have addressed malware class identification, their performance remains limited, with micro-average precision and recall values around 70%. Accurately classifying specific malware classes is crucial for effective attack prevention and mitigation. Furthermore, understanding the unique patterns and attack vectors employed by different malware classes helps the development of robust and adaptable defence mechanisms. We utilise a multi-label classification technique based on Message-Passing Neural Networks, demonstrating its superiority over previous approaches such as Binary Relevance, Classifier Chains, and Label Powerset, by achieving micro-average precision (MAP) and recall (MAR) exceeding 90%. Compared to previous work, we significantly improve performance by 19.98%, 10.15%, and 59.21% in MAP, MAR, and Hamming Loss, respectively. Next, we employ Explainable Artificial Intelligence (XAI) techniques to interpret the decision-making process within these models. Finally, we assess the robustness of all techniques by crafting adversarial perturbations capable of manipulating classifier predictions and generating false positives and negatives. | 翻訳日:2024-09-27 05:23:25 公開日:2024-09-25 |
# スパースSYKモデルにおける多部情報
Multipartite information in sparse SYK models ( http://arxiv.org/abs/2409.16641v1 ) ライセンス: Link先を確認 | Norihiro Iizuka, Arkaprava Mukherjee, Sunil Kumar Sake, Nicolò Zenoni, | (参考訳) 重力双対を持つ場の量子論では、任意の不随伴空間領域間の絡み合いエントロピーを含む特定の不等式が成立する。
例として、三部情報の負性がある。
そこで,Sachdev-Ye-Kitaev (SYK) モデルとスパースSYKモデルの類似エントロピー不等式について検討した。
スパースSYKモデルは、SYK結合の一部を0に設定したモデルである。
これらのモデルは、あるスパースネスまで重力双対を許容することが議論されているので、マルチパーティント絡み構造がスパースネスに依存した方法で変化するかどうかを見ることは興味深い。
最大5個まで行った数値解析により,全てのエントロピー不等式は,任意のフレーバーサブリージョンの選択に対して,任意の温度とスパース度で満たされることがわかった。
さらに、純度の観点から多部交絡エントロピーをプロットすると、スパースネスの唯一の重要な効果は純度の範囲を変えることである。
したがって,多部情報はほとんどスパース性の影響を受けない。
逆例として、ランダム変数を含まない$N$-flavored Majorana fermionのベクトルモデルでは、エントロピーの不等式が違反する部分領域の選択が存在することを示す。
In quantum field theories that admit gravity dual, specific inequalities involving entanglement entropy between arbitrary disjoint spatial regions hold. An example is the negativity of tripartite information. Inspired by this, we investigate the analogous entropy inequalities in Sachdev-Ye-Kitaev (SYK) and sparse SYK models, which involve the entanglement among different flavors of Majorana fermions rather than spatial entanglement. Sparse SYK models are models where some of the SYK couplings are set to zero. Since these models have been argued to admit gravity duals up to a certain sparseness, it is interesting to see whether the multipartite entanglement structure changes in a sparseness-dependent manner. In the parameter space explored by our numerical analysis, which we performed upto five parties, we find that all entropy inequalities are satisfied for any temperature and degree of sparseness for an arbitrary choice of flavor subregions. In addition, if we plot the multipartite entanglement entropy in terms of purity, the only significant effect of sparseness is to change the range of purity. Thus, we conclude that multipartite information is almost unaffected by sparseness. As a counterexample, we also show that in a vector model of $N$-flavored Majorana fermions which contains no random variables, choices of subregions exist for which the entropy inequalities are violated. | 翻訳日:2024-09-27 05:23:25 公開日:2024-09-25 |
# 音声品質自動評価のための聴覚大言語モデルの提案
Enabling Auditory Large Language Models for Automatic Speech Quality Evaluation ( http://arxiv.org/abs/2409.16644v1 ) ライセンス: Link先を確認 | Siyin Wang, Wenyi Yu, Yudong Yang, Changli Tang, Yixuan Li, Jimin Zhuang, Xianzhao Chen, Xiaohai Tian, Jun Zhang, Guangzhi Sun, Lu Lu, Chao Zhang, | (参考訳) 音声品質評価は通常、平均意見スコア(MOS)や話者類似度(SIM)など、複数の側面から音声を評価する必要がある。
本稿では,最近導入された聴覚大言語モデル(LLM)を音声品質自動評価に活用することを提案する。
タスク固有のプロンプトを用いることで、音声LLMを微調整してMOS、SIM、A/Bテスト結果を予測する。
さらに、微調整された聴覚 LLM は、ノイズ、歪み、不連続性、全体的な品質などの側面を評価し、より解釈可能な出力を提供する自然言語記述を生成することができる。
NISQA、BVCC、SOMOS、VoxSimの音声品質データセットに対して、SALMONN、Qwen-Audio、Qwen2-Audioといったオープンソースの聴覚LCMを用いて大規模な実験が行われた。
自然言語記述タスクでは、商用モデルであるGoogle Gemini 1.5 Proも評価されている。
その結果,MOS と SIM の予測において,従来のタスク固有小モデルと比較して,聴覚LLM は競争性能が向上し,A/B テストや自然言語記述において有望な結果が得られた。
データ処理スクリプトと微調整されたモデルチェックポイントは、受け入れ次第リリースされます。
Speech quality assessment typically requires evaluating audio from multiple aspects, such as mean opinion score (MOS) and speaker similarity (SIM) etc., which can be challenging to cover using one small model designed for a single task. In this paper, we propose leveraging recently introduced auditory large language models (LLMs) for automatic speech quality assessment. By employing task-specific prompts, auditory LLMs are finetuned to predict MOS, SIM and A/B testing results, which are commonly used for evaluating text-to-speech systems. Additionally, the finetuned auditory LLM is able to generate natural language descriptions assessing aspects like noisiness, distortion, discontinuity, and overall quality, providing more interpretable outputs. Extensive experiments have been performed on the NISQA, BVCC, SOMOS and VoxSim speech quality datasets, using open-source auditory LLMs such as SALMONN, Qwen-Audio, and Qwen2-Audio. For the natural language descriptions task, a commercial model Google Gemini 1.5 Pro is also evaluated. The results demonstrate that auditory LLMs achieve competitive performance compared to state-of-the-art task-specific small models in predicting MOS and SIM, while also delivering promising results in A/B testing and natural language descriptions. Our data processing scripts and finetuned model checkpoints will be released upon acceptance. | 翻訳日:2024-09-27 05:23:25 公開日:2024-09-25 |
# 幾何学的アライメントによるマルチタスク学習におけるタスク追加
Task Addition in Multi-Task Learning by Geometrical Alignment ( http://arxiv.org/abs/2409.16645v1 ) ライセンス: Link先を確認 | Soorin Yim, Dae-Woong Jeong, Sung Moon Ko, Sumin Lee, Hyunseung Kim, Chanhui Lee, Sehui Han, | (参考訳) 一般化を維持しながら、限られたデータ上でディープラーニングモデルを訓練することは、分子特性予測における根本的な課題の1つである。
効果的な解決策の1つは、豊富なデータセットから抽出された知識を少ないデータに転送することである。
近年,タスク固有の潜伏空間の幾何学的形状を整列させることにより,ソフトパラメータ共有を利用するGeometrically Aligned Transfer Encoder (GATE) と呼ばれる新しいアルゴリズムが導入された。
しかし、GATEは計算コストのため、複数のタスクへのスケーリングの制限に直面している。
本研究では,計算複雑性を最小化しつつ,限られたデータで目標タスクの性能を向上させるためのタスク追加手法を提案する。
これは、大規模なデータセット上で教師付きマルチタスク事前トレーニングによって達成され、続いて、各タスクに対するタスク固有のモジュールの追加とトレーニングが行われる。
本実験は,従来のマルチタスク手法よりもGATEのタスク追加戦略の方が,計算コストに匹敵する優れた性能を示す。
Training deep learning models on limited data while maintaining generalization is one of the fundamental challenges in molecular property prediction. One effective solution is transferring knowledge extracted from abundant datasets to those with scarce data. Recently, a novel algorithm called Geometrically Aligned Transfer Encoder (GATE) has been introduced, which uses soft parameter sharing by aligning the geometrical shapes of task-specific latent spaces. However, GATE faces limitations in scaling to multiple tasks due to computational costs. In this study, we propose a task addition approach for GATE to improve performance on target tasks with limited data while minimizing computational complexity. It is achieved through supervised multi-task pre-training on a large dataset, followed by the addition and training of task-specific modules for each target task. Our experiments demonstrate the superior performance of the task addition strategy for GATE over conventional multi-task methods, with comparable computational costs. | 翻訳日:2024-09-27 05:23:25 公開日:2024-09-25 |
# 画像記述における言語間・言語間差異
Cross-Lingual and Cross-Cultural Variation in Image Descriptions ( http://arxiv.org/abs/2409.16646v1 ) ライセンス: Link先を確認 | Uri Berger, Edoardo M. Ponti, | (参考訳) 異なる言語の話者は、彼らが見ているものについて異なる方法で話しますか?
行動・認知研究は文化的な影響が知覚に与える影響を報告しているが、これらはほとんどスコープに限られており、複製が困難である。
本研究では,画像記述における言語間変化に関する大規模な実証的研究を行う。
本研究は,31の言語と多様な場所からの画像からなるマルチモーダルデータセットを用いて,キャプションに記述されたエンティティを正確に識別し,画像中に存在するエンティティを識別し,言語間でどのように異なるかを測定する手法を開発した。
我々の分析によると、地理的にあるいは遺伝的に近い言語のペアは、同じ実体に頻繁に言及する傾向にある。
また,サリエンシが普遍的に高いエンティティカテゴリ(アニメート・アソシエイトなど)や低い(クロース・アクセサリ),言語(ランドスケープ)間でのばらつきの大きいエンティティカテゴリも識別する。
ケーススタディでは、特定の言語対の違い(例えば、日本語では、英語よりもはるかに頻繁に衣服に言及する)を測定する。
さらに,本手法は,従来の小規模研究と相関する。
1) Rosch et al (1976)'s theory of basic-level category, demonstrate a preference for entity that is too generic and too specific, and and。
2) 宮本ら (2006) の仮説では, 環境には実体数などの知覚パターンが存在する。
全体として、私たちの研究は、エンティティの言及における普遍的パターンと文化特有のパターンの両方の存在を明らかにしています。
Do speakers of different languages talk differently about what they see? Behavioural and cognitive studies report cultural effects on perception; however, these are mostly limited in scope and hard to replicate. In this work, we conduct the first large-scale empirical study of cross-lingual variation in image descriptions. Using a multimodal dataset with 31 languages and images from diverse locations, we develop a method to accurately identify entities mentioned in captions and present in the images, then measure how they vary across languages. Our analysis reveals that pairs of languages that are geographically or genetically closer tend to mention the same entities more frequently. We also identify entity categories whose saliency is universally high (such as animate beings), low (clothing accessories) or displaying high variance across languages (landscape). In a case study, we measure the differences in a specific language pair (e.g., Japanese mentions clothing far more frequently than English). Furthermore, our method corroborates previous small-scale studies, including 1) Rosch et al. (1976)'s theory of basic-level categories, demonstrating a preference for entities that are neither too generic nor too specific, and 2) Miyamoto et al. (2006)'s hypothesis that environments afford patterns of perception, such as entity counts. Overall, our work reveals the presence of both universal and culture-specific patterns in entity mentions. | 翻訳日:2024-09-27 05:23:25 公開日:2024-09-25 |
# ドメインに依存しない時系列データのための記述テキストの自動生成
Domain-Independent Automatic Generation of Descriptive Texts for Time-Series Data ( http://arxiv.org/abs/2409.16647v1 ) ライセンス: Link先を確認 | Kota Dohi, Aoi Ito, Harsh Purohit, Tomoya Nishida, Takashi Endo, Yohei Kawaguchi, | (参考訳) 記述的テキストで注釈付けされた時系列データが不足しているため、時系列データのための記述的テキストを生成するためのモデルを訓練することは困難である。
本研究では,時系列データからドメインに依存しない記述テキストを体系的に生成する手法を提案する。
我々は、時系列データと記述テキストのペアを作成するための2つの異なるアプローチ、前方アプローチと後方アプローチを識別する。
新たな後方アプローチを実装して,TACO(Temporal Automated Captions for Observations)データセットを作成する。
実験の結果,TACOデータセットを用いて学習した対照的な学習ベースモデルでは,新しいドメインにおける時系列データのための記述テキストを生成することができることがわかった。
Due to scarcity of time-series data annotated with descriptive texts, training a model to generate descriptive texts for time-series data is challenging. In this study, we propose a method to systematically generate domain-independent descriptive texts from time-series data. We identify two distinct approaches for creating pairs of time-series data and descriptive texts: the forward approach and the backward approach. By implementing the novel backward approach, we create the Temporal Automated Captions for Observations (TACO) dataset. Experimental results demonstrate that a contrastive learning based model trained using the TACO dataset is capable of generating descriptive texts for time-series data in novel domains. | 翻訳日:2024-09-27 05:23:25 公開日:2024-09-25 |
# 自己教師付き補助学習によるマルチタスク学習のための学習表現
Learning Representation for Multitask learning through Self Supervised Auxiliary learning ( http://arxiv.org/abs/2409.16651v1 ) ライセンス: Link先を確認 | Seokwon Shin, Hyungrok Do, Youngdoo Son, | (参考訳) マルチタスク学習は、複数の関連するタスクの同時学習を可能にし、アルゴリズムの効率性と効率性を向上させる、一般的な機械学習アプローチである。
ハードパラメータ共有アプローチでは、複数のタスクを通して共有されるエンコーダは、タスク固有の予測器に渡されるデータ表現を生成する。
そのため、各タスクに対して適切な表現を提供する共有エンコーダを持つことが不可欠である。
しかし、近年のマルチタスク学習の進歩にもかかわらず、共有エンコーダによって生成される表現の質をどのように向上させるかという問題は未解決のままである。
このギャップに対処するため,共有エンコーダが生成する表現の普遍性を改善することを目的としたDummy Gradient norm Regularizationという新しい手法を提案する。
具体的には、共有エンコーダの表現の普遍性を改善するために、ダミータスク固有の予測器を再現することで損失関数の勾配のノルムを減少させる。
複数のマルチタスク学習ベンチマークデータセットの実験を通して、DGRは共有表現の品質を効果的に改善し、マルチタスク予測性能が向上することを示した。
様々な分類器に適用すると、DGRが生成した共有表現は、既存のマルチタスク学習法よりも優れた性能を示す。
さらに,本手法は単純さから計算効率を生かしている。
このシンプルさにより、DGRを既存のマルチタスク学習アルゴリズムとシームレスに統合することもできます。
Multi-task learning is a popular machine learning approach that enables simultaneous learning of multiple related tasks, improving algorithmic efficiency and effectiveness. In the hard parameter sharing approach, an encoder shared through multiple tasks generates data representations passed to task-specific predictors. Therefore, it is crucial to have a shared encoder that provides decent representations for every and each task. However, despite recent advances in multi-task learning, the question of how to improve the quality of representations generated by the shared encoder remains open. To address this gap, we propose a novel approach called Dummy Gradient norm Regularization that aims to improve the universality of the representations generated by the shared encoder. Specifically, the method decreases the norm of the gradient of the loss function with repect to dummy task-specific predictors to improve the universality of the shared encoder's representations. Through experiments on multiple multi-task learning benchmark datasets, we demonstrate that DGR effectively improves the quality of the shared representations, leading to better multi-task prediction performances. Applied to various classifiers, the shared representations generated by DGR also show superior performance compared to existing multi-task learning methods. Moreover, our approach takes advantage of computational efficiency due to its simplicity. The simplicity also allows us to seamlessly integrate DGR with the existing multi-task learning algorithms. | 翻訳日:2024-09-27 05:23:25 公開日:2024-09-25 |
# リアルタイムUAV追跡のためのプログレッシブ表現学習
Progressive Representation Learning for Real-Time UAV Tracking ( http://arxiv.org/abs/2409.16652v1 ) ライセンス: Link先を確認 | Changhong Fu, Xiang Lei, Haobo Zuo, Liangliang Yao, Guangze Zheng, Jia Pan, | (参考訳) 視覚的物体追跡は無人航空機(UAV)の自律的応用を著しく推進している。
しかし,UAV追跡のための頑健なオブジェクト表現の学習は,アスペクト比の変化や閉塞に直面した複雑な動的環境において特に困難である。
これらの課題は、オブジェクトの本来の情報を大きく変えます。
そこで本研究では,UAV追跡のための新しいプログレッシブな表現学習フレームワークであるPRL-Trackを提案する。
具体的には、PRL-Trackを粗い表現学習と細かな表現学習に分割する。
粗い表現学習では、外観情報と意味情報に依存する2つの革新的な規制が、外観干渉を緩和し、意味情報をキャプチャするために設計されている。
さらに、表現の微妙な学習のために、粗いオブジェクト表現を補間するために、新しい階層的モデリング生成器を開発する。
実験により、提案されたPRL-Trackは、3つの信頼できるUAV追跡ベンチマークで例外的な性能を発揮することが示された。
実世界のテストでは、提案されたPRL-Trackは、エッジスマートカメラを備えた典型的なUAVプラットフォームにおいて、毎秒42.6フレームの優れた追跡性能を実現していることを示している。
コード、モデル、デモビデオは \url{https://github.com/vision4robotics/PRL-Track} で公開されている。
Visual object tracking has significantly promoted autonomous applications for unmanned aerial vehicles (UAVs). However, learning robust object representations for UAV tracking is especially challenging in complex dynamic environments, when confronted with aspect ratio change and occlusion. These challenges severely alter the original information of the object. To handle the above issues, this work proposes a novel progressive representation learning framework for UAV tracking, i.e., PRL-Track. Specifically, PRL-Track is divided into coarse representation learning and fine representation learning. For coarse representation learning, two innovative regulators, which rely on appearance and semantic information, are designed to mitigate appearance interference and capture semantic information. Furthermore, for fine representation learning, a new hierarchical modeling generator is developed to intertwine coarse object representations. Exhaustive experiments demonstrate that the proposed PRL-Track delivers exceptional performance on three authoritative UAV tracking benchmarks. Real-world tests indicate that the proposed PRL-Track realizes superior tracking performance with 42.6 frames per second on the typical UAV platform equipped with an edge smart camera. The code, model, and demo videos are available at \url{https://github.com/vision4robotics/PRL-Track}. | 翻訳日:2024-09-27 05:23:25 公開日:2024-09-25 |
# 信頼性変換器
The Credibility Transformer ( http://arxiv.org/abs/2409.16653v1 ) ライセンス: Link先を確認 | Ronald Richman, Salvatore Scognamiglio, Mario V. Wüthrich, | (参考訳) 大規模言語モデルにおけるトランスフォーマーの大きな成功に触発されて、これらのアーキテクチャはますます表データに適用されている。
これは、表形式のデータを低次元ユークリッド空間に埋め込むことで実現される。
このトランスフォーマーアーキテクチャに新しい信頼性機構を導入する。
この信頼性メカニズムは、事前情報と観測に基づく情報の信頼性重み付き平均からなるエンコーダとして見なすべき特別なトークンに基づいている。
我々は、この新しい信頼性メカニズムがトレーニングを安定させるのに非常に有益であることを実証し、我々のCredibility Transformerは最先端のディープラーニングモデルよりも優れた予測モデルをもたらすことを示した。
Inspired by the large success of Transformers in Large Language Models, these architectures are increasingly applied to tabular data. This is achieved by embedding tabular data into low-dimensional Euclidean spaces resulting in similar structures as time-series data. We introduce a novel credibility mechanism to this Transformer architecture. This credibility mechanism is based on a special token that should be seen as an encoder that consists of a credibility weighted average of prior information and observation based information. We demonstrate that this novel credibility mechanism is very beneficial to stabilize training, and our Credibility Transformer leads to predictive models that are superior to state-of-the-art deep learning models. | 翻訳日:2024-09-27 05:23:25 公開日:2024-09-25 |
# 大規模音声テキスト基礎モデルを用いた音声認識
Speech Recognition Rescoring with Large Speech-Text Foundation Models ( http://arxiv.org/abs/2409.16654v1 ) ライセンス: Link先を確認 | Prashanth Gurunath Shivakumar, Jari Kolehmainen, Aditya Gourav, Yi Gu, Ankur Gandhe, Ariya Rastrow, Ivan Bulyko, | (参考訳) 大規模言語モデル(LLM)は、大量のテキストデータを活用することで、人間の言語を理解する能力を示した。
自動音声認識(ASR)システムは、利用可能な書き起こし音声データによって制限されることが多く、LLMを用いた第2パス再構成の恩恵を受ける。
近年,多モーダルな言語モデル,特に音声・テキスト基礎モデルが,強い音声言語理解を実証している。
音声テキスト基礎モデルは、人間の言語をモデル化するために、音声とテキストのモダリティの両方において、大量の未ラベルデータとラベル付きデータを利用する。
本研究では,ASR再構成にマルチモーダル LLM を用いる新しい手法を提案する。
差別訓練も検討し、基礎モデルの再現性能をさらに向上させる。
音声テキストLLMにおけるクロスモーダルな知識伝達は、再構成に有用であることを示す。
実験では,Whisper大ASRに比べて最大で20%,テキストのみのLLMに比べて最大で15%改善した。
Large language models (LLM) have demonstrated the ability to understand human language by leveraging large amount of text data. Automatic speech recognition (ASR) systems are often limited by available transcribed speech data and benefit from a second pass rescoring using LLM. Recently multi-modal large language models, particularly speech and text foundational models have demonstrated strong spoken language understanding. Speech-Text foundational models leverage large amounts of unlabelled and labelled data both in speech and text modalities to model human language. In this work, we propose novel techniques to use multi-modal LLM for ASR rescoring. We also explore discriminative training to further improve the foundational model rescoring performance. We demonstrate cross-modal knowledge transfer in speech-text LLM can benefit rescoring. Our experiments demonstrate up-to 20% relative improvements over Whisper large ASR and up-to 15% relative improvements over text-only LLM. | 翻訳日:2024-09-27 05:12:32 公開日:2024-09-25 |
# AndroidからiOSへのUIマイグレーションのためのルールベースのアプローチ
A Rule-Based Approach for UI Migration from Android to iOS ( http://arxiv.org/abs/2409.16656v1 ) ライセンス: Link先を確認 | Yi Gao, Xing Hu, Tongtong Xu, Xin Xia, Xiaohu Yang, | (参考訳) モバイル開発プロセスでは、ユーザーインターフェース(UI)の作成は非常にリソース集約的です。
その結果、スクリーンショットやデザイン仕様からUIを生成するなど、多くの研究がUI開発を自動化することに重点を置いている。
しかし、彼らは画像認識のためのコンピュータビジョン技術に大きく依存している。
認識エラーは、これらの自動化アプローチの有効性を損なう、無効なUI要素生成を引き起こす可能性がある。
さらに、スクラッチからアプリUIを開発するのは、時間と労力を要する作業です。
この課題に対処するため,GUIMIGRATORと呼ばれる新しいアプローチを提案し,既存のAndroidアプリUIのiOSへの移行を可能にする。
このアプローチは、スクリーンショット認識からのエラーを回避するだけでなく、UIをスクラッチから開発するコストを削減する。
GUIMIGRATORは、UIスケルトンツリーを構築するために、Android UIレイアウト、ビュー、リソースを抽出し解析する。
GUIMIGRATORは、ターゲットコードテンプレートを利用して最終的なUIコードファイルを生成し、それをiOS開発プラットフォーム、すなわちXcodeでコンパイルし、検証する。
10ドメインにわたる31のAndroidオープンソースアプリケーションに対するGUIMIGRATORの有効性を評価した。
その結果,GUIMIGRATORはマイグレーションスクリーンショット間のUI類似度スコア78を達成し,既存の2つのLLMを著しく上回る結果となった。
さらに、GUIMIGRATORは高い効率を示し、データセットを移行するのにわずか7.6秒しかかからない。
これらの結果から,GUIMIGRATORはiOS上でのAndroid UIコードの再利用を効果的に促進し,両プラットフォームのUIフレームワークの強みを活用し,クロスプラットフォーム開発に新たな貢献をすることを示す。
In the mobile development process, creating the user interface (UI) is highly resource intensive. Consequently, numerous studies have focused on automating UI development, such as generating UI from screenshots or design specifications. However, they heavily rely on computer vision techniques for image recognition. Any recognition errors can cause invalid UI element generation, compromising the effectiveness of these automated approaches. Moreover, developing an app UI from scratch remains a time consuming and labor intensive task. To address this challenge, we propose a novel approach called GUIMIGRATOR, which enables the cross platform migration of existing Android app UIs to iOS, thereby automatically generating UI to facilitate the reuse of existing UI. This approach not only avoids errors from screenshot recognition but also reduces the cost of developing UIs from scratch. GUIMIGRATOR extracts and parses Android UI layouts, views, and resources to construct a UI skeleton tree. GUIMIGRATOR generates the final UI code files utilizing target code templates, which are then compiled and validated in the iOS development platform, i.e., Xcode. We evaluate the effectiveness of GUIMIGRATOR on 31 Android open source applications across ten domains. The results show that GUIMIGRATOR achieves a UI similarity score of 78 between migration screenshots, outperforming two popular existing LLMs substantially. Additionally, GUIMIGRATOR demonstrates high efficiency, taking only 7.6 seconds to migrate the datasets. These findings indicate that GUIMIGRATOR effectively facilitates the reuse of Android UI code on iOS, leveraging the strengths of both platforms UI frameworks and making new contributions to cross platform development. | 翻訳日:2024-09-27 05:12:32 公開日:2024-09-25 |
# 事前学習された言語モデルが不公平にハロゲン化されたテキストに区別可能な確率分布を返す
Pre-trained Language Models Return Distinguishable Probability Distributions to Unfaithfully Hallucinated Texts ( http://arxiv.org/abs/2409.16658v1 ) ライセンス: Link先を確認 | Taehun Cha, Donghun Lee, | (参考訳) 本研究では,事前学習した言語モデルを用いて,そのサイズや構造に関わらず,区別可能な生成確率と不確実性分布を不当に幻覚したテキストに還元することを示す。
6つのデータセット上で24のモデルを調べることで、88~98%のケースが統計的に識別可能な生成確率と不確実性分布を返すことがわかった。
この一般的な現象を用いて,幻覚低減学習アルゴリズムを示す。
提案アルゴリズムは,高信頼度指標を達成しつつ,音質の一般的な指標を維持しながら,他のベースラインよりも優れる。
In this work, we show the pre-trained language models return distinguishable generation probability and uncertainty distribution to unfaithfully hallucinated texts, regardless of their size and structure. By examining 24 models on 6 data sets, we find out that 88-98% of cases return statistically significantly distinguishable generation probability and uncertainty distributions. Using this general phenomenon, we showcase a hallucination-reducing training algorithm. Our algorithm outperforms other baselines by achieving higher faithfulness metrics while maintaining sound general text quality measures. | 翻訳日:2024-09-27 05:12:32 公開日:2024-09-25 |
# 自動車の模倣学習における共変量シフトの緩和
潜在空間生成世界モデルの利用
Mitigating Covariate Shift in Imitation Learning for Autonomous Vehicles Using Latent Space Generative World Models ( http://arxiv.org/abs/2409.16663v1 ) ライセンス: Link先を確認 | Alexander Popov, Alperen Degirmenci, David Wehr, Shashank Hegde, Ryan Oldja, Alexey Kamenev, Bertrand Douillard, David Nist\'er, Urs Muller, Ruchi Bhargava, Stan Birchfield, Nikolai Smolyanskiy | (参考訳) 本稿では,自律運転における共変量シフト問題に対処するために,潜在空間生成世界モデルを提案する。
World Model(ワールドモデル)は、エージェントの次の状態を予測できるニューラルネットワークである。
トレーニング中に世界モデルを活用することにより、運転方針は過剰なトレーニングデータを必要とすることなく、共変量シフトを効果的に緩和する。
エンド・ツー・エンドのトレーニングでは、人間のデモで観察された状態と整合してエラーから回復する方法を学び、実行時にトレーニング分布外の摂動から回復する。
さらに,マルチビューのクロスアテンションと学習シーンクエリを用いた,トランスフォーマーに基づく新しい認識エンコーダを提案する。
我々は,CARLAシミュレータにおけるクローズドループ試験における先行技術の改善と,CARLAとNVIDIAのDRIVE Simにおける摂動の処理能力を示す質的,定量的な結果を示す。
We propose the use of latent space generative world models to address the covariate shift problem in autonomous driving. A world model is a neural network capable of predicting an agent's next state given past states and actions. By leveraging a world model during training, the driving policy effectively mitigates covariate shift without requiring an excessive amount of training data. During end-to-end training, our policy learns how to recover from errors by aligning with states observed in human demonstrations, so that at runtime it can recover from perturbations outside the training distribution. Additionally, we introduce a novel transformer-based perception encoder that employs multi-view cross-attention and a learned scene query. We present qualitative and quantitative results, demonstrating significant improvements upon prior state of the art in closed-loop testing in the CARLA simulator, as well as showing the ability to handle perturbations in both CARLA and NVIDIA's DRIVE Sim. | 翻訳日:2024-09-27 05:12:32 公開日:2024-09-25 |
# TalkinNeRF: フルボディートーキング人間のためのアニマタブルニューラルネットワーク
TalkinNeRF: Animatable Neural Fields for Full-Body Talking Humans ( http://arxiv.org/abs/2409.16666v1 ) ライセンス: Link先を確認 | Aggelina Chatziagapi, Bindita Chaudhuri, Amit Kumar, Rakesh Ranjan, Dimitris Samaras, Nikolaos Sarafianos, | (参考訳) モノクラービデオからフルボディ音声のための動的ニューラルラジアンス場(NeRF)を学習する新しいフレームワークを提案する。
前作では、身体のポーズや顔のみを表現している。
しかし、人間は全身とコミュニケーションを取り、身体のポーズ、手の動き、表情を組み合わせている。
本研究では,全身的な4次元人間の動きを表すNeRFベースのネットワークであるTalkinNeRFを提案する。
被験者のモノラルな映像が与えられたら、体、顔、手に対応するモジュールが組み合わされ、最終的な結果が生成される。
複雑な指の関節をつかむために,手に対する付加的な変形場を学習する。
マルチアイデンティティ表現は、複数の被験者の同時訓練と、全く見えないポーズ下でのロバストなアニメーションを可能にする。
また、入力として短いビデオのみを与えられた新しいアイデンティティに一般化することもできる。
そこで,本研究では,手話音声と表情のきめ細やかな表現により,全身の話し声をアニメーション化するための最先端性能を実証する。
We introduce a novel framework that learns a dynamic neural radiance field (NeRF) for full-body talking humans from monocular videos. Prior work represents only the body pose or the face. However, humans communicate with their full body, combining body pose, hand gestures, as well as facial expressions. In this work, we propose TalkinNeRF, a unified NeRF-based network that represents the holistic 4D human motion. Given a monocular video of a subject, we learn corresponding modules for the body, face, and hands, that are combined together to generate the final result. To capture complex finger articulation, we learn an additional deformation field for the hands. Our multi-identity representation enables simultaneous training for multiple subjects, as well as robust animation under completely unseen poses. It can also generalize to novel identities, given only a short video as input. We demonstrate state-of-the-art performance for animating full-body talking humans, with fine-grained hand articulation and facial expressions. | 翻訳日:2024-09-27 05:12:32 公開日:2024-09-25 |
# イマジネーションによるキャラクター中心の創造的ストーリー生成
A Character-Centric Creative Story Generation via Imagination ( http://arxiv.org/abs/2409.16667v1 ) ライセンス: Link先を確認 | Kyeongman Park, Minbeom Kim, Kyomin Jung, | (参考訳) 多様な詳細なストーリ要素を持つ創造的なストーリ生成は、大規模な言語モデルの長年の目標である。
既存の方法論は長く一貫性のあるストーリーを生成するが、多様性とキャラクタの詳細の観点からは人間の能力にはかなり劣っている。
そこで我々はCCI(Character-centric Creative Story Generation via Imagination)と呼ばれる新しいストーリー生成フレームワークを紹介した。
CCIはクリエイティブなストーリー生成のための2つの革新的なモジュール、IG(Image-Guided Imagination)とMW(Multi-Writer model)を備えている。
IGモジュールでは、DALL-E 3を使ってキーストーリー要素を視覚的に表現する。
IGはテキストのみの手法よりも、より斬新で具体的な文字、背景、メインプロットを生成する。
MWモジュールは、IGによって作成されたこれらのストーリー要素を使用して、主人公の複数の記述候補を生成し、最良のものを選択する。
この方法は、鮮明で豊かなキャラクターの記述を物語に取り入れる。
CCIとベースラインモデルで生成されたストーリーを,人間による評価と統計的分析により比較した。
その結果、クリエイティビティは大幅に改善された。
さらに,ユーザとの対話型マルチモーダルストーリー生成の実現により,文化開発における人間-LLM統合の可能性も開かれた。
Creative story generation with diverse and detailed story elements is a long-standing goal for large language models. While existing methodologies generate long and coherent stories, they fall significantly short of human capabilities in terms of diversity and character detail. To address this, we introduce a novel story generation framework called CCI (Character-centric Creative story generation via Imagination). CCI features two innovative modules for creative story generation: IG (Image-Guided Imagination) and MW (Multi-Writer model). In the IG module, we utilize DALL-E 3 to create visual representations of key story elements. The IG generates more novel and concrete characters, backgrounds, and main plots than text-only methods. The MW module uses these story elements created by IG to generate multiple description candidates for the protagonist and select the best one. This method incorporates vivid and rich character descriptions into the story. We compared the stories generated by CCI and baseline models through human evaluation and statistical analysis. The results showed significant improvements in the creativity. Furthermore, by enabling interactive multi-modal story generation with users, we have opened up possibilities for human-LLM integration in cultural development. | 翻訳日:2024-09-27 05:12:32 公開日:2024-09-25 |
# 事象検出のためのトピック対応因果介入
Topic-aware Causal Intervention for Counterfactual Detection ( http://arxiv.org/abs/2409.16668v1 ) ライセンス: Link先を確認 | Thong Nguyen, Truc-My Nguyen, | (参考訳) イベントが起こらなかったり起こらなかったりする現象を記述した反現実的ステートメントは、多くのNLPアプリケーションにとって有益である。
そこで,本研究では,CFDの問題点を考察し,CFDモデルの拡張を目指す。
従来のモデルは、偽造性を予測するための手がかりフレーズに依存しているため、テスト中にヒントフレーズのヒントが存在しない場合、大きなパフォーマンス低下に悩まされる。
さらに、これらのモデルは反事実よりも非事実を予測しがちである。
これらの問題に対処するために、入力文のグローバルな意味を捉えるために、ニューラルネットワークのトピックモデルをCFDモデルに統合することを提案する。
我々は、クラスラベルの効果のバランスをとるために、CFDモデルの隠れ表現を慎重に介入し続けます。
大規模実験により,本手法は従来のCFD法およびバイアス解消法をCFD法と他のバイアス感受性タスクの両方で上回ることがわかった。
Counterfactual statements, which describe events that did not or cannot take place, are beneficial to numerous NLP applications. Hence, we consider the problem of counterfactual detection (CFD) and seek to enhance the CFD models. Previous models are reliant on clue phrases to predict counterfactuality, so they suffer from significant performance drop when clue phrase hints do not exist during testing. Moreover, these models tend to predict non-counterfactuals over counterfactuals. To address these issues, we propose to integrate neural topic model into the CFD model to capture the global semantics of the input statement. We continue to causally intervene the hidden representations of the CFD model to balance the effect of the class labels. Extensive experiments show that our approach outperforms previous state-of-the-art CFD and bias-resolving methods in both the CFD and other bias-sensitive tasks. | 翻訳日:2024-09-27 05:12:32 公開日:2024-09-25 |
# GraphLoRA: クロスグラフ変換学習のための構造対応コントラスト低ランク適応
GraphLoRA: Structure-Aware Contrastive Low-Rank Adaptation for Cross-Graph Transfer Learning ( http://arxiv.org/abs/2409.16670v1 ) ライセンス: Link先を確認 | Zhe-Rui Yang, Jindong Han, Chang-Dong Wang, Hao Liu, | (参考訳) グラフニューラルネットワーク(GNN)は、eコマースやソーシャルネットワークなど、さまざまな領域にわたるグラフ分析タスクの処理において、顕著な習熟性を示している。
汎用性にもかかわらず、GNNはトランスファービリティにおいて重大な課題に直面し、現実のアプリケーションでの利用を制限している。
GNN転送学習における既存の研究は、さまざまなグラフデータセット間の分散の相違を見落とし、異なる分散間で転送する際の課題に直面している。
様々な特徴と構造分布を持つグラフに対して、十分に訓練されたGNNを効果的に採用する方法は、まだ未解決の問題である。
様々な領域に大規模言語モデルを適用する上でのローランド適応(LoRA)の成功から着想を得たグラフLoRAは、よく訓練されたGNNを多様なグラフドメインに転送するための効率的かつパラメータ効率の高い方法である。
具体的には、まず、ソースグラフとターゲットグラフにまたがる分岐ノードの特徴分布を整列する構造対応の最大平均離散性(SMMD)を提案する。
さらに, トレーニング済みのGNNに少量のトレーニング可能なGNNを注入し, 破滅的忘れ込みを軽減しつつ, 構造的分布ギャップを効果的に埋めることにより, 低ランク適応を実現する。
また,事前学習したGNNの目標グラフへの適応性を高めるために,教師ラベルの少ない構造対応正規化目標を提案する。
6つの実世界のデータセットに対する大規模な実験は、異なるグラフドメインでさえパラメータの20%だけをチューニングすることで、GraphLoRAが11のベースラインに対して有効であることを実証している。
コードはhttps://anonymous.4open.science/r/GraphLoRAで公開されている。
Graph Neural Networks (GNNs) have demonstrated remarkable proficiency in handling a range of graph analytical tasks across various domains, such as e-commerce and social networks. Despite their versatility, GNNs face significant challenges in transferability, limiting their utility in real-world applications. Existing research in GNN transfer learning overlooks discrepancies in distribution among various graph datasets, facing challenges when transferring across different distributions. How to effectively adopt a well-trained GNN to new graphs with varying feature and structural distributions remains an under-explored problem. Taking inspiration from the success of Low-Rank Adaptation (LoRA) in adapting large language models to various domains, we propose GraphLoRA, an effective and parameter-efficient method for transferring well-trained GNNs to diverse graph domains. Specifically, we first propose a Structure-aware Maximum Mean Discrepancy (SMMD) to align divergent node feature distributions across source and target graphs. Moreover, we introduce low-rank adaptation by injecting a small trainable GNN alongside the pre-trained one, effectively bridging structural distribution gaps while mitigating the catastrophic forgetting. Additionally, a structure-aware regularization objective is proposed to enhance the adaptability of the pre-trained GNN to target graph with scarce supervision labels. Extensive experiments on six real-world datasets demonstrate the effectiveness of GraphLoRA against eleven baselines by tuning only 20% of parameters, even across disparate graph domains. The code is available at https://anonymous.4open.science/r/GraphLoRA. | 翻訳日:2024-09-27 05:12:32 公開日:2024-09-25 |
# オンラインソーシャル・ネットワークにおける野生生物の商品取引--イボリー関連商品販売促進ポストを事例として
Wildlife Product Trading in Online Social Networks: A Case Study on Ivory-Related Product Sales Promotion Posts ( http://arxiv.org/abs/2409.16671v1 ) ライセンス: Link先を確認 | Guanyi Mou, Yun Yue, Kyumin Lee, Ziming Zhang, | (参考訳) ワイルドライフ・トラクキング(WLT)はグローバルな問題として現れており、トレーカーはオフラインからオンラインプラットフォームに事業を拡大し、eコマースのウェブサイトやソーシャルネットワークを利用して不正取引を強化する。
本稿では, 環境に有害な活動に対処する上で重要な課題である, オンラインソーシャルネットワークにおける野生生物製品販売促進行動の検出と認識の課題について述べる。
本研究では,これらの環境被害に対処するため,オンラインソーシャルネットワークにおける野生生物製品販売促進行動に着目した。
具体的には
1)野生生物の商品取引に関連するスケーラブルなデータセットをネットワークベースのアプローチで収集する。
このデータセットはHuman-in-the-loop機械学習プロセスを通じてラベル付けされ、野生生物の製品販売ポストを含む正のクラスサンプルと、潜在的WLTポストと誤分類された通常のポストを表すハード負のサンプルを識別し、その後、人間のアノテータによって修正される。
2)提案したデータセットに機械学習の結果をベンチマークし,不審な野生動物を売っているポストやアカウントを自動的に識別する実用的なフレームワークを構築し,オンラインソーシャルネットワークのマルチモーダルな性質を十分に活用する。
3)本研究は,現在のランドスケープに多い組織的かつ組織的な販売行動に光を当てて,取引ポストの詳細な分析を行う。
我々は、これらの行動の性質に関する詳細な知見を提供し、違法な野生生物製品取引の理解と対策に貴重な情報を提供しています。
Wildlife trafficking (WLT) has emerged as a global issue, with traffickers expanding their operations from offline to online platforms, utilizing e-commerce websites and social networks to enhance their illicit trade. This paper addresses the challenge of detecting and recognizing wildlife product sales promotion behaviors in online social networks, a crucial aspect in combating these environmentally harmful activities. To counter these environmentally damaging illegal operations, in this research, we focus on wildlife product sales promotion behaviors in online social networks. Specifically, 1) A scalable dataset related to wildlife product trading is collected using a network-based approach. This dataset is labeled through a human-in-the-loop machine learning process, distinguishing positive class samples containing wildlife product selling posts and hard-negatives representing normal posts misclassified as potential WLT posts, subsequently corrected by human annotators. 2) We benchmark the machine learning results on the proposed dataset and build a practical framework that automatically identifies suspicious wildlife selling posts and accounts, sufficiently leveraging the multi-modal nature of online social networks. 3) This research delves into an in-depth analysis of trading posts, shedding light on the systematic and organized selling behaviors prevalent in the current landscape. We provide detailed insights into the nature of these behaviors, contributing valuable information for understanding and countering illegal wildlife product trading. | 翻訳日:2024-09-27 05:12:32 公開日:2024-09-25 |
# SWE2: ヘイトスピーチ検出のための単語強調フレームワーク
SWE2: SubWord Enriched and Significant Word Emphasized Framework for Hate Speech Detection ( http://arxiv.org/abs/2409.16673v1 ) ライセンス: Link先を確認 | Guanyi Mou, Pengyi Ye, Kyumin Lee, | (参考訳) オンラインソーシャルネットワーク上でのヘイトスピーチ検出は、近年ホットな話題の1つとなっている。
オンラインソーシャルネットワークの拡散と急速な伝播により、ヘイトスピーチは偏見を高め、人々を傷つけることによって社会に大きな影響を及ぼす。
そのため、産業と学界の双方から注目と関心が高まっている。
本稿では、ヘイトスピーチ問題に対処し、メッセージの内容のみに依存し、ヘイトスピーチを自動的に識別するSWE2と呼ばれる新しいヘイトスピーチ検出フレームワークを提案する。
特に,我々のフレームワークは,単語レベルの意味情報とサブワードの知識の両方を活用する。
直感的に説得力があり、文字レベルの敵攻撃を伴わない状況でも実質的には良好に機能する。
実験の結果,提案モデルは0.975の精度と0.953のマクロF1を達成し,対向攻撃を伴わない7つの最先端ベースラインを上回った。
極端な攻撃(50%メッセージの操作),0.967精度,0.934マクロF1。
Hate speech detection on online social networks has become one of the emerging hot topics in recent years. With the broad spread and fast propagation speed across online social networks, hate speech makes significant impacts on society by increasing prejudice and hurting people. Therefore, there are aroused attention and concern from both industry and academia. In this paper, we address the hate speech problem and propose a novel hate speech detection framework called SWE2, which only relies on the content of messages and automatically identifies hate speech. In particular, our framework exploits both word-level semantic information and sub-word knowledge. It is intuitively persuasive and also practically performs well under a situation with/without character-level adversarial attack. Experimental results show that our proposed model achieves 0.975 accuracy and 0.953 macro F1, outperforming 7 state-of-the-art baselines under no adversarial attack. Our model robustly and significantly performed well under extreme adversarial attack (manipulation of 50% messages), achieving 0.967 accuracy and 0.934 macro F1. | 翻訳日:2024-09-27 05:12:32 公開日:2024-09-25 |
# CryptoTrain: 暗号化されたデータに対する高速なセキュアトレーニング
CryptoTrain: Fast Secure Training on Encrypted Datase ( http://arxiv.org/abs/2409.16675v1 ) ライセンス: Link先を確認 | Jiaqi Xue, Yancheng Zhang, Yanshan Wang, Xueqiang Wang, Hao Zheng, Qian Lou, | (参考訳) セキュアなトレーニングは、データとモデルウェイトの両方の機密性を保護しながら、通常、かなりのトレーニングオーバーヘッドを発生させる。
従来のFHE(Fully Homomorphic Encryption)ベースの非アクティブトレーニングモデルは、ブートストラップの計算要求によって大きな負担を受ける。
そこで我々は,FHE と Oblivious Transfer (OT) を併用して線形および非線形操作を扱うハイブリッド暗号プロトコルを基盤として,効率的なセキュアなトレーニングシステムである CryptoTrain-B を構築した。
この統合により、コストのかかるブートストラップが不要になる。
CryptoTrain-Bはパフォーマンスの新たなベースラインを設定するが、トレーニングオーバーヘッドの削減は依然として不可欠である。
我々は、暗号文-暗号文乗算(CCMul)が、暗号化された入力やモデルを含む操作において重要なボトルネックとなることを発見した。
我々のソリューションであるCCMul-Precomputeは、CCMulをオフラインでプリ計算し、プライベートトレーニング中にリソース集約の少ない暗号文-プレーンテキスト乗算(CPMul)を利用する。
さらに、FHEシステムにおける従来の多項式畳み込みは、無関係かつ冗長な値を多項式スロットにエンコードし、入力表現のために追加の多項式と暗号文を必要とし、余分な乗法をもたらす傾向にある。
これに対応するために,関連する入力値のみを多項式にエンコードする相関多項式畳み込みを導入し,計算量やオーバーヘッドを大幅に削減する。
CCMul-Precomputeと相関多項式の畳み込みをCryptoTrain-Bに統合することにより、迅速かつ効率的なセキュアなトレーニングフレームワークCryptoTrainを実現する。
大規模な実験により、CryptoTrainは以前の方法に比べて約5.3倍のトレーニング時間を短縮できることが示された。
Secure training, while protecting the confidentiality of both data and model weights, typically incurs significant training overhead. Traditional Fully Homomorphic Encryption (FHE)-based non-inter-active training models are heavily burdened by computationally demanding bootstrapping. To develop an efficient secure training system, we established a foundational framework, CryptoTrain-B, utilizing a hybrid cryptographic protocol that merges FHE with Oblivious Transfer (OT) for handling linear and non-linear operations, respectively. This integration eliminates the need for costly bootstrapping. Although CryptoTrain-B sets a new baseline in performance, reducing its training overhead remains essential. We found that ciphertext-ciphertext multiplication (CCMul) is a critical bottleneck in operations involving encrypted inputs and models. Our solution, the CCMul-Precompute technique, involves precomputing CCMul offline and resorting to the less resource-intensive ciphertext-plaintext multiplication (CPMul) during private training. Furthermore, conventional polynomial convolution in FHE systems tends to encode irrelevant and redundant values into polynomial slots, necessitating additional polynomials and ciphertexts for input representation and leading to extra multiplications. Addressing this, we introduce correlated polynomial convolution, which encodes only related input values into polynomials, thus drastically reducing the number of computations and overheads. By integrating CCMul-Precompute and correlated polynomial convolution into CryptoTrain-B, we facilitate a rapid and efficient secure training framework, CryptoTrain. Extensive experiments demonstrate that CryptoTrain achieves a ~5.3X training time reduction compared to prior methods. | 翻訳日:2024-09-27 05:12:32 公開日:2024-09-25 |
# TSBP:テスト時間自己誘導バウンディングボックスプロパゲーションによる組織像の物体検出の改善
TSBP: Improving Object Detection in Histology Images via Test-time Self-guided Bounding-box Propagation ( http://arxiv.org/abs/2409.16678v1 ) ライセンス: Link先を確認 | Tingting Yang, Liang Xiao, Yizhe Zhang, | (参考訳) オブジェクト検出タスクの最終結果にどのバウンディングボックスを含めるべきかを決定するために、大域しきい値(eg , 0.5)がしばしば適用される。
高い閾値は偽陽性を減少させるが、真の正のかなりの部分が欠落する可能性がある。
低い閾値は検出リコールを増加させるが、より多くの偽陽性をもたらす可能性がある。
このため、すべての有界ボックス候補に対して予め設定された大域しきい値(例えば0.5)を用いることで、準最適解が得られる。
本稿では,アース・モーバー・ディスタンス(EMD)を利用して,組織像における物体検出を向上する,テストタイム・セルフガイド・バウンディング・ボックス・プロパゲーション(TSBP)法を提案する。
TSBPは、信頼性の高いバウンディングボックスを使用して、信頼性の低いものに影響を与え、それらの間の視覚的類似性を活用する。
本発明の伝搬機構は、簡単なしきい値と不確実性校正方法を用いることにより、制御可能、説明可能、堅牢な方法で境界ボックスを選択できるようにする。
重要なことに、TSBPはキャリブレーション法とは異なり、モデルトレーニングやパラメータ推定のために追加のラベル付きサンプルを必要としない。
組織像における腺検出と細胞検出の課題について実験を行った。
その結果,提案したTSBPは,最先端のディープラーニングに基づく検出ネットワークと連携して作業する際の検出結果を大幅に改善することがわかった。
不確実性校正などの他の手法と比較して、TSBPは、追加のラベル付きサンプルを使用しながら、より堅牢で正確な物体検出予測をもたらす。
コードはhttps://github.com/jwhgdeu/TSBPで公開されている。
A global threshold (e.g., 0.5) is often applied to determine which bounding boxes should be included in the final results for an object detection task. A higher threshold reduces false positives but may result in missing a significant portion of true positives. A lower threshold can increase detection recall but may also result in more false positives. Because of this, using a preset global threshold (e.g., 0.5) applied to all the bounding box candidates may lead to suboptimal solutions. In this paper, we propose a Test-time Self-guided Bounding-box Propagation (TSBP) method, leveraging Earth Mover's Distance (EMD) to enhance object detection in histology images. TSBP utilizes bounding boxes with high confidence to influence those with low confidence, leveraging visual similarities between them. This propagation mechanism enables bounding boxes to be selected in a controllable, explainable, and robust manner, which surpasses the effectiveness of using simple thresholds and uncertainty calibration methods. Importantly, TSBP does not necessitate additional labeled samples for model training or parameter estimation, unlike calibration methods. We conduct experiments on gland detection and cell detection tasks in histology images. The results show that our proposed TSBP significantly improves detection outcomes when working in conjunction with state-of-the-art deep learning-based detection networks. Compared to other methods such as uncertainty calibration, TSBP yields more robust and accurate object detection predictions while using no additional labeled samples. The code is available at https://github.com/jwhgdeu/TSBP. | 翻訳日:2024-09-27 05:12:32 公開日:2024-09-25 |
# 言語モデルに基づく音声合成における感情次元制御:人間の感情の広帯域化
Emotional Dimension Control in Language Model-Based Text-to-Speech: Spanning a Broad Spectrum of Human Emotions ( http://arxiv.org/abs/2409.16681v1 ) ライセンス: Link先を確認 | Kun Zhou, You Zhang, Shengkui Zhao, Hao Wang, Zexu Pan, Dianwen Ng, Chong Zhang, Chongjia Ni, Yukun Ma, Trung Hieu Nguyen, Jia Qi Yip, Bin Ma, | (参考訳) 現在の感情テキスト音声システム(TTS)は、感情の複雑さや感情のデータセットやモデルにおける制限によって、人間の感情の幅広い範囲を模倣する上で、課題に直面している。
本稿では, 快楽, 覚醒, 支配の制御を容易にするTTSフレームワークを提案し, TTSトレーニング中に感情的な音声データを必要とせず, 多様な感情スタイルを合成することができる。
音声データからの分類ラベルのみを用いて感情属性予測器を訓練し、心理学的な研究と整合し、自己教師付き学習(SSL)機能にアンカード・デメンタリティ・リダクションを取り入れた。
TTSフレームワークは、テキスト入力を自己回帰言語モデルを介して音声トークンに変換し、擬似感情次元を用いて、きめ細かい音響詳細の並列予測を導く。
LibriTTSデータセットを用いた実験により,TTS訓練中に感情的音声を含まない場合でも,感情的次元を効果的に制御することで,自然性や多様な感情的スタイルで音声を合成できることが実証された。
Current emotional text-to-speech (TTS) systems face challenges in mimicking a broad spectrum of human emotions due to the inherent complexity of emotions and limitations in emotional speech datasets and models. This paper proposes a TTS framework that facilitates control over pleasure, arousal, and dominance, and can synthesize a diversity of emotional styles without requiring any emotional speech data during TTS training. We train an emotional attribute predictor using only categorical labels from speech data, aligning with psychological research and incorporating anchored dimensionality reduction on self-supervised learning (SSL) features. The TTS framework converts text inputs into phonetic tokens via an autoregressive language model and uses pseudo-emotional dimensions to guide the parallel prediction of fine-grained acoustic details. Experiments conducted on the LibriTTS dataset demonstrate that our framework can synthesize speech with enhanced naturalness and a variety of emotional styles by effectively controlling emotional dimensions, even without the inclusion of any emotional speech during TTS training. | 翻訳日:2024-09-27 05:12:32 公開日:2024-09-25 |
# SynTQA: Text-to-SQLとE2E TQAの混合によるSynergistic Table-based Question Answering
SynTQA: Synergistic Table-based Question Answering via Mixture of Text-to-SQL and E2E TQA ( http://arxiv.org/abs/2409.16682v1 ) ライセンス: Link先を確認 | Siyue Zhang, Anh Tuan Luu, Chen Zhao, | (参考訳) Text-to-SQL解析とエンドツーエンド質問応答(E2E TQA)は、テーブルベースの質問回答タスクの2つの主要なアプローチである。
複数のベンチマークで成功したが、まだ比較されておらず、相乗効果は未解明のままである。
テキスト・トゥ・SQLは、算術演算や長いテーブルを含む問題を扱う上での優位性を示し、E2E TQAは曖昧な問題、非標準テーブルスキーマ、複雑なテーブル内容に対処する上で優れている。
両長所を組み合わせるために,任意のモデルタイプに非依存な回答選択を通じて,異なるモデルを統合するSynergistic Tableベースの質問応答手法を提案する。
さらに,機能ベースまたはLCMベースの回答セレクタによるアンサンブルモデルにより,個々のモデルよりも性能が大幅に向上することが検証された。
Text-to-SQL parsing and end-to-end question answering (E2E TQA) are two main approaches for Table-based Question Answering task. Despite success on multiple benchmarks, they have yet to be compared and their synergy remains unexplored. In this paper, we identify different strengths and weaknesses through evaluating state-of-the-art models on benchmark datasets: Text-to-SQL demonstrates superiority in handling questions involving arithmetic operations and long tables; E2E TQA excels in addressing ambiguous questions, non-standard table schema, and complex table contents. To combine both strengths, we propose a Synergistic Table-based Question Answering approach that integrate different models via answer selection, which is agnostic to any model types. Further experiments validate that ensembling models by either feature-based or LLM-based answer selector significantly improves the performance over individual models. | 翻訳日:2024-09-27 05:12:32 公開日:2024-09-25 |
# Erase then Rectify: コスト効果グラフアンラーニングのためのトレーニング不要パラメータ編集アプローチ
Erase then Rectify: A Training-Free Parameter Editing Approach for Cost-Effective Graph Unlearning ( http://arxiv.org/abs/2409.16684v1 ) ライセンス: Link先を確認 | Zhe-Rui Yang, Jindong Han, Chang-Dong Wang, Hao Liu, | (参考訳) トレーニングされたグラフニューラルネットワーク(GNN)から特定のノード、エッジ、あるいは属性の影響を排除することを目的としたグラフアンラーニングは、プライバシ、バイアス、データの陳腐化が懸念されるアプリケーションに不可欠である。
しかし、既存のグラフアンラーニング技術は、しばしば残りのデータに対する追加のトレーニングを必要とし、特に大規模グラフの場合、計算コストが大幅に上昇する。
これらの課題に対処するために、モデルユーティリティを保ちながら、効率的でスケーラブルなグラフアンラーニング用に設計された2段階のトレーニングフリーアプローチ、Erase then Rectify (ETR)を提案する。
具体的には、まず、未学習サンプルに必須なマスキングパラメータが効果的なアンラーニングを可能にすることを示す理論的基礎を構築した。
この洞察に基づいて、Eraseステージはモデルパラメータを戦略的に編集し、未学習のサンプルの影響と、それらが相互関連ノードに与える影響を排除する。
さらに、GNNの実用性を保証するために、Rectifyステージでは、モデルの性能を高めるために使用される残りのデータセット上のモデルの勾配を推定する勾配近似法を考案している。
全体として、ETRは、追加のトレーニングや完全なトレーニングデータアクセスなしでグラフアンラーニングを実現し、計算オーバーヘッドを大幅に削減し、データのプライバシを保存する。
7つの公開データセットに関する大規模な実験は、モデルユーティリティにおけるETRの一貫性のある優位性、未学習の効率性、未学習の有効性を実証し、現実のグラフの未学習課題に対する有望な解決策として確立している。
Graph unlearning, which aims to eliminate the influence of specific nodes, edges, or attributes from a trained Graph Neural Network (GNN), is essential in applications where privacy, bias, or data obsolescence is a concern. However, existing graph unlearning techniques often necessitate additional training on the remaining data, leading to significant computational costs, particularly with large-scale graphs. To address these challenges, we propose a two-stage training-free approach, Erase then Rectify (ETR), designed for efficient and scalable graph unlearning while preserving the model utility. Specifically, we first build a theoretical foundation showing that masking parameters critical for unlearned samples enables effective unlearning. Building on this insight, the Erase stage strategically edits model parameters to eliminate the impact of unlearned samples and their propagated influence on intercorrelated nodes. To further ensure the GNN's utility, the Rectify stage devises a gradient approximation method to estimate the model's gradient on the remaining dataset, which is then used to enhance model performance. Overall, ETR achieves graph unlearning without additional training or full training data access, significantly reducing computational overhead and preserving data privacy. Extensive experiments on seven public datasets demonstrate the consistent superiority of ETR in model utility, unlearning efficiency, and unlearning effectiveness, establishing it as a promising solution for real-world graph unlearning challenges. | 翻訳日:2024-09-27 05:12:32 公開日:2024-09-25 |
# スカイアイズ:空中ビュー画像を用いた地上ローミング
Skyeyes: Ground Roaming using Aerial View Images ( http://arxiv.org/abs/2409.16685v1 ) ライセンス: Link先を確認 | Zhiyuan Gao, Wenbin Teng, Gonglin Chen, Jinsen Wu, Ningli Xu, Rongjun Qin, Andrew Feng, Yajie Zhao, | (参考訳) 航空画像に基づくシーン生成を自律運転やゲームのようなアプリケーションに統合することで、3D環境におけるリアリズムが向上するが、隠された領域の詳細なコンテンツを作成し、リアルタイムで一貫したレンダリングを保証することが課題である。
本稿では,空中からの映像入力のみを用いて地上画像の写実的シーケンスを生成できる新しいフレームワークであるSkyeyesを紹介し,地上ローミング体験を創出する。
より具体的には、3D表現とビュー一貫した生成モデルを組み合わせることで、生成された画像間のコヒーレンスを保証する。
この方法では、大きなビューギャップがあっても、幾何学的に一貫した地上画像を作成することができる。
画像は、空間的時間的コヒーレンスとリアリズムを改善し、空間的視点からシーンの理解と可視化を強化する。
我々の知る限りでは、地理的に整合した空中と地上の画像を含むデータセットは公開されていない。
したがって,Unreal Engineを用いた大規模で総合的で地理的に整合したデータセットを構築した。
この合成データセットの質的および定量的解析は、他の主要な合成手法と比較して優れた結果を示す。
詳細はプロジェクトページを参照してほしい。
Integrating aerial imagery-based scene generation into applications like autonomous driving and gaming enhances realism in 3D environments, but challenges remain in creating detailed content for occluded areas and ensuring real-time, consistent rendering. In this paper, we introduce Skyeyes, a novel framework that can generate photorealistic sequences of ground view images using only aerial view inputs, thereby creating a ground roaming experience. More specifically, we combine a 3D representation with a view consistent generation model, which ensures coherence between generated images. This method allows for the creation of geometrically consistent ground view images, even with large view gaps. The images maintain improved spatial-temporal coherence and realism, enhancing scene comprehension and visualization from aerial perspectives. To the best of our knowledge, there are no publicly available datasets that contain pairwise geo-aligned aerial and ground view imagery. Therefore, we build a large, synthetic, and geo-aligned dataset using Unreal Engine. Both qualitative and quantitative analyses on this synthetic dataset display superior results compared to other leading synthesis approaches. See the project page for more results: https://chaoren2357.github.io/website-skyeyes/. | 翻訳日:2024-09-27 05:00:58 公開日:2024-09-25 |
# MSI-Agent:スーパープランニングと意思決定のためのマルチスケールインサイトを人工エージェントに組み込む
MSI-Agent: Incorporating Multi-Scale Insight into Embodied Agents for Superior Planning and Decision-Making ( http://arxiv.org/abs/2409.16686v1 ) ライセンス: Link先を確認 | Dayuan Fu, Biqing Qi, Yihuai Gao, Che Jiang, Guanting Dong, Bowen Zhou, | (参考訳) 長期的な記憶は、洞察が重要な役割を果たすエージェントにとって重要である。
しかし、無関係な洞察の出現と一般的な洞察の欠如は、洞察の有効性を著しく損なう可能性がある。
そこで本稿では,LLMの計画と意思決定能力の向上を目的としたマルチスケールインサイトエージェント(MSI-Agent)を提案する。
MSIはエクスペリエンスセレクタ、インサイトジェネレータ、インサイトセレクタを通じてこれを実現する。
3部構成のパイプラインを活用することで、MSIはタスク固有の高レベルの洞察を生成し、データベースに格納し、関連する洞察を使用して意思決定を支援する。
GPT3.5 による計画において MSI が他の洞察戦略より優れていることを示す。
さらに、私たちは、LLMにより良い意思決定のためのより有用で関連する洞察を提供することを目指して、シードエクスペリエンスと洞察を選択するための戦略を掘り下げています。
また,MSIがドメインシフトシナリオに直面する場合の堅牢性も向上することが示唆された。
Long-term memory is significant for agents, in which insights play a crucial role. However, the emergence of irrelevant insight and the lack of general insight can greatly undermine the effectiveness of insight. To solve this problem, in this paper, we introduce Multi-Scale Insight Agent (MSI-Agent), an embodied agent designed to improve LLMs' planning and decision-making ability by summarizing and utilizing insight effectively across different scales. MSI achieves this through the experience selector, insight generator, and insight selector. Leveraging a three-part pipeline, MSI can generate task-specific and high-level insight, store it in a database, and then use relevant insight from it to aid in decision-making. Our experiments show that MSI outperforms another insight strategy when planning by GPT3.5. Moreover, We delve into the strategies for selecting seed experience and insight, aiming to provide LLM with more useful and relevant insight for better decision-making. Our observations also indicate that MSI exhibits better robustness when facing domain-shifting scenarios. | 翻訳日:2024-09-27 05:00:58 公開日:2024-09-25 |
# デジェネリアシー境界グラフの局所微分プライバシーに基づくサイクルカウント
Cycle Counting under Local Differential Privacy for Degeneracy-bounded Graphs ( http://arxiv.org/abs/2409.16688v1 ) ライセンス: Link先を確認 | Quentin Hillebrand, Vorapong Suppakitpaisarn, Tetsuo Shibuya, | (参考訳) そこで本稿では,デジェネリティーに縛られた入力グラフに対して,局所的な差分プライバシーの下でサイクル数をカウントするアルゴリズムを提案する。
多くの研究は、プライバシーの概念の下で三角形の数を数えることに重点を置いており、これらのアルゴリズムの期待される \(\ell_2\)-エラーが \(\Omega(n^{1.5})\) であることを証明している。
長さ 4 のサイクル数 (\(C_4\) によってパラメータ化されるとき、最良の三角法カウントアルゴリズムは \(O(n^{1.5} + \sqrt{C_4}) = O(n^2)\) の誤差を持つ。
本稿では, 予測値 \(\delta^{1.5} n^{0.5} + \delta^{0.5} d_{\max}^{0.5} n^{0.5})\) を持つアルゴリズムを導入する。
実用的なソーシャルネットワークで一般的に見られる縮退有界グラフ (\(\delta \in \Theta(1)\) に対して、我々のアルゴリズムは、(O(d_{\max}^{0.5} n^{0.5}) = O(n)\) の予測された \(\ell_2\)-エラーを達成する。
我々のアルゴリズムの中核的な考え方は、全てのノードの次数をほぼソートする前処理ステップに続く正確な三角形の数である。
このアプローチは、同じ \(\ell_2\)-エラーである$O(\delta^{(k-2)/2} d_{\max}^{0.5} n^{(k-2)/2} + \delta^{k/2} n^{(k-2)/2})$または$O(d_{\max}^{0.5} n^{(k-2)/2}) = O(n^{(k-1)/2})$を維持するために拡張できる。
We propose an algorithm for counting the number of cycles under local differential privacy for degeneracy-bounded input graphs. Numerous studies have focused on counting the number of triangles under the privacy notion, demonstrating that the expected \(\ell_2\)-error of these algorithms is \(\Omega(n^{1.5})\), where \(n\) is the number of nodes in the graph. When parameterized by the number of cycles of length four (\(C_4\)), the best existing triangle counting algorithm has an error of \(O(n^{1.5} + \sqrt{C_4}) = O(n^2)\). In this paper, we introduce an algorithm with an expected \(\ell_2\)-error of \(O(\delta^{1.5} n^{0.5} + \delta^{0.5} d_{\max}^{0.5} n^{0.5})\), where \(\delta\) is the degeneracy and \(d_{\max}\) is the maximum degree of the graph. For degeneracy-bounded graphs (\(\delta \in \Theta(1)\)) commonly found in practical social networks, our algorithm achieves an expected \(\ell_2\)-error of \(O(d_{\max}^{0.5} n^{0.5}) = O(n)\). Our algorithm's core idea is a precise count of triangles following a preprocessing step that approximately sorts the degree of all nodes. This approach can be extended to approximate the number of cycles of length \(k\), maintaining a similar \(\ell_2\)-error, namely $O(\delta^{(k-2)/2} d_{\max}^{0.5} n^{(k-2)/2} + \delta^{k/2} n^{(k-2)/2})$ or $O(d_{\max}^{0.5} n^{(k-2)/2}) = O(n^{(k-1)/2})$ for degeneracy-bounded graphs. | 翻訳日:2024-09-27 05:00:58 公開日:2024-09-25 |
# Layout-Corrector:離散拡散モデルにおけるLayout Sticking現象の緩和
Layout-Corrector: Alleviating Layout Sticking Phenomenon in Discrete Diffusion Model ( http://arxiv.org/abs/2409.16689v1 ) ライセンス: Link先を確認 | Shoma Iwai, Atsuki Osanai, Shunsuke Kitada, Shinichiro Omachi, | (参考訳) レイアウト生成は、カテゴリー、位置、サイズなどの属性によって特徴付けられる要素で調和したレイアウトを合成するタスクである。
人間の設計者は、審美的レイアウトを作成するために要素の配置と修正を実験したが、現在の離散拡散モデル(DDM)は、生成後の不調和なレイアウトを修正するのに苦労している。
本稿では,DDMにおけるレイアウトストレッチ現象に関する新たな知見を最初に提示し,既存のDDMと協調してレイアウトストレッチ問題に対処するシンプルなレイアウトアセスメントモジュールであるLayout-Correctorを提案する。
複雑な構成によって特徴づけられる全体のレイアウト調和を考慮して,レイアウト内の不調和要素を識別できる学習ベースモジュールを提案する。
生成プロセス中、Layout-Correctorは生成されたレイアウトにおける各トークンの正しさを評価し、低スコアのトークンを非生成状態に再起動する。
DDMはハイスコアのトークンを、調和したトークンを再生するための手がかりとして使用する。
一般的なベンチマークでテストされているLayout-Correctorは、さまざまな最先端DDMと組み合わせてレイアウト生成性能を継続的に向上する。
さらに,Layout-Corrector (1) は不正なトークンの識別に成功し,(2) 忠実度と多様性のトレードオフの制御を容易にし,(3) 高速サンプリングに伴う性能低下を著しく軽減することを示した。
Layout generation is a task to synthesize a harmonious layout with elements characterized by attributes such as category, position, and size. Human designers experiment with the placement and modification of elements to create aesthetic layouts, however, we observed that current discrete diffusion models (DDMs) struggle to correct inharmonious layouts after they have been generated. In this paper, we first provide novel insights into layout sticking phenomenon in DDMs and then propose a simple yet effective layout-assessment module Layout-Corrector, which works in conjunction with existing DDMs to address the layout sticking problem. We present a learning-based module capable of identifying inharmonious elements within layouts, considering overall layout harmony characterized by complex composition. During the generation process, Layout-Corrector evaluates the correctness of each token in the generated layout, reinitializing those with low scores to the ungenerated state. The DDM then uses the high-scored tokens as clues to regenerate the harmonized tokens. Layout-Corrector, tested on common benchmarks, consistently boosts layout-generation performance when in conjunction with various state-of-the-art DDMs. Furthermore, our extensive analysis demonstrates that the Layout-Corrector (1) successfully identifies erroneous tokens, (2) facilitates control over the fidelity-diversity trade-off, and (3) significantly mitigates the performance drop associated with fast sampling. | 翻訳日:2024-09-27 05:00:58 公開日:2024-09-25 |
# CaBRNet - ケースベース推論モデルの開発と評価のためのオープンソースライブラリ
CaBRNet, an open-source library for developing and evaluating Case-Based Reasoning Models ( http://arxiv.org/abs/2409.16693v1 ) ライセンス: Link先を確認 | Romain Xu-Darme, Aymeric Varasse, Alban Grastien, Julien Girard, Zakaria Chihani, | (参考訳) 説明可能なAIの分野では、モデルが不透明に決定を下そうとするポストホックメソッドのより原則的な代替手段として、自己説明可能なモデルの設計に活発な取り組みが費やされている。
しかし、この生産的な研究のラインは、再現性の欠如、実現不可能な比較、標準の多様化といった共通の欠点に悩まされている。
本稿では,CaBRNetを提案する。CaBRNetはオープンソースでモジュール化された,ケースベース推論ネットワークのための後方互換性のあるフレームワークである。
In the field of explainable AI, a vibrant effort is dedicated to the design of self-explainable models, as a more principled alternative to post-hoc methods that attempt to explain the decisions after a model opaquely makes them. However, this productive line of research suffers from common downsides: lack of reproducibility, unfeasible comparison, diverging standards. In this paper, we propose CaBRNet, an open-source, modular, backward-compatible framework for Case-Based Reasoning Networks: https://github.com/aiser-team/cabrnet. | 翻訳日:2024-09-27 05:00:58 公開日:2024-09-25 |
# 低ビット大言語モデルに関する調査:基礎,システム,アルゴリズム
A Survey of Low-bit Large Language Models: Basics, Systems, and Algorithms ( http://arxiv.org/abs/2409.16694v1 ) ライセンス: Link先を確認 | Ruihao Gong, Yifu Ding, Zining Wang, Chengtao Lv, Xingyu Zheng, Jinyang Du, Haotong Qin, Jinyang Guo, Michele Magno, Xianglong Liu, | (参考訳) 大規模言語モデル(LLM)は自然言語処理において顕著な進歩を遂げており、様々なタスクにおいて例外的な性能を示している。
しかし、高価なメモリと計算の要求は、その実践的な展開に重大な課題をもたらしている。
低ビット量子化は、モデルパラメータ、アクティベーション、勾配のビット幅を減らし、メモリ使用量と計算要求を減らし、これらの課題を軽減する重要なアプローチとして現れてきた。
本稿では,LLMに適した低ビット量子化手法の包括的調査を行い,基本原理,システム実装,アルゴリズム戦略について述べる。
低ビット LLM に特有の基本概念と新しいデータフォーマットの概要が最初に紹介され、その後様々なハードウェアプラットフォームで低ビット LLM を促進するフレームワークとシステムのレビューが行われた。
次に,LLMの効率的な低ビットトレーニングと推論のための手法とツールキットを分類,解析する。
最後に,低ビットLLMの今後の動向と今後の発展について論じる。
低ビット量子化によるLCMの効率性と適用性を高めるため, 基本, システム, アルゴリズムの観点からの体系的な概要は, 今後の研究に有用な洞察とガイドラインを提供することができる。
Large language models (LLMs) have achieved remarkable advancements in natural language processing, showcasing exceptional performance across various tasks. However, the expensive memory and computational requirements present significant challenges for their practical deployment. Low-bit quantization has emerged as a critical approach to mitigate these challenges by reducing the bit-width of model parameters, activations, and gradients, thus decreasing memory usage and computational demands. This paper presents a comprehensive survey of low-bit quantization methods tailored for LLMs, covering the fundamental principles, system implementations, and algorithmic strategies. An overview of basic concepts and new data formats specific to low-bit LLMs is first introduced, followed by a review of frameworks and systems that facilitate low-bit LLMs across various hardware platforms. Then, we categorize and analyze techniques and toolkits for efficient low-bit training and inference of LLMs. Finally, we conclude with a discussion of future trends and potential advancements of low-bit LLMs. Our systematic overview from basic, system, and algorithm perspectives can offer valuable insights and guidelines for future works to enhance the efficiency and applicability of LLMs through low-bit quantization. | 翻訳日:2024-09-27 05:00:58 公開日:2024-09-25 |
# 境界パラメータを持つニューラルネットワークの数値近似能力:限界は存在するか,どうやって測定できるのか?
Numerical Approximation Capacity of Neural Networks with Bounded Parameters: Do Limits Exist, and How Can They Be Measured? ( http://arxiv.org/abs/2409.16697v1 ) ライセンス: Link先を確認 | Li Liu, Tengchao Yu, Heng Yong, | (参考訳) 普遍近似理論(Universal Approximation Theorem)は、ニューラルネットワークが適切なアクティベーション関数と自由選択または訓練されたパラメータセットを持つ無制限近似能力を理論的に持つことができることを示唆している。
しかし、これらの神経パラメータ、特に非線形重みとバイアスが境界付けられたときに、より実践的なシナリオが生じる。
ニューラルネットワークの近似能力は普遍的であり続けるか、あるいはパラメータが実際にバウンドされている場合に制限があるか?
限界があれば、どうやって測定できるのか?
理論的には、普遍近似は理論的に実現可能であるが、実数値シナリオでは、TanhやSigmoidのような分析活性化関数を持つディープニューラルネットワーク(DNN)は、連続的あるいは離散的な意味でも、有界非線形パラメータ空間(NP空間)の下で有限次元ベクトル空間によってのみ近似できる。
本研究では,ネットワークの系列の近似能力限界を理論的にも実用的にも定量的に定量化するために, {textit{$\epsilon$ outer measure} と \textit{Numerical Span Dimension (NSdim)} の概念を導入する。
さらに,新たな理論的研究と新たな視点を取り入れた上で,バックプロパゲーションニューラルネットワークと乱数パラメータネットワーク(エクストリーム学習マシン(ELM)など)の関係を,有限幅と無限幅の両方で理解しようと試みる。
また,正規化,幅と深さのトレードオフ,パラメータ空間,幅の冗長性,凝縮,その他の重要な問題に対する新たな洞察の提供も目標としている。
The Universal Approximation Theorem posits that neural networks can theoretically possess unlimited approximation capacity with a suitable activation function and a freely chosen or trained set of parameters. However, a more practical scenario arises when these neural parameters, especially the nonlinear weights and biases, are bounded. This leads us to question: \textbf{Does the approximation capacity of a neural network remain universal, or does it have a limit when the parameters are practically bounded? And if it has a limit, how can it be measured?} Our theoretical study indicates that while universal approximation is theoretically feasible, in practical numerical scenarios, Deep Neural Networks (DNNs) with any analytic activation functions (such as Tanh and Sigmoid) can only be approximated by a finite-dimensional vector space under a bounded nonlinear parameter space (NP space), whether in a continuous or discrete sense. Based on this study, we introduce the concepts of \textit{$\epsilon$ outer measure} and \textit{Numerical Span Dimension (NSdim)} to quantify the approximation capacity limit of a family of networks both theoretically and practically. Furthermore, drawing on our new theoretical study and adopting a fresh perspective, we strive to understand the relationship between back-propagation neural networks and random parameter networks (such as the Extreme Learning Machine (ELM)) with both finite and infinite width. We also aim to provide fresh insights into regularization, the trade-off between width and depth, parameter space, width redundancy, condensation, and other related important issues. | 翻訳日:2024-09-27 05:00:58 公開日:2024-09-25 |
# トレーステーブルを用いたマルチスレッドプログラムの学習支援手法
A Learning Support Method for Multi-threaded Programs Using Trace Tables ( http://arxiv.org/abs/2409.16700v1 ) ライセンス: Link先を確認 | Takumi Murata, Hiroaki Hashiura, | (参考訳) マルチスレッドプログラムは、並列処理のためにアプリケーションプロセスを複数のスレッドに分割することで、応答性とリソースの保存を改善することが期待されている。
しかし、スケジューリングや複数のスレッドの相互作用のため、実行時の動作はシングルスレッドプログラムよりも複雑であり、マルチスレッドプログラム特有の概念や命令の実行順序を理解しない限りデバッグが困難になる。
本稿では,トレーステーブルを用いたマルチスレッドプログラムの学習ツールを提案する。
Multi-threaded programs are expected to improve responsiveness and conserve resources by dividing an application process into multiple threads for concurrent processing. However, due to scheduling and the interaction of multiple threads, their runtime behavior is more complex than that of single-threaded programs, making which makes debugging difficult unless the concepts specific to multi-threaded programs and the execution order of instructions can be understood. In this paper, we propose a learning tool for multi-threaded programs using trace tables. | 翻訳日:2024-09-27 05:00:58 公開日:2024-09-25 |
# Javaサードパーティライブラリにおける脆弱性爆発のためのユニットテスト生成
Unit Test Generation for Vulnerability Exploitation in Java Third-Party Libraries ( http://arxiv.org/abs/2409.16701v1 ) ライセンス: Link先を確認 | Yi Gao, Xing Hu, Zirui Chen, Xiaohu Yang, Xin Xia, | (参考訳) オープンソースのサードパーティ製ライブラリはソフトウェア開発で広く使われている。
これらの図書館は、時間と資源の節約という点でかなりの利点がある。
しかし、これらのライブラリ内の脆弱性が公に公開されているため、重大な懸念が生じる。
既存の自動脆弱性検出ツールは、しばしば偽陽性に悩まされ、クライアントプロジェクトからライブラリの脆弱性コードへの脆弱性を引き起こす可能性のある入力の伝搬を正確に評価することができない。
本稿では,脆弱性のエクスプロイト・リーチビリティ解析とLLMに基づくユニットテスト生成を組み合わせた,VULEUT(Vulnerability Exploit Unit Test Generation)という新しい手法を提案する。
VULEUTは、クライアントソフトウェアプロジェクトで一般的に使用されているサードパーティ製ライブラリの脆弱性の悪用を自動検証するように設計されている。
VULEUTはまず、脆弱性条件の到達可能性を決定するためにクライアントプロジェクトを分析する。
そして、Large Language Model (LLM)を活用して、脆弱性確認のためのユニットテストを生成する。
VULEUTの有効性を評価するために、さまざまなサードパーティライブラリから32の脆弱性を収集し、70の実際のクライアントプロジェクトで実験を行う。
さらに、我々のアプローチを2つの代表的なツール、すなわちTransferとVESTAと比較する。
その結果,VULEUTの有効性が示され,292件のユニットテストのうち229件が70件のクライアントプロジェクトに対する脆弱性エクスプロイトの確認に成功し,ベースラインを24%上回る結果となった。
Open-source third-party libraries are widely used in software development. These libraries offer substantial advantages in terms of time and resource savings. However, a significant concern arises due to the publicly disclosed vulnerabilities within these libraries. Existing automated vulnerability detection tools often suffer from false positives and fail to accurately assess the propagation of inputs capable of triggering vulnerabilities from client projects to vulnerable code in libraries. In this paper, we propose a novel approach called VULEUT (Vulnerability Exploit Unit Test Generation), which combines vulnerability exploitation reachability analysis and LLM-based unit test generation. VULEUT is designed to automatically verify the exploitability of vulnerabilities in third-party libraries commonly used in client software projects. VULEUT first analyzes the client projects to determine the reachability of vulnerability conditions. And then, it leverages the Large Language Model (LLM) to generate unit tests for vulnerability confirmation. To evaluate the effectiveness of VULEUT, we collect 32 vulnerabilities from various third-party libraries and conduct experiments on 70 real client projects. Besides, we also compare our approach with two representative tools, i.e., TRANSFER and VESTA. Our results demonstrate the effectiveness of VULEUT, with 229 out of 292 generated unit tests successfully confirming vulnerability exploitation across 70 client projects, which outperforms baselines by 24%. | 翻訳日:2024-09-27 05:00:58 公開日:2024-09-25 |
# 3DDX:Dual-Face Depth Estimationによる単一標準形状X線からの骨表面再構成
3DDX: Bone Surface Reconstruction from a Single Standard-Geometry Radiograph via Dual-Face Depth Estimation ( http://arxiv.org/abs/2409.16702v1 ) ライセンス: Link先を確認 | Yi Gu, Yoshito Otake, Keisuke Uemura, Masaki Takao, Mazen Soufi, Seiji Okada, Nobuhiko Sugano, Hugues Talbot, Yoshinobu Sato, | (参考訳) 放射線検査は整形外科において、その手頃さと低放射線曝露のために広く用いられている。
単一のX線写真からの3D再構成は、いわゆる2D-3D再構成と呼ばれ、様々な臨床応用の可能性を提供するが、臨床的に実行可能な精度と計算効率を達成することは、まだ未解決の課題である。
コンピュータビジョンの他の領域とは異なり、X線透過や固定幾何といったX線イメージングのユニークな特性は、完全には利用されていない。
本稿では,X線画像から得られた複数の深度マップ(前方および後方の複数の骨)を同時に学習し,トモグラフィーの登録を行う手法を提案する。
提案手法は,X線画像の固定形状特性を利用するだけでなく,表面全体を再現する精度も向上する。
本研究は,600 CTおよび2651 X線画像(4~5例のX線画像)を対象とし,従来のアプローチに比べて表面再構成誤差を4.78mmから1.96mmに低減した。
この大幅な精度向上と計算効率の向上は,臨床応用の可能性を示している。
Radiography is widely used in orthopedics for its affordability and low radiation exposure. 3D reconstruction from a single radiograph, so-called 2D-3D reconstruction, offers the possibility of various clinical applications, but achieving clinically viable accuracy and computational efficiency is still an unsolved challenge. Unlike other areas in computer vision, X-ray imaging's unique properties, such as ray penetration and fixed geometry, have not been fully exploited. We propose a novel approach that simultaneously learns multiple depth maps (front- and back-surface of multiple bones) derived from the X-ray image to computed tomography registration. The proposed method not only leverages the fixed geometry characteristic of X-ray imaging but also enhances the precision of the reconstruction of the whole surface. Our study involved 600 CT and 2651 X-ray images (4 to 5 posed X-ray images per patient), demonstrating our method's superiority over traditional approaches with a surface reconstruction error reduction from 4.78 mm to 1.96 mm. This significant accuracy improvement and enhanced computational efficiency suggest our approach's potential for clinical application. | 翻訳日:2024-09-27 05:00:58 公開日:2024-09-25 |
# Pix2Next:RGBからNIR画像変換のためのビジョンファウンデーションモデルを活用する
Pix2Next: Leveraging Vision Foundation Models for RGB to NIR Image Translation ( http://arxiv.org/abs/2409.16706v1 ) ライセンス: Link先を確認 | Youngwan Jin, Incheol Park, Hanbin Song, Hyeongjin Ju, Yagiz Nalcakan, Shiho Kim, | (参考訳) 本稿では,RGB入力から高画質近赤外(NIR)画像を生成することの課題に対処するために,新しい画像から画像への変換フレームワークPix2Nextを提案する。
提案手法では,エンコーダ・デコーダアーキテクチャ内に最先端のビジョンファウンデーションモデル(VFM)を活用し,機能統合の強化にクロスアテンション機構を取り入れている。
この設計は、RGBからNIRへの変換を単純なドメイン転送問題以上のものとして扱うことで、詳細なグローバル表現をキャプチャし、重要なスペクトル特性を保存する。
マルチスケールのPatchGAN識別器は、様々な詳細レベルでリアルな画像生成を保証し、慎重に設計された損失関数は、グローバルなコンテキスト理解と局所的な特徴保存を結びつける。
我々はRANUSデータセットの実験を行い、Pix2Nextの定量的測定と視覚的品質の利点を実証し、既存の手法と比較してFIDスコアを34.81%改善した。
さらに、生成されたNIRデータを用いて、下流オブジェクト検出タスクの性能を改善し、限られた実NIRデータセットを拡張することにより、Pix2Nextの実用性を示す。
提案手法により、追加のデータ取得やアノテーションの取り組みなしに、NIRデータセットのスケールアップが可能となり、NIRベースのコンピュータビジョンアプリケーションの進歩が加速する可能性がある。
This paper proposes Pix2Next, a novel image-to-image translation framework designed to address the challenge of generating high-quality Near-Infrared (NIR) images from RGB inputs. Our approach leverages a state-of-the-art Vision Foundation Model (VFM) within an encoder-decoder architecture, incorporating cross-attention mechanisms to enhance feature integration. This design captures detailed global representations and preserves essential spectral characteristics, treating RGB-to-NIR translation as more than a simple domain transfer problem. A multi-scale PatchGAN discriminator ensures realistic image generation at various detail levels, while carefully designed loss functions couple global context understanding with local feature preservation. We performed experiments on the RANUS dataset to demonstrate Pix2Next's advantages in quantitative metrics and visual quality, improving the FID score by 34.81% compared to existing methods. Furthermore, we demonstrate the practical utility of Pix2Next by showing improved performance on a downstream object detection task using generated NIR data to augment limited real NIR datasets. The proposed approach enables the scaling up of NIR datasets without additional data acquisition or annotation efforts, potentially accelerating advancements in NIR-based computer vision applications. | 翻訳日:2024-09-27 05:00:58 公開日:2024-09-25 |
# 変圧器を用いたRDF-to-Textモデルにおける検出と歪み
Probing Omissions and Distortions in Transformer-based RDF-to-Text Models ( http://arxiv.org/abs/2409.16707v1 ) ライセンス: Link先を確認 | Juliette Faille, Albert Gatt, Claire Gardent, | (参考訳) 自然言語生成(NLG)では、重要な情報は出力テキストで省略されることがある。
この種のミスの発生をよりよく理解し分析するために、RDF-to-Text生成に注目し、BART(Lewis et al, 2020)とT5(Raffel et al, 2019)のエンコーダ出力における2つの除去方法を探究する。
i) RDFグラフとRDFグラフの埋め込みのコサイン類似性の計算に基づく新しいパラメータフリーな探索法。
(2)エンコーダ埋め込みのバイナリ分類を行い、省略されたエンティティを検出するパラメトリックプローブ。
我々はまた、分析を歪んだエンティティ、すなわち生成されたテキストに完全に正しく言及されていないエンティティ(例えば、エンティティのミススペル、間違った測定単位)に拡張する。
我々は、省略されたエンティティと歪んだエンティティの両方をエンコーダの出力埋め込みで探索できることを発見した。
このことは、エンコーダがこれらのエンティティに対してより弱い信号を発し、そのため情報の喪失の原因となることを示唆している。
これはまた、NLGモデルの出力の誤りを検出するために、探索法が利用できることを示している。
In Natural Language Generation (NLG), important information is sometimes omitted in the output text. To better understand and analyse how this type of mistake arises, we focus on RDF-to-Text generation and explore two methods of probing omissions in the encoder output of BART (Lewis et al, 2020) and of T5 (Raffel et al, 2019): (i) a novel parameter-free probing method based on the computation of cosine similarity between embeddings of RDF graphs and of RDF graphs in which we removed some entities and (ii) a parametric probe which performs binary classification on the encoder embeddings to detect omitted entities. We also extend our analysis to distorted entities, i.e. entities that are not fully correctly mentioned in the generated text (e.g. misspelling of entity, wrong units of measurement). We found that both omitted and distorted entities can be probed in the encoder's output embeddings. This suggests that the encoder emits a weaker signal for these entities and therefore is responsible for some loss of information. This also shows that probing methods can be used to detect mistakes in the output of NLG models. | 翻訳日:2024-09-27 05:00:58 公開日:2024-09-25 |
# Pose-Guided Fine-Grained Sign Language Video Generation
Pose-Guided Fine-Grained Sign Language Video Generation ( http://arxiv.org/abs/2409.16709v1 ) ライセンス: Link先を確認 | Tongkai Shi, Lianyu Hu, Fanhua Shang, Jichao Feng, Peidong Liu, Wei Feng, | (参考訳) 手話ビデオは手話の普及と学習にとって重要なメディアである。
しかしながら、既存の人間の画像合成法のほとんどは、歪んだり、ぼやけたり、構造的に間違っていたりした詳細を持つ手話画像を生成する。
また、前フレームと次のフレームの間でフリックや急激な詳細変更などの異常を伴う、時間的一貫性の低い手話ビデオフレームも生成する。
これらの制約に対処するため,我々は細粒度かつ動きに一貫性のある手話ビデオを生成するための新しい Pose-Guided Motion Model (PGMM) を提案する。
第一に,光学的フローワープにより特徴の変形を完了し,外観を変えることなく粗粒状構造の運動を伝達する新しい粗粒状運動モジュール (CMM) を提案し,第二に,RGBのモーダル融合を誘導し,特徴を呈する新しい粗粒状融合モジュール (PFM) を提案する。
最後に、再構成ビデオのフレームと、対象ビデオの前と隣のフレームとの差を比較することで、ビデオの時間的一貫性の度合いを定量的に評価する、新しい計量である時間的一貫性差(TCD)を設計する。
大規模定性的および定量的実験により,我々の手法は,ほとんどのベンチマークテストにおいて最先端の手法よりも優れており,細部や時間的整合性が目に見える。
Sign language videos are an important medium for spreading and learning sign language. However, most existing human image synthesis methods produce sign language images with details that are distorted, blurred, or structurally incorrect. They also produce sign language video frames with poor temporal consistency, with anomalies such as flickering and abrupt detail changes between the previous and next frames. To address these limitations, we propose a novel Pose-Guided Motion Model (PGMM) for generating fine-grained and motion-consistent sign language videos. Firstly, we propose a new Coarse Motion Module (CMM), which completes the deformation of features by optical flow warping, thus transfering the motion of coarse-grained structures without changing the appearance; Secondly, we propose a new Pose Fusion Module (PFM), which guides the modal fusion of RGB and pose features, thus completing the fine-grained generation. Finally, we design a new metric, Temporal Consistency Difference (TCD) to quantitatively assess the degree of temporal consistency of a video by comparing the difference between the frames of the reconstructed video and the previous and next frames of the target video. Extensive qualitative and quantitative experiments show that our method outperforms state-of-the-art methods in most benchmark tests, with visible improvements in details and temporal consistency. | 翻訳日:2024-09-27 05:00:58 公開日:2024-09-25 |
# チューリングテストを超えて: GPT-4は専門家の判断を下せるか?
Beyond Turing Test: Can GPT-4 Sway Experts' Decisions? ( http://arxiv.org/abs/2409.16710v1 ) ライセンス: Link先を確認 | Takehiro Takayanagi, Hiroya Takamura, Kiyoshi Izumi, Chung-Chi Chen, | (参考訳) 戦後、大規模言語モデル (LLM) の評価には、人為的コンテンツと区別できないだけでなく、読者の反応に基づいて生成されたテキストを評価することが含まれる。
本稿では,LLM生成テキストが読者の判断にどう影響するかを,アマチュアと専門家の両方に焦点をあてる。
以上の結果から,GPT-4はアマチュアとプロの双方の意思決定に影響を及ぼす説得的分析を生ずる可能性が示唆された。
さらに, 文法, 説得性, 論理コヒーレンス, 有用性の両面から, 生成したテキストを評価する。
その結果、観客反応による実世界評価と、生成モデルによく用いられる現在の多次元評価器との間に高い相関関係が示された。
本稿は, 人的判断を刺激するために生成テキストを使用する可能性とリスクを示すとともに, 生成テキストを評価するための新たな方向性, すなわち, 読者の反応と判断を活用することの可能性を指摘する。
将来の研究を支援するためにデータセットをリリースします。
In the post-Turing era, evaluating large language models (LLMs) involves assessing generated text based on readers' reactions rather than merely its indistinguishability from human-produced content. This paper explores how LLM-generated text impacts readers' decisions, focusing on both amateur and expert audiences. Our findings indicate that GPT-4 can generate persuasive analyses affecting the decisions of both amateurs and professionals. Furthermore, we evaluate the generated text from the aspects of grammar, convincingness, logical coherence, and usefulness. The results highlight a high correlation between real-world evaluation through audience reactions and the current multi-dimensional evaluators commonly used for generative models. Overall, this paper shows the potential and risk of using generated text to sway human decisions and also points out a new direction for evaluating generated text, i.e., leveraging the reactions and decisions of readers. We release our dataset to assist future research. | 翻訳日:2024-09-27 05:00:58 公開日:2024-09-25 |
# 簡易なパラメータ効率改善による視覚言語モデルファインチューニング
Vision-Language Model Fine-Tuning via Simple Parameter-Efficient Modification ( http://arxiv.org/abs/2409.16718v1 ) ライセンス: Link先を確認 | Ming Li, Jike Zhong, Chenxin Li, Liuzhuozheng Li, Nie Lin, Masashi Sugiyama, | (参考訳) 微調整型ビジョンランゲージモデル(VLM)の最近の進歩は、迅速なチューニングとアダプタチューニングの成功を目撃している一方、古典的なモデル固有のパラメータの微調整は見落としているように思われる。
サンプル数枚でVLMのパラメータを微調整することは、CLIPモデルの微調整が性能を低下させるため、事前訓練された知識を損なうと考えられている。
本稿では、この視点を再考し、新しい視点として、VLMにおける古典的モデル微調整のパワーを明らかにする。
ClipFitはCLIPを微調整する簡単な方法であり,パラメータの余分なオーバーヘッドを伴わない。
特定のバイアス項と正規化層を微調整するだけで、ClipFitはゼロショットCLIPの性能を平均調和平均精度7.27\%向上させることができる。
最後に、CLIPFitの微調整が事前訓練されたモデルにどのように影響するかを理解するために、内部パラメータや表現の変化を広範囲にわたる実験的に分析した。
その結果,低レベルテキストバイアス層と第1層正規化層は,他の層よりもはるかに大きく変化することがわかった。
コードは \url{https://github.com/minglli/CLIPFit} で公開されている。
Recent advances in fine-tuning Vision-Language Models (VLMs) have witnessed the success of prompt tuning and adapter tuning, while the classic model fine-tuning on inherent parameters seems to be overlooked. It is believed that fine-tuning the parameters of VLMs with few-shot samples corrupts the pre-trained knowledge since fine-tuning the CLIP model even degrades performance. In this paper, we revisit this viewpoint, and propose a new perspective: fine-tuning the specific parameters instead of all will uncover the power of classic model fine-tuning on VLMs. Through our meticulous study, we propose ClipFit, a simple yet effective method to fine-tune CLIP without introducing any overhead of extra parameters. We demonstrate that by only fine-tuning the specific bias terms and normalization layers, ClipFit can improve the performance of zero-shot CLIP by 7.27\% average harmonic mean accuracy. Lastly, to understand how fine-tuning in CLIPFit affects the pre-trained models, we conducted extensive experimental analyses w.r.t. changes in internal parameters and representations. We found that low-level text bias layers and the first layer normalization layer change much more than other layers. The code is available at \url{https://github.com/minglllli/CLIPFit}. | 翻訳日:2024-09-27 05:00:58 公開日:2024-09-25 |
# ゴールデンスニッチのためのダッシング:マルチエージェント強化学習による多次元時間最適運動計画
Dashing for the Golden Snitch: Multi-Drone Time-Optimal Motion Planning with Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2409.16720v1 ) ライセンス: Link先を確認 | Xian Wang, Jin Zhou, Yuanli Feng, Jiahao Mei, Jiming Chen, Shuo Li, | (参考訳) 自律ドローンの最近の革新は、最適制御と学習に基づく手法の適用を通じて、単一ドローン構成での時間最適飛行を容易にし、マルチドローンシステムの操作性を向上してきた。
しかし、特に高度にアジャイルな操作や動的シナリオにおいて、マルチドローンシステムのタイム最適動作計画を達成する研究はほとんどない。
本稿では,マルチエージェント強化学習を用いた時間最適マルチドローン飛行のための分散ポリシーネットワークを提案する。
飛行効率と衝突回避のバランスをとるために,最適化手法に着想を得たソフト衝突ペナルティを導入する。
集中型トレーニング、分散実行(CTDE)スタイルでPPOをカスタマイズすることで、軽量な実装を確保しながら、トレーニングの効率性と安定性を高めることができる。
大規模シミュレーションでは, 単流体システムと比較して性能のトレードオフは少ないものの, 衝突速度が低く, 最適に近い性能を保っていることがわかった。
実世界の実験では、シミュレーションと同じネットワークで最大速度13.65 m/sと最大ボディレート13.4 rad/sを5.5 m * 5.5 m * 2.0 mで達成し、完全にオンボード計算に依存している。
Recent innovations in autonomous drones have facilitated time-optimal flight in single-drone configurations and enhanced maneuverability in multi-drone systems through the application of optimal control and learning-based methods. However, few studies have achieved time-optimal motion planning for multi-drone systems, particularly during highly agile maneuvers or in dynamic scenarios. This paper presents a decentralized policy network for time-optimal multi-drone flight using multi-agent reinforcement learning. To strike a balance between flight efficiency and collision avoidance, we introduce a soft collision penalty inspired by optimization-based methods. By customizing PPO in a centralized training, decentralized execution (CTDE) fashion, we unlock higher efficiency and stability in training, while ensuring lightweight implementation. Extensive simulations show that, despite slight performance trade-offs compared to single-drone systems, our multi-drone approach maintains near-time-optimal performance with low collision rates. Real-world experiments validate our method, with two quadrotors using the same network as simulation achieving a maximum speed of 13.65 m/s and a maximum body rate of 13.4 rad/s in a 5.5 m * 5.5 m * 2.0 m space across various tracks, relying entirely on onboard computation. | 翻訳日:2024-09-27 04:50:49 公開日:2024-09-25 |
# 電子健康記録のためのマルチデータセット分類に基づくディープラーニングフレームワークと医療の予測分析
A Multi-Dataset Classification-Based Deep Learning Framework for Electronic Health Records and Predictive Analysis in Healthcare ( http://arxiv.org/abs/2409.16721v1 ) ライセンス: Link先を確認 | Syed Mohd Faisal Malik, Md Tabrez Nafis, Mohd Abdul Ahad, Safdar Tanweer, | (参考訳) 現代の医療において、患者のデータを保護するため、電子健康記録は貴重なリポジトリとなり、予測分析にディープラーニング技術を活用する大きな機会を生み出している。
網膜基底画像、硬変ステージ、心臓病診断予測は、多様なデータセットを分類するためのディープラーニング技術の統合によって有望な結果を示している。
本研究では,3つの異なるソースからデータを前処理することで,複数のデータセットを分類するための新しいディープラーニング予測分析フレームワークを提案する。
Residual NetworksとArtificial Neural Networksを組み合わせたハイブリッドディープラーニングモデルが提案され、心臓疾患、硬変、網膜疾患などの急性および慢性疾患を検出し、既存のモデルを上回っている。
データセットの準備には、分類データ変換、次元の縮小、データ合成の欠如といった側面が含まれる。
特徴抽出は分類データセットのスケーラ変換と画像データセットのResNetアーキテクチャを用いて効果的に実行される。
得られた特徴は統一された分類モデルに統合される。
厳密な実験と評価の結果,網膜基底像,肝硬変ステージ,心疾患診断予測では,93%,99%,95%の精度が得られた。
提案手法の有効性は,F1スコア,精度,リコール指標の詳細な解析を通じて実証される。
本研究は,電子健康記録における深層学習予測分析の深い知識を提供するため,方法論と実験を包括的に探求する。
In contemporary healthcare, to protect patient data, electronic health records have become invaluable repositories, creating vast opportunities to leverage deep learning techniques for predictive analysis. Retinal fundus images, cirrhosis stages, and heart disease diagnostic predictions have shown promising results through the integration of deep learning techniques for classifying diverse datasets. This study proposes a novel deep learning predictive analysis framework for classifying multiple datasets by pre-processing data from three distinct sources. A hybrid deep learning model combining Residual Networks and Artificial Neural Networks is proposed to detect acute and chronic diseases such as heart diseases, cirrhosis, and retinal conditions, outperforming existing models. Dataset preparation involves aspects such as categorical data transformation, dimensionality reduction, and missing data synthesis. Feature extraction is effectively performed using scaler transformation for categorical datasets and ResNet architecture for image datasets. The resulting features are integrated into a unified classification model. Rigorous experimentation and evaluation resulted in high accuracies of 93%, 99%, and 95% for retinal fundus images, cirrhosis stages, and heart disease diagnostic predictions, respectively. The efficacy of the proposed method is demonstrated through a detailed analysis of F1-score, precision, and recall metrics. This study offers a comprehensive exploration of methodologies and experiments, providing in-depth knowledge of deep learning predictive analysis in electronic health records. | 翻訳日:2024-09-27 04:50:49 公開日:2024-09-25 |
# PMSS: LLMファインチューニングのためのプレトレーニング行列セレクション
PMSS: Pretrained Matrices Skeleton Selection for LLM Fine-tuning ( http://arxiv.org/abs/2409.16722v1 ) ライセンス: Link先を確認 | Qibin Wang, Xiaolin Hu, Weikai Xu, Wei Liu, Jian Luan, Bin Wang, | (参考訳) ローランク適応(LoRA)とその変種は、過度の推論コストを回避する能力により、最近多くの関心を集めている。
しかしLoRAは,(1)低ランクな仮定の限界,(2)初期化法が最適でない,という課題に直面している。
そこで本研究では,PMSS(Pre-trained Matrices Skeleton Selection)を提案する。
これは、事前訓練された重量行列から骨格を選択し、代わりに小さな行列だけを学ぶことによって達成される。
PMSSは、トレーニング可能なパラメータがはるかに少ないタスク間で、LoRAや他の微調整メソッドよりも優れていることを示す実験である。
DROPベンチマーク(LLaMA2-7B/13Bで+3.4%/+5.9%)や数学推論(LLaMA2-7Bで+12.89%/+5.61%/+3.11%)などの複雑なタスクを扱う場合,特に有効性を示す。
コードとモデルはまもなくリリースされる予定だ。
Low-rank adaptation (LoRA) and its variants have recently gained much interest due to their ability to avoid excessive inference costs. However, LoRA still encounters the following challenges: (1) Limitation of low-rank assumption; and (2) Its initialization method may be suboptimal. To this end, we propose PMSS(Pre-trained Matrices Skeleton Selection), which enables high-rank updates with low costs while leveraging semantic and linguistic information inherent in pre-trained weight. It achieves this by selecting skeletons from the pre-trained weight matrix and only learning a small matrix instead. Experiments demonstrate that PMSS outperforms LoRA and other fine-tuning methods across tasks with much less trainable parameters. We demonstrate its effectiveness, especially in handling complex tasks such as DROP benchmark(+3.4%/+5.9% on LLaMA2-7B/13B) and math reasoning(+12.89%/+5.61%/+3.11% on LLaMA2-7B, Mistral-7B and Gemma-7B of GSM8K). The code and model will be released soon. | 翻訳日:2024-09-27 04:50:49 公開日:2024-09-25 |
# EAGLE:マルチモーダル大言語モデルのための効率的な任意参照ビジュアルプロンプトの理解を目指して
EAGLE: Towards Efficient Arbitrary Referring Visual Prompts Comprehension for Multimodal Large Language Models ( http://arxiv.org/abs/2409.16723v1 ) ライセンス: Link先を確認 | Jiacheng Zhang, Yang Jiao, Shaoxiang Chen, Jingjing Chen, Yu-Gang Jiang, | (参考訳) 近年,Multimodal Large Language Models (MLLMs) が注目されている。
MLLMを効果的に指示するために、従来の言語表現に加えて、ユーザの意図を特定の画像領域に合わせる効果により、画像にブラシを塗ってオブジェクトを参照する慣行が、一般的なツール(「視覚的プロンプトの参照」と呼ばれる)として現れている。
最も一般的な視覚的プロンプト、すなわち点、ボックス、マスクに対応するために、既存のアプローチは、当初、これらのプロンプトによって示される強調された領域のセマンティクスをキャプチャするために、特別な特徴符号化モジュールを使用していた。
その後、これらの符号化された領域特徴は、微調整により、細かなキュレートされたマルチモーダル命令データセットに適応する。
しかし、このような設計は建築の冗長性に悩まされている。
さらに、現実のシナリオにおいて、様々な種類の任意の参照視覚的プロンプトに遭遇する場合、効果的に一般化するという課題に直面している。
上記の課題に対処するために,既存のアプローチよりも少ないトレーニング努力で任意の参照視覚刺激の理解を促進する新しいMLLMであるEAGLEを提案する。
具体的には、EAGLEは、指示調律を行うために、与えられた画像に色付きパッチで描画された参照視覚プロンプトの固有形式を維持している。
本手法は,視覚的プロンプトを,空間的領域をMLLMに理解可能な空間的概念として,MLLM自体を起源とする領域の意味的理解を組み込んだものである。
また、MLLMの領域レベルの理解を視覚的プロンプトを参照する特定の形式にさらに混乱させるゲノメトリ・アグノスティック・ラーニング・パラダイム(GAL)を提案する。
提案手法の有効性を実証するために, 大規模実験を行った。
Recently, Multimodal Large Language Models (MLLMs) have sparked great research interests owing to their exceptional content-reasoning and instruction-following capabilities. To effectively instruct an MLLM, in addition to conventional language expressions, the practice of referring to objects by painting with brushes on images has emerged as a prevalent tool (referred to as "referring visual prompts") due to its efficacy in aligning the user's intention with specific image regions. To accommodate the most common referring visual prompts, namely points, boxes, and masks, existing approaches initially utilize specialized feature encoding modules to capture the semantics of the highlighted areas indicated by these prompts. Subsequently, these encoded region features are adapted to MLLMs through fine-tuning on a meticulously curated multimodal instruction dataset. However, such designs suffer from redundancy in architecture. Moreover, they face challenges in effectively generalizing when encountering a diverse range of arbitrary referring visual prompts in real-life scenarios. To address the above issues, we propose EAGLE, a novel MLLM that empowers comprehension of arbitrary referring visual prompts with less training efforts than existing approaches. Specifically, our EAGLE maintains the innate format of the referring visual prompts as colored patches rendered on the given image for conducting the instruction tuning. Our approach embeds referring visual prompts as spatial concepts conveying specific spatial areas comprehensible to the MLLM, with the semantic comprehension of these regions originating from the MLLM itself. Besides, we also propose a Geometry-Agnostic Learning paradigm (GAL) to further disentangle the MLLM's region-level comprehension with the specific formats of referring visual prompts. Extensive experiments are conducted to prove the effectiveness of our proposed method. | 翻訳日:2024-09-27 04:50:49 公開日:2024-09-25 |
# ニューラルネットワーク双晶の相対安全マージンの検証
Verified Relative Safety Margins for Neural Network Twins ( http://arxiv.org/abs/2409.16726v1 ) ライセンス: Link先を確認 | Anahita Baninajjar, Kamran Hosseini, Ahmed Rezine, Amir Aminifar, | (参考訳) 同じ入力領域と出力領域を持つ2つのディープニューラルネットワーク(DNN)分類器を与えられた場合、我々のゴールは、2つのネットワークの堅牢性を互いに関連付けて定量化することである。
そこで我々は,RSM (Relative Safety Margins) の概念を導入する。
直観的には、2つのクラスと共通の入力が与えられたとき、ある分類器の別の分類器に対する RSM は、決定が下される相対的マージンを反映する。
提案した概念は、訓練されたネットワークとその対応するコンパクトネットワーク(例えば、切断された、量子化された、蒸留されたネットワーク)を比較することを含む、いくつかのアプリケーション領域の文脈において関係がある。
RSMは意思決定が保存されているかどうかを確定するだけでなく、品質を定量化することもできる。
また、入力と摂動の族に与えられたRSMの利得や損失に対する安全な境界を確立するための枠組みも提案する。
MNIST, CIFAR10, および2つの実世界の医療データセットを用いて, 本手法の有効性について検討した。
Given two Deep Neural Network (DNN) classifiers with the same input and output domains, our goal is to quantify the robustness of the two networks in relation to each other. Towards this, we introduce the notion of Relative Safety Margins (RSMs). Intuitively, given two classes and a common input, RSM of one classifier with respect to another reflects the relative margins with which decisions are made. The proposed notion is relevant in the context of several applications domains, including to compare a trained network and its corresponding compact network (e.g., pruned, quantized, distilled network). Not only can RSMs establish whether decisions are preserved, but they can also quantify their qualities. We also propose a framework to establish safe bounds on RSM gains or losses given an input and a family of perturbations. We evaluate our approach using the MNIST, CIFAR10, and two real-world medical datasets, to show the relevance of our results. | 翻訳日:2024-09-27 04:50:49 公開日:2024-09-25 |
# RoleBreak:ロールプレイングシステムにおけるジェイルブレイク攻撃としてのキャラクター幻覚
RoleBreak: Character Hallucination as a Jailbreak Attack in Role-Playing Systems ( http://arxiv.org/abs/2409.16727v1 ) ライセンス: Link先を確認 | Yihong Tang, Bo Wang, Xu Wang, Dongming Zhao, Jing Liu, Jijun Zhang, Ruifang He, Yuexian Hou, | (参考訳) 大規模言語モデル(LLM)を利用したロールプレイングシステムは,感情コミュニケーションアプリケーションにおいてますます影響力を増している。
しかしながら、これらのシステムは、事前に定義されたキャラクターの役割から逸脱し、意図されたペルソナと矛盾しない応答を生成するという、キャラクター幻覚の影響を受けやすい。
本稿では,RoleBreakフレームワークを導入し,攻撃的視点からキャラクターの幻覚を初めて体系的に分析する。
本フレームワークでは, キャラクタ幻覚を駆動する要因として, 2つのコアメカニズム, スパーシリティとロールクエリコンフリクトを同定する。
これらの知見を活用して、既存の幻覚緩和技術を評価するために、新しいデータセットRoleBreakEvalを構築した。
実験の結果、幻覚を最小化するために訓練されたモデルでさえ、攻撃に対して脆弱であることが判明した。
これらの脆弱性に対処するため,ナレーションによって補足的コンテキストを生成する新たな防衛戦略であるナレーターモードを提案し,役割クエリの競合を緩和し,クエリの一般化を改善する。
実験の結果,ナレーターモードは幻覚を減らし,キャラクタロールやクェリへの忠実度を高め,全体的な物語コヒーレンスを向上させることによって,従来の拒絶に基づく戦略を著しく上回ることが示された。
Role-playing systems powered by large language models (LLMs) have become increasingly influential in emotional communication applications. However, these systems are susceptible to character hallucinations, where the model deviates from predefined character roles and generates responses that are inconsistent with the intended persona. This paper presents the first systematic analysis of character hallucination from an attack perspective, introducing the RoleBreak framework. Our framework identifies two core mechanisms-query sparsity and role-query conflict-as key factors driving character hallucination. Leveraging these insights, we construct a novel dataset, RoleBreakEval, to evaluate existing hallucination mitigation techniques. Our experiments reveal that even enhanced models trained to minimize hallucination remain vulnerable to attacks. To address these vulnerabilities, we propose a novel defence strategy, the Narrator Mode, which generates supplemental context through narration to mitigate role-query conflicts and improve query generalization. Experimental results demonstrate that Narrator Mode significantly outperforms traditional refusal-based strategies by reducing hallucinations, enhancing fidelity to character roles and queries, and improving overall narrative coherence. | 翻訳日:2024-09-27 04:50:49 公開日:2024-09-25 |
# SDCL:半教師型医用画像分割のための学生の不一致情報修正学習
SDCL: Students Discrepancy-Informed Correction Learning for Semi-supervised Medical Image Segmentation ( http://arxiv.org/abs/2409.16728v1 ) ライセンス: Link先を確認 | Bentao Song, Qingfeng Wang, | (参考訳) 半教師付き医用画像セグメンテーション(SSMIS)は、限られた医療ラベル付きデータの問題を緩和する可能性を実証している。
しかし, 教師によるSSMIS法は, 疑似ラベルの誤用により, 確証と認知バイアスが影響する可能性が示唆された。
この課題に対処するために,我々は,2人の学生と1人の非訓練教師を含む,平均的教師のアプローチを改善し,自己修正学習の指導に2人の学生の分節差を利用するSDCL(Dedisrepancy-Informed Correction Learning)フレームワークを提案する。
SDCLの本質は、セグメンテーションの差異の領域を潜在的なバイアス領域として識別し、モデルが正しい認知をレビューし、これらの領域で自身のバイアスを補正することを奨励することである。
連続的なレビューと修正によるバイアス補正学習を容易にするために、正しいセグメンテーションボクセル距離を最小化し、誤セグメンテーションボクセルエントロピーを最大化する2つの補正損失関数を用いる。
2つの3次元データセット(CTとMRI)と1つの2次元データセット(MRI)の3つの公開医用画像データセットについて実験を行った。
その結果, SDCL は現在の State-of-the-Art (SOTA) 法を2.57\%, 3.04\%, 2.34\% で上回っていることがわかった。
さらに,本手法の精度は,ACDCデータセットの完全教師付き手法に非常に近く,膵臓およびLAデータセットの完全教師付き手法を超えている。
(コードは \url{https://github.com/pascalcpp/SDCL})。
Semi-supervised medical image segmentation (SSMIS) has been demonstrated the potential to mitigate the issue of limited medical labeled data. However, confirmation and cognitive biases may affect the prevalent teacher-student based SSMIS methods due to erroneous pseudo-labels. To tackle this challenge, we improve the mean teacher approach and propose the Students Discrepancy-Informed Correction Learning (SDCL) framework that includes two students and one non-trainable teacher, which utilizes the segmentation difference between the two students to guide the self-correcting learning. The essence of SDCL is to identify the areas of segmentation discrepancy as the potential bias areas, and then encourage the model to review the correct cognition and rectify their own biases in these areas. To facilitate the bias correction learning with continuous review and rectification, two correction loss functions are employed to minimize the correct segmentation voxel distance and maximize the erroneous segmentation voxel entropy. We conducted experiments on three public medical image datasets: two 3D datasets (CT and MRI) and one 2D dataset (MRI). The results show that our SDCL surpasses the current State-of-the-Art (SOTA) methods by 2.57\%, 3.04\%, and 2.34\% in the Dice score on the Pancreas, LA, and ACDC datasets, respectively. In addition, the accuracy of our method is very close to the fully supervised method on the ACDC dataset, and even exceeds the fully supervised method on the Pancreas and LA dataset. (Code available at \url{https://github.com/pascalcpp/SDCL}). | 翻訳日:2024-09-27 04:50:49 公開日:2024-09-25 |
# 非定常BERT:ロバストな人間活動認識のための拡張IMUデータ探索
Non-stationary BERT: Exploring Augmented IMU Data For Robust Human Activity Recognition ( http://arxiv.org/abs/2409.16730v1 ) ライセンス: Link先を確認 | Ning Sun, Yufei Wang, Yuwei Zhang, Jixiang Wan, Shenyue Wang, Ping Liu, Xudong Zhang, | (参考訳) HAR(Human Activity Recognition)は、モバイルデバイスの普及と、人間のコンピュータインタラクションを改善するために、ユーザの日々のアクティビティデータを観察する必要性から、研究者から大きな注目を集めている。
本研究では、携帯電話IMUデータからなるOPPOHARと呼ばれる人間の活動認識データセットを収集する。
携帯電話におけるHARシステムの活用を容易にし,ユーザ固有の活動認識を実現するために,2段階のトレーニング手法により,非定常BERTと呼ばれる新しい軽量ネットワークを提案する。
また,IMUのジャイロスコープデータと加速器との深い関係を解明するために,簡便で効果的なデータ拡張手法を提案する。
ネットワークは各種アクティビティ認識データセットの最先端性能テストを実現し,データ拡張手法はその適用性を示す。
Human Activity Recognition (HAR) has gained great attention from researchers due to the popularity of mobile devices and the need to observe users' daily activity data for better human-computer interaction. In this work, we collect a human activity recognition dataset called OPPOHAR consisting of phone IMU data. To facilitate the employment of HAR system in mobile phone and to achieve user-specific activity recognition, we propose a novel light-weight network called Non-stationary BERT with a two-stage training method. We also propose a simple yet effective data augmentation method to explore the deeper relationship between the accelerator and gyroscope data from the IMU. The network achieves the state-of-the-art performance testing on various activity recognition datasets and the data augmentation method demonstrates its wide applicability. | 翻訳日:2024-09-27 04:50:49 公開日:2024-09-25 |
# 角係数から量子オブザーバブルへ--ダイボソン系における現象論的評価
From angular coefficients to quantum observables: a phenomenological appraisal in di-boson systems ( http://arxiv.org/abs/2409.16731v1 ) ライセンス: Link先を確認 | Michele Grossi, Giovanni Pelliccioli, Alessandro Vicini, | (参考訳) マルチボソン過程のスピン構造へのアクセスや高エネルギーでの量子エンタングルメントの測定への関心の高まりにより、ダイボソン系の偏極係数とスピン相関係数が研究される。
本研究では,QCD,電気弱型,オフシェルモデル,およびフィデューシャルセレクションやニュートリノ再構成などの現実的効果の高次補正は,これらの係数を適切に決定できないことを示し,量子エンタングルメントやベル不品質違反に敏感な可観測物の音響解釈を提供する。
本研究は, LHCにおけるボソン対の詳細な現象学的解析に基づいて, 包括的電弱発生かヒッグス-ボソン崩壊によるものである。
Motivated by the growing interest in accessing the spin structure of multi-boson processes and in measuring quantum entanglement at high energies, we study polarisation and spin-correlation coefficients in di-boson systems. We show that higher-order corrections of QCD and electroweak type, off-shell modelling, and realistic effects such as fiducial selections and neutrino reconstruction are unavoidable to properly determine such coefficients, and consequently to provide a sound interpretation of observables sensitive to quantum entanglement and Bell-inequality violation. Our findings are based on a detailed phenomenological analysis of boson pairs at the LHC, either in inclusive electroweak production or coming from Higgs-boson decays. | 翻訳日:2024-09-27 04:50:49 公開日:2024-09-25 |
# 深層学習による3次元医用画像のセグメンテーションにおけるロッシー圧縮の効果
The Effect of Lossy Compression on 3D Medical Images Segmentation with Deep Learning ( http://arxiv.org/abs/2409.16733v1 ) ライセンス: Link先を確認 | Anvar Kurmukov, Bogdan Zavolovich, Aleksandra Dalechina, Vladislav Proskurov, Boris Shirokikh, | (参考訳) 画像圧縮は、ストレージコストを削減し、インターネット上での伝送速度を向上する上で重要なツールである。
自然画像に対するディープラーニングの応用は、損失圧縮技術の利用が広く採用されているが、3次元医用画像には広く適用されていない。
3つのCTデータセット(17タスク)と1つのMRIデータセット(3タスク)を使用して、20倍の圧縮損失がディープニューラルネットワーク(DNN)によるセグメンテーション品質に悪影響を及ぼさないことを示した。
さらに、圧縮データに基づいて訓練されたDNNモデルを用いて、圧縮されていないデータを予測する能力を示す。
Image compression is a critical tool in decreasing the cost of storage and improving the speed of transmission over the internet. While deep learning applications for natural images widely adopts the usage of lossy compression techniques, it is not widespread for 3D medical images. Using three CT datasets (17 tasks) and one MRI dataset (3 tasks) we demonstrate that lossy compression up to 20 times have no negative impact on segmentation quality with deep neural networks (DNN). In addition, we demonstrate the ability of DNN models trained on compressed data to predict on uncompressed data and vice versa with no quality deterioration. | 翻訳日:2024-09-27 04:50:49 公開日:2024-09-25 |
# GB-RVFL:ランダムニューラルネットワークとグラニュラーボールコンピューティングの融合
GB-RVFL: Fusion of Randomized Neural Network and Granular Ball Computing ( http://arxiv.org/abs/2409.16735v1 ) ライセンス: Link先を確認 | M. Sajid, A. Quadir, M. Tanveer, | (参考訳) ランダムベクトル汎関数リンク(RVFL)ネットワークは、強力な一般化能力を持つ顕著な分類モデルである。
しかし、RVFLは全てのサンプルを均一に扱い、純粋かノイズかを無視し、そのスケーラビリティはトレーニングマトリックス全体を反転する必要があるため制限されている。
これらの問題に対処するため,訓練サンプルの代わりに粒状球(GB)を入力として使用する粒状球RVFL(GB-RVFL)モデルを提案する。
このアプローチは、GB中心行列の逆だけを必要とすることによりスケーラビリティを高め、GBの粗い粒度を通したノイズや外れ値に対する堅牢性を向上させる。
さらに、RVFLはデータセットの幾何学的構造を見落としている。
そこで我々は, グラフ埋め込み GB-RVFL (GE-GB-RVFL) モデルを提案する。
提案したGB-RVFLモデルとGE-GB-RVFLモデルは,KEEL,UCI,NDC,バイオメディカルデータセットを用いて評価し,ベースラインモデルと比較して優れた性能を示す。
The random vector functional link (RVFL) network is a prominent classification model with strong generalization ability. However, RVFL treats all samples uniformly, ignoring whether they are pure or noisy, and its scalability is limited due to the need for inverting the entire training matrix. To address these issues, we propose granular ball RVFL (GB-RVFL) model, which uses granular balls (GBs) as inputs instead of training samples. This approach enhances scalability by requiring only the inverse of the GB center matrix and improves robustness against noise and outliers through the coarse granularity of GBs. Furthermore, RVFL overlooks the dataset's geometric structure. To address this, we propose graph embedding GB-RVFL (GE-GB-RVFL) model, which fuses granular computing and graph embedding (GE) to preserve the topological structure of GBs. The proposed GB-RVFL and GE-GB-RVFL models are evaluated on KEEL, UCI, NDC and biomedical datasets, demonstrating superior performance compared to baseline models. | 翻訳日:2024-09-27 04:50:49 公開日:2024-09-25 |
# 面白い画像
Commonly Interesting Images ( http://arxiv.org/abs/2409.16736v1 ) ライセンス: Link先を確認 | Fitim Abdullahu, Helmut Grabner, | (参考訳) 画像は物語を伝え、感情をトリガーし、記憶を思い出させる。
したがって、彼らは自分の注意を引き付け、保持する能力を持ち、それは「興味ある」の定義である。
しかし、画像の魅力は非常に主観的である。
息子が彼の最初の一歩を踏み出す様子を見ると、私はいつもこの感情的な瞬間に戻るだろう。
一部のアドル猫、他の猫は犬の愛好家であり、第三グループはどちらも好まないかもしれない。
我々は、特定の状況下では、すべての画像が特定の観察者にとって興味深いものであると論じる。
この作品は特に主観的嗜好を強調している。
しかし、写真共有プラットフォームのFlickrのさまざまなユーザーによる2.5万枚の画像コレクションの分析から、画像の特徴が一般的に興味深いものになっていることが判明した。
例えば、職業的に撮影された風景を含む画像は、美的な性質から広くアピールしている。
対照的に、個人的またはニッチなコミュニティイベントを描いているような、主観的に興味深いイメージは、より個々のレベルで共鳴し、しばしば個人的な記憶や感情を呼び起こす。
Images tell stories, trigger emotions, and let us recall memories -- they make us think. Thus, they have the ability to attract and hold one's attention, which is the definition of being "interesting". Yet, the appeal of an image is highly subjective. Looking at the image of my son taking his first steps will always bring me back to this emotional moment, while it is just a blurry, quickly taken snapshot to most others. Preferences vary widely: some adore cats, others are dog enthusiasts, and a third group may not be fond of either. We argue that every image can be interesting to a particular observer under certain circumstances. This work particularly emphasizes subjective preferences. However, our analysis of 2.5k image collections from diverse users of the photo-sharing platform Flickr reveals that specific image characteristics make them commonly more interesting. For instance, images, including professionally taken landscapes, appeal broadly due to their aesthetic qualities. In contrast, subjectively interesting images, such as those depicting personal or niche community events, resonate on a more individual level, often evoking personal memories and emotions. | 翻訳日:2024-09-27 04:50:49 公開日:2024-09-25 |
# ベイジアンモデリングと機械学習を用いたデータ制約エコノミクスの構造変換解析のための新しいフレームワーク
A Novel Framework for Analyzing Structural Transformation in Data-Constrained Economies Using Bayesian Modeling and Machine Learning ( http://arxiv.org/abs/2409.16738v1 ) ライセンス: Link先を確認 | Ronald Katende, | (参考訳) 構造的転換は、農業経済からより多様化した産業やサービスベースのシステムへの転換であり、経済発展の鍵を握る要因である。
しかし、低所得国や中所得国(LMIC)では、データの不足と信頼性の低下が、このプロセスの正確な評価を妨げている。
本稿では,ベイジアン階層モデリング,機械学習に基づくデータ計算,因子分析を統合することで,これらの課題に対処する新しい統計フレームワークを提案する。
このフレームワークは、データ分散の条件に特化しており、さまざまな経済分野における生産性と雇用の変化に関する堅牢な洞察を提供することができる。
ベイズモデルを利用することで、データの不確実性は効果的に管理され、機械学習技術は欠落したデータポイントをインプットし、解析の完全性を保証する。
因子分析は複雑なデータセットの次元を減らし、それらを核となる経済構造に蒸留する。
提案したフレームワークは広範なシミュレーションを通じて検証され、最大60%のデータが欠落しても構造変化を予測する能力を示している。
このアプローチは、データ品質が制限されている環境において、政策立案者や研究者が情報的意思決定を行うための貴重なツールを提供し、LMICにおける経済発展のより広範な理解に寄与する。
Structural transformation, the shift from agrarian economies to more diversified industrial and service-based systems, is a key driver of economic development. However, in low- and middle-income countries (LMICs), data scarcity and unreliability hinder accurate assessments of this process. This paper presents a novel statistical framework designed to address these challenges by integrating Bayesian hierarchical modeling, machine learning-based data imputation, and factor analysis. The framework is specifically tailored for conditions of data sparsity and is capable of providing robust insights into sectoral productivity and employment shifts across diverse economies. By utilizing Bayesian models, uncertainties in data are effectively managed, while machine learning techniques impute missing data points, ensuring the integrity of the analysis. Factor analysis reduces the dimensionality of complex datasets, distilling them into core economic structures. The proposed framework has been validated through extensive simulations, demonstrating its ability to predict structural changes even when up to 60\% of data is missing. This approach offers policymakers and researchers a valuable tool for making informed decisions in environments where data quality is limited, contributing to the broader understanding of economic development in LMICs. | 翻訳日:2024-09-27 04:50:49 公開日:2024-09-25 |
# 自動テストリファクタリングのための文脈拡張LDMフレームワーク
Context-Enhanced LLM-Based Framework for Automatic Test Refactoring ( http://arxiv.org/abs/2409.16739v1 ) ライセンス: Link先を確認 | Yi Gao, Xing Hu, Xiaohu Yang, Xin Xia, | (参考訳) テストの臭いは、設計プラクティスの貧弱さとドメイン知識の不足から生じ、テストコードの品質が低下し、メンテナンスや更新が難しくなります。
手動でテストの臭いをリファクタリングするのは時間がかかり、エラーが発生しやすいため、自動化アプローチの必要性が浮き彫りになる。
現在のルールベースのリファクタリングメソッドは、事前に定義されたルールに守られず、多様なケースを効果的に扱うために必要な柔軟性に欠けるシナリオで苦労することが多い。
本稿では,Javaプロジェクトにおける自動テストリファクタリングのためのコンテキスト強化LLMベースのフレームワークであるUTRefactorを提案する。
UTRefactorはテストコードから関連するコンテキストを抽出し、テストの臭いの定義、記述、DSLベースのリファクタリングルールを含む外部知識ベースを活用する。
手動でリファクタリングプロセスをシミュレートすることで、UTRefactorはLLMをガイドして、ステップバイステップのプロセスにおけるテストの臭いを排除し、リファクタリング全体の正確性と一貫性を確保する。
さらに,複数の匂いが存在する場合に,包括的なリファクタリングを容易にするためのチェックポイント機構を実装した。
6つのオープンソースのJavaプロジェクトから879のテストに対してUTRefactorを評価し、テストの匂いを2,375から265に減らし、89%の削減を実現した。
UTRefactorは、61.82%の臭気除去率でLCMベースの直接リファクタリング方法より優れており、ルールベースのテスト臭いリファクタリングツールのパフォーマンスを大幅に上回っている。
その結果,UTRefactorが手作業による関与を最小限に抑えつつ,テストコード品質を向上させる効果が示された。
Test smells arise from poor design practices and insufficient domain knowledge, which can lower the quality of test code and make it harder to maintain and update. Manually refactoring test smells is time-consuming and error-prone, highlighting the necessity for automated approaches. Current rule-based refactoring methods often struggle in scenarios not covered by predefined rules and lack the flexibility needed to handle diverse cases effectively. In this paper, we propose a novel approach called UTRefactor, a context-enhanced, LLM-based framework for automatic test refactoring in Java projects. UTRefactor extracts relevant context from test code and leverages an external knowledge base that includes test smell definitions, descriptions, and DSL-based refactoring rules. By simulating the manual refactoring process through a chain-of-thought approach, UTRefactor guides the LLM to eliminate test smells in a step-by-step process, ensuring both accuracy and consistency throughout the refactoring. Additionally, we implement a checkpoint mechanism to facilitate comprehensive refactoring, particularly when multiple smells are present. We evaluate UTRefactor on 879 tests from six open-source Java projects, reducing the number of test smells from 2,375 to 265, achieving an 89% reduction. UTRefactor outperforms direct LLM-based refactoring methods by 61.82% in smell elimination and significantly surpasses the performance of a rule-based test smell refactoring tool. Our results demonstrate the effectiveness of UTRefactor in enhancing test code quality while minimizing manual involvement. | 翻訳日:2024-09-27 04:50:49 公開日:2024-09-25 |
# ゲージング空間変調対称性による1, 2, 3次元の非可逆双対性欠陥
Non-invertible duality defects in one, two, and three dimensions via gauging spatially modulated symmetry ( http://arxiv.org/abs/2409.16744v1 ) ライセンス: Link先を確認 | Hiromi Ebisu, Bo Han, | (参考訳) 空間変調対称性はフラクトンが発見されてから現れており、これは運動に制約された準粒子励起を伴う非伝統的な位相位相を特徴付ける。
一方、非可逆双対性欠陥は、量子異常や物質のエキゾチック相に関する深い洞察により、高エネルギーと凝縮物質物理学のコミュニティでかなりの注目を集めている。
しかし、これらのエキゾチック対称性と欠陥の関係は、完全には解明されていない。
本稿では,空間変調対称性をゲージングすることで,非可逆双対性欠陥を持つコンクリート格子モデルを構築し,そのエキゾチックな融合規則について検討する。
具体的には、1, 2, 3次元格子上にサブシステム対称性あるいは双極子対称性を持つスピンモデルを構築する。
ゲージング部分系対称性は、融合規則が2次元の0$形式部分系電荷と、3次元の「ライン」励起(一次元の線に沿って動く励起)に対応する高形式作用素を含む非可逆双対性欠陥をもたらす。
双極子対称性を評価することは、大域電荷と双極子電荷の間の階層構造を記述する双極子代数を持つ非可逆双対性欠陥をもたらす。
特に、双極子電荷の階層構造は元の電荷に比べて逆である。
我々の研究は、関連する対称性をゲージすることで、エキゾチックな双対性欠陥を構築するための統一的で体系的な分析フレームワークを提供する。
Spatially modulated symmetries have emerged since the discovery of fractons, which characterize unconventional topological phases with mobility-constrained quasiparticle excitations. On the other hand, non-invertible duality defects have attracted substantial attention in communities of high energy and condensed matter physics due to their deep insight into quantum anomalies and exotic phases of matter. However, the connection between these exotic symmetries and defects has not been fully explored. In this paper, we construct concrete lattice models with non-invertible duality defects via gauging spatially modulated symmetries and investigate their exotic fusion rules. Specifically, we construct spin models with subsystem symmetries or dipole symmetries on one, two, and three-dimensional lattices. Gauging subsystem symmetries leads to non-invertible duality defects whose fusion rules involve $0$-form subsystem charges in two dimensions and higher-form operators that correspond to ``lineon'' excitations (excitations which are mobile along one-dimensional line) in three dimensions. Gauging dipole symmetries leads to non-invertible duality defects with dipole algebras that describe a hierarchical structure between global and dipole charges. Notably, the hierarchical structure of the dual dipole charges is inverted compared with the original ones. Our work provides a unified and systematic analytical framework for constructing exotic duality defects by gauging relevant symmetries. | 翻訳日:2024-09-27 04:50:49 公開日:2024-09-25 |
# 固定周波数トランスモン量子ビットにおける高速無条件リセットとリーク低減
Fast unconditional reset and leakage reduction in fixed-frequency transmon qubits ( http://arxiv.org/abs/2409.16748v1 ) ライセンス: Link先を確認 | Liangyu Chen, Simon Pettersson Fors, Zixian Yan, Anaida Ali, Tahereh Abad, Amr Osman, Eleftherios Moschandreou, Benjamin Lienhard, Sandoko Kosen, Hang-Xi Li, Daryoush Shiri, Tong Liu, Stefan Hill, Abdullah-Al Amin, Robert Rehammar, Mamta Dahiya, Andreas Nylander, Marcus Rommel, Anita Fadavi Roudsari, Marco Caputo, Grönberg Leif, Joonas Govenius, Miroslav Dobsicek, Michele Faucci Giannelli, Anton Frisk Kockum, Jonas Bylander, Giovanna Tancredi, | (参考訳) フォールトトレラント量子コンピューティングの実現には、量子ビットの脆弱性を軽減するために量子エラー補正(QEC)スキームの実行が必要である。
この文脈では、QECの成功を確実にするために、キュービットリセットとリーク低減の両方を実装可能なプロトコルが極めて望ましい。
このようなプロトコルは、固定周波数のトランペットキュービットからなるアーキテクチャにおいて、チューナブルカプラ(表面コードと互換性のあるアーキテクチャ)を介してペアで結合される。
チューナブルカプラを用いて、望ましくないクビット励起をキュービットの読み出し共振器に転送し、そこからこの励起がフィードラインに減衰する。
合計して、クビットリセット、リークリセット、カプラリセットの組み合わせは83nsで完了する。
我々のリセット方式は高速で無条件であり、99%以上の忠実性を実現し、フォールトトレラント量子コンピュータの将来の実装として固定周波数量子ビットアーキテクチャを実現する。
また,本プロトコルは,QECサイクル実行時間を短縮し,量子コンピュータにおけるアルゴリズムの忠実度を向上させる手段を提供する。
The realization of fault-tolerant quantum computing requires the execution of quantum error-correction (QEC) schemes, to mitigate the fragile nature of qubits. In this context, to ensure the success of QEC, a protocol capable of implementing both qubit reset and leakage reduction is highly desirable. We demonstrate such a protocol in an architecture consisting of fixed-frequency transmon qubits pair-wise coupled via tunable couplers -- an architecture that is compatible with the surface code. We use tunable couplers to transfer any undesired qubit excitation to the readout resonator of the qubit, from which this excitation decays into the feedline. In total, the combination of qubit reset, leakage reduction, and coupler reset takes only 83ns to complete. Our reset scheme is fast, unconditional, and achieves fidelities well above 99%, thus enabling fixed-frequency qubit architectures as future implementations of fault-tolerant quantum computers. Our protocol also provides a means to both reduce QEC cycle runtime and improve algorithmic fidelity on quantum computers. | 翻訳日:2024-09-27 04:40:44 公開日:2024-09-25 |
# E-SQL: テキストからSQLへの質問強化による直接スキーマリンク
E-SQL: Direct Schema Linking via Question Enrichment in Text-to-SQL ( http://arxiv.org/abs/2409.16751v1 ) ライセンス: Link先を確認 | Hasan Alp Caferoğlu, Özgür Ulusoy, | (参考訳) 自然言語クエリを構造化クエリ言語(Text-to-SQLまたはNLQ-to-SQL)に変換することは、自然言語処理とデータベースコミュニティの両方で広く研究されている重要なタスクである。
LLM(Large Language Models)の使用による最近の進歩にもかかわらず、大きな課題が残っている。
これには、複雑なデータベーススキーマの処理、ユーザクエリのあいまいさの解消、ユーザの意図を正確に反映した複雑な構造を持つSQLクエリの生成などが含まれる。
本研究では、直接スキーマリンクと候補述語拡張を通じてこれらの課題に対処するように設計された、新しいパイプラインであるE-SQLを紹介する。
E-SQLは、関連するデータベースアイテム(テーブル、列、値)と条件を質問に直接組み込むことで、自然言語クエリを強化し、クエリとデータベース構造の間のギャップを埋める。
このパイプラインは、候補述語拡張を利用して、生成したSQLにおける誤った述語や不完全な述語を緩和する。
さらに,従来の研究で広く研究された手法であるスキーマフィルタリングの影響について検討し,先進的な大規模言語モデルと並行して適用した場合のリターンの低下を実証する。
BIRDベンチマークの総合的な評価は、E-SQLが競争性能、特に66.29%の実行精度で複雑なクエリに優れていることを示している。
報告された結果の再現に必要なすべてのコードは、GitHubリポジトリで公開されています。
Translating Natural Language Queries into Structured Query Language (Text-to-SQL or NLQ-to-SQL) is a critical task extensively studied by both the natural language processing and database communities, aimed at providing a natural language interface to databases (NLIDB) and lowering the barrier for non-experts. Despite recent advancements made through the use of Large Language Models (LLMs), significant challenges remain. These include handling complex database schemas, resolving ambiguity in user queries, and generating SQL queries with intricate structures that accurately reflect the user's intent. In this work, we introduce E-SQL, a novel pipeline specifically designed to address these challenges through direct schema linking and candidate predicate augmentation. E-SQL enhances the natural language query by incorporating relevant database items (i.e., tables, columns, and values) and conditions directly into the question, bridging the gap between the query and the database structure. The pipeline leverages candidate predicate augmentation to mitigate erroneous or incomplete predicates in generated SQLs. We further investigate the impact of schema filtering, a technique widely explored in previous work, and demonstrate its diminishing returns when applied alongside advanced large language models. Comprehensive evaluations on the BIRD benchmark illustrate that E-SQL achieves competitive performance, particularly excelling in complex queries with a 66.29% execution accuracy on the test set. All code required to reproduce the reported results is publicly available on our GitHub repository. | 翻訳日:2024-09-27 04:40:44 公開日:2024-09-25 |
# 説明可能なAIの迷路をナビゲートする - 方法とメトリクスを評価するための体系的なアプローチ
Navigating the Maze of Explainable AI: A Systematic Approach to Evaluating Methods and Metrics ( http://arxiv.org/abs/2409.16756v1 ) ライセンス: Link先を確認 | Lukas Klein, Carsten T. Lüth, Udo Schlegel, Till J. Bungert, Mennatallah El-Assady, Paul F. Jäger, | (参考訳) 説明可能なAI(XAI)は、数多くの提案されたメソッドと、その有効性を評価するためのメトリクスを備えた、急速に成長するドメインである。
しかしながら、現在の研究はしばしば範囲が限られており、XAIメソッドのごく一部だけを調べ、モデルアーキテクチャや入力データの性質など、パフォーマンスの基本的な設計パラメータを無視している。
さらに、彼らはしばしば1つか数つのメトリクスに依存し、徹底的な検証を無視し、選択バイアスのリスクを高め、メトリクス間の相違を無視します。
これらの欠点は、実践者が自分の問題にどの方法を選ぶべきかを混乱させます。
LATECは、20の異なる指標を用いて17の著名なXAI手法を批判的に評価する大規模ベンチマークである。
様々なアーキテクチャや多様な入力モダリティといった重要な設計パラメータを体系的に組み込んだ結果、7,560の組合せが得られた。
LATECを通じて、信頼性の低いランキングに繋がるメトリクスの衝突リスクの高さを示し、その結果、より堅牢な評価手法を提案する。
さらに,実践者のニーズに合わせて適切な方法を選択する際の支援として,様々なXAI手法を総合的に評価する。
驚くべきことに、新たなトップパフォーマンス手法である予測グラディエントは、関連する研究では検討されていない。
LATECは将来のXAI研究における役割を強化し、326kのサリエンシマップと378kのメトリクススコアを(メタ)評価データセットとして公開している。
Explainable AI (XAI) is a rapidly growing domain with a myriad of proposed methods as well as metrics aiming to evaluate their efficacy. However, current studies are often of limited scope, examining only a handful of XAI methods and ignoring underlying design parameters for performance, such as the model architecture or the nature of input data. Moreover, they often rely on one or a few metrics and neglect thorough validation, increasing the risk of selection bias and ignoring discrepancies among metrics. These shortcomings leave practitioners confused about which method to choose for their problem. In response, we introduce LATEC, a large-scale benchmark that critically evaluates 17 prominent XAI methods using 20 distinct metrics. We systematically incorporate vital design parameters like varied architectures and diverse input modalities, resulting in 7,560 examined combinations. Through LATEC, we showcase the high risk of conflicting metrics leading to unreliable rankings and consequently propose a more robust evaluation scheme. Further, we comprehensively evaluate various XAI methods to assist practitioners in selecting appropriate methods aligning with their needs. Curiously, the emerging top-performing method, Expected Gradients, is not examined in any relevant related study. LATEC reinforces its role in future XAI research by publicly releasing all 326k saliency maps and 378k metric scores as a (meta-)evaluation dataset. | 翻訳日:2024-09-27 04:40:44 公開日:2024-09-25 |
# 付加雑音下における進化戦略の適応的再評価法
An Adaptive Re-evaluation Method for Evolution Strategy under Additive Noise ( http://arxiv.org/abs/2409.16757v1 ) ライセンス: Link先を確認 | Catalin-Viorel Dinu, Yash J. Patel, Xavier Bonet-Monroig, Hao Wang, | (参考訳) Covariance Matrix Adaptation Evolutionary Strategy (CMA-ES)は、数値ブラックボックス最適化において最も先進的なアルゴリズムの一つである。
雑音を緩和するためには、例えば、同じ解を再評価したり、集団サイズを適応させるいくつかの手法が提案された。
本稿では,加法的なガウスホワイトノイズによる関数値の最適再評価数を適応的に選択する手法を提案する。
関数の勾配の雑音レベルとリプシッツ定数を推定することにより、CMA-ESの1イテレーションで達成される期待される改善の理論的下限を導出する。
下界の最大値を求めると、最適再評価数の簡単な式が得られる。
提案手法とCMA-ESの最新のノイズハンドリング手法を,様々な騒音レベル,最適化予算,次元性にまたがる人工的なテスト関数の集合上で実験的に比較した。
提案手法は, 近似関数値に近づく確率の点で有意な優位性を示す。
The Covariance Matrix Adaptation Evolutionary Strategy (CMA-ES) is one of the most advanced algorithms in numerical black-box optimization. For noisy objective functions, several approaches were proposed to mitigate the noise, e.g., re-evaluations of the same solution or adapting the population size. In this paper, we devise a novel method to adaptively choose the optimal re-evaluation number for function values corrupted by additive Gaussian white noise. We derive a theoretical lower bound of the expected improvement achieved in one iteration of CMA-ES, given an estimation of the noise level and the Lipschitz constant of the function's gradient. Solving for the maximum of the lower bound, we obtain a simple expression of the optimal re-evaluation number. We experimentally compare our method to the state-of-the-art noise-handling methods for CMA-ES on a set of artificial test functions across various noise levels, optimization budgets, and dimensionality. Our method demonstrates significant advantages in terms of the probability of hitting near-optimal function values. | 翻訳日:2024-09-27 04:40:43 公開日:2024-09-25 |
# 野生における全国的な視覚的ジオローカライゼーション
Statewide Visual Geolocalization in the Wild ( http://arxiv.org/abs/2409.16763v1 ) ライセンス: Link先を確認 | Florian Fervers, Sebastian Bullinger, Christoph Bodensteiner, Michael Arens, Rainer Stiefelhagen, | (参考訳) 本研究では,空中参照画像のデータベースと照合することにより,州規模の検索領域内において野生で撮影されたストリートビュー画像の位置を予測できる手法を提案する。
探索領域を地理的なセルに分割し、セルと対応する画像を、テスト時に検索を行うために使用される共同埋め込み空間にマッピングするモデルを訓練する。
モデルは各セルの複数のレベルにおける空中画像を利用して、周囲のシーンについて十分な情報を提供する。
本研究では,大規模な地理的領域へのスケーリングを可能にするセル解像度の整合性を持った検索領域のレイアウトを提案する。
実験により、この方法はマサチューセッツ州のクラウドソーシングプラットフォームMapillaryにアップロードされた全ストリートビュー写真の60.6%を、地道な場所の50m以内にローカライズすることに成功した。
ソースコードはhttps://github.com/fferflo/statewide-visual-geolocalizationで公開されている。
This work presents a method that is able to predict the geolocation of a street-view photo taken in the wild within a state-sized search region by matching against a database of aerial reference imagery. We partition the search region into geographical cells and train a model to map cells and corresponding photos into a joint embedding space that is used to perform retrieval at test time. The model utilizes aerial images for each cell at multiple levels-of-detail to provide sufficient information about the surrounding scene. We propose a novel layout of the search region with consistent cell resolutions that allows scaling to large geographical regions. Experiments demonstrate that the method successfully localizes 60.6% of all non-panoramic street-view photos uploaded to the crowd-sourcing platform Mapillary in the state of Massachusetts to within 50m of their ground-truth location. Source code is available at https://github.com/fferflo/statewide-visual-geolocalization. | 翻訳日:2024-09-27 04:40:43 公開日:2024-09-25 |
# 無線資源管理のためのオフライン・分散強化学習
Offline and Distributional Reinforcement Learning for Radio Resource Management ( http://arxiv.org/abs/2409.16764v1 ) ライセンス: Link先を確認 | Eslam Eldeeb, Hirley Alves, | (参考訳) 強化学習(RL)は将来のインテリジェント無線ネットワークにおいて有望な役割を担っている。
オンラインRLは無線リソース管理(RRM)に採用され、従来のスキームを継承している。
しかし、環境とのオンラインインタラクションに依存しているため、オンラインインタラクションが実現不可能な現実的な問題において、その役割は限定される。
加えて、従来のRLは、現実世界の確率的環境における不確実性とリスクの前には不足している。
本研究では, RRM問題に対するオフラインかつ分散的なRLスキームを提案し, 静的データセットを用いたオフライントレーニングを環境との相互作用なく実現し, 戻り値の分布を用いた不確実性の発生源を考慮した。
シミュレーションの結果,提案手法は従来の資源管理モデルより優れていることが示された。
さらに、オンラインRLを超える唯一のスキームであり、オンラインRLよりも16$%の利益を得ている。
Reinforcement learning (RL) has proved to have a promising role in future intelligent wireless networks. Online RL has been adopted for radio resource management (RRM), taking over traditional schemes. However, due to its reliance on online interaction with the environment, its role becomes limited in practical, real-world problems where online interaction is not feasible. In addition, traditional RL stands short in front of the uncertainties and risks in real-world stochastic environments. In this manner, we propose an offline and distributional RL scheme for the RRM problem, enabling offline training using a static dataset without any interaction with the environment and considering the sources of uncertainties using the distributions of the return. Simulation results demonstrate that the proposed scheme outperforms conventional resource management models. In addition, it is the only scheme that surpasses online RL and achieves a $16 \%$ gain over online RL. | 翻訳日:2024-09-27 04:40:43 公開日:2024-09-25 |
# 音声・OCR・視覚特徴を利用したマルチモーダルアライメントアルゴリズムによるベースライン精度の評価
MaViLS, a Benchmark Dataset for Video-to-Slide Alignment, Assessing Baseline Accuracy with a Multimodal Alignment Algorithm Leveraging Speech, OCR, and Visual Features ( http://arxiv.org/abs/2409.16765v1 ) ライセンス: Link先を確認 | Katharina Anderer, Andreas Reich, Matthias Wölfel, | (参考訳) 本稿では,講演ビデオとスライドの整合性を示すベンチマークデータセットを提案し,音声,テキスト,画像の特徴を活かした新しいマルチモーダルアルゴリズムを提案する。
SIFT(0.56)と比較して平均精度は0.82で、約11倍高速である。
動的プログラミングを用いて、アルゴリズムは最適なスライドシーケンスを決定する。
その結果, ペナライズスライドの遷移により精度が向上した。
光文字認識(OCR)により得られた特徴は、画像の特徴に次いで、高いマッチング精度に最も寄与する。
この結果から,OCRデータに欠落がある場合,音声の書き起こしだけでアライメントのための貴重な情報を提供し,有益であることが示唆された。
異なる講義間でのマッチング精度の変化は、ビデオの品質と講義スタイルに関連する課題を浮き彫りにする。
この新しいマルチモーダルアルゴリズムは、これらの課題のいくつかに対して堅牢性を示し、このアプローチの可能性を強調している。
This paper presents a benchmark dataset for aligning lecture videos with corresponding slides and introduces a novel multimodal algorithm leveraging features from speech, text, and images. It achieves an average accuracy of 0.82 in comparison to SIFT (0.56) while being approximately 11 times faster. Using dynamic programming the algorithm tries to determine the optimal slide sequence. The results show that penalizing slide transitions increases accuracy. Features obtained via optical character recognition (OCR) contribute the most to a high matching accuracy, followed by image features. The findings highlight that audio transcripts alone provide valuable information for alignment and are beneficial if OCR data is lacking. Variations in matching accuracy across different lectures highlight the challenges associated with video quality and lecture style. The novel multimodal algorithm demonstrates robustness to some of these challenges, underscoring the potential of the approach. | 翻訳日:2024-09-27 04:40:43 公開日:2024-09-25 |
# 光を放つ: 深層学習による外部照明下でのロバストレンズレスイメージング
Let There Be Light: Robust Lensless Imaging Under External Illumination With Deep Learning ( http://arxiv.org/abs/2409.16766v1 ) ライセンス: Link先を確認 | Eric Bezzam, Stefan Peters, Martin Vetterli, | (参考訳) レンズレスカメラは、アナログ光学からデジタル後処理へ画像形成をシフトすることで、従来のカメラの設計制約を緩和する。
新しいカメラの設計や応用が可能である一方で、レンズレスイメージングは望ましくない干渉(他の情報源、ノイズなど)に非常に敏感である。
本研究では、レンズレスイメージングのために研究されていない一般的なノイズ源、例えば周囲からの外部照明egと直接照明について述べる。
様々な照明条件に対して堅牢であることは、レンズレスイメージングの実用性と採用を増大させるだろう。
そこで本研究では,その推定値を画像復元プロセスに組み込むことで,外部照明を考慮した複数のリカバリ手法を提案する。
中心となるのは、学習可能なイメージリカバリとデノイザーを組み合わせた物理ベースの再構成であり、そのパラメータはすべて実験的に収集されたデータを使って訓練されている。
標準的な再建法と比較して,本手法は質的,定量的な改善をもたらす。
複数の照明条件下で,実装と25Kの計測データセットをオープンソース化した。
Lensless cameras relax the design constraints of traditional cameras by shifting image formation from analog optics to digital post-processing. While new camera designs and applications can be enabled, lensless imaging is very sensitive to unwanted interference (other sources, noise, etc.). In this work, we address a prevalent noise source that has not been studied for lensless imaging: external illumination e.g. from ambient and direct lighting. Being robust to a variety of lighting conditions would increase the practicality and adoption of lensless imaging. To this end, we propose multiple recovery approaches that account for external illumination by incorporating its estimate into the image recovery process. At the core is a physics-based reconstruction that combines learnable image recovery and denoisers, all of whose parameters are trained using experimentally gathered data. Compared to standard reconstruction methods, our approach yields significant qualitative and quantitative improvements. We open-source our implementations and a 25K dataset of measurements under multiple lighting conditions. | 翻訳日:2024-09-27 04:40:43 公開日:2024-09-25 |
# 教師訓練における神経崩壊に伴う情報理論メトリクスの探索
Exploring Information-Theoretic Metrics Associated with Neural Collapse in Supervised Training ( http://arxiv.org/abs/2409.16767v1 ) ライセンス: Link先を確認 | Kun Song, Zhiquan Tan, Bochao Zou, Jiansheng Chen, Huimin Ma, Weiran Huang, | (参考訳) 本稿では,行列エントロピーや相互情報といった情報理論を用いて教師あり学習の分析を行う。
本稿では,データ表現と分類頭部重みの情報の内容と,教師あり訓練中の情報相互作用について検討する。
実験により、行列エントロピーは、データ表現の情報内容と分類頭部重みの相互作用だけを記述することはできないが、データの類似性とクラスタリングの挙動を効果的に反映できることが示された。
これに触発されて、異なるモダリティから同一クラスの表現間のアライメントを改善するために、クロスモーダルアライメント損失を提案する。
さらに,データ表現と分類頭部重みの相互作用をより正確に評価するために,行列相互情報比 (MIR) や行列情報エントロピー差率 (HDR) などの新しい指標を利用する。
理論と実験により,HDR と MIR は教師付き学習の情報伝達を効果的に記述できるだけでなく,教師付き学習やセミ教師付き学習の性能も向上できることを示した。
In this paper, we utilize information-theoretic metrics like matrix entropy and mutual information to analyze supervised learning. We explore the information content of data representations and classification head weights and their information interplay during supervised training. Experiments show that matrix entropy cannot solely describe the interaction of the information content of data representation and classification head weights but it can effectively reflect the similarity and clustering behavior of the data. Inspired by this, we propose a cross-modal alignment loss to improve the alignment between the representations of the same class from different modalities. Moreover, in order to assess the interaction of the information content of data representation and classification head weights more accurately, we utilize new metrics like matrix mutual information ratio (MIR) and matrix information entropy difference ratio (HDR). Through theory and experiment, we show that HDR and MIR can not only effectively describe the information interplay of supervised training but also improve the performance of supervised and semi-supervised learning. | 翻訳日:2024-09-27 04:40:43 公開日:2024-09-25 |
# 信号対雑音比の変動を考慮したディープニューラルネットワーク型受信器の解釈
Interpreting Deep Neural Network-Based Receiver Under Varying Signal-To-Noise Ratios ( http://arxiv.org/abs/2409.16768v1 ) ライセンス: Link先を確認 | Marko Tuononen, Dani Korpi, Ville Hautamäki, | (参考訳) 本稿では,畳み込みニューラルネットワークに基づくレシーバモデルに着目し,ニューラルネットワークを解釈する新しい手法を提案する。
この方法は、モデルのどのユニットまたはユニットが関心のチャネルパラメータに関する最も多く(または少なくとも)情報を含んでいるかを特定し、グローバルレベルとローカルレベルの両方に関する洞察を提供する。
リンクレベルのシミュレーション実験では、最も(少なくとも)信号対雑音比の処理に寄与する単位を特定する方法の有効性が示されている。
我々は無線受信機モデルに焦点をあてるが、この手法は他のニューラルネットワークアーキテクチャやアプリケーションに一般化し、高次元設定においてもロバストな推定を提供する。
We propose a novel method for interpreting neural networks, focusing on convolutional neural network-based receiver model. The method identifies which unit or units of the model contain most (or least) information about the channel parameter(s) of the interest, providing insights at both global and local levels -- with global explanations aggregating local ones. Experiments on link-level simulations demonstrate the method's effectiveness in identifying units that contribute most (and least) to signal-to-noise ratio processing. Although we focus on a radio receiver model, the method generalizes to other neural network architectures and applications, offering robust estimation even in high-dimensional settings. | 翻訳日:2024-09-27 04:40:43 公開日:2024-09-25 |
# 超レベルセットと指数減少:安定ニューラルネットワークトレーニングにおける相乗的アプローチ
Super Level Sets and Exponential Decay: A Synergistic Approach to Stable Neural Network Training ( http://arxiv.org/abs/2409.16769v1 ) ライセンス: Link先を確認 | Jatin Chaudhary, Dipak Nidhi, Jukka Heikkonen, Haari Merisaari, Rajiv Kanth, | (参考訳) 本研究の目的は,指数減衰と高度な反オーバーフィッティング戦略を効果的に統合する動的学習率アルゴリズムを開発することにより,ニューラルネットワークの最適化プロセスを強化することである。
我々の主な貢献は、最適化景観が、我々のアルゴリズムの影響下で、リアプノフの安定性原理によって定義された一意的な安定性特性を示すことを示す理論的枠組みの確立である。
具体的には、適応学習率の影響を受けて、損失関数の超レベル集合が常に接続され、一貫したトレーニングダイナミクスが保証されることを示す。
さらに、これらの超レベル集合の「等価性」特性を確立し、様々な訓練条件とエポックの均一な安定性を維持する。
本稿では,ニューラルネットワークにおける動的学習速度機構の理論的理解と,より効率的で信頼性の高いニューラルネットワーク最適化手法の開発に寄与する。
本研究は、ニューラルネットワークトレーニングの文脈において、損失関数の同結合性を超レベル集合として形式化し、検証することを目的としており、適応機械学習アルゴリズムにおける今後の研究への新たな道を開く。
我々は、特に高精度で信頼性の高いアプリケーションにおいて、複雑なデータランドスケープと高次元データランドスケープを効果的に扱うことができるトレーニングメカニズムを提案するために、過去の理論的発見を活用している。
The objective of this paper is to enhance the optimization process for neural networks by developing a dynamic learning rate algorithm that effectively integrates exponential decay and advanced anti-overfitting strategies. Our primary contribution is the establishment of a theoretical framework where we demonstrate that the optimization landscape, under the influence of our algorithm, exhibits unique stability characteristics defined by Lyapunov stability principles. Specifically, we prove that the superlevel sets of the loss function, as influenced by our adaptive learning rate, are always connected, ensuring consistent training dynamics. Furthermore, we establish the "equiconnectedness" property of these superlevel sets, which maintains uniform stability across varying training conditions and epochs. This paper contributes to the theoretical understanding of dynamic learning rate mechanisms in neural networks and also pave the way for the development of more efficient and reliable neural optimization techniques. This study intends to formalize and validate the equiconnectedness of loss function as superlevel sets in the context of neural network training, opening newer avenues for future research in adaptive machine learning algorithms. We leverage previous theoretical discoveries to propose training mechanisms that can effectively handle complex and high-dimensional data landscapes, particularly in applications requiring high precision and reliability. | 翻訳日:2024-09-27 04:40:43 公開日:2024-09-25 |
# 都市下水サーベイランスにおける最適センサ配置問題に対する進化的グレディアルゴリズム
Evolutionary Greedy Algorithm for Optimal Sensor Placement Problem in Urban Sewage Surveillance ( http://arxiv.org/abs/2409.16770v1 ) ライセンス: Link先を確認 | Sunyu Wang, Yutong Xia, Huanfa Chen, Xinyi Tong, Yulun Zhou, | (参考訳) 下水監視のための費用対効果の高いセンサー配置計画の設計は、個別のテストの補助として、コスト対効果の高い早期流行の検出を可能にするため、重要な課題である。
しかし、特に複雑なトポロジを持つ大規模下水ネットワークでは、この問題は計算的に解決が難しい。
本稿では、この問題を多目的最適化問題として定式化し、競合する目的を考慮し、大規模有向ネットワークの効率的かつ効率的な最適化を実現するために、新しい進化的欲求アルゴリズム(EG)を提案する。
提案手法は,香港の小規模合成ネットワークと大規模実世界の下水ネットワークの両方で評価される。
小型合成ネットワークにおける実験により,適切な最適化性能を持つ一貫した効率向上を実証し,本手法が政策立案に最適なセンサ配置計画を生成するのに有効であることを示す。
Designing a cost-effective sensor placement plan for sewage surveillance is a crucial task because it allows cost-effective early pandemic outbreak detection as supplementation for individual testing. However, this problem is computationally challenging to solve, especially for massive sewage networks having complicated topologies. In this paper, we formulate this problem as a multi-objective optimization problem to consider the conflicting objectives and put forward a novel evolutionary greedy algorithm (EG) to enable efficient and effective optimization for large-scale directed networks. The proposed model is evaluated on both small-scale synthetic networks and a large-scale, real-world sewage network in Hong Kong. The experiments on small-scale synthetic networks demonstrate a consistent efficiency improvement with reasonable optimization performance and the real-world application shows that our method is effective in generating optimal sensor placement plans to guide policy-making. | 翻訳日:2024-09-27 04:40:43 公開日:2024-09-25 |
# MixPolyp: ポリプセグメンテーション強化のためのマスク, ボックス, スクリブルスーパービジョンの統合
MixPolyp: Integrating Mask, Box and Scribble Supervision for Enhanced Polyp Segmentation ( http://arxiv.org/abs/2409.16774v1 ) ライセンス: Link先を確認 | Yiwen Hu, Jun Wei, Yuncheng Jiang, Haoyang Li, Shuguang Cui, Zhen Li, Song Wu, | (参考訳) 高価なラベル付けによって制限されたポリプセグメンテーションモデルは、データ不足に悩まされている。
そこで本研究では,MixPolyp(MixPolyp)という複合教師付きポリープセグメンテーションパラダイムを提案する。
従来のモデルでは1種類のアノテーションに依存していたが、MixPolypは1つのモデルにさまざまなアノテーションタイプ(マスク、ボックス、スクリブル)を組み合わせることで、利用可能なデータの範囲を拡大し、ラベリングコストを削減している。
これを実現するために、MixPolypは、サブスペース投影損失(L_SP)、バイナリ最小エントロピー損失(L_BME)、線形正規化損失(L_LR)の3つの新しい監視損失を導入した。
ボックスアノテーションの場合、L_SPは予測と監督の整合性を排除します。
スクリブルアノテーションでは、L_BMEは最小エントロピー制約によるラベルなし画素の監督を提供するため、監督間隔を緩和する。
さらに、L_LRは、予測間の一貫性を強制することにより、密集した監視を提供する。
これらの損失はモデル構造とは独立であり、一般に適用できる。
トレーニング時にのみ使用され、推論時に計算コストを加算しない。
5つのデータセットに対する大規模な実験は、MixPolypの有効性を示している。
Limited by the expensive labeling, polyp segmentation models are plagued by data shortages. To tackle this, we propose the mixed supervised polyp segmentation paradigm (MixPolyp). Unlike traditional models relying on a single type of annotation, MixPolyp combines diverse annotation types (mask, box, and scribble) within a single model, thereby expanding the range of available data and reducing labeling costs. To achieve this, MixPolyp introduces three novel supervision losses to handle various annotations: Subspace Projection loss (L_SP), Binary Minimum Entropy loss (L_BME), and Linear Regularization loss (L_LR). For box annotations, L_SP eliminates shape inconsistencies between the prediction and the supervision. For scribble annotations, L_BME provides supervision for unlabeled pixels through minimum entropy constraint, thereby alleviating supervision sparsity. Furthermore, L_LR provides dense supervision by enforcing consistency among the predictions, thus reducing the non-uniqueness. These losses are independent of the model structure, making them generally applicable. They are used only during training, adding no computational cost during inference. Extensive experiments on five datasets demonstrate MixPolyp's effectiveness. | 翻訳日:2024-09-27 04:40:43 公開日:2024-09-25 |
# PhDフォーラム: メモリ中心コンピューティングによる効率的なプライバシ保護処理
PhD Forum: Efficient Privacy-Preserving Processing via Memory-Centric Computing ( http://arxiv.org/abs/2409.16777v1 ) ライセンス: Link先を確認 | Mpoki Mwaisela, | (参考訳) ホモモルフィック暗号化(HE)やセキュアマルチパーティ計算(SMPC)といったプライバシ保護計算技術は、暗号化されたデータの処理を可能にすることにより、データのセキュリティを高める。
しかし、基礎となる暗号アルゴリズムによる計算とCPU-DRAMのデータ移動のオーバーヘッドは、実際にはこれらの技術の採用を妨げる。
既存のアプローチでは、GPUやFPGAのような特殊なハードウェアを使用して計算オーバーヘッドを改善することに重点を置いているが、これらの手法は依然としてプロセッサとDRAMのオーバーヘッドに悩まされている。
メモリ内処理をサポートする新しいハードウェア技術は、この問題に対処する可能性がある。
メモリ中心コンピューティング(英: Memory-centric computing、PIM)は、データ処理ユニット(DPU)と呼ばれる低消費電力プロセッサをメモリに導入することにより、データに近い計算をもたらす。
インメモリの計算能力に加えて、PIMは広範な並列性を提供し、最先端のアプローチよりも大幅に性能が向上する。
我々は、最近利用可能なPIMハードウェアを用いて、効率的なプライバシ保存計算を実現するフレームワークを提案する。
設計は,(1)プライバシ保護アプリケーションと基盤となるプロトコルとハードウェアを分離するアプリケーション層,(2)既存のセキュアな計算プロトコル(HEとMPC)を実装するプロトコル層,(3)データ圧縮技術を活用してDPUとホストメモリ間のデータ転送オーバーヘッドを軽減するデータオーケストレーション層,(4)セキュアな計算アルゴリズムを構築するDPUカーネルを実装する計算層からなる。
Privacy-preserving computation techniques like homomorphic encryption (HE) and secure multi-party computation (SMPC) enhance data security by enabling processing on encrypted data. However, the significant computational and CPU-DRAM data movement overhead resulting from the underlying cryptographic algorithms impedes the adoption of these techniques in practice. Existing approaches focus on improving computational overhead using specialized hardware like GPUs and FPGAs, but these methods still suffer from the same processor-DRAM overhead. Novel hardware technologies that support in-memory processing have the potential to address this problem. Memory-centric computing, or processing-in-memory (PIM), brings computation closer to data by introducing low-power processors called data processing units (DPUs) into memory. Besides its in-memory computation capability, PIM provides extensive parallelism, resulting in significant performance improvement over state-of-the-art approaches. We propose a framework that uses recently available PIM hardware to achieve efficient privacy-preserving computation. Our design consists of a four-layer architecture: (1) an application layer that decouples privacy-preserving applications from the underlying protocols and hardware; (2) a protocol layer that implements existing secure computation protocols (HE and MPC); (3) a data orchestration layer that leverages data compression techniques to mitigate the data transfer overhead between DPUs and host memory; (4) a computation layer which implements DPU kernels on which secure computation algorithms are built. | 翻訳日:2024-09-27 04:40:43 公開日:2024-09-25 |
# LLaMa-SciQ:科学MCQへの回答のための教育チャットボット
LLaMa-SciQ: An Educational Chatbot for Answering Science MCQ ( http://arxiv.org/abs/2409.16779v1 ) ライセンス: Link先を確認 | Marc-Antoine Allard, Matin Ansaripour, Maria Yuffa, Paul Teiletche, | (参考訳) 大規模言語モデル (LLMs) は、数学的な推論を必要とするタスク、特に多重選択問題 (MCQs) に悩まされることが多い。
LLaMa-SciQは,大学生のSTEM分野におけるMCQの解決と理解を支援するためのチャットボットである。
まず、モデルを人間の好みに合わせて微調整し調整することから始めます。
Mistral-7BとLLaMa-8Bの性能を比較した結果,評価精度が高いため,後者をベースモデルとして選択した。
精度をさらに高めるため、我々はRetrieval-Augmented Generation (RAG)を実装し、量子化を適用してモデルを圧縮し、推論時間を短縮し、学生のアクセシビリティを高める。
数学的推論のために、LLaMa-SciQはGSM8kデータセットで74.5%、MATHデータセットで30%の精度を達成した。
しかしながら、RAGはパフォーマンスを改善しておらず、レトリバーの問題や、コンテキストに精通していないモデルのため、それを減らすことさえできない。
それにもかかわらず、量子化モデルでは性能が5%の低下しか示さず、大幅な効率改善が示される。
Large Language Models (LLMs) often struggle with tasks requiring mathematical reasoning, particularly multiple-choice questions (MCQs). To address this issue, we developed LLaMa-SciQ, an educational chatbot designed to assist college students in solving and understanding MCQs in STEM fields. We begin by fine-tuning and aligning the models to human preferences. After comparing the performance of Mistral-7B and LLaMa-8B, we selected the latter as the base model due to its higher evaluation accuracy. To further enhance accuracy, we implement Retrieval-Augmented Generation (RAG) and apply quantization to compress the model, reducing inference time and increasing accessibility for students. For mathematical reasoning, LLaMa-SciQ achieved 74.5% accuracy on the GSM8k dataset and 30% on the MATH dataset. However, RAG does not improve performance and even reduces it, likely due to retriever issues or the model's unfamiliarity with context. Despite this, the quantized model shows only a 5% loss in performance, demonstrating significant efficiency improvements. | 翻訳日:2024-09-27 04:40:43 公開日:2024-09-25 |
# トップダウンテストケース生成とマルチターンインタラクションによる大規模言語モデルの完全自動レッドチーム化
Holistic Automated Red Teaming for Large Language Models through Top-Down Test Case Generation and Multi-turn Interaction ( http://arxiv.org/abs/2409.16783v1 ) ライセンス: Link先を確認 | Jinchuan Zhang, Yan Zhou, Yaxin Liu, Ziming Li, Songlin Hu, | (参考訳) 自動レッド・チームリングは、大きな言語モデル(LLM)における不整合行動を特定する効果的な方法である。
しかし、既存のアプローチは多くの場合、包括的なテストケースカバレッジの必要性を乗り越えながら、攻撃の成功率を改善することに重点を置いている。
さらに、これらの手法のほとんどは1ターンのレッドチーム化に限られており、実世界の人間と機械の相互作用の多ターンのダイナミクスを捉えていない。
これらの制限を克服するため,HARM(Holistic Automated Red teaMing)を提案する。
また,新しい微調整戦略と強化学習技術を活用し,人間的手法で多ターン対逆探索を容易にする。
実験の結果,我々のフレームワークはモデル脆弱性のより体系的な理解を可能にし,アライメントプロセスに対するよりターゲット的なガイダンスを提供することがわかった。
Automated red teaming is an effective method for identifying misaligned behaviors in large language models (LLMs). Existing approaches, however, often focus primarily on improving attack success rates while overlooking the need for comprehensive test case coverage. Additionally, most of these methods are limited to single-turn red teaming, failing to capture the multi-turn dynamics of real-world human-machine interactions. To overcome these limitations, we propose HARM (Holistic Automated Red teaMing), which scales up the diversity of test cases using a top-down approach based on an extensible, fine-grained risk taxonomy. Our method also leverages a novel fine-tuning strategy and reinforcement learning techniques to facilitate multi-turn adversarial probing in a human-like manner. Experimental results demonstrate that our framework enables a more systematic understanding of model vulnerabilities and offers more targeted guidance for the alignment process. | 翻訳日:2024-09-27 04:30:14 公開日:2024-09-25 |
# 世界モデルによる視覚足歩行の知覚
World Model-based Perception for Visual Legged Locomotion ( http://arxiv.org/abs/2409.16784v1 ) ライセンス: Link先を確認 | Hang Lai, Jiahang Cao, Jiafeng Xu, Hongtao Wu, Yunfeng Lin, Tao Kong, Yong Yu, Weinan Zhang, | (参考訳) 様々な地形を横切る移動は困難であり、ロボットとその周囲をプロプレセプションと視覚の両方から正確に認識する必要がある。
しかし、高次元視覚入力から直接学習することは、しばしばデータ非効率で複雑である。
この問題に対処するために,従来の手法では,まず特権情報にアクセスして教師の方針を学習し,次に教師の行動を視覚的入力で模倣する生徒の方針を学習する。
ある程度の進歩にもかかわらず、この模倣フレームワークは、入力間の情報ギャップによって学生の政策が最適なパフォーマンスを達成するのを妨げている。
さらに、動物は特権的な知識のない世界理解に基づいて、直感的に異なる地形を横切ることを学習するので、学習プロセスは不自然である。
この自然能力に触発されて,世界モデルに基づく世界モデルを構築し,世界モデルに基づく政策を学習する,シンプルで効果的な世界モデルベース知覚(WMP)を提案する。
シミュレーションで完全に訓練されているものの,世界モデルは実世界の軌道の正確な予測を行うことができ,ポリシコントローラに情報信号を提供する。
広範にシミュレーションされた実世界の実験により、WMPはトラバーサビリティとロバストネスにおいて最先端のベースラインを上回っていることが示された。
ビデオとコードは、https://wmp-loco.github.io/.com/で入手できる。
Legged locomotion over various terrains is challenging and requires precise perception of the robot and its surroundings from both proprioception and vision. However, learning directly from high-dimensional visual input is often data-inefficient and intricate. To address this issue, traditional methods attempt to learn a teacher policy with access to privileged information first and then learn a student policy to imitate the teacher's behavior with visual input. Despite some progress, this imitation framework prevents the student policy from achieving optimal performance due to the information gap between inputs. Furthermore, the learning process is unnatural since animals intuitively learn to traverse different terrains based on their understanding of the world without privileged knowledge. Inspired by this natural ability, we propose a simple yet effective method, World Model-based Perception (WMP), which builds a world model of the environment and learns a policy based on the world model. We illustrate that though completely trained in simulation, the world model can make accurate predictions of real-world trajectories, thus providing informative signals for the policy controller. Extensive simulated and real-world experiments demonstrate that WMP outperforms state-of-the-art baselines in traversability and robustness. Videos and Code are available at: https://wmp-loco.github.io/. | 翻訳日:2024-09-27 04:30:14 公開日:2024-09-25 |
# 特徴属性によるAI回帰作業における特徴選択と解釈可能性の向上
Enhancing Feature Selection and Interpretability in AI Regression Tasks Through Feature Attribution ( http://arxiv.org/abs/2409.16787v1 ) ライセンス: Link先を確認 | Alexander Hinterleitner, Thomas Bartz-Beielstein, Richard Schulz, Sebastian Spengler, Thomas Winter, Christoph Leitenmeier, | (参考訳) 説明可能な人工知能(XAI)の研究は、ディープラーニングモデルをより透過的にすることを目的として増えている。
ほとんどのXAIメソッドは、セキュリティ関連アプリケーションにおいて人工知能(AI)システムによってなされた決定を正当化することに焦点を当てている。
しかし、これらの手法を用いてディープラーニングアルゴリズムの性能と堅牢性を向上させることには、比較的注意が向けられていない。
さらに、既存のXAIの作業の多くは、主に分類問題に対処している。
本研究では、回帰問題に対する入力データの非形式的特徴をフィルタリングする特徴属性法の可能性について検討し、予測の精度と安定性を向上する。
我々は、初期データ空間から最適な変数セットを選択するために、統合グラディエントとk平均クラスタリングを組み合わせた機能選択パイプラインを導入する。
提案手法の有効性を検証するため, ターボ機械の開発過程における羽根振動解析を実世界の産業問題に適用した。
Research in Explainable Artificial Intelligence (XAI) is increasing, aiming to make deep learning models more transparent. Most XAI methods focus on justifying the decisions made by Artificial Intelligence (AI) systems in security-relevant applications. However, relatively little attention has been given to using these methods to improve the performance and robustness of deep learning algorithms. Additionally, much of the existing XAI work primarily addresses classification problems. In this study, we investigate the potential of feature attribution methods to filter out uninformative features in input data for regression problems, thereby improving the accuracy and stability of predictions. We introduce a feature selection pipeline that combines Integrated Gradients with k-means clustering to select an optimal set of variables from the initial data space. To validate the effectiveness of this approach, we apply it to a real-world industrial problem - blade vibration analysis in the development process of turbo machinery. | 翻訳日:2024-09-27 04:30:14 公開日:2024-09-25 |
# 大規模言語モデル評価のバイアスを緩和する
Mitigating the Bias of Large Language Model Evaluation ( http://arxiv.org/abs/2409.16788v1 ) ライセンス: Link先を確認 | Hongli Zhou, Hui Huang, Yunfei Long, Bing Xu, Conghui Zhu, Hailong Cao, Muyun Yang, Tiejun Zhao, | (参考訳) 近年,LLM-as-a-JudgeのフレーバーにおけるLLM(Large Language Model)の品質を評価する傾向にある。
しかし、既存の裁判官は偏見があることが証明されている。つまり、彼らは、より良い表面的品質(冗長性、流布性など)を示す回答を好んでおり、その一方で、次の能力の指示を無視している。
本研究では, LLM-as-a-Judgeのバイアスに関する系統的研究を提案する。
具体的には、クローズドソース判定モデルにおいて、確率レベルとプロンプトレベルの両方において、表面品質の重要性を緩和するためにキャリブレーションを適用する。
オープンソース・ジャッジ・モデルでは, 対照的な学習によってバイアスを軽減し, 学習から逸脱するが, 表面品質が向上する負のサンプルをキュレートする。
本手法をバイアス評価ベンチマークに適用し, 実験結果から, 良好な評価精度を維持しつつ, バイアスを大きなマージンで軽減することを示す。
Recently, there has been a trend of evaluating the Large Language Model (LLM) quality in the flavor of LLM-as-a-Judge, namely leveraging another LLM to evaluate the current output quality. However, existing judges are proven to be biased, namely they would favor answers which present better superficial quality (such as verbosity, fluency) while ignoring the instruction following ability. In this work, we propose systematic research about the bias of LLM-as-a-Judge. Specifically, for closed-source judge models, we apply calibration to mitigate the significance of superficial quality, both on probability level and prompt level. For open-source judge models, we propose to mitigate the bias by contrastive training, with curated negative samples that deviate from instruction but present better superficial quality. We apply our methods on the bias evaluation benchmark, and experiment results show our methods mitigate the bias by a large margin while maintaining a satisfactory evaluation accuracy. | 翻訳日:2024-09-27 04:30:14 公開日:2024-09-25 |
# 強化学習のための記号的状態分割
Symbolic State Partition for Reinforcement Learning ( http://arxiv.org/abs/2409.16791v1 ) ライセンス: Link先を確認 | Mohsen Ghaffari, Mahsa Varshosaz, Einar Broch Johnsen, Andrzej Wąsowski, | (参考訳) タブラル強化学習法は連続状態空間上で直接動作することはできない。
この問題の解決策の1つは状態空間を分割することである。
優れたパーティショニングは、学習中の一般化と、事前経験のより効率的な活用を可能にする。
その結果、学習プロセスはより速くなり、より信頼性の高いポリシーが生み出される。
しかし、パーティショニングは、状態成分間の非線形関係の存在において特に有害な近似をもたらす。
理想的なパーティションは、与えられた問題に対する状態空間のキー構造をキャプチャしながら、可能な限り粗いものにすべきである。
この研究は、シンボリック実行によって環境力学からパーティションを抽出する。
シンボル分割は, 環境行動に関して, 状態空間のカバレッジを向上し, 余分な報酬に対して強化学習がより優れていることを示す。
我々は,学習ポリシーの精度,拡張性,学習エージェントの性能,状態空間のカバレッジに関して,シンボル的状態空間分割を評価する。
Tabular reinforcement learning methods cannot operate directly on continuous state spaces. One solution for this problem is to partition the state space. A good partitioning enables generalization during learning and more efficient exploitation of prior experiences. Consequently, the learning process becomes faster and produces more reliable policies. However, partitioning introduces approximation, which is particularly harmful in the presence of nonlinear relations between state components. An ideal partition should be as coarse as possible, while capturing the key structure of the state space for the given problem. This work extracts partitions from the environment dynamics by symbolic execution. We show that symbolic partitioning improves state space coverage with respect to environmental behavior and allows reinforcement learning to perform better for sparse rewards. We evaluate symbolic state space partitioning with respect to precision, scalability, learning agent performance and state space coverage for the learnt policies. | 翻訳日:2024-09-27 04:30:14 公開日:2024-09-25 |
# Spacewalker: 高速なインタラクティブな探索と非構造化データのアノテーションのための表現空間のトラバース
Spacewalker: Traversing Representation Spaces for Fast Interactive Exploration and Annotation of Unstructured Data ( http://arxiv.org/abs/2409.16793v1 ) ライセンス: Link先を確認 | Lukas Heine, Fabian Hörst, Jana Fragemann, Gijs Luijten, Miriam Balzer, Jan Egger, Fin Bahnsen, M. Saquib Sarfraz, Jens Kleesiek, Constantin Seibold, | (参考訳) 医療、金融、製造業などの産業における非構造化データは、効率的な分析と意思決定に重大な課題をもたらす。
データ内のパターンを検出し、その影響を理解することは重要だが、適切なツールなしでは複雑だ。
伝統的に、これらのタスクはデータアナリストや労働集約的なマニュアルレビューの専門知識に依存していた。
これに対して,複数のモダリティをまたいだデータの探索とアノテートを目的としたインタラクティブツールであるSpacewalkerを紹介した。
Spacewalkerは、ユーザがデータ表現を抽出し、低次元空間でそれらを視覚化することで、セマンティックな類似性の検出を可能にする。
広範なユーザ研究を通じて、データアノテーションと整合性検証におけるSpacewalkerの有効性を評価する。
その結果,潜伏空間を横断し,マルチモーダルクエリを実行するツールの能力は,利用者の関連データを素早く識別する能力を大幅に向上させることがわかった。
さらに、Spacewalkerは従来の手法よりもはるかに優れたアノテーションのスピードアップを可能にし、非構造化データを効率的にナビゲートし、意思決定プロセスを改善するための有望なツールである。
この作業のコードはオープンソースで、https://github.com/code-lukas/Spacewalkerを参照してください。
Unstructured data in industries such as healthcare, finance, and manufacturing presents significant challenges for efficient analysis and decision making. Detecting patterns within this data and understanding their impact is critical but complex without the right tools. Traditionally, these tasks relied on the expertise of data analysts or labor-intensive manual reviews. In response, we introduce Spacewalker, an interactive tool designed to explore and annotate data across multiple modalities. Spacewalker allows users to extract data representations and visualize them in low-dimensional spaces, enabling the detection of semantic similarities. Through extensive user studies, we assess Spacewalker's effectiveness in data annotation and integrity verification. Results show that the tool's ability to traverse latent spaces and perform multi-modal queries significantly enhances the user's capacity to quickly identify relevant data. Moreover, Spacewalker allows for annotation speed-ups far superior to conventional methods, making it a promising tool for efficiently navigating unstructured data and improving decision making processes. The code of this work is open-source and can be found at: https://github.com/code-lukas/Spacewalker | 翻訳日:2024-09-27 04:30:14 公開日:2024-09-25 |
# OODの一般化と検出のためのスケーラブルなアンサンブル多様化
Scalable Ensemble Diversification for OOD Generalization and Detection ( http://arxiv.org/abs/2409.16797v1 ) ライセンス: Link先を確認 | Alexander Rubinstein, Luca Scimeca, Damien Teney, Seong Joon Oh, | (参考訳) 多様なモデルのアンサンブルの訓練には、より良いアウト・オブ・ディストリビューション(OOD)の一般化によるモデル選択候補の提供や、ベイズ原理によるOODサンプルの検出など、いくつかの実践的な応用がある。
多様なアンサンブルトレーニングに対する既存のアプローチは、モデルが提供されたOODサンプルに異を唱えることを奨励している。
しかし、この手法は計算コストが高く、小規模な設定でしか示されていないような、よく区切られたIDとOODの例を必要とする。
$\textbf{Method。
この研究は、OODサンプルを必要としない大規模な設定(例えば ImageNet)に適用可能な、スケーラブルなアンサンブル多様化(SED)の方法を提示します。
代わりにSEDは、ハエのハードトレーニングサンプルを特定し、アンサンブルメンバーにこれらについて意見の一致を奨励する。
スケーリングを改善するために,既存のモデル間での対角不一致を解消する手法において,コストのかかる計算を避ける方法を示す。
$\textbf{Results。
ImageNetでの実験により、多様化のメリットを評価します。
まず,OODの一般化のために,出力空間(古典的)アンサンブルや重量空間アンサンブル(モデルスープ)など,複数の環境での多様化による大きなメリットを観察する。
第二に、OOD検出において、アンサンブル仮説の多様性を、多数のOOD検出基準を超える新しい不確実性スコア推定器に変換する。
コードはここにある。 https://github.com/AlexanderRubinstein/diverse-universe-public。
Training a diverse ensemble of models has several practical applications such as providing candidates for model selection with better out-of-distribution (OOD) generalization, and enabling the detection of OOD samples via Bayesian principles. An existing approach to diverse ensemble training encourages the models to disagree on provided OOD samples. However, the approach is computationally expensive and it requires well-separated ID and OOD examples, such that it has only been demonstrated in small-scale settings. $\textbf{Method.}$ This work presents a method for Scalable Ensemble Diversification (SED) applicable to large-scale settings (e.g. ImageNet) that does not require OOD samples. Instead, SED identifies hard training samples on the fly and encourages the ensemble members to disagree on these. To improve scaling, we show how to avoid the expensive computations in existing methods of exhaustive pairwise disagreements across models. $\textbf{Results.}$ We evaluate the benefits of diversification with experiments on ImageNet. First, for OOD generalization, we observe large benefits from the diversification in multiple settings including output-space (classical) ensembles and weight-space ensembles (model soups). Second, for OOD detection, we turn the diversity of ensemble hypotheses into a novel uncertainty score estimator that surpasses a large number of OOD detection baselines. Code is available here: https://github.com/AlexanderRubinstein/diverse-universe-public. | 翻訳日:2024-09-27 04:30:14 公開日:2024-09-25 |
# 2024年のインド夏モンスーンの降水量、予想上回る
Large Language Model Predicts Above Normal All India Summer Monsoon Rainfall in 2024 ( http://arxiv.org/abs/2409.16799v1 ) ライセンス: Link先を確認 | Ujjawal Sharma, Madhav Biyani, Akhil Dev Suresh, Debi Prasad Bhuyan, Saroj Kanta Mishra, Tanmoy Chakraborty, | (参考訳) 全インド夏モンスーン降雨(AISMR)の信頼性の高い予測は、インドにとって重要な政策決定であり、数十億人の人々の生活に影響を及ぼす。
AISMRの正確なシミュレーションは、様々なミューティスケール要因の複雑な相互作用とモンスーン系固有の変動性のために、永続的な課題となっている。
本研究は,最新のLCMモデルであるPatchTSTの適応と微調整に着目し,AISMRを3ヶ月のリードタイムで正確に予測する。
微調整されたPatchTSTモデルは、歴史的AISMRデータ、Ni\~no3.4インデックス、カテゴリー的インド洋双極子値で訓練され、いくつかの人気のあるニューラルネットワークモデルと統計モデルを上回っている。
この微調整LDMモデルでは, RMSE比0.07%, スピアマン相関0.976。
これは特に印象的であり、最もパフォーマンスの良いNNモデルよりも80%近く正確である。
2024年6月から9月にかけての降水量は921.6mmと推定される。
Reliable prediction of the All India Summer Monsoon Rainfall (AISMR) is pivotal for informed policymaking for the country, impacting the lives of billions of people. However, accurate simulation of AISMR has been a persistent challenge due to the complex interplay of various muti-scale factors and the inherent variability of the monsoon system. This research focuses on adapting and fine-tuning the latest LLM model, PatchTST, to accurately predict AISMR with a lead time of three months. The fine-tuned PatchTST model, trained with historical AISMR data, the Ni\~no3.4 index, and categorical Indian Ocean Dipole values, outperforms several popular neural network models and statistical models. This fine-tuned LLM model exhibits an exceptionally low RMSE percentage of 0.07% and a Spearman correlation of 0.976. This is particularly impressive, since it is nearly 80% more accurate than the best-performing NN models. The model predicts an above-normal monsoon for the year 2024, with an accumulated rainfall of 921.6 mm in the month of June-September for the entire country. | 翻訳日:2024-09-27 04:30:14 公開日:2024-09-25 |
# 大腸内視鏡における深部像とトポロジカル前駆体を利用したトポロジカルSLAM
Topological SLAM in colonoscopies leveraging deep features and topological priors ( http://arxiv.org/abs/2409.16806v1 ) ライセンス: Link先を確認 | Javier Morlana, Juan D. Tardós, José M. M. Montiel, | (参考訳) 従来のマルチマップメトリックSLAMと深い特徴とトポロジカル事前を組み合わせて、大腸全体のトポロジカルマップを作成するシステムであるColonSLAMを紹介する。
SLAMパイプライン自体は、結腸の短いビデオ部分から位置を表す分離された個々のメートル法サブマップを作成することができるが、医療領域におけるSIFTディスクリプタの変形と限られた性能のために、可視のサブマップをマージすることはできない。
ColonSLAMは、トポロジカルな先駆者によってガイドされ、2つの画像が同じ場所から来たかどうかを識別するために訓練されたディープ・ローカライゼーション・ネットワークと、探索中に極時間サブマップを関連付けることができるトランスフォーマーベースのマッチング・ネットワークのソフト・検証を組み合わせる。
提案手法をエンドマップデータセットで実証し,実際の人間の探索における大腸全体の地図作成の可能性を示した。
コードとモデルは、https://github.com/endomapper/ColonSLAM.comで入手できる。
We introduce ColonSLAM, a system that combines classical multiple-map metric SLAM with deep features and topological priors to create topological maps of the whole colon. The SLAM pipeline by itself is able to create disconnected individual metric submaps representing locations from short video subsections of the colon, but is not able to merge covisible submaps due to deformations and the limited performance of the SIFT descriptor in the medical domain. ColonSLAM is guided by topological priors and combines a deep localization network trained to distinguish if two images come from the same place or not and the soft verification of a transformer-based matching network, being able to relate far-in-time submaps during an exploration, grouping them in nodes imaging the same colon place, building more complex maps than any other approach in the literature. We demonstrate our approach in the Endomapper dataset, showing its potential for producing maps of the whole colon in real human explorations. Code and models are available at: https://github.com/endomapper/ColonSLAM. | 翻訳日:2024-09-27 04:30:14 公開日:2024-09-25 |
# 少人数の偽善者:オンライン気候変動に関する議論における偽善行為の検出のための少しの学習とサブタイプ定義
A Few Hypocrites: Few-Shot Learning and Subtype Definitions for Detecting Hypocrisy Accusations in Online Climate Change Debates ( http://arxiv.org/abs/2409.16807v1 ) ライセンス: Link先を確認 | Paulina Garcia Corral, Avishai Green, Hendrik Meyer, Anke Stoll, Xiaoyue Yan, Myrthe Reuver, | (参考訳) 気候危機はオンライン議論において健全な問題であり、偽善的な告発はこれらの議論の中心的なレトリック要素である。
しかし、大規模なテキスト分析では、偽犯罪の告発検出は未調査のツールであり、たいていの場合、誤った議論検出の小さなサブタスクとして定義される。
本稿では,偽犯罪の告発検出をNLPにおける独立したタスクと定義し,偽犯罪の告発の異なるサブタイプを同定する。
Our Climate hypocrisy Accusation Corpus (CHAC) は、Redditの420の気候に関する議論のコメントから成り、専門家によって2つの異なる種類の偽犯罪の告発(個人と政治的偽善)に注釈付けされている。
このデータセットにおける偽善的告発を検出するために、6ショットと3つの命令調整されたLarge Language Model(LLMs)を用いて、数ショットのインコンテキスト学習を評価した。
その結果, GPT-4o と Llama-3 のモデルでは, 偽善的告発(F1 は 0.68 , 以前の研究では 0.44 であった。
しかし、文脈は、偽善的告発のような複雑な意味論的概念にとって重要であり、特に、個人的道徳的偽善よりも政治的偽善的告発を特定するのに、モデルが苦慮している。
本研究は, 偽善検知と気候変動談話に関する新たな知見を提供し, オンライン気候討論における偽善告発の大規模分析の足掛かりとなる。
The climate crisis is a salient issue in online discussions, and hypocrisy accusations are a central rhetorical element in these debates. However, for large-scale text analysis, hypocrisy accusation detection is an understudied tool, most often defined as a smaller subtask of fallacious argument detection. In this paper, we define hypocrisy accusation detection as an independent task in NLP, and identify different relevant subtypes of hypocrisy accusations. Our Climate Hypocrisy Accusation Corpus (CHAC) consists of 420 Reddit climate debate comments, expert-annotated into two different types of hypocrisy accusations: personal versus political hypocrisy. We evaluate few-shot in-context learning with 6 shots and 3 instruction-tuned Large Language Models (LLMs) for detecting hypocrisy accusations in this dataset. Results indicate that the GPT-4o and Llama-3 models in particular show promise in detecting hypocrisy accusations (F1 reaching 0.68, while previous work shows F1 of 0.44). However, context matters for a complex semantic concept such as hypocrisy accusations, and we find models struggle especially at identifying political hypocrisy accusations compared to personal moral hypocrisy. Our study contributes new insights in hypocrisy detection and climate change discourse, and is a stepping stone for large-scale analysis of hypocrisy accusation in online climate debates. | 翻訳日:2024-09-27 04:30:14 公開日:2024-09-25 |
# エッジコンピューティングデバイスを用いた物体検出のためのディープラーニングモデルのベンチマーク
Benchmarking Deep Learning Models for Object Detection on Edge Computing Devices ( http://arxiv.org/abs/2409.16808v1 ) ライセンス: Link先を確認 | Daghash K. Alqahtani, Aamir Cheema, Adel N. Toosi, | (参考訳) 自動運転車のような現代のアプリケーションは、リアルタイムの画像とビデオ処理のためにリソース制約のあるエッジデバイスにディープラーニングアルゴリズムをデプロイする必要がある。
しかし、これらのデバイス上での様々な物体検出モデルの効率と性能については、限定的な理解がなされている。
本稿では, YOLOv8 (Nano, Small, Medium), EfficientDet Lite (Lite0, Lite1, Lite2), SSD (SSD MobileNet V1, SSDLite MobileDet) などの最先端オブジェクト検出モデルを評価する。
これらのモデルをRaspberry Pi 3、4、5、TPUアクセラレーター、Jetson Orin Nanoといった一般的なエッジデバイスにデプロイし、エネルギー消費、推論時間、平均精度(mAP)といった重要なパフォーマンス指標を収集しました。
以上の結果から,SSD MobileNet V1 などの低 mAP モデルの方がエネルギー効率が高く,推論が高速であるのに対し,YOLOv8 Medium のような高 mAP モデルでは,TPU などのアクセラレータが使用される場合を除き,一般的にエネルギーを消費し,推論が遅いことが示唆された。
エッジデバイスの中でも、Jetson Orin Nanoは、アイドルエネルギー消費が最も高いにもかかわらず、リクエストハンドリングの最も高速でエネルギー効率の高い選択肢だ。
これらの結果は、エッジデバイスにディープラーニングモデルをデプロイする際の正確性、速度、エネルギー効率のバランスをとる必要性を強調し、実践者や研究者がアプリケーションのためにモデルとデバイスを選択するための貴重なガイダンスを提供する。
Modern applications, such as autonomous vehicles, require deploying deep learning algorithms on resource-constrained edge devices for real-time image and video processing. However, there is limited understanding of the efficiency and performance of various object detection models on these devices. In this paper, we evaluate state-of-the-art object detection models, including YOLOv8 (Nano, Small, Medium), EfficientDet Lite (Lite0, Lite1, Lite2), and SSD (SSD MobileNet V1, SSDLite MobileDet). We deployed these models on popular edge devices like the Raspberry Pi 3, 4, and 5 with/without TPU accelerators, and Jetson Orin Nano, collecting key performance metrics such as energy consumption, inference time, and Mean Average Precision (mAP). Our findings highlight that lower mAP models such as SSD MobileNet V1 are more energy-efficient and faster in inference, whereas higher mAP models like YOLOv8 Medium generally consume more energy and have slower inference, though with exceptions when accelerators like TPUs are used. Among the edge devices, Jetson Orin Nano stands out as the fastest and most energy-efficient option for request handling, despite having the highest idle energy consumption. These results emphasize the need to balance accuracy, speed, and energy efficiency when deploying deep learning models on edge devices, offering valuable guidance for practitioners and researchers selecting models and devices for their applications. | 翻訳日:2024-09-27 04:30:14 公開日:2024-09-25 |
# Inline Photometricly Calibrated Hybrid Visual SLAM
Inline Photometrically Calibrated Hybrid Visual SLAM ( http://arxiv.org/abs/2409.16810v1 ) ライセンス: Link先を確認 | Nicolas Abboud, Malak Sayour, Imad H. Elhajj, John Zelek, Daniel Asmar, | (参考訳) 本稿では,Hybrid Direct-indirect visual SLAM (H-SLAM) にオンラインシーケンシャルな測光キャリブレーションを組み込んだ Visual SLAM に対する統合的なアプローチを提案する。
光度キャリブレーションは、異なる照明条件下での画素強度値の正規化に役立ち、H-SLAMの直接成分を改善する。
また, H-SLAMの間接成分として, 検出された特徴が変動照明条件でより安定であることから, 具体的な利点が得られた。
提案したH-SLAMは、TUM monoVOや作成したデータセットなど、いくつかのデータセットでテストされている。
校正されたH-SLAMは、すべての実験において、他の最先端、間接的、ハイブリッドなVisual SLAMシステムよりも優れています。
さらに、私たちのサイトでテストされたオンラインSLAMでは、他のSLAMシステムよりも大幅にパフォーマンスが向上しました。
This paper presents an integrated approach to Visual SLAM, merging online sequential photometric calibration within a Hybrid direct-indirect visual SLAM (H-SLAM). Photometric calibration helps normalize pixel intensity values under different lighting conditions, and thereby improves the direct component of our H-SLAM. A tangential benefit also results to the indirect component of H-SLAM given that the detected features are more stable across variable lighting conditions. Our proposed photometrically calibrated H-SLAM is tested on several datasets, including the TUM monoVO as well as on a dataset we created. Calibrated H-SLAM outperforms other state of the art direct, indirect, and hybrid Visual SLAM systems in all the experiments. Furthermore, in online SLAM tested at our site, it also significantly outperformed the other SLAM Systems. | 翻訳日:2024-09-27 04:30:14 公開日:2024-09-25 |
# PeerArg: LLMによる説明的ピアレビュー
PeerArg: Argumentative Peer Review with LLMs ( http://arxiv.org/abs/2409.16813v1 ) ライセンス: Link先を確認 | Purin Sukpanichnant, Anna Rapberger, Francesca Toni, | (参考訳) ピアレビューは、科学会議や雑誌に提出された論文の品質を決定するための重要なプロセスである。
しかし、それは主観的で偏見がちである。
ピアレビューを支援するためにNLPの技法を適用するためにいくつかの研究がなされているが、これらはブラックボックス技術に基づいており、その成果を解釈し、信頼することは困難である。
本稿では,LLMと知識表現の手法を組み合わせたPeerArgシステムを提案する。
PeerArgは、論文のレビューのセットを入力し、論文の受理予測を出力する。
本稿では,3つの異なるデータセット上でのPeerArgパイプラインの性能を評価する。
その結果、エンド-2エンドのLLMは、レビューから論文の受け入れを予測できるが、PeerArgパイプラインの変種は、このLLMよりも優れていたことが示唆された。
Peer review is an essential process to determine the quality of papers submitted to scientific conferences or journals. However, it is subjective and prone to biases. Several studies have been conducted to apply techniques from NLP to support peer review, but they are based on black-box techniques and their outputs are difficult to interpret and trust. In this paper, we propose a novel pipeline to support and understand the reviewing and decision-making processes of peer review: the PeerArg system combining LLMs with methods from knowledge representation. PeerArg takes in input a set of reviews for a paper and outputs the paper acceptance prediction. We evaluate the performance of the PeerArg pipeline on three different datasets, in comparison with a novel end-2-end LLM that uses few-shot learning to predict paper acceptance given reviews. The results indicate that the end-2-end LLM is capable of predicting paper acceptance from reviews, but a variant of the PeerArg pipeline outperforms this LLM. | 翻訳日:2024-09-27 04:30:14 公開日:2024-09-25 |
# 近似カーネルによるマイクロコントローラ上のTinyML推論の高速化
Accelerating TinyML Inference on Microcontrollers through Approximate Kernels ( http://arxiv.org/abs/2409.16815v1 ) ライセンス: Link先を確認 | Giorgos Armeniakos, Georgios Mentzos, Dimitrios Soudris, | (参考訳) マイクロコントローラベースのIoTデバイスの急速な成長は、スマートマニュファクチャリングからパーソナライズされたヘルスケアに至るまで、数多くのアプリケーションを開放した。
エネルギー効率のよいマイクロコントローラユニット(MCU)がTiny Machine Learning(TinyML)ドメインで広く採用されているにもかかわらず、パフォーマンスとメモリ(RAM、Flash)の面で大きな制限に直面している。
本研究では, 近似計算とソフトウェアカーネル設計を組み合わせることで, MCU上での近似CNNモデルの推定を高速化する。
カーネルベースの近似フレームワークはまず、まず各畳み込み層のオペランドを解き、オフラインで計算して各オペランドの重要性を決定する。
その後、設計空間探索により、計算量に基づく計算スキップ近似戦略を採用する。
CIFAR-10データセットでトレーニングされたSTM32-Nucleo基板と2つのCNNを用いて評価したところ、最先端の正確な推測と比較すると、私たちのPareto最適解は、Top-1分類精度を低下させることなく平均21%のレイテンシ削減が可能であり、さらに低い精度要件では、対応する縮小がより顕著になる。
The rapid growth of microcontroller-based IoT devices has opened up numerous applications, from smart manufacturing to personalized healthcare. Despite the widespread adoption of energy-efficient microcontroller units (MCUs) in the Tiny Machine Learning (TinyML) domain, they still face significant limitations in terms of performance and memory (RAM, Flash). In this work, we combine approximate computing and software kernel design to accelerate the inference of approximate CNN models on MCUs. Our kernel-based approximation framework firstly unpacks the operands of each convolution layer and then conducts an offline calculation to determine the significance of each operand. Subsequently, through a design space exploration, it employs a computation skipping approximation strategy based on the calculated significance. Our evaluation on an STM32-Nucleo board and 2 popular CNNs trained on the CIFAR-10 dataset shows that, compared to state-of-the-art exact inference, our Pareto optimal solutions can feature on average 21% latency reduction with no degradation in Top-1 classification accuracy, while for lower accuracy requirements, the corresponding reduction becomes even more pronounced. | 翻訳日:2024-09-27 04:30:14 公開日:2024-09-25 |
# ディープラーニングを用いたカーネルベースの動的モード分解のためのパラメトリックフレームワーク
A parametric framework for kernel-based dynamic mode decomposition using deep learning ( http://arxiv.org/abs/2409.16817v1 ) ライセンス: Link先を確認 | Konstantinos Kevopoulos, Dongwei Ye, | (参考訳) 代理モデリングは計算科学や工学に広く応用され、複雑で大規模な計算モデルのリアルタイムシミュレーションや不確実な定量化や設計最適化といった多段階のシナリオにおいて計算効率の問題を軽減している。
本研究では,線形および非線形な曖昧さ最適化(LANDO)アルゴリズムに基づくカーネルベースの動的モード分解手法のパラメトリックフレームワークを提案する。
提案するパラメトリックフレームワークは,オフラインとオンラインの2つのステージで構成されている。
オフラインステージは、トレーニングデータセットから特定のパラメータを持つシステムのダイナミクスをエミュレートする一連のLANDOモデルである、予測に不可欠なコンポーネントを準備する。
オンラインステージでは、これらのLANDOモデルを活用して、所望のタイミングで新しいデータを生成し、深層学習技術を用いてパラメータと状態のマッピングを近似する。
さらに,高次元力学系に次元還元法を適用し,トレーニングの計算コストを削減した。
Lotka-Volterraモデル、熱方程式、反応拡散方程式を含む3つの数値例を示し、提案手法の有効性と有効性を示した。
Surrogate modelling is widely applied in computational science and engineering to mitigate computational efficiency issues for the real-time simulations of complex and large-scale computational models or for many-query scenarios, such as uncertainty quantification and design optimisation. In this work, we propose a parametric framework for kernel-based dynamic mode decomposition method based on the linear and nonlinear disambiguation optimization (LANDO) algorithm. The proposed parametric framework consists of two stages, offline and online. The offline stage prepares the essential component for prediction, namely a series of LANDO models that emulate the dynamics of the system with particular parameters from a training dataset. The online stage leverages those LANDO models to generate new data at a desired time instant, and approximate the mapping between parameters and the state with the data using deep learning techniques. Moreover, dimensionality reduction technique is applied to high-dimensional dynamical systems to reduce the computational cost of training. Three numerical examples including Lotka-Volterra model, heat equation and reaction-diffusion equation are presented to demonstrate the efficiency and effectiveness of the proposed framework. | 翻訳日:2024-09-27 04:30:14 公開日:2024-09-25 |
# カスタマイズ型マルチモーダル脳MRI生成のための汎用テキスト誘導画像合成に向けて
Towards General Text-guided Image Synthesis for Customized Multimodal Brain MRI Generation ( http://arxiv.org/abs/2409.16818v1 ) ライセンス: Link先を確認 | Yulin Wang, Honglin Xiong, Kaicong Sun, Shuwei Bai, Ling Dai, Zhongxiang Ding, Jiameng Liu, Qian Wang, Qian Liu, Dinggang Shen, | (参考訳) マルチモーダル脳磁気共鳴(MR)イメージングは神経科学や神経学において不可欠である。
しかし、MRIスキャナーのアクセシビリティと長い取得時間のため、マルチモーダルMR画像は一般的には利用できない。
現在のMR画像合成アプローチは、通常、特定のタスクのための独立したデータセットでトレーニングされ、新しいデータセットやタスクに適用した場合、最適以下のパフォーマンスをもたらす。
本稿では,テキストプロンプトでガイドされる日常的に取得されたスキャンから,要求された画像メタデータを用いて柔軟に脳MR画像を生成することができる,テキスト誘導ユニバーサルMR画像合成ジェネリストモデルTUMSynを提案する。
TUMSynの画像合成精度、汎用性、一般化性を確保するため、まず13中心から7つのMRIモダリティを持つ31,407個の3D画像からなる脳MRデータベースを構築した。
次に、コントラスト学習を用いて、MRI固有のテキストエンコーダを事前訓練し、テキストプロンプトに基づくMR画像合成を効果的に制御する。
多様なデータセットと医師の評価に関する広範な実験により、TUMSynは、監督およびゼロショットのシナリオで特定の画像メタデータを持つ臨床的に有意義なMR画像を生成することができることが示された。
したがって、TUMSynは取得したMRスキャンと共に利用でき、MRIによる大規模なスクリーニングと脳疾患の診断が容易になる。
Multimodal brain magnetic resonance (MR) imaging is indispensable in neuroscience and neurology. However, due to the accessibility of MRI scanners and their lengthy acquisition time, multimodal MR images are not commonly available. Current MR image synthesis approaches are typically trained on independent datasets for specific tasks, leading to suboptimal performance when applied to novel datasets and tasks. Here, we present TUMSyn, a Text-guided Universal MR image Synthesis generalist model, which can flexibly generate brain MR images with demanded imaging metadata from routinely acquired scans guided by text prompts. To ensure TUMSyn's image synthesis precision, versatility, and generalizability, we first construct a brain MR database comprising 31,407 3D images with 7 MRI modalities from 13 centers. We then pre-train an MRI-specific text encoder using contrastive learning to effectively control MR image synthesis based on text prompts. Extensive experiments on diverse datasets and physician assessments indicate that TUMSyn can generate clinically meaningful MR images with specified imaging metadata in supervised and zero-shot scenarios. Therefore, TUMSyn can be utilized along with acquired MR scan(s) to facilitate large-scale MRI-based screening and diagnosis of brain diseases. | 翻訳日:2024-09-27 04:05:48 公開日:2024-09-25 |
# CodeInsight: スタックオーバーフローによる実用的なコーディングソリューションのキュレートされたデータセット
CodeInsight: A Curated Dataset of Practical Coding Solutions from Stack Overflow ( http://arxiv.org/abs/2409.16819v1 ) ライセンス: Link先を確認 | Nathanaël Beau, Benoît Crabbé, | (参考訳) 共通タスクで開発者を支援することを目的とした、コード生成に適した新しいデータセットを紹介します。
私たちのデータセットでは、明確化インテント、コードスニペットの関連、関連する3つのユニットテストの平均といった例を提供しています。
Stack Overflowから派生したPythonコードで70以上の標準ライブラリとともに、 \texttt{Pandas}、 \texttt{Numpy}、 \texttt{Regex}のようなライブラリを含む。
Pythonの専門家が作成した3,409の例を補完する私たちのデータセットは、モデル微調整とスタンドアロン評価の両方のために設計されています。
単体テストの評価を完了させるために、よりきめ細かい分析をするために例を分類し、特定のコーディングタスクにおけるモデルの長所と短所の理解を深める。
これはMistral 7B、CodeLLaMa 13B、Starcoder 15Bの3つの主要なモデルのパフォーマンスによって確認されたプロセスである。
さらに,データ汚染試験GPT-4の性能について検討した。
ベンチマークは \url{https://github.com/NathanaelBeau/CodeInsight} でアクセスすることができる。
We introduce a novel dataset tailored for code generation, aimed at aiding developers in common tasks. Our dataset provides examples that include a clarified intent, code snippets associated, and an average of three related unit tests. It encompasses a range of libraries such as \texttt{Pandas}, \texttt{Numpy}, and \texttt{Regex}, along with more than 70 standard libraries in Python code derived from Stack Overflow. Comprising 3,409 crafted examples by Python experts, our dataset is designed for both model finetuning and standalone evaluation. To complete unit tests evaluation, we categorize examples in order to get more fine grained analysis, enhancing the understanding of models' strengths and weaknesses in specific coding tasks. The examples have been refined to reduce data contamination, a process confirmed by the performance of three leading models: Mistral 7B, CodeLLaMa 13B, and Starcoder 15B. We further investigate data-contamination testing GPT-4 performance on a part of our dataset. The benchmark can be accessed at \url{https://github.com/NathanaelBeau/CodeInsight}. | 翻訳日:2024-09-27 04:05:48 公開日:2024-09-25 |
# スポットライト・テキスト・ディテクター(動画あり)
Spotlight Text Detector: Spotlight on Candidate Regions Like a Camera ( http://arxiv.org/abs/2409.16820v1 ) ライセンス: Link先を確認 | Xu Han, Junyu Gao, Chuang Yang, Yuan Yuan, Qi Wang, | (参考訳) 不規則な輪郭表現は、シーンテキストの検出において難しい課題の1つである。
セグメンテーションに基づく手法は、フレキシブルピクセル予測の助けを借りて大きな進歩を遂げているが、地理的に閉じたテキストの重複は、それらを別々に検出することを妨げている。
この問題を軽減するために、縮小ベースのいくつかのメソッドはテキストカーネルを予測し、テキストを再構成するように拡張する。
しかし、テキストカーネルは、不完全なセマンティックな特徴を持つ人工的なオブジェクトであり、誤った検出や発見の欠如がちである。
また、一般的な物体と異なり、シーンテキストの幾何学的特徴(アスペクト比、スケール、形状)は著しく異なっており、正確な検出が困難である。
上記の問題を考慮し,スポットライト校正モジュール (SCM) と多変量情報抽出モジュール (MIEM) からなる有効スポットライトテキスト検出器 (STD) を提案する。
前者は、カメラがターゲットに集中するように、候補カーネルに努力を集中する。
マッピングフィルタを用いて候補特徴を取得し、それらを正確に校正し、偽陽性サンプルを除去する。
後者は異なる形状のスキームを設計し、シーンテキストの複数の幾何学的特徴を探索する。
様々な空間的関係を抽出し、モデルがカーネル領域を認識する能力を改善するのに役立つ。
アブレーション研究は、設計されたSCMとMIEMの有効性を証明している。
我々のSTDは、ICDAR2015、CTW1500、MSRA-TD500、Total-Textなど、様々なデータセット上の既存の最先端手法よりも優れていることが実証された。
The irregular contour representation is one of the tough challenges in scene text detection. Although segmentation-based methods have achieved significant progress with the help of flexible pixel prediction, the overlap of geographically close texts hinders detecting them separately. To alleviate this problem, some shrink-based methods predict text kernels and expand them to restructure texts. However, the text kernel is an artificial object with incomplete semantic features that are prone to incorrect or missing detection. In addition, different from the general objects, the geometry features (aspect ratio, scale, and shape) of scene texts vary significantly, which makes it difficult to detect them accurately. To consider the above problems, we propose an effective spotlight text detector (STD), which consists of a spotlight calibration module (SCM) and a multivariate information extraction module (MIEM). The former concentrates efforts on the candidate kernel, like a camera focus on the target. It obtains candidate features through a mapping filter and calibrates them precisely to eliminate some false positive samples. The latter designs different shape schemes to explore multiple geometric features for scene texts. It helps extract various spatial relationships to improve the model's ability to recognize kernel regions. Ablation studies prove the effectiveness of the designed SCM and MIEM. Extensive experiments verify that our STD is superior to existing state-of-the-art methods on various datasets, including ICDAR2015, CTW1500, MSRA-TD500, and Total-Text. | 翻訳日:2024-09-27 04:05:48 公開日:2024-09-25 |
# 不均衡データセットに対するXAI誘導絶縁体異常検出
XAI-guided Insulator Anomaly Detection for Imbalanced Datasets ( http://arxiv.org/abs/2409.16821v1 ) ライセンス: Link先を確認 | Maximilian Andreas Hoefler, Karsten Mueller, Wojciech Samek, | (参考訳) 電力網は多くの産業において重要な要素であり、産業プロセスや技術にシームレスに電気を供給し、安全で信頼性の高い運用が不可欠である。
しかし、厳しい地形や厳しい気候条件のために電力線を検査することは困難である。
そのため、無人航空機は電力線を検査するためにますます配備され、高速で正確な処理を必要とする視覚データの流れがかなりのものとなる。
ディープラーニング手法はこのタスクで広く普及し、障害検出において貴重な資産であることが証明されている。
特に、絶縁体欠陥の検出は電力線故障の予測に不可欠である。
したがって、絶縁体コンポーネントを継続的に保守し、厳密に検査することは大きな関心事である。
本研究では,この課題に対処するための新しいパイプラインを提案する。
我々は、最先端の物体検出を用いて、個々の絶縁体異常を検出し、その後分類する。
提案手法は,異常絶縁体の分類精度を高めることにより,モデルの分類焦点を変更することができる微調整手法により,不均衡画像や動色画像などのデータセットに対処する。
また,解析可能なAIツールを用いて,異常の正確な位置推定と説明を行う。
提案手法は異常検出の分野,特に視覚に基づく産業検査と予測保守に寄与する。
我々は,欠陥検出精度を最大13%向上させるとともに,モデルミス分類と局所化品質の詳細な解析を行い,実世界のデータに対する本手法の可能性を示した。
Power grids serve as a vital component in numerous industries, seamlessly delivering electrical energy to industrial processes and technologies, making their safe and reliable operation indispensable. However, powerlines can be hard to inspect due to difficult terrain or harsh climatic conditions. Therefore, unmanned aerial vehicles are increasingly deployed to inspect powerlines, resulting in a substantial stream of visual data which requires swift and accurate processing. Deep learning methods have become widely popular for this task, proving to be a valuable asset in fault detection. In particular, the detection of insulator defects is crucial for predicting powerline failures, since their malfunction can lead to transmission disruptions. It is therefore of great interest to continuously maintain and rigorously inspect insulator components. In this work we propose a novel pipeline to tackle this task. We utilize state-of-the-art object detection to detect and subsequently classify individual insulator anomalies. Our approach addresses dataset challenges such as imbalance and motion-blurred images through a fine-tuning methodology which allows us to alter the classification focus of the model by increasing the classification accuracy of anomalous insulators. In addition, we employ explainable-AI tools for precise localization and explanation of anomalies. This proposed method contributes to the field of anomaly detection, particularly vision-based industrial inspection and predictive maintenance. We significantly improve defect detection accuracy by up to 13%, while also offering a detailed analysis of model mis-classifications and localization quality, showcasing the potential of our method on real-world data. | 翻訳日:2024-09-27 04:05:48 公開日:2024-09-25 |
# 部分観測可能性下での深部強化学習のための状態空間層の不確かさ表現
Uncertainty Representations in State-Space Layers for Deep Reinforcement Learning under Partial Observability ( http://arxiv.org/abs/2409.16824v1 ) ライセンス: Link先を確認 | Carlos E. Luis, Alessandro G. Bottero, Julia Vinogradska, Felix Berkenkamp, Jan Peters, | (参考訳) 部分的な可観測性の下での最適決定は、環境の隠れた状態の不確実性について推論する必要がある。
しかし、ほとんどの強化学習アーキテクチャは、リカレントニューラルネットワーク、決定論的状態空間モデル、トランスフォーマーなどの隠された状態表現に不確実性を組み込む内部メカニズムを持たないシーケンスモデルで部分的観測性を扱う。
強化学習のための確率論的世界モデルの発展に触発されて、線形状態空間モデルにおいて閉形式ガウス推論を行い、それをモデルフリーアーキテクチャ内でエンドツーエンドにトレーニングし、リターンを最大化するカルマンフィルタ層を提案する。
効率的な線形リカレント層と同様に、Kalmanフィルタ層は並列スキャンを使用してシーケンシャルデータを処理し、シーケンス長と対数的にスケールする。
設計上は、Kalmanフィルタ層は標準モデルフリーアーキテクチャにおける他の繰り返しレイヤの代替となるが、重要なことは、潜在状態表現の確率的フィルタリングの明確なメカニズムを含むことである。
部分可観測性を持つ様々なタスクの実験では、不確実性推論が意思決定の鍵となる問題においてカルマンフィルタ層が優れていることが示され、他のステートフルモデルよりも優れている。
Optimal decision-making under partial observability requires reasoning about the uncertainty of the environment's hidden state. However, most reinforcement learning architectures handle partial observability with sequence models that have no internal mechanism to incorporate uncertainty in their hidden state representation, such as recurrent neural networks, deterministic state-space models and transformers. Inspired by advances in probabilistic world models for reinforcement learning, we propose a standalone Kalman filter layer that performs closed-form Gaussian inference in linear state-space models and train it end-to-end within a model-free architecture to maximize returns. Similar to efficient linear recurrent layers, the Kalman filter layer processes sequential data using a parallel scan, which scales logarithmically with the sequence length. By design, Kalman filter layers are a drop-in replacement for other recurrent layers in standard model-free architectures, but importantly they include an explicit mechanism for probabilistic filtering of the latent state representation. Experiments in a wide variety of tasks with partial observability show that Kalman filter layers excel in problems where uncertainty reasoning is key for decision-making, outperforming other stateful models. | 翻訳日:2024-09-27 04:05:48 公開日:2024-09-25 |
# 時分割型暗黙のルンゲ・クッタを用いた位相空間流れの学習
PINN
Learning phase-space flows using time-discrete implicit Runge-Kutta PINNs ( http://arxiv.org/abs/2409.16826v1 ) ライセンス: Link先を確認 | \'Alvaro Fern\'andez Corral, Nicol\'as Mendoza, Armin Iske, Andrey Yachmenev and Jochen K\"upper | (参考訳) 本稿では,高次暗黙的ルンゲ・クッタ物理情報ニューラルネットワーク(IRK-PINN)方式を用いて,非線形結合微分方程式系の多次元位相空間解を求めるための計算フレームワークを提案する。
J. Comput. Phys. 378, 686 (2019)] は、座標が関数として扱われる文脈にこのスキームを適応させる。
この修正により、外部場における粒子の運動方程式を効率的に解くことができる。
我々のスキームは特に時間に依存しない周期場に有用である。
本研究では, 周期電場における帯電粒子と中心力場に配置された質量粒子の運動方程式の解法について述べる。
We present a computational framework for obtaining multidimensional phase-space solutions of systems of non-linear coupled differential equations, using high-order implicit Runge-Kutta Physics- Informed Neural Networks (IRK-PINNs) schemes. Building upon foundational work originally solving differential equations for fields depending on coordinates [J. Comput. Phys. 378, 686 (2019)], we adapt the scheme to a context where the coordinates are treated as functions. This modification enables us to efficiently solve equations of motion for a particle in an external field. Our scheme is particularly useful for explicitly time-independent and periodic fields. We apply this approach to successfully solve the equations of motion for a mass particle placed in a central force field and a charged particle in a periodic electric field. | 翻訳日:2024-09-27 04:05:48 公開日:2024-09-25 |
# 任意形テキスト検出のための焦点エンティアリティと知覚環境
Focus Entirety and Perceive Environment for Arbitrary-Shaped Text Detection ( http://arxiv.org/abs/2409.16827v1 ) ライセンス: Link先を確認 | Xu Han, Junyu Gao, Chuang Yang, Yuan Yuan, Qi Wang, | (参考訳) フォント,色,形状,サイズなどの面におけるシーンテキストの多様性のため,テキストの正確かつ効率的な検出は依然として困難な課題である。
様々な検出手法の中で、セグメンテーションに基づくアプローチは、フレキシブルピクセルレベルの予測のために顕著な候補として現れている。
しかし、これらの手法は一般的にボトムアップ方式でテキストインスタンスをモデル化し、ノイズの影響を受けやすい。
さらに、画素間相互作用を導入することなく画素の予測を分離し、検出性能にも影響を及ぼす。
これらの問題を緩和するために、フォーカス全体モジュール(FEM)と知覚環境モジュール(PEM)からなる多情報レベルの任意形テキスト検出器を提案する。
前者はインスタンスレベルの特徴を抽出し、ノイズの影響を低減するためにテキストをモデル化するトップダウン方式を採用する。
具体的には、一貫性のある全情報を同じインスタンス内のピクセルに割り当てて、その凝集を改善する。
さらに、スケール情報を強調し、モデルが様々なスケールのテキストを効果的に識別できるようにする。
後者は、地域レベルの情報を抽出し、環境情報を知覚する画素近傍の正のサンプルの分布に焦点を合わせる。
カーネルピクセルを正のサンプルとして扱い、モデルがテキストとカーネルの特徴を区別するのに役立つ。
大規模な実験では、異なるスケールのテキストを扱う際に、FEMがモデルを効率的にサポートし、PEMがピクセルのビジニティに焦点をあてることで、ピクセルをより正確に知覚できることを示す。
比較では、提案されたモデルは、4つの公開データセットにおける既存の最先端アプローチよりも優れていることを示している。
Due to the diversity of scene text in aspects such as font, color, shape, and size, accurately and efficiently detecting text is still a formidable challenge. Among the various detection approaches, segmentation-based approaches have emerged as prominent contenders owing to their flexible pixel-level predictions. However, these methods typically model text instances in a bottom-up manner, which is highly susceptible to noise. In addition, the prediction of pixels is isolated without introducing pixel-feature interaction, which also influences the detection performance. To alleviate these problems, we propose a multi-information level arbitrary-shaped text detector consisting of a focus entirety module (FEM) and a perceive environment module (PEM). The former extracts instance-level features and adopts a top-down scheme to model texts to reduce the influence of noises. Specifically, it assigns consistent entirety information to pixels within the same instance to improve their cohesion. In addition, it emphasizes the scale information, enabling the model to distinguish varying scale texts effectively. The latter extracts region-level information and encourages the model to focus on the distribution of positive samples in the vicinity of a pixel, which perceives environment information. It treats the kernel pixels as positive samples and helps the model differentiate text and kernel features. Extensive experiments demonstrate the FEM's ability to efficiently support the model in handling different scale texts and confirm the PEM can assist in perceiving pixels more accurately by focusing on pixel vicinities. Comparisons show the proposed model outperforms existing state-of-the-art approaches on four public datasets. | 翻訳日:2024-09-27 04:05:48 公開日:2024-09-25 |
# 近代的な力制御型ロボット作業における人工知能手法の役割
On the role of Artificial Intelligence methods in modern force-controlled manufacturing robotic tasks ( http://arxiv.org/abs/2409.16828v1 ) ライセンス: Link先を確認 | Vincenzo Petrone, Enrico Ferrentino, Pasquale Chiacchio, | (参考訳) 本稿では,産業4.0の基盤となる先進製造業の範囲内での力制御ロボットタスクへの人工知能(AI)の統合について検討する。
第4次産業革命の主要な要因であるロボットマニピュレータの強化におけるAIの役割は、スマートマニュファクチャリングにおいて急速にイノベーションをもたらしている。
この記事の目的は、これらのイノベーションを、例えばデバリング、研磨、ペグ・イン・ホール(PiH)のような組み立てタスクなど、実用的な力制御されたアプリケーションに組み込むことで、高品質な生産標準を維持する必要性を強調します。
最近のAIベースの方法論を報告することによって、この記事ではそれらと対比し、今後の研究で対処すべき課題を特定します。
この分析は、AI技術を検証するための共通のパフォーマンスメトリクスの必要性、パフォーマンス最適化のためのさまざまな拡張の統合、関連するシナリオにおけるそれらの検証の重要性を強調し、将来の研究方向性を視点として結論付けている。
これらの今後の方向性は、すでに採用されているアプローチとの整合性を提供し、製造業標準と互換性を保ち、学術的および工業的両方の文脈におけるAI駆動手法の関連性を高めることを目的としている。
This position paper explores the integration of Artificial Intelligence (AI) into force-controlled robotic tasks within the scope of advanced manufacturing, a cornerstone of Industry 4.0. AI's role in enhancing robotic manipulators - key drivers in the Fourth Industrial Revolution - is rapidly leading to significant innovations in smart manufacturing. The objective of this article is to frame these innovations in practical force-controlled applications - e.g. deburring, polishing, and assembly tasks like peg-in-hole (PiH) - highlighting their necessity for maintaining high-quality production standards. By reporting on recent AI-based methodologies, this article contrasts them and identifies current challenges to be addressed in future research. The analysis concludes with a perspective on future research directions, emphasizing the need for common performance metrics to validate AI techniques, integration of various enhancements for performance optimization, and the importance of validating them in relevant scenarios. These future directions aim to provide consistency with already adopted approaches, so as to be compatible with manufacturing standards, increasing the relevance of AI-driven methods in both academic and industrial contexts. | 翻訳日:2024-09-27 04:05:48 公開日:2024-09-25 |
# 局所整形p値に基づく条件付きテスト
Conditional Testing based on Localized Conformal p-values ( http://arxiv.org/abs/2409.16829v1 ) ライセンス: Link先を確認 | Xiaoyang Wu, Lin Lu, Zhaojun Wang, Changliang Zou, | (参考訳) 本稿では,共形推論フレームワークを用いて条件付きテスト問題に対処する。
我々は、予測区間を反転させて局所化された共形p値を定義し、それらの理論的性質を証明した。
これらの定義されたp-値は、その実用性を説明するためにいくつかの条件付きテスト問題に適用される。
まず,有限サンプル偽発見率(FDR)を制御した条件分布における外れ値に対する条件付き外れ値検出手法を提案する。
また,多変量応答変数のスクリーニングを目的とした新しい条件付きラベルスクリーニング問題を導入し,ファミリーワイドエラー率(FWER)を制御するスクリーニング手順を提案する。
最後に、2サンプル条件分布テストを検討し、局所化されたp-値の集約を通じて重み付きU-統計を定義する。
数値シミュレーションと実データ例により,提案手法の優れた性能が検証された。
In this paper, we address conditional testing problems through the conformal inference framework. We define the localized conformal p-values by inverting prediction intervals and prove their theoretical properties. These defined p-values are then applied to several conditional testing problems to illustrate their practicality. Firstly, we propose a conditional outlier detection procedure to test for outliers in the conditional distribution with finite-sample false discovery rate (FDR) control. We also introduce a novel conditional label screening problem with the goal of screening multivariate response variables and propose a screening procedure to control the family-wise error rate (FWER). Finally, we consider the two-sample conditional distribution test and define a weighted U-statistic through the aggregation of localized p-values. Numerical simulations and real-data examples validate the superior performance of our proposed strategies. | 翻訳日:2024-09-27 04:05:48 公開日:2024-09-25 |
# OffRIPP:オフラインRLベースインフォーマティブパスプランニング
OffRIPP: Offline RL-based Informative Path Planning ( http://arxiv.org/abs/2409.16830v1 ) ライセンス: Link先を確認 | Srikar Babu Gadipudi, Srujan Deolasee, Siva Kailas, Wenhao Luo, Katia Sycara, Woojun Kim, | (参考訳) インフォーマティブ・パス・プランニング(IPP)はロボット工学において重要な課題であり、エージェントはリソース制約に固執しながら、対象環境に関する貴重な情報を収集するために経路を設計しなければならない。
強化学習(RL)はIPPに有効であることが示されているが、実際はリスクが高く高価な環境相互作用が必要である。
この問題に対処するために、トレーニング中のリアルタイムインタラクションを必要とせず、情報ゲインを最適化するオフラインのRLベースのIPPフレームワークを提案する。
我々のフレームワークは、バッチ制約付き強化学習を利用して外挿誤差を軽減し、任意のアルゴリズムで生成された事前コンパイルデータセットからエージェントを学習する。
我々は、広範囲なシミュレーションと実世界の実験を通して、この枠組みを検証する。
その結果,本フレームワークはベースラインよりも優れ,提案手法の有効性が示された。
Informative path planning (IPP) is a crucial task in robotics, where agents must design paths to gather valuable information about a target environment while adhering to resource constraints. Reinforcement learning (RL) has been shown to be effective for IPP, however, it requires environment interactions, which are risky and expensive in practice. To address this problem, we propose an offline RL-based IPP framework that optimizes information gain without requiring real-time interaction during training, offering safety and cost-efficiency by avoiding interaction, as well as superior performance and fast computation during execution -- key advantages of RL. Our framework leverages batch-constrained reinforcement learning to mitigate extrapolation errors, enabling the agent to learn from pre-collected datasets generated by arbitrary algorithms. We validate the framework through extensive simulations and real-world experiments. The numerical results show that our framework outperforms the baselines, demonstrating the effectiveness of the proposed approach. | 翻訳日:2024-09-27 04:05:48 公開日:2024-09-25 |
# Asynchronous Fractional Multi-Agent Deep Reinforcement Learning for Age-Minimal Mobile Edge Computing
Asynchronous Fractional Multi-Agent Deep Reinforcement Learning for Age-Minimal Mobile Edge Computing ( http://arxiv.org/abs/2409.16832v1 ) ライセンス: Link先を確認 | Lyudong Jin, Ming Tang, Jiayu Pan, Meng Zhang, Hao Wang, | (参考訳) サイバー物理システム(CPS)のような新興のリアルタイムネットワークアプリケーションにおいて、Age of Information(AoI)は、タイムラインを評価するための重要な指標として統合されている。
CPS内のインテリジェントな製造などの高い計算要求を満たすため、モバイルエッジコンピューティング(MEC)は、コンピューティングの最適化とAoIの削減に有望なソリューションを提供する。
本研究では,計算集約的な更新のタイムラインを調査し,AoIの最小化のためにタスクの更新とオフロードを共同で最適化する。
具体的には、エッジ負荷のダイナミクスを考慮し、期待時間平均AoIを最小化するためにタスクスケジューリング問題を定式化する。
AoIによって導入された分数目的と、この問題の半マルコフゲームの性質は、既存のアプローチが直接適用されないため、この問題を特に困難にしている。
この目的のために,分数強化学習(RL)のための包括的枠組みを提案する。
まず、分数単エージェントRLフレームワークを導入し、その線形収束を証明した。
次に、収束解析を用いて、これを分数的マルチエージェントRLフレームワークに拡張する。
セミマルコフゲームにおける非同期制御の課題に対処するため、非同期モデルのない分数化マルチエージェントRLアルゴリズムを設計し、各デバイスが他のデバイスのシステムダイナミクスや決定を知らずに、ハイブリッドアクション空間でスケジューリング決定を行う。
実験結果から,提案アルゴリズムは実験における最良ベースラインアルゴリズムと比較して平均AoIを最大52.6%削減することを示した。
In the realm of emerging real-time networked applications like cyber-physical systems (CPS), the Age of Information (AoI) has merged as a pivotal metric for evaluating the timeliness. To meet the high computational demands, such as those in intelligent manufacturing within CPS, mobile edge computing (MEC) presents a promising solution for optimizing computing and reducing AoI. In this work, we study the timeliness of computational-intensive updates and explores jointly optimize the task updating and offloading policies to minimize AoI. Specifically, we consider edge load dynamics and formulate a task scheduling problem to minimize the expected time-average AoI. The fractional objective introduced by AoI and the semi-Markov game nature of the problem render this challenge particularly difficult, with existing approaches not directly applicable. To this end, we present a comprehensive framework to fractional reinforcement learning (RL). We first introduce a fractional single-agent RL framework and prove its linear convergence. We then extend this to a fractional multi-agent RL framework with a convergence analysis. To tackle the challenge of asynchronous control in semi-Markov game, we further design an asynchronous model-free fractional multi-agent RL algorithm, where each device makes scheduling decisions with the hybrid action space without knowing the system dynamics and decisions of other devices. Experimental results show that our proposed algorithms reduce the average AoI by up to 52.6% compared with the best baseline algorithm in our experiments. | 翻訳日:2024-09-27 04:05:48 公開日:2024-09-25 |
# Demo2Vec: デモグラフィック情報を用いた学習領域
Demo2Vec: Learning Region Embedding with Demographic Information ( http://arxiv.org/abs/2409.16837v1 ) ライセンス: Link先を確認 | Ya Wen, Yulun Zhou, | (参考訳) 収入、教育水準、雇用率などのデモグラフィックデータは、都市部の貴重な情報を含んでいるが、人口統計情報を統合して地域埋め込みを生成する研究はほとんどない。
本研究では, 簡易かつ容易にアクセスできる人口統計データによって, 都市部における最先端領域の埋没の質が向上し, チェックイン予測, 犯罪率予測, 住宅価格予測の3つの共通課題にまたがる予測性能が向上することを示す。
KL偏差に基づく既存のプレトレイン法は、移動情報に偏りがある可能性があり、多視点表現学習においてより適切な損失関数としてJenson-Shannon偏差を用いることを提案する。
ニューヨークとシカゴの双方の実験結果から、モビリティと収入は、既存のモデルよりも最大10.22\%優れた予測性能を提供する、列車前データの組み合わせとして最高のものであることが示されている。
多くの発展途上国では、移動型ビッグデータがアクセスし難いことから、地域間距離+収入は、地域内埋込み事前学習のための単純かつ効果的なデータ組み合わせであると提案する。
Demographic data, such as income, education level, and employment rate, contain valuable information of urban regions, yet few studies have integrated demographic information to generate region embedding. In this study, we show how the simple and easy-to-access demographic data can improve the quality of state-of-the-art region embedding and provide better predictive performances in urban areas across three common urban tasks, namely check-in prediction, crime rate prediction, and house price prediction. We find that existing pre-train methods based on KL divergence are potentially biased towards mobility information and propose to use Jenson-Shannon divergence as a more appropriate loss function for multi-view representation learning. Experimental results from both New York and Chicago show that mobility + income is the best pre-train data combination, providing up to 10.22\% better predictive performances than existing models. Considering that mobility big data can be hardly accessible in many developing cities, we suggest geographic proximity + income to be a simple but effective data combination for region embedding pre-training. | 翻訳日:2024-09-27 04:05:48 公開日:2024-09-25 |
# ニューロインスパイアされたフロントエンドを用いた前皮質視覚の明示的モデリングによるCNNロバストネスの改善
Explicitly Modeling Pre-Cortical Vision with a Neuro-Inspired Front-End Improves CNN Robustness ( http://arxiv.org/abs/2409.16838v1 ) ライセンス: Link先を確認 | Lucas Piper, Arlindo L. Oliveira, Tiago Marques, | (参考訳) 畳み込みニューラルネットワーク(CNN)はクリーンな画像分類に優れていますが、さまざまな共通の汚職による画像の分類に苦慮し、実際の適用範囲を制限しています。
近年の研究では、霊長類一次視覚野(V1)のいくつかの特徴をシミュレートするCNNフロントエンドブロックを組み込むことで、全体のモデル堅牢性を向上させることが示されている。
ここでは、前皮質視覚処理をシミュレートする新しいフロントエンドブロックを組み込んだ、生物学的にインスパイアされた2つのCNNモデルファミリーを導入することにより、このアプローチを拡大する。
新しいフロントエンドと標準のCNNバックエンドを含むハイブリッドアーキテクチャであるRetinaNetは、標準モデルと比較して12.3%のロバスト性向上を示す。
この堅牢性の向上は, クリーンな画像精度の低下を伴い, 異なるバックエンドアーキテクチャに一般化された。
これらの結果から,CNN初期層における初期視覚処理の複数の段階をシミュレートすることで,モデルロバストネスの累積的メリットが得られた。
While convolutional neural networks (CNNs) excel at clean image classification, they struggle to classify images corrupted with different common corruptions, limiting their real-world applicability. Recent work has shown that incorporating a CNN front-end block that simulates some features of the primate primary visual cortex (V1) can improve overall model robustness. Here, we expand on this approach by introducing two novel biologically-inspired CNN model families that incorporate a new front-end block designed to simulate pre-cortical visual processing. RetinaNet, a hybrid architecture containing the novel front-end followed by a standard CNN back-end, shows a relative robustness improvement of 12.3% when compared to the standard model; and EVNet, which further adds a V1 block after the pre-cortical front-end, shows a relative gain of 18.5%. The improvement in robustness was observed for all the different corruption categories, though accompanied by a small decrease in clean image accuracy, and generalized to a different back-end architecture. These findings show that simulating multiple stages of early visual processing in CNN early layers provides cumulative benefits for model robustness. | 翻訳日:2024-09-27 04:05:48 公開日:2024-09-25 |
# 量子ホールレジームにおける2次元Su-Schrieffer-Heegerモデルの輸送特性
Transport properties in a two-dimensional Su-Schrieffer-Heeger model in Quantum Hall Regime ( http://arxiv.org/abs/2409.16839v1 ) ライセンス: Link先を確認 | Aruna Gupta, Shaina Gandhi, Niladri Sarkar, Jayendra N. Bandyopadhyay, | (参考訳) 非平衡グリーン関数形式(NEGF)を用いた量子ホール状態における2次元Su-Schrieffer-Heeger (2D SSH)モデルの輸送特性について検討する。
2次元SSHモデルがチャネルとして機能する装置であるハミルトニアンは、最寄りの強結合モデルを用いて構築される。
外部垂直磁場の効果は、ピエルス置換によって接触に組み込まれる。
磁場の変化により、ギャップ位相から平らなバンド状態への遷移をゼロエネルギーで観測する。
この遷移は、局所密度(LDOS)を計算することによって観測されるバルクまたはエッジにおける高度に局所化された状態の出現によって特徴づけられる。
伝送測定により2方向(x$,$y$)の輸送を解析し,絶縁から金属相への磁場誘起遷移を示す。
系のエネルギースペクトルの研究はランダウ準位の形成を示している。
さらに、非退化および退化ランダウ準位(送信モード)の量子数は、対角線、セル間、セル内ホッピング強度に依存する任意の整数または奇数である。
$y$-directionに沿った輸送特性の解析から、エッジモードが弾道輸送を促進する上で重要な役割を担っていることが分かる。
We investigate the transport properties of a two-dimensional Su-Schrieffer-Heeger (2D SSH) model in the quantum Hall regime using non-equilibrium Green's function formalism (NEGF). The device Hamiltonian, where the 2D SSH model serves as the channel, is constructed using a nearest-neighbor tight-binding model. The effect of an external perpendicular magnetic field is incorporated into the contacts via Peierls substitution. We observe a transition from a gapped phase to a flat band regime at zero energy by varying the magnetic field. This transition is characterized by the emergence of highly localized states in the bulk or edges, which we observe by calculating local density-of-states (LDOS). We analyze transport in the system along two directions ($x$ and $y$) via transmission measurements, indicating a magnetic field-induced transition from insulating to metallic phase. The study of the energy spectrum of the system shows the formation of Landau levels. Moreover, the quantum number of the non-degenerate and degenerate Landau levels (transmission modes) can be any integer or only an odd integer, depending on diagonal, inter-cell, and intra-cell hopping strengths. From the analysis of the transport properties along $y$-direction, we find that edge modes play a crucial role in facilitating ballistic transport. | 翻訳日:2024-09-27 04:05:48 公開日:2024-09-25 |
# 時系列予測のための最適出発点
Optimal starting point for time series forecasting ( http://arxiv.org/abs/2409.16843v1 ) ライセンス: Link先を確認 | Yiming Zhong, Yinuo Ren, Guangyao Cao, Feng Li, Haobo Qi, | (参考訳) 時系列予測の最近の進歩は、主に予測モデル自体の改善に焦点を当てている。
しかし、入力データの長さの管理も予測性能を大幅に向上させることができる。
本稿では,時系列データの固有特性を捉えるために,OSP-TSP(Optimal starting Point Time Series Forecast)と呼ばれる新しい手法を提案する。
XGBoostモデルとLightGBMモデルを利用してシーケンス長を調整することにより、提案手法は時系列の最適開始点(OSP)を決定することができ、予測性能を向上させることができる。
OSP-TSPアプローチのパフォーマンスは、M4データセットや他の実世界のデータセット上で様々な周波数で評価される。
実験の結果,OSP-TSPアプローチに基づく予測は,完全なデータセットを用いた予測よりも一貫して優れていた。
さらに、OSP識別のためのモデルを効果的に訓練するための十分なデータの必要性を認識し、データ不足問題に対処するためのターゲットソリューションをさらに提案する。
Recent advances on time series forecasting mainly focus on improving the forecasting models themselves. However, managing the length of the input data can also significantly enhance prediction performance. In this paper, we introduce a novel approach called Optimal Starting Point Time Series Forecast (OSP-TSP) to capture the intrinsic characteristics of time series data. By adjusting the sequence length via leveraging the XGBoost and LightGBM models, the proposed approach can determine optimal starting point (OSP) of the time series and thus enhance the prediction performances. The performances of the OSP-TSP approach are then evaluated across various frequencies on the M4 dataset and other real-world datasets. Empirical results indicate that predictions based on the OSP-TSP approach consistently outperform those using the complete dataset. Moreover, recognizing the necessity of sufficient data to effectively train models for OSP identification, we further propose targeted solutions to address the issue of data insufficiency. | 翻訳日:2024-09-27 04:05:48 公開日:2024-09-25 |
# IRASNet:ドメイン一般化SAR-ATRのための特徴レベルクラッタ低減の改良
IRASNet: Improved Feature-Level Clutter Reduction for Domain Generalized SAR-ATR ( http://arxiv.org/abs/2409.16845v1 ) ライセンス: Link先を確認 | Oh-Tae Jang, Hae-Kang Song, Min-Jun Kim, Kyung-Hwan Lee, Geon Lee, Sung-Ho Kim, Kyung-Tae Kim, | (参考訳) 近年,コンピュータ支援設計モデルと電磁シミュレーションを用いて,深層学習のための合成開口レーダ(SAR)データを拡張している。
しかし, 合成データを用いた場合, 自動目標認識(ATR)モデルでは, それらのデータに存在する特定の乱れパターンを学習し, 異なる乱れ分布を持つ測定データに適用した場合の性能を損なうため, ドメインシフトに苦慮する。
本研究では, IRASNet と呼ばれるドメイン一般化 SAR-ATR のためのフレームワークを提案する。
まず,特徴マップ上での信号対クラッタ比を最大化するクラッタ低減モジュール(CRM)を提案する。
このモジュールは、目標情報と影情報を保存しながら、特徴レベルでのクラッタの影響を低減し、ATR性能を向上させる。
第二に、逆学習をCRMと統合して、クラッタ還元されたドメイン不変の特徴を抽出する。
この統合は、トレーニング中に測定データを必要とせずに、合成データセットと測定データセットのギャップを埋める。
第3に、マスクグラウンドの真偽エンコーディングを用いた位置監視タスクを実装することにより、ターゲット領域とシャドウ領域の特徴抽出を改善する。
この改善により、モデルがクラスを識別する能力が向上する。
提案するIRASNetは,ターゲット情報とシャドウ情報を利用して,様々なテスト条件において優れた性能を実現するために,最先端の公開SARデータセットを提案する。
IRASNetは、一般化性能を向上するだけでなく、特徴レベルのクラッタ低減を大幅に改善し、レーダ画像パターン認識の分野における重要な進歩となる。
Recently, computer-aided design models and electromagnetic simulations have been used to augment synthetic aperture radar (SAR) data for deep learning. However, an automatic target recognition (ATR) model struggles with domain shift when using synthetic data because the model learns specific clutter patterns present in such data, which disturbs performance when applied to measured data with different clutter distributions. This study proposes a framework particularly designed for domain-generalized SAR-ATR called IRASNet, enabling effective feature-level clutter reduction and domain-invariant feature learning. First, we propose a clutter reduction module (CRM) that maximizes the signal-to-clutter ratio on feature maps. The module reduces the impact of clutter at the feature level while preserving target and shadow information, thereby improving ATR performance. Second, we integrate adversarial learning with CRM to extract clutter-reduced domain-invariant features. The integration bridges the gap between synthetic and measured datasets without requiring measured data during training. Third, we improve feature extraction from target and shadow regions by implementing a positional supervision task using mask ground truth encoding. The improvement enhances the ability of the model to discriminate between classes. Our proposed IRASNet presents new state-of-the-art public SAR datasets utilizing target and shadow information to achieve superior performance across various test conditions. IRASNet not only enhances generalization performance but also significantly improves feature-level clutter reduction, making it a valuable advancement in the field of radar image pattern recognition. | 翻訳日:2024-09-27 03:55:18 公開日:2024-09-25 |
# 認知モデルによるAIベンチマークにおける仮定の抽出
Exposing Assumptions in AI Benchmarks through Cognitive Modelling ( http://arxiv.org/abs/2409.16849v1 ) ライセンス: Link先を確認 | Jonathan H. Rystrøm, Kenneth C. Enevoldsen, | (参考訳) 文化AIベンチマークは、しばしば測定された構成物に関する暗黙の仮定に頼っており、不適切で明確な相互関係を持つ曖昧な定式化に繋がる。
構造方程式モデルとして定式化された明示的認知モデルを用いて,これらの仮定を明らかにする。
言語間のアライメント転送を例として、この手法が重要な研究課題に答え、欠落したデータセットを特定する方法を示す。
このフレームワークは, ベンチマーク構築を理論的に基礎とし, データセット開発を指導し, コンストラクタ測定を改善する。
透明性を受け入れることによって、より厳格で累積的なAI評価科学へと移行し、研究者が評価の基礎を批判的に検証するように挑戦します。
Cultural AI benchmarks often rely on implicit assumptions about measured constructs, leading to vague formulations with poor validity and unclear interrelations. We propose exposing these assumptions using explicit cognitive models formulated as Structural Equation Models. Using cross-lingual alignment transfer as an example, we show how this approach can answer key research questions and identify missing datasets. This framework grounds benchmark construction theoretically and guides dataset development to improve construct measurement. By embracing transparency, we move towards more rigorous, cumulative AI evaluation science, challenging researchers to critically examine their assessment foundations. | 翻訳日:2024-09-27 03:55:18 公開日:2024-09-25 |
# ビジュアルファンデーションモデルとクロスアテンション機構を用いたロバストなシーン変化検出
Robust Scene Change Detection Using Visual Foundation Models and Cross-Attention Mechanisms ( http://arxiv.org/abs/2409.16850v1 ) ライセンス: Link先を確認 | Chun-Jung Lin, Sourav Garg, Tat-Jun Chin, Feras Dayoub, | (参考訳) 本稿では,視覚基礎モデルの頑健な特徴抽出機能であるDINOv2を活用するシーン変化検出手法を提案する。
変化検出タスクのイメージペア間の対応や対応の誤りを効果的に学習するために,提案手法を提案する。
a) 濃厚な基礎特徴の一般性を維持するために背骨の「凍結」
b) 'full-image' のクロスアテンションを使用して、イメージペア間の視点のばらつきに対処する。
我々は,VL-CMU-CDとPSCDの2つのベンチマークデータセットに対するアプローチと,その視点評価バージョンについて検討した。
実験では,F1スコアにおいて,特に画像ペア間の幾何学的変化を伴うシナリオにおいて,顕著な改善が示された。
提案手法は既存の最先端手法よりも優れた一般化能力を示し,光度および幾何学的変動に対する堅牢性を示すとともに,新しい環境に適応するように微調整された場合の全体的な一般化性も向上した。
詳細なアブレーション研究は、アーキテクチャにおける各コンポーネントの貢献をさらに検証します。
ソースコードは受理時に公開されます。
We present a novel method for scene change detection that leverages the robust feature extraction capabilities of a visual foundational model, DINOv2, and integrates full-image cross-attention to address key challenges such as varying lighting, seasonal variations, and viewpoint differences. In order to effectively learn correspondences and mis-correspondences between an image pair for the change detection task, we propose to a) ``freeze'' the backbone in order to retain the generality of dense foundation features, and b) employ ``full-image'' cross-attention to better tackle the viewpoint variations between the image pair. We evaluate our approach on two benchmark datasets, VL-CMU-CD and PSCD, along with their viewpoint-varied versions. Our experiments demonstrate significant improvements in F1-score, particularly in scenarios involving geometric changes between image pairs. The results indicate our method's superior generalization capabilities over existing state-of-the-art approaches, showing robustness against photometric and geometric variations as well as better overall generalization when fine-tuned to adapt to new environments. Detailed ablation studies further validate the contributions of each component in our architecture. Source code will be made publicly available upon acceptance. | 翻訳日:2024-09-27 03:55:18 公開日:2024-09-25 |
# 量的議論を伴う法的調停における紛争解決
Dispute resolution in legal mediation with quantitative argumentation ( http://arxiv.org/abs/2409.16854v1 ) ライセンス: Link先を確認 | Xiao Chi, | (参考訳) 調停はしばしば交渉の延長として扱われ、規範や事実が法的調停において果たすユニークな役割を考慮に入れない。
さらに、変数の変更に対応する引数の許容性を更新するための現在のアプローチは、しばしば新しい引数の導入や既存の引数の削除を必要とします。
本稿では、我々の貢献を2つにまとめる。
まず,当事者の知識と仲介者の知識を統合するQuantitative Argumentation Mediate (Quantitative Argumentation Mediate) フレームワークを導入する。
第2に、目的引数の受け入れ可能性と、その引数に関連付けられた変数に割り当てられた値の関係をモデル化する新しい形式モデルを開発する。
実際の法的調停を,私たちのアプローチを説明する上で,実行中の例として使用しています。
Mediation is often treated as an extension of negotiation, without taking into account the unique role that norms and facts play in legal mediation. Additionally, current approaches for updating argument acceptability in response to changing variables frequently require the introduction of new arguments or the removal of existing ones, which can be inefficient and cumbersome in decision-making processes within legal disputes. In this paper, our contribution is two-fold. First, we introduce a QuAM (Quantitative Argumentation Mediate) framework, which integrates the parties' knowledge and the mediator's knowledge, including facts and legal norms, when determining the acceptability of a mediation goal. Second, we develop a new formalism to model the relationship between the acceptability of a goal argument and the values assigned to a variable associated with the argument. We use a real-world legal mediation as a running example to illustrate our approach. | 翻訳日:2024-09-27 03:55:18 公開日:2024-09-25 |
# 可逆かつ微分可能な手-物体相互作用表現法
A Versatile and Differentiable Hand-Object Interaction Representation ( http://arxiv.org/abs/2409.16855v1 ) ライセンス: Link先を確認 | Théo Morales, Omid Taheri, Gerard Lacey, | (参考訳) 高精度ハンドオブジェクトインタラクション(HOI)の合成は、コンピュータビジョン、拡張現実(AR)、MR(Mixed Reality)の応用において重要である。
近年の進歩にもかかわらず、再建または生成されたHOIの精度は改善の余地がある。
いくつかのテクニックは、明示的な接触からリッチなHOIフィールドに焦点を移すことにより、密度の高い対応の精度を向上した。
それでも、完全な差別化や連続性がなく、特定のタスクに合わせている。
対照的に、我々は、HOIモデリングのための新しく、多目的で、完全に微分可能な分野であるCHOIR(Coarse Hand-Object Interaction Representation)を提示する。
CHOIRは離散符号のない距離を利用して連続的な形状とポーズの符号化を行い、多変量ガウス分布と合わせて、パラメータの少ない密接写像を表現している。
CHOIRの汎用性を実証するために,手-物体間相互作用や対象測地のみに基づくグリップ分布を学習する拡散モデルであるJointDiffusionを,洗練と合成の両面から設計する。
いずれのアプリケーションにおいても、JointDiffusionによるSOTAに対する改善が示されており、F1との接触スコアを5\%の値で向上させ、シミュレートを減少させる。
合成で46 % の変位。
実験の結果,CHOIRとの結合拡散は,特定のタスクに設計したSOTA法と比較して,接触精度と物理リアリズムに優れていた。
私たちのモデルとコードは、リサーチコミュニティで公開されます。
Synthesizing accurate hands-object interactions (HOI) is critical for applications in Computer Vision, Augmented Reality (AR), and Mixed Reality (MR). Despite recent advances, the accuracy of reconstructed or generated HOI leaves room for refinement. Some techniques have improved the accuracy of dense correspondences by shifting focus from generating explicit contacts to using rich HOI fields. Still, they lack full differentiability or continuity and are tailored to specific tasks. In contrast, we present a Coarse Hand-Object Interaction Representation (CHOIR), a novel, versatile and fully differentiable field for HOI modelling. CHOIR leverages discrete unsigned distances for continuous shape and pose encoding, alongside multivariate Gaussian distributions to represent dense contact maps with few parameters. To demonstrate the versatility of CHOIR we design JointDiffusion, a diffusion model to learn a grasp distribution conditioned on noisy hand-object interactions or only object geometries, for both refinement and synthesis applications. We demonstrate JointDiffusion's improvements over the SOTA in both applications: it increases the contact F1 score by $5\%$ for refinement and decreases the sim. displacement by $46\%$ for synthesis. Our experiments show that JointDiffusion with CHOIR yield superior contact accuracy and physical realism compared to SOTA methods designed for specific tasks. Our models and code will be publicly available to the research community. | 翻訳日:2024-09-27 03:55:18 公開日:2024-09-25 |
# 中性原子量子コンピューティングにおける原子検出アルゴリズムの比較
Comparison of Atom Detection Algorithms for Neutral Atom Quantum Computing ( http://arxiv.org/abs/2409.16856v1 ) ライセンス: Link先を確認 | Jonas Winklmann, Andrea Alberti, Martin Schulz, | (参考訳) 中性原子量子コンピュータでは、原子量子ビットの読み出しと準備は通常蛍光イメージングと、取得した画像の解析に基づいて行われる。
それぞれの原子サイトについて、明るさまたはそれと同等のメートル法が推定され、原子の存在や欠如を予測するために使用される。
さまざまな設定で、これらの画像を分析するのに多くの異なるアプローチが使われています。
多くの場合、検出アルゴリズムの選択は全く言及されていないか、正当化されていないかのいずれかである。
我々は,複数の異なるアルゴリズムを調査し,その性能を精度と実行時間の両方で比較する。
そのために、私たちは、既知の占有状態を持つ異なる模擬露光時間にまたがる一連の合成画像に頼っている。
シミュレーションを用いることで、原子サイト占有率の基礎的真理が得られ、再構成された特性の正確な誤差率とばらつきを容易に記述できる。
また、より優れたアルゴリズムが存在する可能性を排除するために、完全推定器でさえ性能を上回ることができない上限を確立するために、Cram\'er-Rao境界を計算した。
選択の計量として、特定の原子の部位に寄与できる光電子の個数を用いた。
境界は近隣のサイトの占有に依存しているため、最高のケースと最悪のケース、半分が満たされたケースを提供しています。
我々の比較では、光システムのPSFを用いて各部位の光電子を返却するグローバルな非線形最小二乗解法であるテストアルゴリズムが、露光時間で最悪のケースを平均して最善を尽くしたことを示している。
その主な欠点は計算の複雑さであり、計算に要する時間である。
私たちはこの問題を何とか軽減し、その使用が実現可能であることを示唆しています。
しかし,本研究では,最大速度を必要とする場合においても,単純なアルゴリズムが望ましいことを示す。
In neutral atom quantum computers, readout and preparation of the atomic qubits are usually based on fluorescence imaging and subsequent analysis of the acquired image. For each atom site, the brightness or some comparable metric is estimated and used to predict the presence or absence of an atom. Across different setups, we can see a vast number of different approaches used to analyze these images. Often, the choice of detection algorithm is either not mentioned at all or it is not justified. We investigate several different algorithms and compare their performance in terms of both precision and execution run time. To do so, we rely on a set of synthetic images across different simulated exposure times with known occupancy states. Since the use of simulation provides us with the ground truth of atom site occupancy, we can easily state precise error rates and variances of the reconstructed property. To also rule out the possibility of better algorithms existing, we calculated the Cram\'er-Rao bound in order to establish an upper limit that even a perfect estimator cannot outperform. As the metric of choice, we used the number of photonelectrons that can be contributed to a specific atom site. Since the bound depends on the occupancy of neighboring sites, we provide the best and worst cases, as well as a half filled one. Our comparison shows that of our tested algorithms, a global non-linear least-squares solver that uses the optical system's PSF to return a each sites' number of photoelectrons performed the best, on average crossing the worst-case bound for longer exposure times. Its main drawback is its huge computational complexity and, thus, required calculation time. We manage to somewhat reduce this problem, suggesting that its use may be viable. However, our study also shows that for cases where utmost speed is required, simple algorithms may be preferable. | 翻訳日:2024-09-27 03:55:18 公開日:2024-09-25 |
# 漸進型手法の再検討 -その1:一般化と線形収束率
Revisiting Extragradient-Type Methods -- Part 1: Generalizations and Sublinear Convergence Rates ( http://arxiv.org/abs/2409.16859v1 ) ライセンス: Link先を確認 | Quoc Tran-Dinh, Nghia Nguyen-Trung, | (参考訳) 本稿では、方程式と包摂性の両方を解くためのよく知られた外部段階法(EG法)を包括的に分析する。
まず、線形方程式のEGをより広範なアルゴリズムのクラスに統一し一般化し、様々な既存のスキームと潜在的に新しい変種を包含する。
次に、アルゴリズムのクラス全体のサブ線形 ``best-iterate'' と ``last-iterate'' の収束率を分析し、2つのよく知られたインスタンスに対する新しい収束結果を導出する。
第二に、我々はEGフレームワークを「モノトーン」の包含に拡張し、新しいアルゴリズムのクラスとそれに対応する収束結果を導入する。
第三に、Tseng のフォワード・バック・フォワード・スプリッティング (FBFS) 法をより広範なアルゴリズムに統一して一般化し、弱ミティ解が存在するときの非線形包摂を解き、その 'best-iterate' 収束率を確立する。
第4に,本研究で開発されたEG分析フレームワークを用いて,他の2種類のEGの線形化率について検討した。
最後に,我々の理論的知見を検証するため,広範な数値実験を行った。
その結果,提案アルゴリズムのいくつかの新しい変種は,既存のスキームよりも多くの例で優れていることがわかった。
This paper presents a comprehensive analysis of the well-known extragradient (EG) method for solving both equations and inclusions. First, we unify and generalize EG for [non]linear equations to a wider class of algorithms, encompassing various existing schemes and potentially new variants. Next, we analyze both sublinear ``best-iterate'' and ``last-iterate'' convergence rates for the entire class of algorithms, and derive new convergence results for two well-known instances. Second, we extend our EG framework above to ``monotone'' inclusions, introducing a new class of algorithms and its corresponding convergence results. Third, we also unify and generalize Tseng's forward-backward-forward splitting (FBFS) method to a broader class of algorithms to solve [non]linear inclusions when a weak-Minty solution exists, and establish its ``best-iterate'' convergence rate. Fourth, to complete our picture, we also investigate sublinear rates of two other common variants of EG using our EG analysis framework developed here: the reflected forward-backward splitting and the golden ratio methods. Finally, we conduct an extensive numerical experiment to validate our theoretical findings. Our results demonstrate that several new variants of our proposed algorithms outperform existing schemes in the majority of examples. | 翻訳日:2024-09-27 03:55:18 公開日:2024-09-25 |
# 現代医療における言語モデルの役割 : 包括的考察
The Role of Language Models in Modern Healthcare: A Comprehensive Review ( http://arxiv.org/abs/2409.16860v1 ) ライセンス: Link先を確認 | Amna Khalid, Ayma Khalid, Umar Khalid, | (参考訳) 医療における大規模言語モデル(LLM)の適用は、複雑な医療データを処理し、臨床的意思決定のための洞察を提供することにより、大きな注目を集めている。
これらのモデルは、医学的ドキュメンテーション、診断、患者との相互作用に不可欠である自然言語の理解と生成において、かなりの能力を示してきた。
本稿では、早期から現在に至る言語モデルの軌跡を概観し、医療応用における彼らの強みを強調し、データのプライバシ、バイアス、倫理的考察といった課題について議論する。
医療実践への倫理的かつ効果的な統合を確保するために必要なステップとともに、LLMによる医療提供の促進の可能性を探る。
The application of large language models (LLMs) in healthcare has gained significant attention due to their ability to process complex medical data and provide insights for clinical decision-making. These models have demonstrated substantial capabilities in understanding and generating natural language, which is crucial for medical documentation, diagnostics, and patient interaction. This review examines the trajectory of language models from their early stages to the current state-of-the-art LLMs, highlighting their strengths in healthcare applications and discussing challenges such as data privacy, bias, and ethical considerations. The potential of LLMs to enhance healthcare delivery is explored, alongside the necessary steps to ensure their ethical and effective integration into medical practice. | 翻訳日:2024-09-27 03:55:18 公開日:2024-09-25 |
# マルチパーソン・ヒューマン・ポース評価における(プロクリスト)アライメントの限界と形状推定
Limitations of (Procrustes) Alignment in Assessing Multi-Person Human Pose and Shape Estimation ( http://arxiv.org/abs/2409.16861v1 ) ライセンス: Link先を確認 | Drazic Martin, Pierre Perrault, | (参考訳) ビデオ監視のシナリオにおいて、人間の3Dポーズと形状を正確に推定する上での課題を掘り下げる。
まず,W-MPJPE や W-PVE などの指標がモデル評価を改善するために (プロクリスト) 再編成ステップを省略した上で,RotAvat を導入する。
この技術は,3次元メッシュと地上面とのアライメントを改良することにより,これらの指標を強化することを目的としている。
質的な比較を通じて、既存のアプロッシュの限界に対処するRotAvatの有効性を実証する。
We delve into the challenges of accurately estimating 3D human pose and shape in video surveillance scenarios. Beginning with the advocacy for metrics like W-MPJPE and W-PVE, which omit the (Procrustes) realignment step, to improve model evaluation, we then introduce RotAvat. This technique aims to enhance these metrics by refining the alignment of 3D meshes with the ground plane. Through qualitative comparisons, we demonstrate RotAvat's effectiveness in addressing the limitations of existing aproaches. | 翻訳日:2024-09-27 03:55:18 公開日:2024-09-25 |
# シングルビューポートレイからの統一型3次元毛髪再構築に向けて
Towards Unified 3D Hair Reconstruction from Single-View Portraits ( http://arxiv.org/abs/2409.16863v1 ) ライセンス: Link先を確認 | Yujian Zheng, Yuda Qiu, Leyang Jin, Chongyang Ma, Haibin Huang, Di Zhang, Pengfei Wan, Xiaoguang Han, | (参考訳) 髪型の違いが多種多様であるため, 単視3次元髪型再構築は困難である。
現在の最先端の手法は、非編みの3Dヘアの回復に特化しており、多くの場合、ルールベースかデータベースかにかかわらず、複雑なヘアスタイルの事前を定義することが本質的に困難であるため、失敗事例として編みのスタイルを取り入れている。
そこで本研究では,統一パイプラインによるヘアタイプの一視点3D再構成を実現するための新しい手法を提案する。
そこで我々はまず, 編み型と非編み型の両方で多様な3Dヘアを持つ大規模合成多視点ヘアデータセットSynMvHairを収集し, 髪に特有な2種類の拡散事前学習を行った。
次に、ビューワイドとピクセルワイドのガウス精細化という2つの特別設計モジュールを用いて、先行モデルから3Dガウス系毛髪を最適化する。
本実験は, 単一視点画像からの編み型3Dヘアと非編み型3Dヘアの再構成が可能であることを実証し, 複雑なヘアスタイルの復元における最先端性能を実現する。
合成データから髪先を学習するが,本手法は実画像に対して優れた一般化能力を示すことに留意すべきである。
Single-view 3D hair reconstruction is challenging, due to the wide range of shape variations among diverse hairstyles. Current state-of-the-art methods are specialized in recovering un-braided 3D hairs and often take braided styles as their failure cases, because of the inherent difficulty to define priors for complex hairstyles, whether rule-based or data-based. We propose a novel strategy to enable single-view 3D reconstruction for a variety of hair types via a unified pipeline. To achieve this, we first collect a large-scale synthetic multi-view hair dataset SynMvHair with diverse 3D hair in both braided and un-braided styles, and learn two diffusion priors specialized on hair. Then we optimize 3D Gaussian-based hair from the priors with two specially designed modules, i.e. view-wise and pixel-wise Gaussian refinement. Our experiments demonstrate that reconstructing braided and un-braided 3D hair from single-view images via a unified approach is possible and our method achieves the state-of-the-art performance in recovering complex hairstyles. It is worth to mention that our method shows good generalization ability to real images, although it learns hair priors from synthetic data. | 翻訳日:2024-09-27 03:55:18 公開日:2024-09-25 |
# Linking in Style:ディープラーニングモデルにおける学習機能を理解する
Linking in Style: Understanding learned features in deep learning models ( http://arxiv.org/abs/2409.16865v1 ) ライセンス: Link先を確認 | Maren H. Wehrheim, Pamela Osuna-Vargas, Matthias Kaschube, | (参考訳) 畳み込みニューラルネットワーク(CNN)は、抽象的な特徴を学習してオブジェクト分類を行うが、それらの特徴を理解することは、難しい結果や高い計算コストのために難しいままである。
本稿では,CNNにおける学習特徴を可視化し,体系的に解析する自動手法を提案する。
具体的には、事前学習した分類器の最後尾層を生成モデル(StyleGAN-XL)の潜在空間にマッピングするリンクネットワークを導入し、分類器の表現を解釈可能で人間フレンドリな可視化を可能にする。
この結果から,両空間の連続的な意味順序が示され,それらの間の直線写像が実現された。
リンクネットワークのトレーニングは、計算的に安価であり、GANと分類器の両方のトレーニングから切り離されている。
本稿では,画像領域における分類器のアクティベーション変化を解析することにより,GANに基づく可視化を利用して学習した表現を定量化する自動パイプラインを提案する。
この定量化により、学習した表現を数千の単位で同時に体系的に研究し、特定の意味概念に対して選択された単位を抽出し視覚化することができる。
さらに,本手法を用いて分類器の判断境界の定量化と解釈を行う方法について,実例を用いて述べる。
全体として,本手法はCNNにおける学習された抽象表現の体系的および客観的な視点を提供する。
https://github.com/kaschube-lab/LinkingInStyle.git
Convolutional neural networks (CNNs) learn abstract features to perform object classification, but understanding these features remains challenging due to difficult-to-interpret results or high computational costs. We propose an automatic method to visualize and systematically analyze learned features in CNNs. Specifically, we introduce a linking network that maps the penultimate layer of a pre-trained classifier to the latent space of a generative model (StyleGAN-XL), thereby enabling an interpretable, human-friendly visualization of the classifier's representations. Our findings indicate a congruent semantic order in both spaces, enabling a direct linear mapping between them. Training the linking network is computationally inexpensive and decoupled from training both the GAN and the classifier. We introduce an automatic pipeline that utilizes such GAN-based visualizations to quantify learned representations by analyzing activation changes in the classifier in the image domain. This quantification allows us to systematically study the learned representations in several thousand units simultaneously and to extract and visualize units selective for specific semantic concepts. Further, we illustrate how our method can be used to quantify and interpret the classifier's decision boundary using counterfactual examples. Overall, our method offers systematic and objective perspectives on learned abstract representations in CNNs. https://github.com/kaschube-lab/LinkingInStyle.git | 翻訳日:2024-09-27 03:55:18 公開日:2024-09-25 |
# 遅延フィードバックによるリスク回避学習
Risk-averse learning with delayed feedback ( http://arxiv.org/abs/2409.16866v1 ) ライセンス: Link先を確認 | Siyi Wang, Zifan Wang, Karl Henrik Johansson, Sandra Hirche, | (参考訳) 現実のシナリオでは、意思決定の影響はすぐには現れないかもしれない。
これらの遅延を考慮すると、現実世界の環境におけるリスクの正確な評価と管理が容易になり、戦略の有効性が保証される。
本稿では,リスク評価の条件値(CVaR)をリスク尺度として用いたリスク逆学習について検討する。
そこで我々は,一点最適化と二点ゼロ階最適化を併用した2つのリスク-逆学習アルゴリズムを開発した。
アルゴリズムが達成した後悔は累積遅延と全サンプリング数の観点から分析する。
その結果,2点リスク逆学習は1点アルゴリズムよりも少ない残差を達成できることが示唆された。
さらに、一点リスク回避学習アルゴリズムは、一定の遅延条件下でサブリニア後悔を達成し、二点リスク回避学習アルゴリズムは遅延の最小限の制限でサブリニア後悔を達成できる。
提案アルゴリズムの性能を示すために,動的価格問題に関する数値実験を行った。
In real-world scenarios, the impacts of decisions may not manifest immediately. Taking these delays into account facilitates accurate assessment and management of risk in real-world environments, thereby ensuring the efficacy of strategies. In this paper, we investigate risk-averse learning using Conditional Value at Risk (CVaR) as risk measure, while incorporating delayed feedback with unknown but bounded delays. We develop two risk-averse learning algorithms that rely on one-point and two-point zeroth-order optimization approaches, respectively. The regret achieved by the algorithms is analyzed in terms of the cumulative delay and the number of total samplings. The results suggest that the two-point risk-averse learning achieves a smaller regret bound than the one-point algorithm. Furthermore, the one-point risk-averse learning algorithm attains sublinear regret under certain delay conditions, and the two-point risk-averse learning algorithm achieves sublinear regret with minimal restrictions on the delay. We provide numerical experiments on a dynamic pricing problem to demonstrate the performance of the proposed algorithms. | 翻訳日:2024-09-27 03:55:18 公開日:2024-09-25 |
# 大規模言語モデルを用いたヒューリスティックの多目的進化
Multi-objective Evolution of Heuristic Using Large Language Model ( http://arxiv.org/abs/2409.16867v1 ) ライセンス: Link先を確認 | Shunyu Yao, Fei Liu, Xi Lin, Zhichao Lu, Zhenkun Wang, Qingfu Zhang, | (参考訳) ヒューリスティックスは、様々な探索と最適化の問題に取り組むために一般的に用いられる。
設計ヒューリスティックスは通常、ドメイン知識による退屈な手作業を必要とする。
近年,大規模言語モデル(LLM)を,その強力な言語と符号化能力を活用した自動ヒューリスティック検索に組み入れている。
しかし、既存の研究は、目標問題に対する最適性能を唯一の目的として重視しており、実際重要な効率性やスケーラビリティといった他の基準を無視している。
この課題に対処するため,多目的最適化問題としてヒューリスティック検索をモデル化し,最適性能以外の実践的基準を導入することを提案する。
探索空間の複雑さのため、従来の多目的最適化手法は多目的ヒューリスティック探索を効果的に扱うのに苦労する。
我々は,LLMをゼロショットで統合し,複数の設計基準を満たすために,非支配的なヒューリスティックセットを生成する,最初の多目的ヒューリスティック検索フレームワークであるMulti-Objective Heuristic(MEoH)を提案する。
我々は,検索空間におけるコード差分と目的空間におけるコード差分の両方を組み込んだ,効果的な人口管理と選択のための新しい支配差分機構を設計する。
MEoHは、オンラインバンドル問題(BPP)とトラベリングセールスマン問題(TSP)の2つのよく知られた組合せ最適化問題で実証されている。
結果は、様々なエリートヒューリスティックが1回の実行で自動的に生成され、既存の方法よりも多くのトレードオフオプションが提供されることを示している。
競争力や優れた性能を達成し、効率を最大10倍に向上させる。
さらに,多目的探索はヒューリスティックデザインの新たな洞察を導入し,多様なヒューリスティックの発見につながることも確認した。
Heuristics are commonly used to tackle diverse search and optimization problems. Design heuristics usually require tedious manual crafting with domain knowledge. Recent works have incorporated large language models (LLMs) into automatic heuristic search leveraging their powerful language and coding capacity. However, existing research focuses on the optimal performance on the target problem as the sole objective, neglecting other criteria such as efficiency and scalability, which are vital in practice. To tackle this challenge, we propose to model heuristic search as a multi-objective optimization problem and consider introducing other practical criteria beyond optimal performance. Due to the complexity of the search space, conventional multi-objective optimization methods struggle to effectively handle multi-objective heuristic search. We propose the first LLM-based multi-objective heuristic search framework, Multi-objective Evolution of Heuristic (MEoH), which integrates LLMs in a zero-shot manner to generate a non-dominated set of heuristics to meet multiple design criteria. We design a new dominance-dissimilarity mechanism for effective population management and selection, which incorporates both code dissimilarity in the search space and dominance in the objective space. MEoH is demonstrated in two well-known combinatorial optimization problems: the online Bin Packing Problem (BPP) and the Traveling Salesman Problem (TSP). Results indicate that a variety of elite heuristics are automatically generated in a single run, offering more trade-off options than existing methods. It successfully achieves competitive or superior performance while improving efficiency up to 10 times. Moreover, we also observe that the multi-objective search introduces novel insights into heuristic design and leads to the discovery of diverse heuristics. | 翻訳日:2024-09-27 03:55:18 公開日:2024-09-25 |
# GAM形状プロットの視覚特性の定量化:認知的負荷と解釈可能性の影響
Quantifying Visual Properties of GAM Shape Plots: Impact on Perceived Cognitive Load and Interpretability ( http://arxiv.org/abs/2409.16870v1 ) ライセンス: Link先を確認 | Sven Kruschel, Lasse Bohlen, Julian Rosenberger, Patrick Zschech, Mathias Kraus, | (参考訳) GAM(Generalized Additive Models)は、機械学習のパフォーマンスと解釈可能性のバランスを提供する。
GAMの解釈可能性の側面は、モデルの意思決定プロセスを表す形状プロットを通して表現される。
しかし、これらのプロットの視覚的特性(例えば、局所的な最大値と最小値)は、その複雑さと視聴者に課される認知的負荷に影響を与え、解釈可能性を向上させる。
参加者57名を含む本研究では,GAM形状プロットの視覚特性と認知負荷との関連について検討した。
形状プロットの様々な視覚的特性を定量化し,144個のプロットに基づいて参加者の認知的負荷との整合性を評価する。
以上の結果から, ユーザの評価値の86.4%は, キンクス測定値が最も有効であることが示唆された。
我々は,認知的負荷を予測するための実用的なツールを提供するキンク数に基づくシンプルなモデルを構築し,ユーザに直接関与することなくGAMの解釈可能性の1つの側面を評価する。
Generalized Additive Models (GAMs) offer a balance between performance and interpretability in machine learning. The interpretability aspect of GAMs is expressed through shape plots, representing the model's decision-making process. However, the visual properties of these plots, e.g. number of kinks (number of local maxima and minima), can impact their complexity and the cognitive load imposed on the viewer, compromising interpretability. Our study, including 57 participants, investigates the relationship between the visual properties of GAM shape plots and cognitive load they induce. We quantify various visual properties of shape plots and evaluate their alignment with participants' perceived cognitive load, based on 144 plots. Our results indicate that the number of kinks metric is the most effective, explaining 86.4% of the variance in users' ratings. We develop a simple model based on number of kinks that provides a practical tool for predicting cognitive load, enabling the assessment of one aspect of GAM interpretability without direct user involvement. | 翻訳日:2024-09-27 03:55:18 公開日:2024-09-25 |
# 倫理的かつスケーラブルな自動化 - ビジネスアプリケーションのためのガバナンスとコンプライアンスフレームワーク
Ethical and Scalable Automation: A Governance and Compliance Framework for Business Applications ( http://arxiv.org/abs/2409.16872v1 ) ライセンス: Link先を確認 | Haocheng Lin, | (参考訳) ビジネスにおけるAIの適用の普及は、倫理的原則、ガバナンス、法的コンプライアンスに関連する重要な課題を提起している。
企業はAIを日々のプロセスに組み込んでいるが、潜在的なリスクを軽減するための統一的なアプローチは欠如している。
本稿では、AIが倫理的で、制御可能で、実行可能で、望ましいものであることを保証するフレームワークを紹介する。
これらの要因のバランスをとることで、パフォーマンスと説明可能性のバランスをとるなど、トレードオフに対処するフレームワークの設計が保証されます。
成功したフレームワークは、GPDRやEU AI Actのような標準に準拠することが不可欠である金融や医療などの分野における規制要件を満たすために、ビジネスに実践的なアドバイスを提供する。
異なるケーススタディは、学術と実践の両方の環境でAIを統合することで、このフレームワークを検証する。
例えば、大規模言語モデルは、環境問題に対する態度をエミュレートする合成意見を生成するためのコスト効率の良い代替手段である。
これらのケーススタディは、構造化されたフレームワークが、合成分布と期待分布の整合性から示すように、透明性を高め、パフォーマンスレベルを維持する方法を示している。
このアライメントは、Chi-testスコア、正規化された相互情報、Jaccardインデックスなどのメトリクスを使用して定量化される。
将来的な研究は、様々な産業環境におけるフレームワークの実証的検証をさらに探求し、モデルのスケーラビリティと適応性を確保することである。
The popularisation of applying AI in businesses poses significant challenges relating to ethical principles, governance, and legal compliance. Although businesses have embedded AI into their day-to-day processes, they lack a unified approach for mitigating its potential risks. This paper introduces a framework ensuring that AI must be ethical, controllable, viable, and desirable. Balancing these factors ensures the design of a framework that addresses its trade-offs, such as balancing performance against explainability. A successful framework provides practical advice for businesses to meet regulatory requirements in sectors such as finance and healthcare, where it is critical to comply with standards like GPDR and the EU AI Act. Different case studies validate this framework by integrating AI in both academic and practical environments. For instance, large language models are cost-effective alternatives for generating synthetic opinions that emulate attitudes to environmental issues. These case studies demonstrate how having a structured framework could enhance transparency and maintain performance levels as shown from the alignment between synthetic and expected distributions. This alignment is quantified using metrics like Chi-test scores, normalized mutual information, and Jaccard indexes. Future research should explore the framework's empirical validation in diverse industrial settings further, ensuring the model's scalability and adaptability. | 翻訳日:2024-09-27 03:55:18 公開日:2024-09-25 |
# 学習型動的局所モデルネットワークからのフィードフォワード制御系とエクサベータ支援機能への応用
Feedforward Controllers from Learned Dynamic Local Model Networks with Application to Excavator Assistance Functions ( http://arxiv.org/abs/2409.16875v1 ) ライセンス: Link先を確認 | Leon Greiser, Ozan Demir, Benjamin Hartmann, Henrik Hose, Sebastian Trimpe, | (参考訳) 複雑な第1原理のモデリングとコントローラ合成は、油圧掘削機のようなハイミックスで低体積の製品では、極めて遅くて高価である。
代わりに、データ駆動方式では、実システムから記録された軌跡を用いてローカルモデルネットワーク(LMN)を訓練し、フィードバック線形化によってフィードフォワードコントローラを導出することができる。
しかし、これまでの研究では、フィードバック線形化のためにゼロダイナミクスのないLMNが必要であり、モデル構造を制限し、LMNのキャパシティをモデル化した。
本稿では、ゼロダイナミクスによるLMNのフィードバック線形化が有効なコントローラとなる場合の基準を提供することで、この制限を克服する。
基準として,結果の制御器のバウンド・インプット・バウンド・アウトプット安定性を提案する。
さらに2つのコントリビューションにおいて、計測された外乱信号と複数の入力と出力を考慮するためにこのアプローチを拡張した。
ハードウェア実験による油圧掘削機制御アプリケーションにおける提案手法の有効性について述べる。
この目的のために,掘削機におけるレベル化支援システムの一部として,記録されたノイズの多いデータからLMNを学習し,フィードフォワード制御を導出する。
実験では、外乱信号と複数の入力と出力を組み込むことで、学習した制御器の追跡性能が向上する。
実験のビデオはhttps://youtu.be/lrrWBx2ASaE.comで公開されている。
Complicated first principles modelling and controller synthesis can be prohibitively slow and expensive for high-mix, low-volume products such as hydraulic excavators. Instead, in a data-driven approach, recorded trajectories from the real system can be used to train local model networks (LMNs), for which feedforward controllers are derived via feedback linearization. However, previous works required LMNs without zero dynamics for feedback linearization, which restricts the model structure and thus modelling capacity of LMNs. In this paper, we overcome this restriction by providing a criterion for when feedback linearization of LMNs with zero dynamics yields a valid controller. As a criterion we propose the bounded-input bounded-output stability of the resulting controller. In two additional contributions, we extend this approach to consider measured disturbance signals and multiple inputs and outputs. We illustrate the effectiveness of our contributions in a hydraulic excavator control application with hardware experiments. To this end, we train LMNs from recorded, noisy data and derive feedforward controllers used as part of a leveling assistance system on the excavator. In our experiments, incorporating disturbance signals and multiple inputs and outputs enhances tracking performance of the learned controller. A video of our experiments is available at https://youtu.be/lrrWBx2ASaE. | 翻訳日:2024-09-27 03:45:10 公開日:2024-09-25 |
# AI研究エージェントによる交通モデル強化の自動化
Automating Traffic Model Enhancement with AI Research Agent ( http://arxiv.org/abs/2409.16876v1 ) ライセンス: Link先を確認 | Xusen Guo, Xinxi Yang, Mingxing Peng, Hongliang Lu, Meixin Zhu, Hai Yang, | (参考訳) 効率的な交通モデルの開発は輸送システムの最適化に不可欠であるが、現在のアプローチは手動のプロセスに依存しているため、時間集約的であり、ヒューマンエラーの影響を受けやすいままである。
従来のワークフローには、徹底的な文献レビュー、公式最適化、反復的なテストが含まれており、研究の非効率性につながっている。
これに対し,交通研究エージェント (Traffic Research Agent, TR-Agent) を導入し, 繰り返しクローズドループプロセスを通じて交通モデルを自律的に開発・洗練するAI駆動システムを提案する。
具体的には、研究パイプラインをアイデア生成、理論定式化、理論評価、反復最適化の4つの重要な段階に分割し、4つのモジュール(アイデア生成、コード生成、評価器、分析器)でTR-Agentを構築する。
シナジーで作業することで、これらのモジュールは外部リソースから知識を取得し、新しいアイデアを生成し、モデルを実装し、デバッグし、最終的に評価データセットで評価する。
さらに,反復的フィードバックに基づくモデルの改良,研究効率の向上,モデル性能の向上を連続的に行う。
実験により、TR-Agentは、車追従車用インテリジェントドライバモデル(IDM)、MOBILレーン切替モデル、ライトヒル・ウィッサム・リッズ(LWR)トラヒックフローモデル(LWR)など、複数の交通モデルにおいて、大幅な性能改善を実現していることが示された。
さらに、TR-Agentは最適化の詳細な説明を提供しており、研究者はその改善を検証し、容易に構築することができる。
この柔軟性により、このフレームワークは、輸送およびそれ以上の研究者にとって強力なツールとなる。
研究とコラボレーションをさらに支援するため、我々は実験で使用されるコードとデータの両方をオープンソース化し、幅広いアクセスを容易にし、この分野における継続的な進歩を可能にしました。
Developing efficient traffic models is essential for optimizing transportation systems, yet current approaches remain time-intensive and susceptible to human errors due to their reliance on manual processes. Traditional workflows involve exhaustive literature reviews, formula optimization, and iterative testing, leading to inefficiencies in research. In response, we introduce the Traffic Research Agent (TR-Agent), an AI-driven system designed to autonomously develop and refine traffic models through an iterative, closed-loop process. Specifically, we divide the research pipeline into four key stages: idea generation, theory formulation, theory evaluation, and iterative optimization; and construct TR-Agent with four corresponding modules: Idea Generator, Code Generator, Evaluator, and Analyzer. Working in synergy, these modules retrieve knowledge from external resources, generate novel ideas, implement and debug models, and finally assess them on the evaluation datasets. Furthermore, the system continuously refines these models based on iterative feedback, enhancing research efficiency and model performance. Experimental results demonstrate that TR-Agent achieves significant performance improvements across multiple traffic models, including the Intelligent Driver Model (IDM) for car following, the MOBIL lane-changing model, and the Lighthill-Whitham-Richards (LWR) traffic flow model. Additionally, TR-Agent provides detailed explanations for its optimizations, allowing researchers to verify and build upon its improvements easily. This flexibility makes the framework a powerful tool for researchers in transportation and beyond. To further support research and collaboration, we have open-sourced both the code and data used in our experiments, facilitating broader access and enabling continued advancements in the field. | 翻訳日:2024-09-27 03:45:10 公開日:2024-09-25 |
# 宇宙ミッション計画の見直し:多自由度レンデブーのための強化学習型アプローチ
Revisiting Space Mission Planning: A Reinforcement Learning-Guided Approach for Multi-Debris Rendezvous ( http://arxiv.org/abs/2409.16882v1 ) ライセンス: Link先を確認 | Agni Bandyopadhyay, Guenther Waxenegger-Wilfing, | (参考訳) 本研究は, 深部強化学習(RL)分野におけるPPOアルゴリズムの新たな適用法として, Izzo の個別ランデブーへの適応法である Lambert solver を用いて, 宇宙デブリの最も効率的な順序決定法を提案する。
目的は、与えられたすべての破片を訪問して、ミッション全体のランデブーを最小限に抑えるシーケンスを最適化することである。
ニューラルネットワーク(NN)ポリシーが開発され、さまざまなデブリフィールドを持つシミュレーションされた宇宙ミッションで訓練される。
トレーニング後、ニューラルネットワークは、Izzoのランベルト操作の適応を使って、ほぼ最適な経路を計算する。
ミッションプランニングにおける標準的なヒューリスティックスに対して、パフォーマンスが評価される。
補強学習手法は, ダストレンデブーのシーケンスを最適化し, 約10.96\%, 約13.66\%のミッションタイムを遺伝的アルゴリズムとグレディアルゴリズムと比較することにより, 計画効率を著しく向上させる。
平均的なモデルは、計算速度の速い様々なシミュレーションシナリオにおける破片訪問の最も時間効率のよいシーケンスを同定する。
このアプローチは、宇宙デブリのクリアランスのためのミッション計画戦略を強化するための一歩である。
This research introduces a novel application of a masked Proximal Policy Optimization (PPO) algorithm from the field of deep reinforcement learning (RL), for determining the most efficient sequence of space debris visitation, utilizing the Lambert solver as per Izzo's adaptation for individual rendezvous. The aim is to optimize the sequence in which all the given debris should be visited to get the least total time for rendezvous for the entire mission. A neural network (NN) policy is developed, trained on simulated space missions with varying debris fields. After training, the neural network calculates approximately optimal paths using Izzo's adaptation of Lambert maneuvers. Performance is evaluated against standard heuristics in mission planning. The reinforcement learning approach demonstrates a significant improvement in planning efficiency by optimizing the sequence for debris rendezvous, reducing the total mission time by an average of approximately {10.96\%} and {13.66\%} compared to the Genetic and Greedy algorithms, respectively. The model on average identifies the most time-efficient sequence for debris visitation across various simulated scenarios with the fastest computational speed. This approach signifies a step forward in enhancing mission planning strategies for space debris clearance. | 翻訳日:2024-09-27 03:45:10 公開日:2024-09-25 |
# ロバストハイブリッドフォトニック結晶キャビティの設計と製作
Design and Fabrication of Robust Hybrid Photonic Crystal Cavities ( http://arxiv.org/abs/2409.16883v1 ) ライセンス: Link先を確認 | Alex Abulnaga, Sean Karg, Sounak Mukherjee, Adbhut Gupta, Kirk W. Baldwin, Loren N. Pfeiffer, Nathalie P. de Leon, | (参考訳) 不均一に集積されたハイブリッドフォトニック結晶キャビティは、固体で光学的に対応可能な量子メモリとの強い光-物質相互作用を可能にする。
高品質(Q)ハイブリッドフォトニック結晶を実現するための鍵となる課題は、空気中の懸濁装置と比較して基板上の指数コントラストが減少することである。
この課題は、ダイヤモンドの屈折率が高く、基板への散乱損失が増加するため、ダイヤモンドの色中心では特に深刻である。
本稿では, 基板による損失の詳細な理解を利用したハイブリッドフォトニック結晶の設計手法を開発し, 製造誤差に対する感度を重要なパラメータとする。
この手法を用いて高Q, GaAs-オン-ダイアモンドフォトニック結晶キャビティを設計し, 製造手順を最適化することにより, 955nmの共振波長でQが30,000に近づいた場合のキャビティを実験的に実現した。
Heterogeneously integrated hybrid photonic crystal cavities enable strong light-matter interactions with solid-state, optically addressable quantum memories. A key challenge to realizing high quality factor (Q) hybrid photonic crystals is the reduced index contrast on the substrate compared to suspended devices in air. This challenge is particularly acute for color centers in diamond because of diamond's high refractive index, which leads to increased scattering loss into the substrate. Here we develop a design methodology for hybrid photonic crystals utilizing a detailed understanding of substrate-mediated loss, which incorporates sensitivity to fabrication errors as a critical parameter. Using this methodology we design robust, high-Q, GaAs-on-diamond photonic crystal cavities, and by optimizing our fabrication procedure we experimentally realize cavities with Q approaching 30,000 at a resonance wavelength of 955 nm. | 翻訳日:2024-09-27 03:45:10 公開日:2024-09-25 |
# 人工知能時代における絶滅危惧から再生への転換--ハフラミテキスト分類のためのアンサンブル機械学習アプローチ
Shifting from endangerment to rebirth in the Artificial Intelligence Age: An Ensemble Machine Learning Approach for Hawrami Text Classification ( http://arxiv.org/abs/2409.16884v1 ) ライセンス: Link先を確認 | Aram Khaksar, Hossein Hassani, | (参考訳) クルド語の方言であるハフラミ語は、データの不足と話者の段階的な喪失に苦しむため、絶滅危惧言語に分類される。
自然言語処理プロジェクトは、機械翻訳、言語モデル構築、コーパス開発といった様々なアプローチを通じて、絶滅危惧言語や方言のデータ可用性を部分的に補償するために使用することができる。
同様に、テキスト分類のようなNLPプロジェクトは、言語ドキュメントにある。
クルド語についていくつかのテキスト分類研究が行われてきたが、主にソラニ(中央クルド語)とクルマンジ(北クルド語)の2つの方言に特化していた。
本稿では,2つの母語話者による15のカテゴリーにラベル付けされた6,854項目のデータセットを用いて,さまざまなテキスト分類モデルを提案する。
我々は,K-nearest Neighbor (KNN), Linear Support Vector Machine (Linear SVM), Logistic Regression (LR), Decision Tree (DT) を用いて,これらの手法がどの程度の分類作業を行うかを評価する。
その結果,Linear SVMの精度は96%で,他の手法よりも優れていた。
Hawrami, a dialect of Kurdish, is classified as an endangered language as it suffers from the scarcity of data and the gradual loss of its speakers. Natural Language Processing projects can be used to partially compensate for data availability for endangered languages/dialects through a variety of approaches, such as machine translation, language model building, and corpora development. Similarly, NLP projects such as text classification are in language documentation. Several text classification studies have been conducted for Kurdish, but they were mainly dedicated to two particular dialects: Sorani (Central Kurdish) and Kurmanji (Northern Kurdish). In this paper, we introduce various text classification models using a dataset of 6,854 articles in Hawrami labeled into 15 categories by two native speakers. We use K-nearest Neighbor (KNN), Linear Support Vector Machine (Linear SVM), Logistic Regression (LR), and Decision Tree (DT) to evaluate how well those methods perform the classification task. The results indicate that the Linear SVM achieves a 96% of accuracy and outperforms the other approaches. | 翻訳日:2024-09-27 03:45:10 公開日:2024-09-25 |
# 超伝導集積回路用スケーラブル量子消去器
Scalable quantum eraser for superconducting integrated circuits ( http://arxiv.org/abs/2409.16893v1 ) ライセンス: Link先を確認 | Ciro Micheletti Diniz, Celso J. Villas Bôas, Alan C. Santos, | (参考訳) 超伝導量子プロセッサにおけるマルチキュービットリセットの高速かつスケーラブルな手法として、周波数可変トランスモンキュービットとトランスモンライクなカプラの実現可能性を活用して、完全なプログラム可能な超伝導消去ヘッドを設計することを提案する。
装置のスケーラビリティは2つのキュービットを同時にリセットすることで検証される。
逆に、マルチキュービットチップにおけるデコヒーレンスフリーなサブスペースの出現を記述し、デバイス性能を損なう原因となった。
この問題を解決するために、調整可能な周波数カプラのパラメータセットが提案され、そのような部分空間内の状態も消去できる。
最後に, 消去ヘッドに効率よく接続可能な集積型超伝導プロセッサを, スケーラブルな方法で構築する提案を行った。
A fast and scalable scheme for multi-qubit resetting in superconducting quantum processors is proposed by exploiting the feasibility of frequency-tunable transmon qubits and transmon-like couplers to engineer a full programmable superconducting erasing head. The scalability of the device is verified by simultaneously resetting two qubits, where we show that collectivity effects may emerge as an fundamental ingredient to speed up the erasing process. Conversely, we also describe the appearance of decoherence-free subspace in multi-qubit chips, causing it to damage the device performance. To overcome this problem, a special set of parameters for the tunable frequency coupler is proposed, which allows us to erase even states within such subspace. To end, we offer a proposal to buildup integrated superconducting processors that can be efficiently connected to erasure heads in a scalable way. | 翻訳日:2024-09-27 03:45:10 公開日:2024-09-25 |
# 非安定化エンタングルメントエントロピー:量子多体系の古典的シミュレーションにおける硬さの尺度
Non-stabilizerness Entanglement Entropy: a measure of hardness in the classical simulation of quantum many-body systems ( http://arxiv.org/abs/2409.16895v1 ) ライセンス: Link先を確認 | Jiale Huang, Xiangjian Qian, Mingpu Qin, | (参考訳) 古典状態と量子状態は、量子資源の測度と見なせる絡み合いエントロピーによって区別することができる。
エンタングルメントエントロピーは、量子系をシミュレートする際の計算複雑性を理解する上でも重要な役割を果たしている。
しかし、クリフォードゲートのみによって形成される安定化状態は、大きな絡み合いエントロピーをホストできるが、ゴッテマン・クニルの定理に従って、テーブルーアルゴリズムで効率的にシミュレートすることができる。
本研究では, クリフォード回路からの寄与を排除し, 量子状態における最小残差エントロピーである非安定化性エントロピーの概念を導入する。
量子多体系の古典的なシミュレーションにおいて、新しい実用的でより良い難易度尺度として機能する。
安定化器R'enyi Entropyのような従来提案されていた指標よりも良い基準である理由について議論する。
また, 具体的な量子多体モデルを用いた非安定化エンタングルメントエントロピーの数値結果を示す。
非安定化性絡み合いエントロピーの概念は、量子多体系の古典的なシミュレーションにおいて ``hardness`` の理解を拡大する。
Classical and quantum states can be distinguished by entanglement entropy, which can be viewed as a measure of quantum resources. Entanglement entropy also plays a pivotal role in understanding computational complexity in simulating quantum systems. However, stabilizer states formed solely by Clifford gates can be efficiently simulated with the tableau algorithm according to the Gottesman-Knill theorem, although they can host large entanglement entropy. In this work, we introduce the concept of non-stabilizerness entanglement entropy which is basically the minimum residual entanglement entropy for a quantum state by excluding the contribution from Clifford circuits. It can serve as a new practical and better measure of difficulty in the classical simulation of quantum many-body systems. We discuss why it is a better criterion than previously proposed metrics such as Stabilizer R\'enyi Entropy. We also show numerical results of non-stabilizerness entanglement entropy with concrete quantum many-body models. The concept of non-stabilizerness entanglement entropy expands our understanding of the ``hardness`` in the classical simulation of quantum many-body systems. | 翻訳日:2024-09-27 03:45:10 公開日:2024-09-25 |
# HVT:非ユークリッド空間での学習のための総合視覚フレームワーク
HVT: A Comprehensive Vision Framework for Learning in Non-Euclidean Space ( http://arxiv.org/abs/2409.16897v1 ) ライセンス: Link先を確認 | Jacob Fein-Ashley, Ethan Feng, Minh Pham, | (参考訳) 非ユークリッド空間におけるデータ表現は、実世界のデータセットにおける階層的および複雑な関係を捉えるのに有効であることが証明されている。
特に双曲空間は階層構造に対する効率的な埋め込みを提供する。
本稿では、双曲幾何学を統合した視覚変換器(ViT)の新たな拡張である、双曲型視覚変換器(HVT)を紹介する。
従来のViTはユークリッド空間で作用するが、この手法は双曲的距離と「M\」ビウス変換を活用することにより自己認識機構を強化する。
これにより、画像データの階層的および関係的な依存関係をより効果的にモデリングできる。
厳密な数学的定式化を行い、双曲幾何学を注意層、フィードフォワードネットワーク、最適化に組み込む方法を示す。
ImageNetデータセットを用いた画像分類の性能改善を行った。
Data representation in non-Euclidean spaces has proven effective for capturing hierarchical and complex relationships in real-world datasets. Hyperbolic spaces, in particular, provide efficient embeddings for hierarchical structures. This paper introduces the Hyperbolic Vision Transformer (HVT), a novel extension of the Vision Transformer (ViT) that integrates hyperbolic geometry. While traditional ViTs operate in Euclidean space, our method enhances the self-attention mechanism by leveraging hyperbolic distance and M\"obius transformations. This enables more effective modeling of hierarchical and relational dependencies in image data. We present rigorous mathematical formulations, showing how hyperbolic geometry can be incorporated into attention layers, feed-forward networks, and optimization. We offer improved performance for image classification using the ImageNet dataset. | 翻訳日:2024-09-27 03:45:10 公開日:2024-09-25 |
# 心内エコー画像におけるAI駆動型ビュー誘導システム
AI-driven View Guidance System in Intra-cardiac Echocardiography Imaging ( http://arxiv.org/abs/2409.16898v1 ) ライセンス: Link先を確認 | Jaeyoung Huh, Paul Klein, Gareth Funka-Lea, Puneet Sharma, Ankur Kapoor, Young-Ho Kim, | (参考訳) 心内エコー法(Intra-cardiac Echocardiography, ICE)は、電気生理学(EP)と構造心疾患(SHD)の介入において重要な画像モダリティであり、心臓内からのリアルタイムで高解像度な視認を提供する。
その利点にもかかわらず、ICEカテーテルを効果的に操作するにはかなりの専門知識が必要であり、特に経験の浅い操作者の間では矛盾した結果をもたらす可能性がある。
この課題に対処するため,我々は,AI駆動のクローズドループビュー誘導システムを提案し,特殊な知識を必要とせず,ICE画像のナビゲートを支援する。
本手法は、任意の視点と空間座標系における臨床的に定義されたICEビュー間の相対的な位置と向きのベクトルをモデル化し、ICEカテーテルを操作して現在の視点から所望の視点へ経時的に遷移する方法をユーザに指示する。
クローズドループ構成で動作するシステムは、必要なカテーテル操作を継続的に予測し、更新し、既存の臨床ワークフローへのシームレスな統合を保証する。
提案手法の有効性はシミュレーションに基づく評価により実証され,6532テストデータセットで89%の成功率を実現し,ICE画像の精度と効率を向上させる可能性を強調した。
Intra-cardiac Echocardiography (ICE) is a crucial imaging modality used in electrophysiology (EP) and structural heart disease (SHD) interventions, providing real-time, high-resolution views from within the heart. Despite its advantages, effective manipulation of the ICE catheter requires significant expertise, which can lead to inconsistent outcomes, particularly among less experienced operators. To address this challenge, we propose an AI-driven closed-loop view guidance system with human-in-the-loop feedback, designed to assist users in navigating ICE imaging without requiring specialized knowledge. Our method models the relative position and orientation vectors between arbitrary views and clinically defined ICE views in a spatial coordinate system, guiding users on how to manipulate the ICE catheter to transition from the current view to the desired view over time. Operating in a closed-loop configuration, the system continuously predicts and updates the necessary catheter manipulations, ensuring seamless integration into existing clinical workflows. The effectiveness of the proposed system is demonstrated through a simulation-based evaluation, achieving an 89% success rate with the 6532 test dataset, highlighting its potential to improve the accuracy and efficiency of ICE imaging procedures. | 翻訳日:2024-09-27 03:45:10 公開日:2024-09-25 |
# オンライン会話ファシリテーションにおけるロボットのバックチャネル化 : クロスジェネレーションによる研究
Robotic Backchanneling in Online Conversation Facilitation: A Cross-Generational Study ( http://arxiv.org/abs/2409.16899v1 ) ライセンス: Link先を確認 | Sota Kobuki, Katie Seaborn, Seiki Tokunaga, Kosuke Fukumori, Shun Hidaka, Kazuhiro Tamura, Koji Inoue, Tatsuya Kawahara, Mihoko Otake-Mastuura, | (参考訳) 日本は、人口の認知低下率の増加や介護者の不足など、高齢化社会にまつわる多くの課題に直面している。
人工知能(AI)、特に人間とコミュニケーション可能な、社会的に具体化された知的エージェントやロボットを使ったソリューションの探求が始まっている。
しかし, 日常生活における高齢者との適合性についてはほとんど研究されていない。
そこで我々は,認知低下防止を目的としたグループ会話プロトコルのファシリテータとして機能するロボットを評価するために,ユーザスタディを行った。
我々は、ロボットの受容性を高め、グループ会話体験を楽しむために、自然な人間の話し方であるバックチャネルを使用するように、ロボットを改造した。
若年者および高齢者を対象に,異世代間調査を行った。
質的な分析から、若年層は背チャネル型ロボットを非背チャネル型ロボットよりも優しく、信頼性が高く、受け入れられていると認識した。
最後に, ロボットの逆流路が, 高齢者の非言語的逆流路を誘発することを発見した。
Japan faces many challenges related to its aging society, including increasing rates of cognitive decline in the population and a shortage of caregivers. Efforts have begun to explore solutions using artificial intelligence (AI), especially socially embodied intelligent agents and robots that can communicate with people. Yet, there has been little research on the compatibility of these agents with older adults in various everyday situations. To this end, we conducted a user study to evaluate a robot that functions as a facilitator for a group conversation protocol designed to prevent cognitive decline. We modified the robot to use backchannelling, a natural human way of speaking, to increase receptiveness of the robot and enjoyment of the group conversation experience. We conducted a cross-generational study with young adults and older adults. Qualitative analyses indicated that younger adults perceived the backchannelling version of the robot as kinder, more trustworthy, and more acceptable than the non-backchannelling robot. Finally, we found that the robot's backchannelling elicited nonverbal backchanneling in older participants. | 翻訳日:2024-09-27 03:45:10 公開日:2024-09-25 |
# LLMにおける身体的・社会的接地のためのロードマップ
A Roadmap for Embodied and Social Grounding in LLMs ( http://arxiv.org/abs/2409.16900v1 ) ライセンス: Link先を確認 | Sara Incao, Carlo Mazzola, Giulia Belgiovine, Alessandra Sciutti, | (参考訳) LLM(Large Language Models)とロボットシステムの融合は、通信領域だけでなく、マルチモーダル入力処理、ハイレベル推論、プラン生成といったスキルも備える、ロボット分野における変革的なパラダイムへと繋がった。
LLMの知識を経験的世界に根ざすことは、ロボット工学におけるLLMの効率を活かす重要な道であると考えられている。
それでも、LLMの表現をマルチモーダルなアプローチやロボットの身体で外部の世界に接続することは、彼らが操作している言語の意味を理解するのに十分ではない。
人間からインスピレーションを得て、この研究はエージェントが世界を把握し、経験するために必要な3つの要素に注意を向ける。
LLMの基盤化のロードマップは、環境を体験するための基準点として活発な身体システム、一貫性のある外界との自己関連的な相互作用のための時間的構造化された体験、共通の接地された共有体験を得るための社会的スキルとして構想されている。
The fusion of Large Language Models (LLMs) and robotic systems has led to a transformative paradigm in the robotic field, offering unparalleled capabilities not only in the communication domain but also in skills like multimodal input handling, high-level reasoning, and plan generation. The grounding of LLMs knowledge into the empirical world has been considered a crucial pathway to exploit the efficiency of LLMs in robotics. Nevertheless, connecting LLMs' representations to the external world with multimodal approaches or with robots' bodies is not enough to let them understand the meaning of the language they are manipulating. Taking inspiration from humans, this work draws attention to three necessary elements for an agent to grasp and experience the world. The roadmap for LLMs grounding is envisaged in an active bodily system as the reference point for experiencing the environment, a temporally structured experience for a coherent, self-related interaction with the external world, and social skills to acquire a common-grounded shared experience. | 翻訳日:2024-09-27 03:45:10 公開日:2024-09-25 |
# 水中カモフラージュ物体追跡に向けて:SAMとSAM2の実験的検討
Towards Underwater Camouflaged Object Tracking: An Experimental Evaluation of SAM and SAM 2 ( http://arxiv.org/abs/2409.16902v1 ) ライセンス: Link先を確認 | Chunhui Zhang, Li Liu, Guanjie Huang, Hao Wen, Xi Zhou, Yanfeng Wang, | (参考訳) 過去10年間で、大規模なトレーニングデータセットが利用可能になったために、視覚オブジェクトのトラッキングが大幅に進歩した。
しかし、既存の追跡データセットは主に屋外シナリオに焦点を当てており、水中環境における物体追跡の開発を著しく制限している。
この問題に対処するために、最初の大規模な水中カモフラージュされた物体追跡データセット、すなわちUW-COTを提案する。
提案したデータセットに基づいて,複数の高度な視覚オブジェクト追跡手法の実験的検討を行い,画像と映像のセグメンテーションの最新の進歩について述べる。
具体的には,Segment Anything Model (SAM) と SAM 2 の水中環境における性能を比較した。
本研究は, SAM2をSAM2より改良し, 水中カモフラージュ物体の複雑度を処理できることを実証した。
現在の高度なビジュアルオブジェクト追跡手法と比較して、最新のビデオセグメンテーション基盤モデルSAM 2は、水中シナリオのためのより効果的なトラッキング技術の開発に関する貴重な洞察を与え、大きな利点を示している。
データセットは \color{magenta}{https://github.com/983632847/Awesome-Multimodal-Object-Tracking} でアクセスできる。
Over the past decade, significant progress has been made in visual object tracking, largely due to the availability of large-scale training datasets. However, existing tracking datasets are primarily focused on open-air scenarios, which greatly limits the development of object tracking in underwater environments. To address this issue, we take a step forward by proposing the first large-scale underwater camouflaged object tracking dataset, namely UW-COT. Based on the proposed dataset, this paper presents an experimental evaluation of several advanced visual object tracking methods and the latest advancements in image and video segmentation. Specifically, we compare the performance of the Segment Anything Model (SAM) and its updated version, SAM 2, in challenging underwater environments. Our findings highlight the improvements in SAM 2 over SAM, demonstrating its enhanced capability to handle the complexities of underwater camouflaged objects. Compared to current advanced visual object tracking methods, the latest video segmentation foundation model SAM 2 also exhibits significant advantages, providing valuable insights into the development of more effective tracking technologies for underwater scenarios. The dataset will be accessible at \color{magenta}{https://github.com/983632847/Awesome-Multimodal-Object-Tracking}. | 翻訳日:2024-09-27 03:45:10 公開日:2024-09-25 |
# 効率的なマルチビュークラスタリングのための識別アンカー学習
Discriminative Anchor Learning for Efficient Multi-view Clustering ( http://arxiv.org/abs/2409.16904v1 ) ライセンス: Link先を確認 | Yalan Qin, Nan Pu, Hanzhou Wu, Nicu Sebe, | (参考訳) マルチビュークラスタリングは、ビュー間の相補的な情報を調べ、基盤となる構造を発見することを目的としている。
既存のアプローチの比較的高い計算コストを解決するために、アンカーに基づく研究が最近紹介されている。
クラスタリングのパフォーマンスは許容できるが、これらの手法は、複数のビューから元の表現を元のデータセットに基づいて固定された共有グラフにマッピングする傾向にある。
しかし、ほとんどの研究は、学習されたアンカーの識別特性を無視しており、構築されたモデルの表現能力を損なう。
さらに、ビューにまたがるアンカー間の補完情報は、ビュー固有のアンカーの品質を考慮せずに、共有アンカーグラフを単に学習することで確実にされる。
本稿では,上記の問題に対処する多視点クラスタリング(DALMC)のための識別的アンカー学習を提案する。
我々は、元のデータセットに従って識別的なビュー固有の特徴表現を学び、これらの表現に基づいて異なるビューからアンカーを構築することにより、共有アンカーグラフの品質が向上する。
識別的特徴学習とコンセンサスアンカーグラフ構築を統一されたフレームワークに統合し、改良を実現する。
複数のビューからの最適なアンカーとコンセンサスアンカーグラフは直交制約によって学習される。
定式化問題に対処する反復アルゴリズムを提案する。
異なるデータセットに対する大規模な実験は、他の手法と比較して、本手法の有効性と効率性を示している。
Multi-view clustering aims to study the complementary information across views and discover the underlying structure. For solving the relatively high computational cost for the existing approaches, works based on anchor have been presented recently. Even with acceptable clustering performance, these methods tend to map the original representation from multiple views into a fixed shared graph based on the original dataset. However, most studies ignore the discriminative property of the learned anchors, which ruin the representation capability of the built model. Moreover, the complementary information among anchors across views is neglected to be ensured by simply learning the shared anchor graph without considering the quality of view-specific anchors. In this paper, we propose discriminative anchor learning for multi-view clustering (DALMC) for handling the above issues. We learn discriminative view-specific feature representations according to the original dataset and build anchors from different views based on these representations, which increase the quality of the shared anchor graph. The discriminative feature learning and consensus anchor graph construction are integrated into a unified framework to improve each other for realizing the refinement. The optimal anchors from multiple views and the consensus anchor graph are learned with the orthogonal constraints. We give an iterative algorithm to deal with the formulated problem. Extensive experiments on different datasets show the effectiveness and efficiency of our method compared with other methods. | 翻訳日:2024-09-27 03:45:10 公開日:2024-09-25 |
# 正規化のための適応型スクリーン空間メッシュ手法
An Adaptive Screen-Space Meshing Approach for Normal Integration ( http://arxiv.org/abs/2409.16907v1 ) ライセンス: Link先を確認 | Moritz Heep, Eduard Zell, | (参考訳) 通常の表面からの再構成は、測光ステレオの重要な構成要素である。
この研究は、画像領域に適応的な表面三角測量を導入し、その後、三角形メッシュ上で通常の積分を行う。
我々の重要な洞察は、表面の曲率を通常の値から計算できるということである。
曲率に基づいて、平坦な領域を識別し、画素を三角形に集約する。
近似品質は、低-高分解能メッシュのシームレスな生成を容易にする単一のユーザパラメータによって制御される。
ピクセルグリッドと比較して、トライアングルメッシュは表面の詳細に局所的に適応し、スペーサー表現を可能にします。
我々の新しいメッシュベースの正規積分問題の定式化は、偏微分幾何学から厳密に導かれ、良条件線形系へと導かれる。
実データと合成データの結果は、ピクセルの10倍から100倍の頂点を必要とすることを示している。
実験により、この空間性はピクセル数でサブ線形ランタイムに変換されることが示唆された。
64MPの通常のマップでは、メッシュファーストのアプローチは数分でメッシュを生成し、統合します。
Reconstructing surfaces from normals is a key component of photometric stereo. This work introduces an adaptive surface triangulation in the image domain and afterwards performs the normal integration on a triangle mesh. Our key insight is that surface curvature can be computed from normals. Based on the curvature, we identify flat areas and aggregate pixels into triangles. The approximation quality is controlled by a single user parameter facilitating a seamless generation of low- to high-resolution meshes. Compared to pixel grids, our triangle meshes adapt locally to surface details and allow for a sparser representation. Our new mesh-based formulation of the normal integration problem is strictly derived from discrete differential geometry and leads to well-conditioned linear systems. Results on real and synthetic data show that 10 to 100 times less vertices are required than pixels. Experiments suggest that this sparsity translates into a sublinear runtime in the number of pixels. For 64 MP normal maps, our meshing-first approach generates and integrates meshes in minutes while pixel-based approaches require hours just for the integration. | 翻訳日:2024-09-27 03:45:10 公開日:2024-09-25 |
# 時間感性質問応答の時間感性向上と推論
Enhancing Temporal Sensitivity and Reasoning for Time-Sensitive Question Answering ( http://arxiv.org/abs/2409.16909v1 ) ライセンス: Link先を確認 | Wanqi Yang, Yanda Li, Meng Fang, Ling Chen, | (参考訳) Time-Sensitive Question Answering (TSQA)は、時間に敏感な質問に対処するために、複数の時間的事実を含む特定の時間的文脈を効果的に活用することを要求する。
このことは、質問の中の時間情報のパーシングだけでなく、正確な答えを生成するために、時間進化する事実の識別と理解も必要である。
しかし,近年の大規模言語モデルでは,時間的情報に対する感度や時間的推論能力に限界があるため,時間的認知度を高め,時間的情報認識の埋め込みやグラニュラコントラスト強化学習を通じて推論を行う新しい枠組みを提案する。
4つのTSQAデータセットによる実験結果から、我々のフレームワークは、TSQAタスクにおける既存のLLMよりも大幅に優れており、マシンと人間の時間的理解と推論のパフォーマンスギャップを埋める上での一歩であることが示された。
Time-Sensitive Question Answering (TSQA) demands the effective utilization of specific temporal contexts, encompassing multiple time-evolving facts, to address time-sensitive questions. This necessitates not only the parsing of temporal information within questions but also the identification and understanding of time-evolving facts to generate accurate answers. However, current large language models still have limited sensitivity to temporal information and their inadequate temporal reasoning capabilities.In this paper, we propose a novel framework that enhances temporal awareness and reasoning through Temporal Information-Aware Embedding and Granular Contrastive Reinforcement Learning. Experimental results on four TSQA datasets demonstrate that our framework significantly outperforms existing LLMs in TSQA tasks, marking a step forward in bridging the performance gap between machine and human temporal understanding and reasoning. | 翻訳日:2024-09-27 03:45:10 公開日:2024-09-25 |
# 多言語推論のための多言語大言語モデルの作成
Pruning Multilingual Large Language Models for Multilingual Inference ( http://arxiv.org/abs/2409.16911v1 ) ライセンス: Link先を確認 | Hwichan Kim, Jun Suzuki, Tosho Hirasawa, Mamoru Komachi, | (参考訳) 多言語大言語モデル(MLLM)は、多言語バランスデータに基づいて訓練され、英語以外の言語において、英語が支配するデータに基づいて訓練された大言語モデルと比較して、ゼロショット学習性能が向上することを示す。
しかし、英語と非英語のパフォーマンスの相違は、まだ完全には解決されていない。
MLLMの特徴的な特徴は、その高品質な翻訳能力であり、言語間の整合の習熟度を示している。
本研究では,非英語言語におけるMLLMのゼロショット性能を,英語言語と非英語言語のアライメント能力を活用して向上させる方法について検討する。
そこで我々はまず,翻訳を行う際のMLLMの挙動を解析し,翻訳過程において重要な役割を果たす大きな特徴があることを明らかにする。
これらの知見に触発されて、我々は、大規模な特徴を含む操作に関連する重みを保ち、MLLMがこれらの特徴を翻訳以外のタスクに頼らざるを得ないよう、他の重みを創り出します。
我々は、この刈り取り戦略が、英語以外の言語におけるMLLMのパフォーマンスを向上させることを実証的に実証した。
Multilingual large language models (MLLMs), trained on multilingual balanced data, demonstrate better zero-shot learning performance in non-English languages compared to large language models trained on English-dominant data. However, the disparity in performance between English and non-English languages remains a challenge yet to be fully addressed. A distinctive characteristic of MLLMs is their high-quality translation capabilities, indicating an acquired proficiency in aligning between languages. This study explores how to enhance the zero-shot performance of MLLMs in non-English languages by leveraging their alignment capability between English and non-English languages. To achieve this, we first analyze the behavior of MLLMs when performing translation and reveal that there are large magnitude features that play a critical role in the translation process. Inspired by these findings, we retain the weights associated with operations involving the large magnitude features and prune other weights to force MLLMs to rely on these features for tasks beyond translation. We empirically demonstrate that this pruning strategy can enhance the MLLMs' performance in non-English language. | 翻訳日:2024-09-27 03:35:11 公開日:2024-09-25 |
# 表現空間分析と編集によるロールプレイングエージェントの拒絶機能強化
Tell Me What You Don't Know: Enhancing Refusal Capabilities of Role-Playing Agents via Representation Space Analysis and Editing ( http://arxiv.org/abs/2409.16913v1 ) ライセンス: Link先を確認 | Wenhao Liu, Siyu An, Junru Lu, Muling Wu, Tianlong Li, Xiaohua Wang, Xiaoqing Zheng, Di Yin, Xing Sun, Xuanjing Huang, | (参考訳) ロールプレイングエージェント(RPAs)は、様々なアプリケーションで顕著なパフォーマンスを示しているが、ロールプレイングの知識と矛盾する厳しいクエリを認識し、適切に応答するのに苦労することが多い。
異なるタイプの矛盾する要求に直面した場合のRPAの性能を調べるために、コンテキスト的知識の相反する要求、パラメトリックな知識の相反する要求、RPAの競合を識別し、過度に拒否することなく適切な回答を拒否する能力を評価する非競合性要求を含む評価ベンチマークを開発する。
広範囲な評価により、ほとんどのRPAは、異なる競合要求に対して大きなパフォーマンスギャップを作用することがわかった。
これらの理由を解明するために,様々な紛争シナリオ下でRPAの詳細な表現レベル解析を行う。
本研究により, モデル転送表現における拒絶領域と直接応答領域の存在が明らかとなり, RPAの最終応答行動に影響を及ぼすことが明らかとなった。
そこで我々は、競合する要求を拒否領域に都合よくシフトさせる軽量な表現編集手法を導入し、モデルの拒否精度を向上する。
提案手法の有効性を検証し,RPAの一般的なロールプレイング能力を維持しつつ,要求の矛盾を解消する能力を改善した。
Role-Playing Agents (RPAs) have shown remarkable performance in various applications, yet they often struggle to recognize and appropriately respond to hard queries that conflict with their role-play knowledge. To investigate RPAs' performance when faced with different types of conflicting requests, we develop an evaluation benchmark that includes contextual knowledge conflicting requests, parametric knowledge conflicting requests, and non-conflicting requests to assess RPAs' ability to identify conflicts and refuse to answer appropriately without over-refusing. Through extensive evaluation, we find that most RPAs behave significant performance gaps toward different conflict requests. To elucidate the reasons, we conduct an in-depth representation-level analysis of RPAs under various conflict scenarios. Our findings reveal the existence of rejection regions and direct response regions within the model's forwarding representation, and thus influence the RPA's final response behavior. Therefore, we introduce a lightweight representation editing approach that conveniently shifts conflicting requests to the rejection region, thereby enhancing the model's refusal accuracy. The experimental results validate the effectiveness of our editing method, improving RPAs' refusal ability of conflicting requests while maintaining their general role-playing capabilities. | 翻訳日:2024-09-27 03:35:11 公開日:2024-09-25 |
# トークン粘度を用いたLCM生成テキストのゼロショット検出
Zero-Shot Detection of LLM-Generated Text using Token Cohesiveness ( http://arxiv.org/abs/2409.16914v1 ) ライセンス: Link先を確認 | Shixuan Ma, Quan Wang, | (参考訳) 大規模言語モデル(LLM)の能力の増大と普及により、LLM生成テキストの自動検出の望ましさが浮き彫りになった。
ゼロショット検出器は、訓練のない性質のため、かなりの注目を集め、顕著な成功を収めた。
本稿では,ゼロショット検出に有用な新しい特徴であるトークン凝集度を同定し,LLM生成したテキストが人間のテキストよりも高いトークン凝集度を示す傾向があることを示す。
この観測に基づいて,既存のゼロショット検出器を改善するために,トークン凝集性をプラグアンドプレイモジュールとして利用する汎用デュアルチャネル検出パラダイムTOCSINを考案した。
トークンの凝集度を計算するために、TOCSINはランダムなトークンの削除と意味的差異の測定を数ラウンドだけ必要としており、生成に使用されるソースモデルにアクセスできない実用的なブラックボックス設定に特に適している。
各種データセット,ソースモデル,評価設定の4つの最先端ベース検出器を用いた大規模実験により,提案手法の有効性と汎用性を示した。
コードは: \url{https://github.com/Shixuan-Ma/TOCSIN}.comで公開されている。
The increasing capability and widespread usage of large language models (LLMs) highlight the desirability of automatic detection of LLM-generated text. Zero-shot detectors, due to their training-free nature, have received considerable attention and notable success. In this paper, we identify a new feature, token cohesiveness, that is useful for zero-shot detection, and we demonstrate that LLM-generated text tends to exhibit higher token cohesiveness than human-written text. Based on this observation, we devise TOCSIN, a generic dual-channel detection paradigm that uses token cohesiveness as a plug-and-play module to improve existing zero-shot detectors. To calculate token cohesiveness, TOCSIN only requires a few rounds of random token deletion and semantic difference measurement, making it particularly suitable for a practical black-box setting where the source model used for generation is not accessible. Extensive experiments with four state-of-the-art base detectors on various datasets, source models, and evaluation settings demonstrate the effectiveness and generality of the proposed approach. Code available at: \url{https://github.com/Shixuan-Ma/TOCSIN}. | 翻訳日:2024-09-27 03:35:11 公開日:2024-09-25 |
# 言語間音声感情認識:人間対自己監督モデル
Cross-lingual Speech Emotion Recognition: Humans vs. Self-Supervised Models ( http://arxiv.org/abs/2409.16920v1 ) ライセンス: Link先を確認 | Zhichen Han, Tianqi Geng, Hui Feng, Jiahong Yuan, Korin Richmond, Yuanchao Li, | (参考訳) 自己教師付き学習(SSL)モデルを用いた音声感情認識(SER)の有効性が証明されているが、言語横断のシナリオについて限定的な研究がなされている。
本研究では,モノリンガル・クロスリンガル・トランスファレンス学習の文脈において,レイヤワイズ分析とパラメータ効率の高い微調整戦略の探索から始まる,人間のパフォーマンスとSSLモデルの比較分析を行った。
さらに、モデルと人間のSER能力を発話レベルとセグメントレベルの両方で比較する。
さらに, 方言が言語間SERに与える影響について, 人間の評価を通して検討した。
その結果,適切な知識伝達を行うモデルでは,対象言語に適応し,ネイティブ話者に匹敵する性能が得られることがわかった。
また,従来の言語的・パラ言語的背景を持たない個人に対して,方言がSERに有意な影響を及ぼすことを示す。
さらに、人間とモデルの両方が異なる感情にまたがって異なる行動を示す。
これらの結果は、SSLモデルの言語間SER機能に対する新たな洞察を与え、その類似性と人間の感情知覚の違いの両方を裏付ける。
Utilizing Self-Supervised Learning (SSL) models for Speech Emotion Recognition (SER) has proven effective, yet limited research has explored cross-lingual scenarios. This study presents a comparative analysis between human performance and SSL models, beginning with a layer-wise analysis and an exploration of parameter-efficient fine-tuning strategies in monolingual, cross-lingual, and transfer learning contexts. We further compare the SER ability of models and humans at both utterance- and segment-levels. Additionally, we investigate the impact of dialect on cross-lingual SER through human evaluation. Our findings reveal that models, with appropriate knowledge transfer, can adapt to the target language and achieve performance comparable to native speakers. We also demonstrate the significant effect of dialect on SER for individuals without prior linguistic and paralinguistic background. Moreover, both humans and models exhibit distinct behaviors across different emotions. These results offer new insights into the cross-lingual SER capabilities of SSL models, underscoring both their similarities to and differences from human emotion perception. | 翻訳日:2024-09-27 03:35:11 公開日:2024-09-25 |
# Unsupervised Neural Representation を用いたアンダーサンプルMRIにおける運動補正
Moner: Motion Correction in Undersampled Radial MRI with Unsupervised Neural Representation ( http://arxiv.org/abs/2409.16921v1 ) ライセンス: Link先を確認 | Qing Wu, Chenhe Du, XuanYu Tian, Jingyi Yu, Yuyao Zhang, Hongjiang Wei, | (参考訳) 放射状MRIにおける運動補正(MoCo)は、被験者の動作の予測不能のため難しい問題である。
現在のSOTA (State-of-the-art) MoCoアルゴリズムは、しばしばトレーニング前のニューラルネットワークに広範な高品質のMR画像を使用し、優れた再構成が得られる。
しかし、大規模なデータセットの必要性により、コストが大幅に増加し、モデル一般化が制限される。
本研究では,人工物のないMR画像と高精度な動きを,トレーニングデータを必要とせず,アンサンプで剛性のあるk空間データから解決する,教師なしのMoCo手法であるMonerを提案する。
我々の中核的な考え方は、暗黙の神経表現(INR)の連続的先行を利用して、この不適切な逆問題を制限することで、理想的な解を可能にすることである。
具体的には、擬静運動モデルをINRに組み込み、被検者の動作を補正する能力を与える。
モデル最適化を安定させるために、フーリエスライス定理を用いて放射状MRIを後方投影問題として再構成する。
さらに,MoCoの精度を大幅に向上させる新しい粗大なハッシュ符号化戦略を提案する。
複数のMRIデータセットの実験により、Monerはドメイン内データに対するSOTA MoCo技術に匹敵するパフォーマンスを達成し、ドメイン外データに対する大幅な改善を実証した。
Motion correction (MoCo) in radial MRI is a challenging problem due to the unpredictability of subject's motion. Current state-of-the-art (SOTA) MoCo algorithms often use extensive high-quality MR images to pre-train neural networks, obtaining excellent reconstructions. However, the need for large-scale datasets significantly increases costs and limits model generalization. In this work, we propose Moner, an unsupervised MoCo method that jointly solves artifact-free MR images and accurate motion from undersampled, rigid motion-corrupted k-space data, without requiring training data. Our core idea is to leverage the continuous prior of implicit neural representation (INR) to constrain this ill-posed inverse problem, enabling ideal solutions. Specifically, we incorporate a quasi-static motion model into the INR, granting its ability to correct subject's motion. To stabilize model optimization, we reformulate radial MRI as a back-projection problem using the Fourier-slice theorem. Additionally, we propose a novel coarse-to-fine hash encoding strategy, significantly enhancing MoCo accuracy. Experiments on multiple MRI datasets show our Moner achieves performance comparable to SOTA MoCo techniques on in-domain data, while demonstrating significant improvements on out-of-domain data. | 翻訳日:2024-09-27 03:35:11 公開日:2024-09-25 |
# 不変写像による等変写像の分解:対称性に基づく普遍近似への応用
Decomposition of Equivariant Maps via Invariant Maps: Application to Universal Approximation under Symmetry ( http://arxiv.org/abs/2409.16922v1 ) ライセンス: Link先を確認 | Akiyoshi Sannai, Yuuki Takai, Matthieu Cordonnier, | (参考訳) 本稿では、群 $G$ に関する不変写像と同変写像の関係に関する理論を開発する。
次に、この理論をグループ対称性を持つディープニューラルネットワークの文脈で活用し、それらのメカニズムに関する新たな洞察を得る。
より正確には、同変写像とある不変写像の間の1対1の関係を確立する。
これにより、同変写像の引数を不変写像の引数に減らすことができ、その逆もできる。
応用として、普遍不変ネットワークから構築された普遍同変アーキテクチャの構築を提案する。
続いて、構造から生じる普遍的アーキテクチャが、普遍であることが知られている標準的な同変的アーキテクチャとどのように異なるかを説明する。
さらに,自由パラメータの数の観点から複雑性を考察し,不変ネットワークと同変ネットワークの複雑性の関係について考察する。
最後に、有限群 G に対する ReLU 活性化関数を持つ G-同変ディープニューラルネットワークに対する近似速度を与える。
In this paper, we develop a theory about the relationship between invariant and equivariant maps with regard to a group $G$. We then leverage this theory in the context of deep neural networks with group symmetries in order to obtain novel insight into their mechanisms. More precisely, we establish a one-to-one relationship between equivariant maps and certain invariant maps. This allows us to reduce arguments for equivariant maps to those for invariant maps and vice versa. As an application, we propose a construction of universal equivariant architectures built from universal invariant networks. We, in turn, explain how the universal architectures arising from our construction differ from standard equivariant architectures known to be universal. Furthermore, we explore the complexity, in terms of the number of free parameters, of our models, and discuss the relation between invariant and equivariant networks' complexity. Finally, we also give an approximation rate for G-equivariant deep neural networks with ReLU activation functions for finite group G. | 翻訳日:2024-09-27 03:35:11 公開日:2024-09-25 |
# オンラインエクササイズ予測のためのAI支援迷路検出
AI-assisted Gaze Detection for Proctoring Online Exams ( http://arxiv.org/abs/2409.16923v1 ) ライセンス: Link先を確認 | Yong-Siang Shih, Zach Zhao, Chenhao Niu, Bruce Iberg, James Sharpnack, Mirza Basim Baig, | (参考訳) 高額のオンライン試験では、潜在的なルール違反を検知し、テストの安全性を確保することが重要である。
本研究では,テストテイクがスクリーンから遠ざかっているかどうかを検知する作業について検討する。
非同期のプロクターには、テストビデオが記録され、プロクターによってレビューされる。
しかし、試験の長さが長い場合には、プロークターが試験ビデオ全体を見て、試験受験者が目をそらしたときの正確な時刻を決定するのが面倒になる可能性がある。
本稿では,AIを利用した視線検出システムを提案する。これにより,プロクターは異なる映像フレームをナビゲートし,テストテイクが同じ方向を向いている映像フレームを発見することができる。
このシステムは、ビデオ中の不審な瞬間を特定するために、プロクターがより効果的に働くことを可能にする。
人手のみとMLのみのプロクタに対するシステム評価のための評価フレームワークを提案し,システムの有効性を実証するために,プロクタからのフィードバックを集めるためのユーザスタディを実施した。
For high-stakes online exams, it is important to detect potential rule violations to ensure the security of the test. In this study, we investigate the task of detecting whether test takers are looking away from the screen, as such behavior could be an indication that the test taker is consulting external resources. For asynchronous proctoring, the exam videos are recorded and reviewed by the proctors. However, when the length of the exam is long, it could be tedious for proctors to watch entire exam videos to determine the exact moments when test takers look away. We present an AI-assisted gaze detection system, which allows proctors to navigate between different video frames and discover video frames where the test taker is looking in similar directions. The system enables proctors to work more effectively to identify suspicious moments in videos. An evaluation framework is proposed to evaluate the system against human-only and ML-only proctoring, and a user study is conducted to gather feedback from proctors, aiming to demonstrate the effectiveness of the system. | 翻訳日:2024-09-27 03:35:11 公開日:2024-09-25 |
# Game4Loc: ゲームデータからUAVのジオローカライズベンチマーク
Game4Loc: A UAV Geo-Localization Benchmark from Game Data ( http://arxiv.org/abs/2409.16925v1 ) ライセンス: Link先を確認 | Yuxiang Ji, Boyong He, Zhuoyue Tan, Liaoni Wu, | (参考訳) グローバルナビゲーション衛星システム(GNSS)に加え、GPS情報の二次的情報源として機能するUAVのためのビジョンベースのジオローカライゼーション技術は、GPSデニッド環境でも独立して運用することができる。
近年のディープラーニングに基づく手法は、画像マッチングと検索のタスクと評価されている。
ジオタグ付き衛星画像データベースにおいて、ドローンビュー画像を取得することにより、近似的なローカライゼーション情報を得ることができる。
しかし,高いコストとプライバシー上の懸念から,連続した領域から大量のドローンビュー画像を得るのは通常困難である。
既存のドローンビューデータセットは、主に小規模の空中写真で構成されており、あらゆるクエリに対して完全な1対1の参照画像が存在すると強く仮定しており、実際のローカライゼーションシナリオとの大きなギャップを残している。
本研究では,複数の飛行高度,姿勢,シーン,ターゲットを現代のコンピュータゲームを用いて構成した,GTA-UAVと呼ばれる広域連続領域UAV測位データセットを構築した。
このデータセットに基づいて、クロスビューペアデータの部分マッチングを含むより実用的なUAV測位タスクを導入し、距離(メーター)の観点から画像レベルの検索を実際の位置化に拡張する。
ドローン・ビューと衛星・ビューのペアの構築には、ウェイトベースのコントラスト学習アプローチを採用し、これにより、追加の処理後マッチングステップを回避しながら効果的な学習が可能になる。
実世界のシナリオへの一般化能力に加えて,UAV測地のためのデータ・トレーニング手法の有効性を実証した。
The vision-based geo-localization technology for UAV, serving as a secondary source of GPS information in addition to the global navigation satellite systems (GNSS), can still operate independently in the GPS-denied environment. Recent deep learning based methods attribute this as the task of image matching and retrieval. By retrieving drone-view images in geo-tagged satellite image database, approximate localization information can be obtained. However, due to high costs and privacy concerns, it is usually difficult to obtain large quantities of drone-view images from a continuous area. Existing drone-view datasets are mostly composed of small-scale aerial photography with a strong assumption that there exists a perfect one-to-one aligned reference image for any query, leaving a significant gap from the practical localization scenario. In this work, we construct a large-range contiguous area UAV geo-localization dataset named GTA-UAV, featuring multiple flight altitudes, attitudes, scenes, and targets using modern computer games. Based on this dataset, we introduce a more practical UAV geo-localization task including partial matches of cross-view paired data, and expand the image-level retrieval to the actual localization in terms of distance (meters). For the construction of drone-view and satellite-view pairs, we adopt a weight-based contrastive learning approach, which allows for effective learning while avoiding additional post-processing matching steps. Experiments demonstrate the effectiveness of our data and training method for UAV geo-localization, as well as the generalization capabilities to real-world scenarios. | 翻訳日:2024-09-27 03:35:11 公開日:2024-09-25 |
# 量子古典感度解析
Quantum-Classical Sentiment Analysis ( http://arxiv.org/abs/2409.16928v1 ) ライセンス: Link先を確認 | Mario Bifulco, Luca Roversi, | (参考訳) 本研究ではまず,従来のCPLEX分類器とTransformerアーキテクチャとの比較を行い,感情分析におけるHCQCの適用について検討する。
HCQCは分類精度ではTransformerと比較して性能が劣るが,適度に良い近似解に収束するのにはかなり時間がかかることが示唆された。
この実験はまた、アーキテクチャがD-Wave特性によって部分的には開示されていないHCQCにおける重要なボトルネックを明らかにした。
そこで本研究では,QUBOモデルの代数的分解に基づく新しいアルゴリズムを提案する。
In this study, we initially investigate the application of a hybrid classical-quantum classifier (HCQC) for sentiment analysis, comparing its performance against the classical CPLEX classifier and the Transformer architecture. Our findings indicate that while the HCQC underperforms relative to the Transformer in terms of classification accuracy, but it requires significantly less time to converge to a reasonably good approximate solution. This experiment also reveals a critical bottleneck in the HCQC, whose architecture is partially undisclosed by the D-Wave property. To address this limitation, we propose a novel algorithm based on the algebraic decomposition of QUBO models, which enhances the time the quantum processing unit can allocate to problem-solving tasks. | 翻訳日:2024-09-27 03:35:11 公開日:2024-09-25 |
# 歴史的文書における OCR-Sensitive Neurons を用いたエンティティ認識の改善
Investigating OCR-Sensitive Neurons to Improve Entity Recognition in Historical Documents ( http://arxiv.org/abs/2409.16934v1 ) ライセンス: Link先を確認 | Emanuela Boros, Maud Ehrmann, | (参考訳) 本稿では,Transformer アーキテクチャにおける OCR 感受性ニューロンの存在と,歴史的文書における名前付きエンティティ認識(NER)性能への影響について検討する。
クリーンでノイズの多いテキスト入力に応答してニューロンの活性化パターンを解析することにより、OCR感受性ニューロンを同定し、中和し、モデル性能を向上させる。
2つのオープンアクセス大言語モデル(Llama2とMistral)に基づいて、実験はOCR感受性領域の存在を実証し、歴史的新聞や古典的な注釈においてNER性能の改善を示し、ノイズのあるテキストにおけるモデルの性能を改善するために標的ニューロン変調の可能性を強調した。
This paper investigates the presence of OCR-sensitive neurons within the Transformer architecture and their influence on named entity recognition (NER) performance on historical documents. By analysing neuron activation patterns in response to clean and noisy text inputs, we identify and then neutralise OCR-sensitive neurons to improve model performance. Based on two open access large language models (Llama2 and Mistral), experiments demonstrate the existence of OCR-sensitive regions and show improvements in NER performance on historical newspapers and classical commentaries, highlighting the potential of targeted neuron modulation to improve models' performance on noisy text. | 翻訳日:2024-09-27 03:35:11 公開日:2024-09-25 |
# 多視点擬似ラベル音声からの半教師付き認知状態分類
Semi-Supervised Cognitive State Classification from Speech with Multi-View Pseudo-Labeling ( http://arxiv.org/abs/2409.16937v1 ) ライセンス: Link先を確認 | Yuanchao Li, Zixing Zhang, Jing Han, Peter Bell, Catherine Lai, | (参考訳) ラベル付きデータの欠如は、音声分類タスク、特に認知状態分類のような広範囲な主観的評価を必要とするタスクにおいて共通の課題である。
本研究では,音響特性と言語特性を両立させる多視点擬似ラベル手法を導入し,分類モデルの学習に最も自信のあるデータを選択することを目的とした,半教師付き学習(SSL)フレームワークを提案する。
複数のオーディオエンコーダが生成した埋め込みから算出したFrechetオーディオ距離を用いてラベル付きデータをラベル付きデータと比較する。
言語学的には,提案したタスク固有知識に基づいて音声認識の書き起こしやラベルの予測を行うために,大規模言語モデルが促される。
両情報源からの擬似ラベルが一致したときには、高信頼データを識別し、ミスマッチを低信頼データとして扱う。
バイモーダル分類器は、予め定義された基準を満たすまで、低信頼データを反復的にラベル付けするように訓練される。
感情認識と認知症検出タスクにおけるSSLフレームワークの評価を行った。
実験の結果,ラベル付きデータの30%しか使用していない完全教師付き学習と比較して競争性能が向上し,選択した2つのベースラインを著しく上回ることがわかった。
The lack of labeled data is a common challenge in speech classification tasks, particularly those requiring extensive subjective assessment, such as cognitive state classification. In this work, we propose a Semi-Supervised Learning (SSL) framework, introducing a novel multi-view pseudo-labeling method that leverages both acoustic and linguistic characteristics to select the most confident data for training the classification model. Acoustically, unlabeled data are compared to labeled data using the Frechet audio distance, calculated from embeddings generated by multiple audio encoders. Linguistically, large language models are prompted to revise automatic speech recognition transcriptions and predict labels based on our proposed task-specific knowledge. High-confidence data are identified when pseudo-labels from both sources align, while mismatches are treated as low-confidence data. A bimodal classifier is then trained to iteratively label the low-confidence data until a predefined criterion is met. We evaluate our SSL framework on emotion recognition and dementia detection tasks. Experimental results demonstrate that our method achieves competitive performance compared to fully supervised learning using only 30% of the labeled data and significantly outperforms two selected baselines. | 翻訳日:2024-09-27 03:35:11 公開日:2024-09-25 |
# 多視点拡散モデルを用いたガウス平滑化における生成物挿入
Generative Object Insertion in Gaussian Splatting with a Multi-View Diffusion Model ( http://arxiv.org/abs/2409.16938v1 ) ライセンス: Link先を確認 | Hongliang Zhong, Can Wang, Jingbo Zhang, Jing Liao, | (参考訳) 3Dコンテンツに新しいオブジェクトを生成して挿入することは、多目的なシーンレクリエーションを実現するための魅力的なアプローチである。
SDS最適化やシングルビューの塗装に依存する既存の手法は、しばしば高品質な結果を生み出すのに苦労する。
そこで本研究では,ガウススプラッティングで表現された3次元コンテンツにオブジェクトを挿入する新しい手法を提案する。
提案手法では,MVInpainterと呼ばれる多視点拡散モデルを導入する。
MVInpainter内に制御ネットベースの条件付きインジェクションモジュールを組み込んで,制御可能で予測可能なマルチビュー生成を実現する。
マルチビューインペイントされた結果を生成した後,さらにマスクを意識した3次元再構成手法を提案し,これらの疎いインペイントされたビューからガウススティング再構成を洗練させる。
これらの製造技術を活用することで、様々な結果が得られ、ビュー一貫性と調和性の挿入が保証され、オブジェクトの品質が向上する。
大規模な実験により,本手法が既存手法より優れていることが示された。
Generating and inserting new objects into 3D content is a compelling approach for achieving versatile scene recreation. Existing methods, which rely on SDS optimization or single-view inpainting, often struggle to produce high-quality results. To address this, we propose a novel method for object insertion in 3D content represented by Gaussian Splatting. Our approach introduces a multi-view diffusion model, dubbed MVInpainter, which is built upon a pre-trained stable video diffusion model to facilitate view-consistent object inpainting. Within MVInpainter, we incorporate a ControlNet-based conditional injection module to enable controlled and more predictable multi-view generation. After generating the multi-view inpainted results, we further propose a mask-aware 3D reconstruction technique to refine Gaussian Splatting reconstruction from these sparse inpainted views. By leveraging these fabricate techniques, our approach yields diverse results, ensures view-consistent and harmonious insertions, and produces better object quality. Extensive experiments demonstrate that our approach outperforms existing methods. | 翻訳日:2024-09-27 03:35:11 公開日:2024-09-25 |
# U-Netを超える:顕微鏡画像解析におけるセマンティックセグメンテーションのための視覚変換器の評価
Going Beyond U-Net: Assessing Vision Transformers for Semantic Segmentation in Microscopy Image Analysis ( http://arxiv.org/abs/2409.16940v1 ) ライセンス: Link先を確認 | Illia Tsiporenko, Pavel Chizhov, Dmytro Fishman, | (参考訳) セグメンテーションは顕微鏡画像解析における重要なステップである。
過去数年間、古典的なセグメンテーションアルゴリズムから高度なディープラーニングモデルまで、数多くのアプローチが開発されてきた。
U-Netは、バイオメディカルセグメンテーションタスクの最も人気があり、確立されたモデルの1つだが、最近開発されたトランスフォーマーベースのモデルは、顕微鏡画像のセグメンテーションプロセスを強化することを約束している。
本研究では,UNETR,Segment Anything Model,Swin-UPerNetなどのトランスフォーマーの有効性を評価し,電子顕微鏡,明視野,病理組織学,位相コントラストなど,様々な画像モダリティで確立されたU-Netモデルと比較する。
本評価では,Swin Transformerモデルの性能を最適化するために,アーキテクチャ変更を通じて対処する,オリジナルのSwin Transformerモデルにおけるいくつかの制限を識別する。
その結果,従来のU-NetモデルやUnmodified Swin-UPerNetと比較してセグメンテーション性能が向上した。
この比較分析は、バイオメディカルイメージセグメンテーションを進めるためのトランスフォーマーモデルの可能性を浮き彫りにしている。
これは、その効率性と適用性は、慎重に修正することで改善できることを示し、顕微鏡画像解析ツールの将来的な利用を促進する。
Segmentation is a crucial step in microscopy image analysis. Numerous approaches have been developed over the past years, ranging from classical segmentation algorithms to advanced deep learning models. While U-Net remains one of the most popular and well-established models for biomedical segmentation tasks, recently developed transformer-based models promise to enhance the segmentation process of microscopy images. In this work, we assess the efficacy of transformers, including UNETR, the Segment Anything Model, and Swin-UPerNet, and compare them with the well-established U-Net model across various image modalities such as electron microscopy, brightfield, histopathology, and phase-contrast. Our evaluation identifies several limitations in the original Swin Transformer model, which we address through architectural modifications to optimise its performance. The results demonstrate that these modifications improve segmentation performance compared to the classical U-Net model and the unmodified Swin-UPerNet. This comparative analysis highlights the promise of transformer models for advancing biomedical image segmentation. It demonstrates that their efficiency and applicability can be improved with careful modifications, facilitating their future use in microscopy image analysis tools. | 翻訳日:2024-09-27 03:35:11 公開日:2024-09-25 |
# Go-SLAM:Gaussian Splatting SLAMによる接地対象分割と位置決め
Go-SLAM: Grounded Object Segmentation and Localization with Gaussian Splatting SLAM ( http://arxiv.org/abs/2409.16944v1 ) ライセンス: Link先を確認 | Phu Pham, Dipam Patel, Damon Conover, Aniket Bera, | (参考訳) シーン表現にオブジェクトレベルの情報を埋め込んで動的環境を再構築するために,3次元ガウス分割SLAMを利用する新しいフレームワークであるGo-SLAMを紹介する。
このフレームワークは高度なオブジェクトセグメンテーション技術を採用し、表現するオブジェクトに対応する各ガウススプラットにユニークな識別子を割り当てる。
そこで本システムは,自然言語記述によるオブジェクトの検索を容易にする。
さらに, このフレームワークは, 障害物や環境不確実性を考慮して, ロボットの待ち行列に対する効率的なナビゲーション経路を計算する最適経路生成モジュールを備えている。
様々な場面における総合的な評価は、高忠実度シーン再構築、高精度なオブジェクトセグメンテーション、フレキシブルなオブジェクトクエリ、効率的なロボット経路計画の実現における我々のアプローチの有効性を示す。
この研究は、3Dシーン再構成、セマンティックオブジェクト理解、リアルタイム環境相互作用のギャップを埋める上でさらに一歩前進した。
We introduce Go-SLAM, a novel framework that utilizes 3D Gaussian Splatting SLAM to reconstruct dynamic environments while embedding object-level information within the scene representations. This framework employs advanced object segmentation techniques, assigning a unique identifier to each Gaussian splat that corresponds to the object it represents. Consequently, our system facilitates open-vocabulary querying, allowing users to locate objects using natural language descriptions. Furthermore, the framework features an optimal path generation module that calculates efficient navigation paths for robots toward queried objects, considering obstacles and environmental uncertainties. Comprehensive evaluations in various scene settings demonstrate the effectiveness of our approach in delivering high-fidelity scene reconstructions, precise object segmentation, flexible object querying, and efficient robot path planning. This work represents an additional step forward in bridging the gap between 3D scene reconstruction, semantic object understanding, and real-time environment interactions. | 翻訳日:2024-09-27 03:35:11 公開日:2024-09-25 |
# Elaborate Backbone を用いた顔偽造検出
Face Forgery Detection with Elaborate Backbone ( http://arxiv.org/abs/2409.16945v1 ) ライセンス: Link先を確認 | Zonghui Guo, Yingjie Liu, Jie Zhang, Haiyong Zheng, Shiguang Shan, | (参考訳) Face Forgery Detection(FFD、ディープフェイク検出)は、デジタル顔が本物か偽物かを判定することを目的としている。
さまざまなフォージェリーパターンを持つ異なる顔合成アルゴリズムのため、FFDモデルはトレーニングデータセットの特定のパターンに過度に適合することが多く、結果として他の目に見えないフォージェリーへの一般化が不十分になる。
この厳しい課題は、FFDモデルが複雑な顔の特徴を表現し、微妙な偽造の手がかりを抽出する能力を持つ必要がある。
以前のFFDモデルは、顔の偽造の手がかりを表現・抽出するために既存のバックボーンを直接使用していたが、特にその知識と能力がFFDの課題に対処するには不十分であり、必然的に一般化を制限しているため、バックボーンの重要な役割は見過ごされがちである。
したがって、バックボーン事前学習の構成を統合して、バックボーン事前学習や微調整から識別結果の推測に至るまで、完全なFFDワークフローを再考することで、実用的なソリューションを求めることが不可欠である。
具体的には、FFDタスクの異なる構成のバックボーンの重要コントリビューションを分析し、実顔データセットの自己教師付き学習でViTネットワークを活用して、バックボーンを事前訓練し、優れた顔表現機能を備えることを提案する。
そして、競争力のある学習メカニズムの中で多様な偽の手がかりを抽出するバックボーンの能力を強化する、競争力のあるバックボーンの微調整フレームワークを構築します。
さらに,予測信頼度を利用して推論信頼性を向上させるしきい値最適化機構を考案した。
包括的実験により、精巧なバックボーンを持つFFDモデルは、FFDおよび追加の顔関連タスク、すなわちプレゼンテーションアタック検出において優れた性能を発揮することが示された。
コードとモデルはhttps://github.com/zhenglab/FFDBackbone.comで入手できる。
Face Forgery Detection (FFD), or Deepfake detection, aims to determine whether a digital face is real or fake. Due to different face synthesis algorithms with diverse forgery patterns, FFD models often overfit specific patterns in training datasets, resulting in poor generalization to other unseen forgeries. This severe challenge requires FFD models to possess strong capabilities in representing complex facial features and extracting subtle forgery cues. Although previous FFD models directly employ existing backbones to represent and extract facial forgery cues, the critical role of backbones is often overlooked, particularly as their knowledge and capabilities are insufficient to address FFD challenges, inevitably limiting generalization. Therefore, it is essential to integrate the backbone pre-training configurations and seek practical solutions by revisiting the complete FFD workflow, from backbone pre-training and fine-tuning to inference of discriminant results. Specifically, we analyze the crucial contributions of backbones with different configurations in FFD task and propose leveraging the ViT network with self-supervised learning on real-face datasets to pre-train a backbone, equipping it with superior facial representation capabilities. We then build a competitive backbone fine-tuning framework that strengthens the backbone's ability to extract diverse forgery cues within a competitive learning mechanism. Moreover, we devise a threshold optimization mechanism that utilizes prediction confidence to improve the inference reliability. Comprehensive experiments demonstrate that our FFD model with the elaborate backbone achieves excellent performance in FFD and extra face-related tasks, i.e., presentation attack detection. Code and models are available at https://github.com/zhenglab/FFDBackbone. | 翻訳日:2024-09-27 03:35:11 公開日:2024-09-25 |
# AIアジェンダの設定 - ChatGPT時代のスウェーデンからの証拠
Setting the AI Agenda -- Evidence from Sweden in the ChatGPT Era ( http://arxiv.org/abs/2409.16946v1 ) ライセンス: Link先を確認 | Bastiaan Bruinsma, Annika Fredén, Kajsa Hansson, Moa Johansson, Pasko Kisić-Merino, Denitsa Saynova, | (参考訳) 本稿では,ChatGPTのリリース前後におけるスウェーデンにおけるAIメタ議論の展開について検討する。
議題設定理論の観点からは、この急激な発展に関して政治家は比較的沈黙している、という議論を主導しているのは政党政治のエリートではないと提案する。
また,近年,議論がより現実的かつリスク指向になってきていることも示唆している。
この主張を調査するために、我々は2010年代初頭から現在までのエリートレベルの文書のデータセットを、スウェーデンの主要な新聞数紙に掲載されているオペ・エッセイを用いて作成する。
これらの資料の質的内容分析を行うことにより、予備的な調査結果は、政治エリートというよりも、学者が議論を主導しているという期待を裏付けるものである。
This paper examines the development of the Artificial Intelligence (AI) meta-debate in Sweden before and after the release of ChatGPT. From the perspective of agenda-setting theory, we propose that it is an elite outside of party politics that is leading the debate -- i.e. that the politicians are relatively silent when it comes to this rapid development. We also suggest that the debate has become more substantive and risk-oriented in recent years. To investigate this claim, we draw on an original dataset of elite-level documents from the early 2010s to the present, using op-eds published in a number of leading Swedish newspapers. By conducting a qualitative content analysis of these materials, our preliminary findings lend support to the expectation that an academic, rather than a political elite is steering the debate. | 翻訳日:2024-09-27 03:25:18 公開日:2024-09-25 |
# NTIRE 2024 ステレオ画像超解法の挑戦:方法と結果
NTIRE 2024 Challenge on Stereo Image Super-Resolution: Methods and Results ( http://arxiv.org/abs/2409.16947v1 ) ライセンス: Link先を確認 | Longguang Wang, Yulan Guo, Juncheng Li, Hongda Liu, Yang Zhao, Yingqian Wang, Zhi Jin, Shuhang Gu, Radu Timofte, | (参考訳) 本稿では,立体像超解像(SR)に関する第3回 NTIRE チャレンジを,新しい解法と結果に焦点をあてて要約する。
この課題の課題は、限られた計算予算の下でx4の倍率を持つ高解像度のステレオ画像対に高解像度のステレオ画像対を超解することである。
シングルイメージSRと比較して、この課題の主な課題は、別の視点で追加情報を利用する方法と、結果のステレオ一貫性を維持する方法である。
この挑戦には2つのトラックがあり、その中にはバイコビック劣化の1トラックと、実際の劣化の1トラックが含まれる。
合計108人、70人が各トラックに登録された。
テストフェーズでは、14と13のチームが、ベースラインよりも優れたPSNR(RGB)スコアで有効な結果の提出に成功した。
この課題はステレオ画像SRの新しいベンチマークを確立する。
This paper summarizes the 3rd NTIRE challenge on stereo image super-resolution (SR) with a focus on new solutions and results. The task of this challenge is to super-resolve a low-resolution stereo image pair to a high-resolution one with a magnification factor of x4 under a limited computational budget. Compared with single image SR, the major challenge of this challenge lies in how to exploit additional information in another viewpoint and how to maintain stereo consistency in the results. This challenge has 2 tracks, including one track on bicubic degradation and one track on real degradations. In total, 108 and 70 participants were successfully registered for each track, respectively. In the test phase, 14 and 13 teams successfully submitted valid results with PSNR (RGB) scores better than the baseline. This challenge establishes a new benchmark for stereo image SR. | 翻訳日:2024-09-27 03:25:18 公開日:2024-09-25 |
# DALDA: 適応誘導スケーリングによる拡散モデルとLLMを活用したデータ拡張
DALDA: Data Augmentation Leveraging Diffusion Model and LLM with Adaptive Guidance Scaling ( http://arxiv.org/abs/2409.16949v1 ) ライセンス: Link先を確認 | Kyuheon Jung, Yongdeuk Seo, Seongwoo Cho, Jaeyoung Kim, Hyun-seok Min, Sungchul Choi, | (参考訳) 本稿では,Large Language Model (LLM) とDiffusion Model (DM) を利用した効果的なデータ拡張フレームワークを提案する。
近年、DMは、いくつかのトレーニングイメージを補完する合成画像を生成する可能性を開放している。
しかし, 合成画像の多様性の増大は, ターゲット分布外のサンプル生成のリスクも高める。
提案手法では,新たな意味情報をLLMを介してテキストプロンプトに埋め込み,実画像を視覚的プロンプトとして活用することにより,意味的にリッチな画像を生成する。
生成した画像が目標分布内にあることを保証するため、各画像のCLIPSスコアに基づいて誘導重量を動的に調整し、多様性を制御する。
実験結果から,本手法は目標分布の順守を維持しつつ,多様性を向上した合成画像を生成することがわかった。
その結果、いくつかのベンチマークで数ショットの環境では、より効率的であることが証明された。
私たちのコードはhttps://github.com/kkyuhun94/daldaで利用可能です。
In this paper, we present an effective data augmentation framework leveraging the Large Language Model (LLM) and Diffusion Model (DM) to tackle the challenges inherent in data-scarce scenarios. Recently, DMs have opened up the possibility of generating synthetic images to complement a few training images. However, increasing the diversity of synthetic images also raises the risk of generating samples outside the target distribution. Our approach addresses this issue by embedding novel semantic information into text prompts via LLM and utilizing real images as visual prompts, thus generating semantically rich images. To ensure that the generated images remain within the target distribution, we dynamically adjust the guidance weight based on each image's CLIPScore to control the diversity. Experimental results show that our method produces synthetic images with enhanced diversity while maintaining adherence to the target distribution. Consequently, our approach proves to be more efficient in the few-shot setting on several benchmarks. Our code is available at https://github.com/kkyuhun94/dalda . | 翻訳日:2024-09-27 03:25:18 公開日:2024-09-25 |
# 拡散を考慮した不確実性に基づく適応計画による動的障害物回避
Dynamic Obstacle Avoidance through Uncertainty-Based Adaptive Planning with Diffusion ( http://arxiv.org/abs/2409.16950v1 ) ライセンス: Link先を確認 | Vineet Punyamoorty, Pascal Jutras-Dubé, Ruqi Zhang, Vaneet Aggarwal, Damon Conover, Aniket Bera, | (参考訳) 近年,強化学習をシーケンスモデリング問題とすることで,拡散モデルなどの生成モデルの利用を計画に活用している。
これらのモデルは、決定論的環境における長期状態軌跡の予測に有効であるが、動いた障害物を伴う動的設定の課題に直面している。
効果的な衝突回避には継続的監視と適応的な意思決定が必要である。
あらゆるタイミングで再計画することで安全性を確保できるが、重なり合う状態列の反復予測(特に拡散モデルでコストがかかるプロセス)により、計算上のオーバーヘッドが大幅に増大する。
本稿では,行動予測の不確実性に基づいた適応型生成計画手法を提案する。
本手法は, 衝突回避性能を維持しつつ, 頻繁で計算コストが高く, 冗長な再計画の必要性を最小限に抑える。
実験では, 平均軌道長が13.5%増加し, 長期計画に対する平均報酬が12.7%増加し, 衝突速度が低下し, 環境を安全に航行する能力が改善された。
By framing reinforcement learning as a sequence modeling problem, recent work has enabled the use of generative models, such as diffusion models, for planning. While these models are effective in predicting long-horizon state trajectories in deterministic environments, they face challenges in dynamic settings with moving obstacles. Effective collision avoidance demands continuous monitoring and adaptive decision-making. While replanning at every timestep could ensure safety, it introduces substantial computational overhead due to the repetitive prediction of overlapping state sequences -- a process that is particularly costly with diffusion models, known for their intensive iterative sampling procedure. We propose an adaptive generative planning approach that dynamically adjusts replanning frequency based on the uncertainty of action predictions. Our method minimizes the need for frequent, computationally expensive, and redundant replanning while maintaining robust collision avoidance performance. In experiments, we obtain a 13.5% increase in the mean trajectory length and a 12.7% increase in mean reward over long-horizon planning, indicating a reduction in collision rates and an improved ability to navigate the environment safely. | 翻訳日:2024-09-27 03:25:18 公開日:2024-09-25 |
# 任意時間付きイベントベース認識のためのパス適応時空間モデル
Path-adaptive Spatio-Temporal State Space Model for Event-based Recognition with Arbitrary Duration ( http://arxiv.org/abs/2409.16953v1 ) ライセンス: Link先を確認 | Jiazhou Zhou, Kanghao Chen, Lei Zhang, Lin Wang, | (参考訳) イベントカメラはバイオインスパイアされたセンサーで、強度変化を非同期に捉え、時間分解能の高いイベントストリームを出力する。
イベントカメラをオブジェクト/アクション認識に利用するために、既存の手法は主に固定時間間隔(または周波数)毎に第2レベルのイベントをサンプリングし集約する。
しかし、時空間関係をより長く、例えば、分レベルの出来事を捉え、時間周波数の異なる事象を一般化することはしばしば困難である。
このギャップを埋めるために, PAST-SSMと呼ばれる新しいフレームワークを提案し, 任意の時間(例えば0.1秒から4.5秒)の事象を認識し, 様々な推測周波数に一般化する。
私たちの重要な洞察は、エンコードされたイベントの特徴からステートスペースモデル(SSM)を通じて時空間関係を学習することです。
この目的を達成するために,我々はまず,集合されたイベントフレームを適応的にスキャンし,選択することで,一定次元の特徴を持つ特徴に変化期間のイベントをエンコードするPEAS(Path-Adaptive Event Aggregation and Scan)モジュールを提案する。
PEASの上に、符号化された特徴のランダム性と冗長性を最小限に抑えるために、新しいMulti-faceted Selection Guiding (MSG)損失を導入する。
これにより、異なる推測周波数にわたるモデルの一般化が微妙に強化される。
最後に、SSMは符号化された特徴から時空間特性をよりよく学習するために使用される。
さらに、我々は、コミュニティの利益のために任意の期間で、ArDVS100という名前のマイクロレベルイベントベースの認識データセットを構築します。
我々の手法は,DVS Action, SeAct, HARDVSデータセットにおいて, それぞれ+3.45%, +0.38%, +8.31%の先行技術より優れていた。
Event cameras are bio-inspired sensors that capture the intensity changes asynchronously and output event streams with distinct advantages, such as high temporal resolution. To exploit event cameras for object/action recognition, existing methods predominantly sample and aggregate events in a second-level duration at every fixed temporal interval (or frequency). However, they often face difficulties in capturing the spatiotemporal relationships for longer, e.g., minute-level, events and generalizing across varying temporal frequencies. To fill the gap, we present a novel framework, dubbed PAST-SSM, exhibiting superior capacity in recognizing events with arbitrary duration (e.g., 0.1s to 4.5s) and generalizing to varying inference frequencies. Our key insight is to learn the spatiotemporal relationships from the encoded event features via the state space model (SSM) -- whose linear complexity makes it ideal for modeling high temporal resolution events with longer sequences. To achieve this goal, we first propose a Path-Adaptive Event Aggregation and Scan (PEAS) module to encode events of varying duration into features with fixed dimensions by adaptively scanning and selecting aggregated event frames. On top of PEAS, we introduce a novel Multi-faceted Selection Guiding (MSG) loss to minimize the randomness and redundancy of the encoded features. This subtly enhances the model generalization across different inference frequencies. Lastly, the SSM is employed to better learn the spatiotemporal properties from the encoded features. Moreover, we build a minute-level event-based recognition dataset, named ArDVS100, with arbitrary duration for the benefit of the community. Extensive experiments prove that our method outperforms prior arts by +3.45%, +0.38% and +8.31% on the DVS Action, SeAct and HARDVS datasets, respectively. | 翻訳日:2024-09-27 03:25:18 公開日:2024-09-25 |
# マルチ言語音声認識における低音源言語に対する重み付きクロスエントロピー
Weighted Cross-entropy for Low-Resource Languages in Multilingual Speech Recognition ( http://arxiv.org/abs/2409.16954v1 ) ライセンス: Link先を確認 | Andrés Piñeiro-Martín, Carmen García-Mateo, Laura Docío-Fernández, María del Carmen López-Pérez, Georg Rehm, | (参考訳) 本稿では,低リソース言語を多言語自動音声認識(ASR)システムに統合することの課題に対処する。
本稿では,非バランスなデータセットによく用いられる重み付きクロスエントロピーの新たな応用を導入し,連続多言語学習の文脈において,低リソース言語を事前学習された多言語ASRモデルに統合することを容易にする。
言語重み付けされた動的クロスエントロピーとデータ拡張を用いて,5つの高ソース言語と1つの低リソース言語でWhisper多言語ASRモデルを微調整する。
その結果,従来のWhisperモデルに比べて6.69%の単語誤り率(WER)が低下し,48.86%のWERが削減された。
さらに,提案手法では6言語で平均3.29%のWER削減が可能であり,高リソース言語では劣化が見られない。
This paper addresses the challenge of integrating low-resource languages into multilingual automatic speech recognition (ASR) systems. We introduce a novel application of weighted cross-entropy, typically used for unbalanced datasets, to facilitate the integration of low-resource languages into pre-trained multilingual ASR models within the context of continual multilingual learning. We fine-tune the Whisper multilingual ASR model on five high-resource languages and one low-resource language, employing language-weighted dynamic cross-entropy and data augmentation. The results show a remarkable 6.69% word error rate (WER) reduction for the low-resource language compared to the fine-tuned model without applying our approach, and a 48.86% WER reduction compared to the original Whisper model. In addition, our approach yields an average WER reduction of 3.29% across the six languages, showing no degradation for the high-resource languages. | 翻訳日:2024-09-27 03:25:18 公開日:2024-09-25 |
# インフォームド深層階層分類--非標準解析によるアプローチ
Informed deep hierarchical classification: a non-standard analysis inspired approach ( http://arxiv.org/abs/2409.16956v1 ) ライセンス: Link先を確認 | Lorenzo Fiaschi, Marco Cococcioni, | (参考訳) 本研究は, 厳密な親子構造に組織された複数のラベルによるデータ分類の問題という, 階層的分類課題に対する新しいアプローチを提案する。
出力層の前に配置された特定のプロジェクション演算子を備えた多出力ディープニューラルネットワークで構成されている。
辞書型ハイブリッドディープニューラルネットワーク(LH-DNN)と呼ばれるアーキテクチャの設計は、辞書型多目的最適化、非標準分析、ディープラーニングといった、異なる研究分野のツールを組み合わせることで実現されている。
このアプローチの有効性を評価するために、結果として得られるネットワークは、階層的な分類タスクに適した畳み込みニューラルネットワークであるB-CNN、CIFAR10、CIFAR100(複数の現実世界のアプリケーションに採用され、調整される前に提案された)、Fashion-MNISTベンチマークと比較される。
エビデンスによれば、LH-DNNは、特に階層関係の学習において、アドホック損失関数を重み付けすることなく、学習パラメータの劇的な減少、エポックの訓練、計算時間に直面して、優れた性能を達成できる。
This work proposes a novel approach to the deep hierarchical classification task, i.e., the problem of classifying data according to multiple labels organized in a rigid parent-child structure. It consists in a multi-output deep neural network equipped with specific projection operators placed before each output layer. The design of such an architecture, called lexicographic hybrid deep neural network (LH-DNN), has been possible by combining tools from different and quite distant research fields: lexicographic multi-objective optimization, non-standard analysis, and deep learning. To assess the efficacy of the approach, the resulting network is compared against the B-CNN, a convolutional neural network tailored for hierarchical classification tasks, on the CIFAR10, CIFAR100 (where it has been originally and recently proposed before being adopted and tuned for multiple real-world applications) and Fashion-MNIST benchmarks. Evidence states that an LH-DNN can achieve comparable if not superior performance, especially in the learning of the hierarchical relations, in the face of a drastic reduction of the learning parameters, training epochs, and computational time, without the need for ad-hoc loss functions weighting values. | 翻訳日:2024-09-27 03:25:18 公開日:2024-09-25 |
# 方程式の解法におけるメタヒューリスティック法
Metaheuristic Method for Solving Systems of Equations ( http://arxiv.org/abs/2409.16958v1 ) ライセンス: Link先を確認 | Samson Odan, | (参考訳) 本研究では, 遺伝的アルゴリズム(GA)による線形系と非線形系の両方の方程式の解法の有効性について検討し, ガウス的除去法, ニュートン法, レバンス=マルカート法などの従来の手法との比較を行った。
GAは、その堅牢性と柔軟性を実証し、さまざまなテストケースにわたる正確なソリューションを一貫して提供した。
GAの重要な利点は、ソリューション空間を広く探索し、複数のソリューションの集合を明らかにする能力である。
この特徴は、複数の有効な解が存在する複雑な非線形システムにおいて特に有益であることが証明され、複雑な解の風景をナビゲートする上でのGAの優位性を強調した。
This study investigates the effectiveness of Genetic Algorithms (GAs) in solving both linear and nonlinear systems of equations, comparing their performance to traditional methods such as Gaussian Elimination, Newton's Method, and Levenberg-Marquardt. The GA consistently delivered accurate solutions across various test cases, demonstrating its robustness and flexibility. A key advantage of the GA is its ability to explore the solution space broadly, uncovering multiple sets of solutions -- a feat that traditional methods, which typically converge to a single solution, cannot achieve. This feature proved especially beneficial in complex nonlinear systems, where multiple valid solutions exist, highlighting the GA's superiority in navigating intricate solution landscapes. | 翻訳日:2024-09-27 03:25:18 公開日:2024-09-25 |
# RESAA:複合論理ロックの除去と構造解析
RESAA: A Removal and Structural Analysis Attack Against Compound Logic Locking ( http://arxiv.org/abs/2409.16959v1 ) ライセンス: Link先を確認 | Felipe Almeida, Levent Aksoy, Samuel Pagliarini, | (参考訳) 半導体産業のファブレス集積回路(IC)製造へのパラダイムシフトは、海賊行為、偽造、ハードウェアのトロイの木馬、過剰生産など、セキュリティ上の脅威をもたらしている。
これらの課題に対して、設計を保護し、セキュリティリスクを軽減するために、論理ロック(LL)を含む様々な対策が提案されている。
LLはおそらく、ICに対する最も研究されている知的財産権(IP)保護形態である。
複合論理ロック(CLL)の導入により、攻撃に対する回復力を改善するために2つのLL技術が同時に使用されるようになった。
しかし、LLテクニック、特にCLLの脆弱性をさらに調査する必要がある。
本稿では,CLLでロックされた設計を分類し,重要なゲートを識別し,秘密鍵を明らかにするための様々な攻撃を実行するための新しいフレームワークRESAAを提案する。
RESAAは特定のLLテクニックに依存しないため、CLLのセキュリティシナリオに関する包括的な洞察を提供する。
実験により、RESAAがクリティカルゲートを識別し、異なるLL技術に対応するセグメントを識別し、異なる脅威モデルに基づいて関連するキーを判定する効果が示された。
特に、オラクルレス脅威モデルでは、RESAAは比較的複雑なITC'99ベンチマーク回路で92.6%の精度を達成できる。
本報告では,CLL 変種が我々のフレームワークに脆弱性を示すため,LL 手法の評価と思慮深い選択の重要性を強調した。
RESAAはコミュニティ全体でもオープンソースである。
The semiconductor industry's paradigm shift towards fabless integrated circuit (IC) manufacturing has introduced security threats, including piracy, counterfeiting, hardware Trojans, and overproduction. In response to these challenges, various countermeasures, including Logic locking (LL), have been proposed to protect designs and mitigate security risks. LL is likely the most researched form of intellectual property (IP) protection for ICs. A significant advance has been made with the introduction of compound logic locking (CLL), where two LL techniques are concurrently utilized for improved resiliency against attacks. However, the vulnerabilities of LL techniques, particularly CLL, need to be explored further. This paper presents a novel framework, RESAA, designed to classify CLL-locked designs, identify critical gates, and execute various attacks to uncover secret keys. RESAA is agnostic to specific LL techniques, offering comprehensive insights into CLL's security scenarios. Experimental results demonstrate RESAA's efficacy in identifying critical gates, distinguishing segments corresponding to different LL techniques, and determining associated keys based on different threat models. In particular, for the oracle-less threat model, RESAA can achieve up to 92.6% accuracy on a relatively complex ITC'99 benchmark circuit. The results reported in this paper emphasize the significance of evaluation and thoughtful selection of LL techniques, as all studied CLL variants demonstrated vulnerability to our framework. RESAA is also open-sourced for the community at large. | 翻訳日:2024-09-27 03:25:18 公開日:2024-09-25 |
# 相対エントロピーの次元減少と勾配流
Dimension reduction and the gradient flow of relative entropy ( http://arxiv.org/abs/2409.16963v1 ) ライセンス: Link先を確認 | Ben Weinkove, | (参考訳) 次元減少は科学で広く用いられ、高次元データを低次元空間にマッピングする。
確率的近傍埋め込み(SNE)技術の基礎となる数学的モデルと,その一般的な変種であるt-SNEについて検討する。
高次元の点間の距離は、点の対の確率分布を定義し、その点がどれだけ類似しているかを測定するために用いられる。
目的は、これらの点を最適な方法で低次元にマッピングし、類似点がより近いようにすることである。
これは、2つの確率分布間の相対エントロピーを最小化する。
相対エントロピーの勾配流を考察し,その長期挙動を解析する。
これは非線形常微分方程式系の挙動に関する自己完備数学的問題である。
時間が無限大になる傾向があるため、進化する集合の直径の最適境界を求める。
特に、直径は t-SNE バージョンでは爆発するが、SNE ではなお制限されている。
Dimension reduction, widely used in science, maps high-dimensional data into low-dimensional space. We investigate a basic mathematical model underlying the techniques of stochastic neighborhood embedding (SNE) and its popular variant t-SNE. Distances between points in high dimensions are used to define a probability distribution on pairs of points, measuring how similar the points are. The aim is to map these points to low dimensions in an optimal way so that similar points are closer together. This is carried out by minimizing the relative entropy between two probability distributions. We consider the gradient flow of the relative entropy and analyze its long-time behavior. This is a self-contained mathematical problem about the behavior of a system of nonlinear ordinary differential equations. We find optimal bounds for the diameter of the evolving sets as time tends to infinity. In particular, the diameter may blow up for the t-SNE version, but remains bounded for SNE. | 翻訳日:2024-09-27 03:25:18 公開日:2024-09-25 |
# ABCFair:フェアネス法の比較のための適応型ベンチマークアプローチ
ABCFair: an Adaptable Benchmark approach for Comparing Fairness Methods ( http://arxiv.org/abs/2409.16965v1 ) ライセンス: Link先を確認 | MaryBeth Defrance, Maarten Buyl, Tijl De Bie, | (参考訳) 機械学習におけるバイアスを緩和することにより、繊細な特徴に対する公平性を追求する多くの手法が実装されている。
しかし、各手法が取り組む問題設定は、介入の段階、繊細な特徴の構成、公平性の概念、出力の分布など、大きく異なる。
バイナリ分類においても、これらの微妙な違いは、偏差緩和問題はもともとどのようにフレーム化されていたかに強く依存するため、フェアネス法をベンチマークするのに非常に複雑である。
したがって、ABCFairは実世界の問題設定のデシラタに適応し、あらゆるユースケースにおけるメソッド間の適切なコンパビリティを実現するためのベンチマーク手法である。
我々はABCFairを、大規模、伝統的両方のデータセットと二重ラベル(バイアス付き、非バイアス付き)データセットの事前、内、および後処理の方法に適用し、フェアネスと精度のトレードオフを横取りする。
Numerous methods have been implemented that pursue fairness with respect to sensitive features by mitigating biases in machine learning. Yet, the problem settings that each method tackles vary significantly, including the stage of intervention, the composition of sensitive features, the fairness notion, and the distribution of the output. Even in binary classification, these subtle differences make it highly complicated to benchmark fairness methods, as their performance can strongly depend on exactly how the bias mitigation problem was originally framed. Hence, we introduce ABCFair, a benchmark approach which allows adapting to the desiderata of the real-world problem setting, enabling proper comparability between methods for any use case. We apply ABCFair to a range of pre-, in-, and postprocessing methods on both large-scale, traditional datasets and on a dual label (biased and unbiased) dataset to sidestep the fairness-accuracy trade-off. | 翻訳日:2024-09-27 03:25:18 公開日:2024-09-25 |
# 深部強化学習を用いた効率的な目標マッピングのためのマルチロボットインフォーマティブパス計画
Multi-Robot Informative Path Planning for Efficient Target Mapping using Deep Reinforcement Learning ( http://arxiv.org/abs/2409.16967v1 ) ライセンス: Link先を確認 | Apoorva Vashisth, Dipam Patel, Damon Conover, Aniket Bera, | (参考訳) 自律ロボットは、その効率性と労働コストの低さから、いくつかのマッピングやデータ収集タスクに採用されている。
これらのタスクでは、ロボットは経路長やミッションタイムなどのリソース予算に制約を課しながら、未知の環境における関心のターゲットをマッピングする必要がある。
これは、各ロボットが環境中の静的障害物から衝突を検出し、回避するだけでなく、ロボット同士の衝突を避けるために、他のロボットの軌道をモデル化する必要があるため、難しい問題である。
本研究では,未知の3次元環境における関心のターゲットをマップするマルチロボット情報経路計画のための新しい深層強化学習手法を提案する。
我々のアプローチの重要な側面は、他のロボットの軌道をモデル化し、通信計画とロボット間衝突回避を可能にする拡張グラフである。
我々は、集中型学習と分散型実行パラダイムを通じて、分散化された強化学習政策を訓練する。
トレーニングが完了すると、ポリシーはさまざまなロボットにスケーラブルになり、再トレーニングは不要になります。
提案手法は,他の最先端のマルチロボット目標マッピング手法よりも33.75%向上する。
私たちは、コードとモデルをhttps://github.com/AccGen99/marl_ippでオープンソース化しました。
Autonomous robots are being employed in several mapping and data collection tasks due to their efficiency and low labor costs. In these tasks, the robots are required to map targets-of-interest in an unknown environment while constrained to a given resource budget such as path length or mission time. This is a challenging problem as each robot has to not only detect and avoid collisions from static obstacles in the environment but also has to model other robots' trajectories to avoid inter-robot collisions. We propose a novel deep reinforcement learning approach for multi-robot informative path planning to map targets-of-interest in an unknown 3D environment. A key aspect of our approach is an augmented graph that models other robots' trajectories to enable planning for communication and inter-robot collision avoidance. We train our decentralized reinforcement learning policy via the centralized training and decentralized execution paradigm. Once trained, our policy is also scalable to varying number of robots and does not require re-training. Our approach outperforms other state-of-the-art multi-robot target mapping approaches by 33.75% in terms of the number of discovered targets-of-interest. We open-source our code and model at: https://github.com/AccGen99/marl_ipp | 翻訳日:2024-09-27 03:25:18 公開日:2024-09-25 |
# 無線人工知能パラダイムのためのハードウェア・イン・ザ・ループによる実環境へのブリッジ
Bridge to Real Environment with Hardware-in-the-loop for Wireless Artificial Intelligence Paradigms ( http://arxiv.org/abs/2409.16968v1 ) ライセンス: Link先を確認 | Jeffrey Redondo, Nauman Aslam, Juan Zhang, Zhenhui Yuan, | (参考訳) 今日では、Vehicular Adhoc Network(VANET)の無線標準IEEE802.11pを改善する機械学習(ML)ソリューションが、シミュレーションの世界において一般的に評価されている。
同時に、このアプローチは車両のコストが高いため、実際のテストと比べてコスト効率が良い可能性がある。
これらのソリューションが現実の世界で実装されると、予期せぬ結果が起きるリスクがあり、おそらく無駄なリソースにつながる。
この課題を軽減するために、このハードウェア・イン・ザ・ループは、現実世界でテストし、世界をシミュレートする機会を可能にするために前進する手段である。
そこで我々は、人工知能、複数サービス、およびHDマップデータ(LiDAR)をシミュレーションと実世界の両方の環境でテストするための、先駆的なハードウェア・イン・ザ・ループを開発した。
Nowadays, many machine learning (ML) solutions to improve the wireless standard IEEE802.11p for Vehicular Adhoc Network (VANET) are commonly evaluated in the simulated world. At the same time, this approach could be cost-effective compared to real-world testing due to the high cost of vehicles. There is a risk of unexpected outcomes when these solutions are implemented in the real world, potentially leading to wasted resources. To mitigate this challenge, the hardware-in-the-loop is the way to move forward as it enables the opportunity to test in the real world and simulated worlds together. Therefore, we have developed what we believe is the pioneering hardware-in-the-loop for testing artificial intelligence, multiple services, and HD map data (LiDAR), in both simulated and real-world settings. | 翻訳日:2024-09-27 03:25:18 公開日:2024-09-25 |
# 動的オンデバイスLDMパーソナライズのための適応型自己監督学習戦略
Adaptive Self-Supervised Learning Strategies for Dynamic On-Device LLM Personalization ( http://arxiv.org/abs/2409.16973v1 ) ライセンス: Link先を確認 | Rafael Mendoza, Isabella Cruz, Richard Liu, Aarav Deshmukh, David Williams, Jesscia Peng, Rohan Iyer, | (参考訳) 大規模言語モデル(LLM)は、私たちがテクノロジと対話する方法に革命をもたらしたが、個々のユーザの好みに対するパーソナライズは、特にオンデバイスアプリケーションにおいて重要な課題である。
従来のメソッドはラベル付きデータセットに大きく依存することが多く、リソース集約化が可能である。
これらの課題に対処するために,自己指導型学習技術を用いてLSMを動的にパーソナライズする適応型自己監督学習戦略(ASLS)を提案する。
インタラクションデータを収集するユーザプロファイリング層と、リアルタイムモデル微調整のためのニューラル適応層とを備える。
この革新的なアプローチは、ユーザからのフィードバックから継続的学習を可能にし、モデルがユーザ固有のコンテキストと密接に一致した応答を生成することを可能にする。
ASLSの適応メカニズムは、計算要求を最小限に抑え、パーソナライズ効率を向上させる。
様々なユーザシナリオにわたる実験結果は、ユーザエンゲージメントと満足度を高めるためのASLSの優れたパフォーマンスを示し、LDMをデバイス上での高応答性とコンテキスト認識システムとして再定義する可能性を強調している。
Large language models (LLMs) have revolutionized how we interact with technology, but their personalization to individual user preferences remains a significant challenge, particularly in on-device applications. Traditional methods often depend heavily on labeled datasets and can be resource-intensive. To address these issues, we present Adaptive Self-Supervised Learning Strategies (ASLS), which utilizes self-supervised learning techniques to personalize LLMs dynamically. The framework comprises a user profiling layer for collecting interaction data and a neural adaptation layer for real-time model fine-tuning. This innovative approach enables continuous learning from user feedback, allowing the model to generate responses that align closely with user-specific contexts. The adaptive mechanisms of ASLS minimize computational demands and enhance personalization efficiency. Experimental results across various user scenarios illustrate the superior performance of ASLS in boosting user engagement and satisfaction, highlighting its potential to redefine LLMs as highly responsive and context-aware systems on-device. | 翻訳日:2024-09-27 03:25:18 公開日:2024-09-25 |
# 大規模言語モデルのデコード:社会・技術的影響,制約,創発的質問の体系的概要
Decoding Large-Language Models: A Systematic Overview of Socio-Technical Impacts, Constraints, and Emerging Questions ( http://arxiv.org/abs/2409.16974v1 ) ライセンス: Link先を確認 | Zeyneb N. Kaya, Souvick Ghosh, | (参考訳) 近年,大規模言語モデル (LLM) の能力は急速に進歩し,自然言語処理 (NLP) と人工知能 (AI) の分野に大きな革命をもたらした。
そこで本研究では, LLMの発展, 影響, 限界の顕著なテーマと方向性を明らかにするために, 文献を体系的に調査する。
本研究の目的は, LLM研究の目的, 方法論, 限界, 今後の方向性である。
これには、開発に関する責任ある考察、アルゴリズムの改善、倫理的課題、LLM開発における社会的影響が含まれる。
本稿では,LLMにおける最近の研究の厳密かつ包括的な概観と今後の発展に向けた方向性を明らかにする。
この記事では、倫理的考察とともに、社会に肯定的な影響を与える可能性のある適用領域を強調します。
There have been rapid advancements in the capabilities of large language models (LLMs) in recent years, greatly revolutionizing the field of natural language processing (NLP) and artificial intelligence (AI) to understand and interact with human language. Therefore, in this work, we conduct a systematic investigation of the literature to identify the prominent themes and directions of LLM developments, impacts, and limitations. Our findings illustrate the aims, methodologies, limitations, and future directions of LLM research. It includes responsible development considerations, algorithmic improvements, ethical challenges, and societal implications of LLM development. Overall, this paper provides a rigorous and comprehensive overview of current research in LLM and identifies potential directions for future development. The article highlights the application areas that could have a positive impact on society along with the ethical considerations. | 翻訳日:2024-09-27 03:25:18 公開日:2024-09-25 |
# 人間中心の説明可能なAIのためのトレーニングデータ属性のユーザ焦点研究に向けて
Towards User-Focused Research in Training Data Attribution for Human-Centered Explainable AI ( http://arxiv.org/abs/2409.16978v1 ) ライセンス: Link先を確認 | Elisa Nguyen, Johannes Bertram, Evgenii Kortukov, Jean Y. Song, Seong Joon Oh, | (参考訳) 説明可能なAI(XAI)は、AIを人間にとって理解しやすく有用なものにすることを目的としているが、形式主義やソリューション主義に依存しすぎており、ユーザのニーズよりも数学的健全性に重点を置いていると批判されている。
デザイン思考にインスパイアされたこのボトムアップアプローチの代替として、XAIリサーチコミュニティは、ユーザ関連性を確保するために、トップダウンでユーザ中心の視点を採用するべきです。
我々はこれを,XAI の比較的若いサブフィールドである Training Data Attribution (TDA) で説明する。
TDA研究の急増と競争の激化に伴い、フィールドはソリューション主義の同じパターンを繰り返すリスクを負う。
我々は、TDAに関連する潜在的なユーザニーズを特定するために、多種多様なAI実践者グループとニーズフィンディング研究を行った。
インタビュー (N=10) と組織的調査 (N=31) を通じて, 現在見過ごされている新しいTDAタスクを明らかにした。
我々はTDAとXAIのコミュニティにこれらの新しい課題について検討し、研究成果のユーザ関連性を改善するよう依頼する。
While Explainable AI (XAI) aims to make AI understandable and useful to humans, it has been criticised for relying too much on formalism and solutionism, focusing more on mathematical soundness than user needs. We propose an alternative to this bottom-up approach inspired by design thinking: the XAI research community should adopt a top-down, user-focused perspective to ensure user relevance. We illustrate this with a relatively young subfield of XAI, Training Data Attribution (TDA). With the surge in TDA research and growing competition, the field risks repeating the same patterns of solutionism. We conducted a needfinding study with a diverse group of AI practitioners to identify potential user needs related to TDA. Through interviews (N=10) and a systematic survey (N=31), we uncovered new TDA tasks that are currently largely overlooked. We invite the TDA and XAI communities to consider these novel tasks and improve the user relevance of their research outcomes. | 翻訳日:2024-09-27 03:15:16 公開日:2024-09-25 |
# AXCEL:LLMを用いた自動eXplainable Consistency評価
AXCEL: Automated eXplainable Consistency Evaluation using LLMs ( http://arxiv.org/abs/2409.16984v1 ) ライセンス: Link先を確認 | P Aditya Sreekar, Sahil Verma, Suransh Chopra, Sarik Ghazarian, Abhishek Persad, Narayanan Sadagopan, | (参考訳) 大規模言語モデル(LLM)は、様々なタスクにおいて産業と学術の両方で広く使われているが、生成したテキスト応答の一貫性を評価することは依然として課題である。
ROUGEやBLEUのような伝統的な指標は、人間の判断と弱い相関関係を示している。
自然言語推論(NLI)を用いたより高度なメトリクスは、相関性の改善を示しているが、実装が複雑であり、ドメイン間の一般化が不十分で説明不可能なため、ドメイン固有のトレーニングを必要としている。
より最近では、LCMを評価指標として使用するプロンプトベースのメトリクスが登場しており、実装が容易だが、説明性に欠けており、汎用性を制限するタスク固有のプロンプトに依存している。
本稿では,LLMを用いた自動eXplainable Consistency Evaluation(AXCEL)を紹介する。
AXCELは、プロンプトを変更することなく複数のタスクに適用できる一般化可能な計量でもある。
AXCELは、要約における不整合を8.7%、自由テキスト生成を6.2%、データからテキストへの変換タスクを29.4%、非プロンプトとプロンプトベースのSOTA(State-of-the-art)の両方で上回っている。
また、基礎となるLCMがプロンプトベースメトリックのパフォーマンスに与える影響を評価し、最新のLSMでSOTAプロンプトベースメトリクスを公平に比較する。
さらに, AXCEL はオープンソース LLM を用いて高い性能を示す。
Large Language Models (LLMs) are widely used in both industry and academia for various tasks, yet evaluating the consistency of generated text responses continues to be a challenge. Traditional metrics like ROUGE and BLEU show a weak correlation with human judgment. More sophisticated metrics using Natural Language Inference (NLI) have shown improved correlations but are complex to implement, require domain-specific training due to poor cross-domain generalization, and lack explainability. More recently, prompt-based metrics using LLMs as evaluators have emerged; while they are easier to implement, they still lack explainability and depend on task-specific prompts, which limits their generalizability. This work introduces Automated eXplainable Consistency Evaluation using LLMs (AXCEL), a prompt-based consistency metric which offers explanations for the consistency scores by providing detailed reasoning and pinpointing inconsistent text spans. AXCEL is also a generalizable metric which can be adopted to multiple tasks without changing the prompt. AXCEL outperforms both non-prompt and prompt-based state-of-the-art (SOTA) metrics in detecting inconsistencies across summarization by 8.7%, free text generation by 6.2%, and data-to-text conversion tasks by 29.4%. We also evaluate the influence of underlying LLMs on prompt based metric performance and recalibrate the SOTA prompt-based metrics with the latest LLMs for fair comparison. Further, we show that AXCEL demonstrates strong performance using open source LLMs. | 翻訳日:2024-09-27 03:15:16 公開日:2024-09-25 |
# 大規模言語モデルの事前学習における重要データ選択のための多様性の調和
Harnessing Diversity for Important Data Selection in Pretraining Large Language Models ( http://arxiv.org/abs/2409.16986v1 ) ライセンス: Link先を確認 | Chi Zhang, Huaping Zhong, Kuan Zhang, Chengliang Chai, Rui Wang, Xinlin Zhuang, Tianyi Bai, Jiantao Qiu, Lei Cao, Ye Yuan, Guoren Wang, Conghui He, | (参考訳) データの選択は、大規模で利用可能なトレーニングコーパスの品質の変化を考えると、大規模言語モデルの事前学習において非常に重要である。
これを実現するために、研究者は現在、データインスタンスの重要性を測定するためにデータインフルエンサーの利用を調査している。
その結果、最高スコアの上位$kのインスタンスを選択する。
しかし、このアプローチにはいくつかの制限がある。
1) 利用可能なすべてのデータの影響を計算するのは時間を要する。
2) 選択したデータインスタンスは十分に多様性がないため、事前訓練されたモデルの様々な下流タスクに効果的に一般化する能力を阻害する可能性がある。
本稿では、データの影響を利用して、品質と多様性を両立させるデータ選択手法である「texttt{Quad}」を紹介する。
特に、注意層が広範囲のセマンティックな詳細を捉えていることに注意して、アクセラレーションされた$iHVP$計算方法を注意層に適用し、データの影響を評価する能力、すなわち、$iHVP$の品質を向上しました。
多様性のために、 \texttt{Quad}はデータセットを、各クラスタ内の同様のデータインスタンスと、異なるクラスタにわたる多様なインスタンスにクラスタする。
各クラスタに対して、データを選択した場合、すべてのインスタンスの処理を防止するために、影響を評価するためにいくつかのサンプルを取ります。
選択するクラスタを決定するために,従来のマルチアーマッドバンド方式を用いて,各クラスタをアームとして扱う。
このアプローチでは、非常に影響力のあるインスタンス(高品質の保証)や、より頻度の低いクラスタ(多様性の保証)のクラスタが好まれるため、品質と多様性のバランスが良好になる。
Data selection is of great significance in pre-training large language models, given the variation in quality within the large-scale available training corpora. To achieve this, researchers are currently investigating the use of data influence to measure the importance of data instances, $i.e.,$ a high influence score indicates that incorporating this instance to the training set is likely to enhance the model performance. Consequently, they select the top-$k$ instances with the highest scores. However, this approach has several limitations. (1) Computing the influence of all available data is time-consuming. (2) The selected data instances are not diverse enough, which may hinder the pre-trained model's ability to generalize effectively to various downstream tasks. In this paper, we introduce \texttt{Quad}, a data selection approach that considers both quality and diversity by using data influence to achieve state-of-the-art pre-training results. In particular, noting that attention layers capture extensive semantic details, we have adapted the accelerated $iHVP$ computation methods for attention layers, enhancing our ability to evaluate the influence of data, $i.e.,$ its quality. For the diversity, \texttt{Quad} clusters the dataset into similar data instances within each cluster and diverse instances across different clusters. For each cluster, if we opt to select data from it, we take some samples to evaluate the influence to prevent processing all instances. To determine which clusters to select, we utilize the classic Multi-Armed Bandit method, treating each cluster as an arm. This approach favors clusters with highly influential instances (ensuring high quality) or clusters that have been selected less frequently (ensuring diversity), thereby well balancing between quality and diversity. | 翻訳日:2024-09-27 03:15:16 公開日:2024-09-25 |
# 顔はどんな顔でも撮れる3D顔生成システム
Single Image, Any Face: Generalisable 3D Face Generation ( http://arxiv.org/abs/2409.16990v1 ) ライセンス: Link先を確認 | Wenqing Wang, Haosen Yang, Josef Kittler, Xiatian Zhu, | (参考訳) 単一の制約のない画像から3次元の人間の顔アバターを作成することは、多くの現実世界の視覚とグラフィックアプリケーションの基礎となる基本的なタスクである。
生成モデルにおける大きな進歩にもかかわらず、既存の手法は人間の顔の設計にはあまり適していないか、制限的な訓練領域から制約のない顔画像への一般化に失敗している。
これらの制約に対処するために,多視点一貫した拡散フレームワークにおいて,制約のない単一画像入力を伴う3次元顔を生成する新しいモデルGen3D-Faceを提案する。
特定の入力画像が与えられた場合、まずマルチビュー画像を生成し、続いてニューラルサーフェス構築を行う。
顔形状情報を一般化可能な方法で組み込むために,入力条件付きメッシュ推定と合成多視点学習データを利用する。
重要なことは、異なる視点間の外観整合性を高めるために、多視点共同生成方式を導入することである。
私たちの知る限りでは、ドメイン全体にわたる一般的な人間の対象のための単一の画像から、フォトリアリスティックな3D顔アバターを作成するための最初の試みであり、ベンチマークである。
大規模な実験により,従来のドメイン外歌唱画像の3次元顔生成法とドメイン内設定法のトップコンペティションに対して,提案手法の優位性を実証した。
The creation of 3D human face avatars from a single unconstrained image is a fundamental task that underlies numerous real-world vision and graphics applications. Despite the significant progress made in generative models, existing methods are either less suited in design for human faces or fail to generalise from the restrictive training domain to unconstrained facial images. To address these limitations, we propose a novel model, Gen3D-Face, which generates 3D human faces with unconstrained single image input within a multi-view consistent diffusion framework. Given a specific input image, our model first produces multi-view images, followed by neural surface construction. To incorporate face geometry information in a generalisable manner, we utilise input-conditioned mesh estimation instead of ground-truth mesh along with synthetic multi-view training data. Importantly, we introduce a multi-view joint generation scheme to enhance appearance consistency among different views. To the best of our knowledge, this is the first attempt and benchmark for creating photorealistic 3D human face avatars from single images for generic human subject across domains. Extensive experiments demonstrate the superiority of our method over previous alternatives for out-of-domain singe image 3D face generation and top competition for in-domain setting. | 翻訳日:2024-09-27 03:15:16 公開日:2024-09-25 |
# スロー特徴分析と継承表現の関係について
What is the relationship between Slow Feature Analysis and the Successor Representation? ( http://arxiv.org/abs/2409.16991v1 ) ライセンス: Link先を確認 | Eddie Seabrook, Laurenz Wiskott, | (参考訳) (これは進行中の作業です。フィードバックは歓迎です)
遅い特徴解析(SFA)と後継表現(SR)を解析的に比較する。
SFAとSRは、機械学習の異なる分野に由来するが、それらは数学と、それらが敏感である情報のタイプの両方において、重要な特性を共有している。
この研究は、これらの2つの軸に沿った関係を研究する。
特に、SFAアルゴリズムの複数の変種を解析的に探索し、MDPの設定に適用し、SRや他の関連する量を含む固有値問題の族に繋がる。
これらの結果の固有値問題は、格子世界のおもちゃの設定で説明され、そこでは、しばしばSRに付随する位置や格子のような場が、SFAを用いて等しく生成できることが示される。
(This is a work in progress. Feedback is welcome) An analytical comparison is made between slow feature analysis (SFA) and the successor representation (SR). While SFA and the SR stem from distinct areas of machine learning, they share important properties, both in terms of their mathematics and the types of information they are sensitive to. This work studies their connection along these two axes. In particular, multiple variants of the SFA algorithm are explored analytically and then applied to the setting of an MDP, leading to a family of eigenvalue problems involving the SR and other related quantities. These resulting eigenvalue problems are then illustrated in the toy setting of a gridworld, where it is demonstrated that the place- and grid-like fields often associated to the SR can equally be generated using SFA. | 翻訳日:2024-09-27 03:15:16 公開日:2024-09-25 |
# INT-Flashアテンション:INT8量子化のためのFlashアテンションの実現
INT-FlashAttention: Enabling Flash Attention for INT8 Quantization ( http://arxiv.org/abs/2409.16997v1 ) ライセンス: Link先を確認 | Shimao Chen, Zirui Liu, Zhiying Wu, Ce Zheng, Peizhuang Cong, Zihan Jiang, Lei Su, Tong Yang, | (参考訳) 大規模言語モデル(LLM)の基礎として、自己保持モジュールは、シーケンス長に関して2次時間とメモリの複雑さの課題に直面している。
FlashAttentionは注意計算を加速し、GPUメモリ階層を活用することでメモリ使用量を削減する。
有望な研究方向は、FlashAttentionと量子化メソッドを統合することである。
本稿では、最初のINT8量子化アーキテクチャであるINT-FlashAttentionを紹介し、Ampere GPUにおけるFlashAttentionの推論速度を大幅に向上させる。
我々は、完全なINT8アクティベートとGEMM(GeneralMatrix-multiplication)カーネルを備えたINT-FlashAttentionプロトタイプを実装し、完全なINT8入力を持つ最初のアテンション演算子となった。
一般的なトークンレベルのポストトレーニング量子化フレームワークとして、INT-FlashAttentionはINT4などの他のデータフォーマットとも互換性がある。
実験結果から、INT-FlashAttentionはFP16およびFP8データフォーマットの標準FlashAttentionと比較して、推論速度が72%速く、量子化エラーが82%小さいことがわかった。
As the foundation of large language models (LLMs), self-attention module faces the challenge of quadratic time and memory complexity with respect to sequence length. FlashAttention accelerates attention computation and reduces its memory usage by leveraging the GPU memory hierarchy. A promising research direction is to integrate FlashAttention with quantization methods. This paper introduces INT-FlashAttention, the first INT8 quantization architecture compatible with the forward workflow of FlashAttention, which significantly improves the inference speed of FlashAttention on Ampere GPUs. We implement our INT-FlashAttention prototype with fully INT8 activations and general matrix-multiplication (GEMM) kernels, making it the first attention operator with fully INT8 input. As a general token-level post-training quantization framework, INT-FlashAttention is also compatible with other data formats like INT4, etc. Experimental results show INT-FlashAttention achieves 72% faster inference speed and 82% smaller quantization error compared to standard FlashAttention with FP16 and FP8 data format. | 翻訳日:2024-09-27 03:15:16 公開日:2024-09-25 |
# PitRSDNet : 手術継続期間予測
内視鏡下下垂体手術
PitRSDNet: Predicting Intra-operative Remaining Surgery Duration in Endoscopic Pituitary Surgery ( http://arxiv.org/abs/2409.16998v1 ) ライセンス: Link先を確認 | Anjana Wijekoon, Adrito Das, Roxana R. Herrera, Danyal Z. Khan, John Hanrahan, Eleanor Carter, Valpuri Luoma, Danail Stoyanov, Hani J. Marcus, Sophia Bano | (参考訳) 正確な手術中の手術継続期間(RSD)予測は、麻酔薬や薬物の投与時期をより正確に決定し、病院職員に次の患者を送付するよう通知することを可能にする。
したがって,RSDは患者ケアの改善と,効率的なスケジューリングによる手術手術費の最小化に重要な役割を担っている。
内視鏡下垂体手術では,手術期間の変動に寄与する任意のステップを選択することで,ワークフローの変動が一意的に困難である。
本稿では、ワークフローシーケンスに着目した履歴データから学習した時空間ニューラルネットワークモデルである下垂体手術時のRSD予測のためのPitRSDNetを提案する。
PitRSDNetはワークフロー知識を2つの形式でRSD予測に統合する。
1)ステップとRSDの同時予測のためのマルチタスク学習
2)時間的学習と推論の文脈として事前ステップを取り入れた。
PitRSDNetは、88のビデオを備えた新しい内視鏡下垂体手術データセットでトレーニングされ、従来の統計的および機械学習手法よりも競争力のあるパフォーマンス向上を示す。
また,PitRSDNetは,先行ステップの知識を活用して,不整形症例のRSD精度を向上する。
Accurate intra-operative Remaining Surgery Duration (RSD) predictions allow for anaesthetists to more accurately decide when to administer anaesthetic agents and drugs, as well as to notify hospital staff to send in the next patient. Therefore RSD plays an important role in improving patient care and minimising surgical theatre costs via efficient scheduling. In endoscopic pituitary surgery, it is uniquely challenging due to variable workflow sequences with a selection of optional steps contributing to high variability in surgery duration. This paper presents PitRSDNet for predicting RSD during pituitary surgery, a spatio-temporal neural network model that learns from historical data focusing on workflow sequences. PitRSDNet integrates workflow knowledge into RSD prediction in two forms: 1) multi-task learning for concurrently predicting step and RSD; and 2) incorporating prior steps as context in temporal learning and inference. PitRSDNet is trained and evaluated on a new endoscopic pituitary surgery dataset with 88 videos to show competitive performance improvements over previous statistical and machine learning methods. The findings also highlight how PitRSDNet improve RSD precision on outlier cases utilising the knowledge of prior steps. | 翻訳日:2024-09-27 03:15:16 公開日:2024-09-25 |
# WasteGAN: ジェネレーティブ・ディバイサル・ネットワークによるロボット廃棄物収集のためのデータ強化
WasteGAN: Data Augmentation for Robotic Waste Sorting through Generative Adversarial Networks ( http://arxiv.org/abs/2409.16999v1 ) ライセンス: Link先を確認 | Alberto Bacchin, Leonardo Barcellona, Matteo Terreran, Stefano Ghidoni, Emanuele Menegatti, Takuya Kiyokawa, | (参考訳) ロボット廃棄物の選別は、粗いコンベアベルト上で認識されるべき物体の極端な変動を考えると、知覚と操作の両方において重大な課題となる。
ディープラーニングは複雑なタスクを解くのに有効であることが証明されているが、広範なデータ収集とラベル付けの必要性は、無駄のソートのような現実世界のシナリオでの適用性を制限している。
この問題に対処するために,ムダGANと呼ばれる新しいGANアーキテクチャに基づくデータ拡張手法を提案する。
提案手法は,100に満たないラベル付き例から始めて,セマンティックセグメンテーションモデルの性能を向上させる。
ムダGANの重要な革新は、新しい損失関数、新しい活性化関数、より大きなジェネレータブロックである。
全体として、このようなイノベーションは、限られた数のサンプルから学習し、実世界の分布をより良く反映するデータを合成するのに役立ちます。
次に,廃棄物GAN合成データに基づいて学習したモデルから予測される高品質なセグメンテーションマスクを用いて,意味認識型グリップポーズを計算し,ロボットアームが汚染物質を効果的に認識し,現実のシナリオで廃棄物を分離することを可能にする。
提案手法は, データセットに基づく評価と実世界の実験を含む総合的な評価を通じて, ロボット廃棄物の選別の可能性を示し, 汚染物質の選別において最大5.8倍の性能向上が得られた。
プロジェクトページはhttps://github.com/bach05/wasteGAN.gitで公開されている。
Robotic waste sorting poses significant challenges in both perception and manipulation, given the extreme variability of objects that should be recognized on a cluttered conveyor belt. While deep learning has proven effective in solving complex tasks, the necessity for extensive data collection and labeling limits its applicability in real-world scenarios like waste sorting. To tackle this issue, we introduce a data augmentation method based on a novel GAN architecture called wasteGAN. The proposed method allows to increase the performance of semantic segmentation models, starting from a very limited bunch of labeled examples, such as few as 100. The key innovations of wasteGAN include a novel loss function, a novel activation function, and a larger generator block. Overall, such innovations helps the network to learn from limited number of examples and synthesize data that better mirrors real-world distributions. We then leverage the higher-quality segmentation masks predicted from models trained on the wasteGAN synthetic data to compute semantic-aware grasp poses, enabling a robotic arm to effectively recognizing contaminants and separating waste in a real-world scenario. Through comprehensive evaluation encompassing dataset-based assessments and real-world experiments, our methodology demonstrated promising potential for robotic waste sorting, yielding performance gains of up to 5.8\% in picking contaminants. The project page is available at https://github.com/bach05/wasteGAN.git | 翻訳日:2024-09-27 03:15:16 公開日:2024-09-25 |
# 逆気象オプティカルフロー:累積均質不均質適応
Adverse Weather Optical Flow: Cumulative Homogeneous-Heterogeneous Adaptation ( http://arxiv.org/abs/2409.17001v1 ) ライセンス: Link先を確認 | Hanyu Zhou, Yi Chang, Zhiwei Shi, Wending Yan, Gang Chen, Yonghong Tian, Luxin Yan, | (参考訳) 光流は清潔な場面で大きく進展したが、光流の明るさ不安定性や勾配連続性の仮定に反し、悪天候下では劣化する。
通常、既存の手法は主にドメイン適応を用いて、クリーンドメインからデグレードドメインへ1段階の適応を通して動きの知識を伝達する。
しかし、この直接的な適応は、悪天候による大きなギャップと、清潔な領域と実際の荒廃したドメインの間にはシーンスタイルがあるため、効果がない。
さらに、劣化した領域内においても、静的気象(例、霧)と動的気象(例、雨)は光学的流れに異なる影響を与える。
以上の課題に対処するため,クリーン領域とリアルドメインの中間ブリッジとしての合成劣化ドメインを探索し,実際の悪天候光流に対する累積均質不均一適応フレームワークを提案する。
具体的には, 静的気象は, シーンの内在的な動きを変化させることなく, 奥行きの同質な特徴を有するのに対し, 動的気象は, クリーンドメインとデグレードドメインのワープエラーに有意な境界差をもたらす異質な特徴も導入する。
合成実数移動において, コスト容積相関は, 合成実数分裂領域と実数分解領域の類似の統計ヒストグラムを共有し, 合成実数蒸留における同質相関分布を均一に整合させる効果があることがわかった。
この統合された枠組みの下で、提案手法は、クリーンなシーンから実際の悪天候への知識の段階的かつ明示的に伝達することができる。
さらに,手動でアノテートした光フローラベルを用いた実際の悪天候データセットを収集し,提案手法の優位性を検証するための広範囲な実験を行った。
Optical flow has made great progress in clean scenes, while suffers degradation under adverse weather due to the violation of the brightness constancy and gradient continuity assumptions of optical flow. Typically, existing methods mainly adopt domain adaptation to transfer motion knowledge from clean to degraded domain through one-stage adaptation. However, this direct adaptation is ineffective, since there exists a large gap due to adverse weather and scene style between clean and real degraded domains. Moreover, even within the degraded domain itself, static weather (e.g., fog) and dynamic weather (e.g., rain) have different impacts on optical flow. To address above issues, we explore synthetic degraded domain as an intermediate bridge between clean and real degraded domains, and propose a cumulative homogeneous-heterogeneous adaptation framework for real adverse weather optical flow. Specifically, for clean-degraded transfer, our key insight is that static weather possesses the depth-association homogeneous feature which does not change the intrinsic motion of the scene, while dynamic weather additionally introduces the heterogeneous feature which results in a significant boundary discrepancy in warp errors between clean and degraded domains. For synthetic-real transfer, we figure out that cost volume correlation shares a similar statistical histogram between synthetic and real degraded domains, benefiting to holistically aligning the homogeneous correlation distribution for synthetic-real knowledge distillation. Under this unified framework, the proposed method can progressively and explicitly transfer knowledge from clean scenes to real adverse weather. In addition, we further collect a real adverse weather dataset with manually annotated optical flow labels and perform extensive experiments to verify the superiority of the proposed method. | 翻訳日:2024-09-27 03:15:16 公開日:2024-09-25 |
# 人間が生成した数学のコミュニケーションの性質を表現できるモデル
Models Can and Should Embrace the Communicative Nature of Human-Generated Math ( http://arxiv.org/abs/2409.17005v1 ) ライセンス: Link先を確認 | Sasha Boguraev, Ben Lipkin, Leonie Weissweiler, Kyle Mahowald, | (参考訳) 自然言語コーパスは命題だけでなく、言語利用者のコミュニケーション目標を反映しているように、モデルが訓練される数学データは、理想化された数学的実体だけでなく、豊かなコミュニケーション意図を反映している。
純粋に象徴的な方法で数学を扱うには重要な利点があるが、ここでは、数学を位置する言語コミュニケーションとして扱う利点があり、言語モデルは、十分に理解されていない方法で、この目標に適していると仮定する。
これらの点を2つのケーススタディで説明する。
まず、私たちが行った実験では、言語モデルが同等の記号を人間的な方法で解釈し、異なる方法で配列された同じ基礎となる方程式に対して、体系的に異なる単語問題を生成することがわかった。
第二に、他の順序が論理的に等価であっても、言語モデルは自然主義的に順序づけられる証明を好む。
我々は、人間生成数学において潜在するコミュニケーション意図から学習し、表現するAIシステムを提唱する。
Math is constructed by people for people: just as natural language corpora reflect not just propositions but the communicative goals of language users, the math data that models are trained on reflects not just idealized mathematical entities but rich communicative intentions. While there are important advantages to treating math in a purely symbolic manner, we here hypothesize that there are benefits to treating math as situated linguistic communication and that language models are well suited for this goal, in ways that are not fully appreciated. We illustrate these points with two case studies. First, we ran an experiment in which we found that language models interpret the equals sign in a humanlike way -- generating systematically different word problems for the same underlying equation arranged in different ways. Second, we found that language models prefer proofs to be ordered in naturalistic ways, even though other orders would be logically equivalent. We advocate for AI systems that learn from and represent the communicative intentions latent in human-generated math. | 翻訳日:2024-09-27 03:15:16 公開日:2024-09-25 |
# 任意のアンドレーフ量子ビットの非折り畳み電気的読み出し
Non-collapsing electric readout of arbitrary Andreev qubits ( http://arxiv.org/abs/2409.17008v1 ) ライセンス: Link先を確認 | Xian-Peng Zhang, Chuanchang Zeng, Zhen-Biao Yang, Jose Carlos Egues, Yugui Yao, | (参考訳) 非破壊プロトコルは、アンシラ量子ビットを用いて、符号化された情報を破壊することなく、量子ビットの脆弱な量子状態を特定する。
しかしながら、これらのプロトコルにおける多数のアンシラ準備、情報伝達、およびアンシラ測定は、情報処理の本質的なオーバーヘッドを生み出す。
ここでは、量子ドットジョセフソン接合で定義されるアンドレフ量子ビットを考察し、アンドレフ量子ビットの多体固有状態の量子干渉から生じる固有時間依存振動超電流が、量子状態が崩壊し、量子ビット自身を非破壊的に探究することができることを示す。
アンドレーフ量子ビットの任意の重ね合わせ状態の非破壊的かつ非破壊的な読み出しは、アンシラ量子ビットを完全に回避し、繰り返し量子ビットリセットを必要としないため、実験オーバーヘッドを著しく低減する。
我々の発見はアンドレーブドットに関する研究や応用に前例のない影響を与え、量子処理と技術のための有望な量子ビット競合者として位置づけるべきである。
Nondemolition protocols use ancilla qubits to identify the fragile quantum state of a qubit without destroying its encoded information, thus playing a crucial role in nondestructive quantum measurements particularly relevant for quantum error correction. However, the multitude of ancilla preparations, information transfers, and ancilla measurements in these protocols create an intrinsic overhead for information processing. Here we consider an Andreev qubit defined in a quantum-dot Josephson junction and show that the intrinsic time-dependent oscillatory supercurrent arising from the quantum interference of the many-body eigenstates of the Andreev qubit, can be used to probe the qubit itself nondestructively and \textit{without} collapsing its quantum state. This nondestructive and non-collapsing readout of arbitrary superposition states of Andreev qubits avoids ancilla qubits altogether and significantly reduces experimental overhead as no repetitive qubit resetting is needed. Our findings should have an unprecedented impact on advancing research and applications involving Andreev dots, thus positioning them as promising qubit contenders for quantum processing and technologies. | 翻訳日:2024-09-27 03:15:16 公開日:2024-09-25 |
# LLM-CARD:大規模言語モデルの記述と景観を目指して
LLM-CARD: Towards a Description and Landscape of Large Language Models ( http://arxiv.org/abs/2409.17011v1 ) ライセンス: Link先を確認 | Shengwei Tian, Lifeng Han, Erick Mendez Guzman, Goran Nenadic, | (参考訳) 自然言語処理(NLP)分野の急速な成長に伴い、多種多様な言語モデル(LLM)が様々なNLPタスクに対して出現し続けている。
論文の数が増えるにつれて、研究者や開発者は情報過負荷の課題に直面している。
したがって,学術論文からLLMに関する重要な情報を自動抽出・整理するシステムを開発することが特に重要である(\textbf{LLM model card})。
本研究は,論文から大規模言語モデルに関する重要な情報を自動的に抽出し,研究者がLLMに関する情報に効率的にアクセスできるようにする,名前付きエンティティ認識 (\textbf{NER}) と関係抽出 (\textbf{RE}) 手法を用いて,そのような先駆的なシステムを開発することを目的とする。
これらの機能には、 model \textit{licence}、 model \textit{name}、 model \textit{application}が含まれる。
これらの機能により、各紙のモデルカードを作成できる。
106の学術論文は, LLMの名前, ライセンス, 適用の3つの辞書を定義して処理した。
11051文を辞書検索により抽出し、その名称とライセンスのリンクを持つ129文と、モデル名とアプリケーションの間のリンクを持つ106文の最終的な選択を手作業でレビューすることでデータセットを構築した。
With the rapid growth of the Natural Language Processing (NLP) field, a vast variety of Large Language Models (LLMs) continue to emerge for diverse NLP tasks. As an increasing number of papers are presented, researchers and developers face the challenge of information overload. Thus, it is particularly important to develop a system that can automatically extract and organise key information about LLMs from academic papers (\textbf{LLM model card}). This work is to develop such a pioneer system by using Named Entity Recognition (\textbf{NER}) and Relation Extraction (\textbf{RE}) methods that automatically extract key information about large language models from the papers, helping researchers to efficiently access information about LLMs. These features include model \textit{licence}, model \textit{name}, and model \textit{application}. With these features, we can form a model card for each paper. \textbf{Data-contribution} wise, 106 academic papers were processed by defining three dictionaries - LLMs name, licence, and application. 11,051 sentences were extracted through dictionary lookup, and the dataset was constructed through manual review of the final selection of 129 sentences that have a link between the name and the licence, and 106 sentences that have a link between the model name and the application. | 翻訳日:2024-09-27 03:15:16 公開日:2024-09-25 |
# アクティブデブリ除去ミッションのためのAI駆動型リスクアウェアスケジューリング
AI-Driven Risk-Aware Scheduling for Active Debris Removal Missions ( http://arxiv.org/abs/2409.17012v1 ) ライセンス: Link先を確認 | Antoine Poupon, Hugo de Rohan Willner, Pierre Nikitits, Adam Abdin, | (参考訳) 低軌道軌道(LEO)における破片の拡散は、宇宙の持続可能性と宇宙船の安全性に対する重大な脅威である。
アクティブデブリ除去(ADR)はこの問題を解決するための有望なアプローチとして現れており、軌道移動車両(OTV)を利用してデブリの軌道離脱を容易にし、将来の衝突リスクを低減している。
しかし、ADRミッションはかなり複雑であり、経済的に有効かつ技術的に効果的にミッションを計画する必要がある。
さらに、これらのミッションは、進化する軌道条件の下で計画し、ミッション要求を変更するために高いレベルの自律能力を必要とする。
本稿では,deep Reinforcement Learning (DRL) に基づく自律型意思決定モデルを構築し,OTVの最適デブリ除去シークエンシングを計画する。
提案手法を用いることで、最適なミッションプランを見つけ、衝突リスクの高い破片のリスクハンドリングを含む自律的に計画の更新を学べることが示されている。
The proliferation of debris in Low Earth Orbit (LEO) represents a significant threat to space sustainability and spacecraft safety. Active Debris Removal (ADR) has emerged as a promising approach to address this issue, utilising Orbital Transfer Vehicles (OTVs) to facilitate debris deorbiting, thereby reducing future collision risks. However, ADR missions are substantially complex, necessitating accurate planning to make the missions economically viable and technically effective. Moreover, these servicing missions require a high level of autonomous capability to plan under evolving orbital conditions and changing mission requirements. In this paper, an autonomous decision-planning model based on Deep Reinforcement Learning (DRL) is developed to train an OTV to plan optimal debris removal sequencing. It is shown that using the proposed framework, the agent can find optimal mission plans and learn to update the planning autonomously to include risk handling of debris with high collision risk. | 翻訳日:2024-09-27 03:15:16 公開日:2024-09-25 |
# CNNmixture-of-Depths
CNN Mixture-of-Depths ( http://arxiv.org/abs/2409.17016v1 ) ライセンス: Link先を確認 | Rinor Cakaj, Jens Mehnert, Bin Yang, | (参考訳) 畳み込みニューラルネットワーク(CNN)におけるMixture-of-Depths(Mixture-of-Depths)を導入し,CNNの計算効率を向上させる手法を提案する。
コンボリューションブロック(Conv-Blocks)内で集中処理を行う機能マップのキーチャネルを動的に選択し,関連するチャネルをスキップすることで,計算資源を最適化する。
動的計算グラフを必要とする条件計算法とは異なり、CNN MoDは固定テンソルサイズの静的計算グラフを使用してハードウェア効率を向上させる。
カスタマイズされたCUDAカーネル、ユニークな損失関数、微調整を必要とせずに、トレーニングと推論プロセスを高速化する。
CNN MoDは、従来のCNNのパフォーマンスに、推論時間、GMAC、パラメータを減少させるか、または、同様の推論時間、GMAC、パラメータを維持しながら、それらのパフォーマンスを上回る。
例えば、ImageNetでは、ResNet86-MoDが標準のResNet50のパフォーマンスを0.45%上回る。
さらに、ResNet75-MoDは、CPUで25%、GPUで15%のスピードアップで、ResNet50と同じパフォーマンスを達成する。
We introduce Mixture-of-Depths (MoD) for Convolutional Neural Networks (CNNs), a novel approach that enhances the computational efficiency of CNNs by selectively processing channels based on their relevance to the current prediction. This method optimizes computational resources by dynamically selecting key channels in feature maps for focused processing within the convolutional blocks (Conv-Blocks), while skipping less relevant channels. Unlike conditional computation methods that require dynamic computation graphs, CNN MoD uses a static computation graph with fixed tensor sizes which improve hardware efficiency. It speeds up the training and inference processes without the need for customized CUDA kernels, unique loss functions, or finetuning. CNN MoD either matches the performance of traditional CNNs with reduced inference times, GMACs, and parameters, or exceeds their performance while maintaining similar inference times, GMACs, and parameters. For example, on ImageNet, ResNet86-MoD exceeds the performance of the standard ResNet50 by 0.45% with a 6% speedup on CPU and 5% on GPU. Moreover, ResNet75-MoD achieves the same performance as ResNet50 with a 25% speedup on CPU and 15% on GPU. | 翻訳日:2024-09-27 03:15:16 公開日:2024-09-25 |
# PTQ4RIS:画像セグメント参照後の量子化
PTQ4RIS: Post-Training Quantization for Referring Image Segmentation ( http://arxiv.org/abs/2409.17020v1 ) ライセンス: Link先を確認 | Xiaoyan Jiang, Hang Yang, Kaiying Zhu, Xihe Qiu, Shibo Zhao, Sifan Zhou, | (参考訳) Referring Image Segmentation (RIS) は、視覚情報と言語情報の両方を理解することによって、ある文によって参照される対象を画像に区分することを目的としている。
しかし、既存のRIS法は、リソース制限エッジデバイスにおける実用的応用を考慮せず、トップパフォーマンスモデルを探索する傾向にある。
この監視は、デバイス上のRIS推論に重大な課題をもたらす。
そこで本研究では,PTQ4RISと呼ばれる学習後量子化フレームワークを提案する。
具体的には、RISモデル量子化における性能劣化の原因の根本原因を詳細に分析し、視覚およびテキストエンコーダにおける量子化の難しさに対処するために、二重領域量子化(DRQ)とリオーダーベースのアウトリア保持量子化(RORQ)を提案する。
異なるビット設定(8ビットから4ビット)の3つのベンチマークに対する大規模な実験は、その優れたパフォーマンスを示している。
重要なことは、RISタスク用に特別に設計された最初のPTQ手法であり、RISアプリケーションにおけるPTQの実現可能性を強調している。
コードはhttps://github.com/gugu511yy/PTQ4RIS}で入手できる。
Referring Image Segmentation (RIS), aims to segment the object referred by a given sentence in an image by understanding both visual and linguistic information. However, existing RIS methods tend to explore top-performance models, disregarding considerations for practical applications on resources-limited edge devices. This oversight poses a significant challenge for on-device RIS inference. To this end, we propose an effective and efficient post-training quantization framework termed PTQ4RIS. Specifically, we first conduct an in-depth analysis of the root causes of performance degradation in RIS model quantization and propose dual-region quantization (DRQ) and reorder-based outlier-retained quantization (RORQ) to address the quantization difficulties in visual and text encoders. Extensive experiments on three benchmarks with different bits settings (from 8 to 4 bits) demonstrates its superior performance. Importantly, we are the first PTQ method specifically designed for the RIS task, highlighting the feasibility of PTQ in RIS applications. Code will be available at {https://github.com/gugu511yy/PTQ4RIS}. | 翻訳日:2024-09-27 03:15:16 公開日:2024-09-25 |
# CombU: ニューラルネットワークによる数式調整のための複合ユニットアクティベーション
CombU: A Combined Unit Activation for Fitting Mathematical Expressions with Neural Networks ( http://arxiv.org/abs/2409.17021v1 ) ライセンス: Link先を確認 | Jiayu Li, Zilong Zhao, Kevin Yee, Uzair Javaid, Biplab Sikdar, | (参考訳) 活性化関数は、データ関係に非線形性を導入し、ディープネットワークが複雑なデータ関係を近似できるようにするため、ニューラルネットワークの基本となる。
既存のニューラルネットワークの性能向上努力は、主に新しい数学的機能の開発に重点を置いている。
しかし、ニューラルネットワーク内の既存のアクティベーション関数のよく設計された組み合わせもまた、この目的を達成することができる。
本稿では,異なる層にまたがる様々な次元で異なるアクティベーション機能を利用するCombU(CombU)について紹介する。
このアプローチは理論上、ほとんどの数学的表現を正確に適合させることが証明できる。
6つのState-Of-The-Art(SOTA)アクティベーション関数アルゴリズムと比較して、4つの数学的表現データセットで実施された実験は、CombUが16の指標のうち10で全てのSOTAアルゴリズムを上回り、残りの6つの指標で上位3位になっていることを示した。
The activation functions are fundamental to neural networks as they introduce non-linearity into data relationships, thereby enabling deep networks to approximate complex data relations. Existing efforts to enhance neural network performance have predominantly focused on developing new mathematical functions. However, we find that a well-designed combination of existing activation functions within a neural network can also achieve this objective. In this paper, we introduce the Combined Units activation (CombU), which employs different activation functions at various dimensions across different layers. This approach can be theoretically proven to fit most mathematical expressions accurately. The experiments conducted on four mathematical expression datasets, compared against six State-Of-The-Art (SOTA) activation function algorithms, demonstrate that CombU outperforms all SOTA algorithms in 10 out of 16 metrics and ranks in the top three for the remaining six metrics. | 翻訳日:2024-09-27 03:04:59 公開日:2024-09-25 |
# 画像塗布検出のための拡張ウェーブレット散乱ネットワーク
Enhanced Wavelet Scattering Network for image inpainting detection ( http://arxiv.org/abs/2409.17023v1 ) ライセンス: Link先を確認 | Barglazan Adrian-Alin, Brad Remus, | (参考訳) 画像インパインティングツールの急速な進歩、特にアーティファクトの除去を目的としたツールによって、デジタル画像アラームが目覚ましいほど利用できるようになった。
本稿では,Dual-Tree Complex Wavelet Transform (DT-CWT) と畳み込みニューラルネットワーク (CNN) を組み合わせた低レベル雑音解析に基づく塗り絵検出手法を提案する。
DT-CWTは、そのシフト不変性により大きな利点があり、塗装過程における微妙な操作に対する堅牢性を高めている。
さらに、その方向選択性により、特定の周波数帯域と向きに塗布された微妙なアーティファクトを検出することができる。
様々なニューラルネットワークアーキテクチャを評価し提案した。
最後に,テクスチャ解析と雑音分散推定を組み合わせた融合検出モジュールを提案する。
提案手法は最先端手法に対してベンチマークを行い,提案手法よりも優れた性能を示した。
トレーニングコード(事前トレーニングされたモデルウェイト)は、データセットがhttps://github.com/jmaba/Deep-dual-tree-complex-neural-network-for-image-inpainting-detectionで利用可能になる限りである。
The rapid advancement of image inpainting tools, especially those aimed at removing artifacts, has made digital image manipulation alarmingly accessible. This paper proposes several innovative ideas for detecting inpainting forgeries based on low level noise analysis by combining Dual-Tree Complex Wavelet Transform (DT-CWT) for feature extraction with convolutional neural networks (CNN) for forged area detection and localization, and lastly by employing an innovative combination of texture segmentation with noise variance estimations. The DT-CWT offers significant advantages due to its shift-invariance, enhancing its robustness against subtle manipulations during the inpainting process. Furthermore, its directional selectivity allows for the detection of subtle artifacts introduced by inpainting within specific frequency bands and orientations. Various neural network architectures were evaluated and proposed. Lastly, we propose a fusion detection module that combines texture analysis with noise variance estimation to give the forged area. Our approach was benchmarked against state-of-the-art methods and demonstrated superior performance over all cited alternatives. The training code (with pretrained model weights) as long as the dataset will be available at https://github.com/jmaba/Deep-dual-tree-complex-neural-network-for-image-inpainting-detection | 翻訳日:2024-09-27 03:04:59 公開日:2024-09-25 |
# 高密度ベンチトップファントムを用いたリアルタイム計測装置を用いた内視鏡下下下垂体手術における自動手術スキル評価
Automated Surgical Skill Assessment in Endoscopic Pituitary Surgery using Real-time Instrument Tracking on a High-fidelity Bench-top Phantom ( http://arxiv.org/abs/2409.17025v1 ) ライセンス: Link先を確認 | Adrito Das, Bilal Sidiqi, Laurent Mennillo, Zhehua Mao, Mikael Brudfors, Miguel Xochicale, Danyal Z. Khan, Nicola Newall, John G. Hanrahan, Matthew J. Clarkson, Danail Stoyanov, Hani J. Marcus, Sophia Bano, | (参考訳) 外科的スキルの改善は、一般的に患者の結果の改善と結びついているが、評価は主観的であり、労働集約的であり、ドメイン固有の専門知識を必要とする。
自動化されたデータ駆動メトリクスは、侵襲的な最小限の手術において、既存の機械学習機器追跡モデルが示すように、これらの困難を緩和することができる。
しかし、これらのモデルは腹腔鏡下手術の限られたデータセットでテストされ、独立したタスクとロボット手術に焦点を当てている。
本稿では,内視鏡下垂体手術の鼻相を模範として,シミュレートされた手術に焦点を当てた新しい公開データセットを提案する。
シミュレーション手術は、現実的で繰り返し可能な環境を可能にする。つまり、自動評価から得られる洞察は、初心者外科医が実際の手術に移る前にシミュレーターのスキルを磨くことができる。
この自動評価のベースラインモデルとしてPRINTNet(Pituitary Real-time Instrument Tracking Network)が開発された。
分類とセグメンテーションのためのDeepLabV3、トラッキングのためのStrongSORT、リアルタイムパフォーマンスのためのNVIDIA Holoscan SDKで構成され、PRINTNetは毎秒22フレームで実行される多重オブジェクト追跡精度71.9%を達成した。
この追跡結果を用いて, 多層パーセプトロンは, 手術技量(初心者または熟練者)の予測において87%の精度を達成し, 「可視時間測定のための全手術時間の割合」は, より高い手術技量と相関した。
以上より, 内視鏡下垂体手術における自動手術スキル評価の有用性が示唆された。
新しい公開データセットは以下の通りである。
Improved surgical skill is generally associated with improved patient outcomes, although assessment is subjective; labour-intensive; and requires domain specific expertise. Automated data driven metrics can alleviate these difficulties, as demonstrated by existing machine learning instrument tracking models in minimally invasive surgery. However, these models have been tested on limited datasets of laparoscopic surgery, with a focus on isolated tasks and robotic surgery. In this paper, a new public dataset is introduced, focusing on simulated surgery, using the nasal phase of endoscopic pituitary surgery as an exemplar. Simulated surgery allows for a realistic yet repeatable environment, meaning the insights gained from automated assessment can be used by novice surgeons to hone their skills on the simulator before moving to real surgery. PRINTNet (Pituitary Real-time INstrument Tracking Network) has been created as a baseline model for this automated assessment. Consisting of DeepLabV3 for classification and segmentation; StrongSORT for tracking; and the NVIDIA Holoscan SDK for real-time performance, PRINTNet achieved 71.9% Multiple Object Tracking Precision running at 22 Frames Per Second. Using this tracking output, a Multilayer Perceptron achieved 87% accuracy in predicting surgical skill level (novice or expert), with the "ratio of total procedure time to instrument visible time" correlated with higher surgical skill. This therefore demonstrates the feasibility of automated surgical skill assessment in simulated endoscopic pituitary surgery. The new publicly available dataset can be found here: https://doi.org/10.5522/04/26511049. | 翻訳日:2024-09-27 03:04:59 公開日:2024-09-25 |
# 大規模言語モデルにおける対実的トークン生成
Counterfactual Token Generation in Large Language Models ( http://arxiv.org/abs/2409.17027v1 ) ライセンス: Link先を確認 | Ivi Chatzi, Nina Corvelo Benz, Eleni Straitouri, Stratis Tsirtsis, Manuel Gomez-Rodriguez, | (参考訳) 「さようなら、リラ船長は信頼ある船「マエルストロムの怒り」の司令台に立ち、果てしない海を見つめていた。[...]リラの目は、苦しい真実に気付くと涙を流し、富を流すために全てを犠牲にして、乗組員、彼女の家族、そして自分自身の愛を失った。」
この物語は、大きな言語モデルによって生み出され、魅惑的だが、モデルが代わりに"Captain Maeve"を主人公に選んだ場合、どのように展開されるのだろうか?
わからない。
最先端の大規模言語モデルはステートレスであり、内部メモリや状態は保持しない。
プロンプトが与えられたら、自動回帰プロセスを使用して出力としてトークンのシーケンスを生成する。
結果として、彼らは過去に生成したトークンに対して、偽造的な代替手段を推論することはできない。
この作業では、この機能でそれらを強化することを目標としています。
そこで我々は,Gumbel-Max構造因果モデルに基づくトークン生成の因果モデルを構築した。
我々のモデルは、どんな大きな言語モデルでも、バニラトークン生成と比較してほとんどコストがかからず、実装が恥ずかしいほど簡単であり、微調整や迅速なエンジニアリングは不要である。
我々は,Llama 3 8B-インストラクタに本モデルを実装し,反ファクト生成テキストの質的および定量的解析を行った。
我々は,大規模な言語モデルによって構築された世界のモデルに関する興味深い洞察を提示し,バイアス検出に反事実トークン生成の実証的応用で結論付けた。
"Sure, I am happy to generate a story for you: Captain Lyra stood at the helm of her trusty ship, the Maelstrom's Fury, gazing out at the endless sea. [...] Lyra's eyes welled up with tears as she realized the bitter truth - she had sacrificed everything for fleeting riches, and lost the love of her crew, her family, and herself." Although this story, generated by a large language model, is captivating, one may wonder -- how would the story have unfolded if the model had chosen "Captain Maeve" as the protagonist instead? We cannot know. State-of-the-art large language models are stateless -- they maintain no internal memory or state. Given a prompt, they generate a sequence of tokens as an output using an autoregressive process. As a consequence, they cannot reason about counterfactual alternatives to tokens they have generated in the past. In this work, our goal is to enhance them with this functionality. To this end, we develop a causal model of token generation that builds upon the Gumbel-Max structural causal model. Our model allows any large language model to perform counterfactual token generation at almost no cost in comparison with vanilla token generation, it is embarrassingly simple to implement, and it does not require any fine-tuning nor prompt engineering. We implement our model on Llama 3 8B-instruct and conduct both qualitative and quantitative analyses of counterfactually generated text. We conclude with a demonstrative application of counterfactual token generation for bias detection, unveiling interesting insights about the model of the world constructed by large language models. | 翻訳日:2024-09-27 03:04:59 公開日:2024-09-25 |
# EventHDR: イベントから高速HDRビデオまで
EventHDR: from Event to High-Speed HDR Videos and Beyond ( http://arxiv.org/abs/2409.17029v1 ) ライセンス: Link先を確認 | Yunhao Zou, Ying Fu, Tsuyoshi Takatani, Yinqiang Zheng, | (参考訳) イベントカメラは、シーンダイナミクスを非同期にキャプチャする革新的なニューロモルフィックセンサーである。
イベントトリガ機構のため、このようなカメラは、従来のカメラに比べて応答遅延がはるかに短く、感度が高いイベントストリームを記録する。
これらの特徴に基づいて、以前の作品ではイベントからハイダイナミックレンジ(HDR)ビデオの再構成を試みたが、非現実的なアーティファクトに悩まされたり、十分なフレームレートの提供に失敗したりした。
本稿では,イベント列から高速なHDR映像を再構成するリカレント畳み込みニューラルネットワークを提案する。
さらに,高度に制限されたリアルタイムデータセットの問題に対処するため,高速HDRビデオとイベントストリームを組み合わせた実世界のデータセットを収集する光学システムを開発し,この分野における今後の研究を円滑に進める。
我々のデータセットは、シミュレーション戦略の潜在的な不正確さを回避し、イベント・ツー・HDR再構成のための最初の実ペアデータセットを提供する。
実験により,提案手法は高品質で高速なHDRビデオを生成することができることが示された。
さらに、物体検出、パノラマ分割、光フロー推定、HDRシナリオ下での単眼深度推定など、クロスカメラ再構成および下流コンピュータビジョンタスクにおける我々の研究の可能性について検討する。
Event cameras are innovative neuromorphic sensors that asynchronously capture the scene dynamics. Due to the event-triggering mechanism, such cameras record event streams with much shorter response latency and higher intensity sensitivity compared to conventional cameras. On the basis of these features, previous works have attempted to reconstruct high dynamic range (HDR) videos from events, but have either suffered from unrealistic artifacts or failed to provide sufficiently high frame rates. In this paper, we present a recurrent convolutional neural network that reconstruct high-speed HDR videos from event sequences, with a key frame guidance to prevent potential error accumulation caused by the sparse event data. Additionally, to address the problem of severely limited real dataset, we develop a new optical system to collect a real-world dataset with paired high-speed HDR videos and event streams, facilitating future research in this field. Our dataset provides the first real paired dataset for event-to-HDR reconstruction, avoiding potential inaccuracies from simulation strategies. Experimental results demonstrate that our method can generate high-quality, high-speed HDR videos. We further explore the potential of our work in cross-camera reconstruction and downstream computer vision tasks, including object detection, panoramic segmentation, optical flow estimation, and monocular depth estimation under HDR scenarios. | 翻訳日:2024-09-27 03:04:59 公開日:2024-09-25 |
# 空間型量子インターネット:時変LEOコンステレーションにおける絡み合い分布
Space-Based Quantum Internet: Entanglement Distribution in Time-Varying LEO Constellations ( http://arxiv.org/abs/2409.17032v1 ) ライセンス: Link先を確認 | Seid Koudia, Junaid ur Rehman, Symeon Chatzinotas, | (参考訳) 本稿では,LEO衛星ネットワークにおける絡み合い分布の複雑さ,特にその動的トポロジから生じる問題について述べる。
従来の静的および動的絡み合い分布法は、しばしば高い絡み合いの減少率とエンドツーエンドのスループットの低下をもたらす。
本稿では、LEO衛星ネットワークの動的特性を活用して、絡み合い分布効率を向上させる新しいフレームワークを提案する。
ネットワークの時間的進化を表すために時空間グラフモデルを用いることで,ポインティングエラー,インターサテライトリンクの非理想的リンク送信,ダウンリンクに対する大気効果を取り入れた,経路ユーティリティに基づく絡み合い分布戦略を提案する。
提案手法は,従来の手法と比較して,絡み合いの低減とスループットの向上に優れた性能を示す。
本研究は、衛星ネットワークにおける量子通信の分野を進展させ、分散コンピューティング、量子多部暗号、分散量子センシングなどの実用的な応用を支援する、レジリエントで効率的な絡み合い分布戦略を提供する。
この発見は、動的衛星ネットワークと量子技術を統合することで、信頼性とセキュアな量子インターネットを作り出す可能性を浮き彫りにした。
This paper addresses the complexities of entanglement distribution in LEO satellite networks, particularly those arising from their dynamic topology. Traditional static and dynamic entanglement distribution methods often result in high entanglement drop rates and reduced end-to-end throughput. We introduce a novel framework that leverages the dynamic nature of LEO satellite networks to enhance entanglement distribution efficiency. Employing a space-time graph model to represent the network's temporal evolution, we propose an entanglement distribution strategy based on path utility, incorporating pointing errors, non-ideal link transmittance for intersatellite links, and atmospheric effects for downlinks. Our approach demonstrates superior performance in reducing entanglement drop rates and improving throughput compared to conventional methods. This study advances the field of quantum communication in satellite networks, offering resilient and efficient entanglement distribution strategies that support practical applications such as distributed computing, quantum multipartite cryptography, and distributed quantum sensing. The findings underscore the potential of integrating dynamic satellite networks with quantum technologies to create a reliable and secure quantum internet. | 翻訳日:2024-09-27 03:04:59 公開日:2024-09-25 |
# 密度行列摂動理論の受容性定式化
Susceptibility Formulation of Density Matrix Perturbation Theory ( http://arxiv.org/abs/2409.17033v1 ) ライセンス: Link先を確認 | Anders M. N. Niklasson, Adela Habib, Joshua Finkelstein, Emanuel H. Rubensson, | (参考訳) 再帰的フェルミ演算展開に基づく密度行列摂動理論は、量子化学と材料科学における時間非依存応答計算のための計算効率の良い枠組みを提供する。
ハミルトニアンの摂動から密度行列の1次摂動を計算し、選択された可観測物の集合に対する期待値の線形応答を与える。
ここでは、可観測体の静的感受性を計算し、任意の異なるハミルトン摂動に対する期待値の線形応答を与える。
本稿では,再帰的密度行列摂動理論において,分数的占有数への一般化や自己一貫性線形応答計算,すなわち密度汎関数摂動理論に類似した拡張スキームを用いて,感受性の計算を行う方法を示す。
再帰密度行列摂動理論と同様に、双対感受性の定式化は、十分に大きなスパース系に対する線形スケーリング複雑性を持つ数値的な閾値のスパース行列代数によく適している。
同様に、感受性の再帰的な計算は、人工知能(AI)アプリケーションで使用されるディープニューラルネットワークの計算フレームワークとシームレスに統合される。
この統合により、Nvidia Tensor CoresやGoogle Tensor Processing Unitsといった最先端のAIハードウェアを活用する量子応答特性の計算が可能になる。
Nvidia Graphics Processing Units と Tensor cores を用いた再帰型サセプティビリティ計算の性能を示す。
Density matrix perturbation theory based on recursive Fermi-operator expansions provides a computationally efficient framework for time-independent response calculations in quantum chemistry and materials science. From a perturbation in the Hamiltonian we can calculate the first-order perturbation in the density matrix, which then gives us the linear response in the expectation values for some chosen set of observables. Here we present an alternative, {\it dual} formulation, where we instead calculate the static susceptibility of an observable, which then gives us the linear response in the expectation values for any number of different Hamiltonian perturbations. We show how the calculation of the susceptibility can be performed with the same expansion schemes used in recursive density matrix perturbation theory, including generalizations to fractional occupation numbers and self-consistent linear response calculations, i.e. similar to density functional perturbation theory. As with recursive density matrix perturbation theory, the dual susceptibility formulation is well suited for numerically thresholded sparse matrix algebra, which has linear scaling complexity for sufficiently large sparse systems. Similarly, the recursive computation of the susceptibility also seamlessly integrates with the computational framework of deep neural networks used in artificial intelligence (AI) applications. This integration enables the calculation of quantum response properties that can leverage cutting-edge AI-hardware, such as Nvidia Tensor cores or Google Tensor Processing Units. We demonstrate performance for recursive susceptibility calculations using Nvidia Graphics Processing Units and Tensor cores. | 翻訳日:2024-09-27 03:04:59 公開日:2024-09-25 |
# 音声基礎モデルと大言語モデルとの接続法 : 何が重要か,何が重要でないか
How to Connect Speech Foundation Models and Large Language Models? What Matters and What Does Not ( http://arxiv.org/abs/2409.17044v1 ) ライセンス: Link先を確認 | Francesco Verdini, Pierfrancesco Melucci, Stefano Perna, Francesco Cariaggi, Marco Gaido, Sara Papi, Szymon Mazurek, Marek Kasztelnik, Luisa Bentivogli, Sébastien Bratières, Paolo Merialdo, Simone Scardapane, | (参考訳) LLM(Large Language Models)によって達成された顕著なパフォーマンスは、幅広いタスクや入力のモダリティにそれらを活用する研究を推進してきた。
音声テキスト(S2T)タスクにおいて、出現するソリューションは、音声基礎モデル(SFM)のエンコーダの出力をアダプタモジュールを介してLLM埋め込み空間に投影する。
しかし、ダウンストリームタスクの性能が各コンポーネント(SFM、アダプタ、LSM)にどの程度依存するか、あるいはアダプタの最適設計が選択したSFMとLSMに依存しているかどうかはまだ調査されていない。
このギャップを埋めるために,5つのアダプタモジュール,2つのLLM(ミストラルとラマ)と2つのSFM(WhisperとSeamlessM4T)の組み合わせを評価した。
その結果、SFMは下流性能において重要な役割を担い、アダプタの選択は適度な影響があり、SFMとLLMに依存していることがわかった。
The remarkable performance achieved by Large Language Models (LLM) has driven research efforts to leverage them for a wide range of tasks and input modalities. In speech-to-text (S2T) tasks, the emerging solution consists of projecting the output of the encoder of a Speech Foundational Model (SFM) into the LLM embedding space through an adapter module. However, no work has yet investigated how much the downstream-task performance depends on each component (SFM, adapter, LLM) nor whether the best design of the adapter depends on the chosen SFM and LLM. To fill this gap, we evaluate the combination of 5 adapter modules, 2 LLMs (Mistral and Llama), and 2 SFMs (Whisper and SeamlessM4T) on two widespread S2T tasks, namely Automatic Speech Recognition and Speech Translation. Our results demonstrate that the SFM plays a pivotal role in downstream performance, while the adapter choice has moderate impact and depends on the SFM and LLM. | 翻訳日:2024-09-27 03:04:59 公開日:2024-09-25 |
# GeoBiked: エンジニアリング設計における深部生成モデルを可能にする幾何学的特徴と自動ラベル技術を備えたデータセット
GeoBiked: A Dataset with Geometric Features and Automated Labeling Techniques to Enable Deep Generative Models in Engineering Design ( http://arxiv.org/abs/2409.17045v1 ) ライセンス: Link先を確認 | Phillip Mueller, Sebastian Mueller, Lars Mikelsons, | (参考訳) 工学設計における深層生成モデル(DGM)を実現するためのデータセットを提供し,大規模基盤モデルを用いてデータラベリングを自動化する手法を提案する。
GeoBikedは4つの355個の自転車画像を含むようにキュレートされ、構造的特徴と技術的特徴を付加し、2つの自動ラベリング技術(画像生成モデルからの集積潜時特徴(Hyperfeatures)を利用して構造的画像中の幾何対応(例えば車輪中心の位置)を検出し、構造的画像のための多様なテキスト記述を生成する)。
視覚言語モデル(VLM)であるGPT-4oは、画像を分析し、システムプロンプトに沿った多様な記述を生成するよう指示される。
技術的イメージを拡散ハイパーフィーチャーとして表現することにより、それらの間の幾何学的対応を描くことができる。
複数のアノテートされたソース画像を表示することにより、見知らぬサンプルにおける幾何点の検出精度を向上させる。
GPT-4oは技術画像の正確な記述を生成するのに十分な能力を持っている。
画像のみに基づく生成は、多様な記述をもたらすが、幻覚を引き起こす一方、分類ラベルに基づく生成は多様性を制限する。
入力として両方を使用すると、創造性と精度のバランスがとれる。
幾何対応にHyperfeaturesを使うことは、この手法が技術画像の一般的な点検出およびアノテーションタスクに利用できることを示唆している。
このような画像にVLMを用いたテキスト記述をラベル付けすることは可能だが、モデル検出機能、注意深いプロンプトエンジニアリング、入力情報の選択に依存している。
エンジニアリング設計に基礎モデルを適用することは、ほとんど探索されていない。
このギャップをデータセットで埋めて、この分野におけるDGMの訓練、微調整、条件付けを探索し、基礎モデルのブートストラップによる技術イメージの処理アプローチを提案する。
We provide a dataset for enabling Deep Generative Models (DGMs) in engineering design and propose methods to automate data labeling by utilizing large-scale foundation models. GeoBiked is curated to contain 4 355 bicycle images, annotated with structural and technical features and is used to investigate two automated labeling techniques: The utilization of consolidated latent features (Hyperfeatures) from image-generation models to detect geometric correspondences (e.g. the position of the wheel center) in structural images and the generation of diverse text descriptions for structural images. GPT-4o, a vision-language-model (VLM), is instructed to analyze images and produce diverse descriptions aligned with the system-prompt. By representing technical images as Diffusion-Hyperfeatures, drawing geometric correspondences between them is possible. The detection accuracy of geometric points in unseen samples is improved by presenting multiple annotated source images. GPT-4o has sufficient capabilities to generate accurate descriptions of technical images. Grounding the generation only on images leads to diverse descriptions but causes hallucinations, while grounding it on categorical labels restricts the diversity. Using both as input balances creativity and accuracy. Successfully using Hyperfeatures for geometric correspondence suggests that this approach can be used for general point-detection and annotation tasks in technical images. Labeling such images with text descriptions using VLMs is possible, but dependent on the models detection capabilities, careful prompt-engineering and the selection of input information. Applying foundation models in engineering design is largely unexplored. We aim to bridge this gap with a dataset to explore training, finetuning and conditioning DGMs in this field and suggesting approaches to bootstrap foundation models to process technical images. | 翻訳日:2024-09-27 03:04:59 公開日:2024-09-25 |
# 質問における時間的曖昧さの検出
Detecting Temporal Ambiguity in Questions ( http://arxiv.org/abs/2409.17046v1 ) ライセンス: Link先を確認 | Bhawna Piryani, Abdelrahman Abdallah, Jamshid Mozafari, Adam Jatowt, | (参考訳) あいまいな質問の検出と回答は、オープンドメインの質問応答において難しい課題である。
曖昧な質問は解釈によって異なる答えを持ち、多様な形を取ることができる。
時間的に曖昧な質問は、そのような質問の最も一般的なタイプの1つである。
本稿では,既存のデータセットから派生した8,162のオープンドメイン質問からなる,手動による時間的曖昧なQAデータセットであるTEMPAMBIQAを紹介する。
本アノテーションは,時間的あいまいさを捉え,時間的あいまいな質問を検出するタスクを研究することに焦点を当てている。
本稿では,質問の曖昧なバージョンに基づく多様な検索戦略を用いて,新しいアプローチを提案する。
また、ゼロショットと少数ショットのアプローチを用いて、時間的曖昧さを検出するための非探索的、競争的ベースラインも導入し、テストする。
Detecting and answering ambiguous questions has been a challenging task in open-domain question answering. Ambiguous questions have different answers depending on their interpretation and can take diverse forms. Temporally ambiguous questions are one of the most common types of such questions. In this paper, we introduce TEMPAMBIQA, a manually annotated temporally ambiguous QA dataset consisting of 8,162 open-domain questions derived from existing datasets. Our annotations focus on capturing temporal ambiguity to study the task of detecting temporally ambiguous questions. We propose a novel approach by using diverse search strategies based on disambiguated versions of the questions. We also introduce and test non-search, competitive baselines for detecting temporal ambiguity using zero-shot and few-shot approaches. | 翻訳日:2024-09-27 03:04:59 公開日:2024-09-25 |
# グラフクープマンオートエンコーダを用いたマルチUAVサーベイランスに対する予測被覆通信
Predictive Covert Communication Against Multi-UAV Surveillance Using Graph Koopman Autoencoder ( http://arxiv.org/abs/2409.17048v1 ) ライセンス: Link先を確認 | Sivaram Krishnan, Jihong Park, Gregory Sherman, Benjamin Campbell, Jinho Choi, | (参考訳) 低確率検出(LPD)通信は、無線周波数(RF)信号の存在を隠蔽し、監視を回避することを目的としている。
無人航空機(UAV)を用いた移動監視の文脈において、LDD通信を実現することは、未知の非線形力学を特徴とするUAVの迅速かつ連続的な動きに起因する重要な課題である。
したがって、リアルタイムPD通信を実現するためには、UAVの将来位置を正確に予測することが不可欠である。
本稿では,マルチUAV監視下での地上アドホックネットワークにおける検出可能性の最小化を目的とした,予測被覆通信という新しいフレームワークを提案する。
我々のデータ駆動型手法はグラフニューラルネットワーク(GNN)とクープマン理論を相乗的に統合し、マルチUAVネットワーク内の複雑な相互作用をモデル化し、限られた歴史データであっても力学を線形化することによって長期予測を容易にする。
その結果,本手法による予測軌道は,既知の最先端ベースラインアプローチと比較して63%~75%低い確率で検出でき,実用シナリオにおける低遅延カバート操作の実現が期待できることがわかった。
Low Probability of Detection (LPD) communication aims to obscure the presence of radio frequency (RF) signals to evade surveillance. In the context of mobile surveillance utilizing unmanned aerial vehicles (UAVs), achieving LPD communication presents significant challenges due to the UAVs' rapid and continuous movements, which are characterized by unknown nonlinear dynamics. Therefore, accurately predicting future locations of UAVs is essential for enabling real-time LPD communication. In this paper, we introduce a novel framework termed predictive covert communication, aimed at minimizing detectability in terrestrial ad-hoc networks under multi-UAV surveillance. Our data-driven method synergistically integrates graph neural networks (GNN) with Koopman theory to model the complex interactions within a multi-UAV network and facilitating long-term predictions by linearizing the dynamics, even with limited historical data. Extensive simulation results substantiate that the predicted trajectories using our method result in at least 63%-75% lower probability of detection when compared to well-known state-of-the-art baseline approaches, showing promise in enabling low-latency covert operations in practical scenarios. | 翻訳日:2024-09-27 03:04:59 公開日:2024-09-25 |
# ControlCity: 正確な地理空間データ生成と都市形態解析のためのマルチモーダル拡散モデルに基づくアプローチ
ControlCity: A Multimodal Diffusion Model Based Approach for Accurate Geospatial Data Generation and Urban Morphology Analysis ( http://arxiv.org/abs/2409.17049v1 ) ライセンス: Link先を確認 | Fangshuo Zhou, Huaxia Li, Rui Hu, Sensen Wu, Hailin Feng, Zhenhong Du, Liuchang Xu, | (参考訳) VGI(Volunteer Geographic Information)は、多種多様で、多種多様で、急激な更新、多種多様で、地理空間データの重要な情報源となっている。
しかし、OSMのようなプラットフォームからのVGIデータは、特に都市ビルディングデータにおいて、異なるデータタイプ間で大きな品質の不均一性を示す。
そこで本稿では,アクセス可能かつ完全なVGIデータを利用した多元的地理データ変換手法を提案する。
精度を向上させるためにマルチモーダルデータ生成フレームワークも使用しています。
まず、道路網のデータに基づいて、他のマルチモーダルデータによって補完された「画像テキスト・メタデータ構築フットプリント」データセットを構築するパイプラインを導入する。
次に,多モード拡散モデルに基づく地理データ変換手法であるControlCityを提案する。
この方法はまず、トレーニング済みのテキスト・ツー・イメージモデルを使用して、テキスト、メタデータ、フットプリントデータのアライメントを行う。
改良されたControlNetは、道路網と土地利用画像を統合し、洗練された建物のフットプリントデータを生成する。
世界の22都市での実験では、ControlCityは実際の都市建築パターンをシミュレートし、最先端のパフォーマンスを実現している。
具体的には, 平均FIDスコアが50.94, 誤差が71.01%, MIoUスコアが0.36, 改善率が38.46%である。
さらに, 都市形態素移動, ゼロショット都市生成, 空間データ完全性評価などのタスクに優れる。
ゼロショット都市課題では, 都市構造を正確に予測し, 生成し, 強力な一般化を示す。
本研究は,都市建築のフットプリントデータの生成と複雑な都市特性の把握におけるアプローチの有効性を検証した。
Volunteer Geographic Information (VGI), with its rich variety, large volume, rapid updates, and diverse sources, has become a critical source of geospatial data. However, VGI data from platforms like OSM exhibit significant quality heterogeneity across different data types, particularly with urban building data. To address this, we propose a multi-source geographic data transformation solution, utilizing accessible and complete VGI data to assist in generating urban building footprint data. We also employ a multimodal data generation framework to improve accuracy. First, we introduce a pipeline for constructing an 'image-text-metadata-building footprint' dataset, primarily based on road network data and supplemented by other multimodal data. We then present ControlCity, a geographic data transformation method based on a multimodal diffusion model. This method first uses a pre-trained text-to-image model to align text, metadata, and building footprint data. An improved ControlNet further integrates road network and land-use imagery, producing refined building footprint data. Experiments across 22 global cities demonstrate that ControlCity successfully simulates real urban building patterns, achieving state-of-the-art performance. Specifically, our method achieves an average FID score of 50.94, reducing error by 71.01% compared to leading methods, and a MIoU score of 0.36, an improvement of 38.46%. Additionally, our model excels in tasks like urban morphology transfer, zero-shot city generation, and spatial data completeness assessment. In the zero-shot city task, our method accurately predicts and generates similar urban structures, demonstrating strong generalization. This study confirms the effectiveness of our approach in generating urban building footprint data and capturing complex city characteristics. | 翻訳日:2024-09-27 03:04:59 公開日:2024-09-25 |
# 非マルコフ開量子系の動的写像の抽出
Extracting Dynamical Maps of Non-Markovian Open Quantum Systems ( http://arxiv.org/abs/2409.17051v1 ) ライセンス: Link先を確認 | David J. Strachan, Archak Purkayastha, Stephen R. Clark, | (参考訳) 量子進化の最も一般的な記述は、動的写像 $\hat{\Lambda}(\tau)$ として知られる完全に正のトレース保存写像である。
ここでは、システムと1つ以上の熱浴を、弱くも強くもない強度で突然結合することから生じる$\hat{\Lambda}(\tau)$を考える。
特性系/バス時間スケールの明確な分離がなければ、$\hat{\Lambda}(\tau)$ は一般的には非マルコフ的であると予想されるが、続く力学は、浴槽が有限メモリ時間 $\tau_{\rm m}$ を持つことを意味する一意の定常状態を持つと仮定する。
テンソルネットワークフレームワーク内でいくつかのテクニックを組み合わせることで、無限の非相互作用フェルミ浴に結合した少数の相互作用するフェルミオンモードに対して$\hat{\Lambda}(\tau)$を直接的かつ正確に抽出する。
我々は、Choi-Jamiolkowski同型を用いるので、$\hat{\Lambda}(\tau)$はシステム、バスおよびそれらのレプリカ補助モードの単項状態の計算から、時間$\tau$まで完全に再構成できる。
$\hat{\Lambda}(\tau)$から、時間ローカルプロパゲータ $\hat{\mathcal{L}}(\tau)$も計算します。
これらのオブジェクトの瞬間的固定点の$\tau$で収束を調べることで、それぞれのメモリ時間$\tau^{\Lambda}_{\rm m}$と$\tau^{\mathcal{L}}_{\rm m}$を確立する。
これらの時間を超えて、プロパゲータ $\hat{\mathcal{L}}(\tau)$ および動的写像 $\hat{\Lambda}(\tau)$ は、その後の長期緩和ダイナミクスを定常まで正確に記述する。
スピンレスフェルミ連鎖と単一不純物アンダーソンモデルとの相互作用の数値的な例は、我々のアプローチが長時間の極限を直接シミュレートするよりも、定常状態を決定する上で重要なスピードアップを提供できる状態を示す。
The most general description of quantum evolution up to a time $\tau$ is a completely positive tracing preserving map known as a dynamical map $\hat{\Lambda}(\tau)$. Here we consider $\hat{\Lambda}(\tau)$ arising from suddenly coupling a system to one or more thermal baths with a strength that is neither weak nor strong. Given no clear separation of characteristic system/bath time scales $\hat{\Lambda}(\tau)$ is generically expected to be non-Markovian, however we do assume the ensuing dynamics has a unique steady state implying the baths possess a finite memory time $\tau_{\rm m}$. By combining several techniques within a tensor network framework we directly and accurately extract $\hat{\Lambda}(\tau)$ for a small number of interacting fermionic modes coupled to infinite non-interacting Fermi baths. We employ the Choi-Jamiolkowski isomorphism so that $\hat{\Lambda}(\tau)$ can be fully reconstructed from a single pure state calculation of the unitary dynamics of the system, bath and their replica auxillary modes up to time $\tau$. From $\hat{\Lambda}(\tau)$ we also compute the time local propagator $\hat{\mathcal{L}}(\tau)$. By examining the convergence with $\tau$ of the instantaneous fixed points of these objects we establish their respective memory times $\tau^{\Lambda}_{\rm m}$ and $\tau^{\mathcal{L}}_{\rm m}$. Beyond these times, the propagator $\hat{\mathcal{L}}(\tau)$ and dynamical map $\hat{\Lambda}(\tau)$ accurately describe all the subsequent long-time relaxation dynamics up to stationarity. Our numerical examples of interacting spinless Fermi chains and the single impurity Anderson model demonstrate regimes where our approach can offer a significant speedup in determining the stationary state compared to directly simulating the long-time limit. | 翻訳日:2024-09-27 03:04:59 公開日:2024-09-25 |
# LLMを用いたインドネシアのePuskesmasにおける医師-医師間相互作用のリアルタイム転写と要約
Using LLM for Real-Time Transcription and Summarization of Doctor-Patient Interactions into ePuskesmas in Indonesia ( http://arxiv.org/abs/2409.17054v1 ) ライセンス: Link先を確認 | Azmul Asmar Irfan, Nur Ahmad Khatim, Mansur M. Arief, | (参考訳) プッスケマスの非効率性に寄与する主要な問題のひとつは、医師と患者の相互作用が時間を要することである。
医師は患者の状態を診断し、治療アドバイスを提供し、詳細なメモを医療記録に翻訳するなど、徹底的な相談を行う必要がある。
多様な言語的背景を持つ地域では、医師は明確な質問をし、プロセスをさらに延長する必要があることが多い。
診断が不可欠である一方で、書き起こしと要約はAIを使用して自動化され、時間効率を改善し、医師がケアの質を高め、早期診断と介入を可能にするのに役立つ。
本稿では,局所的大言語モデル(LLM)を用いて医師と患者の会話の書き起こし,翻訳,要約を行う手法を提案する。
我々はWhisperモデルとGPT-3を用いて、それらをePuskemasの医療記録形式に要約する。
このシステムは既存のWebブラウザエクステンションのアドオンとして実装されており、医師が会話中に患者のフォームを埋めることができる。
このソリューションをリアルタイムの転写、翻訳、要約に活用することにより、医師は患者のケアのターンアラウンドタイムを改善しつつ、記録の質を高め、将来の訪問にはより詳細で洞察力のあるものとなる。
このイノベーションは、過密化された施設やインドネシアの医療提供者に対する管理上の負担といった課題に対処する。
このソリューションは、医師が時間を節約し、より良いケアを提供し、より正確な医療記録を作成するのに役立つと信じている。
One of the key issues contributing to inefficiency in Puskesmas is the time-consuming nature of doctor-patient interactions. Doctors need to conduct thorough consultations, which include diagnosing the patient's condition, providing treatment advice, and transcribing detailed notes into medical records. In regions with diverse linguistic backgrounds, doctors often have to ask clarifying questions, further prolonging the process. While diagnosing is essential, transcription and summarization can often be automated using AI to improve time efficiency and help doctors enhance care quality and enable early diagnosis and intervention. This paper proposes a solution using a localized large language model (LLM) to transcribe, translate, and summarize doctor-patient conversations. We utilize the Whisper model for transcription and GPT-3 to summarize them into the ePuskemas medical records format. This system is implemented as an add-on to an existing web browser extension, allowing doctors to fill out patient forms while talking. By leveraging this solution for real-time transcription, translation, and summarization, doctors can improve the turnaround time for patient care while enhancing the quality of records, which become more detailed and insightful for future visits. This innovation addresses challenges like overcrowded facilities and the administrative burden on healthcare providers in Indonesia. We believe this solution will help doctors save time, provide better care, and produce more accurate medical records, representing a significant step toward modernizing healthcare and ensuring patients receive timely, high-quality care, even in resource-constrained settings. | 翻訳日:2024-09-27 03:04:59 公開日:2024-09-25 |
# DRIM:不完全なマルチモーダル医療データから切り離された表現を学習する
DRIM: Learning Disentangled Representations from Incomplete Multimodal Healthcare Data ( http://arxiv.org/abs/2409.17055v1 ) ライセンス: Link先を確認 | Lucas Robinet, Ahmad Berjaoui, Ziad Kheil, Elizabeth Cohen-Jonathan Moyal, | (参考訳) 実生活の医療データは、しばしばマルチモーダルで不完全であり、それを効率的に統合できる高度なディープラーニングモデルの必要性が高まっている。
病理組織学のスライド、MRI、遺伝データを含む多様なモダリティの使用は、予後予測を改善し、新しい治療経路を公表する前例のない機会を提供する。
マルチモーダルタスクにおけるペアデータからの表現の導出に広く用いられているコントラスト学習は、異なるビューが同一のタスク関連情報を含み、共有情報のみを活用することを前提としている。
この仮定は、各モダリティが下流タスクに関連する特定の知識も持っているため、医療データを扱う際に制限される。
データ疎性にもかかわらず、共有表現とユニークな表現をキャプチャする新しいマルチモーダル手法であるDRIMを紹介する。
より具体的には、モダリティの集合を考慮し、モダリティに共通する患者関連情報をカプセル化し、モダリティ固有の詳細をカプセル化する。
これは、異なる患者モダリティ間の共有情報を増大させ、各モダリティ内の共有コンポーネントとユニークなコンポーネントの重複を最小限にすることで達成される。
本手法はグリオーマ患者の生存予測タスクにおける最先端のアルゴリズムよりも優れており,モダリティの欠如に対して頑健である。
再現性を促進するため、コードはhttps://github.com/Lucas-rbnt/DRIMで公開されている。
Real-life medical data is often multimodal and incomplete, fueling the growing need for advanced deep learning models capable of integrating them efficiently. The use of diverse modalities, including histopathology slides, MRI, and genetic data, offers unprecedented opportunities to improve prognosis prediction and to unveil new treatment pathways. Contrastive learning, widely used for deriving representations from paired data in multimodal tasks, assumes that different views contain the same task-relevant information and leverages only shared information. This assumption becomes restrictive when handling medical data since each modality also harbors specific knowledge relevant to downstream tasks. We introduce DRIM, a new multimodal method for capturing these shared and unique representations, despite data sparsity. More specifically, given a set of modalities, we aim to encode a representation for each one that can be divided into two components: one encapsulating patient-related information common across modalities and the other, encapsulating modality-specific details. This is achieved by increasing the shared information among different patient modalities while minimizing the overlap between shared and unique components within each modality. Our method outperforms state-of-the-art algorithms on glioma patients survival prediction tasks, while being robust to missing modalities. To promote reproducibility, the code is made publicly available at https://github.com/Lucas-rbnt/DRIM | 翻訳日:2024-09-27 03:04:59 公開日:2024-09-25 |
# 拡散前処理による劣化誘導1ステップ画像超解像
Degradation-Guided One-Step Image Super-Resolution with Diffusion Priors ( http://arxiv.org/abs/2409.17058v1 ) ライセンス: Link先を確認 | Aiping Zhang, Zongsheng Yue, Renjing Pei, Wenqi Ren, Xiaochun Cao, | (参考訳) 拡散に基づく画像超解像法 (SR) は、事前訓練された大規模なテキスト・画像拡散モデルを先行として活用することにより、顕著な成功を収めた。
しかし、これらの手法は、実際のシナリオの効率を制限している満足な結果を達成するための数十のサンプリングステップと、SR問題を解決する上で重要な補助情報である劣化モデルの無視という2つの課題に直面している。
本研究では,拡散型SR手法の効率問題に対処する新しい一段階SRモデルを提案する。
既存の微調整戦略とは違って,低解像度画像からの事前推定劣化情報に基づいてモデルパラメータを補正する,SR専用の劣化誘導低ランク適応 (LoRA) モジュールを設計した。
このモジュールは、強力なデータ依存または分解依存SRモデルを促進するだけでなく、事前訓練された拡散モデルの生成前の状態を可能な限り保存する。
さらに、オンラインのネガティブサンプル生成戦略を導入することで、新しいトレーニングパイプラインを調整する。
推論中の分類器フリーガイダンス戦略と組み合わせることで、超解像結果の知覚的品質を大幅に改善する。
近年の最先端手法と比較して,提案モデルの有効性と有効性を示す実験が盛んに行われている。
Diffusion-based image super-resolution (SR) methods have achieved remarkable success by leveraging large pre-trained text-to-image diffusion models as priors. However, these methods still face two challenges: the requirement for dozens of sampling steps to achieve satisfactory results, which limits efficiency in real scenarios, and the neglect of degradation models, which are critical auxiliary information in solving the SR problem. In this work, we introduced a novel one-step SR model, which significantly addresses the efficiency issue of diffusion-based SR methods. Unlike existing fine-tuning strategies, we designed a degradation-guided Low-Rank Adaptation (LoRA) module specifically for SR, which corrects the model parameters based on the pre-estimated degradation information from low-resolution images. This module not only facilitates a powerful data-dependent or degradation-dependent SR model but also preserves the generative prior of the pre-trained diffusion model as much as possible. Furthermore, we tailor a novel training pipeline by introducing an online negative sample generation strategy. Combined with the classifier-free guidance strategy during inference, it largely improves the perceptual quality of the super-resolution results. Extensive experiments have demonstrated the superior efficiency and effectiveness of the proposed model compared to recent state-of-the-art methods. | 翻訳日:2024-09-27 02:54:47 公開日:2024-09-25 |
# 室温テレコム単一光子エミッタを用いた分極符号化量子鍵分布
Polarization-encoded quantum key distribution with a room-temperature telecom single-photon emitter ( http://arxiv.org/abs/2409.17060v1 ) ライセンス: Link先を確認 | Xingjian Zhang, Haoran Zhang, Rui Ming Chua, John Eng, Max Meunier, James A Grieve, Weibo Gao, Alexander Ling, | (参考訳) 単一光子源(SPS)は、標準BB84プロトコルの実装を可能にするため、量子鍵分布(QKD)に直接適用される。
SPSを用いたQKD実装は、現在、低温動作や、電気通信ファイバーを介して効率よく伝送される波長への周波数変換を必要とするため、普及していない。
GaN欠陥に基づく室温通信SPSを用いた分極符号化QKDの観測を行った。
4.0dBの損失を持つ3.5kmの繊維のフィールドテストにより、安全なキーレートは585.9~bpsとなった。
さらに32.5kmのファイバースプール(減衰率11.2dB)での試験では、偏光モードの分散が著しく低くなり、キーレートは50.4bpsとなった。
どちらの結果も約5%の量子ビット誤り率(QBER)を示した。
これらの結果は、分極符号化量子通信をサポートするGaN欠陥の可能性を示している。
Single photon sources (SPSs) are directly applicable in quantum key distribution (QKD) because they allow the implementation of the canonical BB84 protocol. To date, QKD implementations using SPS are not widespread because of the need for cryogenic operation, or frequency conversion to a wavelength efficiently transmitted over telecommunication fibers. We report an observation of polarization-encoded QKD using a room-temperature telecom SPS based on a GaN defect. A field test over 3.5 km of deployed fiber with 4.0 dB loss yielded a secure key rate of 585.9~bps. Further testing in a 32.5 km fiber spool (attenuation of 11.2 dB), which exhibited substantially lower polarization mode dispersion, yielded a secure key rate of 50.4 bps. Both results exhibited a quantum bit error rate (QBER) of approximately 5%. These results illustrate the potential of the GaN defects for supporting polarization-encoded quantum communication. | 翻訳日:2024-09-27 02:54:47 公開日:2024-09-25 |
# 量子力学の(一意的な)解釈に反する:メタ物理負荷を取り除く
Against (unitary) interpretation (of quantum mechanics): removing the metaphysical load ( http://arxiv.org/abs/2409.17061v1 ) ライセンス: Link先を確認 | Marek Żukowski, Marcin Markiewicz, | (参考訳) 物理学は科学である。
したがって、声明は、世界/自然の経験に同意する(これは我々の実験を含む)場合にのみ、その「法則」として扱われる。
基本的に証明不可能な主張は、メタ物理に属する仮説である。
これらはすべて量子力学の解釈であり、これらの事象の量子予測には影響しないが、実験的に観測可能な事象以上の意味を持つ数学的ツールに起因している。
ユニタリ量子力学」は、その従者によれば、いくつかの興味深いパラドックスを導いており、証明不可能な仮説に基づく量子力学の解釈である。
あらゆる量子実験でテストされる(操作的な)量子力学は、これらのパラドックスを含まない。
単位」対運用上の不一致の根源は、後者が測定プロセスを不可逆的に扱い、状態ベクトルによって記述される問題に対する異なる答えである。
このことの最も明白な証明は、測定を「原則的無矛盾」にすることができるという「ユニタリ量子力学」の支持者の主張である。
ユニアリスト」は、それを説明する試みも含まないが、なおも計算ツールとしてボルンルールを受け入れるなど、いかなるコストでも後処理状態のベクター崩壊を回避しようとする。
イプソ・ファクト(Ipso facto)は、「測定を中止する原則的な可能性」の仮説は、証明不可能なメタ物理学に属する。
実験室における事実事象の予測の場合、‘ユニタリ’量子力学は操作力学と一致する。
この性質は、その予測に影響を与えない全ての量子力学の解釈と共通している。
メタ物理学は、量子力学が数学的に定式化された理論以上のものでなければならないと要求されたときに始まる。
Physics is a science. Thus a statement can be treated as its "law" only if it agrees with our experience of the World/Nature (this includes our experiments). Statements which are fundamentally untestable are hypotheses which belong to metaphysics. Such are all interpretations of quantum mechanics, which attribute to its mathematical tools meanings that are beyond experimentally observable events, while not affecting quantum predictions of these events. We show that "unitary quantum mechanics", which according to its followers leads to some interesting paradoxes, is an interpretation of quantum mechanics, based on hypotheses that are untestable. The (operational) quantum mechanics, which is the one tested in every quantum experiment is free of these paradoxes. The root of "unitary" vs. operational discrepancy is that the latter treats the measurement process as irreversible, and in the different answers to the question of what is described by the state vector. The clearest manifestation of this is the insistence of the supporters of "unitary quantum mechanics" that measurements can be "in principle undone". "Unitarists" also try to avoid the postmeasurement state vector collapse at any cost, including no attempt to describe it, but still accept the Born rule as a calculational tool. Ipso facto, the hypothesis of "in principle possibility of undoing measurements" belongs to metaphysics, as it is untestable. In the case of predictions of factual events in the laboratories the ``unitary" quantum mechanics agrees with the operational one. It shares this property with all interpretations of quantum mechanics which do not affect its predictions. Metaphysics begins when one requests that quantum mechanics should be more than a mathematically formulated theory which predicts future observable events of a certain class basing on events observed earlier (of the same class). | 翻訳日:2024-09-27 02:54:47 公開日:2024-09-25 |
# 非エルミート量子スピンはしごの絡み合いハミルトニアンと有効温度
Entanglement Hamiltonian and effective temperature of non-Hermitian quantum spin ladders ( http://arxiv.org/abs/2409.17062v1 ) ライセンス: Link先を確認 | Pei-Yun Yang, Yu-Chin Tzeng, | (参考訳) 量子絡み合いは、エルミート多体系を理解するだけでなく、非エルミート量子系に対する貴重な洞察を提供する上でも重要な役割を果たす。
本稿では,非エルミートスピンはしごの絡み合いと絡み合いエネルギースペクトルを,生物直交基底における摂動理論を用いて解析的に検討する。
具体的には、結合した非エルミート量子スピン鎖間の絡み合い特性について検討する。
強い結合極限(J_\mathrm{rung}\gg1$)において、一階摂動理論は、ハミルトニアンの絡み合いは、再正規化された結合強度を持つハミルトニアンによく似ていることを示し、アドホック温度の定義を可能にする。
本研究は,非エルミート量子系における量子絡み合いに関する新たな知見を提供し,有限温度密度行列正規化群(DMRG)を非エルミート量子系に適用するなど,新しいアルゴリズム開発の基礎を提供する。
Quantum entanglement plays a crucial role not only in understanding Hermitian many-body systems but also in offering valuable insights into non-Hermitian quantum systems. In this paper, we analytically investigate the entanglement Hamiltonian and entanglement energy spectrum of a non-Hermitian spin ladder using perturbation theory in the biorthogonal basis. Specifically, we examine the entanglement properties between coupled non-Hermitian quantum spin chains. In the strong coupling limit ($J_\mathrm{rung}\gg1$), first-order perturbation theory reveals that the entanglement Hamiltonian closely resembles the single-chain Hamiltonian with renormalized coupling strengths, allowing for the definition of an ad hoc temperature. Our findings provide new insights into quantum entanglement in non-Hermitian systems and offer a foundation for developing novel algorithms, such as applying finite-temperature Density Matrix Renormalization Group (DMRG) to non-Hermitian quantum systems. | 翻訳日:2024-09-27 02:54:47 公開日:2024-09-25 |
# 計算病理における領域一般化アルゴリズムのベンチマーク
Benchmarking Domain Generalization Algorithms in Computational Pathology ( http://arxiv.org/abs/2409.17063v1 ) ライセンス: Link先を確認 | Neda Zamanitajeddin, Mostafa Jahanifar, Kesi Xu, Fouzia Siraj, Nasir Rajpoot, | (参考訳) 深層学習モデルは計算病理学(CPath)タスクにおいて大きな可能性を示してきたが、そのパフォーマンスはドメインシフトによって見当たらないデータに適用される場合が多い。
これに対応するにはドメイン一般化(DG)アルゴリズムが必要である。
しかし、CPathコンテキストにおけるDGアルゴリズムの体系的評価は欠如している。
本研究の目的は,3つのCPathタスクに対する30のDGアルゴリズムの有効性を,7,560回のクロスバリデーション実行を通じて評価することである。
我々はこれらのアルゴリズムを統一的で堅牢なプラットフォームを用いて評価し、モダリティ固有の技術と、事前訓練された基礎モデルのような最近の進歩を取り入れた。
我々のクロスバリデーション実験は、様々なDG戦略の相対的性能に関する洞察を提供する。
自己教師型学習とステンド増強が他の手法より一貫して優れており、事前訓練されたモデルやデータ拡張の可能性を強調している。
さらに,今後の研究のベンチマークとして,新しい膵腫瘍検出データセット (HISTOPANTUM) を導入する。
本研究は、CPathタスクに適したDGアプローチを選択する上で、研究者に貴重なガイダンスを提供する。
Deep learning models have shown immense promise in computational pathology (CPath) tasks, but their performance often suffers when applied to unseen data due to domain shifts. Addressing this requires domain generalization (DG) algorithms. However, a systematic evaluation of DG algorithms in the CPath context is lacking. This study aims to benchmark the effectiveness of 30 DG algorithms on 3 CPath tasks of varying difficulty through 7,560 cross-validation runs. We evaluate these algorithms using a unified and robust platform, incorporating modality-specific techniques and recent advances like pretrained foundation models. Our extensive cross-validation experiments provide insights into the relative performance of various DG strategies. We observe that self-supervised learning and stain augmentation consistently outperform other methods, highlighting the potential of pretrained models and data augmentation. Furthermore, we introduce a new pan-cancer tumor detection dataset (HISTOPANTUM) as a benchmark for future research. This study offers valuable guidance to researchers in selecting appropriate DG approaches for CPath tasks. | 翻訳日:2024-09-27 02:54:47 公開日:2024-09-25 |
# VPTQ: 大規模言語モデルのための極低ビット後トレーニング量子化
VPTQ: Extreme Low-bit Vector Post-Training Quantization for Large Language Models ( http://arxiv.org/abs/2409.17066v1 ) ライセンス: Link先を確認 | Yifei Liu, Jicheng Wen, Yang Wang, Shengyu Ye, Li Lyna Zhang, Ting Cao, Cheng Li, Mao Yang, | (参考訳) モデルサイズをスケールすることは、大規模言語モデル(LLM)のデプロイメントと推論に大きく挑戦する。
LLM重みの冗長性のため、近年の研究は、重量のみの量子化を極端に低ビット(最大2ビット)まで押し上げることに重点を置いている。
メモリ要求を削減し、ストレージコストを最適化し、推論時のメモリ帯域幅を削減します。
しかし、数値表現の制限により、従来のスカラーベースの重み量子化はそのような極端な低ビットを達成するのに苦労する。
LLMのベクトル量子化(VQ)に関する最近の研究は、ルックアップテーブルを用いてベクトルをインデックスに圧縮することで、極低ビットモデル量子化の可能性を示している。
本稿では,LLMの極低ビット量子化のためのベクトルポストトレーニング量子化(VPTQ)を提案する。
LLM VQ問題を定式化するために2次最適化を用い、最適化を解くことで量子化アルゴリズムの設計を導出する。
細粒度VQに対してチャネル独立二階最適化を用いて重みを改良する。
さらに,最適化問題を分解することにより,簡潔かつ効果的なコードブック初期化アルゴリズムを提案する。
また、モデル精度を高め、モデルをさらに圧縮する残差量子化および外れ値量子化をサポートするためにVPTQを拡張した。
実験の結果,VPTQはモデル量子化の難易度をLLaMA-2上で0.01$-0.34$,Mistral-7Bで0.38$-0.68$,SOTAで4.41$-7.34$,LLaMA-2で0.79$-1.5\%,Mistral-7Bで1.1$-22\%,QAタスクで1.1$-22\%削減できることがわかった。
我々は量子化アルゴリズムの実行時間のうち10.4$-$18.6\%しか利用せず、結果としてSOTAと比較して推論スループットが1.6$-$1.8\times$上昇する。
Scaling model size significantly challenges the deployment and inference of Large Language Models (LLMs). Due to the redundancy in LLM weights, recent research has focused on pushing weight-only quantization to extremely low-bit (even down to 2 bits). It reduces memory requirements, optimizes storage costs, and decreases memory bandwidth needs during inference. However, due to numerical representation limitations, traditional scalar-based weight quantization struggles to achieve such extreme low-bit. Recent research on Vector Quantization (VQ) for LLMs has demonstrated the potential for extremely low-bit model quantization by compressing vectors into indices using lookup tables. In this paper, we introduce Vector Post-Training Quantization (VPTQ) for extremely low-bit quantization of LLMs. We use Second-Order Optimization to formulate the LLM VQ problem and guide our quantization algorithm design by solving the optimization. We further refine the weights using Channel-Independent Second-Order Optimization for a granular VQ. In addition, by decomposing the optimization problem, we propose a brief and effective codebook initialization algorithm. We also extend VPTQ to support residual and outlier quantization, which enhances model accuracy and further compresses the model. Our experimental results show that VPTQ reduces model quantization perplexity by $0.01$-$0.34$ on LLaMA-2, $0.38$-$0.68$ on Mistral-7B, $4.41$-$7.34$ on LLaMA-3 over SOTA at 2-bit, with an average accuracy improvement of $0.79$-$1.5\%$ on LLaMA-2, $1\%$ on Mistral-7B, $11$-$22\%$ on LLaMA-3 on QA tasks on average. We only utilize $10.4$-$18.6\%$ of the quantization algorithm execution time, resulting in a $1.6$-$1.8\times$ increase in inference throughput compared to SOTA. | 翻訳日:2024-09-27 02:54:47 公開日:2024-09-25 |
# ジャンル分類における知覚メトリクスが音楽表現学習に及ぼす影響
The Effect of Perceptual Metrics on Music Representation Learning for Genre Classification ( http://arxiv.org/abs/2409.17069v1 ) ライセンス: Link先を確認 | Tashi Namgyal, Alexander Hepburn, Raul Santos-Rodriguez, Valero Laparra, Jesus Malo, | (参考訳) 自然信号の主観的品質は、客観的な知覚的指標と近似することができる。
人間の観察者の知覚的振る舞いを近似するために設計された知覚的メトリクスは、しばしば自然の信号や神経学的経路に見られる構造を反映する。
損失関数として知覚メトリクスで訓練されたモデルは、これらのメトリクス内に保持される構造から知覚的に意味のある特徴をキャプチャすることができる。
本研究では,知覚的損失を学習したオートエンコーダから抽出した特徴を用いることで,ジャンル分類などの音楽理解タスクの性能を向上させることができることを示す。
この結果から,表現学習の損失関数として知覚的指標を用いた場合,新しい信号への一般化が示唆された。
The subjective quality of natural signals can be approximated with objective perceptual metrics. Designed to approximate the perceptual behaviour of human observers, perceptual metrics often reflect structures found in natural signals and neurological pathways. Models trained with perceptual metrics as loss functions can capture perceptually meaningful features from the structures held within these metrics. We demonstrate that using features extracted from autoencoders trained with perceptual losses can improve performance on music understanding tasks, i.e. genre classification, over using these metrics directly as distances when learning a classifier. This result suggests improved generalisation to novel signals when using perceptual metrics as loss functions for representation learning. | 翻訳日:2024-09-27 02:54:47 公開日:2024-09-25 |
# スペクトル巻き戻しによる(フロッケ)リンドブラッド発生装置
Effective (Floquet) Lindblad generators from spectral unwinding ( http://arxiv.org/abs/2409.17072v1 ) ライセンス: Link先を確認 | Görkem D. Dinc, André Eckardt, Alexander Schnell, | (参考訳) 開量子系の還元力学の数学的記述は、完全に正かつトレース保存(CPTP)写像(英語版)(quantum channel)としても知られる)によって与えられる。
Wolf et al [Phys. Rev. Lett. 101, 150402 (2008)] のセミナル研究において、与えられた量子チャネルが、時間非依存のリンドブラディアン生成器を含む基礎となる有効マルコフ力学から生成されるかどうかを決定することは、一般にNPハード問題であることを示した。
本研究では, 既往の時間(動的マップ)において, フルリダクション・ダイナミクスにアクセス可能な場合において, フロケ理論を用いることで, 有効生成器の探索を著しく促進できることを示す。
有効マイクロモーションを最小限に抑えるスペクトル展開を行うことにより、有効なFloquetジェネレータは有効なLindbladジェネレータの優れた候補となり、多くのケースにおいて有効なLindbladジェネレータの探索の複雑さを著しく低減する。
この結果は, 複雑な多体系におけるFloquet Lindbladiansの工学的応用に関係している。
A mathematical description of the reduced dynamics of an open quantum system can often be given in terms of a completely positive and trace preserving (CPTP) map, also known as quantum channel. In a seminal work by Wolf et al. [Phys. Rev. Lett. 101, 150402 (2008)], it was shown that deciding whether a given quantum channel was generated from an underlying effective Markovian dynamics, with time-independent Lindbladian generator, is generally an NP-hard problem. In this work we show that in cases where one has access to the full reduced dynamics at all previous times (the dynamical map) one can significantly facilitate the search for an effective generator by making use of Floquet theory. By performing a spectral unwinding such that the effective micromotion is minimized, the effective Floquet generator is often an excellent candidate for an effective Lindblad generator, hence significantly reducing the complexity of the search for an effective Lindblad generator in many (though not all) cases. Our results are relevant for engineering Floquet Lindbladians in complex many-body systems. | 翻訳日:2024-09-27 02:54:47 公開日:2024-09-25 |
# 粗粒Answer分解による長期文書理解におけるポストホック属性の促進
Enhancing Post-Hoc Attributions in Long Document Comprehension via Coarse Grained Answer Decomposition ( http://arxiv.org/abs/2409.17073v1 ) ライセンス: Link先を確認 | Pritika Ramu, Koustava Goswami, Apoorv Saxena, Balaji Vasan Srinivavsan, | (参考訳) 信頼性の高い質問応答システムを開発するためには,正確な回答文のソース文書化が不可欠である。
しかし、長文への帰属はほとんど解明されていない。
ポストホック属性システムは、回答テキストをソース文書にマッピングするように設計されているが、このマッピングの粒度は未解決である。
さらに、批判的な疑問が浮かび上がってくる: 根拠を必要とする答えの中で情報単位を特定することに重点を置いて、正確には何を属性にすべきなのか?
本稿では,テンプレートを用いたテキスト内学習を用いて,帰納的回答の事実分解のための新しい手法を提案し,検討する。
そこで本研究では,この疑問を生かし,数発のインコンテクスト学習におけるネガティブサンプリングを分解に活用する。
このアプローチは抽象的回答と抽出的回答の両方の意味的理解を強化する。
本研究では,検索に基づく手法からLCMに基づく属性まで,様々な属性アプローチの徹底的な検証を行うことで,回答の分解の影響について検討する。
Accurately attributing answer text to its source document is crucial for developing a reliable question-answering system. However, attribution for long documents remains largely unexplored. Post-hoc attribution systems are designed to map answer text back to the source document, yet the granularity of this mapping has not been addressed. Furthermore, a critical question arises: What precisely should be attributed, with an emphasis on identifying the information units within an answer that necessitate grounding? In this paper, we propose and investigate a novel approach to the factual decomposition of generated answers for attribution, employing template-based in-context learning. To accomplish this, we utilize the question and integrate negative sampling during few-shot in-context learning for decomposition. This approach enhances the semantic understanding of both abstractive and extractive answers. We examine the impact of answer decomposition by providing a thorough examination of various attribution approaches, ranging from retrieval-based techniques to LLM-based attributors. | 翻訳日:2024-09-27 02:54:47 公開日:2024-09-25 |
# 単一光子エンタングルメントを用いた長距離デバイス非依存量子鍵分布
Long-distance device-independent quantum key distribution using single-photon entanglement ( http://arxiv.org/abs/2409.17075v1 ) ライセンス: Link先を確認 | Anna Steffinlongo, Mariana Navarro, Marina Cenni, Xavier Valcarce, Antonio Acín, Enky Oudot, | (参考訳) デバイス非依存の量子キー分散(DIQKD)は、完全文字化されていない量子デバイスを使用しても、2人の誠実なユーザーがセキュアな通信チャネルを確立することができるため、量子セキュリティの最も強力な形態を提供する。
DIQKDのセキュリティ証明はベルの不平等を犯し、非局所性の存在を主張してサイドチャネル攻撃を緩和することに由来する。
この強化されたセキュリティは、ベル試験が成功しにくくなるため、特に長距離での困難な実装のコストがかかる。
そこで本研究では,直観的ユーザ間の単一光子経路の絡み合った状態の階層化を利用して,DIQKDのフォトニック実現を提案する。
得られた秘密鍵レートは、単一光子干渉効果に基づいて、量子チャネル透過の平方根と共にスケールする。
これにより、最大数百キロ離れた距離での正の鍵レートが得られ、提案されたセットアップは、量子ネットワークにおける長距離通信を確保するための有望な候補となる。
Device-independent quantum key distribution (DIQKD) provides the strongest form of quantum security, as it allows two honest users to establish secure communication channels even when using fully uncharacterized quantum devices. The security proof of DIQKD is derived from the violation of a Bell inequality, mitigating side-channel attacks by asserting the presence of nonlocality. This enhanced security comes at the cost of a challenging implementation, especially over long distances, as losses make Bell tests difficult to conduct successfully. Here, we propose a photonic realization of DIQKD, utilizing a heralded preparation of a single-photon path entangled state between the honest users. Being based on single-photon interference effects, the obtained secret key rate scales with the square root of the quantum channel transmittance. This leads to positive key rates over distances of up to hundreds of kilometers, making the proposed setup a promising candidate for securing long-distance communication in quantum networks. | 翻訳日:2024-09-27 02:54:47 公開日:2024-09-25 |
# 変圧器との効率的な特徴相互作用--ゲームにおけるユーザスペンディング確率予測の改善
Efficient Feature Interactions with Transformers: Improving User Spending Propensity Predictions in Gaming ( http://arxiv.org/abs/2409.17077v1 ) ライセンス: Link先を確認 | Ved Prakash, Kartavya Kothari, | (参考訳) Dream11はファンタジースポーツのプラットフォームで、ユーザーは実生活のスポーツイベントのために独自の仮想チームを作ることができる。
われわれは2億人以上のユーザーを対象に複数のスポーツや試合を開催している。
このRMG(real money gaming)設定では、ユーザは、ユーザに提供するさまざまなコンテスト製品に参加するために、エントリー金額を支払う。
本研究では,ユーザがゲームラウンドに費やす確率を予測することの問題点について論じ,様々なダウンストリームアプリケーションに利用できるようにする。
eg 利用者の消費適性に応じて極端にインセンティブを与えるか、または使用適性に基づいて製品リストをパーソナライズすることにより、ユーザーをアップセールする。
我々は,過去の取引データに基づいて,各ユーザの支出率をモデル化することを目的としている。
本稿では,構造データに対して良好な結果を示す木モデルとディープラーニングモデルをベンチマークし,入力特徴間のリッチな相互作用を捉えるように設計されたアーキテクチャ変更を提案する。
提案したアーキテクチャは,ゲームラウンドにおけるユーザの使用状況を予測するタスクにおいて,既存のモデルよりも優れていることを示す。
我々の新しいトランスモデルは最先端のFT-Transformerを超え、MAEを2.5 %改善し、MSEを21.8 %改善した。
Dream11 is a fantasy sports platform that allows users to create their own virtual teams for real-life sports events. We host multiple sports and matches for our 200M+ user base. In this RMG (real money gaming) setting, users pay an entry amount to participate in various contest products that we provide to users. In our current work, we discuss the problem of predicting the user's propensity to spend in a gaming round, so it can be utilized for various downstream applications. e.g. Upselling users by incentivizing them marginally as per their spending propensity, or personalizing the product listing based on the user's propensity to spend. We aim to model the spending propensity of each user based on past transaction data. In this paper, we benchmark tree-based and deep-learning models that show good results on structured data, and we propose a new architecture change that is specifically designed to capture the rich interactions among the input features. We show that our proposed architecture outperforms the existing models on the task of predicting the user's propensity to spend in a gaming round. Our new transformer model surpasses the state-of-the-art FT-Transformer, improving MAE by 2.5\% and MSE by 21.8\%. | 翻訳日:2024-09-27 02:54:47 公開日:2024-09-25 |
# 視覚言語モデルはあいまいな空間推論の視覚的説明から学ぶことができるか?
Can Vision Language Models Learn from Visual Demonstrations of Ambiguous Spatial Reasoning? ( http://arxiv.org/abs/2409.17080v1 ) ライセンス: Link先を確認 | Bowen Zhao, Leo Parker Dirac, Paulina Varshavskaya, | (参考訳) 大規模視覚言語モデル(VLM)は多くのコンピュータビジョンタスクの最先端となり、新しいタスクへの適応戦略としてインコンテキスト学習(ICL)が普及している。
しかし、VLMは視覚的なデモンストレーションから新しい概念を純粋に学べるのか、それともICLの例の出力形式に適応するだけなのか?
本稿では,空間的視覚曖昧性タスク (SVAT) と呼ばれる新しいベンチマークを提案する。
VLMはこのゼロショットに失敗し、微調整後に失敗することがある。
しかし、カリキュラム学習によるトレーニングに単純なデータを追加することで、ICLのパフォーマンスが向上する。
Large vision-language models (VLMs) have become state-of-the-art for many computer vision tasks, with in-context learning (ICL) as a popular adaptation strategy for new ones. But can VLMs learn novel concepts purely from visual demonstrations, or are they limited to adapting to the output format of ICL examples? We propose a new benchmark we call Spatial Visual Ambiguity Tasks (SVAT) that challenges state-of-the-art VLMs to learn new visuospatial tasks in-context. We find that VLMs fail to do this zero-shot, and sometimes continue to fail after finetuning. However, adding simpler data to the training by curriculum learning leads to improved ICL performance. | 翻訳日:2024-09-27 02:54:47 公開日:2024-09-25 |
# ハイゼンベルクXYZスピン量子電池のダイナミクス
Dynamics of Heisenberg XYZ spin Quantum Battery ( http://arxiv.org/abs/2409.17083v1 ) ライセンス: Link先を確認 | Disha Verma, Indrajith VS, R. Sankaranarayanan, | (参考訳) スピン系は量子電池のメカニズムを理解するために広く研究されており、クローズドシステムでも古典的な電池よりも高速に充電できることが示されている。
しかし、量子電池の内部力学は、その性能に大きな影響を与え、様々なパラメータの影響を理解することが重要である。
本研究では,スピン相互作用における異方性や外部磁場などの重要な要因を解明し,作業出力を最適化し,有効充電を確保することを目的としたXY Zハイゼンベルクスピンシステムについて検討する。
Spin systems have been extensively studied to understand the mechanisms of quantum batteries, which have shown the ability to charge faster than classical counterparts, even in closed systems. However, the internal dynamics of quantum batteries can significantly affect their performance, making it crucial to understand the influence of various parameters. In this study, we focus on the XY Z Heisenberg spin system, examining key factors such as anisotropy in spin interactions and external magnetic field to optimize work output to ensure effective charging. | 翻訳日:2024-09-27 02:54:47 公開日:2024-09-25 |
# 不確実性を考慮した深さ推定のためのパラメータ効率ベイズニューラルネットワーク
Parameter-efficient Bayesian Neural Networks for Uncertainty-aware Depth Estimation ( http://arxiv.org/abs/2409.17085v1 ) ライセンス: Link先を確認 | Richard D. Paul, Alessio Quercia, Vincent Fortuin, Katharina Nöh, Hanno Scharr, | (参考訳) モノクル深度推定(MDE)のような最先端のコンピュータビジョンタスクは、大規模なトランスフォーマーベースのアーキテクチャに大きく依存している。
しかし、安全クリティカル領域におけるそれらの応用は、信頼性の高い予測性能と不確実な定量化を要求する。
ベイズニューラルネットワークはこれらの要件を満たすための概念的にシンプルなアプローチを提供するが、パラメータ空間の高次元性に悩まされる。
パラメータ効率のよい微調整(PEFT)手法,特にローランク適応(LoRA)は,低次元部分空間上でパラメータ推論を行うことで,大規模モデルを下流タスクに適用するための一般的な戦略として登場した。
本研究では,大規模トランスフォーマーを用いた視覚モデルにおける部分空間ベイズ推定のためのPEFT手法の適合性について検討する。
実のところ、BitFit、DiffFit、LoRA、CoLoRAはLoRAにインスパイアされた新しいPEFT法であり、ベイジアン推論はMDEにおいてより堅牢で信頼性の高い予測性能を実現する。
State-of-the-art computer vision tasks, like monocular depth estimation (MDE), rely heavily on large, modern Transformer-based architectures. However, their application in safety-critical domains demands reliable predictive performance and uncertainty quantification. While Bayesian neural networks provide a conceptually simple approach to serve those requirements, they suffer from the high dimensionality of the parameter space. Parameter-efficient fine-tuning (PEFT) methods, in particular low-rank adaptations (LoRA), have emerged as a popular strategy for adapting large-scale models to down-stream tasks by performing parameter inference on lower-dimensional subspaces. In this work, we investigate the suitability of PEFT methods for subspace Bayesian inference in large-scale Transformer-based vision models. We show that, indeed, combining BitFit, DiffFit, LoRA, and CoLoRA, a novel LoRA-inspired PEFT method, with Bayesian inference enables more robust and reliable predictive performance in MDE. | 翻訳日:2024-09-27 02:54:47 公開日:2024-09-25 |
# SEN12-WATER: 流体アプリケーションのための新しいデータセットとそのベンチマーク
SEN12-WATER: A New Dataset for Hydrological Applications and its Benchmarking ( http://arxiv.org/abs/2409.17087v1 ) ライセンス: Link先を確認 | Luigi Russo, Francesco Mauro, Alessandro Sebastianelli, Paolo Gamba, Silvia Liberata Ullo, | (参考訳) 気候変動と干ばつの増加は、世界中の水資源管理に重大な課題をもたらしている。
これらの問題は、生態系、農業、人的社会を脅かす深刻な水不足に繋がる。
これらの課題と戦うために、私たちは、新しいデータセットであるSEN12-WATERと、新しいエンドツーエンドディープラーニング(DL)フレームワークを使用して、積極的干ばつに関する分析を行うベンチマークを提示する。
このデータセットは時空間データキューブとして認識され、SAR偏光、標高、傾斜、マルチスペクトル光バンドを統合している。
本フレームワークは,水量などの物理量の経時変化を調べて,干ばつ解析のための水の動態に関する重要な知見を提示し,関心の貯水池における水損失の時間的分析と推定を可能にする。
提案手法は, 提案したデータセットの多時的・多モーダル的特性を利用して, 堅牢な一般化と干ばつ理解の促進を実現し, 気候変動のレジリエンスと持続可能な水資源管理に寄与する。
提案するフレームワークには,SARデータからのスペックルノイズ除去,U-Netアーキテクチャによる水域セグメンテーション,時系列解析,TD-CNN(Time-Distributed-Convolutional Neural Network)の予測機能などが含まれている。
結果は、地上で取得した地上の真実データと、精密度、リコール、ユニオン上のインターセクション、平均二乗誤差、構造的類似度指数測定、ピーク信号対ノイズ比などの(調整された)メトリクスによって検証される。
Climate change and increasing droughts pose significant challenges to water resource management around the world. These problems lead to severe water shortages that threaten ecosystems, agriculture, and human communities. To advance the fight against these challenges, we present a new dataset, SEN12-WATER, along with a benchmark using a novel end-to-end Deep Learning (DL) framework for proactive drought-related analysis. The dataset, identified as a spatiotemporal datacube, integrates SAR polarization, elevation, slope, and multispectral optical bands. Our DL framework enables the analysis and estimation of water losses over time in reservoirs of interest, revealing significant insights into water dynamics for drought analysis by examining temporal changes in physical quantities such as water volume. Our methodology takes advantage of the multitemporal and multimodal characteristics of the proposed dataset, enabling robust generalization and advancing understanding of drought, contributing to climate change resilience and sustainable water resource management. The proposed framework involves, among the several components, speckle noise removal from SAR data, a water body segmentation through a U-Net architecture, the time series analysis, and the predictive capability of a Time-Distributed-Convolutional Neural Network (TD-CNN). Results are validated through ground truth data acquired on-ground via dedicated sensors and (tailored) metrics, such as Precision, Recall, Intersection over Union, Mean Squared Error, Structural Similarity Index Measure and Peak Signal-to-Noise Ratio. | 翻訳日:2024-09-27 02:54:47 公開日:2024-09-25 |
# ノイズ量子ネットワークを用いた分散センシングにおける量子アドバンテージ
Quantum Advantage in Distributed Sensing with Noisy Quantum Networks ( http://arxiv.org/abs/2409.17089v1 ) ライセンス: Link先を確認 | Allen Zang, Alexander Kolar, Alvin Gonzales, Joaquin Chung, Stephen K. Gray, Rajkumar Kettimuthu, Tian Zhong, Zain H. Saleem, | (参考訳) 分散センシングにおける量子優位性はノイズの多い量子ネットワークで実現できることを示す。
偏極型GHZ状態をプローブとして用いると、最適局所センシング戦略よりも有利となるように閉形式忠実度しきい値が導出される。
この閾値は、この量子優位性には絡み合いが必要であるが、真の多部絡みは一般に不要であることを示している。
さらに,不完全な局所的絡み合いの発生と局所的な測定制約の影響について検討し,量子的優位性は局所的な演算誤差よりも量子ネットワークの不完全性に対してより堅牢であることを示す。
最後に、分散センシングにおける量子優位性は、オープンソースのカスタマイズ可能な量子ネットワークシミュレータであるSeQUeNCeによるシミュレーションにより、実用的なプロトコルスタックを使用して3ノードの量子ネットワークで達成できることを実証する。
We show that quantum advantage in distributed sensing can be achieved with noisy quantum networks. When using depolarized GHZ states as the probe, we derive a closed-form fidelity threshold to achieve advantage over the optimal local sensing strategy. The threshold indicates that while entanglement is needed for this quantum advantage, genuine multipartite entanglement is generally unnecessary. We further explore the impacts from imperfect local entanglement generation and local measurement constraint, and our results imply that the quantum advantage is more robust against quantum network imperfections than local operation errors. Finally, we demonstrate that the quantum advantage in distributed sensing can be achieved with a three-node quantum network using practical protocol stacks through simulations with SeQUeNCe, an open-source, customizable quantum network simulator. | 翻訳日:2024-09-27 02:44:18 公開日:2024-09-25 |
# 局所正規化スパースグラフの高速化
Locally Regularized Sparse Graph by Fast Proximal Gradient Descent ( http://arxiv.org/abs/2409.17090v1 ) ライセンス: Link先を確認 | Dongfang Sun, Yingzhen Yang, | (参考訳) スパース表現によって構築されたスパースグラフは、高次元データのクラスタリングに有効であることが示されている。
バニラスパースグラフは、説得力のある経験的性能に加えて、各ダタムに対してスパース表現を別々に行うことにより、データの幾何学的情報を無視する。
データの局所的幾何学構造に整合したスパースグラフを得るために,SRSGと略される新しいサポート正規化スパースグラフを提案する。
SRSGは、適切に定義されたサポート正規化項によって、近くのデータポイントの近傍の局所的な滑らかさを奨励する。
本研究では,SRSGの非凸最適化問題を,スムーズかつ凸的対象関数上のネステロフの最適収束率とリプシッツ連続勾配との収束率とを一致させる高速な近位勾配降下法を提案する。
様々な実データ集合に対する大規模な実験結果は、他の競合するクラスタリング手法よりもSRSGの方が優れていることを示している。
Sparse graphs built by sparse representation has been demonstrated to be effective in clustering high-dimensional data. Albeit the compelling empirical performance, the vanilla sparse graph ignores the geometric information of the data by performing sparse representation for each datum separately. In order to obtain a sparse graph aligned with the local geometric structure of data, we propose a novel Support Regularized Sparse Graph, abbreviated as SRSG, for data clustering. SRSG encourages local smoothness on the neighborhoods of nearby data points by a well-defined support regularization term. We propose a fast proximal gradient descent method to solve the non-convex optimization problem of SRSG with the convergence matching the Nesterov's optimal convergence rate of first-order methods on smooth and convex objective function with Lipschitz continuous gradient. Extensive experimental results on various real data sets demonstrate the superiority of SRSG over other competing clustering methods. | 翻訳日:2024-09-27 02:44:18 公開日:2024-09-25 |
# Ctrl-GenAug:医療シーケンス分類のための制御可能な生成拡張
Ctrl-GenAug: Controllable Generative Augmentation for Medical Sequence Classification ( http://arxiv.org/abs/2409.17091v1 ) ライセンス: Link先を確認 | Xinrui Zhou, Yuhao Huang, Haoran Dou, Shijing Chen, Ao Chang, Jia Liu, Weiran Long, Jian Zheng, Erjiao Xu, Jie Ren, Ruobing Huang, Jun Cheng, Wufeng Xue, Dong Ni, | (参考訳) 医療分野では、大規模データセットと労働集約的なアノテーションプロセスの限られた利用が、ディープモデルの性能を妨げている。
拡散に基づく生成増強アプローチは、下流の医療認識タスクの進行に有効であることが証明され、この問題に対して有望な解決策を示す。
それでも、既存の作品には、ビデオ/3Dシーケンス生成に挑戦するための十分な意味とシーケンシャルな操縦性がなく、ノイズの多い合成サンプルの品質管理を怠り、信頼性の低い合成データベースとなり、下流タスクの性能を著しく制限した。
そこで本研究では, 新規で汎用的な生成拡張フレームワークであるCtrl-GenAugを紹介し, 高い意味論的およびシーケンシャルな配列合成を可能にし, 不正に合成されたサンプルを抑圧し, 医学的配列分類を支援する。
具体的には、まずマルチモーダルな条件誘導配列生成器を設計し、診断促進サンプルを制御合成する。
逐次拡張モジュールは、生成されたサンプルの時間的/立体的コヒーレンスを高めるために統合される。
そこで本研究では, セマンティックおよびシーケンシャルレベルでの信頼できないケースを抑えるため, ノイズの多い合成データフィルタを提案する。
Ctrl-GenAugの有効性と一般性、特に低リスクの高リスク集団や領域外条件において、11のネットワークを3つのパラダイムでトレーニングした。
In the medical field, the limited availability of large-scale datasets and labor-intensive annotation processes hinder the performance of deep models. Diffusion-based generative augmentation approaches present a promising solution to this issue, having been proven effective in advancing downstream medical recognition tasks. Nevertheless, existing works lack sufficient semantic and sequential steerability for challenging video/3D sequence generation, and neglect quality control of noisy synthesized samples, resulting in unreliable synthetic databases and severely limiting the performance of downstream tasks. In this work, we present Ctrl-GenAug, a novel and general generative augmentation framework that enables highly semantic- and sequential-customized sequence synthesis and suppresses incorrectly synthesized samples, to aid medical sequence classification. Specifically, we first design a multimodal conditions-guided sequence generator for controllably synthesizing diagnosis-promotive samples. A sequential augmentation module is integrated to enhance the temporal/stereoscopic coherence of generated samples. Then, we propose a noisy synthetic data filter to suppress unreliable cases at semantic and sequential levels. Extensive experiments on 3 medical datasets, using 11 networks trained on 3 paradigms, comprehensively analyze the effectiveness and generality of Ctrl-GenAug, particularly in underrepresented high-risk populations and out-domain conditions. | 翻訳日:2024-09-27 02:44:18 公開日:2024-09-25 |
# 累積器を意識したポストトレーニング量子化
Accumulator-Aware Post-Training Quantization ( http://arxiv.org/abs/2409.17092v1 ) ライセンス: Link先を確認 | Ian Colbert, Fabian Grob, Giuseppe Franco, Jinjie Zhang, Rayan Saab, | (参考訳) いくつかの最近の研究では、低精度の蓄積、スループット、パワー、および様々なプラットフォームにわたる領域の改善を報告している。
しかし、関連する提案は量子化対応トレーニング(QAT)パラダイムのみを考慮しており、ループ内の量子化によってモデルがスクラッチから微調整または訓練される。
モデルのサイズが拡大するにつれて、QAT技術はますます高価になり、これはポストトレーニング量子化(PTQ)研究の最近の増加を動機付けている。
我々の知る限りでは、PTQ設定におけるアキュムレータを意識した量子化に関する最初の公式な研究である。
このギャップを埋めるために、我々は既存のレイヤワイドPTQアルゴリズムにオーバーフロー回避を保証するために設計されたアキュムレータ対応拡張の実践的なフレームワークであるAXEを紹介する。
我々はAXEを理論的に動機付け、GPFQとOPTQという2つの最先端PTQアルゴリズム上に実装することで、その柔軟性を実証する。
我々はさらにAXEを一般化して、初めてマルチステージ蓄積をサポートし、完全なデータパス最適化と大規模言語モデル(LLM)へのスケーリングの扉を開く。
画像分類と言語生成モデル間でのAXEの評価を行い,アキュムレータビット幅とベースライン法によるモデル精度とのトレードオフを著しく改善した。
Several recent studies have investigated low-precision accumulation, reporting improvements in throughput, power, and area across various platforms. However, the accompanying proposals have only considered the quantization-aware training (QAT) paradigm, in which models are fine-tuned or trained from scratch with quantization in the loop. As models continue to grow in size, QAT techniques become increasingly more expensive, which has motivated the recent surge in post-training quantization (PTQ) research. To the best of our knowledge, ours marks the first formal study of accumulator-aware quantization in the PTQ setting. To bridge this gap, we introduce AXE, a practical framework of accumulator-aware extensions designed to endow overflow avoidance guarantees to existing layer-wise PTQ algorithms. We theoretically motivate AXE and demonstrate its flexibility by implementing it on top of two state-of-the-art PTQ algorithms: GPFQ and OPTQ. We further generalize AXE to support multi-stage accumulation for the first time, opening the door for full datapath optimization and scaling to large language models (LLMs). We evaluate AXE across image classification and language generation models, and observe significant improvements in the trade-off between accumulator bit width and model accuracy over baseline methods. | 翻訳日:2024-09-27 02:44:18 公開日:2024-09-25 |
# BitQ: リソース制約デバイス上でのDNN効率向上のためのブロック浮動小数点精度の調整
BitQ: Tailoring Block Floating Point Precision for Improved DNN Efficiency on Resource-Constrained Devices ( http://arxiv.org/abs/2409.17093v1 ) ライセンス: Link先を確認 | Yongqi Xu, Yujian Lee, Gao Yi, Bosheng Liu, Yucong Chen, Peng Liu, Jigang Wu, Xiaoming Chen, Yinhe Han, | (参考訳) ディープニューラルネットワーク(DNN)は、画像分類、オブジェクト検出、シーンセグメンテーションなどの認知タスクに強力である。
しかし1つの欠点は、ハードウェアリソースが限られているため、組み込みプラットフォームでリアルタイムに実行できない、計算の複雑さとメモリ消費である。
ブロック浮動小数点量子化(ブロック浮動小数点量子化、BFP)は、DNNモデルの広範なデータ分布を効果的に捉える能力により、メモリと計算負荷を減らすための代表的な圧縮手法の1つである。
残念ながら、BFPベースの量子化に関する先行研究では、ブロックサイズと精度を維持する精度を実証的に選択した。
本稿では、組み込みプラットフォーム上でのDNN推論の最良のBFP実装のためのBFPベースのビット幅対応解析モデルフレームワーク( ``BitQ'')を開発する。
我々は,最適BFPブロックサイズとビット幅分布を,精度と性能損失のトレードオフによって決定・解決する最適化問題を定式化する。
実験結果から,BFP DNNはビット幅が等しく設定されているのに対し,最適化されたビット幅のDNNは効率よく計算し,有名なベンチマークで精度を保っていることがわかった。
ソースコードとデータはhttps://github.com/Cheliosoops/BitQ.comで公開されている。
Deep neural networks (DNNs) are powerful for cognitive tasks such as image classification, object detection, and scene segmentation. One drawback however is the significant high computational complexity and memory consumption, which makes them unfeasible to run real-time on embedded platforms because of the limited hardware resources. Block floating point (BFP) quantization is one of the representative compression approaches for reducing the memory and computational burden owing to their capability to effectively capture the broad data distribution of DNN models. Unfortunately, prior works on BFP-based quantization empirically choose the block size and the precision that preserve accuracy. In this paper, we develop a BFP-based bitwidth-aware analytical modeling framework (called ``BitQ'') for the best BFP implementation of DNN inference on embedded platforms. We formulate and resolve an optimization problem to identify the optimal BFP block size and bitwidth distribution by the trade-off of both accuracy and performance loss. Experimental results show that compared with an equal bitwidth setting, the BFP DNNs with optimized bitwidth allocation provide efficient computation, preserving accuracy on famous benchmarks. The source code and data are available at https://github.com/Cheliosoops/BitQ. | 翻訳日:2024-09-27 02:44:18 公開日:2024-09-25 |
# 一般検出に基づくテキストライン認識
General Detection-based Text Line Recognition ( http://arxiv.org/abs/2409.17095v1 ) ライセンス: Link先を確認 | Raphael Baena, Syrine Kalleli, Mathieu Aubry, | (参考訳) テキスト行認識に対する一般的な検出に基づくアプローチとして,テキスト行認識 (OCR) や手書き文字 (HTR) をラテン文字,中国語文字,暗号文字を用いて導入する。
文字を個別に読むことはしばしば困難であり、文字レベルのアノテーションは困難で高価である。
3つの主要な洞察のおかげで、これらの課題を克服しました。
一 十分な多種多様なデータによる合成事前学習により、任意のスクリプトに対して合理的な文字ローカライゼーションを学習することができること。
二 現代の変圧器を用いた検出器は、多数のインスタンスを共同で検出することができ、適切なマスキング戦略で訓練した場合、異なる検出間の整合性を利用することができる。
(iii) 文字ローカライゼーションを近似した事前学習検出モデルが利用可能になると, 実データに行レベルのアノテーションを付加した微調整が可能である。
DTLRと呼ばれる我々の手法は、完全行を並列に処理しながら、自動回帰デコード、文字値を1つずつ予測する、最先端のHTRメソッドとは全く異なるパラダイムに基づいている。
注目すべきは、幅広いスクリプトで優れたパフォーマンスを示し、通常は特殊なアプローチに取り組みます。
特に、CASIA v2データセット上での中国語スクリプト認識と、BorgおよびCopialeデータセット上での暗号認識の最先端性能を改善した。
私たちのコードとモデルはhttps://github.com/raphael-baena/DTLR.comで公開されています。
We introduce a general detection-based approach to text line recognition, be it printed (OCR) or handwritten (HTR), with Latin, Chinese, or ciphered characters. Detection-based approaches have until now been largely discarded for HTR because reading characters separately is often challenging, and character-level annotation is difficult and expensive. We overcome these challenges thanks to three main insights: (i) synthetic pre-training with sufficiently diverse data enables learning reasonable character localization for any script; (ii) modern transformer-based detectors can jointly detect a large number of instances, and, if trained with an adequate masking strategy, leverage consistency between the different detections; (iii) once a pre-trained detection model with approximate character localization is available, it is possible to fine-tune it with line-level annotation on real data, even with a different alphabet. Our approach, dubbed DTLR, builds on a completely different paradigm than state-of-the-art HTR methods, which rely on autoregressive decoding, predicting character values one by one, while we treat a complete line in parallel. Remarkably, we demonstrate good performance on a large range of scripts, usually tackled with specialized approaches. In particular, we improve state-of-the-art performances for Chinese script recognition on the CASIA v2 dataset, and for cipher recognition on the Borg and Copiale datasets. Our code and models are available at https://github.com/raphael-baena/DTLR. | 翻訳日:2024-09-27 02:44:18 公開日:2024-09-25 |
# 位相量子場理論の関数積分構成
Functional Integral Construction of Topological Quantum Field Theory ( http://arxiv.org/abs/2409.17103v1 ) ライセンス: Link先を確認 | Zhengwei Liu, | (参考訳) 格子を記述するために正成層状片方向線型多様体を導入し、すべての次元における位相量子場理論への格子モデルアプローチについて検討する。
単元 $n+1$ alterfold TQFT を導入し、それを$n$次元格子モデル上の線型汎関数から構成し、3つの条件を満たす:反射正則性、同相不変性、完全有限性。
単位球面$n$-圏は数学的に定義され、格子モデルの局所量子対称性として現れる。
折りたたみ構成は、$n+1$TQFTの様々な構成を$n$次元格子モデルと$n$カテゴリから統一する。
特に、線形汎函数から非可逆ユニタリ 3+1 折りたたみ TQFT を構築し、その局所量子対称性を明示的な20j-シンボルを持つイジング型のユニタリ球面3圏として導出することにより、分割線型4次元多様体における2-ノットのスカラー不変量を明示的に計算することができる。
We introduce regular stratified piecewise linear manifolds to describe lattices and investigate the lattice model approach to topological quantum field theory in all dimensions. We introduce the unitary $n+1$ alterfold TQFT and construct it from a linear functional on an $n$-dimensional lattice model on an $n$-sphere satisfying three conditions: reflection positivity, homeomorphic invariance and complete finiteness. A unitary spherical $n$-category is mathematically defined and emerges as the local quantum symmetry of the lattice model. The alterfold construction unifies various constructions of $n+1$ TQFT from $n$-dimensional lattice models and $n$-categories. In particular, we construct a non-invertible unitary 3+1 alterfold TQFT from a linear functional and derive its local quantum symmetry as a unitary spherical 3-category of Ising type with explicit 20j-symbols, so that the scalar invariant of 2-knots in piecewise linear 4-manifolds could be computed explicitly. | 翻訳日:2024-09-27 02:44:18 公開日:2024-09-25 |
# Text2CAD:Beginner-to-Expertレベルテキストプロンプから逐次CADモデルを生成する
Text2CAD: Generating Sequential CAD Models from Beginner-to-Expert Level Text Prompts ( http://arxiv.org/abs/2409.17106v1 ) ライセンス: Link先を確認 | Mohammad Sadil Khan, Sankalp Sinha, Talha Uddin Sheikh, Didier Stricker, Sk Aziz Ali, Muhammad Zeshan Afzal, | (参考訳) 現代のソフトウェアにおける複雑なコンピュータ支援設計(CAD)モデルのプロトタイプ作成には、非常に時間がかかる可能性がある。
これは、より単純な中間部品を迅速に生成できるインテリジェントシステムがないためである。
我々は,すべてのスキルレベルに対して,デザイナーフレンドリな指示を用いたテキストからパラメトリックCADモデルを生成するための,最初のAIフレームワークであるText2CADを提案する。
さらに、MistralとLLaVA-NeXTを用いて、DeepCADデータセットの自然言語命令に基づいてテキストプロンプトを生成するためのデータアノテーションパイプラインを導入する。
データセットには$\sim170$Kモデルと$\sim660$Kテキストアノテーションが含まれており、抽象CAD記述(例:2つの同心円シリンダーを生成する)から詳細な仕様(例:中央の$(x,y)$と半径の$r_{1}$、$r_{2}$の2つの円を描く、通常通り$d$...)までである。
Text2CADフレームワーク内では、入力テキストからパラメトリックCADモデルを生成するために、エンドツーエンドのトランスフォーマーベースの自動回帰ネットワークを提案する。
我々は,視覚的品質,パラメトリック精度,幾何学的精度など,様々な指標を用いてモデルの性能を評価する。
提案するフレームワークは,AI支援設計アプリケーションにおいて大きな可能性を秘めている。
ソースコードとアノテーションは公開されます。
Prototyping complex computer-aided design (CAD) models in modern softwares can be very time-consuming. This is due to the lack of intelligent systems that can quickly generate simpler intermediate parts. We propose Text2CAD, the first AI framework for generating text-to-parametric CAD models using designer-friendly instructions for all skill levels. Furthermore, we introduce a data annotation pipeline for generating text prompts based on natural language instructions for the DeepCAD dataset using Mistral and LLaVA-NeXT. The dataset contains $\sim170$K models and $\sim660$K text annotations, from abstract CAD descriptions (e.g., generate two concentric cylinders) to detailed specifications (e.g., draw two circles with center $(x,y)$ and radius $r_{1}$, $r_{2}$, and extrude along the normal by $d$...). Within the Text2CAD framework, we propose an end-to-end transformer-based auto-regressive network to generate parametric CAD models from input texts. We evaluate the performance of our model through a mixture of metrics, including visual quality, parametric precision, and geometrical accuracy. Our proposed framework shows great potential in AI-aided design applications. Our source code and annotations will be publicly available. | 翻訳日:2024-09-27 02:44:18 公開日:2024-09-25 |
# 確率勾配の非漸近収束解析
不連続確率勾配を持つハミルトンモンテカルロアルゴリズム
ReLUニューラルネットワークのトレーニングへの応用
Non-asymptotic convergence analysis of the stochastic gradient Hamiltonian Monte Carlo algorithm with discontinuous stochastic gradient with applications to training of ReLU neural networks ( http://arxiv.org/abs/2409.17107v1 ) ライセンス: Link先を確認 | Luxu Liang, Ariel Neufeld, Ying Zhang | (参考訳) 本稿では,確率勾配ハミルトニアン・モンテカルロ(SGHMC)アルゴリズムのWasserstein-1とWasserstein-2距離における目標測度への収束の非漸近解析を行う。
重要なことは、SGHMCの既存の文献と比較して、確率勾配が不連続であることを認める。
これにより、不連続な確率勾配を持つ非凸確率最適化問題の過大なリスクに対して、任意に小さく制御できる明示的な上限を与えることができ、その中にはReLUアクティベーション関数を用いたニューラルネットワークのトレーニングも含まれる。
主な結果の適用性を説明するために、定量推定と、金融と人工知能に関連するReLUニューラルネットワークを含むいくつかの最適化問題について、数値実験を考察する。
In this paper, we provide a non-asymptotic analysis of the convergence of the stochastic gradient Hamiltonian Monte Carlo (SGHMC) algorithm to a target measure in Wasserstein-1 and Wasserstein-2 distance. Crucially, compared to the existing literature on SGHMC, we allow its stochastic gradient to be discontinuous. This allows us to provide explicit upper bounds, which can be controlled to be arbitrarily small, for the expected excess risk of non-convex stochastic optimization problems with discontinuous stochastic gradients, including, among others, the training of neural networks with ReLU activation function. To illustrate the applicability of our main results, we consider numerical experiments on quantile estimation and on several optimization problems involving ReLU neural networks relevant in finance and artificial intelligence. | 翻訳日:2024-09-27 02:44:18 公開日:2024-09-25 |
# マルチモーダル基礎モデルにおけるオントロジーの展開
Unveiling Ontological Commitment in Multi-Modal Foundation Models ( http://arxiv.org/abs/2409.17109v1 ) ライセンス: Link先を確認 | Mert Keser, Gesina Schwalbe, Niki Amini-Naieni, Matthias Rottmann, Alois Knoll, | (参考訳) オントロジー的コミットメント(英: Ontological commitment、すなわち、概念、関係、仮定)は、定性推論(QR)モデルのコーナーストーンである。
しかし、生の入力を処理する最先端技術はディープニューラルネットワーク(DNN)である。
これらは、概念とそれぞれの推論の豊かな表現を自動的に学習する。
残念ながら、学習した質的な知識は不透明で、容易に検査、検証、利用可能なQRモデルへの適応を防ぎます。
これまでのところ、定義済みの概念とDNNの潜在表現を関連付けることは可能であるが、抽出可能な関係は主に意味的類似性に限られている。
DNNの検証と検証のためのQRへの次のステップとして、具体的には、与えられた葉の集合に対してマルチモーダルDNNから学習されたスーパークラス階層を抽出する手法を提案する。
内部では,(1)DNNのテキスト入力モダリティを用いたリーフ概念の埋め込み,(2)DNNがベクトル距離を介して意味的類似性を符号化する階層的クラスタリング,(3)QRから利用可能なオントロジーの探索を用いて,そのような達成された親概念をラベル付けする。
最初の評価研究では、最先端基礎モデルから有意義な存在論的階級階層を抽出できることが示されている。
さらに、与えられたオントロジーに対してDNNが学習した表現を検証し、検証する方法を示す。
最後に、QRの文脈における将来的な応用について論じる。
Ontological commitment, i.e., used concepts, relations, and assumptions, are a corner stone of qualitative reasoning (QR) models. The state-of-the-art for processing raw inputs, though, are deep neural networks (DNNs), nowadays often based off from multimodal foundation models. These automatically learn rich representations of concepts and respective reasoning. Unfortunately, the learned qualitative knowledge is opaque, preventing easy inspection, validation, or adaptation against available QR models. So far, it is possible to associate pre-defined concepts with latent representations of DNNs, but extractable relations are mostly limited to semantic similarity. As a next step towards QR for validation and verification of DNNs: Concretely, we propose a method that extracts the learned superclass hierarchy from a multimodal DNN for a given set of leaf concepts. Under the hood we (1) obtain leaf concept embeddings using the DNN's textual input modality; (2) apply hierarchical clustering to them, using that DNNs encode semantic similarities via vector distances; and (3) label the such-obtained parent concepts using search in available ontologies from QR. An initial evaluation study shows that meaningful ontological class hierarchies can be extracted from state-of-the-art foundation models. Furthermore, we demonstrate how to validate and verify a DNN's learned representations against given ontologies. Lastly, we discuss potential future applications in the context of QR. | 翻訳日:2024-09-27 02:44:18 公開日:2024-09-25 |
# MorphoSeg: 複雑な細胞形態のバイオメディカルセグメンテーションのための不確実性を考慮した深層学習手法
MorphoSeg: An Uncertainty-Aware Deep Learning Method for Biomedical Segmentation of Complex Cellular Morphologies ( http://arxiv.org/abs/2409.17110v1 ) ライセンス: Link先を確認 | Tianhao Zhang, Heather J. McCourty, Berardo M. Sanchez-Tafolla, Anton Nikolaev, Lyudmila S. Mihaylova, | (参考訳) 深層学習は医学や生物学的イメージング、特にセグメンテーションのタスクに革命をもたらした。
しかし, 細胞形態の多様性や複雑さのため, 細胞分節化はいまだに困難である。
この課題に対処するには、生物学的な細胞に見られる多様な形態を正確に表現する高品質なデータセットが必要である。
既存のセルセグメンテーションデータセットは、通常形状と均一形状に焦点を絞ることによって制限されることが多い。
本稿では,多能性癌細胞株であるNtera-2 (NT2) の新たなベンチマークデータセットを提案する。
これらの課題に対処するために、トレーニング中に低線量領域から仮想外層をサンプリングすることにより、複雑な細胞形態分類(MorphoSeg)のための不確実性を考慮したディープラーニングフレームワークを提案する。
以上の結果から,MorphoSegはDice similarity Coefficient(DSC)の7.74%,Hausdorff Distanceの28.36%の削減を実現した。
これらの知見は,特に複雑細胞形態学および可変細胞形態学において,我々のデータセットと手法が細胞セグメンテーション能力の向上に有効であることを示す。
データセットとソースコードはhttps://github.com/RanchoGoose/MorphoSeg.comで公開されている。
Deep learning has revolutionized medical and biological imaging, particularly in segmentation tasks. However, segmenting biological cells remains challenging due to the high variability and complexity of cell shapes. Addressing this challenge requires high-quality datasets that accurately represent the diverse morphologies found in biological cells. Existing cell segmentation datasets are often limited by their focus on regular and uniform shapes. In this paper, we introduce a novel benchmark dataset of Ntera-2 (NT2) cells, a pluripotent carcinoma cell line, exhibiting diverse morphologies across multiple stages of differentiation, capturing the intricate and heterogeneous cellular structures that complicate segmentation tasks. To address these challenges, we propose an uncertainty-aware deep learning framework for complex cellular morphology segmentation (MorphoSeg) by incorporating sampling of virtual outliers from low-likelihood regions during training. Our comprehensive experimental evaluations against state-of-the-art baselines demonstrate that MorphoSeg significantly enhances segmentation accuracy, achieving up to a 7.74% increase in the Dice Similarity Coefficient (DSC) and a 28.36% reduction in the Hausdorff Distance. These findings highlight the effectiveness of our dataset and methodology in advancing cell segmentation capabilities, especially for complex and variable cell morphologies. The dataset and source code is publicly available at https://github.com/RanchoGoose/MorphoSeg. | 翻訳日:2024-09-27 02:44:18 公開日:2024-09-25 |
# LLMの残留流における安定領域の特性
Characterizing stable regions in the residual stream of LLMs ( http://arxiv.org/abs/2409.17113v1 ) ライセンス: Link先を確認 | Jett Janiak, Jacek Karwowski, Chatrik Singh Mangat, Giorgi Giglemiani, Nora Petrova, Stefan Heimersheim, | (参考訳) モデルの出力は、小さな活性化変化に敏感でありながら、領域境界において高い感度を示すトランスフォーマーの残流中の「安定な領域」を同定する。
これらの領域はトレーニング中に現れ、トレーニングの進行やモデルサイズの増加に伴ってより定義される。
この領域は以前研究されたポリトープよりもずっと大きいようである。
解析の結果、これらの安定な領域は、類似の領域内のクラスタを誘導する意味的区別と一致し、同一領域からのアクティベーションは、同様の次のトークン予測をもたらすことが示唆された。
We identify "stable regions" in the residual stream of Transformers, where the model's output remains insensitive to small activation changes, but exhibits high sensitivity at region boundaries. These regions emerge during training and become more defined as training progresses or model size increases. The regions appear to be much larger than previously studied polytopes. Our analysis suggests that these stable regions align with semantic distinctions, where similar prompts cluster within regions, and activations from the same region lead to similar next token predictions. | 翻訳日:2024-09-27 02:44:18 公開日:2024-09-25 |
# あらゆる例をプログラミングする: 大規模専門家のような事前学習されたデータ品質
Programming Every Example: Lifting Pre-training Data Quality like Experts at Scale ( http://arxiv.org/abs/2409.17115v1 ) ライセンス: Link先を確認 | Fan Zhou, Zengzhi Wang, Qian Liu, Junlong Li, Pengfei Liu, | (参考訳) 大規模な言語モデルの事前訓練は、伝統的に、コーパスの品質を改善するためにヒューリスティックスを構築するために、人間の専門家に頼ってきた。
しかし、これらのルールは個々の例の特徴に効果的に対処する柔軟性を欠いている。
一方、すべての例に調整されたルールを適用することは、人間の専門家にとって現実的ではない。
本稿では, 最大0.3Bのパラメータを持つ小さな言語モデルであっても, 人間の専門家に匹敵する実質的なデータ精錬能力を示すことを示す。
本稿では,データ精細化をプログラミングタスクとして扱う新しいフレームワークであるProXを紹介し,文字列正規化などの細粒度操作を大規模に生成・実行することで,コーパスの精細化を可能にする。
実験結果から, ProX処理データ上で事前学習したモデルは, 様々なダウンストリームベンチマークにおいて, 元のデータ, あるいは他の選択手法でフィルタリングしたデータよりも2%以上優れていた。
その効果は、C4、RedPajama-V2、FineWebなど、さまざまなモデルサイズと事前トレーニングコーパスにまたがる。
さらに、ProXはドメイン特化設計なしで、OpenWebMathで訓練されたモデルは、人造ルールベースの手法より優れており、Mistral-7Bよりも平均精度が7.6%向上し、Llama-2-7Bは14.6%、CodeLlama-7Bは20.3%向上し、全ての10Bトークンは200Bトークンで訓練されたLlemma-7Bのようなモデルに匹敵する。
さらなる分析では、ProXはFLOPのトレーニングを大幅に削減し、効率的なLLM事前トレーニングのための有望なパスを提供し、100Bコーパス、モデルと共にProXをオープンソース化し、再現可能な研究と将来のイノベーションのためのすべてのトレーニングと実装の詳細を共有しています。
コード:https://github.com/GAIR-NLP/ProX
Large language model pre-training has traditionally relied on human experts to craft heuristics for improving the corpora quality, resulting in numerous rules developed to date. However, these rules lack the flexibility to address the unique characteristics of individual example effectively. Meanwhile, applying tailored rules to every example is impractical for human experts. In this paper, we demonstrate that even small language models, with as few as 0.3B parameters, can exhibit substantial data refining capabilities comparable to those of human experts. We introduce Programming Every Example (ProX), a novel framework that treats data refinement as a programming task, enabling models to refine corpora by generating and executing fine-grained operations, such as string normalization, for each individual example at scale. Experimental results show that models pre-trained on ProX-curated data outperform either original data or data filtered by other selection methods by more than 2% across various downstream benchmarks. Its effectiveness spans various model sizes and pre-training corpora, including C4, RedPajama-V2, and FineWeb. Furthermore, ProX exhibits significant potential in domain-specific continual pre-training: without domain specific design, models trained on OpenWebMath refined by ProX outperform human-crafted rule-based methods, improving average accuracy by 7.6% over Mistral-7B, with 14.6% for Llama-2-7B and 20.3% for CodeLlama-7B, all within 10B tokens to be comparable to models like Llemma-7B trained on 200B tokens. Further analysis highlights that ProX significantly saves training FLOPs, offering a promising path for efficient LLM pre-training.We are open-sourcing ProX with >100B corpus, models, and sharing all training and implementation details for reproducible research and future innovation. Code: https://github.com/GAIR-NLP/ProX | 翻訳日:2024-09-27 02:44:18 公開日:2024-09-25 |
# フィールド内疾患検出のための微小データ深層学習手法
Small data deep learning methodology for in-field disease detection ( http://arxiv.org/abs/2409.17119v1 ) ライセンス: Link先を確認 | David Herrera-Poyato, Jacinto Domínguez-Rull, Rosana Montes, Inés Hernánde, Ignacio Barrio, Carlos Poblete-Echeverria, Javier Tardaguila, Francisco Herrera, Andrés Herrera-Poyatos, | (参考訳) 作物における病気の早期発見は、収穫の損失を防ぎ、最終製品の品質を向上させるために不可欠である。
この文脈では、機械学習と近接センサの組み合わせが、この検出を効率的に効果的に実現できる技術として登場しつつある。
例えば、この機械学習アプローチはジャガイモの収穫物(Phytophthora infestans)やブドウの収穫物(Phytophthora infestans)を検知し、腐ったミドウを検出するために応用されている。
しかし、これらのAIモデルのほとんどは、実験室で撮影されたリーフ・バイ・リーフ画像を用いて開発されており、フィールド条件を表現せず、適用性を制限している。
本研究では,ポテト作物の晩発病の軽度の症状を現場で直接撮影した高解像度RGB画像の解析によって検出し,文献における他の出版物の限界を克服し,現実の応用性を示す,最初の機械学習モデルを提案する。
提案手法は, 焦点損失関数を持つ深部畳み込みニューラルネットワークをベースとして, フィールド条件下で発生する複雑なパターンに着目した高分解能画像の高分解能化を実現する。
さらに,高解像度画像の少ないニューラルネットワークのトレーニングを容易にするデータ拡張方式を提案する。
本モデルでは, 早期症状の同定に高い精度と有効性を示した。
これらの有望な結果は、農業における病気や害虫の早期発見に機械学習が役立つ可能性を強化し、より良い治療と作物への影響を減らすことができる。
Early detection of diseases in crops is essential to prevent harvest losses and improve the quality of the final product. In this context, the combination of machine learning and proximity sensors is emerging as a technique capable of achieving this detection efficiently and effectively. For example, this machine learning approach has been applied to potato crops -- to detect late blight (Phytophthora infestans) -- and grapevine crops -- to detect downy mildew. However, most of these AI models found in the specialised literature have been developed using leaf-by-leaf images taken in the lab, which does not represent field conditions and limits their applicability. In this study, we present the first machine learning model capable of detecting mild symptoms of late blight in potato crops through the analysis of high-resolution RGB images captured directly in the field, overcoming the limitations of other publications in the literature and presenting real-world applicability. Our proposal exploits the availability of high-resolution images via the concept of patching, and is based on deep convolutional neural networks with a focal loss function, which makes the model to focus on the complex patterns that arise in field conditions. Additionally, we present a data augmentation scheme that facilitates the training of these neural networks with few high-resolution images, which allows for development of models under the small data paradigm. Our model correctly detects all cases of late blight in the test dataset, demonstrating a high level of accuracy and effectiveness in identifying early symptoms. These promising results reinforce the potential use of machine learning for the early detection of diseases and pests in agriculture, enabling better treatment and reducing their impact on crops. | 翻訳日:2024-09-27 02:44:18 公開日:2024-09-25 |
# ディープラーニングと機械学習、ビッグデータ分析と管理の強化 - 便利なアプリ
Deep Learning and Machine Learning, Advancing Big Data Analytics and Management: Handy Appetizer ( http://arxiv.org/abs/2409.17120v1 ) ライセンス: Link先を確認 | Benji Peng, Xuanhe Pan, Yizhu Wen, Ziqian Bi, Keyu Chen, Ming Li, Ming Liu, Qian Niu, Junyu Liu, Jinlang Wang, Sen Zhang, Jiawei Xu, Pohsun Feng, | (参考訳) この本は、ビッグデータ分析と管理の進歩を促進する上で、人工知能(AI)、機械学習(ML)、ディープラーニング(DL)の役割を探求する。
この本は、ディープラーニングの背後にある複雑な数学的概念を単純化することに焦点を当てており、読者がニューラルネットワークや畳み込みニューラルネットワーク(CNN)のような技術がどのように機能するかを理解するために、直感的な視覚化と実践的なケーススタディを提供している。
Transformers、GPT、ResNet、BERT、YOLOといった古典的なモデルや技術を導入し、自然言語処理、画像認識、自動運転といった分野における彼らの応用を強調している。
この本は、事前訓練されたモデルの重要性と、モデルの性能と正確性を高める方法を強調し、これらのモデルを様々な現実のシナリオに適用する方法を指示している。
さらに、SQLやNoSQLデータベースといった主要なビッグデータ管理技術や、Apache HadoopやSparkといった分散コンピューティングフレームワークの概要も提供する。
最終的に本書は、ディープラーニングとビッグデータ管理スキルを将来の労働者にとって重要なツールとして習得することの価値を強調しており、初心者と経験豊富なプロフェッショナルの両方にとって不可欠なリソースとなっている。
This book explores the role of Artificial Intelligence (AI), Machine Learning (ML), and Deep Learning (DL) in driving the progress of big data analytics and management. The book focuses on simplifying the complex mathematical concepts behind deep learning, offering intuitive visualizations and practical case studies to help readers understand how neural networks and technologies like Convolutional Neural Networks (CNNs) work. It introduces several classic models and technologies such as Transformers, GPT, ResNet, BERT, and YOLO, highlighting their applications in fields like natural language processing, image recognition, and autonomous driving. The book also emphasizes the importance of pre-trained models and how they can enhance model performance and accuracy, with instructions on how to apply these models in various real-world scenarios. Additionally, it provides an overview of key big data management technologies like SQL and NoSQL databases, as well as distributed computing frameworks such as Apache Hadoop and Spark, explaining their importance in managing and processing vast amounts of data. Ultimately, the book underscores the value of mastering deep learning and big data management skills as critical tools for the future workforce, making it an essential resource for both beginners and experienced professionals. | 翻訳日:2024-09-27 02:44:18 公開日:2024-09-25 |
# 深層学習法による前立腺癌組織像のグリーソングレーディングの分類 : YOLO, Vision Transformers, Vision Mamba
Classification of Gleason Grading in Prostate Cancer Histopathology Images Using Deep Learning Techniques: YOLO, Vision Transformers, and Vision Mamba ( http://arxiv.org/abs/2409.17122v1 ) ライセンス: Link先を確認 | Amin Malekmohammadi, Ali Badiezadeh, Seyed Mostafa Mirhassani, Parisa Gifani, Majid Vafaeezadeh, | (参考訳) 前立腺がんは男性に影響を及ぼす主要な健康問題の一つであり、グリーソンスコアシステムは診断と予後の主要な方法である。
このシステムは、専門家の病理学者に頼って前立腺組織のサンプルを評価し、グリーソングレードを割り当てる。
この課題に対処するため、人工知能(AI)ソリューションは、グレーティングプロセスを自動化するために研究されている。
本研究は,これらの課題を考慮した3つの深層学習手法(YOLO,Vision Transformers,Vision Mamba)の有効性を,病理組織像からグリーソングレードを正確に分類し,比較した。
目的は前立腺癌管理における診断精度と効率を高めることである。
この研究では、2つの公開データセットであるGleason2019とSICAPv2を使用して、YOLO、Vision Transformers、Vision Mambaモデルのパフォーマンスをトレーニングし、テストした。
各モデルは、偽陽性率、偽陰性率、精度、リコールなどの指標を考慮して、グリーソンの成績を正確に分類する能力に基づいて評価された。
また,臨床環境における各手法の計算効率と適用性についても検討した。
Vision Mamba氏はすべての指標で優れたパフォーマンスを示し、偽陽性と負の最小化をしながら高い精度とリコール率を達成した。
YOLOは、特にリアルタイム分析において、スピードと効率の面で有望であった。
視覚変換器は画像内の長距離依存を捉えるのに優れていたが、他のモデルに比べて計算の複雑さが高かった。
ビジョン・マンバ(Vision Mamba)は、病理画像におけるグリーソン分類の最も効果的なモデルとして登場し、精度と計算効率のバランスを提供する。
Prostate cancer ranks among the leading health issues impacting men, with the Gleason scoring system serving as the primary method for diagnosis and prognosis. This system relies on expert pathologists to evaluate samples of prostate tissue and assign a Gleason grade, a task that requires significant time and manual effort. To address this challenge, artificial intelligence (AI) solutions have been explored to automate the grading process. In light of these challenges, this study evaluates and compares the effectiveness of three deep learning methodologies, YOLO, Vision Transformers, and Vision Mamba, in accurately classifying Gleason grades from histopathology images. The goal is to enhance diagnostic precision and efficiency in prostate cancer management. This study utilized two publicly available datasets, Gleason2019 and SICAPv2, to train and test the performance of YOLO, Vision Transformers, and Vision Mamba models. Each model was assessed based on its ability to classify Gleason grades accurately, considering metrics such as false positive rate, false negative rate, precision, and recall. The study also examined the computational efficiency and applicability of each method in a clinical setting. Vision Mamba demonstrated superior performance across all metrics, achieving high precision and recall rates while minimizing false positives and negatives. YOLO showed promise in terms of speed and efficiency, particularly beneficial for real-time analysis. Vision Transformers excelled in capturing long-range dependencies within images, although they presented higher computational complexity compared to the other models. Vision Mamba emerges as the most effective model for Gleason grade classification in histopathology images, offering a balance between accuracy and computational efficiency. | 翻訳日:2024-09-27 02:33:29 公開日:2024-09-25 |
# 自律的意思決定による宇宙船衝突回避のための軌道上サービテーション
On-orbit Servicing for Spacecraft Collision Avoidance With Autonomous Decision Making ( http://arxiv.org/abs/2409.17125v1 ) ライセンス: Link先を確認 | Susmitha Patnala, Adam Abdin, | (参考訳) 本研究は、宇宙船衝突回避演習(CAM)を支援するために、AIによるOOS(Autonomous On-Orbit Servicing)ミッションの実装を開発する。
本稿では、RL(Reinforcement Learning)を用いて訓練された自律型サービスを提案し、ターゲット衛星と宇宙デブリの衝突を自律的に検出し、絶滅危惧衛星とのランデブーとドッキングを行い、最適なCAMを実行する。
RLモデルは衝突リスク推定、衛星仕様、デブリデータを統合し、OOSランデブーと衝突防止のための最適操作行列を生成する。
我々はクロスエントロピーアルゴリズムを用いて最適な決定ポリシーを効率的に見つける。
最初の結果は、衝突回避サービスのための自律型ロボットOOSの実現可能性を示し、1つのボイジャー宇宙船を1つの絶滅危惧衛星シナリオに焦点をあてた。
しかし、宇宙船のランデブーと最適なCAMの融合は、非常に複雑である。
本稿では,ケーススタディを通じて提示されたフレームワークの実装を成功させる上で,設計上の課題と重要なパラメータについて論じる。
This study develops an AI-based implementation of autonomous On-Orbit Servicing (OOS) mission to assist with spacecraft collision avoidance maneuvers (CAMs). We propose an autonomous `servicer' trained with Reinforcement Learning (RL) to autonomously detect potential collisions between a target satellite and space debris, rendezvous and dock with endangered satellites, and execute optimal CAM. The RL model integrates collision risk estimates, satellite specifications, and debris data to generate an optimal maneuver matrix for OOS rendezvous and collision prevention. We employ the Cross-Entropy algorithm to find optimal decision policies efficiently. Initial results demonstrate the feasibility of autonomous robotic OOS for collision avoidance services, focusing on one servicer spacecraft to one endangered satellite scenario. However, merging spacecraft rendezvous and optimal CAM presents significant complexities. We discuss design challenges and critical parameters for the successful implementation of the framework presented through a case study. | 翻訳日:2024-09-27 02:33:29 公開日:2024-09-25 |
# Blox-Net: VLMスーパービジョン、物理シミュレーション、リセットロボットを用いたジェネレーティブデザイン・ロボットアセンブリ
Blox-Net: Generative Design-for-Robot-Assembly Using VLM Supervision, Physics Simulation, and a Robot with Reset ( http://arxiv.org/abs/2409.17126v1 ) ライセンス: Link先を確認 | Andrew Goldberg, Kavish Kondap, Tianshuang Qiu, Zehan Ma, Letian Fu, Justin Kerr, Huang Huang, Kaiyuan Chen, Kuan Fang, Ken Goldberg, | (参考訳) ジェネレーティブAIシステムは、テキスト、コード、画像の作成において素晴らしい能力を示している。
産業「組立設計」における研究の豊かな歴史に触発されて,創発的デザイン・ロボット組立(GDfRA)という新たな問題を紹介した。
タスクは、自然言語プロンプト(例えば、'giraffe')と3Dプリントブロックのような利用可能な物理コンポーネントの画像に基づいてアセンブリを生成する。
出力はアセンブリ、これらのコンポーネントの空間配置、そしてロボットがこのアセンブリを構築するための指示である。
output (複数形 outputs)
1)要求対象に類似し、
2)吸込グリップを備えた6DFロボットアームで確実に組み立てる。
次に,生成視覚言語モデルとコンピュータビジョン,シミュレーション,摂動解析,運動計画,物理ロボット実験の確立した手法を組み合わせたGDfRAシステムであるBlox-Netを提案する。
Blox-Netは、設計したアセンブリの'認識可能性'において63.5%のTop-1精度を達成した(例えば、VLMによって判断されるキリンに似ている)。
これらの設計は、自動的な摂動再設計の後、ロボットによって確実に組み立てられ、組立前のリセット時にのみ人間の介入を伴う10回の組立イテレーションでほぼ完璧な成功を収めた。
驚いたことに、このテキスト語('giraffe')から信頼性のある物理集合体への設計プロセスは、人間の介入をゼロにする。
Generative AI systems have shown impressive capabilities in creating text, code, and images. Inspired by the rich history of research in industrial ''Design for Assembly'', we introduce a novel problem: Generative Design-for-Robot-Assembly (GDfRA). The task is to generate an assembly based on a natural language prompt (e.g., ''giraffe'') and an image of available physical components, such as 3D-printed blocks. The output is an assembly, a spatial arrangement of these components, and instructions for a robot to build this assembly. The output must 1) resemble the requested object and 2) be reliably assembled by a 6 DoF robot arm with a suction gripper. We then present Blox-Net, a GDfRA system that combines generative vision language models with well-established methods in computer vision, simulation, perturbation analysis, motion planning, and physical robot experimentation to solve a class of GDfRA problems with minimal human supervision. Blox-Net achieved a Top-1 accuracy of 63.5% in the ''recognizability'' of its designed assemblies (eg, resembling giraffe as judged by a VLM). These designs, after automated perturbation redesign, were reliably assembled by a robot, achieving near-perfect success across 10 consecutive assembly iterations with human intervention only during reset prior to assembly. Surprisingly, this entire design process from textual word (''giraffe'') to reliable physical assembly is performed with zero human intervention. | 翻訳日:2024-09-27 02:33:29 公開日:2024-09-25 |
# バングラのソーシャルメディアコメントにおける特定グループに対する毒性の評価 : 包括的調査
Assessing the Level of Toxicity Against Distinct Groups in Bangla Social Media Comments: A Comprehensive Investigation ( http://arxiv.org/abs/2409.17130v1 ) ライセンス: Link先を確認 | Mukaffi Bin Moin, Pronay Debnath, Usafa Akther Rifa, Rijeet Bin Anis, | (参考訳) ソーシャルメディアプラットフォームは、コミュニケーションのコンディット、アイデアの交換、ネットワークの確立など、現代社会において重要な役割を担っている。
しかし、悪質なコメントによる悪用は、攻撃的な発言からヘイトスピーチまで多岐にわたる。
本研究は、複数のソーシャルメディアソースから、トランスジェンダー、先住民、移民の3つの特定のグループをターゲットにしたベンガル語における有毒なコメントを特定することに焦点を当てる。
この研究は、高、中、低の毒性の度合いを考慮しつつ、有害な言語を識別し分類する複雑なプロセスに踏み込んでいます。
この方法論は、データセット、手動のアノテーションの作成と、Bangla-BERT、bangla-bert-base、distil-BERT、Bert-base-multilingual-casedといったトレーニング済みのトランスフォーマーモデルの使用を含む。
モデルの有効性を評価するために、精度、リコール、精度、F1スコアなどの様々な評価指標が使用される。
実験の結果、Bangla-BERTは代替モデルを超え、F1スコアは0.8903に達した。
この研究は、バングラのソーシャルメディア対話における毒性の複雑さを明らかにし、多様な人口集団に対するその異なる影響を明らかにした。
Social media platforms have a vital role in the modern world, serving as conduits for communication, the exchange of ideas, and the establishment of networks. However, the misuse of these platforms through toxic comments, which can range from offensive remarks to hate speech, is a concerning issue. This study focuses on identifying toxic comments in the Bengali language targeting three specific groups: transgender people, indigenous people, and migrant people, from multiple social media sources. The study delves into the intricate process of identifying and categorizing toxic language while considering the varying degrees of toxicity: high, medium, and low. The methodology involves creating a dataset, manual annotation, and employing pre-trained transformer models like Bangla-BERT, bangla-bert-base, distil-BERT, and Bert-base-multilingual-cased for classification. Diverse assessment metrics such as accuracy, recall, precision, and F1-score are employed to evaluate the model's effectiveness. The experimental findings reveal that Bangla-BERT surpasses alternative models, achieving an F1-score of 0.8903. This research exposes the complexity of toxicity in Bangla social media dialogues, revealing its differing impacts on diverse demographic groups. | 翻訳日:2024-09-27 02:33:29 公開日:2024-09-25 |
# ニューラルネットワークのストリーム化
Streaming Neural Images ( http://arxiv.org/abs/2409.17134v1 ) ライセンス: Link先を確認 | Marcos V. Conde, Andy Bigos, Radu Timofte, | (参考訳) Inlicit Neural Representations (INR) は信号表現の新しいパラダイムであり、画像圧縮にかなりの関心を集めている。
INRは信号分解能とメモリ効率において前例のない利点を提供し、圧縮技術に新たな可能性をもたらす。
しかし、画像圧縮のためのINRの既存の制限は、文献では十分に対処されていない。
本研究では,INRの計算コスト,不安定な性能,堅牢性などの限界要因について検討する。
広範にわたる実験と経験分析を通じて、フーリエ特徴ネットワークやサイレンのような暗黙的ニューラルネットワーク圧縮手法のより深く、よりニュアンスな理解を提供する。
私たちの研究は、この分野における将来の研究に貴重な洞察を与えています。
Implicit Neural Representations (INRs) are a novel paradigm for signal representation that have attracted considerable interest for image compression. INRs offer unprecedented advantages in signal resolution and memory efficiency, enabling new possibilities for compression techniques. However, the existing limitations of INRs for image compression have not been sufficiently addressed in the literature. In this work, we explore the critical yet overlooked limiting factors of INRs, such as computational cost, unstable performance, and robustness. Through extensive experiments and empirical analysis, we provide a deeper and more nuanced understanding of implicit neural image compression methods such as Fourier Feature Networks and Siren. Our work also offers valuable insights for future research in this area. | 翻訳日:2024-09-27 02:33:29 公開日:2024-09-25 |
# PACE: Consistency rEgularizationを用いたパラメータ効率微調整における結婚一般化
PACE: marrying generalization in PArameter-efficient fine-tuning with Consistency rEgularization ( http://arxiv.org/abs/2409.17137v1 ) ライセンス: Link先を確認 | Yao Ni, Shan Zhang, Piotr Koniusz, | (参考訳) パラメータ効率の良いファインチューニング(PEFT)は、トレーニング済みの視覚変換器を下流のタスクに効果的に適応させる。
しかし、タスク性能の最適化はしばしば微調整モデルにおける一般化可能性のコストがかかる。
この問題に対処するため、理論上、トレーニング中の体重勾配の基準を小さくし、より大きなデータセットを改良されたモデル一般化に結び付ける。
この接続により、大規模事前学習データからの知識を維持するために、一般化の強化と微調整モデルと事前学習モデルとの整合性向上のための勾配ノルムの削減を提案する。
しかし、ナイーブアライメントは勾配の減少を保証せず、勾配の爆発を引き起こす可能性があり、勾配を管理する努力が複雑になる。
このような問題に対処するため、我々はPACEを提案し、パラメータ効率の微調整と一貫性の rEgularization を結合する。
我々は、乗法雑音のアダプタから学んだ特徴を摂動し、異なる摂動の下で同じサンプルに対して微調整されたモデルが一貫していることを保証する。
理論的解析によると、PACEは一般化の強化のために勾配を暗黙的に正規化するだけでなく、微調整されたモデルや事前訓練されたモデルも暗黙的に整列して知識を保持する。
実験的な証拠が我々の理論を裏付ける。
PACEは、VTAB-1k、FGVC、少数ショット学習、ドメイン適応の4つの視覚適応タスクにおいて、既存のPEFTメソッドよりも優れている。
コードはhttps://github.com/MaxwellYaoNi/PACEで入手できる。
Parameter-Efficient Fine-Tuning (PEFT) effectively adapts pre-trained vision transformers to downstream tasks. However, the optimization for tasks performance often comes at the cost of generalizability in fine-tuned models. To address this issue, we theoretically connect smaller weight gradient norms during training and larger datasets to the improved model generalization. Motivated by this connection, we propose reducing gradient norms for enhanced generalization and aligning fine-tuned model with the pre-trained counterpart to retain knowledge from large-scale pre-training data. Yet, naive alignment does not guarantee gradient reduction and can potentially cause gradient explosion, complicating efforts to manage gradients. To address such issues, we propose PACE, marrying generalization of PArameter-efficient fine-tuning with Consistency rEgularization. We perturb features learned from the adapter with the multiplicative noise and ensure the fine-tuned model remains consistent for same sample under different perturbations. Theoretical analysis shows that PACE not only implicitly regularizes gradients for enhanced generalization, but also implicitly aligns the fine-tuned and pre-trained models to retain knowledge. Experimental evidence supports our theories. PACE outperforms existing PEFT methods in four visual adaptation tasks: VTAB-1k, FGVC, few-shot learning and domain adaptation. Code will be available at https://github.com/MaxwellYaoNi/PACE | 翻訳日:2024-09-27 02:33:29 公開日:2024-09-25 |
# 一般国家と行動を考慮した有限水平MDPの政策最適化のランドスケープ
Landscape of Policy Optimization for Finite Horizon MDPs with General State and Action ( http://arxiv.org/abs/2409.17138v1 ) ライセンス: Link先を確認 | Xin Chen, Yifan Hu, Minda Zhao, | (参考訳) 政策勾配法は強化学習に広く用いられている。
しかし、政策最適化の非凸性は、政策勾配法のグローバル収束を理解する上で重要な課題を課している。
一般的な状態と作用空間を持つ有限水平マルコフ決定過程(MDPs)のクラスに対して、政策最適化のクルディカ・ロジャシエヴィチ(KL)条件を保証するために、容易に検証可能な仮定のセットを提供するフレームワークを開発する。
KL条件を利用して、政策勾配法は、非凸性にもかかわらず非非非対称的な速度で、世界的最適政策に収束する。
この結果から, エントロピー正規化表形式MDP, 線形二次レギュレータ(LQR)問題, 確率的インベントリモデル, 確率的キャッシュバランス問題など, 様々な制御・操作モデルに適用できることがわかった。
その結果,マルコフ変調要求と確率的キャッシュバランス問題を備えた多周期在庫システムにおいて,最初のサンプル複雑性が確立された。
Policy gradient methods are widely used in reinforcement learning. Yet, the nonconvexity of policy optimization imposes significant challenges in understanding the global convergence of policy gradient methods. For a class of finite-horizon Markov Decision Processes (MDPs) with general state and action spaces, we develop a framework that provides a set of easily verifiable assumptions to ensure the Kurdyka-Lojasiewicz (KL) condition of the policy optimization. Leveraging the KL condition, policy gradient methods converge to the globally optimal policy with a non-asymptomatic rate despite nonconvexity. Our results find applications in various control and operations models, including entropy-regularized tabular MDPs, Linear Quadratic Regulator (LQR) problems, stochastic inventory models, and stochastic cash balance problems, for which we show an $\epsilon$-optimal policy can be obtained using a sample size in $\tilde{\mathcal{O}}(\epsilon^{-1})$ and polynomial in terms of the planning horizon by stochastic policy gradient methods. Our result establishes the first sample complexity for multi-period inventory systems with Markov-modulated demands and stochastic cash balance problems in the literature. | 翻訳日:2024-09-27 02:33:29 公開日:2024-09-25 |
# ダイナミックなUAVクルーを用いたUAVベースの通信ネットワークの自律的制御
Learning with Dynamics: Autonomous Regulation of UAV Based Communication Networks with Dynamic UAV Crew ( http://arxiv.org/abs/2409.17139v1 ) ライセンス: Link先を確認 | Ran Zhang, Bowei Li, Liyuan Zhang, Jiang, Xie, Miao Wang, | (参考訳) Unmanned Aerial Vehicle (UAV) ベースの通信ネットワーク (UCN) は将来のモバイルネットワークにおいて重要なコンポーネントである。
UCNの動的環境を扱うために、強化学習(RL)は、環境モデルのない適応的意思決定能力の強いため、有望なソリューションである。
しかし、既存のRLベースの研究のほとんどは、UAVの固定セットを想定した制御戦略設計に重点を置いている。
UAVが動的に変化するとき、UCNがどのように適応的に制御されるべきかを研究する研究はほとんどない。
本稿では, 適応型UCN制御のためのRLベースの戦略設計について論じ, 汎用UCNの反応性戦略と太陽発電UCNの積極的な戦略の両方に対処する。
UCNとRLフレームワークの概要が最初に提供される。
主要な課題と可能な解決策を持つ潜在的研究の方向性を詳述する。
最近の研究のいくつかは、RLアルゴリズムの異なる動的UAV乗組員を扱う革新的な方法を促すケーススタディとして紹介されている。
Unmanned Aerial Vehicle (UAV) based communication networks (UCNs) are a key component in future mobile networking. To handle the dynamic environments in UCNs, reinforcement learning (RL) has been a promising solution attributed to its strong capability of adaptive decision-making free of the environment models. However, most existing RL-based research focus on control strategy design assuming a fixed set of UAVs. Few works have investigated how UCNs should be adaptively regulated when the serving UAVs change dynamically. This article discusses RL-based strategy design for adaptive UCN regulation given a dynamic UAV set, addressing both reactive strategies in general UCNs and proactive strategies in solar-powered UCNs. An overview of the UCN and the RL framework is first provided. Potential research directions with key challenges and possible solutions are then elaborated. Some of our recent works are presented as case studies to inspire innovative ways to handle dynamic UAV crew with different RL algorithms. | 翻訳日:2024-09-27 02:33:29 公開日:2024-09-25 |
# すべてのアプリケーションをエージェントに変える: API-First LLMベースのエージェントとの効率的なヒューマン・エージェント・コンピュータインタラクションを目指して
Turn Every Application into an Agent: Towards Efficient Human-Agent-Computer Interaction with API-First LLM-Based Agents ( http://arxiv.org/abs/2409.17140v1 ) ライセンス: Link先を確認 | Junting Lu, Zhiyang Zhang, Fangkai Yang, Jue Zhang, Lu Wang, Chao Du, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang, | (参考訳) マルチモーダルな大規模言語モデル(MLLM)により、LLMベースのエージェントがアプリケーションユーザインタフェース(UI)と直接対話することが可能になり、複雑なタスクにおけるエージェントのパフォーマンスが向上した。
しかし、これらのエージェントは、広範囲なシーケンシャルなUIインタラクションのため、レイテンシが高く、信頼性が低いことが多い。
この問題に対処するために,新しいLLMベースのエージェントフレームワークであるAXISを提案する。
このフレームワークは、アプリケーションの自動探索を通じて、APIの作成と拡張を容易にする。
Office Wordでの実験では、AXISはタスク完了時間を65%-70%削減し、認知負荷を38%-53%削減し、精度は97%-98%と人間と比較した。
我々の研究は、新しい人間-エージェント-コンピュータインタラクション(HACI)フレームワークと、LLM時代のアプリケーションプロバイダのための新しいUI設計原則に貢献する。
また、すべてのアプリケーションをエージェントに変え、エージェント中心のオペレーティングシステム(Agent OS)への道を開く可能性についても検討している。
Multimodal large language models (MLLMs) have enabled LLM-based agents to directly interact with application user interfaces (UIs), enhancing agents' performance in complex tasks. However, these agents often suffer from high latency and low reliability due to the extensive sequential UI interactions. To address this issue, we propose AXIS, a novel LLM-based agents framework prioritize actions through application programming interfaces (APIs) over UI actions. This framework also facilitates the creation and expansion of APIs through automated exploration of applications. Our experiments on Office Word demonstrate that AXIS reduces task completion time by 65%-70% and cognitive workload by 38%-53%, while maintaining accuracy of 97%-98% compare to humans. Our work contributes to a new human-agent-computer interaction (HACI) framework and a fresh UI design principle for application providers in the era of LLMs. It also explores the possibility of turning every applications into agents, paving the way towards an agent-centric operating system (Agent OS). | 翻訳日:2024-09-27 02:33:29 公開日:2024-09-25 |
# ファインジップ : 実用的なロスレステキスト圧縮のための大規模言語モデルの限界を押し上げる
FineZip : Pushing the Limits of Large Language Models for Practical Lossless Text Compression ( http://arxiv.org/abs/2409.17141v1 ) ライセンス: Link先を確認 | Fazal Mittu, Yihuan Bu, Akshat Gupta, Ashok Devireddy, Alp Eren Ozdarendeli, Anant Singh, Gopala Anumanchipalli, | (参考訳) 言語モデリングの目的は圧縮と深く結びついていることが示されているが、現代のLLMが実用的なテキスト圧縮システムでは採用されていないことは驚くべきことである。
本稿では,ニューラルネットワークと変圧器を用いた圧縮技術の詳細解析を行い,この問題に答える。
従来のテキスト圧縮システムとニューラルネットワークとLLMベースのテキスト圧縮手法を比較した。
LLMベースのシステムは従来の圧縮法よりも大幅に優れているが、それらは非常に実用的ではない。
具体的には、Llama3-8B を用いた最近のテキスト圧縮システム LLMZip では、圧縮比が大幅に改善されているが、10MBのテキストのみを圧縮するのに 9.5 日を要する。
この問題を解決するために,オンライン記憶と動的コンテキストのアイデアを組み合わせて圧縮時間を劇的に短縮する新しいLLMベースのテキスト圧縮システムであるFineZipを提案する。
FineZipは上記のコーパスを9.5日と比較すると約4時間で圧縮できる。
FineZipは従来のアルゴリズム圧縮手法よりも大きなマージンで優れており、圧縮比を約50倍改善している。
本研究は,LLMによるロスレステキスト圧縮の実現に向けた第一歩を踏み出したものである。
FineZipはその方向に大きな一歩を踏み出していますが、LLMは依然として大規模テキスト圧縮の有効なソリューションではありません。
私たちは、この問題を解決するための将来の研究とイノベーションの道を開くことを願っています。
While the language modeling objective has been shown to be deeply connected with compression, it is surprising that modern LLMs are not employed in practical text compression systems. In this paper, we provide an in-depth analysis of neural network and transformer-based compression techniques to answer this question. We compare traditional text compression systems with neural network and LLM-based text compression methods. Although LLM-based systems significantly outperform conventional compression methods, they are highly impractical. Specifically, LLMZip, a recent text compression system using Llama3-8B requires 9.5 days to compress just 10 MB of text, although with huge improvements in compression ratios. To overcome this, we present FineZip - a novel LLM-based text compression system that combines ideas of online memorization and dynamic context to reduce the compression time immensely. FineZip can compress the above corpus in approximately 4 hours compared to 9.5 days, a 54 times improvement over LLMZip and comparable performance. FineZip outperforms traditional algorithmic compression methods with a large margin, improving compression ratios by approximately 50\%. With this work, we take the first step towards making lossless text compression with LLMs a reality. While FineZip presents a significant step in that direction, LLMs are still not a viable solution for large-scale text compression. We hope our work paves the way for future research and innovation to solve this problem. | 翻訳日:2024-09-27 02:33:29 公開日:2024-09-25 |
# 2+1)D格子ゲージ理論における電荷と弦の可視化ダイナミクス
Visualizing Dynamics of Charges and Strings in (2+1)D Lattice Gauge Theories ( http://arxiv.org/abs/2409.17142v1 ) ライセンス: Link先を確認 | Tyler A. Cochran, Bernhard Jobst, Eliott Rosenberg, Yuri D. Lensky, Gaurav Gyawali, Norhan Eassa, Melissa Will, Dmitry Abanin, Rajeev Acharya, Laleh Aghababaie Beni, Trond I. Andersen, Markus Ansmann, Frank Arute, Kunal Arya, Abraham Asfaw, Juan Atalaya, Ryan Babbush, Brian Ballard, Joseph C. Bardin, Andreas Bengtsson, Alexander Bilmes, Alexandre Bourassa, Jenna Bovaird, Michael Broughton, David A. Browne, Brett Buchea, Bob B. Buckley, Tim Burger, Brian Burkett, Nicholas Bushnell, Anthony Cabrera, Juan Campero, Hung-Shen Chang, Zijun Chen, Ben Chiaro, Jahan Claes, Agnetta Y. Cleland, Josh Cogan, Roberto Collins, Paul Conner, William Courtney, Alexander L. Crook, Ben Curtin, Sayan Das, Sean Demura, Laura De Lorenzo, Agustin Di Paolo, Paul Donohoe, Ilya Drozdov, Andrew Dunsworth, Alec Eickbusch, Aviv Moshe Elbag, Mahmoud Elzouka, Catherine Erickson, Vinicius S. Ferreira, Leslie Flores Burgos, Ebrahim Forati, Austin G. Fowler, Brooks Foxen, Suhas Ganjam, Robert Gasca, Élie Genois, William Giang, Dar Gilboa, Raja Gosula, Alejandro Grajales Dau, Dietrich Graumann, Alex Greene, Jonathan A. Gross, Steve Habegger, Monica Hansen, Matthew P. Harrigan, Sean D. Harrington, Paula Heu, Oscar Higgott, Jeremy Hilton, Hsin-Yuan Huang, Ashley Huff, William J. Huggins, Evan Jeffrey, Zhang Jiang, Cody Jones, Chaitali Joshi, Pavol Juhas, Dvir Kafri, Hui Kang, Amir H. Karamlou, Kostyantyn Kechedzhi, Trupti Khaire, Tanuj Khattar, Mostafa Khezri, Seon Kim, Paul V. Klimov, Bryce Kobrin, Alexander N. Korotkov, Fedor Kostritsa, John Mark Kreikebaum, Vladislav D. Kurilovich, David Landhuis, Tiano Lange-Dei, Brandon W. Langley, Kim-Ming Lau, Justin Ledford, Kenny Lee, Brian J. Lester, Loïck Le Guevel, Wing Yan Li, Alexander T. Lill, William P. Livingston, Aditya Locharla, Daniel Lundahl, Aaron Lunt, Sid Madhuk, Ashley Maloney, Salvatore Mandrà, Leigh S. Martin, Orion Martin, Cameron Maxfield, Jarrod R. McClean, Matt McEwen, Seneca Meeks, Anthony Megrant, Kevin C. Miao, Reza Molavi, Sebastian Molina, Shirin Montazeri, Ramis Movassagh, Charles Neill, Michael Newman, Anthony Nguyen, Murray Nguyen, Chia-Hung Ni, Murphy Yuezhen Niu, William D. Oliver, Kristoffer Ottosson, Alex Pizzuto, Rebecca Potter, Orion Pritchard, Chris Quintana, Ganesh Ramachandran, Matthew J. Reagor, David M. Rhodes, Gabrielle Roberts, Kannan Sankaragomathi, Kevin J. Satzinger, Henry F. Schurkus, Michael J. Shearn, Aaron Shorter, Noah Shutty, Vladimir Shvarts, Volodymyr Sivak, Spencer Small, W. Clarke Smith, Sofia Springer, George Sterling, Jordan Suchard, Aaron Szasz, Alex Sztein, Douglas Thor, M. Mert Torunbalci, Abeer Vaishnav, Justin Vargas, Sergey Vdovichev, Guifre Vidal, Catherine Vollgraff Heidweiller, Steven Waltman, Shannon X. Wang, Brayden Ware, Theodore White, Kristi Wong, Bryan W. K. Woo, Cheng Xing, Z. Jamie Yao, Ping Yeh, Bicheng Ying, Juhwan Yoo, Noureldin Yosri, Grayson Young, Adam Zalcman, Yaxing Zhang, Ningfeng Zhu, Nicholas Zobris, Sergio Boixo, Julian Kelly, Erik Lucero, Yu Chen, Vadim Smelyanskiy, Hartmut Neven, Adam Gammon-Smith, Frank Pollmann, Michael Knap, Pedram Roushan, | (参考訳) 格子ゲージ理論(LGT)は、高エネルギー物理学における素粒子散乱から材料中の多体相互作用の効果的な記述に至るまで、幅広い現象を理解するために用いられる。
創発相の動的性質の研究は、摂動限界を超える多くの身体問題を解く必要があるため、困難である。
超伝導量子ビットの二次元格子を用いた$\mathbb{Z}_2$ LGTにおける局所励起のダイナミクスについて検討する。
まず、基底状態と大きな重なり合いを持つ低エネルギー状態を作成し、次に局所ゲートを持つ粒子を作成し、離散時間進化を通じて量子力学をシミュレートする。
実効磁場が増大するにつれて, 分解された状態から閉じ込められた状態への遷移のシグネチャが示される。
閉じ込められた励起に対して、磁場はそれらを接続する弦の張力を誘導する。
本手法では, (2+1)D LGT の弦動特性を実験的に画像化し, 拘束相内部の2つの異なる状態を明らかにする。
さらに,動的弦の破れを容易にする共振条件を示す。
量子プロセッサ上でのLGTの実装は、創発粒子と弦力学を調査するための新しい技術セットを示す。
Lattice gauge theories (LGTs) can be employed to understand a wide range of phenomena, from elementary particle scattering in high-energy physics to effective descriptions of many-body interactions in materials. Studying dynamical properties of emergent phases can be challenging as it requires solving many-body problems that are generally beyond perturbative limits. We investigate the dynamics of local excitations in a $\mathbb{Z}_2$ LGT using a two-dimensional lattice of superconducting qubits. We first construct a simple variational circuit which prepares low-energy states that have a large overlap with the ground state; then we create particles with local gates and simulate their quantum dynamics via a discretized time evolution. As the effective magnetic field is increased, our measurements show signatures of transitioning from deconfined to confined dynamics. For confined excitations, the magnetic field induces a tension in the string connecting them. Our method allows us to experimentally image string dynamics in a (2+1)D LGT from which we uncover two distinct regimes inside the confining phase: for weak confinement the string fluctuates strongly in the transverse direction, while for strong confinement transverse fluctuations are effectively frozen. In addition, we demonstrate a resonance condition at which dynamical string breaking is facilitated. Our LGT implementation on a quantum processor presents a novel set of techniques for investigating emergent particle and string dynamics. | 翻訳日:2024-09-27 02:33:29 公開日:2024-09-25 |
# 大規模視線モデルのための画像上の注意プロンプト
Attention Prompting on Image for Large Vision-Language Models ( http://arxiv.org/abs/2409.17143v1 ) ライセンス: Link先を確認 | Runpeng Yu, Weihao Yu, Xinchao Wang, | (参考訳) LLM(Large Language Models)と比較すると、LVLM(Large Vision-Language Models)もイメージを入力として受け入れることができ、より興味深い創発的な能力を示し、様々な視覚言語タスクにおける印象的なパフォーマンスを示す。
LLMにおけるテキストプロンプトによって動機づけられた視覚的プロンプトは、LVLMの視覚情報知覚能力を高めるために研究されている。
しかし、従来の視覚的プロンプト技術は、テキストクエリを考慮せずに視覚的な入力のみを処理し、モデルがタスクを完了させるためにテキスト命令に従う能力を制限する。
このギャップを埋めるために,本研究では,テキストクエリ誘導型アテンションヒートマップを元の入力画像上にオーバーレイするだけで,様々なタスクにおけるLVLMを効果的に強化する,Attention Prompting on Imageという新しいプロンプト手法を提案する。
具体的には、CLIPのような補助モデルを用いて、テキストクエリに依存する入力画像に対するアテンションヒートマップを生成する。
次に、ヒートマップは、元の画像の画素値を単純に乗算して、LVLMの実際の入力画像を得る。
各種バイソン言語ベンチマークの広範囲な実験により,本手法の有効性が検証された。
例えば、画像上のアテンション・プロンプティングは、それぞれMM-VetとLLaVA-WildベンチマークでLLaVA-1.5を3.8%改善する。
Compared with Large Language Models (LLMs), Large Vision-Language Models (LVLMs) can also accept images as input, thus showcasing more interesting emergent capabilities and demonstrating impressive performance on various vision-language tasks. Motivated by text prompting in LLMs, visual prompting has been explored to enhance LVLMs' capabilities of perceiving visual information. However, previous visual prompting techniques solely process visual inputs without considering text queries, limiting the models' ability to follow text instructions to complete tasks. To fill this gap, in this work, we propose a new prompting technique named Attention Prompting on Image, which just simply overlays a text-query-guided attention heatmap on the original input image and effectively enhances LVLM on various tasks. Specifically, we generate an attention heatmap for the input image dependent on the text query with an auxiliary model like CLIP. Then the heatmap simply multiplies the pixel values of the original image to obtain the actual input image for the LVLM. Extensive experiments on various vison-language benchmarks verify the effectiveness of our technique. For example, Attention Prompting on Image improves LLaVA-1.5 by 3.8% and 2.9% on MM-Vet and LLaVA-Wild benchmarks, respectively. | 翻訳日:2024-09-27 02:33:29 公開日:2024-09-25 |
# 差分プライバシー規則化:損失関数規則化によるトレーニングデータの保護
Differential Privacy Regularization: Protecting Training Data Through Loss Function Regularization ( http://arxiv.org/abs/2409.17144v1 ) ライセンス: Link先を確認 | Francisco Aguilera-Martínez, Fernando Berzal, | (参考訳) ニューラルネットワークに基づく機械学習モデルのトレーニングには、機密情報を含む大きなデータセットが必要である。
しかし、これらのモデルはこれらのデータセットからプライベート情報を公開してはならない。
差分的にプライベートなSGD[DP-SGD]は、新しいモデルをトレーニングするために標準確率勾配勾配(SGD)アルゴリズムを変更する必要がある。
本稿では、より効率的な方法で同じ目標を達成するために、新しい正規化戦略を提案する。
Training machine learning models based on neural networks requires large datasets, which may contain sensitive information. The models, however, should not expose private information from these datasets. Differentially private SGD [DP-SGD] requires the modification of the standard stochastic gradient descent [SGD] algorithm for training new models. In this short paper, a novel regularization strategy is proposed to achieve the same goal in a more efficient manner. | 翻訳日:2024-09-27 02:33:29 公開日:2024-09-25 |
# DreamWaltz-G:Skeleton-Guided 2Dの3Dガウスアバター
拡散
DreamWaltz-G: Expressive 3D Gaussian Avatars from Skeleton-Guided 2D Diffusion ( http://arxiv.org/abs/2409.17145v1 ) ライセンス: Link先を確認 | Yukun Huang, Jianan Wang, Ailing Zeng, Zheng-Jun Zha, Lei Zhang, Xihui Liu | (参考訳) 事前学習した2次元拡散モデルとスコア蒸留サンプリング(SDS)を利用して,テキストから3次元アバターの生成に有望な結果が得られた。
しかし、表現力のあるアニメーションが可能な高品質な3Dアバターを生成することは依然として困難である。
本稿では,テキストから3Dアバターを生成するための新しい学習フレームワークであるDreamWaltz-Gを紹介する。
このフレームワークの中核は、スケルトン誘導のスコア蒸留とハイブリッド3Dガウスアバター表現にある。
具体的には、3次元の人体テンプレートからの骨格制御を2次元拡散モデルに統合し、視点と人間のポーズの観点からSDS監督の整合性を高める。
これにより、高品質なアバターの生成が容易になり、複数の顔、余分な手足、ぼやけなどの問題を緩和する。
提案したハイブリッド3Dガウスアバター表現は、ニューラルネットワークとパラメータ化された3Dメッシュを組み合わせて、リアルタイムレンダリング、安定したSDS最適化、表現力のあるアニメーションを実現する。
大規模な実験により、DreamWaltz-Gは3Dアバターの生成とアニメーションに非常に効果的であることが示され、視覚的品質とアニメーション表現性の両方において既存の手法よりも優れていた。
我々のフレームワークは、人間のビデオ再現や多目的シーン構成など、多様なアプリケーションもサポートしています。
Leveraging pretrained 2D diffusion models and score distillation sampling (SDS), recent methods have shown promising results for text-to-3D avatar generation. However, generating high-quality 3D avatars capable of expressive animation remains challenging. In this work, we present DreamWaltz-G, a novel learning framework for animatable 3D avatar generation from text. The core of this framework lies in Skeleton-guided Score Distillation and Hybrid 3D Gaussian Avatar representation. Specifically, the proposed skeleton-guided score distillation integrates skeleton controls from 3D human templates into 2D diffusion models, enhancing the consistency of SDS supervision in terms of view and human pose. This facilitates the generation of high-quality avatars, mitigating issues such as multiple faces, extra limbs, and blurring. The proposed hybrid 3D Gaussian avatar representation builds on the efficient 3D Gaussians, combining neural implicit fields and parameterized 3D meshes to enable real-time rendering, stable SDS optimization, and expressive animation. Extensive experiments demonstrate that DreamWaltz-G is highly effective in generating and animating 3D avatars, outperforming existing methods in both visual quality and animation expressiveness. Our framework further supports diverse applications, including human video reenactment and multi-subject scene composition. | 翻訳日:2024-09-27 02:33:29 公開日:2024-09-25 |
# MolmoとPixMo: 最先端マルチモーダルモデルのためのオープンウェイトとオープンデータ
Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models ( http://arxiv.org/abs/2409.17146v1 ) ライセンス: Link先を確認 | Matt Deitke, Christopher Clark, Sangho Lee, Rohun Tripathi, Yue Yang, Jae Sung Park, Mohammadreza Salehi, Niklas Muennighoff, Kyle Lo, Luca Soldaini, Jiasen Lu, Taira Anderson, Erin Bransom, Kiana Ehsani, Huong Ngo, YenSung Chen, Ajay Patel, Mark Yatskar, Chris Callison-Burch, Andrew Head, Rose Hendrix, Favyen Bastani, Eli VanderBilt, Nathan Lambert, Yvonne Chou, Arnavi Chheda, Jenna Sparks, Sam Skjonsberg, Michael Schmitz, Aaron Sarnat, Byron Bischoff, Pete Walsh, Chris Newell, Piper Wolters, Tanmay Gupta, Kuo-Hao Zeng, Jon Borchardt, Dirk Groeneveld, Jen Dumas, Crystal Nam, Sophie Lebrecht, Caitlin Wittlif, Carissa Schoenick, Oscar Michel, Ranjay Krishna, Luca Weihs, Noah A. Smith, Hannaneh Hajishirzi, Ross Girshick, Ali Farhadi, Aniruddha Kembhavi, | (参考訳) 今日の最も先進的なマルチモーダルモデルはプロプライエタリのままである。
最強のオープンウェイトモデルは、プロプライエタリなVLMの合成データに大きく依存して優れた性能を達成し、これらの閉じたモデルを効果的にオープンなモデルに蒸留する。
結果として、コミュニティは、パフォーマンスの高いVLMをスクラッチから構築する方法に関する基礎知識を失っている。
オープンネスのクラスにおける最先端技術であるVLMの新しいファミリーであるMomoを紹介します。
私たちの重要なイノベーションは、音声ベースの記述を使用して、人間のアノテーションから収集された、新しい、非常に詳細な画像キャプションデータセットです。
多様なユーザインタラクションを実現するため,本研究では,既存Q&Aと革新的な2Dポインティングデータを含む,微調整のための多様なデータセットミックスも導入する。
このアプローチの成功は、モデルアーキテクチャの詳細、十分に調整されたトレーニングパイプライン、そして最も重要なのは、新たに収集したデータセットの品質、これらすべてのリリースに関する慎重な選択に依存しています。
モルモ族の最高の72Bモデルは、オープンウェイトとデータモデルのクラスで他よりも優れているだけでなく、学術的なベンチマークと人的評価の両方において、GPT-4o、Claude 3.5、Gemini 1.5といったプロプライエタリなシステムと好意的に比較している。
近い将来、モデルウェイト、キャプション、微調整データ、ソースコードをすべてリリースする予定です。
Select model weights, inference code, demoはhttps://molmo.allenai.orgで公開されている。
Today's most advanced multimodal models remain proprietary. The strongest open-weight models rely heavily on synthetic data from proprietary VLMs to achieve good performance, effectively distilling these closed models into open ones. As a result, the community is still missing foundational knowledge about how to build performant VLMs from scratch. We present Molmo, a new family of VLMs that are state-of-the-art in their class of openness. Our key innovation is a novel, highly detailed image caption dataset collected entirely from human annotators using speech-based descriptions. To enable a wide array of user interactions, we also introduce a diverse dataset mixture for fine-tuning that includes in-the-wild Q&A and innovative 2D pointing data. The success of our approach relies on careful choices for the model architecture details, a well-tuned training pipeline, and, most critically, the quality of our newly collected datasets, all of which will be released. The best-in-class 72B model within the Molmo family not only outperforms others in the class of open weight and data models but also compares favorably against proprietary systems like GPT-4o, Claude 3.5, and Gemini 1.5 on both academic benchmarks and human evaluation. We will be releasing all of our model weights, captioning and fine-tuning data, and source code in the near future. Select model weights, inference code, and demo are available at https://molmo.allenai.org. | 翻訳日:2024-09-27 02:33:29 公開日:2024-09-25 |
# オープンWeb研究エージェントのリアルタイム長期ベンチマークに向けて
Towards a Realistic Long-Term Benchmark for Open-Web Research Agents ( http://arxiv.org/abs/2409.14913v1 ) ライセンス: Link先を確認 | Peter Mühlbacher, Nikos I. Bosse, Lawrence Phillips, | (参考訳) 経済価値の白カラータスクに対するLCMエージェント評価のためのベンチマークを近く実施する。
顧客から現実のケースから引き出された金融やコンサルティングにおいて日常的に行われる8つの現実的かつ「テーマ」なタスクを評価します。
我々は,LLMエージェント評価スイートの基礎を置き,優れた性能が経済的・社会的影響に直接対応するようにした。
これにより、既存のベンチマークのギャップを‘次のアドレスにピザを注文’するようなタスクで埋めることができます。
我々の評価は、部分的に解決するタスクに対して、エージェントにクレジットを割り当てる。
これにより、この初期評価と今後のベンチマークにより、経済的に価値のあるタスクにおいて、LLMベースのエージェントのパフォーマンスをより正確に推定することができる。
我々は、GPT-4o、Claude-3.5 Sonnet、Llama 3.1 (405b)、GPT-4o-miniでいくつかのアーキテクチャを構築し、テストした。
平均して、Claude-3.5 Sonnetを動力とするLLM剤は、Llama 3.1 (405b) と GPT-4o-mini をベースとした GPT-4o 剤で大幅に性能が向上した。
LLM全体では、サブタスクをサブエージェントに委譲する機能を備えたReActアーキテクチャが最もよく機能した。
定量的評価に加えて, LLM エージェントの性能を定量的に評価し, その痕跡を検査し, 観察結果に反映した。
We present initial results of a forthcoming benchmark for evaluating LLM agents on white-collar tasks of economic value. We evaluate eight realistic and ``messy'' tasks that are routine in finance and consulting, drawn from real-world cases from our customers. We lay the groundwork for an LLM agent evaluation suite where good performance directly corresponds to a large economic and societal impact. This fills a gap in existing benchmarks with tasks like ``order a pizza to the following address'' that do not constitute real-human work of economic value. Our evaluations assign credit to agents for partially solving tasks. By doing that, this initial evaluation, and the forthcoming benchmark, allow us to more accurately extrapolate performance of LLM-based agents on economically valuable tasks. We built and tested several architectures with GPT-4o, Claude-3.5 Sonnet, Llama 3.1 (405b), and GPT-4o-mini, ensuring that failure to solve a task was due to failures of reasoning and planning, rather than due to common failures like e.g. the inability to parse a website. On average, LLM agents powered by Claude-3.5 Sonnet substantially outperformed agents using GPT-4o, with agents based on Llama 3.1 (405b) and GPT-4o-mini lagging noticeably behind. Across LLMs, a ReAct architecture with the ability to delegate subtasks to subagents performed best. In addition to quantitative evaluations, we qualitatively assessed the performance of the LLM agents by inspecting their traces and reflecting on their observations. | 翻訳日:2024-09-26 15:26:12 公開日:2024-09-25 |
# 異常なフェイク画像の検出におけるログ正規変異とその利用
Log-normal Mutations and their Use in Detecting Surreptitious Fake Images ( http://arxiv.org/abs/2409.15119v1 ) ライセンス: Link先を確認 | Ismail Labiad, Thomas Bäck, Pierre Fernandez, Laurent Najman, Tom Sanders, Furong Ye, Mariia Zameshina, Olivier Teytaud, | (参考訳) 多くの場合、敵対的攻撃は、自動画像分類器の攻撃に特化した特別なアルゴリズムに基づいている。
これらのアルゴリズムは、初期攻撃のアドホックな分布のおかげで、うまく機能する。
しかし、これらの攻撃は特定の初期分布のために容易に検出される。
そこで我々は、一般的なブラックボックス最適化ツール、特にログ正規化アルゴリズムに触発された他のブラックボックス攻撃について検討する。
ここでは, 対数正規法を偽検知器の攻撃に適用し, 攻撃を成功させる。
そして、これらの攻撃と深度検出を組み合わせることで、改良された偽検出装置を作成する。
In many cases, adversarial attacks are based on specialized algorithms specifically dedicated to attacking automatic image classifiers. These algorithms perform well, thanks to an excellent ad hoc distribution of initial attacks. However, these attacks are easily detected due to their specific initial distribution. We therefore consider other black-box attacks, inspired from generic black-box optimization tools, and in particular the log-normal algorithm. We apply the log-normal method to the attack of fake detectors, and get successful attacks: importantly, these attacks are not detected by detectors specialized on classical adversarial attacks. Then, combining these attacks and deep detection, we create improved fake detectors. | 翻訳日:2024-09-26 14:23:12 公開日:2024-09-25 |
# CoHERENT:大規模言語モデルを用いた異種多ロボットシステムの協調
COHERENT: Collaboration of Heterogeneous Multi-Robot System with Large Language Models ( http://arxiv.org/abs/2409.15146v1 ) ライセンス: Link先を確認 | Kehui Liu, Zixin Tang, Dong Wang, Zhigang Wang, Bin Zhao, Xuelong Li, | (参考訳) 大規模言語モデル(LLM)の強力な推論機能を活用することで、最近のLLMベースのロボットタスク計画手法が有望な結果をもたらす。
しかし、それらは主に単純なタスクで単一または複数の同質なロボットに焦点を当てている。
実際には、複雑なロングホライゾンタスクは、特により複雑なアクション空間を持つ複数の異種ロボット間のコラボレーションを必要とするため、これらのタスクはより困難である。
この目的のために、我々は、四脚ロボット、ロボット犬、ロボットアームを含む異種多ロボットシステムの協調のための新しいLCMベースのタスク計画フレームワークであるCOHERENTを提案する。
具体的には,提案-実行-フィードバック-調整(PEFA)機構は,個別のロボットに対して,複雑なタスクをサブタスクに分解するタスク計画の提案を行い,そのサブタスクをロボット実行者に割り当てる。
各ロボット実行者は、割り当てられたサブタスクを実装するための実行可能なアクションを選択し、計画調整のためにタスク割り当て者に自己回帰フィードバックを報告する。
PEFAはタスクが完了するまでループする。
さらに,100の複雑な長距離タスクを含む異種マルチロボットタスク計画ベンチマークを作成する。
実験の結果,我々の研究は,成功率と実行効率の面で,従来の手法をはるかに上回っていることが明らかとなった。
実験ビデオ、コード、ベンチマークはhttps://github.com/MrKeee/COHERENT.comで公開されている。
Leveraging the powerful reasoning capabilities of large language models (LLMs), recent LLM-based robot task planning methods yield promising results. However, they mainly focus on single or multiple homogeneous robots on simple tasks. Practically, complex long-horizon tasks always require collaborations among multiple heterogeneous robots especially with more complex action spaces, which makes these tasks more challenging. To this end, we propose COHERENT, a novel LLM-based task planning framework for collaboration of heterogeneous multi-robot systems including quadrotors, robotic dogs, and robotic arms. Specifically, a Proposal-Execution-Feedback-Adjustment (PEFA) mechanism is designed to decompose and assign actions for individual robots, where a centralized task assigner makes a task planning proposal to decompose the complex task into subtasks, and then assigns subtasks to robot executors. Each robot executor selects a feasible action to implement the assigned subtask and reports self-reflection feedback to the task assigner for plan adjustment. The PEFA loops until the task is completed. Moreover, we create a challenging heterogeneous multi-robot task planning benchmark encompassing 100 complex long-horizon tasks. The experimental results show that our work surpasses the previous methods by a large margin in terms of success rate and execution efficiency. The experimental videos, code, and benchmark are released at https://github.com/MrKeee/COHERENT. | 翻訳日:2024-09-26 14:23:12 公開日:2024-09-25 |
# ゴールに基づくニューラル物理車両軌道予測モデル
Goal-based Neural Physics Vehicle Trajectory Prediction Model ( http://arxiv.org/abs/2409.15182v1 ) ライセンス: Link先を確認 | Rui Gan, Haotian Shi, Pei Li, Keshu Wu, Bocheng An, Linheng Li, Junyi Ma, Chengyuan Ma, Bin Ran, | (参考訳) 車両軌道予測は、車両の行動計画と制御に大きな影響を及ぼし、交通の安全と効率に影響を与えるため、インテリジェントな交通システムと自動運転において重要な役割を果たす。
短期的な車両軌道の予測には, 近い将来に多くの研究がなされている。
しかし, 長期軌道予測は, 累積誤差や不確実性のため, 依然として大きな課題である。
さらに、予測における解釈可能性による精度のバランスは、車両軌道の予測における別の難しい問題である。
これらの課題に対処するために、ゴールに基づくニューラル物理車両軌道予測モデル(GNP)を提案する。
GNPモデルは、車両の軌道予測を2段階のプロセスに単純化する。
GNPモデルは、このプロセスを達成するために2つの部分加群を含む。
最初のサブモジュールは、目標を正確に予測するためにマルチヘッドアテンションメカニズムを使用する。
第2のサブモジュールは、深層学習モデルと物理に基づく社会力モデルを統合して、生成された目標を用いて完全な軌道を段階的に予測する。
GNPは、4つのベースラインモデルと比較して最先端の長期予測精度を示す。
我々は、ニューラルネットワークフレームワークの多モード性と固有の性質を強調するために、解釈可能な可視化結果を提供する。
また,鍵設計の有効性を検証するためにアブレーション研究を行った。
Vehicle trajectory prediction plays a vital role in intelligent transportation systems and autonomous driving, as it significantly affects vehicle behavior planning and control, thereby influencing traffic safety and efficiency. Numerous studies have been conducted to predict short-term vehicle trajectories in the immediate future. However, long-term trajectory prediction remains a major challenge due to accumulated errors and uncertainties. Additionally, balancing accuracy with interpretability in the prediction is another challenging issue in predicting vehicle trajectory. To address these challenges, this paper proposes a Goal-based Neural Physics Vehicle Trajectory Prediction Model (GNP). The GNP model simplifies vehicle trajectory prediction into a two-stage process: determining the vehicle's goal and then choosing the appropriate trajectory to reach this goal. The GNP model contains two sub-modules to achieve this process. The first sub-module employs a multi-head attention mechanism to accurately predict goals. The second sub-module integrates a deep learning model with a physics-based social force model to progressively predict the complete trajectory using the generated goals. The GNP demonstrates state-of-the-art long-term prediction accuracy compared to four baseline models. We provide interpretable visualization results to highlight the multi-modality and inherent nature of our neural physics framework. Additionally, ablation studies are performed to validate the effectiveness of our key designs. | 翻訳日:2024-09-26 14:13:28 公開日:2024-09-25 |
# TFT-multi : ICUにおけるバイタルサイン軌跡の同時予測
TFT-multi: simultaneous forecasting of vital sign trajectories in the ICU ( http://arxiv.org/abs/2409.15586v1 ) ライセンス: Link先を確認 | Rosemary Y. He, Jeff N. Chiang, | (参考訳) 医療データにおける軌道予測は、計算手法の精度ケアと臨床統合において重要な研究領域である。
近年、生成型AIモデルは時系列データにおける短距離および長距離の依存関係をキャプチャする有望な結果を実証している。
これらのモデルは医療にも適用されているが、その多くは一度に1つの値しか予測していない。
本研究では,マルチ水平時系列予測ツールであるフレームワーク時間融合変換器(TFT)を拡張し,複数の重要な軌道を同時に予測できるエンドツーエンドフレームワークであるTFT-multiを提案する。
集中治療室で記録された5つのバイタルサイン (血圧, 脈拍, SpO2, 温度, 呼吸速度) の予測にTFT-multiを適用した。
我々は、これらの測度が互いに相関することが多いことを共同で予測することで、特に大きな欠落を持つ変数において、より正確な予測を行うことができると仮定する。
提案手法は,従来のTFTやProphetなど最先端の単変量予測ツールや,多変量予測のためのベクトル回帰モデルよりも優れていることを示す。
さらに,本研究は,実際のおよび仮説的プレッシャ投与に伴う血圧変動の予測にパイプラインを適用した研究事例分析を行った。
Trajectory forecasting in healthcare data has been an important area of research in precision care and clinical integration for computational methods. In recent years, generative AI models have demonstrated promising results in capturing short and long range dependencies in time series data. While these models have also been applied in healthcare, most of them only predict one value at a time, which is unrealistic in a clinical setting where multiple measures are taken at once. In this work, we extend the framework temporal fusion transformer (TFT), a multi-horizon time series prediction tool, and propose TFT-multi, an end-to-end framework that can predict multiple vital trajectories simultaneously. We apply TFT-multi to forecast 5 vital signs recorded in the intensive care unit: blood pressure, pulse, SpO2, temperature and respiratory rate. We hypothesize that by jointly predicting these measures, which are often correlated with one another, we can make more accurate predictions, especially in variables with large missingness. We validate our model on the public MIMIC dataset and an independent institutional dataset, and demonstrate that this approach outperforms state-of-the-art univariate prediction tools including the original TFT and Prophet, as well as vector regression modeling for multivariate prediction. Furthermore, we perform a study case analysis by applying our pipeline to forecast blood pressure changes in response to actual and hypothetical pressor administration. | 翻訳日:2024-09-26 12:02:22 公開日:2024-09-25 |
# 長大化のためのループ変換器
Looped Transformers for Length Generalization ( http://arxiv.org/abs/2409.15647v1 ) ライセンス: Link先を確認 | Ying Fan, Yilun Du, Kannan Ramchandran, Kangwook Lee, | (参考訳) 最近の研究によると、スクラッチから訓練されたトランスフォーマーは、数や計算パリティなどの様々な算術的およびアルゴリズム的なタスクをうまく解くことができる。
これらの変換器は、同じ長さの未知の入力をうまく一般化するが、長さの一般化、すなわち見えない長さの入力を扱うのに苦労する。
本研究では,適応的なステップ数を持つループ変換器が長さの一般化を著しく向上することを示す。
有限サイズの変換器で表現可能な長さ一般化可能な演算である RASP-L 演算の繰り返しを含む,既知の反復解を用いたタスクに着目する。
我々は,提案した学習アルゴリズムを用いてループ変換器を訓練し,様々なタスクに対して,高度に長大な一般化可能な解を学習することを確認する。
Recent work has shown that Transformers trained from scratch can successfully solve various arithmetic and algorithmic tasks, such as adding numbers and computing parity. While these Transformers generalize well on unseen inputs of the same length, they struggle with length generalization, i.e., handling inputs of unseen lengths. In this work, we demonstrate that looped Transformers with an adaptive number of steps significantly improve length generalization. We focus on tasks with a known iterative solution, involving multiple iterations of a RASP-L operation - a length-generalizable operation that can be expressed by a finite-sized Transformer. We train looped Transformers using our proposed learning algorithm and observe that they learn highly length-generalizable solutions for various tasks. | 翻訳日:2024-09-26 11:32:56 公開日:2024-09-25 |
# MMPT:ゼロショットインストラクション学習のためのマルチモーダルプロンプトチューニング
MMPT: Multimodal Prompt Tuning for Zero-shot Instruction Learning ( http://arxiv.org/abs/2409.15657v1 ) ライセンス: Link先を確認 | Taowen Wang, Yiyang Liu, James Chenhao Liang, junhan zhao, Yiming Cui, Yuning Mao, Shaoliang Nie, Jiahao Liu, Fuli Feng, Zenglin Xu, Cheng Han, Lifu Huang, Qifan Wang, Dongfang Liu, | (参考訳) MLLM(Multimodal Large Language Models)は、さまざまな領域にわたる顕著なパフォーマンスを示し、さまざまなモダリティにまたがる未確認タスクに対するゼロショットの一般化能力の向上に重点を置いている。
多様なマルチモーダルタスク上で事前学習したモデルを微調整することにより、ゼロショットの一般化を実現するための効果的な戦略として、インストラクションチューニングが登場した。
MLLMのスケールが拡大するにつれて、パラメータ効率の高い微調整がますます重要になる。
しかし、既存のパラメータ効率のアプローチのほとんどは単一のモダリティにのみ焦点をあて、ファインタニング中のマルチモーダル特性をしばしば見落としている。
本研究では,MLLMの効率的な命令チューニングのためのMMPT(Multimodal Prompt Tuning)手法を提案する。
MMPTは、視覚エンコーダと言語プロセッサに視覚的プロンプトとテキスト的プロンプトを効果的に統合し、モダリティ間の特徴の抽出とアライメントを容易にする。
各種マルチモーダル評価データセットの実証実験結果から, 提案手法の性能は, 最先端のベースラインに比べて優れていた。
包括的アブレーション研究は、我々の迅速な設計の有効性と、我々のアプローチの効率性を検証する。
Multimodal Large Language Models (MLLMs) demonstrate remarkable performance across a wide range of domains, with increasing emphasis on enhancing their zero-shot generalization capabilities for unseen tasks across various modalities. Instruction tuning has emerged as an effective strategy for achieving zero-shot generalization by finetuning pretrained models on diverse multimodal tasks. As the scale of MLLMs continues to grow, parameter-efficient finetuning becomes increasingly critical. However, most existing parameter-efficient approaches focus only on single modalities and often overlook the multimodal characteristics during finetuning. In this work, we introduce a novel Multimodal Prompt Tuning (MMPT) approach for efficient instruction tuning of MLLMs. MMPT effectively integrates visual and textual prompts into the vision encoder and language processor respectively during finetuning, facilitating the extraction and alignment of features across modalities. Empirical results on various multimodal evaluation datasets demonstrate the superior performance of our approach compared to several state-of-the-art baselines. A comprehensive set of ablation studies validates the effectiveness of our prompt design and the efficiency of our approach. | 翻訳日:2024-09-26 11:19:39 公開日:2024-09-25 |