このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20241103となっている論文です。

PDF登録状況(公開日: 20241103)

TitleAuthorsAbstract論文公表日・翻訳日
# KVキャッシュ圧縮のためのシンプルで効果的な$L_2$ノルム戦略

A Simple and Effective $L_2$ Norm-Based Strategy for KV Cache Compression ( http://arxiv.org/abs/2406.11430v2 )

ライセンス: Link先を確認
Alessio Devoto, Yu Zhao, Simone Scardapane, Pasquale Minervini, (参考訳) 大規模言語モデル(LLM)の展開は、特にコンテキスト長の増加に伴ってキーバリュー(KV)キャッシュの広範なメモリ要求によって妨げられることが多い。 既存のKVキャッシュサイズを削減するアプローチでは、圧縮戦略を学ぶためのモデルを微調整するか、シーケンス長を減らすためにアテンションスコアを利用する。 我々は,デコーダのみをベースとしたトランスフォーマーモデルにおけるアテンション分布を分析し,アテンションアロケーションパターンがほとんどの層で一定であることを確認する。 驚いたことに、キャッシュされたKVペアに対して、$L_2$とアテンションスコアとの間に明らかな相関関係がみられ、キー埋め込みの低い$L_2$がデコード時に高いアテンションスコアをもたらすのが普通である。 この結果から、KV対の影響は、クエリされる前にキー埋め込み自体によって決定される可能性が示唆された。 この観測に基づいて、キー埋め込みの$L_2$に基づいてKVキャッシュを圧縮する。 実験の結果,この単純な手法により,言語モデリングやニードル・イン・ア・ヘイスタックタスクでは50%,パスキー検索タスクでは90%,精度を損なうことなく,KVキャッシュサイズを50%削減できることがわかった。 さらに、注意点を頼らずに、このアプローチはFlashAttentionと互換性を持ち、より広範な適用性を実現する。

The deployment of large language models (LLMs) is often hindered by the extensive memory requirements of the Key-Value (KV) cache, especially as context lengths increase. Existing approaches to reduce the KV cache size involve either fine-tuning the model to learn a compression strategy or leveraging attention scores to reduce the sequence length. We analyse the attention distributions in decoder-only Transformers-based models and observe that attention allocation patterns stay consistent across most layers. Surprisingly, we find a clear correlation between the $L_2$ and the attention scores over cached KV pairs, where a low $L_2$ of a key embedding usually leads to a high attention score during decoding. This finding indicates that the influence of a KV pair is potentially determined by the key embedding itself before being queried. Based on this observation, we compress the KV cache based on the $L_2$ of key embeddings. Our experimental results show that this simple strategy can reduce the KV cache size by 50% on language modelling and needle-in-a-haystack tasks and 90% on passkey retrieval tasks without losing accuracy. Moreover, without relying on the attention scores, this approach remains compatible with FlashAttention, enabling broader applicability.
翻訳日:2024-11-09 01:22:29 公開日:2024-11-03
# 多層貯留層計算による時間畳み込み

Temporal Convolution Derived Multi-Layered Reservoir Computing ( http://arxiv.org/abs/2407.06771v2 )

ライセンス: Link先を確認
Johannes Viehweg, Dominik Walther, Patrick Mäder, (参考訳) 時系列の予測は、財務データの分析、フローのダイナミクスの予測、生物学的プロセスの理解など、様々な分野での課題である。 特に長い歴史に依存する混乱した時系列は、非常に難しい問題を引き起こす。 機械学習は、そのような時系列を予測するための有望なアプローチであることを示しているが、深層リカレントニューラルネットワークを使用する場合、長いトレーニング時間と多くのトレーニングデータを必要とする。 あるいは、Reservoir Computingアプローチを使用する場合、高い不確実性があり、通常、多数のランダム初期化と広範なハイパーパラメータチューニングが伴う。 本稿では,Reservoir Computingアプローチに着目し,その状態空間への入力データの新たなマッピングを提案する。 さらに,この手法を2つの新しいネットワークアーキテクチャに組み込むことにより,ニューラルネットワークの並列性,深さ,予測能力を向上し,ランダム性への依存度を低減させる。 評価のために,マッキーグラス方程式から時系列の集合を近似し,非カオス的およびカオス的挙動とサンタフェレーザーデータセットを近似し,その予測能力をEcho State Networks,Autoencoder Connected Echo State Networks,Gated Recurrent Unitsと比較した。 カオス時系列では、Echo State Networks と比較して最大 85.45 %、Gated Recurrent Units と比較して 90.72 % の誤差削減が観察される。 さらに、既存のアプローチとは対照的に、非カオス時系列の99.99\%$の大幅な改善も観察する。

The prediction of time series is a challenging task relevant in such diverse applications as analyzing financial data, forecasting flow dynamics or understanding biological processes. Especially chaotic time series that depend on a long history pose an exceptionally difficult problem. While machine learning has shown to be a promising approach for predicting such time series, it either demands long training time and much training data when using deep Recurrent Neural Networks. Alternative, when using a Reservoir Computing approach it comes with high uncertainty and typically a high number of random initializations and extensive hyper-parameter tuning. In this paper, we focus on the Reservoir Computing approach and propose a new mapping of input data into the reservoir's state space. Furthermore, we incorporate this method in two novel network architectures increasing parallelizability, depth and predictive capabilities of the neural network while reducing the dependence on randomness. For the evaluation, we approximate a set of time series from the Mackey-Glass equation, inhabiting non-chaotic as well as chaotic behavior as well as the SantaFe Laser dataset and compare our approaches in regard to their predictive capabilities to Echo State Networks, Autoencoder connected Echo State Networks and Gated Recurrent Units. For the chaotic time series, we observe an error reduction of up to $85.45\%$ compared to Echo State Networks and $90.72\%$ compared to Gated Recurrent Units. Furthermore, we also observe tremendous improvements for non-chaotic time series of up to $99.99\%$ in contrast to the existing approaches.
翻訳日:2024-11-08 23:02:19 公開日:2024-11-03
# フェデレーション最適化のための安定化近点法

Stabilized Proximal-Point Methods for Federated Optimization ( http://arxiv.org/abs/2407.07084v2 )

ライセンス: Link先を確認
Xiaowen Jiang, Anton Rodomanov, Sebastian U. Stich, (参考訳) 効率的な最適化アルゴリズムを開発する際には、コミュニケーションの制約を考慮することが重要です。 非加速アルゴリズムで最もよく知られている通信複雑性は、各イテレーションで局所的なサブプロブレムを解く分散近点アルゴリズムであるDANEによって達成され、個々の関数間の二階類似性を利用することができる。 しかし、そのような通信効率を達成するために、アルゴリズムは局所的なサブプロブレムを十分正確に解く必要がある。 本研究では,ハイブリッド射影近点法に着想を得て,新しい分散アルゴリズムS-DANEを提案する。 DANEと比較して、この方法は、同じ決定論的通信複雑性を維持しながら、プロキシ中心の補助シーケンスを使用する。 さらに、サブプロブレムを解くための精度条件は緩やかであり、局所的な計算効率が向上する。 さらに、S-DANEは部分的なクライアント参加と任意の確率的局所解法をサポートしており、実際は魅力的である。 さらに、S-DANEを高速化し、S-DANEとして良好な局所計算効率を保ちながら、分散凸最適化のためのすべての既存手法の中で最もよく知られた通信複雑性を実現することを示す。 最後に,線形探索を用いた2つの手法の適応的変種を提案し,パラメータの事前知識を使わずに,局所的な2階類似性を活用可能な適応アルゴリズムを初めて提案する。

In developing efficient optimization algorithms, it is crucial to account for communication constraints -- a significant challenge in modern Federated Learning. The best-known communication complexity among non-accelerated algorithms is achieved by DANE, a distributed proximal-point algorithm that solves local subproblems at each iteration and that can exploit second-order similarity among individual functions. However, to achieve such communication efficiency, the algorithm requires solving local subproblems sufficiently accurately resulting in slightly sub-optimal local complexity. Inspired by the hybrid-projection proximal-point method, in this work, we propose a novel distributed algorithm S-DANE. Compared to DANE, this method uses an auxiliary sequence of prox-centers while maintaining the same deterministic communication complexity. Moreover, the accuracy condition for solving the subproblem is milder, leading to enhanced local computation efficiency. Furthermore, S-DANE supports partial client participation and arbitrary stochastic local solvers, making it attractive in practice. We further accelerate S-DANE and show that the resulting algorithm achieves the best-known communication complexity among all existing methods for distributed convex optimization while still enjoying good local computation efficiency as S-DANE. Finally, we propose adaptive variants of both methods using line search, obtaining the first provably efficient adaptive algorithms that could exploit local second-order similarity without the prior knowledge of any parameters.
翻訳日:2024-11-08 22:51:19 公開日:2024-11-03
# フォーミュラ生成のための合成データの検証に関する実証的研究

An Empirical Study of Validating Synthetic Data for Formula Generation ( http://arxiv.org/abs/2407.10657v3 )

ライセンス: Link先を確認
Usneek Singh, José Cambronero, Sumit Gulwani, Aditya Kanade, Anirudh Khatry, Vu Le, Mukul Singh, Gust Verbruggen, (参考訳) 大きな言語モデル(LLM)は、スプレッドシートで公式を書くのに役立つが、これらの公式のリソースは乏しく、事前訓練されたモデルのベースパフォーマンスに影響を与え、それらを微調整する能力を制限する。 公式のコーパスが与えられた場合、(他の)モデルを用いて、微調整のための合成自然言語発話を生成することができる。 しかし, LLMが生成したNLが, 微調整に有用であるかどうかを検証することは重要である。 本稿では,合成アノテーションの精度を評価するために,これらの合成トレーニング例を代理目的で検証する際の効果を実証的に評価する。 検証により、4つのモデル(開度2と閉度2)にわたる生データよりも性能が向上することを示す。 興味深いことに、検証はより難しい例を産み出す傾向にあるが、検証されたデータに微調整された後にモデルが解決できる問題の複雑さを増大させる。

Large language models (LLMs) can be leveraged to help with writing formulas in spreadsheets, but resources on these formulas are scarce, impacting both the base performance of pre-trained models and limiting the ability to fine-tune them. Given a corpus of formulas, we can use a(nother) model to generate synthetic natural language utterances for fine-tuning. However, it is important to validate whether the NL generated by the LLM is indeed accurate to be beneficial for fine-tuning. In this paper, we provide empirical results on the impact of validating these synthetic training examples with surrogate objectives that evaluate the accuracy of the synthetic annotations. We demonstrate that validation improves performance over raw data across four models (2 open and 2 closed weight). Interestingly, we show that although validation tends to prune more challenging examples, it increases the complexity of problems that models can solve after being fine-tuned on validated data.
翻訳日:2024-11-08 21:32:38 公開日:2024-11-03
# パットナムベンチ:パットナム数学コンペティションにおける神経理論者の評価

PutnamBench: Evaluating Neural Theorem-Provers on the Putnam Mathematical Competition ( http://arxiv.org/abs/2407.11214v2 )

ライセンス: Link先を確認
George Tsoukalas, Jasper Lee, John Jennings, Jimmy Xin, Michelle Ding, Michael Jennings, Amitayush Thakur, Swarat Chaudhuri, (参考訳) パットナムベンチ(PatnamBench)は、ニューラル定理プロデューサが競合数学の問題を解く能力を評価するための新しい多言語ベンチマークである。 パットナムベンチは、1692年、北アメリカの大学レベルの数学コンペティションであるウィリアム・ローウェル・パットナム数学コンペティション(William Lowell Putnam Mathematical Competition)から得られた640の定理を手作りで定式化したものである。 すべての問題はLean 4とIsabelleで形式化されている。 パットナムベンチは、学部数学コースで教えられる幅広いトピックにおいて、重大な問題解決能力と熟練度を必要とする。 パットナムベンチを用いて、確立されたニューラルおよびシンボリック定理証明器の評価を行う。 これらのアプローチはパットナムベンチ問題のごく一部しか解決できず、このベンチマークをニューラル定理証明の研究の難しいオープンチャレンジとして確立する。 PutnamBenchはhttps://github.com/trishullab/PutnamBench.comで入手できる。

We present PutnamBench, a new multi-language benchmark for evaluating the ability of neural theorem-provers to solve competition mathematics problems. PutnamBench consists of 1692 hand-constructed formalizations of 640 theorems sourced from the William Lowell Putnam Mathematical Competition, the premier undergraduate-level mathematics competition in North America. All the problems have formalizations in Lean 4 and Isabelle; a substantial subset also has Coq formalizations. PutnamBench requires significant problem-solving ability and proficiency in a broad range of topics taught in undergraduate mathematics courses. We use PutnamBench to evaluate several established neural and symbolic theorem-provers. These approaches can only solve a handful of the PutnamBench problems, establishing the benchmark as a difficult open challenge for research on neural theorem-proving. PutnamBench is available at https://github.com/trishullab/PutnamBench.
翻訳日:2024-11-08 21:21:36 公開日:2024-11-03
# ワッサーシュタイン空間における生成モデルによるブラックボックス関数のグローバル最適化

Global Optimisation of Black-Box Functions with Generative Models in the Wasserstein Space ( http://arxiv.org/abs/2407.11917v3 )

ライセンス: Link先を確認
Tigran Ramazyan, Mikhail Hushchyn, Denis Derkach, (参考訳) 深部生成代理モデルを用いたブラックボックスシミュレータの勾配自由度最適化のための新しい不確実性推定器を提案する。 これらのシミュレータの最適化は特に確率的シミュレータや高次元のシミュレータでは困難である。 これらの問題に対処するために、パラメータ空間全体のブラックボックス応答をモデル化するために、深い生成的サロゲートアプローチを利用する。 この知識を利用して、ワッサーシュタイン距離、すなわちワッサーシュタインの不確実性に基づいて提案された不確かさを推定する。 このアプローチは、パラメータ空間全体の後悔を最小限に抑える、後続の非依存勾配自由最適化アルゴリズムに採用されている。 提案手法は,最先端の手法よりもブラックボックス関数とブラックボックスの確率的応答の双方の形状に対して,より堅牢であることを示すための一連の実験を行った。

We propose a new uncertainty estimator for gradient-free optimisation of black-box simulators using deep generative surrogate models. Optimisation of these simulators is especially challenging for stochastic simulators and higher dimensions. To address these issues, we utilise a deep generative surrogate approach to model the black box response for the entire parameter space. We then leverage this knowledge to estimate the proposed uncertainty based on the Wasserstein distance - the Wasserstein uncertainty. This approach is employed in a posterior agnostic gradient-free optimisation algorithm that minimises regret over the entire parameter space. A series of tests were conducted to demonstrate that our method is more robust to the shape of both the black box function and the stochastic response of the black box than state-of-the-art methods, such as efficient global optimisation with a deep Gaussian process surrogate.
翻訳日:2024-11-08 20:59:00 公開日:2024-11-03
# 正規化ワッサースタイン距離を用いたシミュレーション出力分布の集約クラスタリング

An Agglomerative Clustering of Simulation Output Distributions Using Regularized Wasserstein Distance ( http://arxiv.org/abs/2407.12100v2 )

ライセンス: Link先を確認
Mohammadmahdi Ghasemloo, David J. Eckman, (参考訳) 統計的学習法を用いて確率的シミュレーションの出力を分析し、異なるシミュレートされたシステムとシステムの入力と出力の関係を明らかにすることにより、意思決定を著しく向上させることができる。 我々は,シミュレーション出力の多変量経験分布をクラスタリングして,性能指標間のパターンやトレードオフを特定することに注力する。 本稿では, 正規化ワッサーシュタイン距離を用いて, これらの多変量経験分布をクラスタリングするアグリメティブクラスタリングアルゴリズムを提案する。 このフレームワークには、異常検出、事前最適化、オンライン監視など、いくつかの重要なユースケースがある。 コールセンタモデルを含む数値実験において、本手法は、同様のパフォーマンス結果をもたらすスタッフ計画を特定し、待ち行列長がシステム性能を悪化させる可能性がある場合に介入するためのポリシーを通知する方法を実証する。

Using statistical learning methods to analyze stochastic simulation outputs can significantly enhance decision-making by uncovering relationships between different simulated systems and between a system's inputs and outputs. We focus on clustering multivariate empirical distributions of simulation outputs to identify patterns and trade-offs among performance measures. We present a novel agglomerative clustering algorithm that utilizes the regularized Wasserstein distance to cluster these multivariate empirical distributions. This framework has several important use cases, including anomaly detection, pre-optimization, and online monitoring. In numerical experiments involving a call-center model, we demonstrate how this methodology can identify staffing plans that yield similar performance outcomes and inform policies for intervening when queue lengths signal potentially worsening system performance.
翻訳日:2024-11-08 20:48:00 公開日:2024-11-03
# CiteME: 言語モデルは正確に科学的主張をクレートできるか?

CiteME: Can Language Models Accurately Cite Scientific Claims? ( http://arxiv.org/abs/2407.12861v2 )

ライセンス: Link先を確認
Ori Press, Andreas Hochlehnert, Ameya Prabhu, Vishaal Udandarao, Ofir Press, Matthias Bethge, (参考訳) 毎月何千もの科学論文が発行されている。 このような情報の過負荷は、研究者の努力を最先端に留まらせ、クレームを検証し、正しく評価するのに役立つ。 論文を参照する文章を抜粋すると、LMが研究アシスタントとして機能し、参照された論文を正しく識別できるだろうか? 我々は、引用属性におけるLMの能力を評価するベンチマークを構築することで、この問題に対処する努力を進める。 我々のベンチマークであるCiteMEは、最近の機械学習論文からのテキスト抜粋で構成されており、それぞれが1つの論文を参照している。 CiteMEの使用は、フロンティアのLMと人間のパフォーマンスの間に大きなギャップがあることを明らかにし、LMは4.2-18.5%の精度しか達成せず、人間は69.7%である。 我々は、GPT-4o LM上に構築された自律システムであるCiteAgentを導入することにより、このギャップを埋める。 全体として、CiteMEはオープンエンドのクレーム帰属のための挑戦的なテストベッドとして機能し、LMによってなされたクレームが間違っていれば自動的に検証され破棄される未来に向けて研究コミュニティを駆り立てている。

Thousands of new scientific papers are published each month. Such information overload complicates researcher efforts to stay current with the state-of-the-art as well as to verify and correctly attribute claims. We pose the following research question: Given a text excerpt referencing a paper, could an LM act as a research assistant to correctly identify the referenced paper? We advance efforts to answer this question by building a benchmark that evaluates the abilities of LMs in citation attribution. Our benchmark, CiteME, consists of text excerpts from recent machine learning papers, each referencing a single other paper. CiteME use reveals a large gap between frontier LMs and human performance, with LMs achieving only 4.2-18.5% accuracy and humans 69.7%. We close this gap by introducing CiteAgent, an autonomous system built on the GPT-4o LM that can also search and read papers, which achieves an accuracy of 35.3\% on CiteME. Overall, CiteME serves as a challenging testbed for open-ended claim attribution, driving the research community towards a future where any claim made by an LM can be automatically verified and discarded if found to be incorrect.
翻訳日:2024-11-08 20:25:29 公開日:2024-11-03
# 野生におけるビジュアルテキスト生成

Visual Text Generation in the Wild ( http://arxiv.org/abs/2407.14138v2 )

ライセンス: Link先を確認
Yuanzhi Zhu, Jiawei Liu, Feiyu Gao, Wenyu Liu, Xinggang Wang, Peng Wang, Fei Huang, Cong Yao, Zhibo Yang, (参考訳) 近年、生成モデルの急速な進歩により、視覚テキスト生成の分野は大きな進歩を遂げている。 しかし, 高品質なテキストイメージを現実のシナリオでレンダリングすることは,(1) 忠実さ: 生成したテキストイメージはフォトリアリスティックで, 内容は指定した条件と同じである,(2) 理性: 生成したテキストの領域と内容がシーンと結びつく,(3) 実用性: 生成したテキストイメージは関連するタスク(例えば, テキストの検出と認識)を促進できる,という3つの重要な基準を満たすことが依然として困難である。 調査の結果,既存の手法はレンダリングベースでも拡散ベースでも,これらすべての側面を同時に満たすことができず,アプリケーション範囲が制限されることが判明した。 そこで本稿では,高品質なテキスト画像を生成する視覚テキスト生成装置(SceneVTG)を提案する。 2段階のパラダイムに従って、SceneVTGはマルチモーダル大言語モデルを利用して、条件付き拡散モデルによってテキスト画像を生成する条件として使用される、複数のスケールとレベルにわたる妥当なテキスト領域と内容を推奨する。 広汎な実験により,提案手法は従来のレンダリング法や最近の拡散法よりも忠実度や理性に優れていた。 さらに、生成された画像は、テキスト検出とテキスト認識を含むタスクに優れたユーティリティを提供する。 コードとデータセットはAdvancedLiterateMachineryで入手できる。

Recently, with the rapid advancements of generative models, the field of visual text generation has witnessed significant progress. However, it is still challenging to render high-quality text images in real-world scenarios, as three critical criteria should be satisfied: (1) Fidelity: the generated text images should be photo-realistic and the contents are expected to be the same as specified in the given conditions; (2) Reasonability: the regions and contents of the generated text should cohere with the scene; (3) Utility: the generated text images can facilitate related tasks (e.g., text detection and recognition). Upon investigation, we find that existing methods, either rendering-based or diffusion-based, can hardly meet all these aspects simultaneously, limiting their application range. Therefore, we propose in this paper a visual text generator (termed SceneVTG), which can produce high-quality text images in the wild. Following a two-stage paradigm, SceneVTG leverages a Multimodal Large Language Model to recommend reasonable text regions and contents across multiple scales and levels, which are used by a conditional diffusion model as conditions to generate text images. Extensive experiments demonstrate that the proposed SceneVTG significantly outperforms traditional rendering-based methods and recent diffusion-based methods in terms of fidelity and reasonability. Besides, the generated images provide superior utility for tasks involving text detection and text recognition. Code and datasets are available at AdvancedLiterateMachinery.
翻訳日:2024-11-08 19:38:31 公開日:2024-11-03
# Fi$^2$VTS:周波数領域における変数内および変数間変動をキャプチャする時系列予測

Fi$^2$VTS: Time Series Forecasting Via Capturing Intra- and Inter-Variable Variations in the frequency domain ( http://arxiv.org/abs/2407.21275v4 )

ライセンス: Link先を確認
Rujia Shen, Yaoxion Lin, Liangliang Liu, Boran Wang, Yi Guan, Yang Yang, Jingchi Jiang, (参考訳) 時系列予測(TSF)は、電気変換、医療モニタリング、作物の生育など、様々な応用において重要な役割を果たしている。 TSFのディープラーニング手法の進歩にもかかわらず、長期連続を予測する能力は依然として制限されている。 この制限は、変量内と変量内の両方を考慮できないことから生じる。 この課題を軽減するために、Fi$^2$VBlockを導入し、これは \textbf{F} の周波数領域の観点を利用して \textbf{i}ntra- と \textbf{i}nter-variable \textbf{V}ariations をキャプチャする。 周波数変換モジュールを介して周波数領域に変換された後、実部と虚部の間の周波数交差注意は、拡張された周波数表現を取得し、可変内変動を捉えるように設計されている。 さらに、インセプションブロックを使用して情報を統合し、異なる変数間の相関をキャプチャする。 我々のバックボーンネットワークであるFi$^2$VTSは、複数のFi$^2$VBlocksを連結して残留アーキテクチャを採用し、劣化問題を防止する。 理論的には、Fi$^2$VTSは時間とメモリの複雑さを大幅に減らし、$\mathcal{O}(L^2)$から$\mathcal{O}(L)$ per Fi$^2$VBlock計算に還元する。 3つのベンチマークデータセットに対する実証的な評価により、Fi$^2$VTSは平均正方誤差(MSE)を30倍に、平均絶対誤差(MAE)を22倍に下げる。 実装コードは \url{https://github.com/HITshenrj/Fi2VTS} で参照できる。

Time series forecasting (TSF) plays a crucial role in various applications, including electricity transformation, medical monitoring, and crop growth. Despite the advancements in deep learning methods for TSF, their capacity to predict long-term series remains constrained. This limitation arises from the failure to account for both intra- and inter-variable variations meanwhile. To mitigate this challenge, we introduce the Fi$^2$VBlock, which leverages a \textbf{F}requency domain perspective to capture \textbf{i}ntra- and \textbf{i}nter-variable \textbf{V}ariations. After transforming into the frequency domain via the Frequency Transform Module, the Frequency Cross Attention between the real and imaginary parts is designed to obtain enhanced frequency representations and capture intra-variable variations. Furthermore, Inception blocks are employed to integrate information, thus capturing correlations across different variables. Our backbone network, Fi$^2$VTS, employs a residual architecture by concatenating multiple Fi$^2$VBlocks, thereby preventing degradation issues. Theoretically, we demonstrate that Fi$^2$VTS achieves a substantial reduction in both time and memory complexity, decreasing from $\mathcal{O}(L^2)$ to $\mathcal{O}(L)$ per Fi$^2$VBlock computation. Empirical evaluations on three benchmark datasets reveal that Fi$^2$VTS delivers an overall relative Mean Squared Error (MSE) reduction of 30\% and an overall relative Mean Absolute Error (MAE) reduction of 22\% when compared to the latest state-of-the-art methods. The implementation code is accessible at \url{https://github.com/HITshenrj/Fi2VTS}.
翻訳日:2024-11-08 13:51:33 公開日:2024-11-03
# Fi$^2$VTS:周波数領域内および周波数間変動をキャプチャする時系列予測

Fi$^2$VTS: Time Series Forecasting Via Capturing Intra- and Inter-Variable Variations in the Frequency Domain ( http://arxiv.org/abs/2407.21275v5 )

ライセンス: Link先を確認
Rujia Shen, Yang Yang, Yaoxion Lin, Liangliang Liu, Boran Wang, Yi Guan, Jingchi Jiang, (参考訳) 時系列予測(TSF)は、電気変換、医療モニタリング、作物の生育など、様々な応用において重要な役割を果たしている。 TSFのディープラーニング手法の進歩にもかかわらず、長期連続を予測する能力は依然として制限されている。 この制限は、変量内と変量内の両方を考慮できないことから生じる。 この課題を軽減するために、Fi$^2$VBlockを導入し、これは \textbf{F} の周波数領域の観点を利用して \textbf{i}ntra- と \textbf{i}nter-variable \textbf{V}ariations をキャプチャする。 周波数変換モジュールを介して周波数領域に変換された後、実部と虚部の間の周波数交差注意は、拡張された周波数表現を取得し、可変内変動を捉えるように設計されている。 さらに、インセプションブロックを使用して情報を統合し、異なる変数間の相関をキャプチャする。 我々のバックボーンネットワークであるFi$^2$VTSは、複数のFi$^2$VBlocksを連結して残留アーキテクチャを採用し、劣化問題を防止する。 理論的には、Fi$^2$VTSは時間とメモリの複雑さを大幅に減らし、$\mathcal{O}(L^2)$から$\mathcal{O}(L)$ per Fi$^2$VBlock計算に還元する。 3つのベンチマークデータセットに対する実証的な評価により、Fi$^2$VTSは平均正方誤差(MSE)を30倍に、平均絶対誤差(MAE)を22倍に下げる。 実装コードは \url{https://github.com/HITshenrj/Fi2VTS} で参照できる。

Time series forecasting (TSF) plays a crucial role in various applications, including electricity transformation, medical monitoring, and crop growth. Despite the advancements in deep learning methods for TSF, their capacity to predict long-term series remains constrained. This limitation arises from the failure to account for both intra- and inter-variable variations meanwhile. To mitigate this challenge, we introduce the Fi$^2$VBlock, which leverages a \textbf{F}requency domain perspective to capture \textbf{i}ntra- and \textbf{i}nter-variable \textbf{V}ariations. After transforming into the frequency domain via the Frequency Transform Module, the Frequency Cross Attention between the real and imaginary parts is designed to obtain enhanced frequency representations and capture intra-variable variations. Furthermore, Inception blocks are employed to integrate information, thus capturing correlations across different variables. Our backbone network, Fi$^2$VTS, employs a residual architecture by concatenating multiple Fi$^2$VBlocks, thereby preventing degradation issues. Theoretically, we demonstrate that Fi$^2$VTS achieves a substantial reduction in both time and memory complexity, decreasing from $\mathcal{O}(L^2)$ to $\mathcal{O}(L)$ per Fi$^2$VBlock computation. Empirical evaluations on three benchmark datasets reveal that Fi$^2$VTS delivers an overall relative Mean Squared Error (MSE) reduction of 30\% and an overall relative Mean Absolute Error (MAE) reduction of 22\% when compared to the latest state-of-the-art methods. The implementation code is accessible at \url{https://github.com/HITshenrj/Fi2VTS}.
翻訳日:2024-11-08 13:51:33 公開日:2024-11-03
# Fi$^2$VTS:周波数領域内および周波数間変動をキャプチャする時系列予測

Fi$^2$VTS: Time Series Forecasting Via Capturing Intra- and Inter-Variable Variations in the Frequency Domain ( http://arxiv.org/abs/2407.21275v6 )

ライセンス: Link先を確認
Rujia Shen, Yang Yang, Yaoxion Lin, Liangliang Liu, Boran Wang, Yi Guan, Jingchi Jiang, (参考訳) 時系列予測(TSF)は,医療モニタリングや作物の生育など,様々な分野で重要な役割を担っている。 TSFのディープラーニング手法の進歩にもかかわらず、長期連続を予測する能力は依然として制限されている。 この制限は、変量内と変量内の両方を考慮できないことから生じる。 この課題を軽減するために、Fi$^2$VBlockを導入し、これは \textbf{F} の周波数領域の観点を利用して \textbf{i}ntra- と \textbf{i}nter-variable \textbf{V}ariations をキャプチャする。 周波数変換モジュールを介して周波数領域に変換された後、実部と虚部の間の周波数交差注意は、拡張された周波数表現を取得し、可変内変動を捉えるように設計されている。 さらに、インセプションブロックを使用して情報を統合し、異なる変数間の相関をキャプチャする。 我々のバックボーンネットワークであるFi$^2$VTSは、複数のFi$^2$VBlocksを連結して残留アーキテクチャを採用し、劣化問題を防止する。 理論的には、Fi$^2$VTSは時間とメモリの複雑さを大幅に減らし、$\mathcal{O}(L^2)$から$\mathcal{O}(L)$ per Fi$^2$VBlock計算に還元する。 実証的な評価では、Fi$^2$VTSは2つのベンチマークデータセットで他のベースラインを上回っている。 実装コードは \url{https://github.com/HITshenrj/Fi2VTS} で参照できる。

Time series forecasting (TSF) plays a crucial role in various applications, including medical monitoring and crop growth. Despite the advancements in deep learning methods for TSF, their capacity to predict long-term series remains constrained. This limitation arises from the failure to account for both intra- and inter-variable variations meanwhile. To mitigate this challenge, we introduce the Fi$^2$VBlock, which leverages a \textbf{F}requency domain perspective to capture \textbf{i}ntra- and \textbf{i}nter-variable \textbf{V}ariations. After transforming into the frequency domain via the Frequency Transform Module, the Frequency Cross Attention between the real and imaginary parts is designed to obtain enhanced frequency representations and capture intra-variable variations. Furthermore, Inception blocks are employed to integrate information, thus capturing correlations across different variables. Our backbone network, Fi$^2$VTS, employs a residual architecture by concatenating multiple Fi$^2$VBlocks, thereby preventing degradation issues. Theoretically, we demonstrate that Fi$^2$VTS achieves a substantial reduction in both time and memory complexity, decreasing from $\mathcal{O}(L^2)$ to $\mathcal{O}(L)$ per Fi$^2$VBlock computation. Empirical evaluations reveal that Fi$^2$VTS outperforms other baselines on two benchmark datasets. The implementation code is accessible at \url{https://github.com/HITshenrj/Fi2VTS}.
翻訳日:2024-11-08 13:51:33 公開日:2024-11-03
# Fi$^2$VTS:周波数領域内および周波数間変動をキャプチャする時系列予測

Fi$^2$VTS: Time Series Forecasting Via Capturing Intra- and Inter-Variable Variations in the Frequency Domain ( http://arxiv.org/abs/2407.21275v7 )

ライセンス: Link先を確認
Rujia Shen, Yang Yang, Yaoxion Lin, Liangliang Liu, Boran Wang, Yi Guan, Jingchi Jiang, (参考訳) 時系列予測(TSF)は,医療モニタリングや作物の生育など,様々な分野で重要な役割を担っている。 TSFのディープラーニング手法の進歩にもかかわらず、長期連続を予測する能力は依然として制限されている。 この制限は、変量内と変量内の両方を考慮できないことから生じる。 この課題を軽減するために、Fi$^2$VBlockを導入し、これは \textbf{F} の周波数領域の観点を利用して \textbf{i}ntra- と \textbf{i}nter-variable \textbf{V}ariations をキャプチャする。 周波数変換モジュールを介して周波数領域に変換された後、実部と虚部の間の周波数交差注意は、拡張された周波数表現を取得し、可変内変動を捉えるように設計されている。 さらに、インセプションブロックを使用して情報を統合し、異なる変数間の相関をキャプチャする。 我々のバックボーンネットワークであるFi$^2$VTSは、複数のFi$^2$VBlocksを連結して残留アーキテクチャを採用し、劣化問題を防止する。 理論的には、Fi$^2$VTSは時間とメモリの複雑さを大幅に減らし、$\mathcal{O}(L^2)$から$\mathcal{O}(L)$ per Fi$^2$VBlock計算に還元する。 実証的な評価では、Fi$^2$VTSは2つのベンチマークデータセットで他のベースラインを上回っている。 実装コードは \url{https://github.com/HITshenrj/Fi2VTS} で参照できる。

Time series forecasting (TSF) plays a crucial role in various applications, including medical monitoring and crop growth. Despite the advancements in deep learning methods for TSF, their capacity to predict long-term series remains constrained. This limitation arises from the failure to account for both intra- and inter-variable variations meanwhile. To mitigate this challenge, we introduce the Fi$^2$VBlock, which leverages a \textbf{F}requency domain perspective to capture \textbf{i}ntra- and \textbf{i}nter-variable \textbf{V}ariations. After transforming into the frequency domain via the Frequency Transform Module, the Frequency Cross Attention between the real and imaginary parts is designed to obtain enhanced frequency representations and capture intra-variable variations. Furthermore, Inception blocks are employed to integrate information, thus capturing correlations across different variables. Our backbone network, Fi$^2$VTS, employs a residual architecture by concatenating multiple Fi$^2$VBlocks, thereby preventing degradation issues. Theoretically, we demonstrate that Fi$^2$VTS achieves a substantial reduction in both time and memory complexity, decreasing from $\mathcal{O}(L^2)$ to $\mathcal{O}(L)$ per Fi$^2$VBlock computation. Empirical evaluations reveal that Fi$^2$VTS outperforms other baselines on two benchmark datasets. The implementation code is accessible at \url{https://github.com/HITshenrj/Fi2VTS}.
翻訳日:2024-11-08 13:51:33 公開日:2024-11-03
# DNTextSpotter:Denoising Trainingの改良による任意形状のシーンテキストスポッティング

DNTextSpotter: Arbitrary-Shaped Scene Text Spotting via Improved Denoising Training ( http://arxiv.org/abs/2408.00355v2 )

ライセンス: Link先を確認
Yu Xie, Qian Qiao, Jun Gao, Tianxiang Wu, Jiaqing Fan, Yue Zhang, Jielei Zhang, Huyang Sun, (参考訳) Transformerアーキテクチャに基づくエンドツーエンドのテキストスポッティング手法は、より優れたパフォーマンスを示している。 これらの手法は、2部グラフマッチングアルゴリズムを用いて予測対象と実際の対象との1対1の最適マッチングを行う。 しかし、二部グラフマッチングの不安定性は、一貫性のない最適化目標につながる可能性があるため、モデルのトレーニング性能に影響を及ぼす。 既存の文献では、オブジェクト検出タスクにおける二部グラフマッチングの不安定性の問題を解決するために、Denoising Trainingを適用している。 残念ながら、これらのタスクは、分類よりも不規則な形状検出タスクやより複雑なテキスト認識タスクを実行する必要があるため、テキストスポッティングタスクに直接適用することはできない。 そこで本研究では,任意のテキストスポッティングのための新しいDenoising Training Method (DNTextSpotter)を提案する。 具体的には,ノイズのある部分の問合せを,ノイズのある位置の問合せとノイズのある内容問合せに分解する。 我々は、ベジエ中心曲線の4つのベジエ制御点を用いて、ノイズのある位置クエリを生成する。 ノイズコンテンツクエリでは,定位順のテキストの出力がコンテンツとの整合性に寄与しないことを考慮し,ノイズコンテンツクエリを初期化するマスク付き文字スライディング手法を用いて,テキストの内容と位置の整合性を支援する。 DNTextSpotterは概念的にはシンプルだが、4つのベンチマーク(Total-Text, SCUT-CTW1500, ICDAR15, Inverse-Text)で最先端の手法よりも優れており、特にInverse-Textデータセットのベストアプローチに対して11.3%向上している。

More and more end-to-end text spotting methods based on Transformer architecture have demonstrated superior performance. These methods utilize a bipartite graph matching algorithm to perform one-to-one optimal matching between predicted objects and actual objects. However, the instability of bipartite graph matching can lead to inconsistent optimization targets, thereby affecting the training performance of the model. Existing literature applies denoising training to solve the problem of bipartite graph matching instability in object detection tasks. Unfortunately, this denoising training method cannot be directly applied to text spotting tasks, as these tasks need to perform irregular shape detection tasks and more complex text recognition tasks than classification. To address this issue, we propose a novel denoising training method (DNTextSpotter) for arbitrary-shaped text spotting. Specifically, we decompose the queries of the denoising part into noised positional queries and noised content queries. We use the four Bezier control points of the Bezier center curve to generate the noised positional queries. For the noised content queries, considering that the output of the text in a fixed positional order is not conducive to aligning position with content, we employ a masked character sliding method to initialize noised content queries, thereby assisting in the alignment of text content and position. To improve the model's perception of the background, we further utilize an additional loss function for background characters classification in the denoising training part.Although DNTextSpotter is conceptually simple, it outperforms the state-of-the-art methods on four benchmarks (Total-Text, SCUT-CTW1500, ICDAR15, and Inverse-Text), especially yielding an improvement of 11.3% against the best approach in Inverse-Text dataset.
翻訳日:2024-11-08 13:29:21 公開日:2024-11-03
# DNTextSpotter:Denoising Trainingの改良による任意形状のシーンテキストスポッティング

DNTextSpotter: Arbitrary-Shaped Scene Text Spotting via Improved Denoising Training ( http://arxiv.org/abs/2408.00355v3 )

ライセンス: Link先を確認
Yu Xie, Qian Qiao, Jun Gao, Tianxiang Wu, Jiaqing Fan, Yue Zhang, Jielei Zhang, Huyang Sun, (参考訳) Transformerアーキテクチャに基づくエンドツーエンドのテキストスポッティング手法は、より優れたパフォーマンスを示している。 これらの手法は、2部グラフマッチングアルゴリズムを用いて予測対象と実際の対象との1対1の最適マッチングを行う。 しかし、二部グラフマッチングの不安定性は、一貫性のない最適化目標につながる可能性があるため、モデルのトレーニング性能に影響を及ぼす。 既存の文献では、オブジェクト検出タスクにおける二部グラフマッチングの不安定性の問題を解決するために、Denoising Trainingを適用している。 残念ながら、これらのタスクは、分類よりも不規則な形状検出タスクやより複雑なテキスト認識タスクを実行する必要があるため、テキストスポッティングタスクに直接適用することはできない。 そこで本研究では,任意のテキストスポッティングのための新しいDenoising Training Method (DNTextSpotter)を提案する。 具体的には,ノイズのある部分の問合せを,ノイズのある位置の問合せとノイズのある内容問合せに分解する。 我々は、ベジエ中心曲線の4つのベジエ制御点を用いて、ノイズのある位置クエリを生成する。 ノイズコンテンツクエリでは,定位順のテキストの出力がコンテンツとの整合性に寄与しないことを考慮し,ノイズコンテンツクエリを初期化するマスク付き文字スライディング手法を用いて,テキストの内容と位置の整合性を支援する。 DNTextSpotterは概念的にはシンプルだが、4つのベンチマーク(Total-Text, SCUT-CTW1500, ICDAR15, Inverse-Text)で最先端の手法よりも優れており、特にInverse-Textデータセットのベストアプローチに対して11.3%向上している。

More and more end-to-end text spotting methods based on Transformer architecture have demonstrated superior performance. These methods utilize a bipartite graph matching algorithm to perform one-to-one optimal matching between predicted objects and actual objects. However, the instability of bipartite graph matching can lead to inconsistent optimization targets, thereby affecting the training performance of the model. Existing literature applies denoising training to solve the problem of bipartite graph matching instability in object detection tasks. Unfortunately, this denoising training method cannot be directly applied to text spotting tasks, as these tasks need to perform irregular shape detection tasks and more complex text recognition tasks than classification. To address this issue, we propose a novel denoising training method (DNTextSpotter) for arbitrary-shaped text spotting. Specifically, we decompose the queries of the denoising part into noised positional queries and noised content queries. We use the four Bezier control points of the Bezier center curve to generate the noised positional queries. For the noised content queries, considering that the output of the text in a fixed positional order is not conducive to aligning position with content, we employ a masked character sliding method to initialize noised content queries, thereby assisting in the alignment of text content and position. To improve the model's perception of the background, we further utilize an additional loss function for background characters classification in the denoising training part.Although DNTextSpotter is conceptually simple, it outperforms the state-of-the-art methods on four benchmarks (Total-Text, SCUT-CTW1500, ICDAR15, and Inverse-Text), especially yielding an improvement of 11.3% against the best approach in Inverse-Text dataset.
翻訳日:2024-11-08 13:29:21 公開日:2024-11-03
# マルチスケールトランスを用いた高効率かつ高精度肺炎検出

Efficient and Accurate Pneumonia Detection Using a Novel Multi-Scale Transformer Approach ( http://arxiv.org/abs/2408.04290v2 )

ライセンス: Link先を確認
Alireza Saber, Pouria Parhami, Alimohammad Siahkarzadeh, Mansoor Fateh, Amirreza Fateh, (参考訳) 重篤な呼吸器疾患である肺炎は、特に未発達の地域では重大な診断上の課題を引き起こす。 胸部X線などの従来の診断法は、信頼できる自動化ツールを必要とする放射線技師の間で解釈のばらつきに悩まされている。 本研究では,胸部X線からの肺炎検出を促進するために,ディープラーニングとトランスフォーマーに基づく注意機構を組み合わせた新しいアプローチを提案する。 提案手法は,TransUNetモデルを用いて肺の分画から開始する。 このモデルは、"Chest Xray Masks and Labels"データセットに基づいてトレーニングされ、KermanyとCohenデータセットに適用して、肺領域を分離し、その後の分類タスクを強化する。 分類には事前訓練されたResNetモデル(ResNet-50とResNet-101)を用いてマルチスケールの特徴マップを抽出し、修正したトランスフォーマーモジュールを通して処理する。 特殊変圧器を用いることで、一般的な変圧器モデルに比べてパラメータが大幅に少ない優れた結果が得られる。 提案手法は,Kermanyデータセットで92.79%,Cohenデータセットで95.11%の精度を実現し,資源制約環境に適した堅牢で効率的な性能を実現する。 『https://github.com/amirrezafateh/Multi-Scale-Transformer-Pneumonia』

Pneumonia, a severe respiratory disease, poses significant diagnostic challenges, especially in underdeveloped regions. Traditional diagnostic methods, such as chest X-rays, suffer from variability in interpretation among radiologists, necessitating reliable automated tools. In this study, we propose a novel approach combining deep learning and transformer-based attention mechanisms to enhance pneumonia detection from chest X-rays. Our method begins with lung segmentation using a TransUNet model that integrates our specialized transformer module, which has fewer parameters compared to common transformers while maintaining performance. This model is trained on the "Chest Xray Masks and Labels" dataset and then applied to the Kermany and Cohen datasets to isolate lung regions, enhancing subsequent classification tasks. For classification, we employ pre-trained ResNet models (ResNet-50 and ResNet-101) to extract multi-scale feature maps, processed through our modified transformer module. By employing our specialized transformer, we attain superior results with significantly fewer parameters compared to common transformer models. Our approach achieves high accuracy rates of 92.79% on the Kermany dataset and 95.11% on the Cohen dataset, ensuring robust and efficient performance suitable for resource-constrained environments. "https://github.com/amirrezafateh/Multi-Scale-Transformer-Pneumonia"
翻訳日:2024-11-08 12:22:45 公開日:2024-11-03
# HDRGS:高ダイナミックレンジガウス平滑化

HDRGS: High Dynamic Range Gaussian Splatting ( http://arxiv.org/abs/2408.06543v2 )

ライセンス: Link先を確認
Jiahao Wu, Lu Xiao, Chao Wang, Rui Peng, Kaiqiang Xiong, Ronggang Wang, (参考訳) 近年,2次元画像からの3次元再構成の分野では,特にNeRF(Near Raddiance Field)技術の導入により,顕著な進歩が見られた。 しかし,2次元マルチ露光低ダイナミックレンジ(LDR)画像からの3次元高ダイナミックレンジ(HDR)放射界の再構成は大きな課題を呈し続けている。 この問題に対するアプローチは、グリッドベースと暗黙ベースの2つのカテゴリに分類される。 多層パーセプトロン(MLP)を用い、顔の不効率、可溶性の制限、過度に適合するリスクがある。 逆に、グリッドベースの手法は大きなメモリを必要とし、画像の品質と長いトレーニング時間に苦労する。 本稿では,近年の高画質リアルタイム3D再構成技術であるガウススプラッティングについて紹介する。 上記の課題に対処するために, ハイダイナミックレンジガウススティング法(HDR-GS)を更に開発する。 輝度を含むことで色寸法性を高め、トーンマッピングに非対称グリッドを用い、画素光を色に迅速かつ正確に変換する。 提案手法は,HDRシーンの再現精度を向上し,モデル収束の高速化,スパース視点や露出極性に対するロバスト性の向上,局所最適化の防止などの新たな戦略を統合する。 拡張テストにより,本手法は,合成シナリオと実世界のシナリオの両方において,現在の最先端技術を上回ることが確認された。

Recent years have witnessed substantial advancements in the field of 3D reconstruction from 2D images, particularly following the introduction of the neural radiance field (NeRF) technique. However, reconstructing a 3D high dynamic range (HDR) radiance field, which aligns more closely with real-world conditions, from 2D multi-exposure low dynamic range (LDR) images continues to pose significant challenges. Approaches to this issue fall into two categories: grid-based and implicit-based. Implicit methods, using multi-layer perceptrons (MLP), face inefficiencies, limited solvability, and overfitting risks. Conversely, grid-based methods require significant memory and struggle with image quality and long training times. In this paper, we introduce Gaussian Splatting-a recent, high-quality, real-time 3D reconstruction technique-into this domain. We further develop the High Dynamic Range Gaussian Splatting (HDR-GS) method, designed to address the aforementioned challenges. This method enhances color dimensionality by including luminance and uses an asymmetric grid for tone-mapping, swiftly and precisely converting pixel irradiance to color. Our approach improves HDR scene recovery accuracy and integrates a novel coarse-to-fine strategy to speed up model convergence, enhancing robustness against sparse viewpoints and exposure extremes, and preventing local optima. Extensive testing confirms that our method surpasses current state-of-the-art techniques in both synthetic and real-world scenarios.
翻訳日:2024-11-08 11:26:46 公開日:2024-11-03
# HDRGS:高ダイナミックレンジガウス平滑化

HDRGS: High Dynamic Range Gaussian Splatting ( http://arxiv.org/abs/2408.06543v3 )

ライセンス: Link先を確認
Jiahao Wu, Lu Xiao, Rui Peng, Kaiqiang Xiong, Ronggang Wang, (参考訳) 近年,2次元画像からの3次元再構成の分野では,特にNeRF(Near Raddiance Field)技術の導入により,顕著な進歩が見られた。 しかし,2次元マルチ露光低ダイナミックレンジ(LDR)画像からの3次元高ダイナミックレンジ(HDR)放射界の再構成は大きな課題を呈し続けている。 この問題に対するアプローチは、グリッドベースと暗黙ベースの2つのカテゴリに分類される。 多層パーセプトロン(MLP)を用い、顔の不効率、可溶性の制限、過度に適合するリスクがある。 逆に、グリッドベースの手法は大きなメモリを必要とし、画像の品質と長いトレーニング時間に苦労する。 本稿では,近年の高画質リアルタイム3D再構成技術であるガウススプラッティングについて紹介する。 上記の課題に対処するために, ハイダイナミックレンジガウススティング法(HDR-GS)を更に開発する。 輝度を含むことで色寸法性を高め、トーンマッピングに非対称グリッドを用い、画素光を色に迅速かつ正確に変換する。 提案手法は,HDRシーンの再現精度を向上し,モデル収束の高速化,スパース視点や露出極性に対するロバスト性の向上,局所最適化の防止などの新たな戦略を統合する。 拡張テストにより,本手法は,合成シナリオと実世界のシナリオの両方において,現在の最先端技術を上回ることが確認された。

Recent years have witnessed substantial advancements in the field of 3D reconstruction from 2D images, particularly following the introduction of the neural radiance field (NeRF) technique. However, reconstructing a 3D high dynamic range (HDR) radiance field, which aligns more closely with real-world conditions, from 2D multi-exposure low dynamic range (LDR) images continues to pose significant challenges. Approaches to this issue fall into two categories: grid-based and implicit-based. Implicit methods, using multi-layer perceptrons (MLP), face inefficiencies, limited solvability, and overfitting risks. Conversely, grid-based methods require significant memory and struggle with image quality and long training times. In this paper, we introduce Gaussian Splatting-a recent, high-quality, real-time 3D reconstruction technique-into this domain. We further develop the High Dynamic Range Gaussian Splatting (HDR-GS) method, designed to address the aforementioned challenges. This method enhances color dimensionality by including luminance and uses an asymmetric grid for tone-mapping, swiftly and precisely converting pixel irradiance to color. Our approach improves HDR scene recovery accuracy and integrates a novel coarse-to-fine strategy to speed up model convergence, enhancing robustness against sparse viewpoints and exposure extremes, and preventing local optima. Extensive testing confirms that our method surpasses current state-of-the-art techniques in both synthetic and real-world scenarios.
翻訳日:2024-11-08 11:26:46 公開日:2024-11-03
# MVInpainter:2Dと3D編集を橋渡しするマルチビュー・コンシステント・インペインティングを学習する

MVInpainter: Learning Multi-View Consistent Inpainting to Bridge 2D and 3D Editing ( http://arxiv.org/abs/2408.08000v2 )

ライセンス: Link先を確認
Chenjie Cao, Chaohui Yu, Fan Wang, Xiangyang Xue, Yanwei Fu, (参考訳) 新規ビュー合成(NVS)と3D生成は、最近顕著に改善されている。 しかし、これらは主に、限定されたカテゴリや合成3Dアセットに焦点が当てられている。 さらに、これらの手法はカメラのポーズに大きく依存し、実際の応用を制限する。 これらの課題を克服するため,MVInpainterを提案し,マルチビュー2Dインペインティングタスクとして3D編集を再構成する。 具体的には、MVInpainterは、スクラッチから完全に新しいビューを生成するのではなく、参照ガイダンスで複数のビューイメージを部分的に描き込む。 クロスビューの整合性を確保するため、MVInpainterは、モーションコンポーネントからの動画先行と、連結された参照キー/バリューアテンションからの外観ガイダンスによって強化される。 さらに、MVInpainterはスロットアテンションを取り入れて、未成熟領域からの高レベル光フローの特徴を集約し、ポーズなしのトレーニングと推論でカメラの動きを制御する。 オブジェクト中心と前方の両方のデータセットに対する十分なシーンレベルの実験は、多視点オブジェクト除去、合成、挿入、置換といった様々なタスクを含むMVInpainterの有効性を検証する。 プロジェクトページはhttps://ewrfcas.github.io/MVInpainter/。

Novel View Synthesis (NVS) and 3D generation have recently achieved prominent improvements. However, these works mainly focus on confined categories or synthetic 3D assets, which are discouraged from generalizing to challenging in-the-wild scenes and fail to be employed with 2D synthesis directly. Moreover, these methods heavily depended on camera poses, limiting their real-world applications. To overcome these issues, we propose MVInpainter, re-formulating the 3D editing as a multi-view 2D inpainting task. Specifically, MVInpainter partially inpaints multi-view images with the reference guidance rather than intractably generating an entirely novel view from scratch, which largely simplifies the difficulty of in-the-wild NVS and leverages unmasked clues instead of explicit pose conditions. To ensure cross-view consistency, MVInpainter is enhanced by video priors from motion components and appearance guidance from concatenated reference key&value attention. Furthermore, MVInpainter incorporates slot attention to aggregate high-level optical flow features from unmasked regions to control the camera movement with pose-free training and inference. Sufficient scene-level experiments on both object-centric and forward-facing datasets verify the effectiveness of MVInpainter, including diverse tasks, such as multi-view object removal, synthesis, insertion, and replacement. The project page is https://ewrfcas.github.io/MVInpainter/.
翻訳日:2024-11-08 07:40:14 公開日:2024-11-03
# 一般化スムースネス下でのグラディエント変分オンライン学習

Gradient-Variation Online Learning under Generalized Smoothness ( http://arxiv.org/abs/2408.09074v2 )

ライセンス: Link先を確認
Yan-Feng Xie, Peng Zhao, Zhi-Hua Zhou, (参考訳) グラディエント変分オンライン学習は、ゲームにおける迅速な収束と確率的最適化の堅牢性の達成に不可欠であることが示されているオンライン関数の勾配の変化に伴う後悔の保証を達成することを目的としている。 既存の結果はしばしば、実際には非現実的であるような勾配リプシッツ性に固定境界を課すことによって滑らかさ条件を必要とする。 ニューラルネットワーク最適化における最近の取り組みは、一般化された滑らかさ条件を示唆し、滑らかさは勾配ノルムと相関する。 本稿では,一般化された滑らかさの下での勾配偏差オンライン学習を体系的に研究する。 最適化軌道上の安定性を解析し、局所的に滑らかさを活用することにより、古典的な楽観的なミラー降下アルゴリズムを勾配偏差後悔の導出に拡張する。 そこで我々は,曲線の事前知識を必要とせず,凸関数と強凸関数を同時に用いた1つのアルゴリズムを設計し,普遍的なオンライン学習を探求する。 このアルゴリズムは、ベースラーナーのグループ上で動作するメタアルゴリズムを備えた2層構造を採用する。 そこで我々は,Lipschitz適応メタアルゴリズムを設計し,ベースラーナーを効果的にアンサンブルするための2次バウンドを確保しつつ,潜在的に非有界な勾配を扱えるようにした。 最後に、ゲームにおける高速収束と確率的拡張逆最適化の応用について述べる。

Gradient-variation online learning aims to achieve regret guarantees that scale with variations in the gradients of online functions, which has been shown to be crucial for attaining fast convergence in games and robustness in stochastic optimization, hence receiving increased attention. Existing results often require the smoothness condition by imposing a fixed bound on gradient Lipschitzness, which may be unrealistic in practice. Recent efforts in neural network optimization suggest a generalized smoothness condition, allowing smoothness to correlate with gradient norms. In this paper, we systematically study gradient-variation online learning under generalized smoothness. We extend the classic optimistic mirror descent algorithm to derive gradient-variation regret by analyzing stability over the optimization trajectory and exploiting smoothness locally. Then, we explore universal online learning, designing a single algorithm with the optimal gradient-variation regrets for convex and strongly convex functions simultaneously, without requiring prior knowledge of curvature. This algorithm adopts a two-layer structure with a meta-algorithm running over a group of base-learners. To ensure favorable guarantees, we design a new Lipschitz-adaptive meta-algorithm, capable of handling potentially unbounded gradients while ensuring a second-order bound to effectively ensemble the base-learners. Finally, we provide the applications for fast-rate convergence in games and stochastic extended adversarial optimization.
翻訳日:2024-11-08 07:07:05 公開日:2024-11-03
# 比較ベース勾配推定を用いた逐次資源トレーディング

Sequential Resource Trading Using Comparison-Based Gradient Estimation ( http://arxiv.org/abs/2408.11186v2 )

ライセンス: Link先を確認
Surya Murthy, Mustafa O. Karabag, Ufuk Topcu, (参考訳) 自律エージェントは、環境内のリソースを共有するために、未知の好みの他のエージェントと対話する。 資源割り当てのシーケンシャルなトレーディングを、2つの合理的なエージェントが有限のカテゴリから逐次的にリソースを交換する環境で検討する。 各エージェントは、各カテゴリに保持するリソースの量に依存するユーティリティ関数を持つ。 提供エージェントは、応答エージェントのユーティリティ機能を知ることなく、そのユーティリティを改善するための取引オファーを行い、応答エージェントは、そのユーティリティを改善するオファーのみを受け入れる。 本稿では,提案エージェントが応答エージェントの勾配(参照)を推定し,事前の受け入れや拒絶の応答に基づいて提案を行うアルゴリズムを提案する。 アルゴリズムの目標は、パレート最適リソース割り当て状態に到達し、両方のエージェントのユーティリティが受け入れられた取引のたびに改善されることを保証することである。 有限個の提案が連続的に拒否された後、応答剤は最適に近い状態にあるか、エージェントの勾配が密に一致していることを示す。 提案アルゴリズムは, 連続的および離散的な取引シナリオにおいて, 様々なベースラインに対して比較し, より少ないオファーで社会的利益を向上させることを示す。

Autonomous agents interact with other agents of unknown preferences to share resources in their environment. We explore sequential trading for resource allocation in a setting where two greedily rational agents sequentially trade resources from a finite set of categories. Each agent has a utility function that depends on the amount of resources it possesses in each category. The offering agent makes trade offers to improve its utility without knowing the responding agent's utility function, and the responding agent only accepts offers that improve its utility. We present an algorithm for the offering agent to estimate the responding agent's gradient (preferences) and make offers based on previous acceptance or rejection responses. The algorithm's goal is to reach a Pareto-optimal resource allocation state while ensuring that the utilities of both agents improve after every accepted trade. We show that, after a finite number of consecutively rejected offers, the responding agent is at a near-optimal state, or the agents' gradients are closely aligned. We compare the proposed algorithm against various baselines in continuous and discrete trading scenarios and show that it improves the societal benefit with fewer offers.
翻訳日:2024-11-08 06:22:37 公開日:2024-11-03
# READoc: リアルなドキュメント構造化抽出のための統一ベンチマーク

READoc: A Unified Benchmark for Realistic Document Structured Extraction ( http://arxiv.org/abs/2409.05137v2 )

ライセンス: Link先を確認
Zichao Li, Aizier Abulaiti, Yaojie Lu, Xuanang Chen, Jia Zheng, Hongyu Lin, Xianpei Han, Le Sun, (参考訳) 文書構造化抽出(DSE)は、生文書から構造化コンテンツを抽出することを目的としている。 多くのDSEシステムの出現にもかかわらず、それらの統合された評価は依然として不十分であり、この分野の進歩を著しく妨げている。 この問題は、断片化と局所化の特性を示す既存のベンチマークパラダイムに大きく起因している。 これらの制約に対処し、DSEシステムの徹底的な評価を行うために、DSEを非構造化PDFを意味的にリッチなMarkdownに変換する現実的なタスクとして定義するREADocという新しいベンチマークを導入する。 READocデータセットは、arXivとGitHubの2,233の多種多様な実世界のドキュメントから派生したものだ。 さらに, 標準化, セグメンテーション, Scoringモジュールを含むDSE評価S$^3$uiteを開発し, 最先端DSE手法の統一評価を行う。 パイプラインツールや専門的なビジュアルモデル,一般的なVLMなどを評価することで,現在の作業と統合された現実的なDSE目標とのギャップを初めて認識する。 私たちは、READocがDSEにおける将来の研究を触媒し、より包括的で実用的なソリューションを育むことを期待しています。

Document Structured Extraction (DSE) aims to extract structured content from raw documents. Despite the emergence of numerous DSE systems, their unified evaluation remains inadequate, significantly hindering the field's advancement. This problem is largely attributed to existing benchmark paradigms, which exhibit fragmented and localized characteristics. To address these limitations and offer a thorough evaluation of DSE systems, we introduce a novel benchmark named READoc, which defines DSE as a realistic task of converting unstructured PDFs into semantically rich Markdown. The READoc dataset is derived from 2,233 diverse and real-world documents from arXiv and GitHub. In addition, we develop a DSE Evaluation S$^3$uite comprising Standardization, Segmentation and Scoring modules, to conduct a unified evaluation of state-of-the-art DSE approaches. By evaluating a range of pipeline tools, expert visual models, and general VLMs, we identify the gap between current work and the unified, realistic DSE objective for the first time. We aspire that READoc will catalyze future research in DSE, fostering more comprehensive and practical solutions.
翻訳日:2024-11-07 22:38:45 公開日:2024-11-03
# グラフニューラルネットワークによる多結晶塑性の応力予測

Stress Predictions in Polycrystal Plasticity using Graph Neural Networks with Subgraph Training ( http://arxiv.org/abs/2409.05169v2 )

ライセンス: Link先を確認
Hanfeng Zhai, (参考訳) 金属の多結晶塑性は非線形挙動とひずみ硬化により特徴づけられ、数値モデルが計算集約化される。 有限要素法(FEM)シミュレーションの複雑なジオメトリを用いて多結晶塑性を代理するグラフニューラルネットワーク(GNN)を用いる。 本稿では,FEMメッシュセル間の結節ひずみと縁距離を符号化し,それらを集約して埋め込みを得る新しいメッセージパスGNNを提案し,そのデコード埋め込みと結節ひずみを結合してグラフノード上の応力テンソルを予測する。 FEMメッシュグラフから生成されたサブグラフに基づいてGNNをトレーニングし、メッシュセルをノードに変換し、隣接するセル間でエッジを生成する。 GNNは80%のグラフでトレーニングされ、残りのグラフ(合計90グラフ)でテストされる。 トレーニングされたGNNを周期性多結晶体に適用し,結晶塑性理論に基づく応力-ひずみマップを学習する。 GNNはFEMグラフに基づいて正確にトレーニングされ、トレーニングセットとテストセットの両方に対して$R^2$は0.993である。 提案したGNN可塑性構成モデルは,ランダムに選択された試験多結晶上でのベンチマークFEM法と比較して150倍以上の速度を向上する。 また、トレーニングされたGNNを30個の未確認FEMシミュレーションに適用し、総合的なR^2$ 0.992でGNNを一般化する。 ポリ結晶中のvon Mises応力分布の解析は、GNNモデルが低誤差で正確に応力分布を学習していることを示している。 トレーニング、テスト、不明なデータセット間のエラー分布を比較することで、提案したモデルが過度に適合せず、トレーニングデータを超えて一般化されていることを推測する。 本研究は, 計算集約型結晶塑性シミュレーションをグラフデータを用いて概観する。

Polycrystal plasticity in metals is characterized by nonlinear behavior and strain hardening, making numerical models computationally intensive. We employ Graph Neural Networks (GNN) to surrogate polycrystal plasticity with complex geometries from Finite Element Method (FEM) simulations. We present a novel message-passing GNN that encodes nodal strain and edge distances between FEM mesh cells, aggregates them to obtain embeddings, and combines the decoded embeddings with the nodal strains to predict stress tensors on graph nodes. We demonstrate training GNN based on subgraphs generated from FEM mesh-graphs, in which the mesh cells are converted to nodes and edges are created between adjacent cells. The GNN is trained on 80\% of the graphs and tested on the rest (90 graphs in total). We apply the trained GNN to periodic polycrystals and learn the stress-strain maps based on crystal plasticity theory. The GNN is accurately trained based on FEM graphs, in which the $R^2$ for both training and testing sets are 0.993. The proposed GNN plasticity constitutive model speeds up more than 150 times compared with the benchmark FEM method on randomly selected test polycrystals. We also apply the trained GNN to 30 unseen FEM simulations and the GNN generalizes well with an overall $R^2$ of 0.992. Analysis of the von Mises stress distributions in polycrystals shows that the GNN model accurately learns the stress distribution with low error. By comparing the error distribution across training, testing, and unseen datasets, one deduces that the proposed model does not overfit and generalizes well beyond the training data. This work outlooks surrogating computationally intensive crystal plasticity simulations using graph data.
翻訳日:2024-11-07 22:38:45 公開日:2024-11-03
# 分割可能な構成性能学習

Dividable Configuration Performance Learning ( http://arxiv.org/abs/2409.07629v2 )

ライセンス: Link先を確認
Jingzhi Gong, Tao Chen, Rami Bahsoon, (参考訳) マシン/ディープ学習モデルは、ソフトウェアシステムの構成性能を予測するために広く採用されている。 しかしながら、重要な課題は、設定の選択肢(機能)とデータサンプルの分布の影響が極めて少ない、構成の状況から受け継がれた疎結合をいかに避けるかである。 本稿では,「分割学習」によるモデル構築の新たなパラダイムに基づく,DALと呼ばれる構成性能予測のためのモデル非依存・スポーシティ・ロバストなフレームワークを提案する。 サンプルの分散性を扱うために,構成ランドスケープから抽出したサンプルを分割して,疎局所モデル(例えば,正規化階層型相互作用ニューラルネットワーク)を構築し,特徴の分散性に対処する。 新たに与えられた構成は、最終的な予測のために正しい分割モデルに割り当てられる。 さらに、DaLは、追加のトレーニングやプロファイリングなしで、システムに必要な分割数とサンプルサイズを適応的に決定する。 12の現実世界システムと5つのトレーニングデータによる実験結果から、DaLは最先端のアプローチと比較して、精度が最大1.61倍改善された60のケースのうち44のケースにおいて、最高のシステムよりも劣悪であることがわかった。 特に、パラメータdを適応させるメカニズムは、個々のランの76.43%の最適値に達することができる。 また, 可分学習のパラダイムは, 構成性能を予測するためのアンサンブル学習などの類似のパラダイムよりも適していることを確認した。 実際にDaLは、基礎となるローカルモデルとして使用する場合、さまざまなグローバルモデルを大幅に改善し、柔軟性をさらに強化します。

Machine/deep learning models have been widely adopted for predicting the configuration performance of software systems. However, a crucial yet unaddressed challenge is how to cater for the sparsity inherited from the configuration landscape: the influence of configuration options (features) and the distribution of data samples are highly sparse. In this paper, we propose a model-agnostic and sparsity-robust framework for predicting configuration performance, dubbed DaL, based on the new paradigm of dividable learning that builds a model via "divide-and-learn". To handle sample sparsity, the samples from the configuration landscape are divided into distant divisions, for each of which we build a sparse local model, e.g., regularized Hierarchical Interaction Neural Network, to deal with the feature sparsity. A newly given configuration would then be assigned to the right model of division for the final prediction. Further, DaL adaptively determines the optimal number of divisions required for a system and sample size without any extra training or profiling. Experiment results from 12 real-world systems and five sets of training data reveal that, compared with the state-of-the-art approaches, DaL performs no worse than the best counterpart on 44 out of 60 cases with up to 1.61x improvement on accuracy; requires fewer samples to reach the same/better accuracy; and producing acceptable training overhead. In particular, the mechanism that adapted the parameter d can reach the optimal value for 76.43% of the individual runs. The result also confirms that the paradigm of dividable learning is more suitable than other similar paradigms such as ensemble learning for predicting configuration performance. Practically, DaL considerably improves different global models when using them as the underlying local models, which further strengthens its flexibility.
翻訳日:2024-11-07 21:42:46 公開日:2024-11-03
# 高周波アンチDreamBooth:パーソナライズされた画像合成に対するロバスト防御

High-Frequency Anti-DreamBooth: Robust Defense against Personalized Image Synthesis ( http://arxiv.org/abs/2409.08167v2 )

ライセンス: Link先を確認
Takuto Onikubo, Yusuke Matsui, (参考訳) 近年、テキスト・ツー・イメージ生成モデルが誤用されて、個人が無許可で悪意ある画像を作成するようになり、社会的な問題が高まっている。 アンチDreamBoothのような以前のソリューションは、悪意のある世代のためのトレーニングデータとして使用されるのを防ぐために、画像に敵対的なノイズを追加する。 しかし, DiffPure などの逆流浄化法により, 逆流音を除去できることが判明した。 そこで本稿では, 画像の高周波領域に強い摂動を付加し, 対人浄化をより堅牢にする新たな対人攻撃法を提案する。 実験の結果, 敵画像は, 敵画像の浄化後もノイズを保ち, 悪意のある画像生成を妨げていることがわかった。

Recently, text-to-image generative models have been misused to create unauthorized malicious images of individuals, posing a growing social problem. Previous solutions, such as Anti-DreamBooth, add adversarial noise to images to protect them from being used as training data for malicious generation. However, we found that the adversarial noise can be removed by adversarial purification methods such as DiffPure. Therefore, we propose a new adversarial attack method that adds strong perturbation on the high-frequency areas of images to make it more robust to adversarial purification. Our experiment showed that the adversarial images retained noise even after adversarial purification, hindering malicious image generation.
翻訳日:2024-11-07 21:20:36 公開日:2024-11-03
# 高周波アンチDreamBooth:パーソナライズされた画像合成に対するロバスト防御

High-Frequency Anti-DreamBooth: Robust Defense against Personalized Image Synthesis ( http://arxiv.org/abs/2409.08167v3 )

ライセンス: Link先を確認
Takuto Onikubo, Yusuke Matsui, (参考訳) 近年、テキスト・ツー・イメージ生成モデルが誤用されて、個人が無許可で悪意ある画像を作成するようになり、社会的な問題が高まっている。 アンチDreamBoothのような以前のソリューションは、悪意のある世代のためのトレーニングデータとして使用されるのを防ぐために、画像に敵対的なノイズを追加する。 しかし, DiffPure などの逆流浄化法により, 逆流音を除去できることが判明した。 そこで本稿では, 画像の高周波領域に強い摂動を付加し, 対人浄化をより堅牢にする新たな対人攻撃法を提案する。 実験の結果, 敵画像は, 敵画像の浄化後もノイズを保ち, 悪意のある画像生成を妨げていることがわかった。

Recently, text-to-image generative models have been misused to create unauthorized malicious images of individuals, posing a growing social problem. Previous solutions, such as Anti-DreamBooth, add adversarial noise to images to protect them from being used as training data for malicious generation. However, we found that the adversarial noise can be removed by adversarial purification methods such as DiffPure. Therefore, we propose a new adversarial attack method that adds strong perturbation on the high-frequency areas of images to make it more robust to adversarial purification. Our experiment showed that the adversarial images retained noise even after adversarial purification, hindering malicious image generation.
翻訳日:2024-11-07 21:20:36 公開日:2024-11-03
# 言語・音声・視覚課題に対する人間のフィードバックによる嗜好調整:調査

Preference Tuning with Human Feedback on Language, Speech, and Vision Tasks: A Survey ( http://arxiv.org/abs/2409.11564v2 )

ライセンス: Link先を確認
Genta Indra Winata, Hanyang Zhao, Anirban Das, Wenpin Tang, David D. Yao, Shi-Xiong Zhang, Sambit Sahu, (参考訳) 優先度調整は、深層生成モデルと人間の嗜好を整合させる重要なプロセスである。 この調査は、最近の嗜好調整の進歩と人間のフィードバックの統合を概観するものである。 論文は3つの主要なセクションに分けられる。 1)導入と前提:強化学習フレームワーク,嗜好調整タスク,モデル,さまざまなモダリティ – 言語,スピーチ,ビジョン – および異なる政策アプローチ – に対するデータセットの導入。 2)各選好調律手法の深層探査--選好調律における方法の詳細な分析と, 3)適用,議論,今後の方向性:下流タスクにおける選好調整の適用を探究する。 我々の目的は、好み調整とモデルアライメントにおける最新の方法論を提示し、研究者や実践者にとってこの分野の理解を深めることである。 この領域では、さらなるエンゲージメントとイノベーションを奨励したいと考えています。

Preference tuning is a crucial process for aligning deep generative models with human preferences. This survey offers a thorough overview of recent advancements in preference tuning and the integration of human feedback. The paper is organized into three main sections: 1) introduction and preliminaries: an introduction to reinforcement learning frameworks, preference tuning tasks, models, and datasets across various modalities: language, speech, and vision, as well as different policy approaches, 2) in-depth exploration of each preference tuning approach: a detailed analysis of the methods used in preference tuning, and 3) applications, discussion, and future directions: an exploration of the applications of preference tuning in downstream tasks, including evaluation methods for different modalities, and an outlook on future research directions. Our objective is to present the latest methodologies in preference tuning and model alignment, enhancing the understanding of this field for researchers and practitioners. We hope to encourage further engagement and innovation in this area.
翻訳日:2024-11-07 20:01:55 公開日:2024-11-03
# 繰り返しリファインメントのためのループ残留ニューラルネットワーク

Loop-Residual Neural Networks for Iterative Refinement ( http://arxiv.org/abs/2409.14199v1 )

ライセンス: Link先を確認
Kei-Sing Ng, Qingchen Wang, (参考訳) GPTのような大規模言語モデルの成功は、シーケンス内の次のトークンを効率的に予測できる能力に起因する。 しかしながら、これらのモデルは予測するトークンの複雑さに関わらず、一定の計算努力に依存しており、反復的精錬の能力は欠如している。 本稿では,モデルサイズを増大させることなく,より長い計算時間を活用することにより,より優れた性能を実現する新しいループ残差ニューラルネットワークを提案する。 提案手法では,残差接続を持つモデルのサブセットを反復的にループすることで,入力を複数回再検討する。 本稿では,GPT-2とLoop-Residualモデルを比較し,同様のパラメータ数を維持しつつ,言語モデリングタスクの性能向上を示す実験により,本手法の有効性を実証する。 重要なのは、これらの改善は、追加のトレーニングデータを必要としないことだ。

The success of large-scale language models like GPT can be attributed to their ability to efficiently predict the next token in a sequence. However, these models rely on constant computational effort regardless of the complexity of the token they are predicting, lacking the capacity for iterative refinement. In this paper, we introduce a novel Loop-Residual Neural Network, which achieves better performance by utilizing longer computational time without increasing the model size. Our approach revisits the input multiple times, refining the prediction by iteratively looping over a subset of the model with residual connections. We demonstrate the effectiveness of this method through experiments comparing versions of GPT-2 with our Loop-Residual models, showing improved performance in language modeling tasks while maintaining similar parameter counts. Importantly, these improvements are achieved without the need for extra training data.
翻訳日:2024-11-06 23:48:25 公開日:2024-11-03
# 繰り返しリファインメントのためのループ残留ニューラルネットワーク

Loop-Residual Neural Networks for Iterative Refinement ( http://arxiv.org/abs/2409.14199v2 )

ライセンス: Link先を確認
Kei-Sing Ng, Qingchen Wang, (参考訳) GPTのような大規模言語モデルの成功は、シーケンス内の次のトークンを効率的に予測できる能力に起因する。 しかしながら、これらのモデルは予測するトークンの複雑さに関わらず、一定の計算努力に依存しており、反復的精錬の能力は欠如している。 本稿では,モデルサイズを増大させることなく,より長い計算時間を活用することにより,より優れた性能を実現する新しいループ残差ニューラルネットワークを提案する。 提案手法では,残差接続を持つモデルのサブセットを反復的にループすることで,入力を複数回再検討する。 本稿では,GPT-2とLoop-Residualモデルを比較し,同様のパラメータ数を維持しつつ,言語モデリングタスクの性能向上を示す実験により,本手法の有効性を実証する。 重要なのは、これらの改善は、追加のトレーニングデータを必要としないことだ。

The success of large-scale language models like GPT can be attributed to their ability to efficiently predict the next token in a sequence. However, these models rely on constant computational effort regardless of the complexity of the token they are predicting, lacking the capacity for iterative refinement. In this paper, we introduce a novel Loop-Residual Neural Network, which achieves better performance by utilizing longer computational time without increasing the model size. Our approach revisits the input multiple times, refining the prediction by iteratively looping over a subset of the model with residual connections. We demonstrate the effectiveness of this method through experiments comparing versions of GPT-2 with our Loop-Residual models, showing improved performance in language modeling tasks while maintaining similar parameter counts. Importantly, these improvements are achieved without the need for extra training data.
翻訳日:2024-11-06 23:48:25 公開日:2024-11-03
# MapEx:グローバルマップ予測から確率的情報を得た屋内構造探査

MapEx: Indoor Structure Exploration with Probabilistic Information Gain from Global Map Predictions ( http://arxiv.org/abs/2409.15590v2 )

ライセンス: Link先を確認
Cherie Ho, Seungchan Kim, Brady Moon, Aditya Parandekar, Narek Harutyunyan, Chen Wang, Katia Sycara, Graeme Best, Sebastian Scherer, (参考訳) 探査は、未知の環境を理解することを中心に、ロボット工学における重要な課題である。 本研究は、しばしば予測可能で繰り返しパターンから構成される、構造化された屋内環境を探索するロボットに焦点を当てる。 従来のフロンティアアプローチのような既存のアプローチは予測可能性の活用が困難であり、「最も近い」のような単純なヒューリスティックな手法で探索する。 近年の研究では、深層学習技術を用いて地図の未知領域を予測し、これらの予測を情報ゲイン計算に利用している。 しかし、これらのアプローチは予測されたマップの品質に敏感な場合が多い。 これらの問題を克服するために、我々の重要な洞察は、ロボットが観察できるものとその不確実性について共同で推論し、確率的情報ゲインを計算することである。 本研究では,予測地図を用いて情報ゲイン推定のための確率的センサモデルを構築する新しい探索フレームワークであるMapExを紹介する。 MapExは、観測された情報に基づいて複数の予測マップを生成し、予測マップの計算された分散と推定可視領域の両方を考慮して、与えられた視点の情報ゲインを推定する。 実世界のKTHデータセットの実験では、代表的な地図予測に基づく探索よりも平均12.4%改善し、最寄りのフロンティアアプローチよりも25.4%改善した。

Exploration is a critical challenge in robotics, centered on understanding unknown environments. In this work, we focus on robots exploring structured indoor environments which are often predictable and composed of repeating patterns. Most existing approaches, such as conventional frontier approaches, have difficulty leveraging the predictability and explore with simple heuristics such as `closest first'. Recent works use deep learning techniques to predict unknown regions of the map, using these predictions for information gain calculation. However, these approaches are often sensitive to the predicted map quality or do not reason over sensor coverage. To overcome these issues, our key insight is to jointly reason over what the robot can observe and its uncertainty to calculate probabilistic information gain. We introduce MapEx, a new exploration framework that uses predicted maps to form probabilistic sensor model for information gain estimation. MapEx generates multiple predicted maps based on observed information, and takes into consideration both the computed variances of predicted maps and estimated visible area to estimate the information gain of a given viewpoint. Experiments on the real-world KTH dataset showed on average 12.4% improvement than representative map-prediction based exploration and 25.4% improvement than nearest frontier approach.
翻訳日:2024-11-06 19:32:29 公開日:2024-11-03
# DualAD: 自律運転における推論のための2層計画

DualAD: Dual-Layer Planning for Reasoning in Autonomous Driving ( http://arxiv.org/abs/2409.18053v2 )

ライセンス: Link先を確認
Dingrui Wang, Marc Kaufeld, Johannes Betz, (参考訳) 運転中の人間の推論を模倣する新しい自動運転フレームワークであるDualADを提案する。 DualADは2つのレイヤで構成されている。下層にあるルールベースのモーションプランナは最小の推論を必要とするルーチン駆動タスクを処理し、上層はルールベースのテキストエンコーダで、運転シナリオを絶対状態からテキスト記述に変換する。 このテキストは大きな言語モデル(LLM)によって処理され、駆動決定を行う。 上層は潜在的な危険が検出されたときに下層の決定に介入し、臨界時の人間の推論を模倣する。 クローズドループ実験は、ゼロショット事前訓練モデルを用いたデュアラドが、推論能力に欠けるルールベースのモーションプランナーを著しく上回っていることを示した。 また,本実験では,テキストエンコーダの有効性を強調し,モデルのシナリオ理解を大幅に強化する。 さらに、統合されたDualADモデルは強力なLLMで改善され、フレームワークのさらなる拡張の可能性を示している。 コードとベンチマークはgithub.com/TUM-AVS/DualADで入手できる。

We present a novel autonomous driving framework, DualAD, designed to imitate human reasoning during driving. DualAD comprises two layers: a rule-based motion planner at the bottom layer that handles routine driving tasks requiring minimal reasoning, and an upper layer featuring a rule-based text encoder that converts driving scenarios from absolute states into text description. This text is then processed by a large language model (LLM) to make driving decisions. The upper layer intervenes in the bottom layer's decisions when potential danger is detected, mimicking human reasoning in critical situations. Closed-loop experiments demonstrate that DualAD, using a zero-shot pre-trained model, significantly outperforms rule-based motion planners that lack reasoning abilities. Our experiments also highlight the effectiveness of the text encoder, which considerably enhances the model's scenario understanding. Additionally, the integrated DualAD model improves with stronger LLMs, indicating the framework's potential for further enhancement. Code and benchmarks are available at github.com/TUM-AVS/DualAD.
翻訳日:2024-11-06 15:51:02 公開日:2024-11-03
# DuoGNN: ホモフィリーとヘテロフィリーの相互作用を分離したトポロジ対応グラフニューラルネットワーク

DuoGNN: Topology-aware Graph Neural Network with Homophily and Heterophily Interaction-Decoupling ( http://arxiv.org/abs/2409.19616v1 )

ライセンス: Link先を確認
K. Mancini, I. Rekik, (参考訳) グラフニューラルネットワーク(GNN)は、自動疾患診断など、様々な医療画像の応用に有効であることが証明されている。 しかし、これらのモデルを特徴付けるメッセージパッシングにおける局所的な近傍の集約パラダイムにより、それらは本質的に2つの基本的な制限を被っている: 1つは、異種ノードの集約(オーバー・スムーシングとして知られる)による識別不能なノードの埋め込み、もう1つは、グラフのボトルネック(オーバー・スキャッシングとして知られる)による集約による障害のあるメッセージパッシングである。 これらの課題は、モデル表現性を妨げ、グラフ内の長距離ノードの依存関係をキャプチャするために、より深いモデルを使用するのを防ぐ。 文学における一般的な解は、高時間複雑さのために大きなグラフを処理するには高すぎるか、あるいは全てのグラフトポロジーを一般化しない。 これらの制約に対処するため、我々は、トポロジーを利用したスケーラブルで一般化可能なアーキテクチャであるDuoGNNを提案し、ホモフィリックエッジとヘテロフィリックエッジを分離し、短距離と長距離の両方の相互作用をキャプチャする。 私たちの3つのコアコントリビューションを紹介します (i) ホモ親和性相互作用を抽出し、任意のグラフトポロジに対してモデルをうまく一般化するトポロジ的エッジフィルタリングアルゴリズム。 (II)ヘテロ親和性相互作用を抽出しスケーラビリティを確保するヘテロ親和性グラフ凝縮技術 3) メッセージパッシング時の過度な平滑化および過度なスキャッシングを防止する二重ホモ親和性とヘテロ親和性アグリゲーションパイプライン。 医用および非医療用ノード分類データセットをベンチマークし、そのバリエーションと比較し、全てのタスクで一貫した改善を示す。 私たちのDuoGNNコードはhttps://github.com/basiralab/DuoGNN.comで公開されています。

Graph Neural Networks (GNNs) have proven effective in various medical imaging applications, such as automated disease diagnosis. However, due to the local neighborhood aggregation paradigm in message passing which characterizes these models, they inherently suffer from two fundamental limitations: first, indistinguishable node embeddings due to heterophilic node aggregation (known as over-smoothing), and second, impaired message passing due to aggregation through graph bottlenecks (known as over-squashing). These challenges hinder the model expressiveness and prevent us from using deeper models to capture long-range node dependencies within the graph. Popular solutions in the literature are either too expensive to process large graphs due to high time complexity or do not generalize across all graph topologies. To address these limitations, we propose DuoGNN, a scalable and generalizable architecture which leverages topology to decouple homophilic and heterophilic edges and capture both short-range and long-range interactions. Our three core contributions introduce (i) a topological edge-filtering algorithm which extracts homophilic interactions and enables the model to generalize well for any graph topology, (ii) a heterophilic graph condensation technique which extracts heterophilic interactions and ensures scalability, and (iii) a dual homophilic and heterophilic aggregation pipeline which prevents over-smoothing and over-squashing during the message passing. We benchmark our model on medical and non-medical node classification datasets and compare it with its variants, showing consistent improvements across all tasks. Our DuoGNN code is available at https://github.com/basiralab/DuoGNN.
翻訳日:2024-11-05 22:09:00 公開日:2024-11-03
# DuoGNN: ホモフィリーとヘテロフィリーの相互作用を分離したトポロジ対応グラフニューラルネットワーク

DuoGNN: Topology-aware Graph Neural Network with Homophily and Heterophily Interaction-Decoupling ( http://arxiv.org/abs/2409.19616v2 )

ライセンス: Link先を確認
K. Mancini, I. Rekik, (参考訳) グラフニューラルネットワーク(GNN)は、自動疾患診断など、様々な医療画像の応用に有効であることが証明されている。 しかし、これらのモデルを特徴付けるメッセージパッシングにおける局所的な近傍の集約パラダイムにより、それらは本質的に2つの基本的な制限を被っている: 1つは、異種ノードの集約(オーバー・スムーシングとして知られる)による識別不能なノードの埋め込み、もう1つは、グラフのボトルネック(オーバー・スキャッシングとして知られる)による集約による障害のあるメッセージパッシングである。 これらの課題は、モデル表現性を妨げ、グラフ内の長距離ノードの依存関係をキャプチャするために、より深いモデルを使用するのを防ぐ。 文学における一般的な解は、高時間複雑さのために大きなグラフを処理するには高すぎるか、あるいは全てのグラフトポロジーを一般化しない。 これらの制約に対処するため、我々は、トポロジーを利用したスケーラブルで一般化可能なアーキテクチャであるDuoGNNを提案し、ホモフィリックエッジとヘテロフィリックエッジを分離し、短距離と長距離の両方の相互作用をキャプチャする。 私たちの3つのコアコントリビューションを紹介します (i) ホモ親和性相互作用を抽出し、任意のグラフトポロジに対してモデルをうまく一般化するトポロジ的エッジフィルタリングアルゴリズム。 (II)ヘテロ親和性相互作用を抽出しスケーラビリティを確保するヘテロ親和性グラフ凝縮技術 3) メッセージパッシング時の過度な平滑化および過度なスキャッシングを防止する二重ホモ親和性とヘテロ親和性アグリゲーションパイプライン。 医用および非医療用ノード分類データセットをベンチマークし、そのバリエーションと比較し、全てのタスクで一貫した改善を示す。 私たちのDuoGNNコードはhttps://github.com/basiralab/DuoGNN.comで公開されています。

Graph Neural Networks (GNNs) have proven effective in various medical imaging applications, such as automated disease diagnosis. However, due to the local neighborhood aggregation paradigm in message passing which characterizes these models, they inherently suffer from two fundamental limitations: first, indistinguishable node embeddings due to heterophilic node aggregation (known as over-smoothing), and second, impaired message passing due to aggregation through graph bottlenecks (known as over-squashing). These challenges hinder the model expressiveness and prevent us from using deeper models to capture long-range node dependencies within the graph. Popular solutions in the literature are either too expensive to process large graphs due to high time complexity or do not generalize across all graph topologies. To address these limitations, we propose DuoGNN, a scalable and generalizable architecture which leverages topology to decouple homophilic and heterophilic edges and capture both short-range and long-range interactions. Our three core contributions introduce (i) a topological edge-filtering algorithm which extracts homophilic interactions and enables the model to generalize well for any graph topology, (ii) a heterophilic graph condensation technique which extracts heterophilic interactions and ensures scalability, and (iii) a dual homophilic and heterophilic aggregation pipeline which prevents over-smoothing and over-squashing during the message passing. We benchmark our model on medical and non-medical node classification datasets and compare it with its variants, showing consistent improvements across all tasks. Our DuoGNN code is available at https://github.com/basiralab/DuoGNN.
翻訳日:2024-11-05 22:09:00 公開日:2024-11-03
# ロバスト回帰における近位SGD軌道に沿った一般化性能の推定

Estimating Generalization Performance Along the Trajectory of Proximal SGD in Robust Regression ( http://arxiv.org/abs/2410.02629v2 )

ライセンス: Link先を確認
Kai Tan, Pierre C. Bellec, (参考訳) 本稿では,高次元ロバスト回帰問題におけるGD,Stochastic Gradient Descent(SGD)およびそれらの近位変種による反復体の一般化性能について検討する。 機能の数はサンプルサイズに匹敵し、エラーは重くなる可能性がある。 本稿では,反復アルゴリズムの軌道に沿った反復の一般化誤差を正確に追跡する推定器を提案する。 これらの推定器は、適切な条件下では確実に一貫性がある。 結果は、ハマー回帰(英語版)、擬ハマー回帰(英語版)、および非滑らかな正則化子を持つそれらのペナル化変種(英語版)など、いくつかの例を通して説明される。 非滑らかな正則化器の存在下で、GDおよびSGD、または近位SGDから生成された反復数に対する明示的な一般化誤差推定を提供する。 提案したリスク推定は、実際の一般化誤差の有効なプロキシとして機能し、一般化誤差を最小限に抑える最適な停止繰り返しを決定することができる。 大規模シミュレーションにより,提案した一般化誤差推定の有効性が検証された。

This paper studies the generalization performance of iterates obtained by Gradient Descent (GD), Stochastic Gradient Descent (SGD) and their proximal variants in high-dimensional robust regression problems. The number of features is comparable to the sample size and errors may be heavy-tailed. We introduce estimators that precisely track the generalization error of the iterates along the trajectory of the iterative algorithm. These estimators are provably consistent under suitable conditions. The results are illustrated through several examples, including Huber regression, pseudo-Huber regression, and their penalized variants with non-smooth regularizer. We provide explicit generalization error estimates for iterates generated from GD and SGD, or from proximal SGD in the presence of a non-smooth regularizer. The proposed risk estimates serve as effective proxies for the actual generalization error, allowing us to determine the optimal stopping iteration that minimizes the generalization error. Extensive simulations confirm the effectiveness of the proposed generalization error estimates.
翻訳日:2024-11-05 21:39:30 公開日:2024-11-03
# リレーダチェーンを用いた絡み合い型ネットワークにおける忠実性のシミュレーション

Simulation of fidelity in entanglement-based networks with repeater chains ( http://arxiv.org/abs/2410.09779v2 )

ライセンス: Link先を確認
David Pérez Castro, Ana Fernández Vilas, Manuel Fernández-Veiga, Mateo Blanco Rodríguez, Rebeca P. Díaz Redondo, (参考訳) 我々はNetSquid上にシミュレーション環境を実装し、量子リピータや量子スイッチの経路にまたがるエンドツーエンドの忠実度を推定する。 スイッチモデルには、他のツールでは利用できないいくつかの一般化が含まれており、実際的で現実的な量子ネットワーク工学の問題に対する洞察を得るのに有用である:スイッチの任意の数のメモリレジスタ、絡み合った蒸留機構を含む単純さ、任意のスイッチトポロジ、より正確な偏極ノイズのモデルである。 すなわち、リピータがシーケンシャルにスワップできるリピータチェーンと、複数のスワップ要求を処理できる複数のメモリレジスタを備えた1つのスイッチとのパフォーマンスの比較を行う。

We implement a simulation environment on top of NetSquid that is specifically designed for estimating the end-to-end fidelity across a path of quantum repeaters or quantum switches. The switch model includes several generalizations which are not currently available in other tools, and are useful for gaining insight into practical and realistic quantum network engineering problems: an arbitrary number of memory registers at the switches, simplicity in including entanglement distillation mechanisms, arbitrary switching topologies, and more accurate models for the depolarization noise. An illustrative case study is presented, namely a comparison in terms of performance between a repeater chain where repeaters can only swap sequentially, and a single switch equipped with multiple memory registers, able to handle multiple swapping requests.
翻訳日:2024-11-05 21:39:30 公開日:2024-11-03
# SynCo: より良い教師なし視覚表現のためのコントラスト学習における合成ハードネガティクス

SynCo: Synthetic Hard Negatives in Contrastive Learning for Better Unsupervised Visual Representations ( http://arxiv.org/abs/2410.02401v4 )

ライセンス: Link先を確認
Nikolaos Giakoumoglou, Tania Stathaki, (参考訳) コントラスト学習は、自己監督型視覚表現学習において支配的なアプローチとなっている。 ハードネガティブ(アンカーによく似たサンプル)は、学習した表現の識別力を高める鍵となる。 しかし、ハードネガティブを効果的に活用することは依然として困難である。 本稿では,表現空間上で合成強陰性を生成することによってモデル性能を向上させる新しい手法であるSynCo(Synthetic Negatives in Contrastive Learning)を紹介する。 MoCoフレームワーク上に構築されたSynCoは,計算オーバーヘッドを最小限に抑えた,さまざまな合成ハードネガをオンザフライで生成するための6つの戦略を導入している。 SynCoはより高速なトレーニングと表現学習を実現し、ImageNet ILSVRC-2012の線形評価では67.9%の精度を達成し、同じResNet-50エンコーダを使用してMoCoの67.5%を上回った。 PASCAL VOCでは、監督されたベースラインとMoCoの両方を82.5% APで上回り、COCOではバウンディングボックス検出に40.9% AP、インスタンスセグメンテーションに35.5% APで新しいベンチマークを設定する。 我々の合成ハード・ネガティブ・ジェネレーション・アプローチは、自己教師付きコントラスト学習を通じて学習した視覚的表現を著しく向上させる。 コードはhttps://github.com/giakoumoglou/synco.comから入手できる。

Contrastive learning has become a dominant approach in self-supervised visual representation learning. Hard negatives - samples closely resembling the anchor - are key to enhancing learned representations' discriminative power. However, efficiently leveraging hard negatives remains challenging. We introduce SynCo (Synthetic Negatives in Contrastive learning), a novel approach that improves model performance by generating synthetic hard negatives on the representation space. Building on the MoCo framework, SynCo introduces six strategies for creating diverse synthetic hard negatives on-the-fly with minimal computational overhead. SynCo achieves faster training and better representation learning, reaching 67.9% top-1 accuracy on ImageNet ILSVRC-2012 linear evaluation after 200 pretraining epochs, surpassing MoCo's 67.5% using the same ResNet-50 encoder. It also transfers more effectively to detection tasks: on PASCAL VOC, it outperforms both the supervised baseline and MoCo with 82.5% AP; on COCO, it sets new benchmarks with 40.9% AP for bounding box detection and 35.5% AP for instance segmentation. Our synthetic hard negative generation approach significantly enhances visual representations learned through self-supervised contrastive learning. Code is available at https://github.com/giakoumoglou/synco.
翻訳日:2024-11-05 14:59:58 公開日:2024-11-03
# Dual Augmentation を用いた蒸留不変表現

Distilling Invariant Representations with Dual Augmentation ( http://arxiv.org/abs/2410.09474v2 )

ライセンス: Link先を確認
Nikolaos Giakoumoglou, Tania Stathaki, (参考訳) 知識蒸留(KD)は、大規模で正確なモデル(教師)からより小さく効率的なモデル(学生)に知識を伝達するために広く用いられている。 最近の方法では、因果解釈を取り入れて、不変表現を蒸留することで一貫性を高める方法が検討されている。 本研究では,教師モデルと学生モデルの両方において,不変な特徴学習を促進するための2つの拡張戦略を導入することで,この研究線を拡大する。 我々の手法は、蒸留中に両方のモデルに適用された異なる拡張を活用し、学生に堅牢で伝達可能な特徴をつかむよう促す。 この二重増強戦略は、学習された表現がより広い範囲のデータバリエーションと変換で安定であることを保証することによって、不変な因果蒸留を補完する。 CIFAR-100の大規模な実験は、この手法の有効性を示し、同じアーキテクチャのKDで競争結果を達成する。

Knowledge distillation (KD) has been widely used to transfer knowledge from large, accurate models (teachers) to smaller, efficient ones (students). Recent methods have explored enforcing consistency by incorporating causal interpretations to distill invariant representations. In this work, we extend this line of research by introducing a dual augmentation strategy to promote invariant feature learning in both teacher and student models. Our approach leverages different augmentations applied to both models during distillation, pushing the student to capture robust, transferable features. This dual augmentation strategy complements invariant causal distillation by ensuring that the learned representations remain stable across a wider range of data variations and transformations. Extensive experiments on CIFAR-100 demonstrate the effectiveness of this approach, achieving competitive results in same-architecture KD.
翻訳日:2024-11-05 14:59:58 公開日:2024-11-03
# RSA:言語記述による単眼深度推定器のスケールの曖昧さの解消

RSA: Resolving Scale Ambiguities in Monocular Depth Estimators through Language Descriptions ( http://arxiv.org/abs/2410.02924v2 )

ライセンス: Link先を確認
Ziyao Zeng, Yangchao Wu, Hyoungseob Park, Daniel Wang, Fengyu Yang, Stefano Soatto, Dong Lao, Byung-Woo Hong, Alex Wong, (参考訳) 本稿では,メートルスケール単分子深度推定法を提案する。 単一の画像から深度を推定することは、画像形成過程における視点投影からのスケールの損失による不適切な問題である。 選択されたスケールは偏りであり、通常はデータセットのトレーニングに由来する。 我々の目標は、線形変換によりメートルスケールの深度マップを復元することである。 我々の手法の要点は、ある物体(例えば、車、木、街路標識)が通常、ある種類のシーン(例えば、屋外)に関連付けられているという観察にある。 本稿では,言語記述を用いて,相対的な深度予測を計量スケールに変換できるかどうかを考察する。 提案手法は,画像中のオブジェクトを記述したテキストキャプションを入力として,相対深度マップにグローバルに適用可能な線形変換のパラメータを出力し,メトリックスケールの深度予測を行う。 室内(NYUv2,VOID)および屋外(KITTI)における最近の汎用単分子深度モデルについて示す。 複数のデータセットでトレーニングすると、RSAはゼロショット設定で一般的なアライメントモジュールとして機能する。 提案手法は, 距離深度と相対的な相関関係の一般的な手法を改良し, 線形変換により, 接地深度と接地真理の上限値に匹敵する予測を行う。

We propose a method for metric-scale monocular depth estimation. Inferring depth from a single image is an ill-posed problem due to the loss of scale from perspective projection during the image formation process. Any scale chosen is a bias, typically stemming from training on a dataset; hence, existing works have instead opted to use relative (normalized, inverse) depth. Our goal is to recover metric-scaled depth maps through a linear transformation. The crux of our method lies in the observation that certain objects (e.g., cars, trees, street signs) are typically found or associated with certain types of scenes (e.g., outdoor). We explore whether language descriptions can be used to transform relative depth predictions to those in metric scale. Our method, RSA, takes as input a text caption describing objects present in an image and outputs the parameters of a linear transformation which can be applied globally to a relative depth map to yield metric-scaled depth predictions. We demonstrate our method on recent general-purpose monocular depth models on indoors (NYUv2, VOID) and outdoors (KITTI). When trained on multiple datasets, RSA can serve as a general alignment module in zero-shot settings. Our method improves over common practices in aligning relative to metric depth and results in predictions that are comparable to an upper bound of fitting relative depth to ground truth via a linear transformation.
翻訳日:2024-11-05 14:50:13 公開日:2024-11-03
# クリフォード階層における制御ゲート

Controlled Gates in the Clifford Hierarchy ( http://arxiv.org/abs/2410.04711v2 )

ライセンス: Link先を確認
Jonas T. Anderson, Matthew Weippert, (参考訳) ここでは、立方体 Clifford Hierarchy における任意の制御ゲートによって満たされなければならない条件の集合を証明する。 これらの条件は容易に導出できるが、非常に制限されている。 また、証明をある種のユニタリの直和からなるゲートに拡張する。 最後に、これらの条件も十分であることを示す。

In this note we prove a necessary set of conditions which must be satisfied by any controlled gate in the qubit Clifford Hierarchy. These conditions are straightforward to derive yet quite restricting. We also extend our proofs to gates composed of certain direct sums of unitaries. Finally, we provide some evidence that these conditions are also sufficient.
翻訳日:2024-11-05 14:50:13 公開日:2024-11-03
# L-C4:Creative and Consistent Colorのための言語ベースのビデオカラー化

L-C4: Language-Based Video Colorization for Creative and Consistent Color ( http://arxiv.org/abs/2410.04972v2 )

ライセンス: Link先を確認
Zheng Chang, Shuchen Weng, Huan Ouyang, Yu Li, Si Li, Boxin Shi, (参考訳) 各モノクロフレームには複数のカラー候補が存在するため、ビデオの自動着色は本質的に不適切な問題である。 従来型のビデオカラー化手法では,精巧な検索プロセスによるユーザの想像力を制限していた。 あるいは、条件付き画像のカラー化手法と後処理アルゴリズムを組み合わせることで、時間的一貫性を維持するのに依然として苦労している。 これらの問題に対処するために、ユーザが提供する言語記述を用いて色付けプロセスのガイドを行うために、L-C4(Language-based video Colorization for Creative and Consistent Colors)を提案する。 我々のモデルは、その包括的言語理解とロバストな色表現能力を活用して、事前訓練されたクロスモダリティ生成モデルに基づいて構築されている。 我々は、インスタンス対応のテキスト埋め込みを生成するために、クロスモダリティプリフュージョンモジュールを導入し、クリエイティブカラーの適用を可能にした。 さらに,フリックやカラーシフトを防止するために時間的に変形可能な注意点と,長期の色の整合性を維持するためにクロスクリップ融合を提案する。 大規模な実験の結果、L-C4は関連する手法より優れており、意味的に正確な色、制約のない創造的対応、時間的に堅牢な一貫性を実現している。

Automatic video colorization is inherently an ill-posed problem because each monochrome frame has multiple optional color candidates. Previous exemplar-based video colorization methods restrict the user's imagination due to the elaborate retrieval process. Alternatively, conditional image colorization methods combined with post-processing algorithms still struggle to maintain temporal consistency. To address these issues, we present Language-based video Colorization for Creative and Consistent Colors (L-C4) to guide the colorization process using user-provided language descriptions. Our model is built upon a pre-trained cross-modality generative model, leveraging its comprehensive language understanding and robust color representation abilities. We introduce the cross-modality pre-fusion module to generate instance-aware text embeddings, enabling the application of creative colors. Additionally, we propose temporally deformable attention to prevent flickering or color shifts, and cross-clip fusion to maintain long-term color consistency. Extensive experimental results demonstrate that L-C4 outperforms relevant methods, achieving semantically accurate colors, unrestricted creative correspondence, and temporally robust consistency.
翻訳日:2024-11-05 14:50:13 公開日:2024-11-03
# 大規模LCMエージェントシミュレーションによる動的・テキストグラフ生成

Dynamic and Textual Graph Generation Via Large-Scale LLM-based Agent Simulation ( http://arxiv.org/abs/2410.09824v3 )

ライセンス: Link先を確認
Jiarui Ji, Runlin Lei, Jialing Bi, Zhewei Wei, Yankai Lin, Xuchen Pan, Yaliang Li, Bolin Ding, (参考訳) グラフ生成は、社会、技術、科学分析において広く研究されている基本的な課題である。 動的グラフの進化過程をモデル化するために、従来のルールベースの手法は、グラフ内のコミュニティ構造を捉えるのに苦労する。 これにより、既存のグラフジェネレータは、事前定義されたルールに準拠したり、トレーニングデータセットによく似たグラフを生成することができ、動的グラフ生成ではパフォーマンスが劣る。 グラフは、人間の活動におけるペアワイズ相互作用から生じる抽象的な表現であることを考えると、人間の相互作用の現実的なシミュレーションは、グラフの進化機構について深い洞察を与える可能性がある。 人行動のシミュレーションにおいて,大規模言語モデル (LLM) の認識が高まるとともに,動的グラフ生成のための新しいシミュレーションベースフレームワークである GraphAgent-Generator (GAG) を導入する。 LLMのトレーニングや微調整を行なわず,既存のグラフ拡張タスクのベースラインを31倍に越えつつ,確立されたネットワーク科学理論における7つのマクロレベルの構造特性を効果的に再現する。 ノード分類タスクを通じて、GAGは生成したテキストリッチグラフのノード単位のテキスト特徴に対して、実世界のネットワーク特性を効果的に保存する。 さらに、並列加速度を組み込むことで、GAGは大規模なLSMベースのエージェントシミュレーションにより、最大10万のノードと1000万のエッジを持つグラフの生成をサポートし、最小速度は90.4\%である。 ソースコードはhttps://anonymous.4open.science/r/GraphAgent-2206で公開されている。

Graph generation is a fundamental task that has been extensively studied in social, technological, and scientific analysis. For modeling the dynamic graph evolution process, traditional rule-based methods struggle to capture community structures within graphs, while deep learning methods only focus on fitting training graphs. This limits existing graph generators to producing graphs that adhere to predefined rules or closely resemble training datasets, achieving poor performance in dynamic graph generation. Given that graphs are abstract representations arising from pairwise interactions in human activities, a realistic simulation of human-wise interaction could provide deeper insights into the graph evolution mechanism. With the increasing recognition of large language models (LLMs) in simulating human behavior, we introduce GraphAgent-Generator (GAG), a novel simulation-based framework for dynamic graph generation. Without training or fine-tuning process of LLM, our framework effectively replicates seven macro-level structural characteristics in established network science theories while surpassing existing baselines in graph expansion tasks by 31\% on specific evaluation metrics. Through node classification task, we validate GAG effectively preserves characteristics of real-world network for node-wise textual features in generated text-rich graph. Furthermore, by incorporating parallel acceleration, GAG supports generating graphs with up to nearly 100,000 nodes or 10 million edges through large-scale LLM-based agent simulation, with a minimum speed-up of 90.4\%. The source code is available at https://anonymous.4open.science/r/GraphAgent-2206.
翻訳日:2024-11-05 14:50:13 公開日:2024-11-03