このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20241020となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# DiffX: クロスモーダルな生成モデルにレイアウトをガイドする
DiffX: Guide Your Layout to Cross-Modal Generative Modeling ( http://arxiv.org/abs/2407.15488v5 ) ライセンス: Link先を確認 | Zeyu Wang, Jingyu Lin, Yifei Qian, Yi Huang, Shicen Tian, Bosong Chai, Juncan Deng, Qu Yang, Lan Du, Cunjian Chen, Kejie Huang, | (参考訳) 拡散モデルは言語駆動とレイアウト駆動の画像生成において大きな進歩を遂げている。
しかし、ほとんどの拡散モデルは可視RGB画像生成に限られている。
実際、世界の人間の知覚は、色調コントラスト、熱照明、深度情報といった様々な視点によって豊かになっている。
本稿では,DiffXと呼ばれる一般レイアウト誘導型クロスモーダル生成のための新しい拡散モデルを提案する。
特に、我々のDiffXはコンパクトで効果的なクロスモーダル生成モデリングパイプラインを示し、モダリティ共有潜在空間における拡散および偏極過程を実行する。
さらに,JME(Joint-Modality Embedder)を導入し,アテンション機構を組み込むことで,レイアウトとテキスト条件の相互作用を強化する。
ユーザによる学習を容易にするために,LMM(Large-Multimodal Model)による詳細なテキストキャプションと,ループ内改良による画像データセットを構築した。
我々のDiffXは、広範囲にわたる実験を通じて、FLIR、MFNet、COME15Kデータセット上のクロスモーダルな'RGB+X'画像生成において、様々なレイアウト条件でガイドされる堅牢性を示す。
一方, FLIR, MFNet, COME15K, MCXFaceデータセット上での ``RGB+X+Y(+Z)'' 画像の適応生成や, より多様なモダリティの強い可能性を示す。
我々の知る限り、DiffXはレイアウト誘導型クロスモーダル画像生成の最初のモデルである。
私たちのコードとクロスモーダルなイメージデータセットはhttps://github.com/zeyuwang-zju/DiffX.comで公開されています。
Diffusion models have made significant strides in language-driven and layout-driven image generation. However, most diffusion models are limited to visible RGB image generation. In fact, human perception of the world is enriched by diverse viewpoints, such as chromatic contrast, thermal illumination, and depth information. In this paper, we introduce a novel diffusion model for general layout-guided cross-modal generation, called DiffX. Notably, our DiffX presents a compact and effective cross-modal generative modeling pipeline, which conducts diffusion and denoising processes in the modality-shared latent space. Moreover, we introduce the Joint-Modality Embedder (JME) to enhance the interaction between layout and text conditions by incorporating a gated attention mechanism. To facilitate the user-instructed training, we construct the cross-modal image datasets with detailed text captions by the Large-Multimodal Model (LMM) and our human-in-the-loop refinement. Through extensive experiments, our DiffX demonstrates robustness in cross-modal ''RGB+X'' image generation on FLIR, MFNet, and COME15K datasets, guided by various layout conditions. Meanwhile, it shows the strong potential for the adaptive generation of ``RGB+X+Y(+Z)'' images or more diverse modalities on FLIR, MFNet, COME15K, and MCXFace datasets. To our knowledge, DiffX is the first model for layout-guided cross-modal image generation. Our code and constructed cross-modal image datasets are available at https://github.com/zeyuwang-zju/DiffX. | 翻訳日:2024-11-08 15:56:37 公開日:2024-10-20 |
# 大規模言語モデルを用いた低・高資源言語に対する機械翻訳幻覚検出
Machine Translation Hallucination Detection for Low and High Resource Languages using Large Language Models ( http://arxiv.org/abs/2407.16470v3 ) ライセンス: Link先を確認 | Kenza Benkirane, Laura Gongas, Shahar Pelles, Naomi Fuchs, Joshua Darmon, Pontus Stenetorp, David Ifeoluwa Adelani, Eduardo Sánchez, | (参考訳) 近年の多言語機械翻訳システムの進歩は翻訳精度を大幅に向上させたが、優れた演奏システムでさえも幻覚を発生させ、ユーザの信頼を著しく損なう。
機械翻訳(MT)における幻覚の検出は、特に高リソース言語(HRL)が優れているが、低リソース言語(LRL)に適用した場合、かなりの制限があるため、依然として重要な課題である。
本稿では,Large Language Models (LLM) を用いた文レベルの幻覚検出手法と多言語埋め込みにおける意味的類似性について述べる。
本研究は、HRL、LRL、多種多様なスクリプトを含む16の言語方向を対象としている。
モデルの選択がパフォーマンスに不可欠であることに気付きました。
HRLでは、Llama3-70Bは前回の最先端を0.16 MCC(マシューズ相関係数)で上回る。
しかし、LRLでは、Claude Sonnet は平均 0.03 MCC で他の LLM よりも優れていた。
我々の研究から得られた重要な点は、LLMは、いかなる機械翻訳タスクに対しても明示的に訓練されていないにもかかわらず、以前提案されたモデルと同等またはそれ以上の性能を達成できるということです。
しかし、LRLにとってその優位性はそれほど大きくない。
Recent advancements in massively multilingual machine translation systems have significantly enhanced translation accuracy; however, even the best performing systems still generate hallucinations, severely impacting user trust. Detecting hallucinations in Machine Translation (MT) remains a critical challenge, particularly since existing methods excel with High-Resource Languages (HRLs) but exhibit substantial limitations when applied to Low-Resource Languages (LRLs). This paper evaluates sentence-level hallucination detection approaches using Large Language Models (LLMs) and semantic similarity within massively multilingual embeddings. Our study spans 16 language directions, covering HRLs, LRLs, with diverse scripts. We find that the choice of model is essential for performance. On average, for HRLs, Llama3-70B outperforms the previous state of the art by as much as 0.16 MCC (Matthews Correlation Coefficient). However, for LRLs we observe that Claude Sonnet outperforms other LLMs on average by 0.03 MCC. The key takeaway from our study is that LLMs can achieve performance comparable or even better than previously proposed models, despite not being explicitly trained for any machine translation task. However, their advantage is less significant for LRLs. | 翻訳日:2024-11-08 15:34:26 公開日:2024-10-20 |
# 半古典部分空間、非同期法等
Semi-Classical Subspaces, The No Synchronization Law, and More ( http://arxiv.org/abs/2407.18201v4 ) ライセンス: Link先を確認 | Samuel Epstein, | (参考訳) 本稿では,アルゴリズム情報理論と物理,すなわち量子力学,熱力学,ブラックホールの交わりについて考察する。
量子世界と古典的領域の間の障壁を特徴づける定理について議論する。
半古典的な部分空間」の概念が導入される。
部分信号と部分的クローニングは半古典的部分空間の量子状態上で実行される。
No Synchronization Law (No Synchronization Law) の詳細は、時間とともに進化する分離された物理的システムは、シンクしている熱力学的アルゴリズムのエントロピーを持つことができない、と述べている。
我々は、ブラックホールのコルモゴロフ複雑性に関する今後の研究について考察する。
This paper looks at the intersection of algorithmic information theory and physics, namely quantum mechanics, thermodynamics, and black holes. We discuss theorems which characterize the barrier between the quantum world and the classical realm. The notion of a ``semi-classical subspace'' is introduced. Partial signals and partial cloning can be executed on quantum states in semi-classical subspaces. The No Synchronization Law is detailed, which says separate and isolated physical systems evolving over time cannot have thermodynamic algorithmic entropies that are in synch. We look at future work involving the Kolmogorov complexity of black holes. | 翻訳日:2024-11-08 15:01:09 公開日:2024-10-20 |
# 半古典部分空間、非同期法等
Semi-Classical Subspaces, The No Synchronization Law, and More ( http://arxiv.org/abs/2407.18201v5 ) ライセンス: Link先を確認 | Samuel Epstein, | (参考訳) 本稿では,アルゴリズム情報理論と物理,すなわち量子力学,熱力学,ブラックホールの交わりについて考察する。
量子世界と古典的領域の間の障壁を特徴づける定理について議論する。
半古典的な部分空間」の概念が導入される。
部分信号と部分情報クローニングは半古典的部分空間の量子状態上で得られる。
No Synchronization Law (No Synchronization Law) の詳細は、時間とともに進化する分離された物理的システムは、同期しているアルゴリズム的な熱力学的エントロピーを持つことは不可能である。
我々は、ブラックホールのコルモゴロフ複雑性に関する今後の研究について考察する。
This paper looks at the intersection of algorithmic information theory and physics, namely quantum mechanics, thermodynamics, and black holes. We discuss theorems which characterize the barrier between the quantum world and the classical realm. The notion of a ``semi-classical subspace'' is introduced. Partial signals and partial information cloning can be obtained on quantum states in semi-classical subspaces. The No Synchronization Law is detailed, which says separate and isolated physical systems evolving over time cannot have algorithmic thermodynamic entropies that are in synch. We look at future work involving the Kolmogorov complexity of black holes. | 翻訳日:2024-11-08 15:01:09 公開日:2024-10-20 |
# BnSentMix: 感情分析のための多言語ベンガル英語コードミクシングデータセット
BnSentMix: A Diverse Bengali-English Code-Mixed Dataset for Sentiment Analysis ( http://arxiv.org/abs/2408.08964v2 ) ライセンス: Link先を確認 | Sadia Alam, Md Farhan Ishmam, Navid Hasin Alvee, Md Shahnewaz Siddique, Md Azam Hossain, Abu Raihan Mostofa Kamal, | (参考訳) コードミックスデータの普及により、限られたデータセットを持つBengaliのような低リソース言語に対する貴重な洞察を得ることができる。
感性分析は、コードミックスデータに対して、複数の言語にまたがる基本的なテキスト分類タスクである。
しかしながら、コードミキシングされたBengali上には、大規模で多様な感情分析データセットがまだ存在しない。
BnSentMixは、2万のサンプルとFacebook、YouTube、およびeコマースサイトからの4ドルの感情ラベルからなるコード混合ベンガルの感情分析データセットです。
データソースの多様性が、現実的なコードミキシングシナリオを再現することを保証する。
さらに,新たなトランスフォーマーエンコーダをコードミックスしたベンガル英語で事前学習し,総合精度が69.8\%,F1スコアが69.1\%となる14ドルのベースライン手法を提案する。
詳細な分析では、さまざまな感情ラベルやテキストタイプにまたがるパフォーマンスの変化を明らかにし、将来の改善の領域を強調している。
The widespread availability of code-mixed data can provide valuable insights into low-resource languages like Bengali, which have limited datasets. Sentiment analysis has been a fundamental text classification task across several languages for code-mixed data. However, there has yet to be a large-scale and diverse sentiment analysis dataset on code-mixed Bengali. We address this limitation by introducing BnSentMix, a sentiment analysis dataset on code-mixed Bengali consisting of 20,000 samples with $4$ sentiment labels from Facebook, YouTube, and e-commerce sites. We ensure diversity in data sources to replicate realistic code-mixed scenarios. Additionally, we propose $14$ baseline methods including novel transformer encoders further pre-trained on code-mixed Bengali-English, achieving an overall accuracy of $69.8\%$ and an F1 score of $69.1\%$ on sentiment classification tasks. Detailed analyses reveal variations in performance across different sentiment labels and text types, highlighting areas for future improvement. | 翻訳日:2024-11-08 07:07:05 公開日:2024-10-20 |
# 逆条件下での車両色認識の強化に向けて:データセットとベンチマーク
Toward Enhancing Vehicle Color Recognition in Adverse Conditions: A Dataset and Benchmark ( http://arxiv.org/abs/2408.11589v2 ) ライセンス: Link先を確認 | Gabriel E. Lima, Rayson Laroca, Eduardo Santos, Eduil Nascimento Jr., David Menotti, | (参考訳) 車両情報認識は様々な分野、特に刑事捜査において重要である。
車両色認識(VCR)は、視覚的に識別可能な車両の属性であり、部分閉塞や視点の変化の影響を受けないため、重要な研究の関心を集めている。
このタスクの既存の手法の成功にもかかわらず、文献で使用されるデータセットの比較的低い複雑さは、ほとんど見過ごされてきている。
この研究は、より困難なVCRシナリオを表す新しいデータセットをコンパイルすることで、このギャップに対処する。
6つのナンバープレート認識データセットから得られた画像は11色に分類され、公式車両登録情報を用いてアノテーションが検証された。
我々は、広く採用されているデータセットと提案したデータセットを用いて、4つのディープラーニングモデルの性能を評価し、ベンチマークを構築した。
その結果、我々のデータセットは、テストされたモデルにより大きな困難をもたらし、VCRのさらなる探索を必要とするシナリオを強調します。
興味深いことに、夜間のシーンは、最高のパフォーマンスモデルによるエラーのかなりの部分を占めている。
この研究は、将来のVCR研究の基礎を提供するとともに、細粒度車両分類の分野で貴重な洞察を提供する。
Vehicle information recognition is crucial in various practical domains, particularly in criminal investigations. Vehicle Color Recognition (VCR) has garnered significant research interest because color is a visually distinguishable attribute of vehicles and is less affected by partial occlusion and changes in viewpoint. Despite the success of existing methods for this task, the relatively low complexity of the datasets used in the literature has been largely overlooked. This research addresses this gap by compiling a new dataset representing a more challenging VCR scenario. The images - sourced from six license plate recognition datasets - are categorized into eleven colors, and their annotations were validated using official vehicle registration information. We evaluate the performance of four deep learning models on a widely adopted dataset and our proposed dataset to establish a benchmark. The results demonstrate that our dataset poses greater difficulty for the tested models and highlights scenarios that require further exploration in VCR. Remarkably, nighttime scenes account for a significant portion of the errors made by the best-performing model. This research provides a foundation for future studies on VCR, while also offering valuable insights for the field of fine-grained vehicle classification. | 翻訳日:2024-11-08 06:11:36 公開日:2024-10-20 |
# ランダム化によるマルコフ開量子系の高速量子シミュレーション
Faster Quantum Simulation Of Markovian Open Quantum Systems Via Randomisation ( http://arxiv.org/abs/2408.11683v2 ) ライセンス: Link先を確認 | I. J. David, I. Sinayskiy, F. Petruccione, | (参考訳) オープン量子系の力学を量子コンピュータでシミュレーションする場合、進化の物理性を保ちながらシステムの振る舞いを正確に近似することが不可欠である。
伝統的に、マルコフ開量子系では、これは一階と二階のトロッタースズキ積公式または確率的アルゴリズムを用いて達成されている。
本研究ではランダム化を用いたマルコフ開量子系シミュレーションのための新しい非確率的アルゴリズムを提案する。
第1次および第2次ランダム化されたトロッタスズキ公式やQDRIFTチャネルを含む我々の手法は、システムの進化の物理性を維持するだけでなく、量子シミュレーションのスケーラビリティと精度を向上させる。
我々はこれらの手法の誤差境界とステップ数制限を導出し、ハミルトンのシミュレーション証明で一般的に用いられる混合補題の必要性を回避した。
また、これらのランダム化アルゴリズムの2つの実装手法として、古典的なサンプリングと量子フォークを提案し、決定論的トロッタスズキ積公式よりもゲート複雑性の利点を示す。
この研究は、オープン量子系のシミュレーションにランダム化技術を適用し、より高速で正確なシミュレーションを可能にする可能性を強調した最初のものである。
When simulating the dynamics of open quantum systems with quantum computers, it is essential to accurately approximate the system's behaviour while preserving the physicality of its evolution. Traditionally, for Markovian open quantum systems, this has been achieved using first and second-order Trotter-Suzuki product formulas or probabilistic algorithms. In this work, we introduce novel non-probabilistic algorithms for simulating Markovian open quantum systems using randomisation. Our methods, including first and second-order randomised Trotter-Suzuki formulas and the QDRIFT channel, not only maintain the physicality of the system's evolution but also enhance the scalability and precision of quantum simulations. We derive error bounds and step count limits for these techniques, bypassing the need for the mixing lemma typically employed in Hamiltonian simulation proofs. We also present two implementation approaches for these randomised algorithms: classical sampling and quantum forking, demonstrating their gate complexity advantages over deterministic Trotter-Suzuki product formulas. This work is the first to apply randomisation techniques to the simulation of open quantum systems, highlighting their potential to enable faster and more accurate simulations. | 翻訳日:2024-11-08 06:11:36 公開日:2024-10-20 |
# 仮想没入型現実感における静電活動モニタリングによる市街地の歩行者ストレスの復号
Decoding Pedestrian Stress on Urban Streets using Electrodermal Activity Monitoring in Virtual Immersive Reality ( http://arxiv.org/abs/2408.11769v2 ) ライセンス: Link先を確認 | Mohsen Nazemi, Bara Rababah, Daniel Ramos, Tangxu Zhao, Bilal Farooq, | (参考訳) 歩行者のストレスレベルは、人間の認知過程に大きく影響し、その後、例えば、ギャップを選択して通りを横断する決定を下すことが示される。
本稿では,GSR(Galvanic Skin Response)センサを用いて電気動電活動(EDA)をモニタリングすることにより,歩行者が異なる操作で道路を横断する際のストレスを系統的に研究する。
研究目的を達成するために,動的な没入型バーチャルリアリティ(VR)プラットフォームを用いた。
実験には合計171人の個人が参加し、信号制御なしで中間ブロックで双方向の道路を横断する任務を負った。
混在効果モデルを用いて, 社会デコグラフィ, 社会影響, 車両技術, 環境, 道路設計, 交通変数が参加者のストレスレベルに与える影響を比較した。
その結果,道路中央中央の道路が避難所として機能し,ストレスが著しく減少した。
若年者(18~24歳)は,比較的高齢者(55~65歳)よりも穏やかであった。
シミュレーションにおけるアバター(仮想歩行者)の特徴,特に冒険的な特徴を持つアバターについて,覚醒レベルが高かった。
歩行者の位置は、歩道で待機するよりも道路上でのストレスが高いため、ストレスに影響した。
覚醒の重大な原因は、事故の恐れと歩行者の実際の事故であった。
推定されたランダム効果は、シナリオを通過しながら、参加者による高度な身体的および精神的な学習を示す。
The pedestrian stress level is shown to significantly influence human cognitive processes and, subsequently, decision-making, e.g., the decision to select a gap and cross a street. This paper systematically studies the stress experienced by a pedestrian when crossing a street under different experimental manipulations by monitoring the ElectroDermal Activity (EDA) using the Galvanic Skin Response (GSR) sensor. To fulfil the research objectives, a dynamic and immersive virtual reality (VR) platform was used, which is suitable for eliciting and capturing pedestrian's emotional responses in conjunction with monitoring their EDA. A total of 171 individuals participated in the experiment, tasked to cross a two-way street at mid-block with no signal control. Mixed effects models were employed to compare the influence of socio-demographics, social influence, vehicle technology, environment, road design, and traffic variables on the stress levels of the participants. The results indicated that having a street median in the middle of the road operates as a refuge and significantly reduced stress. Younger participants were (18-24 years) calmer than the relatively older participants (55-65 years). Arousal levels were higher when it came to the characteristics of the avatar (virtual pedestrian) in the simulation, especially for those avatars with adventurous traits. The pedestrian location influenced stress since the stress was higher on the street while crossing than waiting on the sidewalk. Significant causes of arousal were fear of accidents and an actual accident for pedestrians. The estimated random effects show a high degree of physical and mental learning by the participants while going through the scenarios. | 翻訳日:2024-11-08 06:00:04 公開日:2024-10-20 |
# EVINCE:条件統計と情報理論による逆LLM対話の最適化
EVINCE: Optimizing Adversarial LLM Dialogues via Conditional Statistics and Information Theory ( http://arxiv.org/abs/2408.14575v2 ) ライセンス: Link先を確認 | Edward Y. Chang, | (参考訳) 本稿では,大規模言語モデル(LLM)における汎用性,適応性,推論を向上し,人工知能(AGI)を進化させる対話フレームワークである$\EVINCE$(Entropy and Variation in Conditional Exchanges)を紹介する。
対立論と新しい双対エントロピー理論を取り入れたEVINCEは、統計的モデリング、情報理論、機械学習を統合することにより、LLMの予測精度、堅牢性、安定性を改善し、多様な視点探索と強力な事前利用とのバランスをとる。
このフレームワークの有効性は、情報理論メトリクスの一貫性のある収束、特に相互情報の改善、生産的LLMコラボレーションの促進を通じて実証される。
我々は、医療に$\EVINCE$を適用し、疾患診断の改善を示し、ドメイン間の意思決定におけるその広範な影響について議論する。
この研究は、LLMコラボレーションとAGI開発における進歩の道を開くため、$\EVINCE$の理論的基礎と実証的な検証を提供する。
This paper introduces $\EVINCE$ (Entropy and Variation IN Conditional Exchanges), a dialogue framework advancing Artificial General Intelligence (AGI) by enhancing versatility, adaptivity, and reasoning in large language models (LLMs). Leveraging adversarial debate and a novel dual entropy theory, EVINCE improves prediction accuracy, robustness, and stability in LLMs by integrating statistical modeling, information theory, and machine learning to balance diverse perspective exploration with strong prior exploitation. The framework's effectiveness is demonstrated through consistent convergence of information-theoretic metrics, particularly improved mutual information, fostering productive LLM collaboration. We apply $\EVINCE$ to healthcare, showing improved disease diagnosis, and discuss its broader implications for decision-making across domains. This work provides theoretical foundations and empirical validation for $\EVINCE$, paving the way for advancements in LLM collaboration and AGI development. | 翻訳日:2024-11-08 05:04:12 公開日:2024-10-20 |
# ライセンスプレートの超解法を強化する - レイアウト認識とキャラクタ駆動アプローチ
Enhancing License Plate Super-Resolution: A Layout-Aware and Character-Driven Approach ( http://arxiv.org/abs/2408.15103v2 ) ライセンス: Link先を確認 | Valfride Nascimento, Rayson Laroca, Rafael O. Ribeiro, William Robson Schwartz, David Menotti, | (参考訳) ディープラーニングによるライセンスプレート認識(LPR)の大幅な進歩にもかかわらず、ほとんどの改善は明確な文字を持つ高解像度画像に依存している。
このシナリオは、交通監視がしばしば低解像度でぼやけた画像をキャプチャする現実世界の状況を反映していない。
これらの条件下では、文字は背景や隣接する文字と混同されがちであり、正確なLPRは困難である。
この問題に対処するために,LCOFL(Layout and Character Oriented Focal Loss)という新たな損失関数を導入する。
我々は、変形可能な畳み込みと共有重み付けを用いた文字特徴学習を強化し、光学文字認識(OCR)モデルを用いたGANベースのトレーニングアプローチを用いて超解像過程を導出する。
実験結果から, 文字再構成の精度は向上し, 定量化と定性化の両面で, 最先端の2つの手法に優れていた。
私たちのコードはhttps://github.com/valfride/lpsr-lacdで公開されています。
Despite significant advancements in License Plate Recognition (LPR) through deep learning, most improvements rely on high-resolution images with clear characters. This scenario does not reflect real-world conditions where traffic surveillance often captures low-resolution and blurry images. Under these conditions, characters tend to blend with the background or neighboring characters, making accurate LPR challenging. To address this issue, we introduce a novel loss function, Layout and Character Oriented Focal Loss (LCOFL), which considers factors such as resolution, texture, and structural details, as well as the performance of the LPR task itself. We enhance character feature learning using deformable convolutions and shared weights in an attention module and employ a GAN-based training approach with an Optical Character Recognition (OCR) model as the discriminator to guide the super-resolution process. Our experimental results show significant improvements in character reconstruction quality, outperforming two state-of-the-art methods in both quantitative and qualitative measures. Our code is publicly available at https://github.com/valfride/lpsr-lacd | 翻訳日:2024-11-08 04:52:58 公開日:2024-10-20 |
# 顔超解像の拡散モデルにおける多機能凝集
Multi-Feature Aggregation in Diffusion Models for Enhanced Face Super-Resolution ( http://arxiv.org/abs/2408.15386v2 ) ライセンス: Link先を確認 | Marcelo dos Santos, Rayson Laroca, Rafael O. Ribeiro, João C. Neves, David Menotti, | (参考訳) 超解像アルゴリズムは、未知の劣化、ポーズの変化、不規則な照明、閉塞などの悪条件のために、監視環境からのイメージに苦しむことが多い。
しかし、低品質でも複数の画像を取得することは監視カメラで可能である。
本研究では,低解像度画像と複数の低画質画像から抽出した特徴を組み合わせた拡散モデルに基づくアルゴリズムを開発し,個人識別の歪みを最小限に抑えながら超解像を生成する。
他のアルゴリズムとは異なり、本手法は属性情報を明示的に提供せず、あるいは再構成過程中に関数の勾配を計算することなく顔の特徴を復元する。
我々の知る限り、確率微分方程式を用いてより信頼性の高い超解像を生成するために、低分解能画像と低分解能画像の組み合わせがコンディショナーとして使用されるのは、これが初めてである。
FFHQデータセットはトレーニングに使用されており、CelebAデータセットとQuis-Campiデータセットで評価すると、顔認識と検証メトリクスの最先端のパフォーマンスが向上した。
私たちのコードはhttps://github.com/marcelowds/fasrで公開されています
Super-resolution algorithms often struggle with images from surveillance environments due to adverse conditions such as unknown degradation, variations in pose, irregular illumination, and occlusions. However, acquiring multiple images, even of low quality, is possible with surveillance cameras. In this work, we develop an algorithm based on diffusion models that utilize a low-resolution image combined with features extracted from multiple low-quality images to generate a super-resolved image while minimizing distortions in the individual's identity. Unlike other algorithms, our approach recovers facial features without explicitly providing attribute information or without the need to calculate a gradient of a function during the reconstruction process. To the best of our knowledge, this is the first time multi-features combined with low-resolution images are used as conditioners to generate more reliable super-resolution images using stochastic differential equations. The FFHQ dataset was employed for training, resulting in state-of-the-art performance in facial recognition and verification metrics when evaluated on the CelebA and Quis-Campi datasets. Our code is publicly available at https://github.com/marcelowds/fasr | 翻訳日:2024-11-08 04:41:58 公開日:2024-10-20 |
# Sparse Mamba: 構造状態空間モデルにおける制御性の強化
Sparse Mamba: Reinforcing Controllability In Structural State Space Models ( http://arxiv.org/abs/2409.00563v2 ) ライセンス: Link先を確認 | Emadeldeen Hamdan, Hongyi Pan, Ahmet Enis Cetin, | (参考訳) 本研究では,自然言語処理(NLP)アプリケーションのためのSparse-Mamba(S-Mamba)において,制御可能性と可観測性の概念を,Mamba SSMのアーキテクチャに適用する。
Mamba や Mamba2 のような最近の研究における構造化状態空間モデル(SSM)の開発は、トランスフォーマーや大規模言語モデルの小型・中規模での計算非効率性より優れ、解決された。
Mamba SSMsアーキテクチャは、トランスフォーマーの注意層や多層認識ブロックの必要性を減らしている。
しかしながら、現在のMambaモデルは、A$、B$、C$およびD$の行列を計算するための状態空間方程式における制御可能性の強化を欠いているため、複雑さと計算コストが増大する。
本稿では,最初に公開されたMambaとMamba2と比較してパラメータの減少を示す。
提案したS-マンバにおけるマンバアーキテクチャの可制御性と可観測性を強化した上で, パープレキシティを5 %改善し, トレーニング時間を3 %短縮した。
制御可能な$n \times n$ state matrix $A$はスパースであり、$n$freeパラメータしか持たない。
我々の新しいアプローチは、Mamba3のゲートキーとなる制御可能なシステムを保証するでしょう。
In this work, we introduce the concept of controllability and observability to the Mamba SSM's architecture in our Sparse-Mamba (S-Mamba) for natural language processing (NLP) applications. The structured state space model (SSM) development in recent studies, such as Mamba and Mamba2, outperformed and solved the computational inefficiency of transformers and large language models at small to medium scale. The Mamba SSMs architecture drops the need for attention layers or multilayer perception blocks in transformers. However, current Mamba models lack reinforcement of controllability in state-space equations for computing the $A$, $B$, $C$, and $D$ matrices at each time step, leading to increased complexity and computational costs. In this paper, we demonstrate a reduction of parameters in comparison to the first published Mamba and Mamba2. We showcase an improvement in perplexity by 5\% and a decrease in training time by 3\% after reinforcing controllability and observability on the original Mamba architecture in our proposed S-Mamba. The controllable $n \times n$ state matrix $A$ is sparse and it has only $n$ free parameters. Our novel approach will ensure a controllable system which will be the gate key for Mamba3. | 翻訳日:2024-11-08 03:46:24 公開日:2024-10-20 |
# MaskGCT: Masked Generative Codec Transformer によるゼロショットテキスト音声合成
MaskGCT: Zero-Shot Text-to-Speech with Masked Generative Codec Transformer ( http://arxiv.org/abs/2409.00750v2 ) ライセンス: Link先を確認 | Yuancheng Wang, Haoyue Zhan, Liwei Liu, Ruihong Zeng, Haotian Guo, Jiachen Zheng, Qiang Zhang, Xueyao Zhang, Shunsi Zhang, Zhizheng Wu, | (参考訳) 最近の大規模音声合成システム(TTS)は通常、自己回帰システムと非自己回帰システムに分類される。
自己回帰システムは持続期間を暗黙的にモデル化するが、頑健さと持続時間制御性の欠如がある種の欠陥を示す。
非自己回帰システムは、訓練中にテキストと音声の明確なアライメント情報を必要とし、言語単位(例えば電話)の予測期間は自然性を損なう可能性がある。
本稿では,テキストと音声の監督の明示的なアライメント情報や電話レベルの持続時間予測を不要とした,完全非自己回帰型TSSモデルであるMasked Generative Codec Transformer(MaskGCT)を紹介する。
MaskGCTは2段階モデルであり、第1段階ではテキストを使用して、音声自己教師型学習(SSL)モデルから抽出された意味トークンを予測し、第2段階では、これらの意味トークンに条件付けられた音響トークンを予測する。
MaskGCTはマスク・アンド・予測学習パラダイムに従っている。
トレーニング中、MaskGCTは与えられた条件とプロンプトに基づいて、マスク付きセマンティックトークンやアコースティックトークンを予測することを学ぶ。
推論中、モデルは指定された長さのトークンを並列に生成する。
100K時間以内の実験では、MaskGCTは、現在の最先端のゼロショットTSシステムよりも品質、類似性、知性において優れていた。
オーディオサンプルはhttps://maskgct.github.io/.com/で入手できる。
The recent large-scale text-to-speech (TTS) systems are usually grouped as autoregressive and non-autoregressive systems. The autoregressive systems implicitly model duration but exhibit certain deficiencies in robustness and lack of duration controllability. Non-autoregressive systems require explicit alignment information between text and speech during training and predict durations for linguistic units (e.g. phone), which may compromise their naturalness. In this paper, we introduce Masked Generative Codec Transformer (MaskGCT), a fully non-autoregressive TTS model that eliminates the need for explicit alignment information between text and speech supervision, as well as phone-level duration prediction. MaskGCT is a two-stage model: in the first stage, the model uses text to predict semantic tokens extracted from a speech self-supervised learning (SSL) model, and in the second stage, the model predicts acoustic tokens conditioned on these semantic tokens. MaskGCT follows the mask-and-predict learning paradigm. During training, MaskGCT learns to predict masked semantic or acoustic tokens based on given conditions and prompts. During inference, the model generates tokens of a specified length in a parallel manner. Experiments with 100K hours of in-the-wild speech demonstrate that MaskGCT outperforms the current state-of-the-art zero-shot TTS systems in terms of quality, similarity, and intelligibility. Audio samples are available at https://maskgct.github.io/. | 翻訳日:2024-11-08 03:35:26 公開日:2024-10-20 |
# MaskGCT: Masked Generative Codec Transformer によるゼロショットテキスト音声合成
MaskGCT: Zero-Shot Text-to-Speech with Masked Generative Codec Transformer ( http://arxiv.org/abs/2409.00750v3 ) ライセンス: Link先を確認 | Yuancheng Wang, Haoyue Zhan, Liwei Liu, Ruihong Zeng, Haotian Guo, Jiachen Zheng, Qiang Zhang, Xueyao Zhang, Shunsi Zhang, Zhizheng Wu, | (参考訳) 最近の大規模音声合成システム(TTS)は通常、自己回帰システムと非自己回帰システムに分類される。
自己回帰システムは持続期間を暗黙的にモデル化するが、頑健さと持続時間制御性の欠如がある種の欠陥を示す。
非自己回帰システムは、訓練中にテキストと音声の明確なアライメント情報を必要とし、言語単位(例えば電話)の予測期間は自然性を損なう可能性がある。
本稿では,テキストと音声の監督の明示的なアライメント情報や電話レベルの持続時間予測を不要とした,完全非自己回帰型TSSモデルであるMasked Generative Codec Transformer(MaskGCT)を紹介する。
MaskGCTは2段階モデルであり、第1段階ではテキストを使用して、音声自己教師型学習(SSL)モデルから抽出された意味トークンを予測し、第2段階では、これらの意味トークンに条件付けられた音響トークンを予測する。
MaskGCTはマスク・アンド・予測学習パラダイムに従っている。
トレーニング中、MaskGCTは与えられた条件とプロンプトに基づいて、マスク付きセマンティックトークンやアコースティックトークンを予測することを学ぶ。
推論中、モデルは指定された長さのトークンを並列に生成する。
100K時間以内の実験では、MaskGCTは、現在の最先端のゼロショットTSシステムよりも品質、類似性、知性において優れていた。
オーディオサンプルはhttps://maskgct.github.io/.com/で入手できる。
コードとモデルチェックポイントはhttps://github.com/open-mmlab/Amphion/blob/main/models/tts/maskgctで公開しています。
The recent large-scale text-to-speech (TTS) systems are usually grouped as autoregressive and non-autoregressive systems. The autoregressive systems implicitly model duration but exhibit certain deficiencies in robustness and lack of duration controllability. Non-autoregressive systems require explicit alignment information between text and speech during training and predict durations for linguistic units (e.g. phone), which may compromise their naturalness. In this paper, we introduce Masked Generative Codec Transformer (MaskGCT), a fully non-autoregressive TTS model that eliminates the need for explicit alignment information between text and speech supervision, as well as phone-level duration prediction. MaskGCT is a two-stage model: in the first stage, the model uses text to predict semantic tokens extracted from a speech self-supervised learning (SSL) model, and in the second stage, the model predicts acoustic tokens conditioned on these semantic tokens. MaskGCT follows the mask-and-predict learning paradigm. During training, MaskGCT learns to predict masked semantic or acoustic tokens based on given conditions and prompts. During inference, the model generates tokens of a specified length in a parallel manner. Experiments with 100K hours of in-the-wild speech demonstrate that MaskGCT outperforms the current state-of-the-art zero-shot TTS systems in terms of quality, similarity, and intelligibility. Audio samples are available at https://maskgct.github.io/. We release our code and model checkpoints at https://github.com/open-mmlab/Amphion/blob/main/models/tts/maskgct. | 翻訳日:2024-11-08 03:35:26 公開日:2024-10-20 |
# 心臓メッシュ再建のための明示的微分スライシングと大域的変形
Explicit Differentiable Slicing and Global Deformation for Cardiac Mesh Reconstruction ( http://arxiv.org/abs/2409.02070v2 ) ライセンス: Link先を確認 | Yihao Luo, Dario Sesia, Fanwen Wang, Yinzhe Wu, Wenhao Ding, Jiahao Huang, Fadong Shi, Anoop Shah, Amit Kaural, Jamil Mayet, Guang Yang, ChoonHwai Yap, | (参考訳) 医用画像からの心臓解剖のメッシュ再構築は、心臓機能と健康の評価を容易にするための形状・運動計測および生体物理シミュレーションに有用である。
しかし、3Dの医用画像はしばしば、わずかにサンプリングされノイズの多い2Dスライスとして取得され、そのようなデータのメッシュ再構築は難しい作業である。
従来のボクセルベースのアプローチは、イメージの忠実性を損なう前処理と後処理に頼っているが、メッシュレベルのディープラーニングアプローチでは、取得が難しいメッシュアノテーションが必要になる。
そのため、2次元画像からメッシュへのドメイン間直接監視は、医用画像における3次元学習を前進させる重要な技術であるが、まだ十分に開発されていない。
最適化メッシュスライシングを近似する試みがあるが、メッシュ再構築を異なる方法で監視するために2Dスライスを直接使用する方法はほとんどない。
本稿では,2次元画像上に定義された損失によって直接監督される洗練されたメッシュ最適化を実現するために,メッシュのスライスから勾配のバックプロパゲーションを可能にする,新しい識別可能なボキセル化とスライシング(DVS)アルゴリズムを提案する。
さらに,DVSとグラフ調和変形(GHD)メッシュ形態記述子を結合することにより,医用画像から患者固有の左室メッシュ(LV)を抽出する革新的な枠組みを提案する。
実験の結果,CTおよびMRIによる心メッシュ再建作業において,Diceスコアの90%をマルチデータセット上で達成し,既存手法より優れていた。
提案手法は, 抽出率や大域心筋病変などの臨床的に有用なパラメータを定量化し, 基礎的真実と密に一致し, スパース画像における従来のボクセルベースアプローチを克服する。
Mesh reconstruction of the cardiac anatomy from medical images is useful for shape and motion measurements and biophysics simulations to facilitate the assessment of cardiac function and health. However, 3D medical images are often acquired as 2D slices that are sparsely sampled and noisy, and mesh reconstruction on such data is a challenging task. Traditional voxel-based approaches rely on pre- and post-processing that compromises image fidelity, while mesh-level deep learning approaches require mesh annotations that are difficult to get. Therefore, direct cross-domain supervision from 2D images to meshes is a key technique for advancing 3D learning in medical imaging, but it has not been well-developed. While there have been attempts to approximate the optimized meshes' slicing, few existing methods directly use 2D slices to supervise mesh reconstruction in a differentiable manner. Here, we propose a novel explicit differentiable voxelization and slicing (DVS) algorithm that allows gradient backpropagation to a mesh from its slices, facilitating refined mesh optimization directly supervised by the losses defined on 2D images. Further, we propose an innovative framework for extracting patient-specific left ventricle (LV) meshes from medical images by coupling DVS with a graph harmonic deformation (GHD) mesh morphing descriptor of cardiac shape that naturally preserves mesh quality and smoothness during optimization. Experimental results demonstrate that our method achieves state-of-the-art performance in cardiac mesh reconstruction tasks from CT and MRI, with an overall Dice score of 90% on multi-datasets, outperforming existing approaches. The proposed method can further quantify clinically useful parameters such as ejection fraction and global myocardial strains, closely matching the ground truth and surpassing the traditional voxel-based approach in sparse images. | 翻訳日:2024-11-07 23:56:04 公開日:2024-10-20 |
# あまり頑丈ではない:シーン認識のための重要な地域選択
Less yet robust: crucial region selection for scene recognition ( http://arxiv.org/abs/2409.14741v1 ) ライセンス: Link先を確認 | Jianqi Zhang, Mengxuan Wang, Jingyao Wang, Lingyu Si, Changwen Zheng, Fanjiang Xu, | (参考訳) 特に空中画像や水中画像のシーン認識は、ぼやけや露出過多など、様々な種類の劣化に悩まされることが多い。
畳み込みニューラルネットワークに焦点を当てたこれまでの研究は、パノラマ的なセマンティックな特徴を抽出し、シーン認識タスクでうまく機能できることが示されている。
しかし、高レベルのセマンティックな特徴が不適切であるために、低画質の画像はモデル性能を妨げている。
これらの課題に対処するため、我々は高レベルの特徴を持つ最も重要かつ堅牢な領域を特定するための適応的な選択機構を提案する。
したがって、モデルはこれらの領域を通して学習を行い、干渉を避けることができる。
ニューラルネットワークに学習可能なマスクを実装することで、特徴行列の異なる領域に重みを割り当てることで、ハイレベルな特徴をフィルタリングすることができる。
また、重要な高レベル特徴領域の重要性をさらに高めるための正規化用語も導入する。
従来の手法と異なり,学習可能な行列は,複数のカテゴリに重要な領域に注意を払っているが,誤分類を引き起こし,そのような領域の影響を減らすために制約を設定する場合がある。
さらに,本モデルの有効性を評価するために,水中地形分類データセットを構築した。
2つのデータセット上での最先端技術よりも,提案手法の優位性とロバスト性を示す。
Scene recognition, particularly for aerial and underwater images, often suffers from various types of degradation, such as blurring or overexposure. Previous works that focus on convolutional neural networks have been shown to be able to extract panoramic semantic features and perform well on scene recognition tasks. However, low-quality images still impede model performance due to the inappropriate use of high-level semantic features. To address these To address these challenges, we propose an adaptive selection mechanism to identify the most important and robust regions with high-level features. Thus, the model can perform learning via these regions to avoid interference. implement a learnable mask in the neural network, which can filter high-level features by assigning weights to different regions of the feature matrix. We also introduce a regularization term to further enhance the significance of key high-level feature regions. Different from previous methods, our learnable matrix pays extra attention to regions that are important to multiple categories but may cause misclassification and sets constraints to reduce the influence of such regions.This is a plug-and-play architecture that can be easily extended to other methods. Additionally, we construct an Underwater Geological Scene Classification dataset to assess the effectiveness of our model. Extensive experimental results demonstrate the superiority and robustness of our proposed method over state-of-the-art techniques on two datasets. | 翻訳日:2024-11-06 21:12:18 公開日:2024-10-20 |
# あまり頑丈ではない:シーン認識のための重要な地域選択
Less yet robust: crucial region selection for scene recognition ( http://arxiv.org/abs/2409.14741v2 ) ライセンス: Link先を確認 | Jianqi Zhang, Mengxuan Wang, Jingyao Wang, Lingyu Si, Changwen Zheng, Fanjiang Xu, | (参考訳) 特に空中画像や水中画像のシーン認識は、ぼやけや露出過多など、様々な種類の劣化に悩まされることが多い。
畳み込みニューラルネットワークに焦点を当てたこれまでの研究は、パノラマ的なセマンティックな特徴を抽出し、シーン認識タスクでうまく機能できることが示されている。
しかし、高レベルのセマンティックな特徴が不適切であるために、低画質の画像はモデル性能を妨げている。
これらの課題に対処するために,高レベルの特徴を持つ最も重要かつ堅牢な領域を特定する適応的な選択機構を提案する。
したがって、モデルはこれらの領域を通して学習を行い、干渉を避けることができる。
ニューラルネットワークに学習可能なマスクを実装することで、特徴行列の異なる領域に重みを割り当てることで、ハイレベルな特徴をフィルタリングすることができる。
また、重要な高レベル特徴領域の重要性をさらに高めるための正規化用語も導入する。
従来の手法と異なり,学習可能な行列は,複数のカテゴリに重要な領域に注意を払っているが,誤分類を引き起こし,そのような領域の影響を減らすために制約を設定する場合がある。
さらに,本モデルの有効性を評価するために,水中地形分類データセットを構築した。
2つのデータセット上での最先端技術よりも,提案手法の優位性とロバスト性を示す。
Scene recognition, particularly for aerial and underwater images, often suffers from various types of degradation, such as blurring or overexposure. Previous works that focus on convolutional neural networks have been shown to be able to extract panoramic semantic features and perform well on scene recognition tasks. However, low-quality images still impede model performance due to the inappropriate use of high-level semantic features. To address these challenges, we propose an adaptive selection mechanism to identify the most important and robust regions with high-level features. Thus, the model can perform learning via these regions to avoid interference. implement a learnable mask in the neural network, which can filter high-level features by assigning weights to different regions of the feature matrix. We also introduce a regularization term to further enhance the significance of key high-level feature regions. Different from previous methods, our learnable matrix pays extra attention to regions that are important to multiple categories but may cause misclassification and sets constraints to reduce the influence of such regions.This is a plug-and-play architecture that can be easily extended to other methods. Additionally, we construct an Underwater Geological Scene Classification dataset to assess the effectiveness of our model. Extensive experimental results demonstrate the superiority and robustness of our proposed method over state-of-the-art techniques on two datasets. | 翻訳日:2024-11-06 21:12:18 公開日:2024-10-20 |
# In-Context Ensembleは人間のデモから低レベルワークフロー理解のためのビデオ言語モデルを改善する
In-Context Ensemble Improves Video-Language Models for Low-Level Workflow Understanding from Human Demonstrations ( http://arxiv.org/abs/2409.15867v3 ) ライセンス: Link先を確認 | Moucheng Xu, Evangelos Chatzaroulas, Luc McCutcheon, Abdul Ahad, Hamzah Azeem, Janusz Marecki, Ammar Anwar, | (参考訳) Standard Operating Procedure(SOP)は、ビデオデモに基づいて、ビジネスソフトウェアワークフローのための低レベルなステップバイステップのガイドを定義する。
SOPはエンドツーエンドのソフトウェアワークフローを自動化するための重要なステップです。
手動でSOPを作成するのには時間がかかる。
近年の大規模ビデオ言語モデルの進歩は、人間の実演記録を解析することによって、SOP生成を自動化する可能性を秘めている。
しかし、現在の大規模ビデオ言語モデルは、ゼロショットSOP生成による課題に直面している。
SOP生成のためのビデオ言語モデルを用いたテキスト内学習について検討する。
テキスト内学習は、SOP生成時のビデオ言語モデルに役立つことがあると報告する。
そこで本研究では,SOP生成におけるモデルの性能向上を図るために,コンテキスト内アンサンブル学習を提案する。
A Standard Operating Procedure (SOP) defines a low-level, step-by-step written guide for a business software workflow based on a video demonstration. SOPs are a crucial step toward automating end-to-end software workflows. Manually creating SOPs can be time-consuming. Recent advancements in large video-language models offer the potential for automating SOP generation by analyzing recordings of human demonstrations. However, current large video-language models face challenges with zero-shot SOP generation. We explore in-context learning with video-language models for SOP generation. We report that in-context learning sometimes helps video-language models at SOP generation. We then propose an in-context ensemble learning to further enhance the capabilities of the models in SOP generation. | 翻訳日:2024-11-06 19:21:13 公開日:2024-10-20 |
# In-Context Ensembleは人間のデモから低レベルワークフロー理解のためのビデオ言語モデルを改善する
In-Context Ensemble Improves Video-Language Models for Low-Level Workflow Understanding from Human Demonstrations ( http://arxiv.org/abs/2409.15867v4 ) ライセンス: Link先を確認 | Moucheng Xu, Evangelos Chatzaroulas, Luc McCutcheon, Abdul Ahad, Hamzah Azeem, Janusz Marecki, Ammar Anwar, | (参考訳) Standard Operating Procedure(SOP)は、ビデオデモに基づいて、ビジネスソフトウェアワークフローのための低レベルなステップバイステップのガイドを定義する。
SOPはエンドツーエンドのソフトウェアワークフローを自動化するための重要なステップです。
手動でSOPを作成するのには時間がかかる。
近年の大規模ビデオ言語モデルの進歩は、人間の実演記録を解析することによって、SOP生成を自動化する可能性を秘めている。
しかし、現在の大規模ビデオ言語モデルは、ゼロショットSOP生成による課題に直面している。
SOP生成のためのビデオ言語モデルを用いたテキスト内学習について検討する。
テキスト内学習は、SOP生成時のビデオ言語モデルに役立つことがあると報告する。
そこで本研究では,SOP生成におけるモデルの性能向上を図るために,コンテキスト内アンサンブル学習を提案する。
A Standard Operating Procedure (SOP) defines a low-level, step-by-step written guide for a business software workflow based on a video demonstration. SOPs are a crucial step toward automating end-to-end software workflows. Manually creating SOPs can be time-consuming. Recent advancements in large video-language models offer the potential for automating SOP generation by analyzing recordings of human demonstrations. However, current large video-language models face challenges with zero-shot SOP generation. We explore in-context learning with video-language models for SOP generation. We report that in-context learning sometimes helps video-language models at SOP generation. We then propose an in-context ensemble learning to further enhance the capabilities of the models in SOP generation. | 翻訳日:2024-11-06 19:21:13 公開日:2024-10-20 |
# 低レベルワークフロー理解のためのビデオ言語モデルの改良
In-Context Ensemble Learning from Pseudo Labels Improves Video-Language Models for Low-Level Workflow Understanding ( http://arxiv.org/abs/2409.15867v5 ) ライセンス: Link先を確認 | Moucheng Xu, Evangelos Chatzaroulas, Luc McCutcheon, Abdul Ahad, Hamzah Azeem, Janusz Marecki, Ammar Anwar, | (参考訳) 標準運用手順(SOP)は、ビジネスソフトウェアワークフローのための低レベルのステップバイステップのガイドを定義する。
SOP生成は、エンドツーエンドのソフトウェアワークフローを自動化するための重要なステップです。
手動でSOPを作成するのには時間がかかる。
近年の大規模ビデオ言語モデルの進歩は、人間の実演記録を解析することにより、SOP生成を自動化する可能性を秘めている。
しかし、現在の大規模ビデオ言語モデルは、ゼロショットSOP生成による課題に直面している。
そこで本研究では,SOP生成のためのビデオ言語モデルを用いたインコンテキスト学習について検討する。
次に、SOPの複数の経路の擬似ラベルを集約する、In-Context Ensemble Learningと呼ばれる探索中心の戦略を提案する。
提案したコンテキスト内アンサンブル学習は、暗黙の一貫性の規則化によって、コンテキストウィンドウ制限を超えて学習することを可能にする。
テキスト内学習は、ビデオ言語モデルがより時間的に正確なSOPを生成するのに役立つことを報告し、提案したコンテキスト内アンサンブル学習は、SOP生成におけるビデオ言語モデルの能力を一貫して向上させることができる。
A Standard Operating Procedure (SOP) defines a low-level, step-by-step written guide for a business software workflow. SOP generation is a crucial step towards automating end-to-end software workflows. Manually creating SOPs can be time-consuming. Recent advancements in large video-language models offer the potential for automating SOP generation by analyzing recordings of human demonstrations. However, current large video-language models face challenges with zero-shot SOP generation. In this work, we first explore in-context learning with video-language models for SOP generation. We then propose an exploration-focused strategy called In-Context Ensemble Learning, to aggregate pseudo labels of multiple possible paths of SOPs. The proposed in-context ensemble learning as well enables the models to learn beyond its context window limit with an implicit consistency regularisation. We report that in-context learning helps video-language models to generate more temporally accurate SOP, and the proposed in-context ensemble learning can consistently enhance the capabilities of the video-language models in SOP generation. | 翻訳日:2024-11-06 19:21:13 公開日:2024-10-20 |
# GearTrack: 6D Poseの推定を自動化する
GearTrack: Automating 6D Pose Estimation ( http://arxiv.org/abs/2409.19986v1 ) ライセンス: Link先を確認 | Yu Deng, Teng Cao, Jiahong Xue, | (参考訳) 我々は、FoundationPose、SAM2、LightGlueを統合して、産業アプリケーションにおけるリアルタイム6Dオブジェクト検出のための堅牢なソリューションを開発し、再トレーニングの必要性を排除した。
提案手法は,FoundationPoseの第1フレームにおける初期オブジェクトマスクの要件と,対称オブジェクトのトラッキング損失と自動回転に関する課題の2つに対処する。
アルゴリズムはターゲットオブジェクトのCADモデルのみを必要とし、ユーザは初期設定中にライブフィードの場所をクリックします。
一度設定すると、アルゴリズムはオブジェクトの参照画像を自動で保存し、その後、オブジェクトとリアルタイムシーンの間の特徴マッチングにLightGlueを使用し、最初の検出プロンプトを提供する。
YCBデータセットと漂白機やギアなどの産業用部品でテストされ、アルゴリズムは信頼性の高い6D検出と追跡を実証した。
SAM2とFoundationPoseを統合することにより、障害追跡の問題や、閉塞や急速移動といった困難な条件下での連続的かつ正確な追跡といった、一般的な制限を効果的に緩和する。
We developed a robust solution for real-time 6D object detection in industrial applications by integrating FoundationPose, SAM2, and LightGlue, eliminating the need for retraining. Our approach addresses two key challenges: the requirement for an initial object mask in the first frame in FoundationPose and issues with tracking loss and automatic rotation for symmetric objects. The algorithm requires only a CAD model of the target object, with the user clicking on its location in the live feed during the initial setup. Once set, the algorithm automatically saves a reference image of the object and, in subsequent runs, employs LightGlue for feature matching between the object and the real-time scene, providing an initial prompt for detection. Tested on the YCB dataset and industrial components such as bleach cleanser and gears, the algorithm demonstrated reliable 6D detection and tracking. By integrating SAM2 and FoundationPose, we effectively mitigated common limitations such as the problem of tracking loss, ensuring continuous and accurate tracking under challenging conditions like occlusion or rapid movement. | 翻訳日:2024-11-05 16:27:46 公開日:2024-10-20 |
# SuperPose:ロバストトラッキングとマスクフリー初期化による6次元空間推定の改善
SuperPose: Improved 6D Pose Estimation with Robust Tracking and Mask-Free Initialization ( http://arxiv.org/abs/2409.19986v2 ) ライセンス: Link先を確認 | Yu Deng, Jiahong Xue, Teng Cao, Yingxing Zhang, Lanxi Wen, Yiyang Chen, | (参考訳) 我々は、FoundationPose、SAM2、LightGlueを統合して、産業アプリケーションにおけるリアルタイム6Dオブジェクト検出のための堅牢なソリューションを開発し、再トレーニングの必要性を排除した。
提案手法は,FoundationPoseの第1フレームにおける初期オブジェクトマスクの要件と,対称オブジェクトのトラッキング損失と自動回転に関する課題の2つに対処する。
アルゴリズムはターゲットオブジェクトのCADモデルのみを必要とし、ユーザは初期設定中にライブフィードの場所をクリックします。
一度設定すると、アルゴリズムはオブジェクトの参照画像を自動で保存し、その後、オブジェクトとリアルタイムシーンの間の特徴マッチングにLightGlueを使用し、最初の検出プロンプトを提供する。
YCBデータセットと漂白機やギアなどの産業用部品でテストされ、アルゴリズムは信頼性の高い6D検出と追跡を実証した。
SAM2とFoundationPoseを統合することにより、障害追跡の問題や、閉塞や急速移動といった困難な条件下での連続的かつ正確な追跡といった、一般的な制限を効果的に緩和する。
We developed a robust solution for real-time 6D object detection in industrial applications by integrating FoundationPose, SAM2, and LightGlue, eliminating the need for retraining. Our approach addresses two key challenges: the requirement for an initial object mask in the first frame in FoundationPose and issues with tracking loss and automatic rotation for symmetric objects. The algorithm requires only a CAD model of the target object, with the user clicking on its location in the live feed during the initial setup. Once set, the algorithm automatically saves a reference image of the object and, in subsequent runs, employs LightGlue for feature matching between the object and the real-time scene, providing an initial prompt for detection. Tested on the YCB dataset and industrial components such as bleach cleanser and gears, the algorithm demonstrated reliable 6D detection and tracking. By integrating SAM2 and FoundationPose, we effectively mitigated common limitations such as the problem of tracking loss, ensuring continuous and accurate tracking under challenging conditions like occlusion or rapid movement. | 翻訳日:2024-11-05 16:27:46 公開日:2024-10-20 |
# 禁止から採用へ - 香港の大学が学術的ワークフローでChatGPTをいかにナビゲートしているか
From Prohibition to Adoption: How Hong Kong Universities Are Navigating ChatGPT in Academic Workflows ( http://arxiv.org/abs/2410.01695v1 ) ライセンス: Link先を確認 | Junjun Huang, Jifan Wu, Qing Wang, Kemeng Yuan, Jiefeng Li, Di Lu, | (参考訳) 本論文は、香港の大学がChatGPTを禁止していた時期と、それが学術的プロセスに統合された時代を比べることを目的としている。
技術における完全性や倫理的な問題に対する懸念から、機関はAIリテラシーと責任政策を中央に導入することで、適応してきた。
本研究は, 学界におけるネガティブな影響を抑えつつ, これらの正の実践を支援するために開発された新しいパラダイムについて検討する。
キーワード:ChatGPT、学術的統合性、AIリテラシー、倫理的AI利用、教育における生成AI、大学政策、アカデミックにおけるAI統合、高等教育と技術
This paper aims at comparing the time when Hong Kong universities used to ban ChatGPT to the current periods where it has become integrated in the academic processes. Bolted by concerns of integrity and ethical issues in technologies, institutions have adapted by moving towards the center adopting AI literacy and responsibility policies. This study examines new paradigms which have been developed to help implement these positives while preventing negative effects on academia. Keywords: ChatGPT, Academic Integrity, AI Literacy, Ethical AI Use, Generative AI in Education, University Policy, AI Integration in Academia, Higher Education and Technology | 翻訳日:2024-11-04 16:03:18 公開日:2024-10-20 |
# 禁止から採用へ - 香港の大学が学術的ワークフローでChatGPTをいかにナビゲートしているか
From Prohibition to Adoption: How Hong Kong Universities Are Navigating ChatGPT in Academic Workflows ( http://arxiv.org/abs/2410.01695v2 ) ライセンス: Link先を確認 | Junjun Huang, Jifan Wu, Qing Wang, Kemeng Yuan, Jiefeng Li, Di Lu, | (参考訳) 本論文は、香港の大学がChatGPTを禁止していた時期と、それが学術的プロセスに統合された時代を比べることを目的としている。
技術における完全性や倫理的な問題に対する懸念から、機関はAIリテラシーと責任政策を中央に導入することで、適応してきた。
本研究は, 学界におけるネガティブな影響を抑えつつ, これらの正の実践を支援するために開発された新しいパラダイムについて検討する。
キーワード:ChatGPT、学術的統合性、AIリテラシー、倫理的AI利用、教育における生成AI、大学政策、アカデミックにおけるAI統合、高等教育と技術
This paper aims at comparing the time when Hong Kong universities used to ban ChatGPT to the current periods where it has become integrated in the academic processes. Bolted by concerns of integrity and ethical issues in technologies, institutions have adapted by moving towards the center adopting AI literacy and responsibility policies. This study examines new paradigms which have been developed to help implement these positives while preventing negative effects on academia. Keywords: ChatGPT, Academic Integrity, AI Literacy, Ethical AI Use, Generative AI in Education, University Policy, AI Integration in Academia, Higher Education and Technology | 翻訳日:2024-11-04 16:03:18 公開日:2024-10-20 |
# 禁止から採用へ - 香港の大学が学術的ワークフローでChatGPTをいかにナビゲートしているか
From Prohibition to Adoption: How Hong Kong Universities Are Navigating ChatGPT in Academic Workflows ( http://arxiv.org/abs/2410.01695v3 ) ライセンス: Link先を確認 | Junjun Huang, Jifan Wu, Qing Wang, Kemeng Yuan, Jiefeng Li, Di Lu, | (参考訳) 本論文は、香港の大学がChatGPTを禁止していた時期と、それが学術的プロセスに統合された時代を比べることを目的としている。
技術における完全性や倫理的な問題に対する懸念から、機関はAIリテラシーと責任政策を中央に導入することで、適応してきた。
本研究は, 学界におけるネガティブな影響を抑えつつ, これらの正の実践を支援するために開発された新しいパラダイムについて検討する。
キーワード:ChatGPT、学術的統合性、AIリテラシー、倫理的AI利用、教育における生成AI、大学政策、アカデミックにおけるAI統合、高等教育と技術
This paper aims at comparing the time when Hong Kong universities used to ban ChatGPT to the current periods where it has become integrated in the academic processes. Bolted by concerns of integrity and ethical issues in technologies, institutions have adapted by moving towards the center adopting AI literacy and responsibility policies. This study examines new paradigms which have been developed to help implement these positives while preventing negative effects on academia. Keywords: ChatGPT, Academic Integrity, AI Literacy, Ethical AI Use, Generative AI in Education, University Policy, AI Integration in Academia, Higher Education and Technology | 翻訳日:2024-11-04 16:03:18 公開日:2024-10-20 |
# PixelBytes:マルチモーダル生成のための統一表現
PixelBytes: Catching Unified Representation for Multimodal Generation ( http://arxiv.org/abs/2410.01820v1 ) ライセンス: Link先を確認 | Fabien Furfaro, | (参考訳) 本報告では,一貫した多モーダル表現学習のための新しいアプローチであるPixelBytesを紹介する。
提案手法は,画像変換器,PixelCNN,Mamba-Bytesなどの既存のシーケンスモデルにヒントを得て,様々なデータタイプ,特にテキスト,音声,画素画像(小文字)の統合を探索し,凝集表現における多様な入力をキャプチャすることを目的としている。
特殊なPixelBytes Pok{\'e}monデータセットの実験を行った。
当初は、リカレントニューラルネットワーク(RNN)、ステートスペースモデル(SSM)、アテンションベースモデルなど、さまざまなモデルアーキテクチャについて検討し、双方向処理と畳み込みPxBy埋め込み技術に注目した。
次に,データ削減戦略と自己回帰学習の有効性に基づくモデルの評価を行った。
本研究の主実験では,予測モードと自己回帰モードの両方において,Long Short-Term Memory (LSTM) ネットワークについて検討した。
その結果, 自己回帰モデルは, この文脈で予測モデルより優れていたことが示唆された。
柔軟なマルチモーダルモデリングアプローチを採用することで、PixelBytesはマルチモーダルデータの理解と生成が可能な基礎モデルの開発に寄与する。
コード、モデル、データセットを含む完全なPixelBytesプロジェクトはオンラインで入手できる。
This report introduces PixelBytes, a novel approach for unified multimodal representation learning. Inspired by existing sequence models such as Image Transformers, PixelCNN, and Mamba-Bytes, our method aims to capture diverse inputs in a cohesive representation, exploring the integration of different data types, particularly text, audio, and pixelated images (sprites). We conducted experiments on a specialized PixelBytes Pok{\'e}mon dataset. Initially, we investigated various model architectures, including Recurrent Neural Networks (RNNs), State Space Models (SSMs), and Attention-based models, focusing on bidirectional processing and our convolutional PxBy embedding technique. Subsequently, we evaluated models based on data reduction strategies and the effectiveness of autoregressive learning. We specifically examined Long Short-Term Memory (LSTM) networks in both predictive and autoregressive modes for our main experiments. Our findings suggest that autoregressive models outperform predictive models in this context. By adopting a flexible approach to multimodal modeling, PixelBytes contributes to the ongoing development of foundation models capable of understanding and generating multimodal data. The complete PixelBytes project, including code, models, and datasets, is available online. | 翻訳日:2024-11-04 14:54:47 公開日:2024-10-20 |
# PixelBytes:マルチモーダル生成のための統一表現
PixelBytes: Catching Unified Representation for Multimodal Generation ( http://arxiv.org/abs/2410.01820v2 ) ライセンス: Link先を確認 | Fabien Furfaro, | (参考訳) 本報告では,マルチモーダル表現学習の一手法であるPixelBytesについて述べる。
Image Transformers、PixelCNN、Mamba-Bytesといったシーケンスモデルからインスピレーションを得て、テキスト、オーディオ、アクションステート、ピクセル化されたイメージ(プライド)を結合表現に統合することを検討します。
我々はPixelBytes PokemonデータセットとOptimal-Controlデータセットの実験を行った。
調査では、リカレントニューラルネットワーク(RNN)、ステートスペースモデル(SSM)、アテンションベースモデルなど、さまざまなモデルアーキテクチャを取り上げ、双方向処理とPxBy埋め込み技術に注目した。
本研究では,データ削減戦略と自己回帰学習に基づくモデルの評価を行い,予測モードおよび自己回帰モードにおけるLSTM(Long Short-Term Memory)ネットワークについて検討した。
以上の結果から, 自己回帰モデルの方が予測モデルより優れていることが示唆された。
さらに,拡散モデルを制御問題や並列化生成に適用できることが判明した。
PixelBytesは、マルチモーダルデータ処理と生成のための基盤モデルの開発に貢献することを目的としている。
プロジェクトのコード、モデル、データセットはオンラインで公開されている。
This report presents PixelBytes, an approach for unified multimodal representation learning. Drawing inspiration from sequence models like Image Transformers, PixelCNN, and Mamba-Bytes, we explore integrating text, audio, action-state, and pixelated images (sprites) into a cohesive representation. We conducted experiments on a PixelBytes Pokemon dataset and an Optimal-Control dataset. Our investigation covered various model architectures, including Recurrent Neural Networks (RNNs), State Space Models (SSMs), and Attention-based models, with a focus on bidirectional processing and our PxBy embedding technique. We evaluated models based on data reduction strategies and autoregressive learning, specifically examining Long Short-Term Memory (LSTM) networks in predictive and autoregressive modes. Our results indicate that autoregressive models perform better than predictive models in this context. Additionally, we found that diffusion models can be applied to control problems and parallelized generation. PixelBytes aims to contribute to the development of foundation models for multimodal data processing and generation. The project's code, models, and datasets are available online. | 翻訳日:2024-11-04 14:54:47 公開日:2024-10-20 |
# 大型モデルとVAE強化に基づくマルチモーダル衣服レコメンデーションモデル
Multi-modal clothing recommendation model based on large model and VAE enhancement ( http://arxiv.org/abs/2410.02219v1 ) ライセンス: Link先を確認 | Bingjie Huang, Qingyu Lu, Shuaishuai Huang, Xue-she Wang, Haowei Yang, | (参考訳) 製品の正確な推奨は、長い間、詳細な調査を必要とする課題だった。
本研究では,衣服推薦のためのマルチモーダルパラダイムを提案する。
具体的には,服用記述文や画像を統合するマルチモーダル分析手法を設計し,事前学習した大規模言語モデルを用いてユーザや製品の隠れた意味を深く探求する。
また、リコメンデーションシステムにおける冷間開始問題に対処するため、ユーザ情報と製品との関係を学習するために変分エンコーダを用いる。
本研究は, 広範囲なアブレーション実験を通じて, 様々なレコメンデーションシステム手法に対する本手法の有効性を検証し, 総合的なレコメンデーションシステムの最適化のための重要な実践的ガイダンスを提供する。
Accurately recommending products has long been a subject requiring in-depth research. This study proposes a multimodal paradigm for clothing recommendations. Specifically, it designs a multimodal analysis method that integrates clothing description texts and images, utilizing a pre-trained large language model to deeply explore the hidden meanings of users and products. Additionally, a variational encoder is employed to learn the relationship between user information and products to address the cold start problem in recommendation systems. This study also validates the significant performance advantages of this method over various recommendation system methods through extensive ablation experiments, providing crucial practical guidance for the comprehensive optimization of recommendation systems. | 翻訳日:2024-11-04 07:55:57 公開日:2024-10-20 |
# 大型モデルとVAE強化に基づくマルチモーダル衣服レコメンデーションモデル
Multi-modal clothing recommendation model based on large model and VAE enhancement ( http://arxiv.org/abs/2410.02219v2 ) ライセンス: Link先を確認 | Bingjie Huang, Qingyi Lu, Shuaishuai Huang, Xue-she Wang, Haowei Yang, | (参考訳) 製品の正確な推奨は、長い間、詳細な調査を必要とする課題だった。
本研究では,衣服推薦のためのマルチモーダルパラダイムを提案する。
具体的には,服用記述文や画像を統合するマルチモーダル分析手法を設計し,事前学習した大規模言語モデルを用いてユーザや製品の隠れた意味を深く探求する。
また、リコメンデーションシステムにおける冷間開始問題に対処するため、ユーザ情報と製品との関係を学習するために変分エンコーダを用いる。
本研究は, 広範囲なアブレーション実験を通じて, 様々なレコメンデーションシステム手法に対する本手法の有効性を検証し, 総合的なレコメンデーションシステムの最適化のための重要な実践的ガイダンスを提供する。
Accurately recommending products has long been a subject requiring in-depth research. This study proposes a multimodal paradigm for clothing recommendations. Specifically, it designs a multimodal analysis method that integrates clothing description texts and images, utilizing a pre-trained large language model to deeply explore the hidden meanings of users and products. Additionally, a variational encoder is employed to learn the relationship between user information and products to address the cold start problem in recommendation systems. This study also validates the significant performance advantages of this method over various recommendation system methods through extensive ablation experiments, providing crucial practical guidance for the comprehensive optimization of recommendation systems. | 翻訳日:2024-11-04 07:55:57 公開日:2024-10-20 |
# LoTLIP:長文理解のための言語画像事前学習の改善
LoTLIP: Improving Language-Image Pre-training for Long Text Understanding ( http://arxiv.org/abs/2410.05249v1 ) ライセンス: Link先を確認 | Wei Wu, Kecheng Zheng, Shuailei Ma, Fan Lu, Yuxin Guo, Yifei Zhang, Wei Chen, Qingpei Guo, Yujun Shen, Zheng-Jun Zha, | (参考訳) 長いテキストを理解することは実際は非常に要求があるが、ほとんどの言語画像事前学習(LIP)モデルの範囲を超えている。
本研究では,このような問題の原因となる重要な要因として,トレーニング画像が短いキャプションとペアリングされる場合が多く,特定のトークンが有意なトークンによって隠蔽されやすいことが実証的に確認される。
この問題への取り組みとして、まずは長いキャプションでデータを再現することを目的としているが、短いテキスト(例えば画像分類タスク)の理解において、直接学習することでパフォーマンスが低下する可能性がある。
そして, コーナートークンを組み込んで多様なテキスト情報を集約した後, モデルが本来の短文理解レベルに追いつくのに役立ちながら, 長文理解の能力を大幅に向上させる。
さらに、モデルが長いキャプションの恩恵を継続的に受けられるかどうかを考察し、パフォーマンスと効率の明確なトレードオフに気付く。
最後に,提案手法の有効性を,100万字幕指向のテキストイメージペアからなる自己構築型大規模データセットを用いて検証する。
長文画像検索のタスクでは、11.1%の改善(72.62%から83.72%)の長いキャプションでライバルに勝っている点が注目に値する。
再現性とさらなる研究を容易にするために、コード、モデル、および新しいデータセットをリリースします。
プロジェクトのページはhttps://wuw2019.github.io/lotlip.comで公開されている。
Understanding long text is of great demands in practice but beyond the reach of most language-image pre-training (LIP) models. In this work, we empirically confirm that the key reason causing such an issue is that the training images are usually paired with short captions, leaving certain tokens easily overshadowed by salient tokens. Towards this problem, our initial attempt is to relabel the data with long captions, however, directly learning with which may lead to performance degradation in understanding short text (e.g., in the image classification task). Then, after incorporating corner tokens to aggregate diverse textual information, we manage to help the model catch up to its original level of short text understanding yet greatly enhance its capability of long text understanding. We further look into whether the model can continuously benefit from longer captions and notice a clear trade-off between the performance and the efficiency. Finally, we validate the effectiveness of our approach using a self-constructed large-scale dataset, which consists of 100M long caption oriented text-image pairs. It is noteworthy that, on the task of long-text image retrieval, we beat the competitor using long captions with 11.1% improvement (i.e., from 72.62% to 83.72%). We will release the code, the model, and the new dataset to facilitate the reproducibility and further research. The project page is available at https://wuw2019.github.io/lotlip. | 翻訳日:2024-11-01 20:07:08 公開日:2024-10-20 |
# LoTLIP:長文理解のための言語画像事前学習の改善
LoTLIP: Improving Language-Image Pre-training for Long Text Understanding ( http://arxiv.org/abs/2410.05249v2 ) ライセンス: Link先を確認 | Wei Wu, Kecheng Zheng, Shuailei Ma, Fan Lu, Yuxin Guo, Yifei Zhang, Wei Chen, Qingpei Guo, Yujun Shen, Zheng-Jun Zha, | (参考訳) 長いテキストを理解することは実際は非常に要求があるが、ほとんどの言語画像事前学習(LIP)モデルの範囲を超えている。
本研究では,このような問題の原因となる重要な要因として,トレーニング画像が短いキャプションとペアリングされる場合が多く,特定のトークンが有意なトークンによって隠蔽されやすいことが実証的に確認される。
この問題への取り組みとして、まずは長いキャプションでデータを再現することを目的としているが、短いテキスト(例えば画像分類タスク)の理解において、直接学習することでパフォーマンスが低下する可能性がある。
そして, コーナートークンを組み込んで多様なテキスト情報を集約した後, モデルが本来の短文理解レベルに追いつくのに役立ちながら, 長文理解の能力を大幅に向上させる。
さらに、モデルが長いキャプションの恩恵を継続的に受けられるかどうかを考察し、パフォーマンスと効率の明確なトレードオフに気付く。
最後に,提案手法の有効性を,100万字幕指向のテキストイメージペアからなる自己構築型大規模データセットを用いて検証する。
長文画像検索のタスクでは、11.1%の改善(72.62%から83.72%)の長いキャプションでライバルに勝っている点が注目に値する。
再現性とさらなる研究を容易にするために、コード、モデル、および新しいデータセットをリリースします。
プロジェクトのページはhttps://wuw2019.github.io/lot-lip.comで公開されている。
Understanding long text is of great demands in practice but beyond the reach of most language-image pre-training (LIP) models. In this work, we empirically confirm that the key reason causing such an issue is that the training images are usually paired with short captions, leaving certain tokens easily overshadowed by salient tokens. Towards this problem, our initial attempt is to relabel the data with long captions, however, directly learning with which may lead to performance degradation in understanding short text (e.g., in the image classification task). Then, after incorporating corner tokens to aggregate diverse textual information, we manage to help the model catch up to its original level of short text understanding yet greatly enhance its capability of long text understanding. We further look into whether the model can continuously benefit from longer captions and notice a clear trade-off between the performance and the efficiency. Finally, we validate the effectiveness of our approach using a self-constructed large-scale dataset, which consists of 100M long caption oriented text-image pairs. It is noteworthy that, on the task of long-text image retrieval, we beat the competitor using long captions with 11.1% improvement (i.e., from 72.62% to 83.72%). We will release the code, the model, and the new dataset to facilitate the reproducibility and further research. The project page is available at https://wuw2019.github.io/lot-lip. | 翻訳日:2024-11-01 20:07:08 公開日:2024-10-20 |
# LoTLIP:長文理解のための言語画像事前学習の改善
LoTLIP: Improving Language-Image Pre-training for Long Text Understanding ( http://arxiv.org/abs/2410.05249v3 ) ライセンス: Link先を確認 | Wei Wu, Kecheng Zheng, Shuailei Ma, Fan Lu, Yuxin Guo, Yifei Zhang, Wei Chen, Qingpei Guo, Yujun Shen, Zheng-Jun Zha, | (参考訳) 長いテキストを理解することは実際は非常に要求があるが、ほとんどの言語画像事前学習(LIP)モデルの範囲を超えている。
本研究では,このような問題の原因となる重要な要因として,トレーニング画像が短いキャプションとペアリングされる場合が多く,特定のトークンが有意なトークンによって隠蔽されやすいことが実証的に確認される。
この問題への取り組みとして、まずは長いキャプションでデータを再現することを目的としているが、短いテキスト(例えば画像分類タスク)の理解において、直接学習することでパフォーマンスが低下する可能性がある。
そして, コーナートークンを組み込んで多様なテキスト情報を集約した後, モデルが本来の短文理解レベルに追いつくのに役立ちながら, 長文理解の能力を大幅に向上させる。
さらに、モデルが長いキャプションの恩恵を継続的に受けられるかどうかを考察し、パフォーマンスと効率の明確なトレードオフに気付く。
最後に,提案手法の有効性を,100万字幕指向のテキストイメージペアからなる自己構築型大規模データセットを用いて検証する。
長文画像検索のタスクでは、11.1%の改善(72.62%から83.72%)の長いキャプションでライバルに勝っている点が注目に値する。
再現性とさらなる研究を容易にするために、コード、モデル、および新しいデータセットをリリースします。
プロジェクトのページはhttps://wuw2019.github.io/lot-lip.comで公開されている。
Understanding long text is of great demands in practice but beyond the reach of most language-image pre-training (LIP) models. In this work, we empirically confirm that the key reason causing such an issue is that the training images are usually paired with short captions, leaving certain tokens easily overshadowed by salient tokens. Towards this problem, our initial attempt is to relabel the data with long captions, however, directly learning with which may lead to performance degradation in understanding short text (e.g., in the image classification task). Then, after incorporating corner tokens to aggregate diverse textual information, we manage to help the model catch up to its original level of short text understanding yet greatly enhance its capability of long text understanding. We further look into whether the model can continuously benefit from longer captions and notice a clear trade-off between the performance and the efficiency. Finally, we validate the effectiveness of our approach using a self-constructed large-scale dataset, which consists of 100M long caption oriented text-image pairs. It is noteworthy that, on the task of long-text image retrieval, we beat the competitor using long captions with 11.1% improvement (i.e., from 72.62% to 83.72%). We will release the code, the model, and the new dataset to facilitate the reproducibility and further research. The project page is available at https://wuw2019.github.io/lot-lip. | 翻訳日:2024-11-01 20:07:08 公開日:2024-10-20 |
# LoTLIP:長文理解のための言語画像事前学習の改善
LoTLIP: Improving Language-Image Pre-training for Long Text Understanding ( http://arxiv.org/abs/2410.05249v4 ) ライセンス: Link先を確認 | Wei Wu, Kecheng Zheng, Shuailei Ma, Fan Lu, Yuxin Guo, Yifei Zhang, Wei Chen, Qingpei Guo, Yujun Shen, Zheng-Jun Zha, | (参考訳) 長いテキストを理解することは実際は非常に要求があるが、ほとんどの言語画像事前学習(LIP)モデルの範囲を超えている。
本研究では,このような問題の原因となる重要な要因として,トレーニング画像が短いキャプションとペアリングされる場合が多く,特定のトークンが有意なトークンによって隠蔽されやすいことが実証的に確認される。
この問題への取り組みとして、まずは長いキャプションでデータを再現することを目的としているが、短いテキスト(例えば画像分類タスク)の理解において、直接学習することでパフォーマンスが低下する可能性がある。
そして, コーナートークンを組み込んで多様なテキスト情報を集約した後, モデルが本来の短文理解レベルに追いつくのに役立ちながら, 長文理解の能力を大幅に向上させる。
さらに、モデルが長いキャプションの恩恵を継続的に受けられるかどうかを考察し、パフォーマンスと効率の明確なトレードオフに気付く。
最後に,提案手法の有効性を,100万字幕指向のテキストイメージペアからなる自己構築型大規模データセットを用いて検証する。
長文画像検索のタスクでは、11.1%の改善(72.62%から83.72%)の長いキャプションでライバルに勝っている点が注目に値する。
再現性とさらなる研究を容易にするために、コード、モデル、および新しいデータセットをリリースします。
プロジェクトのページはhttps://wuw2019.github.io/lot-lip.comで公開されている。
Understanding long text is of great demands in practice but beyond the reach of most language-image pre-training (LIP) models. In this work, we empirically confirm that the key reason causing such an issue is that the training images are usually paired with short captions, leaving certain tokens easily overshadowed by salient tokens. Towards this problem, our initial attempt is to relabel the data with long captions, however, directly learning with which may lead to performance degradation in understanding short text (e.g., in the image classification task). Then, after incorporating corner tokens to aggregate diverse textual information, we manage to help the model catch up to its original level of short text understanding yet greatly enhance its capability of long text understanding. We further look into whether the model can continuously benefit from longer captions and notice a clear trade-off between the performance and the efficiency. Finally, we validate the effectiveness of our approach using a self-constructed large-scale dataset, which consists of 100M long caption oriented text-image pairs. It is noteworthy that, on the task of long-text image retrieval, we beat the competitor using long captions with 11.1% improvement (i.e., from 72.62% to 83.72%). We will release the code, the model, and the new dataset to facilitate the reproducibility and further research. The project page is available at https://wuw2019.github.io/lot-lip. | 翻訳日:2024-11-01 19:57:24 公開日:2024-10-20 |
# いつどこで起きたのか?シナリオコンテキストを識別するエンコーダ・デコーダモデル
When and Where Did it Happen? An Encoder-Decoder Model to Identify Scenario Context ( http://arxiv.org/abs/2410.07567v1 ) ライセンス: Link先を確認 | Enrique Noriega-Atala, Robert Vacareanu, Salena Torres Ashton, Adarsh Pyarelal, Clayton T. Morrison, Mihai Surdeanu, | (参考訳) シナリオコンテキスト生成のタスクのために微調整されたニューラルアーキテクチャを導入します。
情報抽出のコンテキスト化は、知識グラフとして集約する際の自動フィニングの有効性を調査するのに役立ちます。
提案手法では,エンコーダ・デコーダアーキテクチャをトレーニングするために,疫学論文のコーパス内で,高品質な時間と位置アノテーションのデータセットを使用する。
また、トレーニング中にデータ拡張テクニックの使用についても検討した。
この結果から,比較的小型のエンコーダ・デコーダモデルでは,特定のエンティティやイベントのシナリオ情報を正確に予測するために,既成のLCMやセマンティック・ロール・ラベリング・パーサよりも優れた性能を発揮することが示唆された。
We introduce a neural architecture finetuned for the task of scenario context generation: The relevant location and time of an event or entity mentioned in text. Contextualizing information extraction helps to scope the validity of automated finings when aggregating them as knowledge graphs. Our approach uses a high-quality curated dataset of time and location annotations in a corpus of epidemiology papers to train an encoder-decoder architecture. We also explored the use of data augmentation techniques during training. Our findings suggest that a relatively small fine-tuned encoder-decoder model performs better than out-of-the-box LLMs and semantic role labeling parsers to accurate predict the relevant scenario information of a particular entity or event. | 翻訳日:2024-10-31 16:16:17 公開日:2024-10-20 |
# いつどこで起きたのか?シナリオコンテキストを識別するエンコーダ・デコーダモデル
When and Where Did it Happen? An Encoder-Decoder Model to Identify Scenario Context ( http://arxiv.org/abs/2410.07567v2 ) ライセンス: Link先を確認 | Enrique Noriega-Atala, Robert Vacareanu, Salena Torres Ashton, Adarsh Pyarelal, Clayton T. Morrison, Mihai Surdeanu, | (参考訳) シナリオコンテキスト生成のタスクのために微調整されたニューラルアーキテクチャを導入します。
情報抽出のコンテキスト化は、知識グラフとして集約する際の自動フィニングの有効性を調査するのに役立ちます。
提案手法では,エンコーダ・デコーダアーキテクチャをトレーニングするために,疫学論文のコーパス内で,高品質な時間と位置アノテーションのデータセットを使用する。
また、トレーニング中にデータ拡張テクニックの使用についても検討した。
この結果から,比較的小型のエンコーダ・デコーダモデルでは,特定のエンティティやイベントのシナリオ情報を正確に予測するために,既成のLCMやセマンティック・ロール・ラベリング・パーサよりも優れた性能を発揮することが示唆された。
We introduce a neural architecture finetuned for the task of scenario context generation: The relevant location and time of an event or entity mentioned in text. Contextualizing information extraction helps to scope the validity of automated finings when aggregating them as knowledge graphs. Our approach uses a high-quality curated dataset of time and location annotations in a corpus of epidemiology papers to train an encoder-decoder architecture. We also explored the use of data augmentation techniques during training. Our findings suggest that a relatively small fine-tuned encoder-decoder model performs better than out-of-the-box LLMs and semantic role labeling parsers to accurate predict the relevant scenario information of a particular entity or event. | 翻訳日:2024-10-31 16:16:17 公開日:2024-10-20 |
# ヘイトスピーチアノテーションにおける人間とLDMのバイアス--アノテーションとターゲットの社会デモグラフィーによる分析
Human and LLM Biases in Hate Speech Annotations: A Socio-Demographic Analysis of Annotators and Targets ( http://arxiv.org/abs/2410.07991v1 ) ライセンス: Link先を確認 | Tommaso Giorgi, Lorenzo Cima, Tiziano Fagni, Marco Avvenuti, Stefano Cresci, | (参考訳) オンラインプラットフォームの台頭はヘイトスピーチの普及を加速させ、スケーラブルで効果的な検出を要求した。
しかし、ヘイトスピーチ検出システムの精度は、本質的にバイアスの影響を受けやすい人間のラベル付きデータに大きく依存している。
以前の研究でこの問題を調べたが、アノテータの特徴とヘイトの対象との相互作用はまだ解明されていない。
このギャップを埋めるために、アノテータとターゲットの両方の社会デコグラフィー情報を豊富なデータセットで活用し、ターゲットの属性に関連する人間のバイアスがどのように現れるかを明らかにする。
分析の結果,その強度と有病率に基づいて定量的に記述し,特徴付けする広範なバイアスの存在が明らかとなった。
さらに,ヒトの偏見とペルソナをベースとしたLLMで示される偏見を比較検討した。
以上の結果から, ペルソナ系LPMは偏見を呈するが, ヒトのアノテータとは大きく異なることが示唆された。
全体として、私たちの研究はヘイトスピーチアノテーションにおける人間のバイアスに関する新しいニュアンスな結果を提供し、AI駆動のヘイトスピーチ検出システムの設計に関する新たな洞察を提供する。
The rise of online platforms exacerbated the spread of hate speech, demanding scalable and effective detection. However, the accuracy of hate speech detection systems heavily relies on human-labeled data, which is inherently susceptible to biases. While previous work has examined the issue, the interplay between the characteristics of the annotator and those of the target of the hate are still unexplored. We fill this gap by leveraging an extensive dataset with rich socio-demographic information of both annotators and targets, uncovering how human biases manifest in relation to the target's attributes. Our analysis surfaces the presence of widespread biases, which we quantitatively describe and characterize based on their intensity and prevalence, revealing marked differences. Furthermore, we compare human biases with those exhibited by persona-based LLMs. Our findings indicate that while persona-based LLMs do exhibit biases, these differ significantly from those of human annotators. Overall, our work offers new and nuanced results on human biases in hate speech annotations, as well as fresh insights into the design of AI-driven hate speech detection systems. | 翻訳日:2024-10-31 06:05:03 公開日:2024-10-20 |
# ヘイトスピーチアノテーションにおける人間とLDMのバイアス--アノテーションとターゲットの社会デモグラフィーによる分析
Human and LLM Biases in Hate Speech Annotations: A Socio-Demographic Analysis of Annotators and Targets ( http://arxiv.org/abs/2410.07991v2 ) ライセンス: Link先を確認 | Tommaso Giorgi, Lorenzo Cima, Tiziano Fagni, Marco Avvenuti, Stefano Cresci, | (参考訳) オンラインプラットフォームの台頭はヘイトスピーチの普及を加速させ、スケーラブルで効果的な検出を要求した。
しかし、ヘイトスピーチ検出システムの精度は、本質的にバイアスの影響を受けやすい人間のラベル付きデータに大きく依存している。
以前の研究でこの問題を調べたが、アノテータの特徴とヘイトの対象との相互作用はまだ解明されていない。
このギャップを埋めるために、アノテータとターゲットの両方の社会デコグラフィー情報を豊富なデータセットで活用し、ターゲットの属性に関連する人間のバイアスがどのように現れるかを明らかにする。
分析の結果,その強度と有病率に基づいて定量的に記述し,特徴付けする広範なバイアスの存在が明らかとなった。
さらに,ヒトの偏見とペルソナをベースとしたLLMで示される偏見を比較検討した。
以上の結果から, ペルソナ系LPMは偏見を呈するが, ヒトのアノテータとは大きく異なることが示唆された。
全体として、私たちの研究はヘイトスピーチアノテーションにおける人間のバイアスに関する新しいニュアンスな結果を提供し、AI駆動のヘイトスピーチ検出システムの設計に関する新たな洞察を提供する。
The rise of online platforms exacerbated the spread of hate speech, demanding scalable and effective detection. However, the accuracy of hate speech detection systems heavily relies on human-labeled data, which is inherently susceptible to biases. While previous work has examined the issue, the interplay between the characteristics of the annotator and those of the target of the hate are still unexplored. We fill this gap by leveraging an extensive dataset with rich socio-demographic information of both annotators and targets, uncovering how human biases manifest in relation to the target's attributes. Our analysis surfaces the presence of widespread biases, which we quantitatively describe and characterize based on their intensity and prevalence, revealing marked differences. Furthermore, we compare human biases with those exhibited by persona-based LLMs. Our findings indicate that while persona-based LLMs do exhibit biases, these differ significantly from those of human annotators. Overall, our work offers new and nuanced results on human biases in hate speech annotations, as well as fresh insights into the design of AI-driven hate speech detection systems. | 翻訳日:2024-10-31 06:05:03 公開日:2024-10-20 |
# ヘイトスピーチアノテーションにおける人間とLDMのバイアス--アノテーションとターゲットの社会デモグラフィーによる分析
Human and LLM Biases in Hate Speech Annotations: A Socio-Demographic Analysis of Annotators and Targets ( http://arxiv.org/abs/2410.07991v3 ) ライセンス: Link先を確認 | Tommaso Giorgi, Lorenzo Cima, Tiziano Fagni, Marco Avvenuti, Stefano Cresci, | (参考訳) オンラインプラットフォームの台頭はヘイトスピーチの普及を加速させ、スケーラブルで効果的な検出を要求した。
しかし、ヘイトスピーチ検出システムの精度は、本質的にバイアスの影響を受けやすい人間のラベル付きデータに大きく依存している。
以前の研究でこの問題を調べたが、アノテータの特徴とヘイトの対象との相互作用はまだ解明されていない。
このギャップを埋めるために、アノテータとターゲットの両方の社会デコグラフィー情報を豊富なデータセットで活用し、ターゲットの属性に関連する人間のバイアスがどのように現れるかを明らかにする。
分析の結果,その強度と有病率に基づいて定量的に記述し,特徴付けする広範なバイアスの存在が明らかとなった。
さらに,ヒトの偏見とペルソナをベースとしたLLMで示される偏見を比較検討した。
以上の結果から, ペルソナ系LPMは偏見を呈するが, ヒトのアノテータとは大きく異なることが示唆された。
全体として、私たちの研究はヘイトスピーチアノテーションにおける人間のバイアスに関する新しいニュアンスな結果を提供し、AI駆動のヘイトスピーチ検出システムの設計に関する新たな洞察を提供する。
The rise of online platforms exacerbated the spread of hate speech, demanding scalable and effective detection. However, the accuracy of hate speech detection systems heavily relies on human-labeled data, which is inherently susceptible to biases. While previous work has examined the issue, the interplay between the characteristics of the annotator and those of the target of the hate are still unexplored. We fill this gap by leveraging an extensive dataset with rich socio-demographic information of both annotators and targets, uncovering how human biases manifest in relation to the target's attributes. Our analysis surfaces the presence of widespread biases, which we quantitatively describe and characterize based on their intensity and prevalence, revealing marked differences. Furthermore, we compare human biases with those exhibited by persona-based LLMs. Our findings indicate that while persona-based LLMs do exhibit biases, these differ significantly from those of human annotators. Overall, our work offers new and nuanced results on human biases in hate speech annotations, as well as fresh insights into the design of AI-driven hate speech detection systems. | 翻訳日:2024-10-31 06:05:02 公開日:2024-10-20 |
# AI生成画像とビデオの品質予測 : 新たなトレンドと機会
Quality Prediction of AI Generated Images and Videos: Emerging Trends and Opportunities ( http://arxiv.org/abs/2410.08534v1 ) ライセンス: Link先を確認 | Abhijay Ghildyal, Yuanhan Chen, Saman Zadtootaghaj, Nabajeet Barman, Alan C. Bovik, | (参考訳) AIの出現は、自動運転車やインテリジェントなチャットボットから、ユーザープロンプト(テキスト・ツー・イメージ、画像・トゥ・ビデオ)に基づいたリアルなイメージとビデオを作成することができるテキストベースの画像およびビデオ生成モデルに至るまで、人間の生活の多くの側面に影響を与えてきた。
画像とビデオの超解像、ビデオフレームの補間、デノイング、圧縮のためのAIベースの手法は、すでに業界に対して大きな関心と関心を集めており、いくつかのソリューションはすでに現実世界の製品やサービスで実装されている。
しかし、幅広い統合と受け入れを達成するためには、AI生成および強化されたコンテンツは視覚的に正確であり、意図された使用に固執し、エンドユーザの体験品質(QoE)の劣化を避けるために、高い視覚的品質を維持する必要がある。
AI生成および強化されたコンテンツの視覚的“品質”を監視し制御するひとつの方法は、画像品質アセスメント(IQA)とビデオ品質アセスメント(VQA)モデルをデプロイすることである。
しかしながら、既存のIQAおよびVQAモデルは、プリスタン参照コンテンツに対する「再構成」品質の観点から視覚的忠実度を測定しており、「生成的」アーティファクトの品質を評価するように設計されていない。
これを解決するために、新しいメトリクスとモデルが最近提案されているが、そのパフォーマンス評価と全体的な有効性は、代表的コンテンツや/または歪み容量が不足しているデータセットや、"GenAI"のIQA/VQAモデルの成功を正確に報告できるパフォーマンス指標によって制限されている。
本稿では,AIによって生成・強化された画像・映像コンテンツがもたらす現状の問題点と可能性について考察する。
最後に、オープンな質問を議論し、「GenAI」品質評価問題に関する今後の課題について、この興味深く関連する研究分野のさらなる進展に向けて提言する。
The advent of AI has influenced many aspects of human life, from self-driving cars and intelligent chatbots to text-based image and video generation models capable of creating realistic images and videos based on user prompts (text-to-image, image-to-image, and image-to-video). AI-based methods for image and video super resolution, video frame interpolation, denoising, and compression have already gathered significant attention and interest in the industry and some solutions are already being implemented in real-world products and services. However, to achieve widespread integration and acceptance, AI-generated and enhanced content must be visually accurate, adhere to intended use, and maintain high visual quality to avoid degrading the end user's quality of experience (QoE). One way to monitor and control the visual "quality" of AI-generated and -enhanced content is by deploying Image Quality Assessment (IQA) and Video Quality Assessment (VQA) models. However, most existing IQA and VQA models measure visual fidelity in terms of "reconstruction" quality against a pristine reference content and were not designed to assess the quality of "generative" artifacts. To address this, newer metrics and models have recently been proposed, but their performance evaluation and overall efficacy have been limited by datasets that were too small or otherwise lack representative content and/or distortion capacity; and by performance measures that can accurately report the success of an IQA/VQA model for "GenAI". This paper examines the current shortcomings and possibilities presented by AI-generated and enhanced image and video content, with a particular focus on end-user perceived quality. Finally, we discuss open questions and make recommendations for future work on the "GenAI" quality assessment problems, towards further progressing on this interesting and relevant field of research. | 翻訳日:2024-10-30 23:24:44 公開日:2024-10-20 |
# AI生成画像とビデオの品質予測 : 新たなトレンドと機会
Quality Prediction of AI Generated Images and Videos: Emerging Trends and Opportunities ( http://arxiv.org/abs/2410.08534v2 ) ライセンス: Link先を確認 | Abhijay Ghildyal, Yuanhan Chen, Saman Zadtootaghaj, Nabajeet Barman, Alan C. Bovik, | (参考訳) AIの出現は、自動運転車やインテリジェントなチャットボットから、ユーザープロンプト(テキスト・ツー・イメージ、画像・トゥ・ビデオ)に基づいたリアルなイメージとビデオを作成することができるテキストベースの画像およびビデオ生成モデルに至るまで、人間の生活の多くの側面に影響を与えてきた。
画像とビデオの超解像、ビデオフレームの補間、デノイング、圧縮のためのAIベースの手法は、すでに業界に対して大きな関心と関心を集めており、いくつかのソリューションはすでに現実世界の製品やサービスで実装されている。
しかし、幅広い統合と受け入れを達成するためには、AI生成および強化されたコンテンツは視覚的に正確であり、意図された使用に固執し、エンドユーザの体験品質(QoE)の劣化を避けるために、高い視覚的品質を維持する必要がある。
AI生成および強化されたコンテンツの視覚的“品質”を監視し制御するひとつの方法は、画像品質アセスメント(IQA)とビデオ品質アセスメント(VQA)モデルをデプロイすることである。
しかしながら、既存のIQAおよびVQAモデルは、プリスタン参照コンテンツに対する「再構成」品質の観点から視覚的忠実度を測定しており、「生成的」アーティファクトの品質を評価するように設計されていない。
これを解決するために、新しいメトリクスとモデルが最近提案されているが、そのパフォーマンス評価と全体的な有効性は、代表的コンテンツや/または歪み容量が不足しているデータセットや、"GenAI"のIQA/VQAモデルの成功を正確に報告できるパフォーマンス指標によって制限されている。
本稿では,AIによって生成・強化された画像・映像コンテンツがもたらす現状の問題点と可能性について考察する。
最後に、オープンな質問を議論し、「GenAI」品質評価問題に関する今後の課題について、この興味深く関連する研究分野のさらなる進展に向けて提言する。
The advent of AI has influenced many aspects of human life, from self-driving cars and intelligent chatbots to text-based image and video generation models capable of creating realistic images and videos based on user prompts (text-to-image, image-to-image, and image-to-video). AI-based methods for image and video super resolution, video frame interpolation, denoising, and compression have already gathered significant attention and interest in the industry and some solutions are already being implemented in real-world products and services. However, to achieve widespread integration and acceptance, AI-generated and enhanced content must be visually accurate, adhere to intended use, and maintain high visual quality to avoid degrading the end user's quality of experience (QoE). One way to monitor and control the visual "quality" of AI-generated and -enhanced content is by deploying Image Quality Assessment (IQA) and Video Quality Assessment (VQA) models. However, most existing IQA and VQA models measure visual fidelity in terms of "reconstruction" quality against a pristine reference content and were not designed to assess the quality of "generative" artifacts. To address this, newer metrics and models have recently been proposed, but their performance evaluation and overall efficacy have been limited by datasets that were too small or otherwise lack representative content and/or distortion capacity; and by performance measures that can accurately report the success of an IQA/VQA model for "GenAI". This paper examines the current shortcomings and possibilities presented by AI-generated and enhanced image and video content, with a particular focus on end-user perceived quality. Finally, we discuss open questions and make recommendations for future work on the "GenAI" quality assessment problems, towards further progressing on this interesting and relevant field of research. | 翻訳日:2024-10-30 23:24:44 公開日:2024-10-20 |
# 信頼できる知識グラフ推論に向けて:不確実性に気付く視点
Towards Trustworthy Knowledge Graph Reasoning: An Uncertainty Aware Perspective ( http://arxiv.org/abs/2410.08985v1 ) ライセンス: Link先を確認 | Bo Ni, Yu Wang, Lu Cheng, Erik Blasch, Tyler Derr, | (参考訳) 近年、知識グラフ(KGs)はLarge Language Models(LLMs)とうまく結合して幻覚を緩和し、KGベースの検索強化フレームワークのような推論能力を高めている。
しかし、現在のKG-LLMフレームワークは厳密な不確実性評価を欠いている。
KG-LLMフレームワークに不確実な定量化を直接組み込むことは、複雑なアーキテクチャと知識グラフと言語モデルコンポーネント間の複雑な相互作用による課題を提起する。
このギャップに対処するために,不確実な定量化をKG-LLMフレームワークに組み込んだ,信頼性の高いKG-LLMフレームワークUncertainty Aware Knowledge-Graph Reasoning (UAG)を提案する。
本研究では, 整合予測を利用した不確実性を考慮した多段階推論フレームワークを設計し, 予測セットに対する理論的保証を提供する。
マルチステッププロセスのエラー率を管理するために,各コンポーネント内のエラー率を調整するエラー率制御モジュールを導入する。
以上の結果から,提案したUAGは,ベースライン平均で予測値/インターバルサイズを40%削減し,事前定義されたカバレッジ率を達成できることが示唆された。
Recently, Knowledge Graphs (KGs) have been successfully coupled with Large Language Models (LLMs) to mitigate their hallucinations and enhance their reasoning capability, such as in KG-based retrieval-augmented frameworks. However, current KG-LLM frameworks lack rigorous uncertainty estimation, limiting their reliable deployment in high-stakes applications. Directly incorporating uncertainty quantification into KG-LLM frameworks presents challenges due to their complex architectures and the intricate interactions between the knowledge graph and language model components. To address this gap, we propose a new trustworthy KG-LLM framework, Uncertainty Aware Knowledge-Graph Reasoning (UAG), which incorporates uncertainty quantification into the KG-LLM framework. We design an uncertainty-aware multi-step reasoning framework that leverages conformal prediction to provide a theoretical guarantee on the prediction set. To manage the error rate of the multi-step process, we additionally introduce an error rate control module to adjust the error rate within the individual components. Extensive experiments show that our proposed UAG can achieve any pre-defined coverage rate while reducing the prediction set/interval size by 40% on average over the baselines. | 翻訳日:2024-10-30 20:46:27 公開日:2024-10-20 |
# 信頼できる知識グラフ推論に向けて:不確実性に気付く視点
Towards Trustworthy Knowledge Graph Reasoning: An Uncertainty Aware Perspective ( http://arxiv.org/abs/2410.08985v2 ) ライセンス: Link先を確認 | Bo Ni, Yu Wang, Lu Cheng, Erik Blasch, Tyler Derr, | (参考訳) 近年、知識グラフ(KGs)はLarge Language Models(LLMs)とうまく結合して幻覚を緩和し、KGベースの検索強化フレームワークのような推論能力を高めている。
しかし、現在のKG-LLMフレームワークは厳密な不確実性評価を欠いている。
KG-LLMフレームワークに不確実な定量化を直接組み込むことは、複雑なアーキテクチャと知識グラフと言語モデルコンポーネント間の複雑な相互作用による課題を提起する。
このギャップに対処するために,不確実な定量化をKG-LLMフレームワークに組み込んだ,信頼性の高いKG-LLMフレームワークUncertainty Aware Knowledge-Graph Reasoning (UAG)を提案する。
本研究では, 整合予測を利用した不確実性を考慮した多段階推論フレームワークを設計し, 予測セットに対する理論的保証を提供する。
マルチステッププロセスのエラー率を管理するために,各コンポーネント内のエラー率を調整するエラー率制御モジュールを導入する。
以上の結果から,提案したUAGは,ベースライン平均で予測値/インターバルサイズを40%削減し,事前定義されたカバレッジ率を達成できることが示唆された。
Recently, Knowledge Graphs (KGs) have been successfully coupled with Large Language Models (LLMs) to mitigate their hallucinations and enhance their reasoning capability, such as in KG-based retrieval-augmented frameworks. However, current KG-LLM frameworks lack rigorous uncertainty estimation, limiting their reliable deployment in high-stakes applications. Directly incorporating uncertainty quantification into KG-LLM frameworks presents challenges due to their complex architectures and the intricate interactions between the knowledge graph and language model components. To address this gap, we propose a new trustworthy KG-LLM framework, Uncertainty Aware Knowledge-Graph Reasoning (UAG), which incorporates uncertainty quantification into the KG-LLM framework. We design an uncertainty-aware multi-step reasoning framework that leverages conformal prediction to provide a theoretical guarantee on the prediction set. To manage the error rate of the multi-step process, we additionally introduce an error rate control module to adjust the error rate within the individual components. Extensive experiments show that our proposed UAG can achieve any pre-defined coverage rate while reducing the prediction set/interval size by 40% on average over the baselines. | 翻訳日:2024-10-30 20:46:27 公開日:2024-10-20 |
# 絡み合いと潜伏空間の反射
Reflections on Disentanglement and the Latent Space ( http://arxiv.org/abs/2410.09094v1 ) ライセンス: Link先を確認 | Ludovica Schaerf, | (参考訳) 画像生成モデルの潜在空間は、圧縮された隠された視覚的知識の多次元空間である。
その存在は、コンピュータ科学者、デジタルアーティスト、メディア学者らを魅了する。
ラテント・スペースはAI芸術において美学のカテゴリーとなり、マリオ・クリンゲマンなどの作品で実証された、ラテント・スペースウォークのような芸術的技法を刺激している。
それはまた、文化的なスナップショットと見なされ、私たちの視覚世界の豊かな表現をエンコードしています。
本稿では,多次元の文化アーカイブとして,多次元のポテンシャル空間として,潜在空間の二重ビューを提案する。
本稿では,空間の二重性を明らかにする手法として,また,その組織を人間の言葉で活用するための解釈的方向として,ゆがみについて論じる。
この論文は、非絡み合いを想像力として条件付けの役割と比較し、この解釈を、デロイズ的ポテンシャルとヒュームの想像力の哲学と対立させる。
最後に,従来の生成モデルと最近のアーキテクチャの違いについて述べる。
The latent space of image generative models is a multi-dimensional space of compressed hidden visual knowledge. Its entity captivates computer scientists, digital artists, and media scholars alike. Latent space has become an aesthetic category in AI art, inspiring artistic techniques such as the latent space walk, exemplified by the works of Mario Klingemann and others. It is also viewed as cultural snapshots, encoding rich representations of our visual world. This paper proposes a double view of the latent space, as a multi-dimensional archive of culture and as a multi-dimensional space of potentiality. The paper discusses disentanglement as a method to elucidate the double nature of the space and as an interpretative direction to exploit its organization in human terms. The paper compares the role of disentanglement as potentiality to that of conditioning, as imagination, and confronts this interpretation with the philosophy of Deleuzian potentiality and Hume's imagination. Lastly, this paper notes the difference between traditional generative models and recent architectures. | 翻訳日:2024-10-30 16:38:28 公開日:2024-10-20 |
# 絡み合いと潜伏空間の反射
Reflections on Disentanglement and the Latent Space ( http://arxiv.org/abs/2410.09094v2 ) ライセンス: Link先を確認 | Ludovica Schaerf, | (参考訳) 画像生成モデルの潜在空間は、圧縮された隠された視覚的知識の多次元空間である。
その存在は、コンピュータ科学者、デジタルアーティスト、メディア学者らを魅了する。
ラテント・スペースはAI芸術において美学のカテゴリーとなり、マリオ・クリンゲマンなどの作品で実証された、ラテント・スペースウォークのような芸術的技法を刺激している。
それはまた、文化的なスナップショットと見なされ、私たちの視覚世界の豊かな表現をエンコードしています。
本稿では,多次元の文化アーカイブとして,多次元のポテンシャル空間として,潜在空間の二重ビューを提案する。
本稿では,空間の二重性を明らかにする手法として,また,その組織を人間の言葉で活用するための解釈的方向として,ゆがみについて論じる。
この論文は、非絡み合いを想像力として条件付けの役割と比較し、この解釈を、デロイズ的ポテンシャルとヒュームの想像力の哲学と対立させる。
最後に,従来の生成モデルと最近のアーキテクチャの違いについて述べる。
The latent space of image generative models is a multi-dimensional space of compressed hidden visual knowledge. Its entity captivates computer scientists, digital artists, and media scholars alike. Latent space has become an aesthetic category in AI art, inspiring artistic techniques such as the latent space walk, exemplified by the works of Mario Klingemann and others. It is also viewed as cultural snapshots, encoding rich representations of our visual world. This paper proposes a double view of the latent space, as a multi-dimensional archive of culture and as a multi-dimensional space of potentiality. The paper discusses disentanglement as a method to elucidate the double nature of the space and as an interpretative direction to exploit its organization in human terms. The paper compares the role of disentanglement as potentiality to that of conditioning, as imagination, and confronts this interpretation with the philosophy of Deleuzian potentiality and Hume's imagination. Lastly, this paper notes the difference between traditional generative models and recent architectures. | 翻訳日:2024-10-30 16:38:28 公開日:2024-10-20 |
# QOPS: プロファイルの最適化による量子回路シミュレーション高速化のためのコンパイラフレームワーク
QOPS: A Compiler Framework for Quantum Circuit Simulation Acceleration with Profile Guided Optimizations ( http://arxiv.org/abs/2410.09326v1 ) ライセンス: Link先を確認 | Yu-Tsung Wu, Po-Hsuan Huang, Kai-Chieh Chang, Chia-Heng Tu, Shih-Hao Hung, | (参考訳) 量子回路シミュレーションは、量子ソフトウェアとハードウェアの進化において重要である。
物理量子コンピュータが利用可能になる前に、古典的コンピュータ上で量子回路シミュレーションを行うことにより、新しいアルゴリズムを開発し、評価することができる。
残念なことに、物理量子コンピュータと比較して、長いシミュレーション時間が量子アルゴリズムの急速な発展を妨げている。
古典的コンパイラが生成したコードを改善するために使用するフィードバック指向最適化スキームにヒントを得て、量子回路シミュレーションアクセラレーションのためのプロファイル誘導最適化(PGO)を実現する量子コンパイラフレームワークQOPSを提案する。
QOPSコンパイラは、回路シミュレーション中に性能データを収集する量子シミュレータを計測し、収集されたデータに基づいて量子回路の最適化バージョンを生成する。
実験の結果,PGOはベンチマークプログラムのシミュレーション時間を効果的に短縮できることがわかった。
特に、シミュレータ固有のPGO(仮想スワップ)をベンチマークに適用して、シミュレーション速度を1.19倍に加速することができる。
ハードウェア非依存のPGOでは、非最適化バージョンに対して21%のパフォーマンス向上を実現するブルートフォース機構(すべてのコンパイルフラグを反転させる)と比較して、PGOはブルートフォースアプローチよりも63分の1のコンパイル時間で16%のスピードアップを達成することができる。
Quantum circuit simulation is important in the evolution of quantum software and hardware. Novel algorithms can be developed and evaluated by performing quantum circuit simulations on classical computers before physical quantum computers are available. Unfortunately, compared with a physical quantum computer, a prolonged simulation time hampers the rapid development of quantum algorithms. Inspired by the feedback-directed optimization scheme used by classical compilers to improve the generated code, this work proposes a quantum compiler framework QOPS to enable profile-guided optimization (PGO) for quantum circuit simulation acceleration. The QOPS compiler instruments a quantum simulator to collect performance data during the circuit simulation and it then generates the optimized version of the quantum circuit based on the collected data. Experimental results show the PGO can effectively shorten the simulation time on our tested benchmark programs. Especially, the simulator-specific PGO (virtual swap) can be applied to the benchmarks to accelerate the simulation speed by a factor of 1.19. As for the hardware-independent PGO, compared with the brute force mechanism (turning on all available compilation flags), which achieves 21% performance improvement against the non-optimized version, the PGO can achieve 16% speedup with a factor of 63 less compilation time than the brute force approach. | 翻訳日:2024-10-30 15:03:38 公開日:2024-10-20 |
# QOPS: プロファイルの最適化による量子回路シミュレーション高速化のためのコンパイラフレームワーク
QOPS: A Compiler Framework for Quantum Circuit Simulation Acceleration with Profile Guided Optimizations ( http://arxiv.org/abs/2410.09326v2 ) ライセンス: Link先を確認 | Yu-Tsung Wu, Po-Hsuan Huang, Kai-Chieh Chang, Chia-Heng Tu, Shih-Hao Hung, | (参考訳) 量子回路シミュレーションは、量子ソフトウェアとハードウェアの進化において重要である。
物理量子コンピュータが利用可能になる前に、古典的コンピュータ上で量子回路シミュレーションを行うことにより、新しいアルゴリズムを開発し、評価することができる。
残念なことに、物理量子コンピュータと比較して、長いシミュレーション時間が量子アルゴリズムの急速な発展を妨げている。
古典的コンパイラが生成したコードを改善するために使用するフィードバック指向最適化スキームにヒントを得て、量子回路シミュレーションアクセラレーションのためのプロファイル誘導最適化(PGO)を実現する量子コンパイラフレームワークQOPSを提案する。
QOPSコンパイラは、回路シミュレーション中に性能データを収集する量子シミュレータを計測し、収集されたデータに基づいて量子回路の最適化バージョンを生成する。
実験の結果,PGOはベンチマークプログラムのシミュレーション時間を効果的に短縮できることがわかった。
特に、シミュレータ固有のPGO(仮想スワップ)をベンチマークに適用して、シミュレーション速度を1.19倍に加速することができる。
ハードウェア非依存のPGOでは、非最適化バージョンに対して21%のパフォーマンス向上を実現するブルートフォース機構(すべてのコンパイルフラグを反転させる)と比較して、PGOはブルートフォースアプローチよりも63分の1のコンパイル時間で16%のスピードアップを達成することができる。
Quantum circuit simulation is important in the evolution of quantum software and hardware. Novel algorithms can be developed and evaluated by performing quantum circuit simulations on classical computers before physical quantum computers are available. Unfortunately, compared with a physical quantum computer, a prolonged simulation time hampers the rapid development of quantum algorithms. Inspired by the feedback-directed optimization scheme used by classical compilers to improve the generated code, this work proposes a quantum compiler framework QOPS to enable profile-guided optimization (PGO) for quantum circuit simulation acceleration. The QOPS compiler instruments a quantum simulator to collect performance data during the circuit simulation and it then generates the optimized version of the quantum circuit based on the collected data. Experimental results show the PGO can effectively shorten the simulation time on our tested benchmark programs. Especially, the simulator-specific PGO (virtual swap) can be applied to the benchmarks to accelerate the simulation speed by a factor of 1.19. As for the hardware-independent PGO, compared with the brute force mechanism (turning on all available compilation flags), which achieves 21% performance improvement against the non-optimized version, the PGO can achieve 16% speedup with a factor of 63 less compilation time than the brute force approach. | 翻訳日:2024-10-30 15:03:38 公開日:2024-10-20 |
# 1+2次元動的デカップリング法による広範囲量子強化回転検出
Wide range quantum enhanced rotation sensing with 1+2 dimensional dynamical decoupling techniques ( http://arxiv.org/abs/2410.09367v1 ) ライセンス: Link先を確認 | X. N. Feng, L. F. Wei, | (参考訳) スピンフリップのための従来の$\pi$-pulsesの代わりに、$\pi$-phase シフトのシーケンスを利用して、運動力学的デカップリング法を提案し、1+2次元ハイブリッド原子サグニック干渉計を用いた量子増強回転センシングを実装した。
回転中の粒子の2次元振動モードからスピンを完全に切り離すことにより、スピンコヒーレンス時間と位相蓄積を著しく増大させることができる。
その結果、粒子のスピンと運動が完全に分離されていない以前のスキームと比較して、達成可能な感度と回転センシングのダイナミックレンジの両方を著しく拡張および同時に拡張することができる。
回転パラメータのあいまいな推定実験の可能性についても論じる。
願わくば、この技術は、通常の物質波サニャック干渉計に存在する特定の課題を、特に高感度と大きなダイナミックレンジの両方を必要とする実用的な慣性航法のために克服するであろう。
We propose a motional dynamical decoupling technique by utilizing a sequence of $\pi$-phase shifts, instead of the conventional $\pi$-pulses for spin flipping, to implement the quantum enhanced rotation sensing with a 1+2 dimensional hybrid atomic Sagnic interferometor. By fully disentangling the spin from the two-dimensional vibrational modes of the particle under rotation, the spin coherence time and thus the phase accumulation can be significantly increased. Consequently, both the achievable sensitivity and dynamic range of the rotation sensing can be significantly enhanced and extended simultaneously, compared to the previous schemes where the spin and motions of the particle were not completely decoupled. The experimental feasibility for the unambiguous estimation of the rotation parameters is also discussed. Hopefully, this technique holds promise for overcoming certain challenges existing in the usual matter-wave Sagnac interferometers with trapped particles, particularly for the practical inertial navigation that demands both high sensitivity and large dynamic range. | 翻訳日:2024-10-30 14:53:51 公開日:2024-10-20 |
# 1+2次元動的デカップリング法による広帯域量子強化回転検出
Wide-range quantum enhanced rotation sensing with 1+2 dimensional dynamical decoupling techniques ( http://arxiv.org/abs/2410.09367v2 ) ライセンス: Link先を確認 | X. N. Feng, L. F. Wei, | (参考訳) スピンフリップのための従来の$\pi$-pulsesの代わりに、$\pi$-phase シフトのシーケンスを利用して、運動力学的デカップリング法を提案し、1+2次元ハイブリッド原子サグニック干渉計を用いた量子増強回転センシングを実装した。
回転中の粒子の2次元振動モードからスピンを完全に切り離すことにより、スピンコヒーレンス時間と位相蓄積を著しく増大させることができる。
その結果、粒子のスピンと運動が完全に分離されていない以前のスキームと比較して、達成可能な感度と回転センシングのダイナミックレンジの両方を著しく拡張および同時に拡張することができる。
回転パラメータのあいまいな推定実験の可能性についても論じる。
願わくば、この技術は、通常の物質波サニャック干渉計に存在する特定の課題を、特に高感度と大きなダイナミックレンジの両方を必要とする実用的な慣性航法のために克服するであろう。
We propose a motional dynamical decoupling technique by utilizing a sequence of $\pi$-phase shifts, instead of the conventional $\pi$-pulses for spin flipping, to implement the quantum enhanced rotation sensing with a 1+2 dimensional hybrid atomic Sagnic interferometor. By fully disentangling the spin from the two-dimensional vibrational modes of the particle under rotation, the spin coherence time and thus the phase accumulation can be significantly increased. Consequently, both the achievable sensitivity and dynamic range of the rotation sensing can be significantly enhanced and extended simultaneously, compared to the previous schemes where the spin and motions of the particle were not completely decoupled. The experimental feasibility for the unambiguous estimation of the rotation parameters is also discussed. Hopefully, this technique holds promise for overcoming certain challenges existing in the usual matter-wave Sagnac interferometers with trapped particles, particularly for the practical inertial navigation that demands both high sensitivity and large dynamic range. | 翻訳日:2024-10-30 14:44:04 公開日:2024-10-20 |
# 拡散モデルを用いたテキスト対画像生成の中間表現
Intermediate Representations for Enhanced Text-To-Image Generation Using Diffusion Models ( http://arxiv.org/abs/2410.09792v1 ) ライセンス: Link先を確認 | Ran Galun, Sagie Benaim, | (参考訳) テキストと画像の拡散モデルは、高品質な出力を生成する素晴らしい能力を示している。
しかし、入力テキストの細かい空間情報を正確に追跡するのに苦労することが多い。
そこで本研究では,2段階に基づくテキスト・画像生成のための合成手法を提案する。
第1段階では,テキスト上で条件付けられた1つ以上の中間表現(深度やセグメンテーションマップなど)を生成する拡散に基づく生成モデルを設計する。
第2段階では、これらの表現をテキストとともに、別個の拡散ベース生成モデルを用いて最終出力画像にマッピングする。
以上の結果から,このような構成的アプローチにより画像生成が向上し,FIDスコアとCLIPスコアが向上することが示唆された。
Text-to-image diffusion models have demonstrated an impressive ability to produce high-quality outputs. However, they often struggle to accurately follow fine-grained spatial information in an input text. To this end, we propose a compositional approach for text-to-image generation based on two stages. In the first stage, we design a diffusion-based generative model to produce one or more aligned intermediate representations (such as depth or segmentation maps) conditioned on text. In the second stage, we map these representations, together with the text, to the final output image using a separate diffusion-based generative model. Our findings indicate that such compositional approach can improve image generation, resulting in a notable improvement in FID score and a comparable CLIP score, when compared to the standard non-compositional baseline. | 翻訳日:2024-10-30 04:52:52 公開日:2024-10-20 |
# 合成テキスト対画像生成のための中間表現の生成
Generating Intermediate Representations for Compositional Text-To-Image Generation ( http://arxiv.org/abs/2410.09792v2 ) ライセンス: Link先を確認 | Ran Galun, Sagie Benaim, | (参考訳) テキストと画像の拡散モデルは、高品質な出力を生成する素晴らしい能力を示している。
しかし、入力テキストの細かい空間情報を正確に追跡するのに苦労することが多い。
そこで本研究では,2段階に基づくテキスト・画像生成のための合成手法を提案する。
第1段階では,テキスト上で条件付けられた1つ以上の中間表現(深度やセグメンテーションマップなど)を生成する拡散に基づく生成モデルを設計する。
第2段階では、これらの表現をテキストとともに、別個の拡散ベース生成モデルを用いて最終出力画像にマッピングする。
以上の結果から,このような構成的アプローチにより画像生成が向上し,FIDスコアとCLIPスコアが向上することが示唆された。
Text-to-image diffusion models have demonstrated an impressive ability to produce high-quality outputs. However, they often struggle to accurately follow fine-grained spatial information in an input text. To this end, we propose a compositional approach for text-to-image generation based on two stages. In the first stage, we design a diffusion-based generative model to produce one or more aligned intermediate representations (such as depth or segmentation maps) conditioned on text. In the second stage, we map these representations, together with the text, to the final output image using a separate diffusion-based generative model. Our findings indicate that such compositional approach can improve image generation, resulting in a notable improvement in FID score and a comparable CLIP score, when compared to the standard non-compositional baseline. | 翻訳日:2024-10-30 04:52:52 公開日:2024-10-20 |
# Deep-Ace:LSTMを用いたプロカリーゼ性リジンアセチレーションサイト予測器
Deep-Ace: LSTM-based Prokaryotic Lysine Acetylation Site Predictor ( http://arxiv.org/abs/2410.09968v1 ) ライセンス: Link先を確認 | Maham Ilyasa, Abida Yasmeenc, Yaser Daanial Khanb, Arif Mahmood, | (参考訳) リジン残基 (K-Ace) のアセチレーションは、原核生物と真核生物の両方で起こる翻訳後修飾である。
病気の病理や細胞生物学において重要な役割を担っているため、これらのK-Ace部位を同定することが重要である。
これまで,手作りの特徴やエンコーディングを用いた機械学習モデルの多くは,K-Aceサイトの特徴の発見と解析に用いられてきたが,これらの手法はシーケンス内の長期的関係を無視し,性能劣化を観察する。
本稿では,Long-Short-Term-Memory(LSTM)ネットワークを用いたディープラーニングベースのフレームワークであるDeep-Aceを提案する。
このような関係は、識別的および効果的なシーケンス表現の学習に不可欠である。
本報告では, LSTMを用いて深部の特徴を抽出し, 8種類の原核生物モデル(B. subtilis, C. glutamicum, E. coli, G. kaustophilus, S. eriocheiris, B. velezensis, S. typhimurium, M. tuberculosis)の完全結合層を用いたK-Ace部位の予測を行った。
提案手法は, 前述した8種の細菌に対して, 0.80, 0.79, 0.71, 0.75, 0.80, 0.83, 0.756, 0.82 の精度で既存の最先端モデルよりも優れていた。
小修正の方法は真核生物のシステムに使用することができ、ヒトの様々な疾患の予後と診断のツールとして機能する。
Acetylation of lysine residues (K-Ace) is a post-translation modification occurring in both prokaryotes and eukaryotes. It plays a crucial role in disease pathology and cell biology hence it is important to identify these K-Ace sites. In the past, many machine learning-based models using hand-crafted features and encodings have been used to find and analyze the characteristics of K-Ace sites however these methods ignore long term relationships within sequences and therefore observe performance degradation. In the current work we propose Deep-Ace, a deep learning-based framework using Long-Short-Term-Memory (LSTM) network which has the ability to understand and encode long-term relationships within a sequence. Such relations are vital for learning discriminative and effective sequence representations. In the work reported here, the use of LSTM to extract deep features as well as for prediction of K-Ace sites using fully connected layers for eight different species of prokaryotic models (including B. subtilis, C. glutamicum, E. coli, G. kaustophilus, S. eriocheiris, B. velezensis, S. typhimurium, and M. tuberculosis) has been explored. Our proposed method has outperformed existing state of the art models achieving accuracy as 0.80, 0.79, 0.71, 0.75, 0.80, 0.83, 0.756, and 0.82 respectively for eight bacterial species mentioned above. The method with minor modifications can be used for eukaryotic systems and can serve as a tool for the prognosis and diagnosis of various diseases in humans. | 翻訳日:2024-10-30 03:53:37 公開日:2024-10-20 |
# Deep-Ace:LSTMを用いたプロカリーゼ性リジンアセチレーションサイト予測器
Deep-Ace: LSTM-based Prokaryotic Lysine Acetylation Site Predictor ( http://arxiv.org/abs/2410.09968v2 ) ライセンス: Link先を確認 | Maham Ilyas, Abida Yasmeen, Yaser Daanial Khan, Arif Mahmood, | (参考訳) リジン残基 (K-Ace) のアセチレーションは、原核生物と真核生物の両方で起こる翻訳後修飾である。
病気の病理や細胞生物学において重要な役割を担っているため、これらのK-Ace部位を同定することが重要である。
これまで,手作りの特徴やエンコーディングを用いた機械学習モデルの多くは,K-Aceサイトの特徴の発見と解析に用いられてきたが,これらの手法はシーケンス内の長期的関係を無視し,性能劣化を観察する。
本稿では,Long-Short-Term-Memory(LSTM)ネットワークを用いたディープラーニングベースのフレームワークであるDeep-Aceを提案する。
このような関係は、識別的および効果的なシーケンス表現の学習に不可欠である。
本報告では, LSTMを用いて深部の特徴を抽出し, 8種類の原核生物モデル(B. subtilis, C. glutamicum, E. coli, G. kaustophilus, S. eriocheiris, B. velezensis, S. typhimurium, M. tuberculosis)の完全結合層を用いたK-Ace部位の予測を行った。
提案手法は, 前述した8種の細菌に対して, 0.80, 0.79, 0.71, 0.75, 0.80, 0.83, 0.756, 0.82 の精度で既存の最先端モデルよりも優れていた。
小修正の方法は真核生物のシステムに使用することができ、ヒトの様々な疾患の予後と診断のツールとして機能する。
Acetylation of lysine residues (K-Ace) is a post-translation modification occurring in both prokaryotes and eukaryotes. It plays a crucial role in disease pathology and cell biology hence it is important to identify these K-Ace sites. In the past, many machine learning-based models using hand-crafted features and encodings have been used to find and analyze the characteristics of K-Ace sites however these methods ignore long term relationships within sequences and therefore observe performance degradation. In the current work we propose Deep-Ace, a deep learning-based framework using Long-Short-Term-Memory (LSTM) network which has the ability to understand and encode long-term relationships within a sequence. Such relations are vital for learning discriminative and effective sequence representations. In the work reported here, the use of LSTM to extract deep features as well as for prediction of K-Ace sites using fully connected layers for eight different species of prokaryotic models (including B. subtilis, C. glutamicum, E. coli, G. kaustophilus, S. eriocheiris, B. velezensis, S. typhimurium, and M. tuberculosis) has been explored. Our proposed method has outperformed existing state of the art models achieving accuracy as 0.80, 0.79, 0.71, 0.75, 0.80, 0.83, 0.756, and 0.82 respectively for eight bacterial species mentioned above. The method with minor modifications can be used for eukaryotic systems and can serve as a tool for the prognosis and diagnosis of various diseases in humans. | 翻訳日:2024-10-30 03:53:37 公開日:2024-10-20 |
# ダイナミックスのための潜在高次元定常幾何フローを持つ変分自己エンコーダ
Variational autoencoders with latent high-dimensional steady geometric flows for dynamics ( http://arxiv.org/abs/2410.10137v1 ) ライセンス: Link先を確認 | Andrew Gracyk, | (参考訳) 我々は, PDE型環境データに対する変動型オートエンコーダ(VAEs)に対するリーマン的アプローチを開発し, 幾何学的潜在力学を規則化し, VAE-DLM, 動的潜在多様体を持つVAEsと呼ぶ。
我々は、ユークリッド空間に埋め込まれた幾何学的流れを対象とする多様体幾何学が、エンコーダやデコーダによって開発された中間ラテント空間で学習されるようなVAEフレームワークを再開発する。
従来のエビデンス・ロー・バウンド(ELBO)の損失を事前の選択で再検討する。
我々は定常正規化項を持つ線形幾何流を開発する。
この幾何フローは1つの時間微分の自動微分しか必要とせず、物理学的インフォームドアプローチで適度に高次元で解けるので、より表現力のある潜在表現が可能である。
本稿では, この流れを勾配流として定式化し, エントロピーを計量特異点から遠ざける方法について論じる。
これは固有値のペナライズ条件とともに、多様体が測度、非退化、正準幾何学において十分に大きいことを保証するのに役立ち、堅牢な表現に寄与する。
本手法は,多様体エンコーダデコーダのタンハアクティベーションを付加した多層パーセプトロンアーキテクチャに焦点をあてる。
興味のあるデータセットで、我々の手法は、少なくとも従来のVAEと同様にパフォーマンスが良く、しばしばより良くなることを示す。
我々の手法は,提案したアーキテクチャで与えられた標準のVAEとVAEを最大25%のアウト・オブ・ディストリビューション(OOD)誤差で上回り,潜在的に大きい。
提案手法は, ソリューションがソリューションの最近の変化を最小限に抑える環境PDEに重点を置いている。
われわれのアプローチは特に重度のOOD効果に有利である。
我々は、潜在リーマン多様体がVAEによる外部力学の堅牢な学習をどのように改善するかを実証的に正当化する。
We develop Riemannian approaches to variational autoencoders (VAEs) for PDE-type ambient data with regularizing geometric latent dynamics, which we refer to as VAE-DLM, or VAEs with dynamical latent manifolds. We redevelop the VAE framework such that manifold geometries, subject to a geometric flow, embedded in Euclidean space are learned in the intermediary latent space developed by encoders and decoders. We reformulate the traditional evidence lower bound (ELBO) loss with a considerate choice of prior. We develop a linear geometric flow with a steady-state regularizing term. This geometric flow requires only automatic differentiation of one time derivative, and can be solved in moderately high dimensions in a physics-informed approach, allowing more expressive latent representations. We discuss how this flow can be formulated as a gradient flow, and maintains entropy away from metric singularity. This, along with an eigenvalue penalization condition, helps ensure the manifold is sufficiently large in measure, nondegenerate, and a canonical geometry, which contribute to a robust representation. Our methods focus on the modified multi-layer perceptron architecture with tanh activations for the manifold encoder-decoder. We demonstrate, on our datasets of interest, our methods perform at least as well as the traditional VAE, and oftentimes better. Our methods can outperform a standard VAE and a VAE endowed with our proposed architecture by up to 25% reduction in out-of-distribution (OOD) error and potentially greater. We highlight our method on ambient PDEs whose solutions maintain minimal variation in late times over its solution. Our approaches are particularly favorable with severe OOD effect. We provide empirical justification towards how latent Riemannian manifolds improve robust learning for external dynamics with VAEs. | 翻訳日:2024-10-30 02:54:14 公開日:2024-10-20 |
# ダイナミックスのための潜在高次元定常幾何フローを持つ変分自己エンコーダ
Variational autoencoders with latent high-dimensional steady geometric flows for dynamics ( http://arxiv.org/abs/2410.10137v2 ) ライセンス: Link先を確認 | Andrew Gracyk, | (参考訳) 我々は, PDE型環境データに対する変動型オートエンコーダ(VAEs)に対するリーマン的アプローチを開発し, 幾何学的潜在力学を規則化し, VAE-DLM, 動的潜在多様体を持つVAEsと呼ぶ。
我々は、ユークリッド空間に埋め込まれた幾何学的流れを対象とする多様体幾何学が、エンコーダやデコーダによって開発された中間ラテント空間で学習されるようなVAEフレームワークを再開発する。
潜在空間が進化する幾何学的流れを調整することにより、経験的性能に反映される選択の潜在幾何学的性質を誘導する。
従来のエビデンス・ロー・バウンド(ELBO)の損失を事前の選択で再検討する。
我々は定常正規化項を持つ線形幾何流を開発する。
この流れは1つの時間微分の自動微分しか必要とせず、物理学的インフォームドアプローチで適度に高次元で解けるため、より表現力のある潜在表現が可能である。
本稿では, この流れを勾配流として定式化し, エントロピーを計量特異点から遠ざける方法について論じる。
これは固有値のペナライズ条件とともに、多様体が測度、非退化、正準幾何学において十分に大きいことを保証するのに役立ち、堅牢な表現に寄与する。
本手法は,多様体エンコーダデコーダのタンハアクティベーションを付加した多層パーセプトロンアーキテクチャに焦点をあてる。
興味のあるデータセットで、我々の手法は、少なくとも従来のVAEと同様にパフォーマンスが良く、しばしばより良くなることを示す。
提案手法は,提案したアーキテクチャにより最大25%のアウト・オブ・ディストリビューション(OOD)エラーを低減し,潜在的に大きいVAEを実現することができる。
我々は,近年のソリューションが最小限の変動を維持できる環境PDEに焦点をあてる。
VAEによる外的ダイナミクスの堅牢な学習を改善するための実証的正当性を提供する。
We develop Riemannian approaches to variational autoencoders (VAEs) for PDE-type ambient data with regularizing geometric latent dynamics, which we refer to as VAE-DLM, or VAEs with dynamical latent manifolds. We redevelop the VAE framework such that manifold geometries, subject to our geometric flow, embedded in Euclidean space are learned in the intermediary latent space developed by encoders and decoders. By tailoring the geometric flow in which the latent space evolves, we induce latent geometric properties of our choosing, which are reflected in empirical performance. We reformulate the traditional evidence lower bound (ELBO) loss with a considerate choice of prior. We develop a linear geometric flow with a steady-state regularizing term. This flow requires only automatic differentiation of one time derivative, and can be solved in moderately high dimensions in a physics-informed approach, allowing more expressive latent representations. We discuss how this flow can be formulated as a gradient flow, and maintains entropy away from metric singularity. This, along with an eigenvalue penalization condition, helps ensure the manifold is sufficiently large in measure, nondegenerate, and a canonical geometry, which contribute to a robust representation. Our methods focus on the modified multi-layer perceptron architecture with tanh activations for the manifold encoder-decoder. We demonstrate, on our datasets of interest, our methods perform at least as well as the traditional VAE, and oftentimes better. Our methods can outperform this and a VAE endowed with our proposed architecture by up to 25% reduction in out-of-distribution (OOD) error and potentially greater. We highlight our method on ambient PDEs whose solutions maintain minimal variation in late times. We provide empirical justification towards how we can improve robust learning for external dynamics with VAEs. | 翻訳日:2024-10-30 02:54:14 公開日:2024-10-20 |
# ペアリング:パラメータデカップリングとテーラータニングによる検索言語モデルの知識選択の最適化
Parenting: Optimizing Knowledge Selection of Retrieval-Augmented Language Models with Parameter Decoupling and Tailored Tuning ( http://arxiv.org/abs/2410.10360v1 ) ライセンス: Link先を確認 | Yongxin Xu, Ruizhe Zhang, Xinke Jiang, Yujie Feng, Yuzhen Xiao, Xinyu Ma, Runchuan Zhu, Xu Chu, Junfeng Zhao, Yasha Wang, | (参考訳) Retrieval-Augmented Generation (RAG) は、幻覚生成や知識の陳腐化において、Large Language Models (LLM) が直面する問題に対する効果的な解決策を提供する。
しかし、内部知識と外部知識の対立や検索ノイズにより、LLMは外部証拠を効果的に統合するのに苦労し、性能が低下する。
既存の手法はこれらの課題に対処しようとするが、モデル適合性とロバスト性の間にバランスをとるのに苦労することが多く、結果として学習のばらつきが大きくなる。
人間の認知プロセスにインスパイアされたParentingは,LLMのパラメータ空間内でのアテンデンスとロバスト性を分離する新しいフレームワークである。
具体的には、フォワードアクティベーションゲインに基づくキーパラメータマイニング手法を用いて、密着性とロバスト性に強く結びついている重要なパラメータ単位を特定し、分離する。
次に、Parentingでは、異なる能力を表すパラメータ単位に対して、具体的かつ適切な微調整手法を適用し、密着性と堅牢性のバランスの取れた向上を実現する。
各種データセットおよびモデルに対する広範囲な実験により,本手法の有効性と一般化性が検証された。
Retrieval-Augmented Generation (RAG) offers an effective solution to the issues faced by Large Language Models (LLMs) in hallucination generation and knowledge obsolescence by incorporating externally retrieved knowledge. However, due to potential conflicts between internal and external knowledge, as well as retrieval noise, LLMs often struggle to effectively integrate external evidence, leading to a decline in performance. Although existing methods attempt to tackle these challenges, they often struggle to strike a balance between model adherence and robustness, resulting in significant learning variance. Inspired by human cognitive processes, we propose Parenting, a novel framework that decouples adherence and robustness within the parameter space of LLMs. Specifically, Parenting utilizes a key parameter mining method based on forward activation gain to identify and isolate the crucial parameter units that are strongly linked to adherence and robustness. Then, Parenting employs a type-guided tailored tuning strategy, applying specific and appropriate fine-tuning methods to parameter units representing different capabilities, aiming to achieve a balanced enhancement of adherence and robustness. Extensive experiments on various datasets and models validate the effectiveness and generalizability of our methods. | 翻訳日:2024-10-29 22:04:40 公開日:2024-10-20 |
# ペアリング:パラメータデカップリングとテーラータニングによる検索言語モデルの知識選択の最適化
Parenting: Optimizing Knowledge Selection of Retrieval-Augmented Language Models with Parameter Decoupling and Tailored Tuning ( http://arxiv.org/abs/2410.10360v2 ) ライセンス: Link先を確認 | Yongxin Xu, Ruizhe Zhang, Xinke Jiang, Yujie Feng, Yuzhen Xiao, Xinyu Ma, Runchuan Zhu, Xu Chu, Junfeng Zhao, Yasha Wang, | (参考訳) Retrieval-Augmented Generation (RAG) は、幻覚生成や知識の陳腐化において、Large Language Models (LLM) が直面する問題に対する効果的な解決策を提供する。
しかし、既存の手法では、内部知識と外部知識を統合するための効果的な制御機構が欠如している。
人間の認知プロセスにインスパイアされたParentingは,親密性と堅牢性に関連するパラメータ部分空間を分離し,識別し,目的的に最適化する新しいフレームワークである。
特に、Parentingでは、前方と後方の伝搬信号を組み合わせて異なる機能を表す部分空間をローカライズするキーパラメータマイニング手法を採用している。
次に、Parentingでは、異なるサブスペースに特定の適切な最適化を適用し、アテンデンスとロバスト性の両方のバランスよく向上することを目的として、タイプ調整型チューニング戦略を採用している。
各種データセットおよびモデルに対する広範囲な実験により,本手法の有効性と一般化性について検証した。
Retrieval-Augmented Generation (RAG) offers an effective solution to the issues faced by Large Language Models (LLMs) in hallucination generation and knowledge obsolescence by incorporating externally retrieved knowledge. However, existing methods lack effective control mechanisms for integrating internal and external knowledge. Inspired by human cognitive processes, we propose Parenting, a novel framework that decouples, identifies, and purposefully optimizes parameter subspaces related to adherence and robustness. Specifically, Parenting utilizes a key parameter mining method that combines forward and backward propagation signals to localize subspaces representing different capabilities. Then, Parenting employs a type-tailored tuning strategy, applying specific and appropriate optimizations to different subspaces, aiming to achieve a balanced enhancement of both adherence and robustness. Extensive experiments on various datasets and models validate the effectiveness and generalizability of our method. | 翻訳日:2024-10-29 22:04:40 公開日:2024-10-20 |
# SANA:線形拡散変換器を用いた高分解能高分解能画像合成
SANA: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformers ( http://arxiv.org/abs/2410.10629v1 ) ライセンス: Link先を確認 | Enze Xie, Junsong Chen, Junyu Chen, Han Cai, Yujun Lin, Zhekai Zhang, Muyang Li, Yao Lu, Song Han, | (参考訳) 最大4096$\times$4096解像度の画像を効率よく生成できるテキスト・ツー・イメージ・フレームワークである \model を紹介した。
\modelは、高解像度で高品質な画像を、強力なテキストイメージアライメントで驚くほど高速に合成し、ラップトップGPUにデプロイすることができる。
1) 深部圧縮オートエンコーダ: 8$\times$のみを圧縮する従来のAEとは異なり、32$\times$で画像を圧縮できるAEを訓練し、遅延トークンの数を効果的に削減した。
2) 線形DiT: 品質を犠牲にすることなく高分解能で高効率なDiTのバニラアテンションをリニアアテンションに置き換える。
(3)デコーダのみのテキストエンコーダ: テキストエンコーダとして, T5 を現代のデコーダのみの小型 LLM に置き換え, 画像テキストアライメントを強化するために, コンテクスト内学習を用いた複雑なヒューマンインストラクションを設計した。
(4) 効率的なトレーニングとサンプリング: 効率的なキャプションラベリング, コンバージェンスを高速化するセレクションにより, サンプリングステップを削減するフロー-DPM-ソルバーを提案する。
その結果、モデル-0.6Bは現代の巨大拡散モデル(例えば Flux-12B)と非常に競合し、測定スループットの20倍、100倍以上の速度である。
さらに、 \model-0.6Bは16GBのラップトップGPU上に展開でき、1秒未満で1024$\times$1024の解像度画像を生成する。
Sanaは低コストでコンテンツ作成を可能にする。
コードとモデルは公開されます。
We introduce \model, a text-to-image framework that can efficiently generate images up to 4096$\times$4096 resolution. \model can synthesize high-resolution, high-quality images with strong text-image alignment at a remarkably fast speed, deployable on laptop GPU. Core designs include: (1) Deep compression autoencoder: unlike traditional AEs, which compress images only 8$\times$, we trained an AE that can compress images 32$\times$, effectively reducing the number of latent tokens. (2) Linear DiT: we replace all vanilla attention in DiT with linear attention, which is more efficient at high resolutions without sacrificing quality. (3) Decoder-only text encoder: we replaced T5 with modern decoder-only small LLM as the text encoder and designed complex human instruction with in-context learning to enhance the image-text alignment. (4) Efficient training and sampling: we propose Flow-DPM-Solver to reduce sampling steps, with efficient caption labeling and selection to accelerate convergence. As a result, \model-0.6B is very competitive with modern giant diffusion model (e.g. Flux-12B), being 20 times smaller and 100+ times faster in measured throughput. Moreover, \model-0.6B can be deployed on a 16GB laptop GPU, taking less than 1 second to generate a 1024$\times$1024 resolution image. Sana enables content creation at low cost. Code and model will be publicly released. | 翻訳日:2024-10-29 20:35:30 公開日:2024-10-20 |
# SANA:線形拡散変換器を用いた高分解能高分解能画像合成
SANA: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformers ( http://arxiv.org/abs/2410.10629v2 ) ライセンス: Link先を確認 | Enze Xie, Junsong Chen, Junyu Chen, Han Cai, Haotian Tang, Yujun Lin, Zhekai Zhang, Muyang Li, Ligeng Zhu, Yao Lu, Song Han, | (参考訳) 私たちは、4096$\times$4096解像度までの画像を効率的に生成できるテキスト・ツー・イメージ・フレームワークであるSanaを紹介します。
Sanaは、高解像度で高品質な画像を、強力なテキストイメージアライメントで驚くほど高速に合成し、ラップトップGPUにデプロイすることができる。
1) 深部圧縮オートエンコーダ: 8$\times$のみを圧縮する従来のAEとは異なり、32$\times$で画像を圧縮できるAEを訓練し、遅延トークンの数を効果的に削減した。
2) 線形DiT: 品質を犠牲にすることなく高分解能で高効率なDiTのバニラアテンションをリニアアテンションに置き換える。
(3)デコーダのみのテキストエンコーダ: テキストエンコーダとして, T5 を現代のデコーダのみの小型 LLM に置き換え, 画像テキストアライメントを強化するために, コンテクスト内学習を用いた複雑なヒューマンインストラクションを設計した。
(4) 効率的なトレーニングとサンプリング: 効率的なキャプションラベリング, コンバージェンスを高速化するセレクションにより, サンプリングステップを削減するフロー-DPM-ソルバーを提案する。
その結果、Sana-0.6Bは現代の巨大拡散モデル(例えば Flux-12B)と非常に競合し、測定スループットの20倍、100倍以上の速度である。
さらに、Sana-0.6Bは16GBのラップトップGPUにデプロイでき、1秒未満で1024$\times$1024の解像度画像を生成する。
Sanaは低コストでコンテンツ作成を可能にする。
コードとモデルは公開されます。
We introduce Sana, a text-to-image framework that can efficiently generate images up to 4096$\times$4096 resolution. Sana can synthesize high-resolution, high-quality images with strong text-image alignment at a remarkably fast speed, deployable on laptop GPU. Core designs include: (1) Deep compression autoencoder: unlike traditional AEs, which compress images only 8$\times$, we trained an AE that can compress images 32$\times$, effectively reducing the number of latent tokens. (2) Linear DiT: we replace all vanilla attention in DiT with linear attention, which is more efficient at high resolutions without sacrificing quality. (3) Decoder-only text encoder: we replaced T5 with modern decoder-only small LLM as the text encoder and designed complex human instruction with in-context learning to enhance the image-text alignment. (4) Efficient training and sampling: we propose Flow-DPM-Solver to reduce sampling steps, with efficient caption labeling and selection to accelerate convergence. As a result, Sana-0.6B is very competitive with modern giant diffusion model (e.g. Flux-12B), being 20 times smaller and 100+ times faster in measured throughput. Moreover, Sana-0.6B can be deployed on a 16GB laptop GPU, taking less than 1 second to generate a 1024$\times$1024 resolution image. Sana enables content creation at low cost. Code and model will be publicly released. | 翻訳日:2024-10-29 20:35:30 公開日:2024-10-20 |
# SANA:線形拡散変換器を用いた高分解能高分解能画像合成
SANA: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformers ( http://arxiv.org/abs/2410.10629v3 ) ライセンス: Link先を確認 | Enze Xie, Junsong Chen, Junyu Chen, Han Cai, Haotian Tang, Yujun Lin, Zhekai Zhang, Muyang Li, Ligeng Zhu, Yao Lu, Song Han, | (参考訳) 私たちは、4096$\times$4096解像度までの画像を効率的に生成できるテキスト・ツー・イメージ・フレームワークであるSanaを紹介します。
Sanaは、高解像度で高品質な画像を、強力なテキストイメージアライメントで驚くほど高速に合成し、ラップトップGPUにデプロイすることができる。
1) 深部圧縮オートエンコーダ: 8$\times$のみを圧縮する従来のAEとは異なり、32$\times$で画像を圧縮できるAEを訓練し、遅延トークンの数を効果的に削減した。
2) 線形DiT: 品質を犠牲にすることなく高分解能で高効率なDiTのバニラアテンションをリニアアテンションに置き換える。
(3)デコーダのみのテキストエンコーダ: テキストエンコーダとして, T5 を現代のデコーダのみの小型 LLM に置き換え, 画像テキストアライメントを強化するために, コンテクスト内学習を用いた複雑なヒューマンインストラクションを設計した。
(4) 効率的なトレーニングとサンプリング: 効率的なキャプションラベリング, コンバージェンスを高速化するセレクションにより, サンプリングステップを削減するフロー-DPM-ソルバーを提案する。
その結果、Sana-0.6Bは現代の巨大拡散モデル(例えば Flux-12B)と非常に競合し、測定スループットの20倍、100倍以上の速度である。
さらに、Sana-0.6Bは16GBのラップトップGPUにデプロイでき、1秒未満で1024$\times$1024の解像度画像を生成する。
Sanaは低コストでコンテンツ作成を可能にする。
コードとモデルは公開されます。
We introduce Sana, a text-to-image framework that can efficiently generate images up to 4096$\times$4096 resolution. Sana can synthesize high-resolution, high-quality images with strong text-image alignment at a remarkably fast speed, deployable on laptop GPU. Core designs include: (1) Deep compression autoencoder: unlike traditional AEs, which compress images only 8$\times$, we trained an AE that can compress images 32$\times$, effectively reducing the number of latent tokens. (2) Linear DiT: we replace all vanilla attention in DiT with linear attention, which is more efficient at high resolutions without sacrificing quality. (3) Decoder-only text encoder: we replaced T5 with modern decoder-only small LLM as the text encoder and designed complex human instruction with in-context learning to enhance the image-text alignment. (4) Efficient training and sampling: we propose Flow-DPM-Solver to reduce sampling steps, with efficient caption labeling and selection to accelerate convergence. As a result, Sana-0.6B is very competitive with modern giant diffusion model (e.g. Flux-12B), being 20 times smaller and 100+ times faster in measured throughput. Moreover, Sana-0.6B can be deployed on a 16GB laptop GPU, taking less than 1 second to generate a 1024$\times$1024 resolution image. Sana enables content creation at low cost. Code and model will be publicly released. | 翻訳日:2024-10-29 20:35:30 公開日:2024-10-20 |